Wersja z 12:25, 22 cze 2013 edytuj Bziolko (dyskusja \| edycje) 596 edycji Nie podano opisu zmian ← poprzednia edycja		Wersja z 12:30, 22 cze 2013 edytuj anuluj edycję Bziolko (dyskusja \| edycje) 596 edycji Nie podano opisu zmian następna edycja →
Linia 1: {{kategoria}} '''N-gram''' - [[model językowy]] stosowany w [[Rozpoznawanie mowy\|rozpoznawaniu mowy]]<ref>Jurafsky, D. & Martin, J. H. (2008). Speech and Language Processing, 2nd Edition, Prentice-Hall, Inc., New Jersey</ref>, <ref>B. Ziółko, D. Skurzok , "N-grams model for Polish", Speech and Language Technologies, Book 2, InTech Publisher, 2011.</ref>, <ref> [http://przetwarzaniemowy.pl Przetwarzanie mowy] (B. Ziółko, M. Ziółko, "Przetwarzanie mowy", Wydawnictwa AGH, 2011.)</ref>. N-gramy opierają się na statystykach i służą do przewidywania kolejnego elementu sekwencji. Stosuje się je głównie do słów, można jednak także na przykład do fonemów (a także do zastosowań niezwiązanych z lingiwstyką). Zastosowanie n-gramów wymaga zgromadzenia odpowiednio dużego zasóbu danych statystycznych. Utworzenie modelu n-gramowego zaczyna się od zliczania wystąpień sekwencji o ustalonej długości n w istniejących zasobach językowych. Zwykle analizuje się całe teksty i zlicza wszystkie pojedyncze wystąpienia, dwójki i trójki. Aby uzyskać 4-gramy słów potrzebnych jest bardzo dużo danych językowych, co szczególnie dla języka polskiego jest trudne do zrealizowania. Po przeanalizowaniu odpowiednio dużej ilości tekstu zamienia się liczbę wystąpień na prawdopodobieństwa poprzez normalizację. Dla języka polskiego <ref>[http://www.dsp.agh.edu.pl/doku.php?id=pl:resources:ngram Model N-gramowy języka polskiego Zespółu Przetwarzania Sygnałów [[Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie\|AGH]] ]</ref> przeanalizowanie tekstów zawierających 300 000 000 słów daje dobry model 1-gramowy i dość dobry 2-gramowy. W celu utworzenia wiarygodnego modelu 3-gramowego potrzebne są ~~jednak~~ dużo większe zasoby. Duża ilość przeanalizowanego tekstu podnosi jakość modelu, aczkolwiek istnieją także metody umożliwiające ulepszenie n-gramowych modeli bez dodatkowych danych, w oparciu o wygładzanie zebranych statystyk <ref>Jurafsky, ~~[http://przetwarzaniemowy~~D.pl ~~Przetwarzanie~~& ~~mowy]~~Martin, J. H. (~~polska~~2008). ~~książka~~Speech oand ~~rozpoznawaniu~~Language ~~mowy)~~Processing, 2nd Edition, Prentice-Hall, Inc., New Jersey</ref>. {{Przypisy}}

N-gram: Różnice pomiędzy wersjami