N-gram: Różnice pomiędzy wersjami

[wersja nieprzejrzana][wersja nieprzejrzana]
Usunięta treść Dodana treść
Bziolko (dyskusja | edycje)
Nie podano opisu zmian
Bziolko (dyskusja | edycje)
Nie podano opisu zmian
Linia 1:
{{kategoria}}
'''N-gram''' - [[model językowy]] stosowany w [[Rozpoznawanie mowy|rozpoznawaniu mowy]]<ref>Jurafsky, D. & Martin, J. H. (2008). Speech and Language Processing, 2nd Edition, Prentice-Hall, Inc., New Jersey</ref>, <ref>B. Ziółko, D. Skurzok , "N-grams model for Polish", Speech and Language Technologies, Book 2, InTech Publisher, 2011.</ref>, <ref> [http://przetwarzaniemowy.pl Przetwarzanie mowy] (B. Ziółko, M. Ziółko, "Przetwarzanie mowy", Wydawnictwa AGH, 2011.)</ref>. N-gramy opierają się na statystykach i służą do przewidywania kolejnego elementu sekwencji. Stosuje się je głównie do słów, można jednak także na przykład do fonemów (a także do zastosowań niezwiązanych z lingiwstyką).
 
Zastosowanie n-gramów wymaga zgromadzenia odpowiednio dużego zasóbu danych statystycznych. Utworzenie modelu n-gramowego zaczyna się od zliczania wystąpień sekwencji o ustalonej długości n w istniejących zasobach językowych. Zwykle analizuje się całe teksty i zlicza wszystkie pojedyncze wystąpienia, dwójki i trójki. Aby uzyskać 4-gramy słów potrzebnych jest bardzo dużo danych językowych, co szczególnie dla języka polskiego jest trudne do zrealizowania.
 
Po przeanalizowaniu odpowiednio dużej ilości tekstu zamienia się liczbę wystąpień na prawdopodobieństwa poprzez normalizację. Dla języka polskiego <ref>[http://www.dsp.agh.edu.pl/doku.php?id=pl:resources:ngram Model N-gramowy języka polskiego Zespółu Przetwarzania Sygnałów [[Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie|AGH]] ]</ref> przeanalizowanie tekstów zawierających 300 000 000 słów daje dobry model 1-gramowy i dość dobry 2-gramowy. W celu utworzenia wiarygodnego modelu 3-gramowego potrzebne są jednak dużo większe zasoby. Duża ilość przeanalizowanego tekstu podnosi jakość modelu, aczkolwiek istnieją także metody umożliwiające ulepszenie n-gramowych modeli bez dodatkowych danych, w oparciu o wygładzanie zebranych statystyk <ref>Jurafsky, [http://przetwarzaniemowyD.pl Przetwarzanie& mowy]Martin, J. H. (polska2008). książkaSpeech oand rozpoznawaniuLanguage mowy)Processing, 2nd Edition, Prentice-Hall, Inc., New Jersey</ref>.
 
{{Przypisy}}