N-gram: Różnice pomiędzy wersjami
[wersja nieprzejrzana] | [wersja nieprzejrzana] |
Usunięta treść Dodana treść
Nie podano opisu zmian |
Nie podano opisu zmian |
||
Linia 1:
{{kategoria}}
'''N-gram''' - [[model językowy]] stosowany w [[Rozpoznawanie mowy|rozpoznawaniu mowy]]<ref>Jurafsky, D. & Martin, J. H. (2008). Speech and Language Processing, 2nd Edition, Prentice-Hall, Inc., New Jersey</ref>, <ref>B. Ziółko, D. Skurzok , "N-grams model for Polish", Speech and Language Technologies, Book 2, InTech Publisher, 2011.</ref>, <ref> [http://przetwarzaniemowy.pl Przetwarzanie mowy] (B. Ziółko, M. Ziółko, "Przetwarzanie mowy", Wydawnictwa AGH, 2011.)</ref>. N-gramy opierają się na statystykach i służą do przewidywania kolejnego elementu sekwencji. Stosuje się je głównie do słów, można jednak także na przykład do fonemów (a także do zastosowań niezwiązanych z lingiwstyką).
Zastosowanie n-gramów wymaga zgromadzenia odpowiednio dużego zasóbu danych statystycznych. Utworzenie modelu n-gramowego zaczyna się od zliczania wystąpień sekwencji o ustalonej długości n w istniejących zasobach językowych. Zwykle analizuje się całe teksty i zlicza wszystkie pojedyncze wystąpienia, dwójki i trójki. Aby uzyskać 4-gramy słów potrzebnych jest bardzo dużo danych językowych, co szczególnie dla języka polskiego jest trudne do zrealizowania.
Po przeanalizowaniu odpowiednio dużej ilości tekstu zamienia się liczbę wystąpień na prawdopodobieństwa poprzez normalizację. Dla języka polskiego <ref>[http://www.dsp.agh.edu.pl/doku.php?id=pl:resources:ngram Model N-gramowy języka polskiego Zespółu Przetwarzania Sygnałów [[Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie|AGH]] ]</ref> przeanalizowanie tekstów zawierających 300 000 000 słów daje dobry model 1-gramowy i dość dobry 2-gramowy. W celu utworzenia wiarygodnego modelu 3-gramowego potrzebne są
{{Przypisy}}
|