N-gram: Różnice pomiędzy wersjami

[wersja nieprzejrzana][wersja nieprzejrzana]
Usunięta treść Dodana treść
Bziolko (dyskusja | edycje)
uszczegolowienie linku wewnetrznego
Bziolko (dyskusja | edycje)
Nie podano opisu zmian
Linia 4:
Zastosowanie n-gramów wymaga zgromadzenia odpowiednio dużego zasobu danych statystycznych - [[Korpus_(językoznawstwo)|korpusu]]. Utworzenie modelu n-gramowego zaczyna się od zliczania wystąpień sekwencji o ustalonej długości ''n'' w istniejących zasobach językowych. Zwykle analizuje się całe teksty i zlicza wszystkie pojedyncze wystąpienia, dwójki i trójki. Aby uzyskać 4-gramy słów potrzebnych jest bardzo dużo danych językowych, co szczególnie dla języka polskiego jest trudne do zrealizowania.
 
Po przeanalizowaniu odpowiednio dużej ilości tekstu zamienia się liczbę wystąpień na [[Prawdopodobieństwo|prawdopodobieństwa]] poprzez [[normalizacja|normalizację]]. Dla języka polskiego przeanalizowanie tekstów zawierających 300 000 000 słów daje dobry model 1-gramowy i satysfakcjonujący 2-gramowy. W celu utworzenia wiarygodnego modelu 3-gramowego potrzebne są dużo większe zasoby <ref>[http://www.dsp.agh.edu.pl/doku.php?id=pl:resources:ngram Model N-gramowy języka polskiego Zespołu Przetwarzania Sygnałów [[Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie|AGH]] ]</ref>. Duża ilość przeanalizowanego tekstu podnosi jakość modelu, aczkolwiek istnieją także metody umożliwiające ulepszenie n-gramowych modeli bez dodatkowych danych, w oparciu o wygładzanie zebranych statystyk<ref name="Jurafsky"> Jurafsky, D. & Martin, J. H. (2008). Speech and Language Processing, 2nd Edition, Prentice-Hall, Inc., New Jersey</ref>, <ref name="przetwarzaniemowy"> [http://przetwarzaniemowy.pl Przetwarzanie mowy] (B. Ziółko, M. Ziółko, "Przetwarzanie mowy", Wydawnictwa AGH, 2011.)</ref>.
 
{{Przypisy}}