N-gram: Różnice pomiędzy wersjami

[wersja przejrzana][wersja przejrzana]
Usunięta treść Dodana treść
-pleonazm
m jęz.
Linia 5:
Po przeanalizowaniu odpowiednio dużej ilości tekstu zamienia się liczbę wystąpień na [[Prawdopodobieństwo|prawdopodobieństwa]] poprzez [[normalizacja|normalizację]]. Umożliwia to predykcje kolejnego elementu na podstawie sekwencji ''n'' dotychczasowych. Dla języka polskiego przeanalizowanie tekstów zawierających 300 000 000 słów daje dobry model 1-gramowy i satysfakcjonujący 2-gramowy. W celu utworzenia wiarygodnego modelu 3-gramowego potrzebne są dużo większe zasoby{{r|dsp.agh-resources-ngram}}. Duża ilość przeanalizowanego tekstu podnosi jakość modelu, aczkolwiek istnieją także metody umożliwiające ulepszenie n-gramowych modeli bez dodatkowych danych, w oparciu o wygładzanie zebranych statystyk{{r|Jurafsky}}.
 
Głównymi zaletami n-gramów są prostota i skalowalność. Poprzez zmianę ''n'' można tym samym schematem otrzymywać zarówno modele nie wymagająceniewymagające wielu danych treningowych, ale nie dająceniedające dużej mocy predykcyjnej, jak i modele wymagające wielu danych ale oferujące duże możliwości predykcyjne.
 
== Przypisy ==