Wersja z 00:23, 5 cze 2017 edytuj Kicior99 (dyskusja \| edycje) Redaktorzy, Uprawnieni do logowania się z zablokowanych adresów IP 65 897 edycji m Usunięto kategorię "Językoznawstwo"; Dodano kategorię "Fonologia" za pomocą HotCat ← poprzednia edycja		Wersja z 00:23, 5 cze 2017 edytuj anuluj edycję Kicior99 (dyskusja \| edycje) Redaktorzy, Uprawnieni do logowania się z zablokowanych adresów IP 65 897 edycji poprawa ujedn. następna edycja →
Linia 3: Zastosowanie n-gramów wymaga zgromadzenia odpowiednio dużego zasobu danych statystycznych – [[Korpus (językoznawstwo)\|korpusu]]. Utworzenie modelu n-gramowego zaczyna się od zliczania wystąpień sekwencji o ustalonej długości ''n'' w istniejących zasobach językowych. Zwykle analizuje się całe teksty i zlicza wszystkie pojedyncze wystąpienia (1-gramy, unigramy), dwójki (2-gramy, bigramy) i trójki (3-gramy, trigramy). Aby uzyskać 4-gramy słów potrzebnych jest bardzo dużo danych językowych, co szczególnie dla języka polskiego jest trudne do zrealizowania. Po przeanalizowaniu odpowiednio dużej ilości tekstu zamienia się liczbę wystąpień na [[Prawdopodobieństwo\|prawdopodobieństwa]] poprzez [[~~normalizacja~~Normalizacja (statystyka)\|normalizację]]. Umożliwia to predykcje kolejnego elementu na podstawie sekwencji ''n'' dotychczasowych. Dla języka polskiego przeanalizowanie tekstów zawierających 300 000 000 słów daje dobry model 1-gramowy i satysfakcjonujący 2-gramowy. W celu utworzenia wiarygodnego modelu 3-gramowego potrzebne są dużo większe zasoby{{r\|dsp.agh-resources-ngram}}. Duża ilość przeanalizowanego tekstu podnosi jakość modelu, aczkolwiek istnieją także metody umożliwiające ulepszenie n-gramowych modeli bez dodatkowych danych, w oparciu o wygładzanie zebranych statystyk{{r\|Jurafsky}}. Głównymi zaletami n-gramów są prostota i skalowalność. Poprzez zmianę ''n'' można tym samym schematem otrzymywać zarówno modele niewymagające wielu danych treningowych, ale niedające dużej mocy predykcyjnej, jak i modele wymagające wielu danych ale oferujące duże możliwości predykcyjne.

N-gram: Różnice pomiędzy wersjami