N-gram: Różnice pomiędzy wersjami
[wersja przejrzana] | [wersja przejrzana] |
Usunięta treść Dodana treść
m Usunięto kategorię "Językoznawstwo"; Dodano kategorię "Fonologia" za pomocą HotCat |
|||
Linia 3:
Zastosowanie n-gramów wymaga zgromadzenia odpowiednio dużego zasobu danych statystycznych – [[Korpus (językoznawstwo)|korpusu]]. Utworzenie modelu n-gramowego zaczyna się od zliczania wystąpień sekwencji o ustalonej długości ''n'' w istniejących zasobach językowych. Zwykle analizuje się całe teksty i zlicza wszystkie pojedyncze wystąpienia (1-gramy, unigramy), dwójki (2-gramy, bigramy) i trójki (3-gramy, trigramy). Aby uzyskać 4-gramy słów potrzebnych jest bardzo dużo danych językowych, co szczególnie dla języka polskiego jest trudne do zrealizowania.
Po przeanalizowaniu odpowiednio dużej ilości tekstu zamienia się liczbę wystąpień na [[Prawdopodobieństwo|prawdopodobieństwa]] poprzez [[
Głównymi zaletami n-gramów są prostota i skalowalność. Poprzez zmianę ''n'' można tym samym schematem otrzymywać zarówno modele niewymagające wielu danych treningowych, ale niedające dużej mocy predykcyjnej, jak i modele wymagające wielu danych ale oferujące duże możliwości predykcyjne.
|