Wersja z 21:02, 20 paź 2021 edytuj Kecz (dyskusja \| edycje) 1 edycja m Brakuje cytatu, oznaczone zdanie jest niemal żywcem skopiowane ze źródła, które dodałem. Znacznik: VisualEditor: przełączono ← poprzednia edycja		Aktualna wersja na dzień 22:32, 23 gru 2022 edytuj anuluj edycję Chrumps (dyskusja \| edycje) Redaktorzy, Administratorzy 50 054 edycje m WP:SK+ToS+mSI+Bn, kat.
Linia 1: '''N-gram''' – model językowy stosowany w [[Rozpoznawanie mowy\|rozpoznawaniu mowy]]{{r\|Jurafsky\|B Ziółko D Skurzok N grams~~}}{{r~~\|przetwarzaniemowy}}. N-gramy opierają się na statystykach i służą do przewidywania kolejnego elementu sekwencji. Stosowane są głównie do słów, jak również na przykład do [[fonem]]ów (a także do zastosowań niezwiązanych z [[Językoznawstwo\|lingwistyką]], jak np. [[biologia obliczeniowa]]). Zastosowanie n-gramów wymaga zgromadzenia odpowiednio dużego zasobu danych statystycznych – [[Korpus (językoznawstwo)\|korpusu]]. Utworzenie modelu n-gramowego zaczyna się od zliczania wystąpień sekwencji o ustalonej długości ''n'' w istniejących zasobach językowych. Zwykle analizuje się całe teksty i zlicza wszystkie pojedyncze wystąpienia (1-gramy, unigramy), dwójki (2-gramy, bigramy) i trójki (3-gramy, trigramy). Aby uzyskać 4-gramy słów potrzebnych jest bardzo dużo danych językowych, co szczególnie dla języka polskiego jest trudne do zrealizowania. Linia 5: Po przeanalizowaniu odpowiednio dużej ilości tekstu zamienia się liczbę wystąpień na [[Prawdopodobieństwo\|prawdopodobieństwa]] poprzez [[Normalizacja (statystyka)\|normalizację]]. Umożliwia to predykcje kolejnego elementu na podstawie sekwencji ''n'' dotychczasowych. Dla języka polskiego przeanalizowanie tekstów zawierających 300 000 000 słów daje dobry model 1-gramowy i satysfakcjonujący 2-gramowy. W celu utworzenia wiarygodnego modelu 3-gramowego potrzebne są dużo większe zasoby{{r\|dsp.agh-resources-ngram}}. Duża ilość przeanalizowanego tekstu podnosi jakość modelu, aczkolwiek istnieją także metody umożliwiające ulepszenie n-gramowych modeli bez dodatkowych danych, w oparciu o wygładzanie zebranych statystyk{{r\|Jurafsky\|przetwarzaniemowy}}. Głównymi zaletami n-gramów są prostota i skalowalność. Poprzez zmianę ''n'' można tym samym schematem otrzymywać zarówno modele niewymagające wielu danych treningowych, ale niedające dużej mocy predykcyjnej, jak i modele wymagające wielu danych, ale oferujące duże możliwości predykcyjne. == Przypisy == <references> ~~{{Przypisy\|~~ <ref name="B Ziółko D Skurzok N grams">B. Ziółko, D. Skurzok , "N„N-grams model for ~~Polish"~~Polish”, Speech and Language Technologies, Book 2, InTech Publisher, 2011.</ref> <ref name="dsp.agh-resources-ngram">[http://www.dsp.agh.edu.pl/doku.php?id=pl:resources:ngram Model N-gramowy języka polskiego Zespołu Przetwarzania Sygnałów] [[Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie\|AGH]] .</ref> <ref name="Jurafsky">Jurafsky, D. & Martin, J. H. (2008). Speech and Language Processing, 2nd Edition, Prentice-Hall, Inc., New Jersey.</ref> <ref name="przetwarzaniemowy">[http://przetwarzaniemowy.pl Przetwarzanie mowy] (B. Ziółko, M. Ziółko, ~~"Przetwarzanie~~„Przetwarzanie ~~mowy"~~mowy”, Wydawnictwa AGH, 2011.).</ref> </references> }} [[Kategoria:Sztuczna inteligencja]] [[Kategoria:Fonologia]] [[Kategoria:Rozpoznawanie wzorców]] [[Kategoria:Lingwistyka komputerowa]]

N-gram: Różnice pomiędzy wersjami