Nadmierne dopasowanie: Różnice pomiędzy wersjami

[wersja nieprzejrzana][wersja nieprzejrzana]
Usunięta treść Dodana treść
MastiBot (dyskusja | edycje)
m robot poprawia: ru:Переобучение
użyto złej formy gramatycznej w zdaniu
Linia 7:
Idea nadmiernego dopasowania jest ważna także w [[uczenie maszynowe|uczeniu maszynowym]]. Sieci neuronowe, czy algorytmy genetyczne mają zwykle bardzo dużo zmieniających się w trakcie uczenia parametrów, a niektóre typowe problemy takie jak gra na [[giełda|giełdzie]] w długim horyzoncie czasowym, badania [[genetyka|genetyczne]], czy problemy [[makroekonomia|makroekonomiczne]] generują niewielką liczbę niezależnych obserwacji. Wzrasta zatem ryzyko sytuacji w której np. sieć neuronowa trenowana na danych miesięcznych z kilku lat wydaje się być świetnym graczem giełdowym, a po zastosowaniu jej przewidywań w praktyce zyski nie odbiegają od inwestycji w indeks.
 
Zwykle algorytm uczący jest trenowany na pewnym zbiorze przypadków ([[zbiór uczący]]), dla których znanaznane jest właściwywłaściwe wynikówwyniki. Zakłada się, że po nauczeniu można zastosować algorytm do przewidywania wyników także dla innych przypadków, czyli algorytm w procesie uczenia uogólni prawidłowości w zbiorze uczącym na wszelkie podobne obserwacje. Jednakże szczególnie w sytuacji, gdy uczenie jest zbyt długie, lub gdy przypadki uczące są nieliczne, uczeń może "wymyśleć" prawidłowości, które w rzeczywistości nie mają miejsca, a są efektem przypadkowych błędów w danych uczących. W wyniku tego przeuczenia spada jakość algorytmu zastosowanego do innych danych niż te, na których się uczył, choć dla danych uczących jest coraz lepszy.
 
Zarówno w statystyce, jak i uczeniu maszynowym w celu uniknięcia nadmiernego dopasowania konieczne jest zastosowanie dodatkowych środków zapobiegawczych (np. [[zbiór testowy|zbiorów testowych]], [[walidacja krzyżowa|walidacji krzyżowej]], [[bootstrap (statystyka)|bootstrapu]]), które pozwalają stwierdzić, w którym momencie dalsze uczenie zaczyna prowadzić do powstania gorszego modelu. Do kontroli nadmiernego dopasowania mogą się też przydawać testy [[istotność statystyczna|istotności statystycznej]], które jednak na ogół mają pewne założenia odnośnie [[rozkład zmiennej losowej|rozkładu]] danych.