Nadmierne dopasowanie: Różnice pomiędzy wersjami

[wersja przejrzana][wersja przejrzana]
Usunięta treść Dodana treść
PBbot (dyskusja | edycje)
zamiana „odnośnie” na „odnośnie do”
jęz.
Linia 1:
[[Plik:Overfit.png|thumb|300px|Zaszumione (w przybliżeniu liniowe) dane można dopasować zarówno do [[funkcja liniowa|funkcji liniowej]] jak i [[wielomian]]u. Chociaż wielomian przechodzi przez każdy z punktów reprezentujących obserwacje, a prosta tylko przez kilka, jest ona zapewne lepszym przybliżeniem, gdyż wielomian przyjmuje dziwnezbyt odstające wartości naprzy końcach przedziału.]]
[[Plik:Overfitting_svg.svg|thumb|300px|Nadmierne dopasowanie podczas tzw. uczenia nadzorowanego (np. w [[sieć neuronowa|sieciach neuronowych]]). Błąd na [[zbiór uczący|zbiorze uczącym]] jest zaznaczony kolorem niebieskim, błąd na [[zbiór testowy|zbiorze testowym]] kolorem czerwonym. Jeśli błąd na zbiorze testowym rośnie, podczas gdy błąd na zbiorze uczącym maleje, to zwykle jest to związane ze zjawiskiem przeuczenia.]]
'''Nadmierne dopasowanie,''' przeuczenie,({{ang.|overfitting}}) przetrenowanie,a. overfitting'''przeuczenie''' (branż. różne„przetrenowanie”, stosowane{{ang.|overtraining}}) – zjawisko w statystyce nazwy tego samego zjawiskazachodzące, zachodzącego gdy [[model statystyczny]] ma zbyt dużo parametrów w stosunku do rozmiaru [[próba statystyczna|próby]], na podstawie której był konstruowany. AbsurdalneW przypadku [[uczenie maszynowe|uczenia maszynowego]] oznacza to, że absurdalne i fałszywe modele mogą świetnie pasować do danych uczących, gdy model ma wystarczającą złożoność, jednak będą dawały gorsze wyniki, gdy zastosujemyzastosuje się je do danych, z którymi się nie zetknęły się podczas uczenia.
 
Nadmierne dopasowanie jest w pewnym sensie pogwałceniem zasady [[brzytwa Ockhama|brzytwy Ockhama]] (niemnożenia bytów ponad potrzebę). Kiedy [[liczba stopni swobody (statystyka)|liczba stopni swobody]] modelu przekracza zawartość informacyjną danych, dobór parametrów staje się w dużym stopniu kwestią przypadku. Model zaczyna dopasowywać się do przypadkowych błędów w danych uczących, i tym samym zanika jego zdolność generalizacjiuogólniania i możliwość zastosowania modelu do innych podobnych danych, czyli główny cel modelowania. Prawdopodobieństwo przeuczenia zależy nie tylko od liczby parametrów i wielkości danych, lecz także adekwatności struktury modelu w odniesieniu do konkretnych danych oraz skali błędu modelu w porównaniu z oczekiwanym poziomem szumu w danych.
 
Idea nadmiernego dopasowania jest ważna także w [[uczenie maszynowe|uczeniu maszynowym]]. Sieci neuronowe, czy algorytmy genetyczne mają zwykle bardzo dużo zmieniających się w trakcie uczenia parametrów, a niektóre typowe problemy takie jak gra na [[giełda|giełdzie]] w długim horyzoncie czasowym, badania [[genetyka|genetyczne]], czy problemy [[makroekonomia|makroekonomiczne]] generują niewielką liczbę niezależnych obserwacji. Wzrasta zatem ryzyko sytuacji w której np. sieć neuronowa trenowanauczona na danych miesięcznych z kilku lat wydaje się być świetnym graczem giełdowym, a po zastosowaniu jej przewidywań w praktyce zyski nie odbiegają od inwestycji w indeks.
 
Zwykle algorytm uczący jest trenowanyuczony na pewnym zbiorze przypadków (tzw. [[zbiór uczący]]), dla których znane są właściwe wyniki. Zakłada się, że po nauczeniu można zastosować algorytm do przewidywania wyników także dla innych przypadków, czyli algorytm w procesie uczenia uogólni prawidłowości w zbiorze uczącym na wszelkie podobne obserwacje. Jednakże szczególnie w sytuacji, gdy uczenie jest zbyt długie, lub gdy przypadki uczące są nieliczne, uczeń może "wymyślić"„wymyślić” prawidłowości, które w rzeczywistości nie mają miejsca, a są efektem przypadkowych błędów w danych uczących. W wyniku tego przeuczenia spada jakość algorytmu zastosowanego do innych danych niż te, na których się uczył, choć dla danych uczących jest coraz lepszy.
 
Zarówno w statystyce, jak i uczeniu maszynowym w celu uniknięcia nadmiernego dopasowania konieczne jest zastosowanie dodatkowych środków zapobiegawczych (np. [[zbiór testowy|zbiorów testowych]], [[walidacjasprawdzian krzyżowakrzyżowy|walidacjisprawdzianu krzyżowejkrzyżowego]], [[bootstrap (statystyka)|bootstrapumetod samowspornych]]), które pozwalają stwierdzić, w którym momencie dalsze uczenie zaczyna prowadzić do powstania gorszego modelu. Do kontroli nadmiernego dopasowania mogą się też przydawać testy [[istotność statystyczna|istotności statystycznej]], które jednak na ogół mają pewne założenia odnośnie do [[rozkład zmiennej losowej|rozkładu]] danych.
 
W [[psychiatria|psychiatrii]] odpowiednikiem nadmiernego dopasowania mogą być [[urojenie|urojenia paranoiczne]]: złożone, spójne wewnętrznie, choć absurdalne modele świata (np. [[teoria spiskowa|teorie spiskowe]]), tworzone na podstawie zbyt skąpych informacji przez pacjentów z objawami [[zespół paranoiczny|zespołu paranoicznego]].