Wersja z 20:49, 6 wrz 2020 edytuj PBbot (dyskusja \| edycje) Boty 328 774 edycje zamiana „odnośnie” na „odnośnie do” ← poprzednia edycja		Wersja z 12:03, 4 lut 2021 edytuj anuluj edycję 89.64.72.10 (dyskusja) jęz. następna edycja →
Linia 1: [[Plik:Overfit.png\|thumb\|300px\|Zaszumione (w przybliżeniu liniowe) dane można dopasować zarówno do [[funkcja liniowa\|funkcji liniowej]] jak i [[wielomian]]u. Chociaż wielomian przechodzi przez każdy z punktów reprezentujących obserwacje, a prosta tylko przez kilka, jest ona zapewne lepszym przybliżeniem, gdyż wielomian przyjmuje ~~dziwne~~zbyt odstające wartości naprzy końcach przedziału.]] [[Plik:Overfitting_svg.svg\|thumb\|300px\|Nadmierne dopasowanie podczas tzw. uczenia nadzorowanego (np. w [[sieć neuronowa\|sieciach neuronowych]]). Błąd na [[zbiór uczący\|zbiorze uczącym]] jest zaznaczony kolorem niebieskim, błąd na [[zbiór testowy\|zbiorze testowym]] kolorem czerwonym. Jeśli błąd na zbiorze testowym rośnie, podczas gdy błąd na zbiorze uczącym maleje, to zwykle jest to związane ze zjawiskiem przeuczenia.]] '''Nadmierne dopasowanie,''' ~~przeuczenie,~~({{ang.\|overfitting}}) ~~przetrenowanie,~~a. ~~overfitting~~'''przeuczenie''' –(branż. ~~różne~~„przetrenowanie”, ~~stosowane~~{{ang.\|overtraining}}) – zjawisko w statystyce ~~nazwy tego samego zjawiska~~zachodzące, ~~zachodzącego~~ gdy [[model statystyczny]] ma zbyt dużo parametrów w stosunku do rozmiaru [[próba statystyczna\|próby]], na podstawie której był konstruowany. ~~Absurdalne~~W przypadku [[uczenie maszynowe\|uczenia maszynowego]] oznacza to, że absurdalne i fałszywe modele mogą świetnie pasować do danych uczących, gdy model ma wystarczającą złożoność, jednak będą dawały gorsze wyniki, gdy ~~zastosujemy~~zastosuje się je do danych, z którymi ~~się~~ nie zetknęły się podczas uczenia. Nadmierne dopasowanie jest w pewnym sensie pogwałceniem zasady [[brzytwa Ockhama\|brzytwy Ockhama]] (niemnożenia bytów ponad potrzebę). Kiedy [[liczba stopni swobody (statystyka)\|liczba stopni swobody]] modelu przekracza zawartość informacyjną danych, dobór parametrów staje się w dużym stopniu kwestią przypadku. Model zaczyna dopasowywać się do przypadkowych błędów w danych uczących, i tym samym zanika jego zdolność ~~generalizacji~~uogólniania i możliwość zastosowania modelu do innych podobnych danych, czyli główny cel modelowania. Prawdopodobieństwo przeuczenia zależy nie tylko od liczby parametrów i wielkości danych, lecz także adekwatności struktury modelu w odniesieniu do konkretnych danych oraz skali błędu modelu w porównaniu z oczekiwanym poziomem szumu w danych. Idea nadmiernego dopasowania jest ważna także w [[uczenie maszynowe\|uczeniu maszynowym]]. Sieci neuronowe, czy algorytmy genetyczne mają zwykle bardzo dużo zmieniających się w trakcie uczenia parametrów, a niektóre typowe problemy takie jak gra na [[giełda\|giełdzie]] w długim horyzoncie czasowym, badania [[genetyka\|genetyczne]], czy problemy [[makroekonomia\|makroekonomiczne]] generują niewielką liczbę niezależnych obserwacji. Wzrasta zatem ryzyko sytuacji w której np. sieć neuronowa ~~trenowana~~uczona na danych miesięcznych z kilku lat wydaje się być świetnym graczem giełdowym, a po zastosowaniu jej przewidywań w praktyce zyski nie odbiegają od inwestycji w indeks. Zwykle algorytm ~~uczący~~ jest ~~trenowany~~uczony na pewnym zbiorze przypadków (tzw. [[zbiór uczący]]), dla których znane są właściwe wyniki. Zakłada się, że po nauczeniu można zastosować algorytm do przewidywania wyników także dla innych przypadków, czyli algorytm w procesie uczenia uogólni prawidłowości w zbiorze uczącym na wszelkie podobne obserwacje. Jednakże szczególnie w sytuacji, gdy uczenie jest zbyt długie, lub gdy przypadki uczące są nieliczne, uczeń może ~~"wymyślić"~~„wymyślić” prawidłowości, które w rzeczywistości nie mają miejsca, a są efektem przypadkowych błędów w danych uczących. W wyniku tego przeuczenia spada jakość algorytmu zastosowanego do innych danych niż te, na których się uczył, choć dla danych uczących jest coraz lepszy. Zarówno w statystyce, jak i uczeniu maszynowym w celu uniknięcia nadmiernego dopasowania konieczne jest zastosowanie dodatkowych środków zapobiegawczych (np. [[zbiór testowy\|zbiorów testowych]], [[~~walidacja~~sprawdzian ~~krzyżowa~~krzyżowy\|~~walidacji~~sprawdzianu ~~krzyżowej~~krzyżowego]], [[bootstrap (statystyka)\|~~bootstrapu~~metod samowspornych]]), które pozwalają stwierdzić, w którym momencie dalsze uczenie zaczyna prowadzić do powstania gorszego modelu. Do kontroli nadmiernego dopasowania mogą się też przydawać testy [[istotność statystyczna\|istotności statystycznej]], które jednak na ogół mają pewne założenia odnośnie do [[rozkład zmiennej losowej\|rozkładu]] danych. W [[psychiatria\|psychiatrii]] odpowiednikiem nadmiernego dopasowania mogą być [[urojenie\|urojenia paranoiczne]]: złożone, spójne wewnętrznie, choć absurdalne modele świata (np. [[teoria spiskowa\|teorie spiskowe]]), tworzone na podstawie zbyt skąpych informacji przez pacjentów z objawami [[zespół paranoiczny\|zespołu paranoicznego]].

Nadmierne dopasowanie: Różnice pomiędzy wersjami