Nadmierne dopasowanie

Nadmierne dopasowanie (ang. overfitting) a. przeuczenie (branż. „przetrenowanie”, ang. overtraining) – zjawisko w statystyce zachodzące, gdy model statystyczny ma zbyt dużo parametrów w stosunku do rozmiaru próby, na podstawie której był konstruowany. W przypadku uczenia maszynowego oznacza to, że absurdalne i fałszywe modele mogą świetnie pasować do danych uczących, gdy model ma wystarczającą złożoność, jednak będą dawały gorsze wyniki, gdy zastosuje się je do danych, z którymi nie zetknęły się podczas uczenia.

Zaszumione dane liniowe można dopasować zarówno do funkcji liniowej, jak i wielomianu. Chociaż wielomian przechodzi przez każdy z punktów reprezentujących obserwacje, a prosta tylko przez kilka, jest ona zapewne lepszym przybliżeniem, gdyż wielomian przyjmuje zbyt odstające wartości przy końcach przedziału.

Nadmierne dopasowanie jest w pewnym sensie pogwałceniem zasady brzytwy Ockhama (niemnożenia bytów ponad potrzebę). Kiedy liczba stopni swobody modelu przekracza zawartość informacyjną danych, dobór parametrów staje się w dużym stopniu kwestią przypadku. Model zaczyna dopasowywać się do przypadkowych błędów w danych uczących, i tym samym zanika jego zdolność uogólniania i możliwość zastosowania modelu do innych podobnych danych, czyli główny cel modelowania. Prawdopodobieństwo przeuczenia zależy nie tylko od liczby parametrów i wielkości danych, lecz także adekwatności struktury modelu w odniesieniu do konkretnych danych oraz skali błędu modelu w porównaniu z oczekiwanym poziomem szumu w danych.

Idea nadmiernego dopasowania jest ważna także w uczeniu maszynowym. Sieci neuronowe, czy algorytmy genetyczne mają zwykle bardzo dużo zmieniających się w trakcie uczenia parametrów, a niektóre typowe problemy takie jak gra na giełdzie w długim horyzoncie czasowym, badania genetyczne, czy problemy makroekonomiczne generują niewielką liczbę niezależnych obserwacji. Wzrasta zatem ryzyko sytuacji w której np. sieć neuronowa uczona na danych miesięcznych z kilku lat wydaje się być świetnym graczem giełdowym, a po zastosowaniu jej przewidywań w praktyce zyski nie odbiegają od inwestycji w indeks.

Zwykle algorytm jest uczony na pewnym zbiorze przypadków (tzw. zbiór uczący), dla których znane są właściwe wyniki. Zakłada się, że po nauczeniu można zastosować algorytm do przewidywania wyników także dla innych przypadków, czyli algorytm w procesie uczenia uogólni prawidłowości w zbiorze uczącym na wszelkie podobne obserwacje. Jednakże szczególnie w sytuacji, gdy uczenie jest zbyt długie, lub gdy przypadki uczące są nieliczne, uczeń może „wymyślić” prawidłowości, które w rzeczywistości nie mają miejsca, a są efektem przypadkowych błędów w danych uczących. W wyniku tego przeuczenia spada jakość algorytmu zastosowanego do innych danych niż te, na których się uczył, choć dla danych uczących jest coraz lepszy.

Zarówno w statystyce, jak i uczeniu maszynowym w celu uniknięcia nadmiernego dopasowania konieczne jest zastosowanie dodatkowych środków zapobiegawczych (np. zbiorów testowych, sprawdzianu krzyżowego, metod samowspornych), które pozwalają stwierdzić, w którym momencie dalsze uczenie zaczyna prowadzić do powstania gorszego modelu. Do kontroli nadmiernego dopasowania mogą się też przydawać testy istotności statystycznej, które jednak na ogół mają pewne założenia odnośnie do rozkładu danych.

W psychiatrii odpowiednikiem nadmiernego dopasowania mogą być urojenia paranoiczne: złożone, spójne wewnętrznie, choć absurdalne modele świata (np. teorie spiskowe), tworzone na podstawie zbyt skąpych informacji przez pacjentów z objawami zespołu paranoicznego.

Zobacz też

Bibliografia

(ang.) Tetko, I.V.; Livingstone, D.J.; Luik, A.I. Neural network studies. 1. Comparison of Overfitting and Overtraining, J. Chem. Inf. Comput. Sci., 1995, 35, 826-833

Linki zewnętrzne

The Problem of Overfitting Data (ang.)