Kompromis między obciążeniem a wariancją

Kompromis między obciążeniem a wariancją (in. przetarg, dylemat, ang. bias-variance tradeoff) – problem leżący u podstaw modelowania w statystyce i uczeniu maszynowym, który polega na sprzeczności między redukcją obciążenia i wariancji estymatorów statystycznych. Do wysokiego błędu modelu poza próbą treningową może prowadzić zarówno jego nadmierne uproszczenie (wysokie obciążenie), jak i nadmiernie szczegółowa wrażliwość (wysoka wariancja). Choć obciążenie jest z zasady niepożądane, niepożądana jest także wariancja estymatora. Estymator o najmniejszym obciążeniu nie musi być w praktyce najlepszym narzędziem wobec badanego problemu, co obrazuje np. paradoks Steina.

Wykres przedstawiający liniowe komponenty błędu modelu, oraz ich sumę, w zależności od złożoności modelu. Złożony model jest z konstrukcji funkcji błędu mało obciążony, ale ma dużą wariancję – i vice versa.
Błąd modelu dekomponuje się na jego obciążenie i wariancję, oraz błąd nieredukowalny. Minimalizacja błędu modelu wiąże się z wyważeniem kompromisu pomiędzy komponentem obciążenia i wariancji.
Wykres przedstawiający błąd modelu, w zależności od jego złożoności, w próbie treningowej, i nowych danych.
Wraz ze wzrostem liczby stopni swobody modelu (na osi X), jego dopasowanie w próbie która służy do pierwszej estymacji polepsza się (niebieska linia), ale dopasowanie do nowych danych z całej populacji zmniejsza się tylko do pewnego momentu, aby odtąd wzrastać (czerwona linia). Jest to zjawisko nadmiernego dopasowania do próby treningowej i ilustracja kompromisu między obciążeniem a wariancją.

Opis tego problemu oferuje matematyczną formalizację takich zjawisk jak nadmierne dopasowanie, które motywują stosowanie przeciwdziałających mu narzędzi takich jak statystyki odpornościowe, regularyzacja, metody zespołowe czy bagging[1]. Występuje we wszystkich postaciach uczenia nadzorowanego; przywołano go także do wyjaśnienia efektywności heurystyk poznawczych stosowanych przez ludzi[2].

Choć przykłady tego zjawiska były znane już wcześniej, jego konceptualizację jako „kompromis” wprowadzili do nauki S. Geman, E. Bienenstock i R. Doursat w 1992 r., w publikacji dotyczącej błędu uczenia sieci neuronowych[3].

Dekompozycja błędu na obciążenie i wariancję modelu

edytuj

Funkcja oczekiwanego błędu średniokwadratowego estymatora poddaje się matematycznej dekompozycji na sumę trzech komponentów: obciążenia i wariancji modelu, oraz błędu nieredukowalnego –, tj. wariancji charakteryzującej pomiary, a nie model statystyczny.

Przy notacji, w której prawdziwa funkcja   jej obserwacja   z błędem losowym   oraz estymator  

 

gdzie obciążenie estymatora to:

 

a jego wariancja:

 

Złożoność modelu

edytuj

Obciążenie i wariancja modelu są funkcją jego złożoności, której zgeneralizowaną miarą może być efektywna liczba parametrów (in. efektywna liczba stopni swobody)   Dla modelu liniowego   w którym   to macierz o wymiarach N × N, efektywna liczba parametrów jest zdefiniowana jako ślad tej macierzy,   W mierze tej regresja z regularyzacją ma mniejszą efektywną liczbę parametrów (efektywną liczbę stopni swobody) niż zwykła regresja. Model o wysokiej efektywnej liczbie parametrów cechuje się większą wariancją i niższym obciążeniem – i vice versa. Miara ten pozwala zoptymalizować złożoność modelu np. przy pomocy kryterium informacyjnego Akaike (AIC) lub bayesowskiego kryterium informacyjnego Schwarza (BIC)[1].

Wyprowadzenie dla błędu średniokwadratowego w modelu liniowym

edytuj

Z definicji, dla dowolnej zmiennej losowej  

 

Po prostym przekształceniu:

 

Ponieważ   jest deterministyczne.

 

Stąd, ponieważ   i   wynika  

Ponadto, ponieważ  

 

Jako że   oraz   są niezależne, możemy napisać:

 

Zastosowanie

edytuj

Kompromis między obciążeniem a wariancją przedstawia konceptualizację podstawowego problemu statystyki i uczenia maszynowego jakim jest wybór modelu o optymalnej efektywności. Techniki pozwalające poradzić sobie z kompromisem to m.in. regularyzacja, sprawdzian krzyżowy, optymalizacja kryteriów informacyjnych takich jak AIC czy BIC, oraz bagging (bootstrap) i metody zespołowe[1].

Przypisy

edytuj
  1. a b c 7. Model Assessment and Selection, [w:] Trevor Hastie, Robert Tibshirani, Jerome Friedman, The elements of statistical learning: data mining, inference, and prediction, Second edition, New York, ISBN 978-0-387-84857-0, OCLC 300478243 [dostęp 2019-02-21].
  2. Gerd Gigerenzer, Henry Brighton, Homo Heuristicus: Why Biased Minds Make Better Inferences, „Topics in Cognitive Science”, 1 (1), 2009, s. 107–143, DOI10.1111/j.1756-8765.2008.01006.x [dostęp 2019-02-21] (ang.).
  3. S. Geman, E. Bienenstock, R. Doursat, Neural Networks and the Bias/Variance Dilemma, „Neural Computation”, 4 (1), 1992, s. 1–58, DOI10.1162/neco.1992.4.1.1, ISSN 0899-7667 [dostęp 2019-02-21].