Paradoks Steina

Paradoks Steina (także przykład lub efekt Steina) – rezultat w teorii estymacji i teorii decyzji, stanowiący, że przy oszacowywaniu więcej niż dwóch niezależnych parametrów jednocześnie istnieją specjalne łączne estymatory, które mają przeciętnie wyższą precyzję (rozumianą jako niższy ogólny błąd średniokwadratowy) niż średnie arytmetyczne parametrów w próbach z osobna czy dowolna inna metoda estymująca te parametry w izolacji. Wynik ten został odkryty przez Charlesa Steina w 1955 roku, choć zjawisko było wykorzystywane implicite już wcześniej w technikach wnioskowania bayesowskiego^[2]^[3].

Przykładowo, jeśli badacz chce oszacować miary zdolności kilku sportowców, może obliczyć dla każdej osoby zwykłą średnią liczbę punktów zdobytych w grach w trakcie jednego sezonu. Uzyska jednak wyniki, które są ogólnie precyzyjniejsze i pozwalają na trafniejsze prognozy, jeśli zastosuje względem każdej z takich średnich specyficzną poprawkę (tak jak np. w estymatorze Jamesa–Steina). W przedstawionym przykładzie agregowane są dane cechujące się realnymi zależnościami, jednakże estymator J–S tego w żaden sposób nie wykorzystuje – paradoks Steina występuje w zbiorze dowolnych parametrów, a jego dowód nie zakłada ich zależności. Oznacza to, że ogólną precyzję szacowania zdolności sportowców zwiększy także estymowanie ich jednocześnie z zupełnie niepowiązaną zmienną, taką jak średnia cen samochodów na rynku. Rezultat opisano pierwotnie dla zmiennych o rozkładzie normalnym, występuje jednak także w niektórych innych rozkładach^[2]^[4].

Geometryczną intuicją ilustrującą sens paradoksu jest spostrzeżenie, że w przestrzeni kilkuwymiarowej relatywnie niewielkie przesunięcie zbioru oszacowań (obarczonych błędem losowym) w dowolnym zgodnym kierunku powinno w przeciętnym przypadku zmniejszyć błąd ponad połowy z nich. Efekt nie daje żadnej gwarancji, że jedno konkretne oszacowanie zostanie wskutek tego poprawione – działa na poziomie całego zbioru^[5].

Estymatory wykorzystujące efekt Steina nazywa się estymatorami minimalizującymi błąd średniokwadratowy (ang. shrinkage estimators). Zjawisko to jest związane ze statystycznymi technikami regularyzacji i używane pośrednio m.in. w regresjach z efektami losowymi, regresjach mieszanych, metodzie LASSO oraz w regresji grzbietowej^[6]. Zauważono także matematyczną równoważność paradoksu Steina (który występuje w przestrzeniach co najmniej trójwymiarowych) z zachowaniem wielowymiarowego ruchu Browna (w którym każda trajektoria w takich przestrzeniach jest zbiorem nigdziegęstym)^[7].

Dowód edytuj

Krótszy od oryginalnego dowód dotyczący estymatora Jamesa–Steina został przedstawiony przez Samwortha^[4]:

Definicje edytuj

Przyjmijmy, że:

X_{1},\dots ,X_{p},

to $p$ niezależnych zmiennych losowych o rozkładach normalnych $X_{i}\sim N(\theta _{i},1)$ ze średnimi $\theta _{i}$ dla każdego $i=1,\dots ,p$ i że zmienne te tworzą wektor: $X=(X_{1},\dots ,X_{p})^{T}.$

Chcemy znaleźć dobry estymator ${\hat {\theta }}={\hat {\theta }}(X)$ wektora $\theta =(\theta _{1},\dots ,\theta _{p})^{T}.$ Na potrzeby zdefiniowania dobroci estymatora wybierzmy funkcję strat $L({\hat {\theta }},\theta ),$ która wyraża różnicę pomiędzy oszacowaniem a prawdziwą wartością średnich. Posłużymy się klasyczną funkcją błędu średniokwadratowego:

L({\hat {\theta }},\theta )=\|{\hat {\theta }}-\theta \|^{2},

w której operator $||\cdot ||$ oznacza euklidesową normę („długość”) wektora. Inne funkcje straty są oczywiście również możliwe, jak funkcja oparta o sumę błędów bezwzględnych. Funkcja strat w przedstawionej postaci jest zmienną losową. Kryterium dobroci estymatora jest jej wartość oczekiwana, czyli funkcja ryzyka:

R({\hat {\theta }},\theta )=\mathbb {E} [L({\hat {\theta }},\theta )].

Jeśli porównujemy dwa estymatory ${\hat {\theta }}$ i ${\overline {\theta }},$ ten z nich, który cechuje się niższą wartością funkcji ryzyka, nazwiemy w tym sensie lepszym.

Wartość funkcji ryzyka dla średniej arytmetycznej edytuj

Dla jednej lub dwóch zmiennych $(p<3)$ najlepszym estymatorem, który oznaczymy $\theta ^{0},$ jest średnia arytmetyczna:

\mathbb {E} (X_{i})=\theta _{i}

\theta ^{0}(X)=X.

Porównajmy ją przy $p\geqslant 3$ z estymatorem Jamesa–Steina w postaci:

{\hat {\theta }}^{JS}(X)=\left(1-{\frac {p-2}{||X||^{2}}}\right)X.

Zauważmy, że w przypadku rozkładu normalnego $\|X-\theta \|^{2}\sim \chi _{p}^{2},$ zatem wartość wybranej tu funkcji ryzyka dla średniej arytmetycznej to

R({\hat {\theta }}^{0},\theta )=p

dla wszystkich $\theta \in \mathbb {R} ^{p}.$

Wartość funkcji ryzyka dla estymatora Jamesa–Steina edytuj

Aby obliczyć ryzyko estymatora Jamesa–Steina, możemy rozwinąć jego postać, podstawić do funkcji ryzyka i rozpisać ją:

R({\hat {\theta }}^{JS},\theta )=\mathbb {E} \left\{\left\|X-\theta -{\frac {(p-2)X}{\|X\|^{2}}}\right\|^{2}\right\}=p-2(p-2)\sum _{i=1}^{p}\mathbb {E} \left\{{\frac {X_{i}(X_{i}-\theta _{i})}{\|X\|^{2}}}\right\}+(p-2)^{2}\mathbb {E} \left({\frac {1}{\|X\|^{2}}}\right).

Rozważmy wartość oczekiwaną wewnątrz sumy dla $i=1.$ Możemy ją uprościć przez rozpisanie jej jako całki n-krotnej i całkowanie przez części:

\mathbb {E} \left\{{\frac {X_{1}(X_{1}-\theta _{1})}{\|X\|^{2}}}\right\}=\int _{-\infty }^{\infty }\dots \int _{-\infty }^{\infty }{\frac {x_{1}}{\|x\|^{2}}}\times {\frac {(x_{i}-\theta _{i})}{(2\pi )^{p/2}}}e^{-\|x-\theta \|^{2}/2}\operatorname {d} \!x_{1}\dots x_{p}=\int _{-\infty }^{\infty }\dots \int _{-\infty }^{\infty }{\frac {\|x\|^{2}-2x_{1}^{2}}{\|x\|^{4}}}\times {\frac {1}{(2\pi )^{p/2}}}e^{-\|x-\theta \|^{2}/2}\operatorname {d} \!x_{1}\dots x_{p}.

Powtarzając tę samą technikę dla $i=2,\dots ,p,$ otrzymujemy:

\sum _{i=1}^{p}\mathbb {E} \left\{{\frac {X_{i}(X_{i}-\theta _{i})}{\|X\|^{2}}}\right\}=\sum _{i=1}^{p}\int _{-\infty }^{\infty }\dots \int _{-\infty }^{\infty }{\frac {\|x\|^{2}-2x_{i}^{2}}{\|x\|^{4}}}\times {\frac {1}{(2\pi )^{p/2}}}e^{-\|x-\theta \|^{2}/2}\operatorname {d} \!x_{1}\dots x_{p}=\sum _{i=1}^{p}\mathbb {E} \left({\frac {\|X\|^{2}-2X_{i}^{2}}{\|X\|^{4}}}\right)=(p-2)\mathbb {E} \left({\frac {1}{\|X\|^{2}}}\right),

co po podstawieniu do wcześniejszej formy pozwala konkludować, że:

R({\hat {\theta }}^{JS},\theta )=p-(p-2)\mathbb {E} \left({\frac {1}{\|X\|^{2}}}\right)<p

dla wszystkich $\theta \in \mathbb {R} ^{p}.$

Przypisy edytuj

↑ Stephen M.S.M. Stigler Stephen M.S.M., The 1988 Neyman Memorial Lecture: A Galtonian Perspective on Shrinkage Estimators, „Statistical Science”, 5 (1), 1990, s. 147–155, DOI: 10.1214/ss/1177012274, ISSN 0883-4237 [dostęp 2018-05-02] (ang.).
↑ ^a ^b BradleyB. Efron BradleyB., CarlC. Morris CarlC., Stein’s Paradox in Statistics, „Scientific American”, 236 (5), 1977, s. 119–127, JSTOR: 24954030 [dostęp 2018-05-01] .
↑ CharlesCh. Stein CharlesCh., Inadmissibility of the Usual Estimator for the Mean of a Multivariate Normal Distribution, JerzyJ. Spława-Neyman (red.), [w:] Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Contributions to the Theory of Statistics, The Regents of the University of California, 1956 [dostęp 2018-05-01] (ang.).
↑ ^a ^b Richard J.R.J. Samworth Richard J.R.J., Stein’s Paradox, „Eureka”, 62, 2012, s. 38–41 .
↑ NaftaliN. Harris NaftaliN., Visualizing the James-Stein Estimator [online], www.naftaliharris.com, 2013 [dostęp 2018-05-02] .
↑ When are sample means meaningful? The role of modern estimation in psychological science, When are sample means meaningful? The role of modern estimation in psychological science, preprint, 2017, DOI: 10.17605/osf.io/2ukxj .
↑ L.D.L.D. Brown L.D.L.D., Admissible Estimators, Recurrent Diffusions, and Insoluble Boundary Value Problems, „The Annals of Mathematical Statistics”, 42 (3), 1971, s. 855–903, DOI: 10.1214/aoms/1177693318, ISSN 0003-4851 [dostęp 2018-05-02] (ang.).

[1] Stephen M.S.M. Stigler Stephen M.S.M., The 1988 Neyman Memorial Lecture: A Galtonian Perspective on Shrinkage Estimators, „Statistical Science”, 5 (1), 1990, s. 147–155, DOI: 10.1214/ss/1177012274, ISSN 0883-4237 [dostęp 2018-05-02] (ang.).

[:0-2] BradleyB. Efron BradleyB., CarlC. Morris CarlC., Stein’s Paradox in Statistics, „Scientific American”, 236 (5), 1977, s. 119–127, JSTOR: 24954030 [dostęp 2018-05-01] .

[3] CharlesCh. Stein CharlesCh., Inadmissibility of the Usual Estimator for the Mean of a Multivariate Normal Distribution, JerzyJ. Spława-Neyman (red.), [w:] Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Contributions to the Theory of Statistics, The Regents of the University of California, 1956 [dostęp 2018-05-01] (ang.).

[:1-4] Richard J.R.J. Samworth Richard J.R.J., Stein’s Paradox, „Eureka”, 62, 2012, s. 38–41 .

[5] NaftaliN. Harris NaftaliN., Visualizing the James-Stein Estimator [online], www.naftaliharris.com, 2013 [dostęp 2018-05-02] .

[6] When are sample means meaningful? The role of modern estimation in psychological science, When are sample means meaningful? The role of modern estimation in psychological science, preprint, 2017, DOI: 10.17605/osf.io/2ukxj .

[7] L.D.L.D. Brown L.D.L.D., Admissible Estimators, Recurrent Diffusions, and Insoluble Boundary Value Problems, „The Annals of Mathematical Statistics”, 42 (3), 1971, s. 855–903, DOI: 10.1214/aoms/1177693318, ISSN 0003-4851 [dostęp 2018-05-02] (ang.).

[2]

[3]

[1]

[4]

[5]

[6]

[7]