Test Shapiro-Wilka

Test Shapiro–Wilka jest standardowym testem wykorzystywanym do testowania normalności danych. Został opublikowany w 1965 roku przez Samuela Shapiro i Martina Wilka.

Teoria edytuj

Załóżmy, że pobraliśmy próbę $x_{1},\dots ,x_{n}$ i chcemy sprawdzić czy pochodzi z rozkładu normalnego. Hipoteza zerowa i alternatywna w teście Shapiro–Wilka ma następującą postać:

H_{0}\colon

Próba pochodzi z populacji o rozkładzie normalnym

H_{1}\colon

Próba nie pochodzi z populacji o rozkładzie normalnym.

W celu przeprowadzenia testu wykorzystuje się statystykę $W$ :

Uporządkuj obserwacje niemalejąco: $y_{1}\leqslant y_{2}\leqslant \ldots \leqslant y_{n}$
Oblicz: ${\mathit {SSE}}=\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}$
Jeżeli $n$ jest parzyste, niech $m={\frac {n}{2}},$ w przeciwnym razie $m={\frac {n-1}{2}}$
Używając stabelaryzowanych wartości $a_{i}$ oblicz $b=\sum _{i=1}^{m}a_{i}(y_{n+1-i}-y_{i})$
Oblicz statystykę $W={\frac {b^{2}}{\mathit {SSE}}}$
Porównaj wynik ze stabelaryzowanymi wartościami dla odpowiednich poziomów ufności i liczebności próby.

Przykład edytuj

W celu zilustrowania procesu, załóżmy, że mamy następujące obserwacje:

x_{1}=6,x_{2}=1,x_{3}=-4,x_{4}=8,x_{5}=-2,x_{6}=5,x_{7}=0.

Sortując otrzymujemy: $y_{1}=-4,y_{2}=-2,y_{3}=0,y_{4}=1,y_{5}=5,y_{6}=6,y_{7}=8.$
Obliczając ${\mathit {SSE}}=\sum _{i=1}^{7}(y_{i}-{\bar {y}})^{2}=118$
Dla wartości $n=7$ z odpowiednich tabel otrzymujemy kolejne wartości: $a_{7}=0{,}6233,a_{6}=0{,}3031,a_{5}=0{,}1401,a_{4}=0{,}0000$ oraz wartość $b=0{,}6233(8+4)+0{,}3031(6+2)+0{,}1401(5-0)=10{,}6049$
Wartość statystyki $W={\frac {10{,}6049^{2}}{118}}=0{,}9530$

Wartość teoretycznej statystyki $W$ na poziomie istotności $5\%$ i $n=7$ wynosi $0{,}803.$ Ponieważ ta wartość jest mniejsza niż otrzymana z testu, nie mamy powodu odrzucić hipotezy, że próba pochodzi z rozkładu normalnego.

Porównanie z innymi testami edytuj

Analiza porównawcza przy użyciu metod Monte Carlo pokazała, że test Shapiro–Wilka ma największą moc spośród innych testów badających normalność: Test Andersona–Darlinga, Test Kołmogorowa–Smirnowa czy Test Lilliefors^{[potrzebny przypis]}.

Modyfikacja testu edytuj

Oryginalnie zaproponowane podejście ograniczało się do próbek poniżej 50 obserwacji. Royston w 1995 roku zaproponował algorytm AS R181, który mógł być wykorzystany w zakresie $3\leqslant n\leqslant 5000.$

Zobacz też edytuj

Bibliografia edytuj

S.S. Shapiro, M.B. Wilk., An Analysis of Variance Test for Normality, Biometrika, Vol. 52, No. 3/4. (Dec., 1965), s. 591–611
Nornadiah Mohd Razali, Yap Bee Wah, Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests, Journal of Statistical Modeling and Analytics, Vol. 2 No. 1, 21–33, 2011

Linki zewnętrzne edytuj

Tabele wartości dla testu Shapiro–Wilka (ang.)