Test dla proporcji: Różnice pomiędzy wersjami
[wersja przejrzana] | [wersja przejrzana] |
Usunięta treść Dodana treść
poprawa linków do ujedn. i przek., WP:SK, drobne techniczne |
|||
Linia 1:
'''Testy dla proporcji''' to [[test statystyczny|testy parametryczne]] służące do [[weryfikacja hipotez statystycznych|weryfikacji]] [[hipoteza statystyczna|hipotez]] dotyczących wartości [[Proporcja (matematyka)|proporcji]] w [[populacja statystyczna|populacji]] generalnej lub też do porównania wartości proporcji w kilku populacjach – na podstawie znajomości wartości tej proporcji w [[dobór losowy|losowej próbie]] (czy też dwóch lub kilku próbach) pobranych z populacji.
'''Proporcją''' w statystyce nazywamy liczbę (ułamek, procent) wyrażający, jaka część elementów pewnego zbioru spełnia określony warunek. Inne równoważnie stosowane określenia to: frakcja, wskaźnik struktury. Na przykład
: <math>p = \frac{m}{n}.</math>
== Struktura i podział testów ==
Hipotezy dotyczące proporcji testuje się zgodnie z ogólnymi zasadami testowania hipotez statystycznych: formułujemy hipotezy, zakładamy poziom istotności <math>\alpha</math> – dopuszczalną wartość [[błąd pierwszego rodzaju|błędu pierwszego rodzaju]], następnie na podstawie danych z próby wyznaczamy wartość '''statystyki testowej''', po czym porównujemy ją z wartościami krytycznymi odczytanymi z tablic odpowiedniego rozkładu teoretycznego.
Postać stosowanej [[statystyka (funkcja)|statystyki]] testowej zależy od następujących czynników:
* czy badamy hipotezę dotyczącą jednej, dwóch, czy wielu proporcji,
* jaka jest liczebność próby (prób) występujących w danym zagadnieniu,
* w przypadku dwu lub więcej prób – czy próby są niezależne, czy zależne (powiązane).
Poniżej przedstawiono w skrócie kilka testów najczęściej wykorzystywanych w poszczególnych sytuacjach.
== Testy dla jednej proporcji (test dla prób dużych) ==
W próbie losowej o liczebności <math>
Hipotezy mają postać:
Założenia: próba musi być dostatecznie duża, to znaczy jej liczebność musi spełniać warunek <math>n > 50,</math>
▲: <math>H_0 : p = p_{0}\;</math>
▲: <math> H_1 : </math> postać hipotezy alternatywnej zależy od sformułowania zagadnienia:
▲:::{{wzór|<math>p > p_{o}\;</math>|1}}
▲:::{{wzór|<math>p < p_{o}\;</math>|2}}
▲:::{{wzór|<math>p \neq p_{o}\;</math>|3}}
▲Założenia: próba musi być dostatecznie duża, to znaczy jej liczebność musi spełniać warunek <math>n > 50</math>, a otrzymana wartość proporcji z próby powinna spełniać warunek: <math>0,2 < p < 0,8</math>. Można wtedy zastosować statystykę o [[rozkład normalny|rozkładzie normalnym]].
Obliczamy:
: <math>z=\frac{p-
gdzie <math>
Wartość tak obliczonej statystyki porównujemy z wartością krytyczną (lub dwiema wartościami krytycznymi) wyznaczonymi na podstawie poziomu istotności <math>\alpha</math> dla zmiennej losowej o rozkładzie normalnym.
Wartości krytyczne znajdujemy z tablic [[dystrybuanta|dystrybuanty]] rozkładu normalnego. Jeżeli <math>U</math> jest dystrybuantą standardowego rozkładu normalnego, a <math>U^{-1}</math>
* dla przypadku {{LinkWzór|1}}:
: <math>z_{kryt}=U^{-1}(1-\alpha)</math>
* w przypadku {{LinkWzór|2}}:
: <math>z_{kryt}=U^{-1}(\alpha)=- U^{-1}(1-\alpha)</math>
* zaś w przypadku {{LinkWzór|3}} mamy 2 wartości graniczne:
: <math>z_{kryt1}=U^{-1}\left(1-\frac{\alpha}{2}\right)</math>
: <math>z_{kryt2}=-z_{kryt1}
Przedział krytyczny:
* w przypadku {{LinkWzór|1}} jest prawostronny, czyli gdy <math>z>z_{kryt}</math> – odrzucamy <math>
* w przypadku {{LinkWzór|2}} przedział krytyczny jest lewostronny (dla <math>z<z_{kryt}</math> odrzucamy <math>
* w przypadku {{LinkWzór|3}} przedział krytyczny jest obustronny (dla <math>z>z_{kryt1}</math> i dla <math>z<z_{kryt2}</math> odrzucamy <math>
== Testy dla dwóch proporcji ==
=== Dwie próby niezależne ===
Poniżej omówiono dwa testy – jeden dla dużych liczebności prób, oparty na statystyce <math>
==== Test dla dwóch prób dużych ====
Liczebności prób powinny spełniać relacje: <math>
Jeżeli spośród <math>
: <math>
Analogicznie dla drugiej próby:
: <math>
Wyznaczamy proporcję dla „próby połączonej”:
: <math>\bar{p} = \frac {
: <math>z = \frac{p_1 - p_2} {\sqrt{\bar{p}\cdot{\bar{q}}\cdot{\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}}.</math>
Statystyka ta ma rozkład normalny i wartości krytyczne oraz obszary krytyczne wyznaczamy dla tego testu tak samo, jak to opisano wcześniej w teście dla jednej proporcji.
==== Test dla dwóch prób o mniejszych liczebnościach (oparty na statystyce chi-kwadrat) ====
Tutaj liczebności muszą spełniać warunek <math>
Liczby elementów spełniających lub nie spełniających zadanego warunku w poszczególnych populacjach można zapisać w tabeli 2x2:
{| border="1" cellpadding="5" cellspacing="0"
! Liczba elementów
! Próba 1
! Próba 2
! Suma
|
| '''spełniających warunek (TAK)''' ||
|
| '''nie spełniających warunku (NIE)''' ||
|
| align="right"| '''Suma
|}
Na podstawie tabeli obliczamy wartość statystyki
: <math>\chi^2=\frac{\left(|ad-bc|-\frac{n_s}{2}\right)^
gdzie ▼
: <math>n_s=\frac{n_{1}\cdot n_{2}}{n_{1}+n_{2}}</math>▼
Jeżeli liczebności prób są na tyle duże, że <math> n_{1}+n_{2} > 40</math> - można wówczas pominąć w liczniku składnik <math>\frac{n_s}{2} </math> w nawiasie.▼
▲Jeżeli liczebności prób są na tyle duże, że <math>
=== Dwie próby zależne ===
Ten przypadek występuje na przykład wtedy, gdy te same obiekty czy osoby stanowiące próbę są badane dwukrotnie w różnych warunkach. Wtedy zwykle liczebności obu prób są jednakowe: <math>
Wynikiem takiego eksperymentu są 4 liczby, stwierdzające, ile obiektów w każdej z prób spełnia lub nie spełnia warunku. Wyniki takie można zestawić w tabelce 2x2:
Linia 96 ⟶ 101:
!Próba 2: TAK
!Próba 2: NIE
|
|'''Próba 1:TAK''' ||
|
|'''Próba 1: NIE''' ||
|}
Te same wyniki można też zaprezentować w postaci tabelki proporcji zamiast liczebności (gdzie np. <math>p_{11}=\tfrac{a}{n}, p_{10}=\tfrac{b}{n}
{| border="1" cellpadding="5" cellspacing="0"
Linia 108 ⟶ 113:
!Próba 2: TAK
!Próba 2: NIE
|
|'''Próba 1:TAK''' ||
|
|'''Próba 1: NIE''' ||
|}
W zależności od liczebności prób możliwe są różne odmiany testu.
==== Liczebność duża ====
Jeżeli <math>
: <math>z = \frac{b - c}{\sqrt{b + c}}
: <math>z=\frac{p_{10}-p_{01}}{\sqrt
: <math>z = \frac{a - d}{\sqrt{a + d}}
: <math>z=\frac{p_{11}-p_{00}}{\sqrt
(
Wartość statystyki <math>z
==== Liczebność mała (test McNemara) ====
W tym przypadku hipotezy mają postać:
: <math>
: <math>
Jeżeli
Jeżeli natomiast liczebności są jeszcze mniejsze, tak, że <math>b + c > 10
: <math>\chi^
▲Jeżeli natomiast liczebności są jeszcze mniejsze, tak, że <math> b + c > 10</math>, ale <math> b < 5 </math> lub <math> c< 5</math>, należy wykorzystać nieco zmodyfikowany wzór:
▲: <math>\chi^{2}=\frac {(|b-c|-1)^2}{b + c} </math>
Wartość krytyczną odczytujemy z tablic rozkładu chi-kwadrat dla danego poziomu istotności <math>\alpha</math> i <math>v = 1</math> stopnia swobody. Obszar krytyczny testu jest prawostronny (odrzucamy <math>
== Testy dla wielu proporcji ==
Mamy tu <math>k</math> prób o liczebnościach <math>
Testujemy hipotezy:
: <math>
: <math>
=== Próby niezależne ===
==== Test Fishera-Snedecora ====
Jeżeli wszystkie liczebności <math>
: <math>\bar p=\frac{\sum_{i=1}^
oraz ▼
: <math>F=\frac{\sum_{i=1}^{k}{n_{i}(p_{i}-\bar p)^2}}{\sum_{i=1}^{k}{p_{i}(1-p_{i})}}\cdot\frac{k}{k-1}</math>▼
Otrzymaną wartość statystyki F porównujemy z wartością krytyczną odczytaną z tablic rozkładu Fishera-Snedecora dla założonego poziomu istotności <math>\alpha</math> oraz liczby stopni swobody <math>v_{1}= k - 1</math> i <math>v_{2} = \infty</math>. Obszar krytyczny jest prawostronny, czyli gdy <math>F > F_{kryt}</math> — odrzucamy hipotezę <math> H_0 </math>.▼
▲: <math>F=\frac{\sum_{i=1}^
▲Otrzymaną wartość statystyki F porównujemy z
=== Próby zależne ===▼
Jeżeli mamy do czynienia z <math>k</math> zależnymi próbami (seriami wyników) o jednakowej liczebności <math>n</math> każda (np. <math> n </math> osób jest poddawanych <math> k </math> razy badaniu, którego wynik klasyfikujemy w kategoriach: tak, nie), przy czym liczebności są <math>n \geqslant 20</math>, możemy wykorzystać test Cochrana do stwierdzenia, czy wyniki w poszczególnych doświadczeniach różnią się istotnie:▼
▲=== Próby zależne ===
: <math> H_0 : </math> wyniki poszczególnych serii nie różnią się istotnie▼
▲Jeżeli mamy do czynienia z <math>k</math> zależnymi próbami (seriami wyników) o jednakowej liczebności <math>n</math> każda (np. <math>
: <math> H_1 : </math> wyniki różnią się (zmiana warunków eksperymentu wpływa na wyniki)▼
Niech:
* <math>m_i</math> oznacza, jak poprzednio, liczbę obiektów w i-tej próbie, które spełniają warunek (wynik '''Tak'''), to znaczy <math>i= 1,2,\dots k,</math>
* <math>w_j</math> oznacza liczbę prób, w których j-ty obiekt uzyskał wynik '''Tak'''
Obliczamy statystykę
: <math>\chi^
którą porównujemy z wartością krytyczną odczytaną z tablic rozkładu chi-kwadrat dla poziomu istotności <math>\alpha</math> i <math>
== Bibliografia ==
* Fisher R.A., Yates F., ''Statistical tables for biological, agricultural and medical research'', Oliver and Boyd, Edinburgh 1963.
* Zieliński R., ''Tablice statystyczne'', PWN, Warszawa 1972.
== Linki zewnętrzne ==
|