Test dla proporcji: Różnice pomiędzy wersjami

[wersja przejrzana][wersja przejrzana]
Usunięta treść Dodana treść
Linia 1:
'''Testy dla proporcji''' to [[test statystyczny|testy parametryczne]] służące do [[weryfikacja hipotez statystycznych|weryfikacji]] [[hipoteza statystyczna|hipotez]] dotyczących wartości [[Proporcja (matematyka)|proporcji]] w [[populacja statystyczna|populacji]] generalnej lub też do porównania wartości proporcji w kilku populacjach – na podstawie znajomości wartości tej proporcji w [[dobór losowy|losowej próbie]] (czy też dwóch lub kilku próbach) pobranych z populacji.
 
'''Proporcją''' w statystyce nazywamy liczbę (ułamek, procent) wyrażający, jaka część elementów pewnego zbioru spełnia określony warunek. Inne równoważnie stosowane określenia to: frakcja, wskaźnik struktury. Na przykład, jeśli w grupie <math> n </math> osób jest <math> m </math> palących, to proporcja osób palących w tej grupie jest równa
: <math>p = \frac{m}{n}.</math>
 
== Struktura i podział testów ==
Hipotezy dotyczące proporcji testuje się zgodnie z ogólnymi zasadami testowania hipotez statystycznych: formułujemy hipotezy, zakładamy poziom istotności <math>\alpha</math> – dopuszczalną wartość [[błąd pierwszego rodzaju|błędu pierwszego rodzaju]], następnie na podstawie danych z próby wyznaczamy wartość '''statystyki testowej''', po czym porównujemy ją z wartościami krytycznymi odczytanymi z tablic odpowiedniego rozkładu teoretycznego.
 
Postać stosowanej [[statystyka (funkcja)|statystyki]] testowej zależy od następujących czynników:
* czy badamy hipotezę dotyczącą jednej, dwóch, czy wielu proporcji,
* jaka jest liczebność próby (prób) występujących w danym zagadnieniu,
* w przypadku dwu lub więcej prób – czy próby są niezależne, czy zależne (powiązane).
 
Poniżej przedstawiono w skrócie kilka testów najczęściej wykorzystywanych w poszczególnych sytuacjach.
 
== Testy dla jednej proporcji (test dla prób dużych) ==
W próbie losowej o liczebności <math> n </math> jest <math> m </math> elementów spełniających pewien warunek. Wówczas proporcja w próbie <math>p = \frac{m}{n}.</math>. Chcemy sprawdzić, czy taki wynik losowania pozwala przyjąć, że w całej populacji proporcja ta ma zadaną z góry wartość <math>p_{o}p_o.</math>.
Hipotezy mają postać:
: <math>H_0 : p = p_{0}\;p_0,</math>
: <math> H_1 : </math> postać hipotezy alternatywnej zależy od sformułowania zagadnienia:
::: {{wzór|<math>p > p_{o}\;p_o</math>|1}}
::: {{wzór|<math>p < p_{o}\;p_o</math>|2}}
::: {{wzór|<math>p \neq p_{o}\;p_o</math>|3}}
 
Założenia: próba musi być dostatecznie duża, to znaczy jej liczebność musi spełniać warunek <math>n > 50,</math>, a otrzymana wartość proporcji z próby powinna spełniać warunek: <math>0,2 < p < 0,8.</math>. Można wtedy zastosować statystykę o [[rozkład normalny|rozkładzie normalnym]].
: <math>H_0 : p = p_{0}\;</math>
: <math> H_1 : </math> postać hipotezy alternatywnej zależy od sformułowania zagadnienia:
:::{{wzór|<math>p > p_{o}\;</math>|1}}
:::{{wzór|<math>p < p_{o}\;</math>|2}}
:::{{wzór|<math>p \neq p_{o}\;</math>|3}}
 
Założenia: próba musi być dostatecznie duża, to znaczy jej liczebność musi spełniać warunek <math>n > 50</math>, a otrzymana wartość proporcji z próby powinna spełniać warunek: <math>0,2 < p < 0,8</math>. Można wtedy zastosować statystykę o [[rozkład normalny|rozkładzie normalnym]].
Obliczamy:
: <math>z=\frac{p-p_{o}p_o}{\sqrt{\frac{p_{o}p_o\cdot q_{o}q_o}{n}}},</math>,
 
gdzie <math>q_{o}q_o=1-p_{o}p_o.</math>. Jeśli hipoteza zerowa <math>H_0</math> jest prawdziwa, to statystyka <math>z</math> ma w przybliżeniu standardowy rozkład normalny - wynika to z Centralnego Twierdzenia Granicznego.
 
Wartość tak obliczonej statystyki porównujemy z wartością krytyczną (lub dwiema wartościami krytycznymi) wyznaczonymi na podstawie poziomu istotności <math>\alpha</math> dla zmiennej losowej o rozkładzie normalnym.
 
Wartości krytyczne znajdujemy z tablic [[dystrybuanta|dystrybuanty]] rozkładu normalnego. Jeżeli <math>U</math> jest dystrybuantą standardowego rozkładu normalnego, a <math>U^{-1}</math> - funkcją odwrotną do dystrybuanty, natomiast <math>\alpha</math> - założonym poziomem istotności – to odczytujemy:
* dla przypadku {{LinkWzór|1}}:
: <math>z_{kryt}=U^{-1}(1-\alpha)</math>
* w przypadku {{LinkWzór|2}}:
: <math>z_{kryt}=U^{-1}(\alpha)=- U^{-1}(1-\alpha)</math>
* zaś w przypadku {{LinkWzór|3}} mamy 2 wartości graniczne:
: <math>z_{kryt1}=U^{-1}\left(1-\frac{\alpha}{2}\right)</math>
: <math>z_{kryt2}=-z_{kryt1}\;.</math>.
 
Przedział krytyczny:
* w przypadku {{LinkWzór|1}} jest prawostronny, czyli gdy <math>z>z_{kryt}</math> – odrzucamy <math> H_0 ,</math>, w przypadku przeciwnym – nie ma podstaw do jej odrzucenia. ,
* w przypadku {{LinkWzór|2}} przedział krytyczny jest lewostronny (dla <math>z<z_{kryt}</math> odrzucamy <math> H_0 </math>),
* w przypadku {{LinkWzór|3}} przedział krytyczny jest obustronny (dla <math>z>z_{kryt1}</math> i dla <math>z<z_{kryt2}</math> odrzucamy <math> H_0 </math>).
 
== Testy dla dwóch proporcji ==
=== Dwie próby niezależne ===
Poniżej omówiono dwa testy – jeden dla dużych liczebności prób, oparty na statystyce <math> z </math> o rozkładzie normalnym, analogiczny do omówionego powyżej dla jednej próby, drugi, możliwy do zastosowania przy nieco mniejszych liczebnościach prób, oparty na statystyce o [[rozkład chi kwadrat|rozkładzie chi-kwadrat]].
 
==== Test dla dwóch prób dużych ====
Liczebności prób powinny spełniać relacje: <math> n_{1}n_1 > 50</math> i <math>n_{2}n_2 > 50.</math>.
Jeżeli spośród <math>n_{1}n_1</math> elementów pierwszej próby <math>m_{1}m_1</math> spełnia określony warunek, to proporcja z próby jest równa
: <math>p_{1}p_1 = \frac {m_{1m_1}}{n_{1}n_1}.</math>.
 
Analogicznie dla drugiej próby:
: <math>p_{2}p_2 = \frac {m_{2m_2}}{n_{2}n_2}.</math>.
 
Wyznaczamy proporcję dla „próby połączonej”:
: <math>\bar{p} = \frac {m_{1}m_1 + m_{2}m_2}{n_{1}n_1 + n_{2}n_2}</math>
 
oraz <math>\bar{q} = 1- \bar{p}</math> a następnie wyznaczamy wartość statystyki <math>z</math>:
:oraz <math>z\bar{q} = \frac{p_{1} - p_{2}} {\sqrt{\bar{p}\cdot{\bar{q}}\cdot{\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)}}},</math> a następnie wyznaczamy wartość statystyki <math>z</math>:
: <math>z = \frac{p_1 - p_2} {\sqrt{\bar{p}\cdot{\bar{q}}\cdot{\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}}.</math>
 
Statystyka ta ma rozkład normalny i wartości krytyczne oraz obszary krytyczne wyznaczamy dla tego testu tak samo, jak to opisano wcześniej w teście dla jednej proporcji.
 
==== Test dla dwóch prób o mniejszych liczebnościach (oparty na statystyce chi-kwadrat) ====
Tutaj liczebności muszą spełniać warunek <math> n = n_{1}n_1+n_{2}n_2 > 20.</math>
 
Liczby elementów spełniających lub nie spełniających zadanego warunku w poszczególnych populacjach można zapisać w tabeli 2x2:
 
{| border="1" cellpadding="5" cellspacing="0"
! Liczba elementów:
! Próba 1
! Próba 2
! Suma:
|---
| '''spełniających warunek (TAK)''' || align="center"| a || align="center"| b || align="center"| a + b
|---
| '''nie spełniających warunku (NIE)''' || align="center"| c || align="center"| d || align="center"| c + d
|---
| align="right"| '''Suma:''' || align="center"| n<sub>1</sub>=a+c || align="center"| n<sub>2</sub>=b+d || align="center"| n=a+b+c+d
|}
 
Na podstawie tabeli obliczamy wartość statystyki
: <math>\chi^2=\frac{\left(|ad-bc|-\frac{n_s}{2}\right)^{2}\cdot n_s}{(a+b)(c+d)(a+c)(b+d)},</math>
gdzie
: <math>n_s=\frac{n_{1}\cdot n_{2}}{n_{1}+n_{2}}</math>
 
gdzie :
Jeżeli liczebności prób są na tyle duże, że <math> n_{1}+n_{2} > 40</math> - można wówczas pominąć w liczniku składnik <math>\frac{n_s}{2} </math> w nawiasie.
: <math>n_s=\frac{n_{1}n_1\cdot n_{2}n_2}{n_{1}n_1+n_{2}n_2}.</math>
Wartości krytyczne wyznacza się z tablic rozkładu chi-kwadrat o 1 stopniu swobody.
 
Jeżeli liczebności prób są na tyle duże, że <math> n_{1}n_1+n_{2}n_2 > 40</math> - można wówczas pominąć w liczniku składnik <math>\frac{n_s}{2} </math> w nawiasie. Wartości krytyczne wyznacza się z tablic rozkładu chi-kwadrat o 1 stopniu swobody.
 
=== Dwie próby zależne ===
Ten przypadek występuje na przykład wtedy, gdy te same obiekty czy osoby stanowiące próbę są badane dwukrotnie w różnych warunkach. Wtedy zwykle liczebności obu prób są jednakowe: <math> n_{1}n_1= n_{2}n_2= n.</math>
 
Wynikiem takiego eksperymentu są 4 liczby, stwierdzające, ile obiektów w każdej z prób spełnia lub nie spełnia warunku. Wyniki takie można zestawić w tabelce 2x2:
Linia 96 ⟶ 101:
!Próba 2: TAK
!Próba 2: NIE
|---
|'''Próba 1:TAK''' || align=”center”„center”| a || align=”center”„center”| b
|---
|'''Próba 1: NIE''' || align=”center”„center”| c || align=”center”„center”| d
|}
 
Te same wyniki można też zaprezentować w postaci tabelki proporcji zamiast liczebności (gdzie np. <math>p_{11}=\tfrac{a}{n}, p_{10}=\tfrac{b}{n} </math> itd.)
 
{| border="1" cellpadding="5" cellspacing="0"
Linia 108 ⟶ 113:
!Próba 2: TAK
!Próba 2: NIE
|---
|'''Próba 1:TAK''' || align="center"| <math>p_{11}</math> || align="center"| <math>p_{10}</math>
|---
|'''Próba 1: NIE''' || align="center"| <math>p_{01}</math> || align="center"| <math>p_{00}</math>
|}
 
W zależności od liczebności prób możliwe są różne odmiany testu.
 
==== Liczebność duża ====
Jeżeli <math> n \geqslant {20},</math>, to wyznaczamy [[statystyka (funkcja)|statystykę]] <math> z </math> o rozkładzie normalnym z jednego ze wzorów:
: <math>z = \frac{b - c}{\sqrt{b + c}} ,</math>
: <math>z=\frac{p_{10}-p_{01}}{\sqrt{\frac{p_{10}+p_{01}}{n}}},</math>
: <math>z = \frac{a - d}{\sqrt{a + d}} ,</math>
: <math>z=\frac{p_{11}-p_{00}}{\sqrt{\frac{p_{11}+p_{00}}{n}}}.</math>
 
(stosujemyStosujemy dowolny z powyższych wzorów, zależnie od dostępnych danych).
 
Wartość statystyki <math>z </math> porównujemy z wartością <math> z_{kryt}</math> wyznaczoną z tablic rozkładu normalnego, przy czym postępowanie jest takie samo, jak opisane powyżej dla testu dla jednej proporcji.
 
==== Liczebność mała (test McNemara) ====
W tym przypadku hipotezy mają postać:
: <math> H_0 : p_{11} = p_{10}\;</math> (proporcje w obu doświadczeniach są równe),
: <math> H_1 : p_{11} \neq{p_{10}}\;</math> (proporcje w obu przypadkach różnią się istotnie).
 
Jeżeli natomiast liczebności są jeszcze mniejsze, tak, że <math> b + c > 10</math>, aleoraz zarówno <math> b <> 5 ,</math> lubjak i <math> c< > 5</math>, należyto można wykorzystać nieco zmodyfikowany wzór:statystykę
: <math>\chi^{2} =\frac {(|b-c|-1)^2}{b + c} .</math>
 
Jeżeli natomiast liczebności są jeszcze mniejsze, tak, że <math>b + c > 10 ,</math> oraz zarównoale <math> b >< 5 </math> jak ilub <math> c >< 5,</math> to możnanależy wykorzystać statystykęnieco zmodyfikowany wzór:
: <math>\chi^{2} =\frac {(|b-c|-1)^2}{b + c}.</math>
Jeżeli natomiast liczebności są jeszcze mniejsze, tak, że <math> b + c > 10</math>, ale <math> b < 5 </math> lub <math> c< 5</math>, należy wykorzystać nieco zmodyfikowany wzór:
: <math>\chi^{2}=\frac {(|b-c|-1)^2}{b + c} </math>
 
Wartość krytyczną odczytujemy z tablic rozkładu chi-kwadrat dla danego poziomu istotności <math>\alpha</math> i <math>v = 1</math> stopnia swobody. Obszar krytyczny testu jest prawostronny (odrzucamy <math> H_0 ,</math>, gdy <math>\chi^{2} > \chi^{2}_2_{kryt}</math>).
 
== Testy dla wielu proporcji ==
Mamy tu <math>k</math> prób o liczebnościach <math>n_{1}n_1,n_{2}n_2,\dots{n_{k}n_k}.</math>. W i-tej próbie <math>m_{i}m_i</math> elementów spełnia zadany warunek, zatem proporcja w i-tej próbie jest równa <math>p_{i}p_i=\frac{m_{i}m_i}{n_{i}n_i}.</math>.
 
Testujemy hipotezy:
: <math> H_0 : p_{1}p_1= \dots= p_{k}p_k</math> (wszystkie proporcje w populacjach są jednakowe),
: <math> H_1 : </math> '''nie''' <math> H_0 </math> (proporcje w poszczególnych populacjach różnią się).
 
=== Próby niezależne ===
==== Test Fishera-Snedecora ====
Jeżeli wszystkie liczebności <math>n_{i}n_i\geqslant {20} </math> to można wyznaczyć statystykę o [[rozkład F Snedecora|rozkładzie Fishera-Snedecora]]. Obliczamy najpierw „średnią proporcję”
: <math>\bar p=\frac{\sum_{i=1}^{k}{n_{i}n_i p_{i}p_i}}{\sum_{i=1}^{k}{n_{i}n_i}}</math>
oraz
: <math>F=\frac{\sum_{i=1}^{k}{n_{i}(p_{i}-\bar p)^2}}{\sum_{i=1}^{k}{p_{i}(1-p_{i})}}\cdot\frac{k}{k-1}</math>
 
oraz
Otrzymaną wartość statystyki F porównujemy z wartością krytyczną odczytaną z tablic rozkładu Fishera-Snedecora dla założonego poziomu istotności <math>\alpha</math> oraz liczby stopni swobody <math>v_{1}= k - 1</math> i <math>v_{2} = \infty</math>. Obszar krytyczny jest prawostronny, czyli gdy <math>F > F_{kryt}</math> — odrzucamy hipotezę <math> H_0 </math>.
: <math>F=\frac{\sum_{i=1}^{k}{n_{i}n_i(p_{i}p_i-\bar p)^2}}{\sum_{i=1}^{k}{p_{i}p_i(1-p_{i}p_i)}}\cdot\frac{k}{k-1}.</math>
 
Otrzymaną wartość statystyki F porównujemy z wartością krytyczną odczytaną z tablic rozkładu Fishera-Snedecora dla założonego poziomu istotności <math>\alpha</math> oraz liczby stopni swobody <math>v_{1}v_1= k - 1</math> i <math>v_{2}v_2 = \infty.</math>. Obszar krytyczny jest prawostronny, czyli gdy <math>F > F_{kryt}</math> odrzucamy hipotezę <math> H_0 .</math>.
=== Próby zależne ===
Jeżeli mamy do czynienia z <math>k</math> zależnymi próbami (seriami wyników) o jednakowej liczebności <math>n</math> każda (np. <math> n </math> osób jest poddawanych <math> k </math> razy badaniu, którego wynik klasyfikujemy w kategoriach: tak, nie), przy czym liczebności są <math>n \geqslant 20</math>, możemy wykorzystać test Cochrana do stwierdzenia, czy wyniki w poszczególnych doświadczeniach różnią się istotnie:
 
=== Próby zależne ===
: <math> H_0 : </math> wyniki poszczególnych serii nie różnią się istotnie
Jeżeli mamy do czynienia z <math>k</math> zależnymi próbami (seriami wyników) o jednakowej liczebności <math>n</math> każda (np. <math> n </math> osób jest poddawanych <math> k </math> razy badaniu, którego wynik klasyfikujemy w kategoriach: tak, nie), przy czym liczebności są <math>n \geqslant 20,</math>, możemy wykorzystać test Cochrana do stwierdzenia, czy wyniki w poszczególnych doświadczeniach różnią się istotnie:
: <math> H_1 : </math> wyniki różnią się (zmiana warunków eksperymentu wpływa na wyniki)
: <math> H_0 : </math> wyniki poszczególnych serii nie różnią się istotnie,
: <math> H_1 : </math> wyniki różnią się (zmiana warunków eksperymentu wpływa na wyniki).
 
Niech:
* <math>m_i</math> oznacza, jak poprzednio, liczbę obiektów w i-tej próbie, które spełniają warunek (wynik '''Tak'''), to znaczy <math>i= 1,2,\dots k,</math>, zaś <math>0 \leqslant m_i \leqslant n,</math> ,
* <math>w_j</math> oznacza liczbę prób, w których j-ty obiekt uzyskał wynik '''Tak''' - to znaczy <math>j=1,2,\dots n</math> oraz <math>0\leqslant w_{j}w_j \leqslant k.</math>.
 
Obliczamy statystykę
: <math>\chi^{2} = \frac{ (k-1) \left[{k \sum_{i=1}^{k }{m_i^2} - \left(\sum_{i=1}^{k}{m_i}\right)^2}\right]}{k \sum_{j=1}^{n}{w_j}- \sum_{j=1}^{n}{w_j^2}} ,</math>
 
którą porównujemy z wartością krytyczną odczytaną z tablic rozkładu chi-kwadrat dla poziomu istotności <math>\alpha</math> i <math> v = k -1 </math> stopni swobody. Obszar krytyczny testu jest prawostronny.
 
== Bibliografia ==
* Fisher R.A., Yates F., ''Statistical tables for biological, agricultural and medical research'', Oliver and Boyd, Edinburgh 1963.
* Zieliński R., ''Tablice statystyczne'', PWN, Warszawa 1972.
 
== Linki zewnętrzne ==