Wersja z 23:03, 6 kwi 2012 edytuj Cathy Richards (dyskusja \| edycje) Redaktorzy 63 903 edycje poprawa linków do ujedn. i przek., WP:SK, drobne techniczne ← poprzednia edycja		Wersja z 23:28, 27 sie 2018 edytuj anuluj edycję Beno (dyskusja \| edycje) Redaktorzy, Administratorzy interfejsu, Administratorzy 133 085 edycji m WP:SK+Bn następna edycja →
Linia 1: '''Testy dla proporcji''' to [[test statystyczny\|testy parametryczne]] służące do [[weryfikacja hipotez statystycznych\|weryfikacji]] [[hipoteza statystyczna\|hipotez]] dotyczących wartości [[Proporcja (matematyka)\|proporcji]] w [[populacja statystyczna\|populacji]] generalnej lub też do porównania wartości proporcji w kilku populacjach – na podstawie znajomości wartości tej proporcji w [[dobór losowy\|losowej próbie]] (czy też dwóch lub kilku próbach) pobranych z populacji. '''Proporcją''' w statystyce nazywamy liczbę (ułamek, procent) wyrażający, jaka część elementów pewnego zbioru spełnia określony warunek. Inne równoważnie stosowane określenia to: frakcja, wskaźnik struktury. Na przykład, jeśli w grupie <math> n </math> osób jest <math> m </math> palących, to proporcja osób palących w tej grupie jest równa : <math>p = \frac{m}{n}.</math> == Struktura i podział testów == Hipotezy dotyczące proporcji testuje się zgodnie z ogólnymi zasadami testowania hipotez statystycznych: formułujemy hipotezy, zakładamy poziom istotności <math>\alpha</math> – dopuszczalną wartość [[błąd pierwszego rodzaju\|błędu pierwszego rodzaju]], następnie na podstawie danych z próby wyznaczamy wartość '''statystyki testowej''', po czym porównujemy ją z wartościami krytycznymi odczytanymi z tablic odpowiedniego rozkładu teoretycznego. Postać stosowanej [[statystyka (funkcja)\|statystyki]] testowej zależy od następujących czynników: * czy badamy hipotezę dotyczącą jednej, dwóch, czy wielu proporcji, * jaka jest liczebność próby (prób) występujących w danym zagadnieniu, * w przypadku dwu lub więcej prób – czy próby są niezależne, czy zależne (powiązane). Poniżej przedstawiono w skrócie kilka testów najczęściej wykorzystywanych w poszczególnych sytuacjach. == Testy dla jednej proporcji (test dla prób dużych) == W próbie losowej o liczebności <math> n </math> jest <math> m </math> elementów spełniających pewien warunek. Wówczas proporcja w próbie <math>p = \frac{m}{n}.</math>. Chcemy sprawdzić, czy taki wynik losowania pozwala przyjąć, że w całej populacji proporcja ta ma zadaną z góry wartość <math>~~p_{o}~~p_o.</math>. Hipotezy mają postać: : <math>H_0 : p = ~~p_{0}\;~~p_0,</math>▼ : <math> H_1 : </math> postać hipotezy alternatywnej zależy od sformułowania zagadnienia: ▼ ::: {{wzór\|<math>p > ~~p_{o}\;~~p_o</math>\|1}}▼ ::: {{wzór\|<math>p < ~~p_{o}\;~~p_o</math>\|2}}▼ ::: {{wzór\|<math>p \neq ~~p_{o}\;~~p_o</math>\|3}}▼ Założenia: próba musi być dostatecznie duża, to znaczy jej liczebność musi spełniać warunek <math>n > 50,</math>, a otrzymana wartość proporcji z próby powinna spełniać warunek: <math>0,2 < p < 0,8.</math>. Można wtedy zastosować statystykę o [[rozkład normalny\|rozkładzie normalnym]].▼ ▲: <math>H_0 : p = p_{0}\;</math> ▲: <math> H_1 : </math> postać hipotezy alternatywnej zależy od sformułowania zagadnienia: ▲:::{{wzór\|<math>p > p_{o}\;</math>\|1}} ▲:::{{wzór\|<math>p < p_{o}\;</math>\|2}} ▲:::{{wzór\|<math>p \neq p_{o}\;</math>\|3}} ▲Założenia: próba musi być dostatecznie duża, to znaczy jej liczebność musi spełniać warunek <math>n > 50</math>, a otrzymana wartość proporcji z próby powinna spełniać warunek: <math>0,2 < p < 0,8</math>. Można wtedy zastosować statystykę o [[rozkład normalny\|rozkładzie normalnym]]. Obliczamy: : <math>z=\frac{p-~~p_{o}~~p_o}{\sqrt{\frac{~~p_{o}~~p_o\cdot ~~q_{o}~~q_o}{n}}},</math>, gdzie <math>~~q_{o}~~q_o=1-~~p_{o}~~p_o.</math>. Jeśli hipoteza zerowa <math>H_0</math> jest prawdziwa, to statystyka <math>z</math> ma w przybliżeniu standardowy rozkład normalny -– wynika to z Centralnego Twierdzenia Granicznego. Wartość tak obliczonej statystyki porównujemy z wartością krytyczną (lub dwiema wartościami krytycznymi) wyznaczonymi na podstawie poziomu istotności <math>\alpha</math> dla zmiennej losowej o rozkładzie normalnym. Wartości krytyczne znajdujemy z tablic [[dystrybuanta\|dystrybuanty]] rozkładu normalnego. Jeżeli <math>U</math> jest dystrybuantą standardowego rozkładu normalnego, a <math>U^{-1}</math> -– funkcją odwrotną do dystrybuanty, natomiast <math>\alpha</math> -– założonym poziomem istotności – to odczytujemy: * dla przypadku {{LinkWzór\|1}}: : <math>z_{kryt}=U^{-1}(1-\alpha)</math> * w przypadku {{LinkWzór\|2}}: : <math>z_{kryt}=U^{-1}(\alpha)=- U^{-1}(1-\alpha)</math> * zaś w przypadku {{LinkWzór\|3}} mamy 2 wartości graniczne: : <math>z_{kryt1}=U^{-1}\left(1-\frac{\alpha}{2}\right)</math> : <math>z_{kryt2}=-z_{kryt1}\;.</math>. Przedział krytyczny: * w przypadku {{LinkWzór\|1}} jest prawostronny, czyli gdy <math>z>z_{kryt}</math> – odrzucamy <math> H_0 ,</math>, w przypadku przeciwnym – nie ma podstaw do jej odrzucenia. , * w przypadku {{LinkWzór\|2}} przedział krytyczny jest lewostronny (dla <math>z<z_{kryt}</math> odrzucamy <math> H_0 </math>), * w przypadku {{LinkWzór\|3}} przedział krytyczny jest obustronny (dla <math>z>z_{kryt1}</math> i dla <math>z<z_{kryt2}</math> odrzucamy <math> H_0 </math>). == Testy dla dwóch proporcji == === Dwie próby niezależne === Poniżej omówiono dwa testy – jeden dla dużych liczebności prób, oparty na statystyce <math> z </math> o rozkładzie normalnym, analogiczny do omówionego powyżej dla jednej próby, drugi, możliwy do zastosowania przy nieco mniejszych liczebnościach prób, oparty na statystyce o [[rozkład chi kwadrat\|rozkładzie chi-kwadrat]]. ==== Test dla dwóch prób dużych ==== Liczebności prób powinny spełniać relacje: <math> ~~n_{1}~~n_1 > 50</math> i <math>~~n_{2}~~n_2 > 50.</math>. Jeżeli spośród <math>~~n_{1}~~n_1</math> elementów pierwszej próby <math>~~m_{1}~~m_1</math> spełnia określony warunek, to proporcja z próby jest równa : <math>~~p_{1}~~p_1 = \frac {~~m_{1~~m_1}~~}{n_~~{1}n_1}.</math>. Analogicznie dla drugiej próby: : <math>~~p_{2}~~p_2 = \frac {~~m_{2~~m_2}~~}{n_~~{2}n_2}.</math>. Wyznaczamy proporcję dla „próby połączonej”: : <math>\bar{p} = \frac {~~m_{1}~~m_1 + ~~m_{2}~~m_2}{~~n_{1}~~n_1 + ~~n_{2}~~n_2}</math> ~~oraz <math>\bar{q} = 1- \bar{p}</math> a następnie wyznaczamy wartość statystyki <math>z</math>:~~ :oraz <math>z\bar{q} = ~~\frac{p_{~~1} - ~~p_{2}} {\sqrt{~~\bar{p}~~\cdot{\bar{q}}\cdot{\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)}}}~~,</math> a następnie wyznaczamy wartość statystyki <math>z</math>: : <math>z = \frac{p_1 - p_2} {\sqrt{\bar{p}\cdot{\bar{q}}\cdot{\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}}.</math> Statystyka ta ma rozkład normalny i wartości krytyczne oraz obszary krytyczne wyznaczamy dla tego testu tak samo, jak to opisano wcześniej w teście dla jednej proporcji. ==== Test dla dwóch prób o mniejszych liczebnościach (oparty na statystyce chi-kwadrat) ==== Tutaj liczebności muszą spełniać warunek <math> n = ~~n_{1}~~n_1+~~n_{2}~~n_2 > 20.</math> Liczby elementów spełniających lub nie spełniających zadanego warunku w poszczególnych populacjach można zapisać w tabeli 2x2: {\| border="1" cellpadding="5" cellspacing="0" ! Liczba elementów: ! Próba 1 ! Próba 2 ! Suma: \|--- \| '''spełniających warunek (TAK)''' \|\| align="center"\| a \|\| align="center"\| b \|\| align="center"\| a + b \|--- \| '''nie spełniających warunku (NIE)''' \|\| align="center"\| c \|\| align="center"\| d \|\| align="center"\| c + d \|--- \| align="right"\| '''Suma:''' \|\| align="center"\| n<sub>1</sub>=a+c \|\| align="center"\| n<sub>2</sub>=b+d \|\| align="center"\| n=a+b+c+d \|} Na podstawie tabeli obliczamy wartość statystyki : <math>\chi^2=\frac{\left(\|ad-bc\|-\frac{n_s}{2}\right)^{2}\cdot n_s}{(a+b)(c+d)(a+c)(b+d)},</math> gdzie ▼ : <math>n_s=\frac{n_{1}\cdot n_{2}}{n_{1}+n_{2}}</math>▼ ▲gdzie : Jeżeli liczebności prób są na tyle duże, że <math> n_{1}+n_{2} > 40</math> - można wówczas pominąć w liczniku składnik <math>\frac{n_s}{2} </math> w nawiasie.▼ ▲: <math>n_s=\frac{~~n_{1}~~n_1\cdot ~~n_{2}~~n_2}{~~n_{1}~~n_1+~~n_{2}~~n_2}.</math> ~~Wartości krytyczne wyznacza się z tablic rozkładu chi-kwadrat o 1 stopniu swobody.~~ ▲Jeżeli liczebności prób są na tyle duże, że <math> ~~n_{1}~~n_1+~~n_{2}~~n_2 > 40</math> -– można wówczas pominąć w liczniku składnik <math>\frac{n_s}{2} </math> w nawiasie. Wartości krytyczne wyznacza się z tablic rozkładu chi-kwadrat o 1 stopniu swobody. === Dwie próby zależne === Ten przypadek występuje na przykład wtedy, gdy te same obiekty czy osoby stanowiące próbę są badane dwukrotnie w różnych warunkach. Wtedy zwykle liczebności obu prób są jednakowe: <math> ~~n_{1}~~n_1= ~~n_{2}~~n_2= n.</math> Wynikiem takiego eksperymentu są 4 liczby, stwierdzające, ile obiektów w każdej z prób spełnia lub nie spełnia warunku. Wyniki takie można zestawić w tabelce 2x2: Linia 96 ⟶ 101: !Próba 2: TAK !Próba 2: NIE \|--- \|'''Próba 1:TAK''' \|\| align=~~”center”~~„center”\| a \|\| align=~~”center”~~„center”\| b \|--- \|'''Próba 1: NIE''' \|\| align=~~”center”~~„center”\| c \|\| align=~~”center”~~„center”\| d \|} Te same wyniki można też zaprezentować w postaci tabelki proporcji zamiast liczebności (gdzie np. <math>p_{11}=\tfrac{a}{n}, p_{10}=\tfrac{b}{n} </math> itd.) {\| border="1" cellpadding="5" cellspacing="0" Linia 108 ⟶ 113: !Próba 2: TAK !Próba 2: NIE \|--- \|'''Próba 1:TAK''' \|\| align="center"\| <math>p_{11}</math> \|\| align="center"\| <math>p_{10}</math> \|--- \|'''Próba 1: NIE''' \|\| align="center"\| <math>p_{01}</math> \|\| align="center"\| <math>p_{00}</math> \|} W zależności od liczebności prób możliwe są różne odmiany testu. ==== Liczebność duża ==== Jeżeli <math> n \geqslant {20},</math>, to wyznaczamy [[statystyka (funkcja)\|statystykę]] <math> z </math> o rozkładzie normalnym z jednego ze wzorów: : <math>z = \frac{b - c}{\sqrt{b + c}} ,</math> : <math>z=\frac{p_{10}-p_{01}}{\sqrt{\frac{p_{10}+p_{01}}{n}}},</math> : <math>z = \frac{a - d}{\sqrt{a + d}} ,</math> : <math>z=\frac{p_{11}-p_{00}}{\sqrt{\frac{p_{11}+p_{00}}{n}}}.</math> (~~stosujemy~~Stosujemy dowolny z powyższych wzorów, zależnie od dostępnych danych). Wartość statystyki <math>z </math> porównujemy z wartością <math> z_{kryt}</math> wyznaczoną z tablic rozkładu normalnego, przy czym postępowanie jest takie samo, jak opisane powyżej dla testu dla jednej proporcji. ==== Liczebność mała (test McNemara) ==== W tym przypadku hipotezy mają postać: : <math> H_0 : p_{11} = p_{10}\;</math> (proporcje w obu doświadczeniach są równe), : <math> H_1 : p_{11} \neq{p_{10}}\;</math> (proporcje w obu przypadkach różnią się istotnie). Jeżeli ~~natomiast liczebności są jeszcze mniejsze, tak, że~~ <math> b + c > 10</math>, ~~ale~~oraz zarówno <math> b <> 5 ,</math> ~~lub~~jak i <math> c< > 5</math>, ~~należy~~to można wykorzystać ~~nieco zmodyfikowany wzór:~~statystykę▼ : <math>\chi^{2} =\frac {(\|b-c~~\|-1~~)^2}{b + c} .</math>▼ Jeżeli natomiast liczebności są jeszcze mniejsze, tak, że <math>b + c > 10 ,</math> ~~oraz zarówno~~ale <math> b >< 5 </math> ~~jak i~~lub <math> c >< 5,</math> ~~to można~~należy wykorzystać ~~statystykę~~nieco zmodyfikowany wzór: : <math>\chi^{2} =\frac {(\|b-c\|-1)^2}{b + c}.</math> ▲Jeżeli natomiast liczebności są jeszcze mniejsze, tak, że <math> b + c > 10</math>, ale <math> b < 5 </math> lub <math> c< 5</math>, należy wykorzystać nieco zmodyfikowany wzór: ▲: <math>\chi^{2}=\frac {(\|b-c\|-1)^2}{b + c} </math> Wartość krytyczną odczytujemy z tablic rozkładu chi-kwadrat dla danego poziomu istotności <math>\alpha</math> i <math>v = 1</math> stopnia swobody. Obszar krytyczny testu jest prawostronny (odrzucamy <math> H_0 ,</math>, gdy <math>\chi^{2} > \chi^~~{2}_~~2_{kryt}</math>). == Testy dla wielu proporcji == Mamy tu <math>k</math> prób o liczebnościach <math>~~n_{1}~~n_1,~~n_{2}~~n_2,\dots{~~n_{k}~~n_k}.</math>. W i-tej próbie <math>~~m_{i}~~m_i</math> elementów spełnia zadany warunek, zatem proporcja w i-tej próbie jest równa <math>~~p_{i}~~p_i=\frac{~~m_{i}~~m_i}{~~n_{i}~~n_i}.</math>. Testujemy hipotezy: : <math> H_0 : ~~p_{1}~~p_1= \dots= ~~p_{k}~~p_k</math> (wszystkie proporcje w populacjach są jednakowe), : <math> H_1 : </math> '''nie''' <math> H_0 </math> (proporcje w poszczególnych populacjach różnią się). === Próby niezależne === ==== Test Fishera-Snedecora ==== Jeżeli wszystkie liczebności <math>~~n_{i}~~n_i\geqslant {20} </math> to można wyznaczyć statystykę o [[rozkład F Snedecora\|rozkładzie Fishera-Snedecora]]. Obliczamy najpierw „średnią proporcję” : <math>\bar p=\frac{\sum_{i=1}^{k}{~~n_{i}~~n_i ~~p_{i}~~p_i}}{\sum_{i=1}^{k}{~~n_{i}~~n_i}}</math> oraz ▼ : <math>F=\frac{\sum_{i=1}^{k}{n_{i}(p_{i}-\bar p)^2}}{\sum_{i=1}^{k}{p_{i}(1-p_{i})}}\cdot\frac{k}{k-1}</math>▼ ▲oraz Otrzymaną wartość statystyki F porównujemy z wartością krytyczną odczytaną z tablic rozkładu Fishera-Snedecora dla założonego poziomu istotności <math>\alpha</math> oraz liczby stopni swobody <math>v_{1}= k - 1</math> i <math>v_{2} = \infty</math>. Obszar krytyczny jest prawostronny, czyli gdy <math>F > F_{kryt}</math> — odrzucamy hipotezę <math> H_0 </math>.▼ ▲: <math>F=\frac{\sum_{i=1}^{k}{~~n_{i}~~n_i(~~p_{i}~~p_i-\bar p)^2}}{\sum_{i=1}^{k}{~~p_{i}~~p_i(1-~~p_{i}~~p_i)}}\cdot\frac{k}{k-1}.</math> ▲Otrzymaną wartość statystyki F porównujemy z wartością krytyczną odczytaną z tablic rozkładu Fishera-Snedecora dla założonego poziomu istotności <math>\alpha</math> oraz liczby stopni swobody <math>~~v_{1}~~v_1= k - 1</math> i <math>~~v_{2}~~v_2 = \infty.</math>. Obszar krytyczny jest prawostronny, czyli gdy <math>F > F_{kryt}</math> —– odrzucamy hipotezę <math> H_0 .</math>. === Próby zależne ===▼ Jeżeli mamy do czynienia z <math>k</math> zależnymi próbami (seriami wyników) o jednakowej liczebności <math>n</math> każda (np. <math> n </math> osób jest poddawanych <math> k </math> razy badaniu, którego wynik klasyfikujemy w kategoriach: tak, nie), przy czym liczebności są <math>n \geqslant 20</math>, możemy wykorzystać test Cochrana do stwierdzenia, czy wyniki w poszczególnych doświadczeniach różnią się istotnie:▼ ▲=== Próby zależne === : <math> H_0 : </math> wyniki poszczególnych serii nie różnią się istotnie▼ ▲Jeżeli mamy do czynienia z <math>k</math> zależnymi próbami (seriami wyników) o jednakowej liczebności <math>n</math> każda (np. <math> n </math> osób jest poddawanych <math> k </math> razy badaniu, którego wynik klasyfikujemy w kategoriach: tak, nie), przy czym liczebności są <math>n \geqslant 20,</math>, możemy wykorzystać test Cochrana do stwierdzenia, czy wyniki w poszczególnych doświadczeniach różnią się istotnie: : <math> H_1 : </math> wyniki różnią się (zmiana warunków eksperymentu wpływa na wyniki)▼ ▲: <math> H_0 : </math> wyniki poszczególnych serii nie różnią się istotnie, ▲: <math> H_1 : </math> wyniki różnią się (zmiana warunków eksperymentu wpływa na wyniki). Niech: * <math>m_i</math> oznacza, jak poprzednio, liczbę obiektów w i-tej próbie, które spełniają warunek (wynik '''Tak'''), to znaczy <math>i= 1,2,\dots k,</math>, zaś <math>0 \leqslant m_i \leqslant n,</math> , * <math>w_j</math> oznacza liczbę prób, w których j-ty obiekt uzyskał wynik '''Tak''' -– to znaczy <math>j=1,2,\dots n</math> oraz <math>0\leqslant ~~w_{j}~~w_j \leqslant k.</math>. Obliczamy statystykę : <math>\chi^{2} = \frac{ (k-1) \left[{k \sum_{i=1}^{k }{m_i^2} - \left(\sum_{i=1}^{k}{m_i}\right)^2}\right]}{k \sum_{j=1}^{n}{w_j}- \sum_{j=1}^{n}{w_j^2}} ,</math> którą porównujemy z wartością krytyczną odczytaną z tablic rozkładu chi-kwadrat dla poziomu istotności <math>\alpha</math> i <math> v = k -1 </math> stopni swobody. Obszar krytyczny testu jest prawostronny. == Bibliografia == * Fisher R.A., Yates F., ''Statistical tables for biological, agricultural and medical research'', Oliver and Boyd, Edinburgh 1963. * Zieliński R., ''Tablice statystyczne'', PWN, Warszawa 1972. == Linki zewnętrzne ==

Test dla proporcji: Różnice pomiędzy wersjami