Dobór próby: Różnice pomiędzy wersjami

Dodane 12 553 bajty ,  13 lat temu
napisany w zasadzie od nowa głównie w oparciu o en-wiki
m (robot dodaje: fi, ja, ko poprawia: su)
(napisany w zasadzie od nowa głównie w oparciu o en-wiki)
'''Dobór próby''' tojest wczęścią [[badanie statystyczne|badaniachbadania statystycznychstatystycznego]] jeden z etapów badania. Polega na wyborzewybraniu odpowiednichpewnych (zazwyczajindywidualnych możliwie[[obserwacja reprezentatywnychstatystyczna|obserwacji]], itp.)które elementówtworząc tzw. [[populacjapróba statystyczna|populacjipróbę statystyczną]], którepozwolą zostanąuzyskać poddanepewną badaniu.wiedzę o całej [[populacja statystyczna|populacji]].
 
Każda obserwacja może obejmować jedną lub większą liczbę konkretnych wartości tzw. [[cecha statystyczna|cech statystycznych]] dotyczących jednego konkretnego obiektu badań, lub (w przypadku analiz zmian jakiegoś zjawiska w czasie) jednej chwili czasowej.
Dobranie odpowiedniej próby pozwala na wnioskowanie o całej populacji bez konieczności (badania) wszystkich jej [[desygnat|desygnatów]] z określoną, wystarczająco wysoką [[pewność|pewnością]] rezultatów. Rezultat badania statystycznego wyrażony jest [[statystyka|statystycznie]] i służy dalszemu opracowaniu oraz interpretacji w kontekście tematu badań.
 
Błędy doboru próby powodują brak odzwierciedlenia rozkładu cech populacji w próbie. Rzutują na całe badanie: błędnie dobrana próba skutkuje nieprzydatnością badania do opisu zjawisk i prawidłowości w populacji. [[Hipoteza|Hipotezy]] sformułowane wstępnie pozostają nierozstrzygnięte. Skutki są podobne do przekłamań w zebranych danych, np. efektu tzw. "[[sufit (badania sondażowe)|sufitu]]".
Wykrycie błędu doboru próby jest trudne i wymaga prześledzenia metodologii badań oraz znajomości realiów tematu badania.
 
Dobór próby można podzielić na siedem etapów:
Zobacz: [[dobór losowy]], [[dobór celowy]], [[dobór warstwowy]].
* Definiowanie szerokiej populacji
* Wybór operatu losowania
* Określenie metody doboru
* Określenie wielkości próby
* Implementacja założeń
* Zbieranie danych
* Sprawdzenie poprawności doboru
 
==Definiowanie szerokiej populacji==
Właściwa praktyka statystyczna opiera się na poprawnym zdefiniowaniu problemu. Przede wszystkim musimy wiedzieć, jakie obiekty badamy. Populacja statystyczna to hipotetyczny zbiór wszelkich możliwych obiektów, o których chcemy uzyskać informacje, np.:
* mieszkańcy Polski w wieku 18-25 lat
* partia właśnie wyprodukowanych żarówek
Niekiedy badamy tzw. [[szereg czasowy|szeregi czasowe]], czyli zmiany pewnych wielkości w czasie. Wówczas populacja może obejmować np. obserwacje badanych wielkości w kolejnych chwilach czasowych, np.
* kursy wszystkich akcji na polskiej giełdzie na kolejnych sesjach
Zwykle metody statystyczne służą zdobyciu danych o dużej populacji przez badanie jedynie jej wycinka.
 
==Operat losowania==
W najprostszym przypadku istnieje teoretyczna możliwość zbadania całej populacji statystycznej, np. całej partii żarówek. Często jednak takiej możliwości nie ma, np. nigdy nie zbadamy reakcji wszystkich żyjących muszek owocówek na dany bodziec, nie miałoby to zresztą sensu.
 
Z zasady więc ograniczamy wstępnie populację do obiektów które jesteśmy w stanie zidentyfikować i włączyć dowolny z nich do próby. Zbiór ten zwany jest '''operatem losowania''' W przedwyborczym [[sondaż opinii|sondażu opinii]] możliwe zawężenia populacji obejmują np.:
* [[rejestr wyborców]]
* [[książka telefoniczna|książkę telefoniczną]]
* odwiedzających centra handlowe wieczorem w ostatni poniedziałek przed wyborami.
 
Wszystkie powyższe zakresy obejmują pewnych ludzi, którzy nie wezmą udziału w wyborach i nie obejmują części ludzi, którzy udział wezmą. Ważne jest, aby takie zawężenie było reprezentatywne. Na przykład wybierając ludzi wyłącznie z książki telefonicznej ograniczamy się do posiadaczy telefonu, którzy mogą się różnić od ogółu wyborców (np. częściej mieszkają w mieście).
 
Aby wyłoniona próba była [[próba reprezentatywna|reprezentatywna]], operat musi być aktualny i kompletny.
 
==Metody doboru==
Z operatu dobierane są obserwacje do próby statystycznej. Można tego dokonać na wiele sposobów.
 
===Prosta próba losowa===
{{main|dobór losowy}}
W prostej próbie losowej o pewnej liczności, każdy element z operatu ma jednakową szansę znalezienia się w próbie. Przy właściwym doborze operatu próba taka jest reprezentatywna dla populacji.
 
Jeśli jednak interesuje nas zjawisko rzadkie w populacji, np. nietypowa odmiana badanej choroby, może okazać się, że prosta próba losowa albo nie będzie obejmowała wystarczającej liczby tych nietypowych przypadków, albo jej liczność będzie musiała być bardzo duża i badania będą zbyt kosztowne. Lepiej wówczas użyć próby warstwowej.
 
===Próba kwotowa===
W próbie kwotowej operat jest najpierw dzielony na rozłączne podgrupy. Następnie eksperymentator lub ankieter wybiera z każdej podgrupy przypadki w odpowiedniej proporcji. Na przykład ankieter ma za zadanie przepytać 200 kobiet i 300 mężczyzn w wieku od 45 do 60 lat.
 
Ten drugi krok sprawia, że próby uzyskane tą techniką mogą być niereprezentatywne. Na przykład jest prawdopodobne, że ankieter (nawet nieświadomie) będzie wybierał osoby w dobrym humorze, gdyż z doświadczenia wie, że chętniej odpowiadają one na pytania.
 
===Próba warstwowa===
Próba warstwowa (lub: próba warstwowana) tak jak w przypadku kwotowej wymaga podzielenia operatu na podgrupy (klasy, warstwy), jednak z każdej grupy obiekty do próby wybierane są losowo. Główne przyczyny stosowania prób warstwowych to:
* zapewnienie określonym grupom wystarczającej liczności w próbie
* zapewnienie większej efektywności badań przez przeważanie próby.
 
Jeśli w populacji 99% obiektów jest z klasy A i 1% z klasy B (cokolwiek oznacza to w danym przypadku), a do badań potrzebujemy co najmniej 300 obiektów z każdej klasy, to przy prostej próbie losowej musielibyśmy mieć ponad 30000 obiektów w próbie. W przypadku próby warstwowej losujemy 300 obiektów z klasy A, 300 z klasy B i we wszystkich analizach nadajemy obiektom w klasie A wagę 0,99 a obiektom w B wagę 0,01. W ten sposób podobną [[istotność]] statystyczną wyników zapewnia pięćdziesięciokrotnie mniejsza próba. Z drugiej strony utrudnia to analizę i sprawia, że wariancja w małych klasach mocno wpływa na wariancję wyniku.
 
===Próba zespołowa (grupowa)===
W tej wersji operat jest dzielony na grupy, a następnie losowane są do próby nie pojedyncze jednostki, lecz całe grupy.
 
Takie losowanie upraszcza badania. Istnieje jednak zagrożenie, że niektóre z pominiętych grup różnią się rozkładami cech i w ten sposób próba będzie niereprezentatywna. Ponadto wymaga to wprowadzenia pewnych korekt do [[test statystyczny|testów statystycznych]].
 
===Losowanie dwustopniowe===
Podobnie jak w próbie zespołowej losowane są najpierw grupy, jednak nie wchodzą one w całości do próby, lecz przeprowadzane jest z nich kolejne losowanie.
 
===Próba random-route===
Ankieter uzyskuje od badanych adresy kolejnych osób do zbadania. Próba jest tania, lecz znajomi są zwykle podobni do siebie, ponadto prawdopodobieństwo podania przez osobę A kontaktu do osoby B zależy od cech zarówno A jak i B, próba taka jest więc często niereprezentatywna.
 
===Próba losowo-kwotowa===
Losowanie dwustopniowe, w którym najpierw losuje się miejscowości (wiejskie i miejskie), a następnie wykonuje próbę kwotową. Ma wszystkie wady próby zespołowej i próby kwotowej, choć efekt jest nieco lepszy dzięki zapewnieniu właściwych proporcji miast i wsi.
 
===Próba systematyczna===
Wybór badanych w jakikolwiek systematyczny sposób np. co 10 nazwiska z książki telefonicznej. Jeśli zmienna według której wybieramy (czyli tu: pozycja w książce telefonicznej) jest [[niezależność zmiennych losowych|niezależna]] od wszystkich zmiennych badanych, to próba jest reprezentatywna. Istnieje jednak ryzyko, że nie uwzględniamy jakiegoś czynnika, który wpływa na badania (np. konkurencyjna firma badawcza nadużywała próby systematycznej i dokładnie ci badani, którzy znajdują się na co 10 miejscu w książce są teraz wrogo nastawieni do ankiet i podają nieprawdziwe dane).
 
===Próba ekspercka / dobór celowy===
{{main|dobór celowy}}
W tym schemacie losowania grupy badanych są dobierani do próby przez ekspertów, np. aby przewidzieć wynik wyborów, bierze się pod uwagę miejscowości, gdzie wyniki w poprzednich wyborach były najbardziej zbliżone do wyników w skali kraju.
 
Dobór celowy jest tani, jednak trudno ocenić, czy próba jest reprezentatywna.
 
==Rozmiar próby==
Rozmiar próby powinien być taki, aby zapewnić [[istotność]] statystyczną wyników. Potrzeba do tego jednak pewnych danych o populacji. Można więc w pierwszym rzucie zdecydować się na małą próbę, a w razie potrzeby ją poszerzać. Do badania istotności służą [[test istotności|testy istotności statystycznej]].
 
<!--TODO ==Zbieranie danych==
Właściwe zbieranie danych wymaga:
* Following the defined sampling process
* Keeping the data in time order
* Noting comments and other contextual events
* Recording non-responses
 
Most sampling books and papers written by non-statisticians focus only in the data collection aspect, which is just a small part of the sampling process.
 
==Review of sampling process==
After sampling, a review should be held of the exact process followed in sampling, rather than that intended, in order to study any effects that any divergences might have on subsequent analysis. A particular problem is that of ''non-responses''.
 
===Non-response===
In [[survey sampling]], many of the individuals identified as part of the sample may be unwilling to participate or impossible to contact. In this case, there is a risk of differences, between (say) the willing and unwilling, leading to [[selection bias]] in conclusions. This is often addressed by follow-up studies which make a repeated attempt to contact the unresponsive and to characterize their similarities and differences with the rest of the frame.
 
==Weighting of samples==
 
In many situations the sample fraction may be varied by stratum and data will have to be weighted to correctly represent the population. Thus for example, a simple random sample of individuals in the United Kingdom might include some in remote Scottish islands who would be inordinately expensive to sample. A cheaper method would be to use a stratified sample with urban and rural strata. The rural sample could be under-represented in the sample, but weighted up appropriately in the analysis to compensate.
 
==History of sampling==
The idea of random sampling by the use of lots is an old one, mentioned several times in the Bible. In 1786 Pierre Simon [[Laplace]] estimated the population of France by using a sample, along with [[ratio estimator]]. He also computed probabilistic estimates of the error. These were not expressed as modern [[confidence interval]]s but as the sample size that would be needed to achieve a particular upper bound on the sampling error with probability 1000/1001. His estimates used [[Bayes' theorem]] with a uniform [[prior probability]] and it assumed his sample was random.The theory of small-sample statistics developed by [[William Sealy Gossett]] put the subject on a more rigorous basis in the 20th century. However, the importance of random sampling was not universally appreciated and in the USA the 1936 ''[[Literary Digest]]'' prediction of a Republican win in the [[U.S. presidential election, 1936|presidential election]] went badly awry, due to severe [[bias]]. A sample size of one million was obtained through magazine subscription lists and telephone directories. It was not appreciated that these lists were heavily biased towards Republicans and the resulting sample, though very large, was deeply flawed.
-->
==Bibliografia==
* Brown, K.W., Cozby, P.C., Kee, D.W., & Worden, P.E. (1999). ''Research Methods in Human Development,'' 2d ed. Mountain View, CA : Mayfield. ISBN 1-55934-875-5
* [http://www.osra.org/itlpj/bartlettkotrlikhiggins.pdf Bartlett, J. E., II, Kotrlik, J. W., & Higgins, C. (2001). Organizational research: Determining appropriate sample size for survey research. Information Technology, Learning, and Performance Journal, 19(1) 43-50.]
* Chambers, R L, and Skinner, C J (editors) (2003), ''Analysis of Survey Data'', Wiley, ISBN 0-471-89987-9
* Cochran, W G (1977) ''Sampling Techniques'', Wiley, ISBN 0-471-16240-X
* Deming, W E (1975) On probability as a basis for action, ''The American Statistician'', 29(4), pp146-152.
* Flyvbjerg, B (2006) "Five Misunderstandings About Case Study Research." Qualitative Inquiry, vol. 12, no. 2, April 2006, pp. 219-245. [http://flyvbjerg.plan.aau.dk/Publications2006/0604FIVEMISPUBL2006.pdf]
* Gy, P (1992) ''Sampling of Heterogeneous and Dynamic Material Systems: Theories of Heterogeneity, Sampling and Homogenizing''
* Kish, L (1995) ''Survey Sampling'', Wiley, ISBN 0-471-10949-5
* Korn, E L, and Graubard, B I (1999) ''Analysis of Health Surveys'', Wiley, ISBN 0-471-13773-1
* Lohr, H (1999) ''Sampling: Design and Analysis'', Duxbury, ISBN 0-534-35361-4
* Sarndal, Swenson, and Wretman (1992), Model Assisted Survey Sampling, Springer-Verlag, ISBN 0-387-40620-4
* Stuart, Alan (1962) ''Basic Ideas of Scientific Sampling'', Hafner Publishing Company, New York
*ASTM E105 Standard Practice for Probability Sampling Of Materials
*ASTM E122 Standard Practice for Calculating Sample Size to Estimate, With a Specified Tolerable Error, the Average for Characteristic of a Lot or Process
*ASTM E141 Standard Practice for Acceptance of Evidence Based on the Results of Probability Sampling
*ASTM E1402 Standard Terminology Relating to Sampling
*ASTM E1994 Standard Practice for Use of Process Oriented AOQL and LTPD Sampling Plans
*ASTM E2234 Standard Practice for Sampling a Stream of Product by Attributes Indexedby AQL
 
==Zobacz też==
*[[dobór losowy]],
*[[dobór celowy]],
*[[próba reprezentatywna]]
 
==Linki zewnętrzne==
* [http://www.tns-global.pl/przewodnik/proby Próby stosowane w TNS OBOP]
* {{lang|en}} [http://trsl.sourceforge.net/TRSL &ndash; Template Range Sampling Library] biblioteka C++ zawierająca wiele schematów losowania.
 
[[Kategoria:Metody badań społecznych]]
[[Kategoria:Badania marketingowe]]
[[Kategoria:Psychometria]]
[[Kategoria:Statystyka]]
 
[[da:Stikprøve]]
[[de:Auswahlverfahren]]
[[en:Sampling (statistics)]]
[[es:Muestreo en estadística]]