Wnioskowanie częstościowe

Wnioskowanie częstościowe (ang. frequentist inference), NHST (ang. null hypothesis significance testing), statystyka częstościowa – podejście w dziedzinie wnioskowania statystycznego oparte na falsyfikacji hipotez statystycznych w oparciu o ich oczekiwane długoterminowe właściwości. Jest ono amalgamatem metod wypracowanych przez Ronalda Fishera oraz Neymana i Pearsona[1]. Jego główną właściwością jest to, że w długim horyzoncie czasowym badacz posługujący się prawidłowo metodami częstościowymi nie popełni błędów decyzyjnych statystycznie częściej, niż założył. Charakterystycznym dla statystyki częstościowej narzędziem jest wartość p testu. Głównymi alternatywnymi podejściami jest wnioskowanie bayesowskie i stosowanie ilorazów wiarygodności.

Wnioskowanie statystyczne wyróżnia dwa rodzaje błędów decyzyjnych i dwa rodzaje prawidłowych decyzji, co ilustruje następująca tablica pomyłek:

klasa rzeczywista
pozytywna negatywna
klasa

predykowana

pozytywna prawdziwie pozytywna (true positive) fałszywie pozytywna (false positive),

błąd pierwszego rodzaju

negatywna fałszywie negatywna (false negative),

błąd drugiego rodzaju

prawdziwie negatywna (true negative)

Modele statystyczne używane w podejściu częstościowym mają dobrze znane właściwości, w związku z czym można określić, jak często przez naturalną zmienność prób statystycznych (błąd przypadkowy) możemy spodziewać się obserwacji przypadkowo wprowadzających badacza w błąd. W częstościowej interpretacji prawdopodobieństwa wynik każdego eksperymentu rozpatruje się jako jeden z nieskończonej liczby losowych, potencjalnych pomiarów nieznanych stałych wartości. Ponieważ znane są właściwości statystyczne modelu, można obliczyć – prawdopodobieństwo uzyskania obserwacji danych D, lub bardziej skrajnych, przy założeniu hipotezy H. Jeśli prawdopodobieństwo to (tzw. wartość p) jest mniejsze od przyjętej przez badacza wartości krytycznej, może przyjąć, że dane są przesłanką na rzecz falsyfikacji hipotezy H, i nie pomyli się czyniąc tak częściej niż wyznacza wybrana wartość krytyczna. Należy zwrócić jednak uwagę, że – kontrintuicyjnie – w podejściu częstościowym nie mówi się o odwrotnym, często bardziej interesującym badaczy prawdopodobieństwie: a więc pewności jaką można przypisać badanej hipotezie w oparciu o obserwacje. Wartość ta koreluje jedynie słabo, zależnie od mocy i poziomu istotności użytego testu, z [2]. Podejście częstościowe zapewnia więc konkretny poziom pewności co do decyzji, ale nie daje bezpośrednio wiedzy co do prawdopodobieństwa hipotez. Wynika to z fundamentalnych założeń filozoficznych twórców tej metody – Fisher, i zwłaszcza Neyman, uważali że mówienie o prawdopodobieństwie hipotez jest błędem logicznym, ponieważ hipoteza może być jedynie albo prawdziwa, albo fałszywa. W opozycji do tego poglądu, wnioskowanie bayesowskie opiera się na pojęciu prawdopodobieństwa subiektywnego, a wynik każdego eksperymentu traktuje jako stałe dane, reprezentujące w modelu nieznane zmienne losowe[3].

Tło historyczne edytuj

Wnioskowanie częstościowe jest amalgamatem modeli stworzonych przez Fishera oraz Neymana i Pearsona[1]. Ronald Fisher zaproponował w 1925 r., aby weryfikacja hipotez statystycznych polegała na teście istotności – obliczaniu wartości p danych (prawdopodobieństwa uzyskania takich, lub bardziej ekstremalnych obserwacji) przy założeniu hipotezy zerowej: najczęściej, braku jakichkolwiek różnic. Napisał również, że wartość p jest wyrazem wartości dowodowej danych przeciwko hipotezie zerowej. Zaproponował przyjęcie krytycznej wartości na poziomie 5% jako luźnej konwencji, która może być dostosowywana do konkretnego obszaru badawczego[4]. Jego propozycja testowania hipotezy zerowej wyglądała zatem następująco[5]:

  1. Wybierz hipotezę zerową   Nie musi ona zakładać zerowego efektu, tylko taki jaki chcesz sfalsyfikować.
  2. Wykonaj obserwację i przedstaw jej surową wartość p. Oceń na tej podstawie wartość dowodową danych według własnych kryteriów.
  3. Korzystaj z tej procedury tylko jeśli badasz słabo znany obszar i nie masz lepszych narzędzi.

Neyman i Pearson odrzucili interpretację Fishera m.in. w pracy z 1933 r., krytykując subiektywną naturę sądów o prawdziwości hipotez (z którą to obiekcją Fisher się zgadzał), i zaproponowali sformułowanie procesu weryfikacji hipotez statystycznych jako testu hipotez, w języku teorii decyzji: jakie należy przyjąć zasady postępowania, aby w długim horyzoncie czasowym nie popełniać błędów częściej niż przyjęto[6]. Rozróżnili dwie hipotezy: podstawową i alternatywną, oraz ryzyko popełnienia błędu pierwszego i drugiego rodzaju (odpowiednio, błędnym przyjęciu hipotezy zerowej i alternatywnej). W ich ujęciu, testowanie hipotez polega na zero-jedynkowym podejmowaniu decyzji co do wyboru jednej lub drugiej hipotezy, przy kontroli częstości podejmowania błędów, i z użyciem testu statystycznego wybranego według kryterium najwyższej mocy statystycznej w danym zastosowaniu. Neyman i Pearson odrzucili możliwość bezpośredniego rozważania wartości p zaobserwowanych danych jako ich wartości dowodowej, i podkreślali, że procedura wymaga przyjęcia a priori dopuszczalnego poziomu obu błędów, a parametry danych a posteriori nie powinny być poza tym traktowane jako informatywne. Model Neymana/Pearsona wyglądał zatem w ten sposób[5]:

  1. Wybierz dwie hipotezy, które chcesz porównać:   i   oraz dostosowane do konkretnego problemu dopuszczalne ryzyko błędów   i   Wykonaj na ich podstawie analizę kosztów w celu wybrania optymalnego testu i wielkości próby dla rozstrzygania pomiędzy hipotezami na wybranym poziomie błędów.
  2. Jeśli zaobserwowane dane spełniają kryterium odrzucenia   postępuj tak jakby   była prawdziwa; w przeciwnym razie postępuj tak, jakby prawdziwa była  
  3. Procedura ta nie rozstrzyga o prawdziwości hipotez, ale pozwala w długim horyzoncie czasowym utrzymywać ryzyko błędów w założonych granicach. Jest odpowiednia tylko do zastosowań, w których można jasno określić   i   a   i   dają rozbieżne przewidywania.

Fisher nie uważał tego rozwiązania za dobre, twierdząc że mechaniczne podejście jest szkodliwe dla nauki. W publicznych wypowiedziach m.in. porównał Neymana do komunistycznego planisty. Spór statystyków pozostał burzliwy i niepogodzony do końca ich życia. Jednocześnie obie strony konfliktu uważały podejście bayesowskie również za błędne[5][7]. Po 1940 r. procedury Fishera i Neymana/Pearsona zaczęły być, wbrew wypowiedziom ich twórców, łączone w podręcznikach w hybrydową postać, i przedstawiane przy pomocy języka sugerującego, że pojedyncze wyniki mogą być używane do wyciągania bayesowskich wniosków o subiektywnym prawdopodobieństwie hipotez[8]. Sprawia to, że podejście częstościowe wiąże się z wieloma nieintuicyjnymi problemami interpretacyjnymi[1][5][7].

Prawidłowa realizacja badań i interpretacja wyników edytuj

 
Rozkład oczekiwanych statystyk z próby przy założeniu hipotezy zerowej ma postać rozkładu normalnego. Test istotności polega na traktowaniu najmniej prawdopodobnych wyników, oddalonych od średniej o ok. dwa odchylenia standardowe, jako zaskakujących i świadczących przeciwko hipotezie zerowej.

Realizacja badania edytuj

W modelu Neymana/Pearsona, częstościowa procedura weryfikacji hipotez statystycznych ma sens tylko wtedy, jeśli badacz postępuje według z góry ustalonego planu badawczego. Badacz który testuje hipotezy powinien przedstawić wyniki wszystkich zaplanowanych porównań, i ani nie pomijać, ani nie uwzględniać żadnych dodatkowych testów. Badania metodologiczne potwierdzają, że tego typu decyzje co do analizy danych ad hoc, po ich zebraniu, sprawiają, że nominalne ryzyko błędów w rzeczywistości bardzo wzrasta. Błędy tego typu obejmują m.in. zjawiska nazywane P-hackingiem oraz HARKingiem (od ang. hypothesizing after the results are known – stawianie hipotez po poznaniu danych)[9][10]. Dopuszczalne są badania, które służą eksploracji danych (badania eksploracyjne), a nie testowaniu hipotez (badania konfirmacyjne), ale nieuprawnione jest przedstawianie jednych jako drugich. Wyniki przeglądów publikacji sugerują, że takie błędy metodologiczne mogą być w naukach powszechne[11][12]. W związku z tym zaproponowano, aby naukowcy mieli obowiązek prerejestracji projektów badań przed ich wykonaniem[13].

Interpretacja wyniku istotnego statystycznie edytuj

 
Rozkład wartości p dla hipotezy zerowej i alternatywnej przy wysokiej mocy statystycznej. Wartości p niewiele mniejsze od 0,05 mogą być w tym przypadku nieintuicyjnie bardziej prawdopodobne w hipotezie zerowej, choć procedura każe ją odrzucić.

Wynik istotny statystycznie uprawnia do przyjęcia, że można postępować tak, jakby hipoteza alternatywna była prawdziwa. Działając w zgodzie z tą zasadą nie popełnimy błędów częściej niż stanowi przyjęta przez nas nominalna wartość krytyczna. Nie daje jednak bezpośrednio informacji o tym, czy ta konkretna hipoteza jest rzeczywiście prawdziwa, ponieważ jest to inne prawdopodobieństwo warunkowe:   które to wartości w praktyce jedynie słabo ze sobą korelują (r≈0,37 w symulacjach zakładających hipotezę zerową i losowy poziom mocy)[2]. Testowana jest ponadto z reguły hipoteza zerowa – jej odrzucenie nie oznacza, że prawdopodobna jest konkretna hipoteza alternatywna. O prawdopodobieństwie konkretnej hipotezy pozwalają mówić metody bayesowskie lub ilorazy wiarygodności.

Poziom wartości p obliczony a posteriori w oparciu o zaobserwowane dane nie wyraża tego, jakim ryzykiem popełnienia błędu pierwszego rodzaju są obarczone – wynosi on zawsze tyle, jaką wartość krytyczną (poziom istotności) przyjęto a priori – z reguły, α=0,05[7].

Rozkład wartości p przy założeniu hipotezy zerowej jest jednostajny – każdy wynik jest jednakowo prawdopodobny. W przypadku hipotezy alternatywnej, przy wysokiej mocy statystycznej badania, oczekiwany rozkład wartości p jest mocno prawoskośny. Prowadzi to do sytuacji, w których przy wysokiej mocy pewne wartości p, choć znajdują się poniżej wartości krytycznej, są jednak bardziej typowe dla hipotezy zerowej[14].

Wysoka moc statystyczna badania powoduje, że nawet mikroskopijne różnice w obserwacjach zaowocują osiągnięciem przez test istotności statystycznej. Istotność statystyczna nie świadczy bezpośrednio o wartości dowodowej danych, ani o istotności praktycznej badanego zjawiska. Praktyczną istotność należy rozważać rozpatrując wielkość efektu wraz z jej przedziałem ufności[15]. Stosowanie tych miar jest obecnie rekomendowane np. przez Amerykańskie Towarzystwo Psychologiczne[16].

Interpretacja wyniku nieistotnego statystycznie edytuj

Wynik nieistotny jest nieinformatywny – nie świadczy ani na rzecz, ani przeciwko hipotezie zerowej. Uprawnia do postępowania tak, jakby była prawdziwa. W celu rozstrzygnięcia jej prawdziwości, można zastosować iloraz wiarygodności lub metody wnioskowana bayesowskiego. Jeśli badacz po uzyskaniu wyniku nieistotnego nadal uważa, że jego hipoteza alternatywna jest prawdziwa, może rozważyć wykonanie replikacji badania z wyższą mocą statystyczną.

Replikacje i metaanalizy edytuj

 
Prawdopodobieństwo uzyskania udanej replikacji we wszystkich trzech próbach przy mocy 80% i założeniu hipotezy alternatywnej wynosi jedynie ok. 51%.

Kluczowa dla metody naukowej jest ograniczona wiarygodność pojedynczych zbiorów obserwacji. Dopiero badanie, które niezależnie zreplikowano, pozwala mówić o jakiejś wiedzy. Statystyk Ronald Fisher stwierdza: „możemy uznać, że zjawisko jest udowodnione eksperymentalnie wówczas, gdy wiemy, jak przeprowadzić eksperyment, który rzadko zawiedzie w wykazaniu istotnych statystycznie rezultatów.”[17] Nieudane replikacje nie świadczą przy tym koniecznie o nieprawdziwości hipotezy, ponieważ nawet przy wysokiej mocy statystycznej i badaniu prawdziwego zjawiska można oczekiwać, że wystąpią przypadkowe nieistotne powtórzenia testów. Właściwą metodą, która służy rzetelnemu agregowaniu wyników wielu badań i wyciąganiu z nich wniosków jest metaanaliza[18]. Neyman i Pearson zaznaczyli ponadto już w 1928 r.: „metody statystyczne powinny być używane z rozwagą i zrozumieniem, a nie jako narzędzia które same w sobie udzielają ostatecznych odpowiedzi”[19].

Przypisy edytuj

  1. a b c Jesper Wilborg Schneider, Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-14] (ang.).
  2. a b David Trafimow, Stephen Rice, A test of the null hypothesis significance testing procedure correlation argument, „The Journal of General Psychology”, 136 (3), 2009, s. 261–269, DOI10.3200/GENP.136.3.261-270, ISSN 0022-1309, PMID19650521 [dostęp 2017-01-15].
  3. Edwin Thompson Jaynes, George Larry Bretthorst, Probability Theory: The Logic of Science, Cambridge University Press, 10 kwietnia 2003, ISBN 978-0-521-59271-0 [dostęp 2017-01-14] (ang.).
  4. Ronald Aylmer Fisher, Statistical methods for research workers, Oliver and Boyd, 1970, ISBN 0-05-002170-2.
  5. a b c d Gerd Gigerenzer, Mindless statistics, „The Journal of Socio-Economics”, 33 (5), Statistical Significance, 2004, s. 587–606, DOI10.1016/j.socec.2004.09.033 [dostęp 2017-01-15].
  6. Jerzy Neyman, Egon Sharpe Pearson, On the Problem of the Most Efficient Tests of Statistical Hypotheses, „Philosophical Transactions of the Royal Society of London A: Mathematical, Physical and Engineering Sciences”, 231 (694–706), 1933, s. 289–337, DOI10.1098/rsta.1933.0009, ISSN 1364-503X [dostęp 2017-01-14] (ang.).
  7. a b c Raymond Hubbard i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR30037265 [dostęp 2017-01-15].
  8. Gerd Gigerenzer, The superego, the ego, and the id in statistical reasoning, [w:] Gideon Keren, Charles Lewis, A Handbook for Data Analysis in the Behaviorial Sciences: Volume 1: Methodological Issues Volume 2: Statistical Issues, Psychology Press, 14 stycznia 2014, ISBN 978-1-317-75998-0 [dostęp 2017-01-15] (ang.).
  9. Joseph P. Simmons, Leif D. Nelson, Uri Simonsohn, False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant, „Psychological Science”, 22 (11), 2011, s. 1359–1366, DOI10.1177/0956797611417632 [dostęp 2017-01-15] (ang.).
  10. Norbert Lee Kerr, HARKing: hypothesizing after the results are known, „Personality and Social Psychology Review: An Official Journal of the Society for Personality and Social Psychology, Inc”, 2 (3), 1998, s. 196–217, DOI10.1207/s15327957pspr0203_4, ISSN 1088-8683, PMID15647155 [dostęp 2017-01-15].
  11. Megan L. Head i inni, The Extent and Consequences of P-Hacking in Science, „PLOS Biology”, 13 (3), 2015, e1002106, DOI10.1371/journal.pbio.1002106, ISSN 1545-7885, PMID25768323, PMCIDPMC4359000 [dostęp 2017-01-15].
  12. Daniele Fanelli, “Positive” Results Increase Down the Hierarchy of the Sciences, „PLOS One”, 5 (4), 2010, e10068, DOI10.1371/journal.pone.0010068, ISSN 1932-6203, PMID20383332, PMCIDPMC2850928 [dostęp 2017-01-15].
  13. Eric-Jan Wagenmakers i inni, An Agenda for Purely Confirmatory Research, „Perspectives on Psychological Science”, 7 (6), 2012, s. 632–638, DOI10.1177/1745691612463078 [dostęp 2017-02-09] (ang.).
  14. Daniël Lakens, On the challenges of drawing conclusions fromp-values just below 0.05, „PeerJ”, 3, 2015, DOI10.7717/peerj.1142, ISSN 2167-8359, PMID26246976, PMCIDPMC4525697 [dostęp 2017-01-15] (ang.).
  15. Jacob Cohen, The earth is round (p < .05): Rejoinder., „American Psychologist”, 50 (12), s. 1103–1103, DOI10.1037/0003-066x.50.12.1103 [dostęp 2017-01-15].
  16. Leland Wilkinson, Task Force on Statistical Inference, Statistical methods in psychology journals: Guidelines and explanations., „American Psychologist”, 54 (8), 1999, DOI10.1037/0003-066X.54.8.594, ISSN 1935-990X [dostęp 2017-01-15].
  17. Ronald Aylmer Fisher, The design of experiments, Hafner Press, 1974, s. 14, ISBN 978-0-02-844690-5, OCLC 471778573.
  18. Daniël Lakens, Joe Hilgard, Janneke Staaks, On the reproducibility of meta-analyses: six practical recommendations, „BMC Psychology”, 4, 2016, s. 24, DOI10.1186/s40359-016-0126-3, ISSN 2050-7283, PMID27241618, PMCIDPMC4886411 [dostęp 2017-01-15].
  19. Jerzy Neyman, Egon Sharpe Pearson, On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference: Part I, „Biometrika”, 1/2, 1928, s. 175–240, DOI10.2307/2331945, JSTOR2331945 [dostęp 2017-01-08].