Test GRIM (ang. granularity-related inconsistency of means) – prosta technika statystyczna polegająca na sprawdzaniu, czy dany zbiór statystyk opisowych jest możliwy do uzyskania w przedstawionej skali i próbie. Pozwala zidentyfikować potencjalne błędy typograficzne, niekompletne opisy procedury, pomyłki obliczeniowe lub oszustwa naukowe w badaniach. Test wykorzystuje fakt, że w zbiorze danych zawierających N dyskretnych obserwacji możliwe do uzyskania średnie arytmetyczne są ograniczone do skończonej liczby możliwych wartości: są zawsze ułamkiem z licznikiem N. Jeśli przedstawione średnie są niemożliwe, opis badania musi zawierać jakiś błąd; twórcy testu proponują określać takie sytuacje „niespójnościami”, aby nie domniemywać pochopnie złej woli u autorów badań[1].

Test GRIM jest szczególnie adekwatny w dziedzinach takich jak psychologia, w których powszechnie stosuje się relatywnie niewielkie próby i skale pomiarowe oparte o liczby naturalne. Technika została zaproponowana przez Nicka Browna i Jamesa Heathersa w 2016 r. (razem z podobnym testem SPRITE), w następstwie popularnego zainteresowania kryzysem replikacji w naukach[2]. Anaya przedstawił także test GRIMMER, rozszerzenie tej metody pozwalające na analizę raportowanej w publikacjach wariancji[3].

Procedura edytuj

Jak stwierdził jeden z autorów, test GRIM jest tak prosty, że trudno było mu uwierzyć, że nie został dotąd opisany[4]. Dla każdej średniej przedstawionej w analizowanym artykule należy ustalić wielkość próby (N), obliczyć wszystkie możliwe ułamki z licznikiem N, i porównać prezentowane średnie z uzyskanymi listami. Narzędzia stworzone i udostępnione przez autorów tolerują ponadto efekty niekonsekwentnego zaokrąglania: akceptują przedstawienie ułamka 1,125 zarówno jako 1,12 i 1,13. Wyniki nieobecne na listach są wskazywane jako matematycznie niemożliwe.

Interpretacja i ograniczenia edytuj

Twórcy testu podkreślają, że niespójności wykryte przez test GRIM nie muszą być rezultatem świadomej złej woli badaczy. Błędy tego typu mogą mieć relatywnie niewinne wyjaśnienia, takie jak pomyłki redakcyjne i typograficzne, błędy oprogramowania, lub nadmierne skróty w opisie struktury badania[4]. Mogą jednak być skutkiem nieuczciwych manipulacji danymi i wynikami (tzw. P-hacking). Miejsce wystąpienia problemu może pomóc w jego wstępnej diagnozie: pojedyncza niespójność w nieistotnej dla hipotezy średniej nie sugeruje złej woli; kilkukrotne niespójności w jednej grupie mogą świadczyć np. o pominiętym w opisie problemie braków odpowiedzi; wielokrotne niespójności w ważnych dla hipotez testach, zwłaszcza gdy powtarzają się pomiędzy różnymi pracami konkretnego autora lub zespołu, mogą świadczyć o poważniejszym problemie i skłaniać do głębszego rozpatrzenia[5].

Technika działa najbardziej precyzyjnie, kiedy analizowana próba jest relatywnie niewielka, skale pomiarowe są krótkie i dobrze opisane, a średnie przedstawiono z dokładnością do kilku miejsc po przecinku. Jeśli charakter skali nie jest jasny, analiza GRIM może wykrywać pozorne błędy – na przykład jeśli pytanie „ile kawałków pizzy zjadłaś(eś)” dopuszczało w badaniu odpowiedzi „dwa i trzy czwarte”[5].

Zastosowania edytuj

Brown i Heathers użyli testu GRIM na 260 artykułach opublikowanych w trzech prestiżowych psychologicznych czasopismach naukowych. Z tej grupy 71 publikacji miało strukturę odpowiednią do takiej analizy; 36 zawierało co najmniej jeden niemożliwy wynik, a 16 zawierało wielokrotne niespójności[2].

Test GRIM (i powiązany test SPRITE) odegrał także ważną rolę w ujawnieniu głębokich błędów w serii publikacji laboratorium psychologii żywienia pod kierunkiem Briana Wansinka na Uniwersytecie Cornella[5][6][7]. Wiele z wyników, publikacji i książek pochodzących z tego laboratorium przyciągało dotąd uwagę światowych mediów jako opis prostych i przyjemnych sztuczek pomagających w odchudzaniu. Zespół ten stosował daleko idący P-hacking; pod narastającą krytyką środowiska naukowego laboratorium wycofało siedem publikacji i wydało erraty do piętnastu opublikowanych wcześniej badań[8].

Zobacz też edytuj

Przypisy edytuj

  1. James Heathers, The GRIM test — further points, follow-ups, and future directions [online], Medium, 3 czerwca 2016 [dostęp 2018-05-02].
  2. a b Nick Brown, James Heathers, The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology, „Social Psychological and Personality Science”, 8, 2016, DOI10.1177/1948550616673876 [dostęp 2018-05-02].
  3. Jordan Anaya, The GRIMMER test: A method for testing the validity of reported measures of variability, PeerJ Preprints, 29 sierpnia 2016, DOI10.7287/peerj.preprints.2400v1 [dostęp 2018-05-02] (ang.).
  4. a b James Heathers, The GRIM test — a method for evaluating published research. [online], Medium, 23 maja 2016 [dostęp 2018-05-02].
  5. a b c Jordan Anaya, Tim van der Zee, Nick Brown, Statistical infarction: A postmortem of the Cornell Food and Brand Lab pizza publications, PeerJ Preprints, 14 czerwca 2017, DOI10.7287/peerj.preprints.3025v1 [dostęp 2018-05-02] (ang.).
  6. Tom Bartlett, Spoiled Science, „The Chronicle of Higher Education”, 17 marca 2017 [dostęp 2018-05-02].
  7. Andrew Gelman, Pizzagate, or the curious incident of the researcher in response to people pointing out 150 errors in four of his papers – Statistical Modeling, Causal Inference, and Social Science, „Statistical Modeling, Causal Inference, and Social Science”, 3 lutego 2017 [dostęp 2018-05-02] (ang.).
  8. Stephanie M. Lee, Sliced And Diced: The Inside Story Of How An Ivy League Food Scientist Turned Shoddy Data Into Viral Studies, „BuzzFeed” [dostęp 2018-05-02] (ang.).