Statystyka nieparametryczna

Statystyka nieparametryczna – gałąź statystyki, zajmująca się modelami i metodami, niewymagającymi założeń odnośnie do rozkładu populacji z której losowana jest próba.

Przymiotnik "nieparametryczna" podkreśla, że w odróżnieniu od wielu klasycznych metod statystycznych algorytmy te nie polegają na estymacji żadnych parametrów z góry założonego rozkładu[1] zmiennej losowej w populacji.

Metody nieparametryczne należą do tzw. odpornych metod statystycznych (ang. robust methods), gdyż są mało wrażliwe na obserwacje odstające. Najpopularniejszą grupą metod nieparametrycznych są rangowe metody statystyczne.

Termin statystyka nieparametryczna może także odnosić się do statystyki - funkcji próby, której interpretacja nie jest związana z dopasowywaniem parametrów jakiegokolwiek rozkładu. Typowym przykładem są miary oparte na rangach.

Cel i zastosowania edytuj

Metody nieparametryczne są szeroko używane przy badaniu zmiennych na skali porządkowej (jak punktowa ocena filmu od 1 do 6 gwiazdek), lub kolejność preferencji klienta.

Kolejnym polem zastosowania metod nieparametrycznych są dane w których występują obserwacje odstające. Metody parametryczne dają wówczas błędne wyniki, gdyż ich założenia nie są spełnione - obserwacje odstające są z definicji przykładem odstępstwa od założonego rozkładu. Metody nieparametryczne, ze względu na mniejszą liczbę założeń, są mniej wrażliwe na takie błędy.

Kolejnym argumentem za użyciem metod nieparametrycznych jest ich prostota. W pewnych przypadkach, nawet jeśli użycie metod parametrycznych jest uzasadnione, metody nieparametryczne prościej zastosować.

Metody parametryczne mają generalnie większą liczbę założeń, szczególnie względem rozkładu populacji. Założenia te nigdy nie są całkowicie spełnione[2]. Kwestia, czy obserwowane odstępstwa od założeń są dostatecznie małe, by daną metodę parametryczną można było zastosować, jest w dużej mierze decyzją statystyka. Metody nieparametryczne wymagają mniej tego rodzaju decyzji i dzięki temu dają mniej okazji do pomyłek lub niejednoznaczności analizy.

W przypadku jednak, gdy rozkład faktycznie jest bardzo zbliżony do założonego, metody parametryczne dają lepsze rezultaty od nieparametrycznych - generują mniejszy błąd i bardziej istotne statystycznie wyniki, a testy mają większą moc.

Modele nieparametryczne edytuj

Modele nieparametryczne zwykle różnią się tym od parametrycznych, że struktura modelu nie jest założona a priori, lecz jest dostosowywana do danych. Termin nieparametryczny nie oznacza tu, że w danym modelu nie występują żadne parametry, lecz, że ich liczba i natura jest elastyczna.

Popularne metody nieparametryczne edytuj

Testy edytuj

Praktycznie każdy test parametryczny ma przynajmniej jeden odpowiednik nieparametryczny. Kilka z nich wymienione jest poniżej:

Ceną za większą odporność na obserwacje odstające jest w przypadku testów nieparametrycznych mniejsza moc. Innymi słowy większa próba może być konieczna, aby test nieparametryczny dawał ten sam poziom istotności co test parametryczny, jednak wyniki są w mniejszym lub żadnym stopniu zależne od rozkładu populacji i obserwacji odstających.

Miary zależności zmiennych edytuj

Inne miary nieparametryczne edytuj

Inne metody nieparametryczne edytuj

Przypisy edytuj

  1. większość metod parametrycznych zakłada brzegowy rozkład normalny lub wielowymiarowy rozkład normalny wektora próby
  2. Założenia nie są spełnione choćby dlatego, że idealny rozkład ciągły nigdy nie występuje w skwantowanej przyrodzie. Ponadto najczęściej rozważany rozkład normalny ma niezerową gęstość dla każdej liczby rzeczywistej, podczas gdy w przyrodzie każda zmienna jest ograniczona, np. nie istnieją ludzie o ujemnym czy kilometrowym wzroście

Bibliografia edytuj

  • Larry Wasserman: All of Nonparametric Statistics. Springer, 2007. ISBN 0-387-25145-6.
  • Jean Dickinson Gibbons, Subhabrata Chakraborti: Nonparametric Statistical Inference. Wyd. 4. CRC, 2003. ISBN 0-8247-4052-1.

Zobacz też edytuj