Współczynnik korelacji rang Spearmana: Różnice pomiędzy wersjami

[wersja przejrzana][wersja przejrzana]
Usunięta treść Dodana treść
m drobne techniczne
Linia 1:
{{medal}}
[[Plik:Spearman animacja2.gif|thumb|500px|Animacja wyjaśnia własności korelacji rangowej. Na osiach odłożone są wartości porównywanych zmiennych. Punkty symbolizują obserwacje w próbie. Współczynnik korelacji rang Spearmana jest obliczany w dwóch etapach<ref name="Koronacki" />: najpierw wykonywane jest rangowanie, czyli zastąpienie każdej zaobserwowanej wartości przez jej numer w zbiorze posortowanym rosnąco. Rangowanie pokazane jest tu w formie animacji, aby umożliwić śledzenie losów każdej z obserwacji; naprawdę żadne stadia pośrednie nie występują. Następnie obliczany jest zwykły współczynnik korelacji liniowej Pearsona<ref>Jest to procedura zgodna z definicjami {{LinkWzór|1}}, {{LinkWzór|2}}, {{LinkWzór|2a}}, {{LinkWzór|2b}}, {{LinkWzór|2c}}. Estymatory {{LinkWzór|6}}, {{LinkWzór|6a}}, {{LinkWzór|7}} sprowadzają się do niej przy braku powtarzających się wartości w każdej ze zmiennych. Dowód jest w monografii {{odn|ref=nie|Kendall|1948}}.</ref>. Jest on wprawdzie wrażliwy na obserwacje odstające, jednak rangowanie zbliża je do pozostałych, dzięki czemu niweluje się ich zakłócający wpływ na wynik<ref name="odporność">Odsuwając dowolną obserwację coraz bardziej od średniej, zwiększa się nieograniczenie jej wpływ na współczynnik korelacji Pearsona, gdyż ma ona coraz większy udział w kowariancji w jego liczniku oraz [[odchylenie standardowe|odchyleniach standardowych]] w mianowniku. Wpływ obserwacji odstających na korelację rangową jest już jednak ograniczony, gdyż ranga tej obserwacji po osiągnięciu wartości 1 lub <math>n</math> przestaje się zmieniać, a wraz z nią wynik.</ref><ref name="odporność2">{{cytuj pismo |nazwisko=Devlin |imię=S.J. |nazwisko2=Gnanadesikan |imię2=R. |nazwisko3=Kettering |imię3=J.R. |tytuł=Robust estimation and outlier detection with correlation coefficients |czasopismo=Biometrika |rok=1975 |oznaczenie=62 |strony=531–545}}</ref>. Dla pokazanych tu danych, przed rangowaniem współczynnik korelacji jest nieistotny statystycznie <math>(r=0{,}01561, \alpha=0{,}8775).</math> Ten sam współczynnik dla rang wykazuje już istotną zależność pomiędzy zmiennymi <math>(r=0{,}41702, \alpha<0{,}0001).</math> Monotoniczna nieliniowa zależność przekształca się przy rangowaniu w liniową<ref>Wyprowadzenie dla ścisłej zależności rosnącej: niech <math>\overline{\overline{S}}</math> oznacza [[moc zbioru|liczbę elementów]] w zbiorze <math>S.</math> <math>(x_i\leqslant x_j\Leftrightarrow y_i\leqslant y_j),</math> stąd <math>\operatornamembox{R}x_j=\overline{\overline {\{x_i\colon x_i\leqslant x_j\}}}=\overline{\overline{\{y_i\colon y_i\leqslant y_j\}}}=\operatornamembox{R}y_j.</math></ref>, w wyniku czego współczynnik korelacji liniowej Pearsona, zastosowany do rang, mierzy siłę zależności nieliniowej.]]
'''Korelacja rang Spearmana''' (lub: '''korelacja rangowa Spearmana''', '''rho Spearmana''') – jedna z [[statystyka nieparametryczna|nieparametrycznych]] miar [[zależność zmiennych losowych#Zależność monotoniczna|monotonicznej zależności statystycznej]] między [[zmienna losowa|zmiennymi losowymi]].
 
Linia 16:
Współczynnik korelacji Spearmana zależy wyłącznie od uporządkowania zaobserwowanych wartości. Może zatem być stosowany do dowolnych zmiennych, których wartości można uporządkować rosnąco, takich jak np. wykształcenie. Klasyczny współczynnik korelacji nie ma sensownej interpretacji dla zmiennych na [[skala porządkowa|skali porządkowej]], gdyż uzależniony jest od różnic między wartościami zmiennych, które dla cech porządkowych nie są określone<ref name="Jozwiak 352" />.
 
Współczynnik korelacji Spearmana oraz testy jego istotności mogą być stosowane przy dowolnym [[rozkład zmiennej losowejprawdopodobieństwa|rozkładzie]] porównywanych zmiennych<ref name="Spearman 80" />.
 
Korelacja rang Spearmana może być też opisana jako nachylenie ([[Prosta#Równanie w postaci kierunkowej|współczynnik kierunkowy]]) [[prosta|prostej]] najlepiej dopasowanej (w sensie [[metoda najmniejszych kwadratów|najmniejszych kwadratów]]) do zbioru par rang<ref name="Lieberson" />. Istnieją inne, bardziej egzotyczne interpretacje<ref>Na przykład istnieje interpretacja geometryczna tego współczynnika jako [[OdległośćPrzestrzeń euklidesowa|euklidesowej odległości]] wierzchołków odpowiednio skonstruowanego [[wielokomórka|''n-1''-wymiarowego wielościanu]] o <math>n!</math> wierzchołkach i równej długości krawędzi zanurzonego w przestrzeni <math>n</math>-wymiarowej. {{cytuj pismo |nazwisko=Schulman |imię=Robert S. |tytuł=A Geometric Model of Rank Correlation |czasopismo=The American Statistician |oznaczenie=Vol. 33, No. 2 (May, 1979) |strony=77–80}}</ref>, nie mają jednak znaczenia praktycznego.
 
Zależność między zmiennymi losowymi (niezależnie od tego, jakim wskaźnikiem jest mierzona) nie musi oznaczać [[przyczynowość|związku przyczynowo-skutkowego]]<ref>Więcej na ten temat w artykule [[zależność zmiennych losowych#Zależność a związek przyczynowo-skutkowy|zależność zmiennych losowych]].</ref>.
 
== Korelacja rang Spearmana zmiennych losowych ==
Ta wersja ma znaczenie w statystyce teoretycznej. Wartości dowolnych [[statystyka (funkcja)|miar statystycznych]] wyliczanych z próby wygodnie jest uważać za [[estymator]]y (przybliżenia) [[miara rozkładu|miar]] liczonych na podstawie rozkładu zmiennej losowej z którego próba była losowana. W przypadku miar korelacji, dla zmiennych <math>X</math> i <math>Y</math> będzie to dwuwymiarowy rozkład [[wektorZmienna losowylosowa|wektora]] <math>(X,Y).</math>
 
Korelacja rang Spearmana zmiennych losowych <math>X</math> i <math>Y</math> wyrażona jest wzorem{{odn|Kendall|1948|s=108–109}}{{odn|Kowalczyk|Pleszczyńska|Ruland|2004|s=237, 66}}
: {{wzór|<math>\rho_S=\operatorname{corr}\big( \tilde{\operatornamembox{F}}_X(X), \tilde{\operatornamembox{F}}_Y(Y)\big),</math>|1}}
 
gdzie:
: <math>\operatorname{corr}</math> to współczynnik korelacji Pearsona<ref>Współczynnik korelacji obliczany jest dla zmiennych losowych. Dystrybuanta nie jest zmienną losową, ale już złożenie <math>F_\zeta(\zeta)</math> zmienną losową jest, gdyż jest funkcją przyporządkowującą liczby rzeczywiste [[zdarzenie losowe (teoria prawdopodobieństwa)|zdarzeniom losowym]]. Podobnie <math>\tilde{\operatornamembox{F}}_\zeta(\zeta).</math> Użycie <math>\tilde{\operatornamembox{F}}_\zeta(\zeta)</math> zamiast <math>F_\zeta(\zeta)</math> jest niezbędne, aby oddać sposób wyliczania rang wiązanych dla zmiennych dyskretnych. Zob. {{odn|ref=nie|Kendall|1948|s=108–109|ref=nie}}.</ref>,
: <math>\tilde{\operatornamembox{F}}_\zeta(u)=\frac{F_\zeta(u)+F_\zeta(u^-)}{2},</math>
: <math>\operatornamembox{F}_\zeta(u)</math> [[dystrybuanta]] zmiennej <math>\zeta</math> w punkcie <math>u,</math>
: <math>\operatornamembox{F}_\zeta(u^-)</math> to lewostronna [[granica funkcji|granica]] <math>\operatornamembox{F}_\zeta(u)</math> w punkcie <math>u.</math>
 
Dla [[ciągły rozkład prawdopodobieństwa|ciągłych]] zmiennych losowych zachodzi <math>\tilde{\operatornamembox{F}}_\zeta(u)=\operatornamembox{F}_\zeta(u)</math> i wzór ten sprowadza się do<ref name="Foundations">{{cytuj pismo |nazwisko=Trivedi |imię=Pravin K. |nazwisko2=Zimmer|imię2=David M. |tytuł=Copula Modeling: An Introduction for Practitioners |url=http://www.nowpublishers.com/product.aspx?product=ECO&doi=0800000005&section=x1-59r4 |czasopismo=Foundations and Trends in Econometrics |data dostępu=16 maja 2008 |wolumin=1 |numer=1 |doi= 10.1561/0800000005 |data dostępu=16 maja 2008}}</ref>
: {{wzór|<math>\rho_S=\operatorname{corr}\big( \operatornamembox{F}_X(X),\operatornamembox{F}_Y(Y)\big) =12\operatorname{cov}\big( \operatornamembox{F}_X(X),\operatornamembox{F}_Y(Y)\big),</math>|1a}}
 
gdzie
: <math>\operatornamembox{F}_X(X),\operatornamembox{F}_Y(Y)</math> to dystrybuanty porównywanych zmiennych,
: <math>\operatorname{cov}</math> to [[kowariancja]].
 
== Korelacja rang Spearmana z próby ==
W praktyce współczynnik korelacji rang oblicza się dla próby statystycznej. Używane do tego wzory można uważać za [[estymator]]y (przybliżenia) korelacji rang danej wzorem {{LinkWzór|1}} lub korelacji rang istniejącej w [[populacja statystyczna|populacji statystycznej]]<ref name="estymator">{{odn|ref=nie|Kendall|1948|s=109–110|ref=nie}}.</ref>. Przybliżenia nie są jednak tym samym, co wartość przybliżana. Ich wyniki będą zatem dla odróżnienia oznaczane przez <math>r_S,</math> podobnie jak w literaturze.
 
Współczynnik obliczany jest w następujący sposób{{odn|Yule|Kendall|1966|s=276}}:
: '''1.''' Dla każdej porównywanej zmiennej dokonywane jest niezależnie rangowanie, czyli:
:: '''1a.''' Zaobserwowane wartości danej zmiennej porządkowane są rosnąco.
:: '''1b.''' Każdej wartości <math>x_i</math> przypisywana jest ranga <math>\operatornamembox{R}x_i</math> równa pozycji danej wartości w rosnącym porządku (najmniejsza uzyskuje rangę 1, kolejna 2 itd.).
:: '''1c.''' W przypadku gdy dana wartość występuje wielokrotnie, każde z wystąpień ma przypisaną tę samą rangę równą średniej arytmetycznej pozycji w rosnącym porządku (tzw. [[ranga (statystyka)#Ranga wiązana|ranga wiązana]] lub powiązana, ang. ''tied rank''). Tym samym mogą występować rangi ułamkowe, np. ranga 1,5.
: '''2.''' Po powrocie do pierwotnego porządku wartości w zmiennych obliczana jest korelacja rangowa z jednego ze wzorów omówionych poniżej ({{LinkWzór|2}}, {{LinkWzór|2a}}, {{LinkWzór|2b}}, {{LinkWzór|2c}}, {{LinkWzór|6}}, {{LinkWzór|6a}}, {{LinkWzór|6b}}, {{LinkWzór|7}}). Istnieją różne wzory, gdyż poszczególne estymatory korelacji rang mają różne własności. Jeśli nie ma rang wiązanych, wszystkie one dają ten sam wynik. Jeśli występują rangi wiązane, to wzór {{LinkWzór|2}} i jego odmiany są zgodne z pierwotną koncepcją Spearmana. Pomimo to często<ref name="Jokiel" /><ref name="Jażdżewska" /><ref name="Maksimowicz" /><ref name="Luszniewicz" /><ref name="Gregory" /><ref name="Norcliffe" /> używany jest wzór {{LinkWzór|7}}, jak twierdzi część autorów, nieprawidłowo<ref>Zobacz dyskusję w sekcji [[#Wzór nieuwzględniający rang wiązanych|Wzór nieuwzględniający rang wiązanych]] tego artykułu.</ref>.
Linia 53:
=== Wzory uwzględniające rangi wiązane ===
==== Oryginalna propozycja Spearmana ====
W oryginalnym ujęciu Spearmana, jego korelacja rang jest współczynnikiem korelacji Pearsona liczonym dla rang zmiennych zamiast ich surowych wartości<ref name="Spearman 73" /><ref name="Kendall 29">{{odn|ref=nie|Kendall|1948|s=29|ref=nie}}.</ref>, co jest bezpośrednim przełożeniem wzoru {{LinkWzór|1}} na język rang<ref>Choć za czasów Spearmana wzór {{LinkWzór|1}} nie był jeszcze znany.</ref>.
: {{wzór|<math>r_S=\operatorname{corr}(\operatornamembox{R}X,\operatornamembox{R}Y)</math>|2}}
 
gdzie:
: <math>\operatorname{corr}</math> to klasyczny współczynnik korelacji,
: <math>\operatornamembox{R}X</math> to rangi zmiennej <math>X</math> w próbie,
: <math>\operatornamembox{R}Y</math> to rangi zmiennej <math>Y</math> w próbie.
 
Wzór ten można uważać za próbkowy odpowiednik wzoru {{LinkWzór|1}}<ref name="estymator" />.
Rozpisanie wzoru na korelację Pearsona prowadzi do
: {{wzór|<math>\begin{align}r_S &= \frac{\operatorname{cov}(\operatornamembox{R}X,\operatornamembox{R}Y)} {\sqrt{\operatorname{var}(\operatornamembox{R}X)\operatorname{var}(\operatornamembox{R}Y)}} \\[.5em] &= \frac{\operatornamembox{E}(\operatornamembox{R}X\cdot\operatornamembox{R}Y) -\operatornamembox{E}(\operatornamembox{R}X)\cdot\operatornamembox{E}(\operatornamembox{R}Y)} {\sqrt{\operatornamembox{E}(\operatornamembox{R}X)^2-\operatornamembox{E}^2(\operatornamembox{R}X)}\cdot \sqrt{\operatornamembox{E}(\operatornamembox{R}Y)^2-\operatornamembox{E}^2(\operatornamembox{R}Y)}}\end{align}</math>|2a}}
 
; Wersja oparta na różnicy rang
Linia 70:
 
gdzie:
: {{wzór|<math>d_i=\operatornamembox{R}x_i-\operatornamembox{R}y_i,</math>|3}}
: {{wzór|<math>T_X=\frac{1}{12}\sum_j (t_j^3-t_j),</math>|4}}
: {{wzór|<math>T_Y=\frac{1}{12}\sum_k (u_k^3-u_k),</math>|5}}
Linia 92:
: <math>n</math> to suma całej tabeli.
 
Dziś estymator {{LinkWzór|2}} jest standardowym wzorem używanym np. przez pakiety statystyczne [[SAS (program)|SAS]]<ref name="SAS" /> oraz [[SPSS]]<ref name="SPSS">Na podstawie przykładu umieszczonego przez {{odn|ref=nie|Jóźwiak|Podgórski|2006|s=355–356}}.</ref>, a także w uwzględniających rangi wiązane pracach naukowych z dziedziny statystyki<ref>{{cytuj pismo |nazwisko=Taylor |imię=Jeremy M.G. |tytuł=Kendall’s and Spearman’s Correlation Coefficients in the Presence of a Blocking Variable |czasopismo=Biometrics |oznaczenie=Vol. 43, No. 2 (Jun., 1987) |strony=411}}</ref>. W podręcznikach statystyki oraz w pracach naukowych z innych dziedzin nadal jednak popularny jest podany dalej wzór {{LinkWzór|7}}, ze względu na stopień komplikacji wzorów {{LinkWzór|2a}} lub {{LinkWzór|2b}}, utrudniający ręczne obliczenia, mimo że w obliczeniach wykonywanych na komputerze wzór {{LinkWzór|2}} jest nawet prostszy w zastosowaniu<ref>Np. w pakiecie [[Microsoft Excel]] dostępna jest funkcja <code>WSPÓŁCZYNNIK.KORELACJI</code> obliczająca korelację Pearsona. Wystarczy zastosować ją do porangowanego zbioru zamiast implementować samodzielnie wzór {{LinkWzór|7}}.</ref>.
 
Niekiedy estymator {{LinkWzór|2}}/{{LinkWzór|2a}}/{{LinkWzór|2b}}/{{LinkWzór|2c}} nazywany jest „skorygowaną korelacją rangową”.
Linia 105:
Podczas agregacji tracona jest informacja o zróżnicowaniu obserwacji wewnątrz każdego przedziału, co sprawia, że zmienne, które przed agregacją nie miały identycznych rang, po agregacji mogą już mieć taki sam porządek. Agregacja jest zwykle zabiegiem wymuszonym warunkami badania, którego wpływ na wyniki powinien być jak najmniejszy. Przydatny byłby więc estymator, szacujący korelację rangową zmiennych przed agregacją na podstawie danych po agregacji. Taki estymator osiągałby wartości <math>\pm 1</math> tylko przy próbie bez rang wiązanych.
 
Kendall proponuje aby w przypadku rang wiązanych powstałych sztucznie stosować w mianowniku [[wariancja|wariancje]] takie, jak gdyby rang wiązanych nie było (gdyż tak jest w hipotetycznej nieskończonej populacji, dla której korelacja rangowa jest estymowana). Uzyskany w ten sposób estymator jest [[wartość oczekiwana|wartością oczekiwaną]] współczynnika korelacji rang obliczonego dla tych samych zmiennych przed agregacją (przy założeniu, że każda kombinacja rang prowadząca po agregacji do obserwowanej próby jest jednakowo prawdopodobna)<ref name="Kendall 32">{{odn|ref=nie|Kendall|1948|s=32|ref=nie}}.</ref>.
 
; Postać ogólna
W ogólnym przypadku, po uwzględnieniu rang wiązanych, wariancja rang wynosi:
: <math>\operatorname{var}(\operatornamembox{R}X)=\frac{n(n+1)}{12}-\frac{T_X}{n-1},</math>
 
gdzie współczynnik <math>T_X</math> jest zdefiniowany tak jak wcześniej, wzorem {{LinkWzór|4}}.
 
W przypadku braku rang wiązanych, <math>T_X=T_Y=0,</math> wariancje są zależne tylko od <math>n,</math> w szczególności nie zależą od rozkładu zmiennych przed rangowaniem<ref name="Koronacki">{{odn|ref=nie|Koronacki|Mielniczuk|2006|s=473|ref=nie}}.</ref>:
: <math>\operatorname{var}(\operatornamembox{R}X)=\operatorname{var}(\operatornamembox{R}Y) =\frac{n(n+1)}{12}.</math>
 
Niezależnie od tego, czy pojawiły się rangi wiązane, czy nie, średnia rang jest zależna jedynie od liczności próby<ref name="Krysicki" />:
: <math>\operatornamembox{E}(\operatornamembox{R}X)=\operatornamembox{E}(\operatornamembox{R}Y)=\frac{n+1}{2}.</math>
 
Podstawiając powyższe równania do wzoru {{LinkWzór|2a}}, uzyskuje się<ref name="Koronacki" />:
: {{wzór|<math>r_S=\frac{3\sum\limits_{i=1}^n\big( (2\operatornamembox{R}x_i-n-1)(2\operatornamembox{R}y_i-n-1)\big) }{n(n^2-1)}=\frac{12}{n(n^2-1)}\sum\limits_{i=1}^n \operatornamembox{R}x_i\operatornamembox{R}y_i-\frac{3(n+1)}{n-1}.</math>|6}}
 
; Wersja oparta na różnicy rang
Linia 129:
 
; Wersja dla tablicy dwudzielczej
Dla tablic dwudzielczych estymator {{LinkWzór|6}} przyjmuje postać<ref>{{odn|ref=nie|Kowalczyk|Pleszczyńska|Ruland|2004|s=238|ref=nie}} Oznaczenia zmieniono w celu uniknięcia kolizji ze wzorami {{LinkWzór|4}} i {{LinkWzór|5}}</ref>
: {{wzór|<math>r_S=3\sum\limits_{i=1}^m \sum\limits_{j=1}^k (U_{i-1}+U_i-1)(V_{j-1}+V_j-1)\frac{n_{ij}}{n},</math>|6b}}
 
Linia 146:
 
gdzie (tak jak wcześniej)
: <math>d_i=\operatornamembox{R}x_i-\operatornamembox{R}y_i</math>
 
to różnica między rangami zmiennych <math>X</math> i <math>Y</math> dla obserwacji <math>i.</math>
 
W przypadku gdy nie ma rang wiązanych (połączonych), czyli wartości nie powtarzają się w obrębie próby dla żadnej ze zmiennych z osobna, wzór {{LinkWzór|7}} daje te same wyniki, co każdy z podanych wcześniej estymatorów {{LinkWzór|2}}<ref name="Krysicki">{{odn|ref=nie|Krysicki|Bartos|Dyczka|Królikowska|2006|s=230–231|ref=nie}}.</ref> i {{LinkWzór|6}}. Jeśli choć jedna ranga jest wiązana, każdy z nich daje inny wynik.
 
Wzór {{LinkWzór|7}} jest używany ze względu na prostotę obliczeń<ref name="Jozwiak 352">{{odn|ref=nie|Jóźwiak|Podgórski|2006|s=352|ref=nie}}.</ref> istotną dla kalkulacji wykonywanych bez pomocy komputera i do dziś jest popularny w podręcznikach. Estymator ten ma jednak nieoczekiwane własności w przypadku wystąpienia rang wiązanych, np.
* nie jest wówczas prawdą, iż <math>r_S(X,-Y)= -r_S(X,Y),</math>
* nie jest wtedy zgodny z pierwotną definicją korelacji rang Spearmana jako zwykłego współczynnika korelacji liczonego dla rang<ref name="Student" />,
Linia 162:
* Wynika stąd, że estymator ten jest dla zmiennych dyskretnych [[estymator#Zgodność|niezgodny]] i [[estymator#Asympotyczna nieobciążoność|asymptotycznie obciążony]]<ref>Gdy zmienne są dyskretne, to dla dostatecznie dużej próby zawsze będą istniały rangi wiązane (bo różnych wartości zmiennych będzie mniej niż obserwacji). Wówczas granica estymatora {{LinkWzór|7}} dla rozmiaru próby dążącego do nieskończoności będzie nie mniejsza niż dana wzorem {{LinkWzór|8}}. Tymczasem estymowana korelacja {{LinkWzór|1}} może przyjąć nawet wartość <math>\rho= -1,</math> co dowodzi asymptotycznego obciążenia i niezgodności tego estymatora.</ref>, w odróżnieniu od estymatora {{LinkWzór|2}}.
 
Część autorów uważa, że można ten estymator stosować tylko przy braku rang wiązanych, w przeciwnym wypadku jego stosowanie jest błędem<ref name="Jozwiak 352" /><ref name="myers2003">{{cytuj książkę |nazwisko = Myers |imię= Jerome L. |tytuł = Research Design and Statistical Analysis |inni = Arnold D. Well |wydawca = Lawrence Erlbaum |rok = 2003 |wydanie = 2 |isbn = 0805840370 |strony = 508}}</ref><ref>{{odn|ref=nie|Yule|Kendall|1966|s=277|ref=nie}}. Cytat: „Czasami można napotkać w zastosowaniach także inne wzory. Na przykład wzór {{LinkWzór|7}} ''[w oryginale 11.16]'' stosuje się czasem bez zmian do rang połączonych. Jest to z pewnością błędem.”.</ref>. Inni autorzy stosują go także wówczas<ref name="Jokiel">{{cytuj książkę |nazwisko=Jokiel |imię=B. |nazwisko2=Kostrubiec |imię2=B. |tytuł=Statystyka z elementami matematyki dla geografów |rok=1981 |miejsce=Warszawa |wydawca=Państwowe Wydawnictwo Naukowe |strony=264–265}}</ref><ref name="Jażdżewska">{{cytuj książkę |nazwisko=Jażdżewska |imię=I. |tytuł=Statystyka dla geografów |rok=2003 |miejsce=Łódź |wydawca=Wydawnictwo Uniwersytetu Łódzkiego |strony=165–166}}</ref><ref name="Maksimowicz">{{cytuj książkę |nazwisko=Maksimowicz-Ajchel |imię=A. |tytuł=Wstęp do statystyki |rok=2007 |miejsce=Warszawa |wydawca=Wydawnictwa Uniwersytetu Warszawskiego |strony=174}}</ref><ref name="Luszniewicz">{{cytuj książkę |nazwisko=Luszniewicz |imię=A. |nazwisko2=Słaby |imię2=T. |tytuł=Statystyka z pakietem komputerowym STATISTICA PL. Teoria i zastosowania |rok=2001 |miejsce=Warszawa |wydawca=Wydawnictwo C.H. Beck |strony=332–335}}</ref><ref name="Gregory">{{cytuj książkę |nazwisko=Gregory |imię=S. |tytuł=Metody statystyki w geografii |rok=1976. |miejsce=Warszawa |wydawca=Państwowe Wydawnictwo Naukowe |strony=234–238}}</ref>. Niektórzy uważają, że wzór można stosować, jeśli rang wiązanych jest nie więcej niż jedna czwarta ogółu i nie występują rangi wiązane z więcej niż dwóch obserwacji<ref name="Norcliffe">{{cytuj książkę |nazwisko=Norcliffe |imię=G.B. |tytuł=Statystyka dla geografów |rok=1986 |miejsce=Warszawa |wydawca=Państwowe Wydawnictwo Naukowe |strony=116–117}}</ref><ref>{{cytuj książkę |nazwisko=Siegel |imię=S. |tytuł=Nonparametric Statistics for the Behavioural Sciences |rok=1956 |miejsce=New York |wydawca=McGraw-Hill |strony=206–210}}</ref>. Pakiety statystyczne SAS<ref name="SAS">Co łatwo sprawdzić, przeliczając przykład z tego artykułu.</ref> oraz SPSS<ref name="SPSS" /> używają podanego wcześniej bardziej ogólnego wzoru {{LinkWzór|2}}.
 
Niekiedy wzór {{LinkWzór|7}} nazywany jest „nieskorygowaną korelacją rangową” w odróżnieniu od „skorygowanej korelacji rangowej” {{LinkWzór|2}}. Jest to związane z postacią wzoru {{LinkWzór|2b}}, który przypomina wzór {{LinkWzór|7}} z dodaną „korektą na rangi wiązane”.
Linia 209:
|18
|-
!rangi<ref name="ranga">Przykład rangowania znajduje się w artykule [[ranga (statystyka)#Przykład|ranga]].</ref> <math>\operatornamembox{R}x_i</math>
|3
|5
Linia 216:
|3
|-
!rangi<ref name="ranga" /> <math>\operatornamembox{R}y_i</math>
|3
|1,5
Linia 261:
: <math>t=r_S\sqrt\frac{n-2}{1-r_S^2}</math>
 
korelacji rangowej dąży wraz ze wzrostem liczebności próby do [[rozkład Studenta|rozkładu Studenta]] o <math>n-2</math> stopniach swobody, gdzie <math>n</math> jest licznością próby<ref name="Kendall48">{{odn|ref=nie|Kendall|1948|s=48|ref=nie}}.</ref>. Po obliczeniu tej statystyki korzysta się z tablic rozkładu Studenta lub komputera w celu obliczenia [[poziom istotności|poziomu istotności]] <math>\alpha.</math>
 
Rozkład ten jest wyprowadzany przy założeniu braku rang wiązanych, jednak [[Maurice Kendall|Kendall]] twierdzi, że w przypadku istnienia rang wiązanych poprawka do testu nie jest konieczna<ref name="Kendall48" />.
Linia 272:
: <math>z=r_S\sqrt{n-1},</math>
 
której rozkład przy założeniu hipotezy zerowej dąży wraz ze wzrostem liczności próby do standardowego rozkładu normalnego <math>\operatornamembox{N}(0,1).</math>
 
Część autorów<ref>{{cytuj pismo |nazwisko=Olds |imię=E.G. |tytuł=the 5% significance levels for sums of squers of rank differences and a correction |czasopismo=Annals of Mathematical Statistics |oznaczenie= No. 20 (1949) |strony=117–118}}</ref> sugeruje znowu stosowanie poprawki na ciągłość, która jednak nie daje znaczącego wzrostu dokładności przybliżenia.
Linia 322:
 
Zależność ta jest ścisła przy braku rang wiązanych i nieskończonej populacji. Dla skończonej próby zależność między estymatorami Spearmana <math>r_S</math> i Pearsona <math>r</math> różni się od tego wyidealizowanego przypadku. Wartość oczekiwana wynosi wtedy dla każdego z podanych estymatorów<ref name="Moran">{{Cytuj pismo |nazwisko=Moran |imię=P.A.P. |tytuł=Rank Correlation and Product-Moment Correlation |czasopismo=Biometrika |oznaczenie=Vol. 35, No. 1/2 (May, 1948), s. 203–206}}</ref>:
: <math>\operatornamembox{E}(r_S)=\tfrac{6}{\pi}\left( \tfrac{n-1}{n+1}\arcsin \tfrac{1}{2}\rho+\tfrac{1}{n+1}\arcsin \rho\right).</math>
 
Współczynnik korelacji rang Spearmana jest więc [[estymator obciążonyEstymator|estymatorem obciążonym]] (także asymptotycznie) i niezgodnym współczynnika korelacji Pearsona<ref name="Moran" />. (Naturalnie na tej samej zasadzie współczynnik korelacji Pearsona będzie obciążonym, niezgodnym i nieefektywnym estymatorem korelacji rangowej Spearmana).
 
Rho Spearmana jest też przy założeniu rozkładu dwuwymiarowego normalnego mniej [[estymator efektywnyEstymator|efektywne]] niż współczynnik korelacji Pearsona liczony klasycznym wzorem, bez rangowania. Dla dwuwymiarowego rozkładu normalnego [[błąd standardowy]] korelacji Pearsona liczonej za pomocą wzoru:
: {{wzór|<math>r=2\sin\tfrac{\pi r_S(X,Y)}{6},</math> |11}}
 
(gdzie <math>r_S</math> to dowolny z estymatorów rho Spearmana), jest ok. 1,88 raza większy od błędu korelacji liczonej za pomocą klasycznego wzoru bez rangowania{{odn|Kendall|1948|loc=rozdział 9}}:
: <math>r=\tfrac{\operatorname{cov}(X,Y)} {\sqrt{\operatorname{var}X\operatorname{var}Y}}</math>
 
Jednak, gdy obserwacje nie spełniają założenia o normalności rozkładu, szczególnie gdy pojawiają się obserwacje odstające, wzór {{LinkWzór|11}} często daje lepsze oszacowanie korelacji liniowej. Jeszcze dokładniejszy jest współczynnik [[tau Kendalla]]<ref name="Moran" />.
 
Linia 350 ⟶ 349:
; Tau Kendalla
Inną miarą korelacji rangowej dwóch zmiennych jest tzw. [[tau Kendalla]]. Między tymi wartościami zachodzą nierówności<ref>{{cytuj pismo |nazwisko=Durbin |imię=J. |nazwisko2=Stuart |imię2=A.S. |tytuł=Inversions and rank correlations |czasopismo=Journal of Royal Statistical Society Series |rok=1951 |oznaczenie=B 2 |strony=303–309}}</ref><ref name="Foundations" />:
: <math>\tfrac{3}{2}\tau-\tfrac{1}{2}\leqslant r_S\leqslant \tfrac{1}{2}+\tau-\tfrac{1}{2}\tau^2\ \operatornametext{ dla }\ \tau\geqslant 0,</math>
: <math>\tfrac{1}{2}\tau^2+\tau-\tfrac{1}{2}\leqslant r_S\leqslant \tfrac{3}{2}\tau+\tfrac{1}{2}\ \operatornametext{ dla }\ \tau\leqslant 0.</math>
 
Podawane jest też<ref>{{cytuj książkę |nazwisko=Daniels |imię=H.E. |tytuł=Rank correlation and population models |wydawca=J R Statist Soc B (1950) |strony = 171–181}}</ref> grubsze oszacowanie:
: <math>-1\leqslant 3\tau-2r_S\leqslant 1.</math>
 
Można też pokazać, że jeśli przedstawić łączny rozkład dwuwymiarowy zmiennych <math>X</math> i <math>Y</math> w postaci unormowanej do jedności [[macierz stochastyczna|macierzy prawdopodobieństwa]] <math>m\times k</math> o elementach <math>[p_{ij}],</math> wówczas obydwie te wielkości dają się przedstawić za pomocą średnich ważonych z [[minor macierzy|minorów]]ów stopnia drugiego{{odn|Kowalczyk|2000}}. W tym ujęciu rho Spearmana jest ważonym współczynnikiem tau Kendalla.
: <math>r_S=\sum_{i=1}^{m-1}\sum_{q=i+1}^m\sum_{j=1}^{k-1}\sum_{r=j+1}^k w_{ijqr}\begin{vmatrix}
p_{ij} & p_{ir}\\
Linia 368 ⟶ 367:
 
gdzie:
: <math>w_{ijqr}=12\left( \operatornamembox{Sc}_{row}(q)-\operatornamembox{Sc}_{row}(i)\right) \left( \operatornamembox{Sc}_{col}(r)-\operatornamembox{Sc}_{col}(j)\right),</math>
: <math>\operatornamembox{Sc}_{row}(i)=\left( \sum_{a=1}^{i-1}\sum_{b=1}^k p_{ab}\right) +\frac{1}{2}\sum_{b=1}^k p_{ib},</math>
: <math>\operatornamembox{Sc}_{col}(j)=\left( \sum_{a=1}^m\sum_{b=1}^{j-1}p_{ab}\right) +\frac{1}{2}\sum_{a=1}^m p_{aj}.</math>
 
Kendall i Stuart pokazali<ref>{{cytuj książkę |nazwisko=Kendall |imię=M.G. |nazwisko2=Stuart |imię2=A. |tytuł=The Advanced Theory of Statistics |rok=1973 |tom=2 |wydanie=3 |miejsce=New York |wydawca=Hafner}}</ref>, że dla niezależnych zmiennych korelacja między tau i rho wynosi co najmniej 0,98 i dąży do 1 dla <math>n\to\infty.</math> (Wspólny rozkład tau Kendalla i rho Spearmana w swojej monografii podaje Kendall.) Nie oznacza to jednak, że ich wyniki są proporcjonalne dla zmiennych zależnych, a dla takich właśnie na ogół liczy się korelację.
Linia 380 ⟶ 379:
 
; L Page’a
Kolejnym uogólnieniem rho Spearmana na przypadek wielu zmiennych jest [[test L Page'a]]. Korelację rangową można stosować jako metodę sprawdzania, czy zmienna <math>X</math> ma ten sam porządek rang co zmienna <math>Y.</math> Test L Page’a podaje z jakim prawdopodobieństwem [[ciąg (matematyka)|ciąg]] zmiennych <math>X_1, X_2, \dots, X_k</math> ma pewne zadane ustawienie. Jego wynik można też podać w formie współczynnika z zakresu <math>[-1,1],</math> który dla <math>k=1</math> sprowadza się do korelacji rang Spearmana<ref>{{cytuj stronę |url= http://www.psychology.nottingham.ac.uk/staff/pal/stats/C81MSA/Overheads/Lecture%208.pdf |tytuł=Nonparametric Tests of Trend |nazwisko=Bibby|imię=Peter |język=en |opublikowany=School of Psychology; University of Nottingham | archiwum = http://web.archive.org/web/20040622000626/http://www.psychology.nottingham.ac.uk/staff/pal/stats/C81MSA/Overheads/Lecture%208.pdf | zarchiwizowano = 2004-06-22}}</ref>.
 
=== Analiza odpowiedniości oparta na rho Spearmana ===
Linia 399 ⟶ 398:
Pomysł korelowania rang był już znany przed Spearmanem i pochodził od Bineta i Henriego<ref name="Binet">{{cytuj książkę |nazwisko=Binet |imię=A. |nazwisko2=Henri |imię2=V. |tytuł=La Fatigue Intellectuelle |miejsce=Paris |rok=1898 |strony=232}},<br />{{cytuj książkę |nazwisko=Binet |imię=A. |nazwisko2=Henri |imię2=V. |tytuł=L’Année Psychologique |miejsce=Paris |rok=1898 |tom=IV |strony=155}},<br />podane za pracą Studenta wymienioną w bibliografii.</ref>. Redakcja czasopisma Biometrika w przypisie pracy [[William Sealy Gosset|Studenta]] zaznaczyła, że „''ich wywód był bardzo niejasny i chyba nie zauważyli, że korelacja zmiennych różni się od korelacji rang''”<ref>Oryg. ''Their process is very obscure and they also do not appear to have realised that the correlation of variates is not that of ranks.''</ref>.
 
Współczynnik został solidnie opisany, zbadany i rozpropagowany dopiero w [[1904]] przez angielskiego psychologa Charlesa Spearmana<ref name="Spearman 73" /><ref name="rok 1906">Niekiedy (np. w podręczniku {{odn|ref=nie|Jóźwiak|Podgórski|2006|ref=nie}}) podawana jest błędnie data 1906, gdy praca ta została przedrukowana przez ''British Journal of Psychology''.</ref>. Praca Spearmana była opisem różnych metod korelacji dla psychologów, m.in. korelacji Pearsona dla rang (choć Spearman nie zapisał swojej metody w postaci wzoru). Autor zauważył też, że w wielu badaniach nie da się zastosować klasycznego współczynnika korelacji Pearsona lub daje on nieistotne wyniki ze względu na nadmiar obserwacji odstających, natomiast problemy te znikają po rangowaniu<ref name="Spearman 73" />. Nadal traktował jednak korelację rang jedynie jako poszerzenie możliwości współczynnika korelacji Pearsona, choć znał różnice między nimi.
 
Koncepcja rang wiązanych nie była jeszcze znana w początkach XX wieku – została ona wprowadzona później przez Pearsona<ref name="Student">Zob. praca Studenta w bibliografii.</ref>. Wówczas znany był już wzór {{LinkWzór|7}}, wyprowadzony naturalnie przy założeniu braku rang wiązanych. Student (William Sealy Gosset) w pracy z 1921 zauważył, że wzór {{LinkWzór|7}} nie zgadza się z definicją Spearmana w przypadku rang wiązanych (sprowadzającą się wówczas do wzoru {{LinkWzór|2}}) i podał wzór {{LinkWzór|2b}}, wyprowadził też wzór na wariancję korelacji rangowej.
Linia 407 ⟶ 406:
Nacisk Spearmana na budowę stabilnych metod statystycznych, niezależnych od konkretnych parametrów rozkładu, został uogólniony w [[filozofia nauki|filozofii nauki]] do tzw. '''zasady Spearmana''' (ang. ''Spearman’s Principle'')<ref name="Principle" />:
 
{{cytatD|Załóżmy, że wybieramy między dwoma modelami, z których obydwa pasują do posiadanych danych. Załóżmy, że dane te doprowadziły nas do przypuszczenia, że pewne odpowiedzialne za nie zjawiska podporządkowują się pewnym zależnościom. Załóżmy, że obydwa rywalizujące ze sobą modele odzwierciedlają te zależności. Zasada Spearmana mówi, że jeżeli pierwszy z modeli generuje te zależności bez względu na wartości przyporządkowywane do jego „wolnych parametrów”, a drugi tylko dla konkretnych wartości swoich wolnych parametrów, przy czym nie ma innych przesłanek wyboru, to powinniśmy przedkładać pierwszy model nad drugi.|Marc Lange|Spearman’s Principle<ref name="Principle">{{cytuj pismo |nazwisko=Lange |imię=Marc |tytuł=Spearman’s Principle |czasopismo=Brit.J.Phil.Sci. |wolumin= 46 |data=1995 |strony=503–521 | cytat= ''Suppose that we are deciding between two models that both fit the particular data we have on hand. Suppose that these data have already led us to believe that the phenomena responsible for them conform to certain ‘constraints’. Suppose that each of the two competing models yields these constraints. Spearman’s Principle says that if one model generates these constraints no matter what values are assigned to that model’s ‘free parameters’, whereas the other model yields these constraints only for particular values of its free parameters, then, other things being equal, we should prefer the first model to the second.''}}</ref>}}
 
Podejście to dało początek całej nowej dziedzinie statystyki, zwanej [[statystyka odpornościowa|statystyką odpornościową]] (ang. ''robust statistics''<ref>Pierwsze użycie terminu ''robust'' nastąpiło w 1953, choć już Spearman zdawał sobie sprawę z odporności swojego współczynnika na obserwacje odstające.</ref>), zajmującej się budową metod statystycznych odpornych na obserwacje odstające.
Linia 439 ⟶ 438:
<math>R_{rr}</math>
* Piechota<ref>{{cytuj książkę|nazwisko=Piechota|imię=Jacek|tytuł=Statystyka nieparametryczna. Modele i zadania|wydawca=WPHU „Opta”|miejsce=Warszawa|rok=1996|isbn=83-87253-00-6}}</ref>
<math>r^\prime'</math>
* Mathworld<ref name="Mathworld">{{cytuj stronę|url=http://mathworld.wolfram.com/SpearmanRankCorrelationCoefficient.html|tytuł=Wolfram Mathworld: Spearman Rank Correlation Coefficient|język=en|data dostępu=27 maja 2008}}</ref>
</div>
Linia 456 ⟶ 455:
* {{cytuj książkę |nazwisko=Koronacki |imię=Jacek |nazwisko2=Mielniczuk |imię2=Jan |tytuł=Statystyka dla studentów kierunków technicznych i przyrodniczych |wydawca=[[Wydawnictwa Naukowo-Techniczne|WNT]] |miejsce=Warszawa |rok=2006 |isbn = 83-204-3242-1 |odn=tak}}
* {{cytuj książkę |nazwisko=Kowalczyk |imię=Teresa |tytuł=Link between grade measures of dependence and of separability of pairs of conditional distributions |wydawca=Statistics and Probability Letters 46 |data=2000 |strony = 371–379 |odn=tak}}
* {{cytuj książkę |nazwisko =Kowalczyk |imię =Teresa |nazwisko2 =Pleszczyńska |imię2 =Elżbieta |autor link2 =Elżbieta Pleszczyńska |nazwisko3=Ruland |imię3=Fred |tytuł=Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations |rok=2004 |seria=Studies in Fuzziness and Soft Computing vol. 151 |wydawca=Springer Verlag |miejsce=Berlin Heidelberg New York |isbn=9783540211204 |odn=tak}}
* {{cytuj |autor=W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski |tytuł=Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, część 2. Statystyka matematyczna |wydawca=PWN |isbn=83-01-14292-8 |miejsce=Warszawa |data=2006 |s=230–231 |odn=tak}}
* {{cytuj książkę |nazwisko=Lehmann |imię=E.L. |tytuł=Nonparametrics:Statistical methods based on ranks |miejsce=San Francisco |rok=1975}}
* {{cytuj pismo |autor=[[Charles Spearman]] |tytuł=The proof and measurement of association between two things |czasopismo=Americal Journal of Psychology |oznaczenie=15 (1904) |strony=72–101}}
* {{cytuj pismo |autor=[[William Sealy Gosset|Student]] |tytuł=An Experimental Determination of the Probable Error of Dr Spearman’s Correlation Coefficients |czasopismo=Biometrika |oznaczenie=Vol. 13, No. 2/3 (Jul., 1921) |strony=263–282}}
* {{cytuj książkę |nazwisko=Yule |imię=George Udny |nazwisko2=Kendall |imię2=Maurice G. |autor link2=Maurice Kendall |tytuł=Wstęp do teorii statystyki |autor link2=Maurice Kendall |rok=1966 |wydawca=PWN |odn=tak}}
 
== Linki zewnętrzne ==