Tau Kendalla

Tau Kendalla – statystyka będąca jedną z miar monotonicznej zależności dwóch zmiennych losowych. Służy w praktyce do opisu korelacji między zmiennymi porządkowymi.

Tau Kendalla dwóch zmiennych losowych edytuj

Ogólnie tau Kendalla jest definiowane jako^[1]:

\tau =\operatorname {P} [(x_{1}-x_{2})(y_{1}-y_{2})>0]-\operatorname {P} [(x_{1}-x_{2})(y_{1}-y_{2})<0].

(1)

Można też wyrazić tau Kendalla w terminach kopuł^[1]:

\tau =4\int \limits _{0}^{1}\int \limits _{0}^{1}C(u_{1},u_{2})\operatorname {d} C(u_{1},u_{2})-1.

Tau Kendalla z próby edytuj

Zwykle estymuje się tau Kendalla dane wzorem (1) na podstawie próby statystycznej.

Aby je obliczyć, należy zestawić obserwacje z próby we wszystkie możliwe pary, a następnie podzielić te pary na trzy możliwe kategorie:

pary zgodne – porównywane zmienne w obrębie tych dwóch obserwacji zmieniają się w tę samą stronę, tzn. albo w pierwszej obserwacji obydwie są większe niż w drugiej, albo obydwie mniejsze. Liczba takich par w próbie będzie dalej oznaczana przez $P.$
pary niezgodne – zmienne zmieniają się w przeciwną stronę, to znaczy jedna z nich jest większa dla tej obserwacji w parze, dla której druga jest mniejsza. Liczba takich par w próbie będzie oznaczana przez $Q.$
pary wiązane – jedna ze zmiennych ma równe wartości w obydwu obserwacjach. Liczba takich par w próbie będzie oznaczana przez $T.$

Estymator tau Kendalla obliczany jest wówczas ze wzoru:

\tau ={\frac {P-Q}{P+Q+T}}.

Warto zauważyć, że:

P+Q+T={N \choose 2}={\frac {N(N-1)}{2}},

gdzie $N$ to liczność próby, tak więc wzór ten można przedstawić w postaci:

\tau =2{\frac {P-Q}{N(N-1)}}.

Interpretacja edytuj

Tau Kendalla stanowi różnicę między prawdopodobieństwem, że porównywane zmienne będą układały się w tym samym porządku dla dwóch obserwacji, a prawdopodobieństwem, że ułożą się w przeciwnym porządku.

Tau Kendalla przyjmuje wartości od –1 do 1 włącznie. +1 oznacza, że każda ze zmiennych rośnie przy wzroście drugiej. –1 oznacza że każda maleje przy wzroście drugiej. Tym samym tau Kendalla, podobnie jak korelacja rangowa i rho Spearmana jest miarą monotonicznej zależności zmiennych losowych.

Ponieważ liczba par zgodnych, niezgodnych i wiązanych, a zatem również wartość tau nie zmienia się pod wpływem rangowania, tau Kendalla można uważać za jedną ze statystycznych metod rangowych.

Istotność statystyczna edytuj

Istotność statystyczna wyniku tau Kendalla jest równa jeden minus prawdopodobieństwo, że taki wynik może powstać przypadkowo dla zmiennych niezależnych. Ponieważ tau Kendalla jest metodą rangową, a rozkład rang jest niezależny od rozkładu zmiennych rangowanych (o ile nie ma rang wiązanych), więc określenie istotności nie wymaga żadnych założeń odnośnie do rozkładów w próbie.

Dla małych prób tablice podają Siegel i Castellan (1988). Rozkład tau bardzo szybko dąży do rozkładu normalnego, więc dla prób $N\geqslant 10$ można już stosować rozkład normalny (Hays 1988).

Wersje edytuj

Tau Kendalla ma dobrą interpretację i właściwości statystyczne, jednak wartości 1 i –1 nie wystąpią, gdy którakolwiek z porównywanych zmiennych ma tę samą wartość dla dwóch obserwacji. Intuicyjnie wydawałoby się, że miara pokazująca zależność dwóch zmiennych powinna dawać maksymalną wartość (czyli tu 1) jeśli porównamy jakąś zmienną z nią samą. W przypadku tau Kendalla nie będzie to jednak prawda, o ile zmienna przyjmie dla dwóch obserwacji tę samą wartość.

Zaproponowano szereg innych estymatorów z próby tau Kendalla, które nie mają tej właściwości. Dwa z nich, nazywane są tau-b i tau-c. Dla odróżnienia miara opisana wcześniej nazywana bywa tau-a. Miary te różnią się wartością tylko w przypadku występowania par wiązanych.

Współczynnik tau-b ( $\tau _{B}$ ) zdefiniowany w następujący sposób^[2]^[3]:

\tau _{B}={\frac {P-Q}{\sqrt {(n_{0}-n_{1})(n_{0}-n_{2})}}}

,

gdzie P to liczba par zgodnych, Q to liczba par niezgodnych, n₀ to liczba wszystkich par (=N(N-1)/2), zaś n₁ i n₂ wyznaczone są dla wartości wiązanych za pomocą następujących wzorów:

n_{1}=\sum _{i}t_{i}(t_{i}-1)/2

, gdzie t_i to liczba powiązanych wartości pierwszej zmiennej dla i-tej grupy wiązań

n_{2}=\sum _{j}u_{j}(u_{j}-1)/2

, gdzie u_j to liczba powiązanych wartości pierwszej zmiennej dla j-tej grupy wiązań

Współczesne języki programowania stosowane do analizy danych, takie jak R lub Python, stosują domyślnie wersję tau-b^[4]^[5].

Tau-c ( $\tau _{C}$ ), nazywane również Tau-c Stewarta-Kendalla, zalecane w przypadku gdy liczba wiązań jest duża i różna w przypadku obu zmiennych, zdefiniowane jest następująco^[6]:

\tau _{C}={\frac {2(P-Q)}{N^{2}{\frac {(m-1)}{m}}}}=\tau _{A}{\frac {N-1}{N}}{\frac {m}{m-1}}

,

gdzie m to mniejsza z dwóch liczb: liczby unikalnych wartości pierwszej zmiennej i liczby unikalnych wartości drugiej zmiennej.

Związki z innymi miarami edytuj

Współczynnik korelacji edytuj

Współczynnik korelacji Pearsona służy do oceny liniowej zależności pomiędzy dwiema zmiennymi. Tau Kendalla mierzy zależność monotoniczną. Współczynniki te mierzą co innego, więc ich wartości nie są bezpośrednio porównywalne.

Tau Kendalla jako metoda rangowa jest odporne na obserwacje odstające, w przeciwieństwie do współczynnika korelacji.

Tau Kendalla jako metoda nieparametryczna nie czyni żadnych założeń dotyczących rozkładu zmiennych w populacji, nadaje się zatem do dowolnych rozkładów. Współczynnik korelacji ma poprawne wyprowadzenie matematyczne tylko dla wielowymiarowego rozkładu normalnego, dla innych rozkładów może nie mieć sensownej interpretacji, niepoprawnie działają również testy istotności statystycznej.

Rho Spearmana edytuj

Tau Kendalla i rho Spearmana to dwie miary zależności monotonicznej zmiennych losowych. Inne jest jednak ich wyprowadzenie i interpretacja. Tau Kendalla należy interpretować w kategoriach prawdopodobieństwa, natomiast rho Spearmana należy interpretować w kategoriach procentu wariancji rang jednej zmiennej, wyjaśnianej przez drugą zmienną.

Między tymi wartościami zachodzi nierówność^[7]^[1]:

{\frac {3}{2}}\tau -{\frac {1}{2}}\leqslant \rho \leqslant {\frac {1}{2}}+\tau -{\frac {1}{2}}\tau ^{2}\ \operatorname {dla} \ \tau \geqslant 0,

{\frac {1}{2}}\tau ^{2}+\tau -{\frac {1}{2}}\leqslant \rho \leqslant {\frac {3}{2}}\tau +{\frac {1}{2}}\ \operatorname {dla} \ \tau \leqslant 0.

Podawane jest też^[8]^[9] grubsze oszacowanie: $-1\geqslant 3\tau -2\rho _{s}\geqslant 1.$

Można też pokazać, że jeśli przedstawimy łączny rozkład dwuwymiarowy zmiennych X i Y w postaci unormowanej do 1 macierzy prawdopodobieństwa $m\times k$ o elementach $[p_{ij}],$ wówczas obydwie te wielkości dają się przedstawić za pomocą średnich ważonych z minorów stopnia drugiego (Kowalczyk 2000):

\tau =\sum _{i=1}^{m-1}\sum _{q=i+1}^{m}\sum _{j=1}^{k-1}\sum _{r=j+1}^{k}2{\begin{vmatrix}p_{ij}&p_{ir}\\p_{qj}&p_{qr}\end{vmatrix}},

\rho =\sum _{i=1}^{m-1}\sum _{q=i+1}^{m}\sum _{j=1}^{k-1}\sum _{r=j+1}^{k}w_{ijqr}{\begin{vmatrix}p_{ij}&p_{ir}\\p_{qj}&p_{qr}\end{vmatrix}},

gdzie:

w_{ijqr}=12\left(\operatorname {Sc} _{row}(q)-\operatorname {Sc} _{row}(i)\right)\left(\operatorname {Sc} _{col}(r)-\operatorname {Sc} _{col}(j)\right),

a $\operatorname {Sc} _{row}$ i $\operatorname {Sc} _{col}$ to tzw. skory gradacyjne (grade scores):

\operatorname {Sc} _{row}(i)=\left(\sum _{a=1}^{i-1}\sum _{b=1}^{k}p_{ab}\right)+{\frac {1}{2}}\sum _{b=1}^{k}p_{ib},

\operatorname {Sc} _{col}(j)=\left(\sum _{a=1}^{m}\sum _{b=1}^{j-1}p_{ab}\right)+{\frac {1}{2}}\sum _{a=1}^{m}p_{aj}.

Analiza odpowiedniości oparta na tau edytuj

Klasyczna analiza odpowiedniości (inna nazwa: analiza korespondencji) jest metodą statystyczną, która wszystkim możliwym wartościom dwóch zmiennych nominalnych przyporządkowuje takie liczby (tzw. scory), aby przy pewnych założeniach maksymalizować współczynnik korelacji Pearsona między tymi zmiennymi.

Zespół prof. Elżbiety Pleszczyńskiej opracował odpowiedniki klasycznej analizy odpowiedniości, zwane gradacyjną analizą odpowiedniości (GCA), które maksymalizują rho Spearmana oraz tau Kendalla^[10].

Zobacz też edytuj

Przypisy edytuj

↑ ^a ^b ^c Pravin K. Trivedi, David M. Zimmer. Copula Modeling: An Introduction for Practitioners. „Foundations and Trends in Econometrics”. Volume 1 Issue 1 DOI:10.1561/0800000005. [dostęp 2008-05-16].
↑ M.G.M.G. Kendall M.G.M.G., THE TREATMENT OF TIES IN RANKING PROBLEMS, „Biometrika”, 33 (3), 1945, s. 239–251, DOI: 10.1093/biomet/33.3.239, ISSN 0006-3444 [dostęp 2023-11-30] (ang.).
↑ AlanA. Agresti AlanA., Analysis of ordinal categorical data, wyd. 2. ed, Wiley series in probability and statistics, Hoboken, NJ: Wiley, 2010, ISBN 978-0-470-08289-8 [dostęp 2023-11-30] .
↑ cor function - RDocumentation [online], www.rdocumentation.org [dostęp 2023-11-30] (ang.).
↑ scipy.stats.kendalltau — SciPy v1.11.4 Manual [online], docs.scipy.org [dostęp 2023-11-30] .
↑ Kenneth J.K.J. Berry Kenneth J.K.J. i inni, Stuart’s tau measure of effect size for ordinal variables: Some methodological considerations, „Behavior Research Methods”, 41 (4), 2009, s. 1144–1148, DOI: 10.3758/BRM.41.4.1144, ISSN 1554-3528 [dostęp 2023-11-30] (ang.).
↑ J. Durbin, A.S. Stuart. Inversions and rank correlations. „Journal of Royal Statistical Society Series”. B 2, s. 303–309, 1951.
↑ H.E. Daniels: Rank correlation and population models. J R Statist Soc B (1950), 171–181.
↑ Siegel i Castellan (1988).
↑ T. Kowalczyk, E. Pleszczyńska, F. Ruland, (red.): Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. Berlin Heidelberg New York: Springer Verlag, 2004, seria: Studies in Fuzziness and Soft Computing vol. 151. ISBN 978-3-540-21120-4.

Bibliografia edytuj

H. Abdi: Kendall rank correlation. w N.J. Salkind (red.): Encyclopedia of Measurement and Statistics. Thousand Oaks (CA): Sage., 2007.
H.E. Daniels: Rank correlation and population models. J R Statist Soc B, 171–181, 1950.
B.S. Everitt: The analysis of contingency tables. Londyn: Chapman & Hall, 1977.
W.L. Hays: Statistics. Wyd. 4. Nowy Jork: CBS College Publishing, 1988.
M.G. Kendall: A New Measure of Rank Correlation. 1938. Biometrika, 30, 81-89.
M.G. Kendall: Rank Correlation Methods. Wyd. 1. Londyn: Charles Griffin & Company Limited, 1948.
Teresa Kowalczyk: Link between grade measures of dependence and of separability of pairs of conditional distributions. Statistics and Probability Letters 46 (2000), 371-379.
W.H. Kruskal: Ordinal Measures of Association. 1958. Journal of the American Statistical Association, 53(284), 814-861.
S. Siegel, N.J. Castellan: Nonparametric statistics for the behavioral sciences. Wyd. 2. Nowy Jork: McGraw-Hill, 1988.
Statsoft: Statistica Electronic Manual

[Foundations-1] Pravin K. Trivedi, David M. Zimmer. Copula Modeling: An Introduction for Practitioners. „Foundations and Trends in Econometrics”. Volume 1 Issue 1 DOI:10.1561/0800000005. [dostęp 2008-05-16].

[2] M.G.M.G. Kendall M.G.M.G., THE TREATMENT OF TIES IN RANKING PROBLEMS, „Biometrika”, 33 (3), 1945, s. 239–251, DOI: 10.1093/biomet/33.3.239, ISSN 0006-3444 [dostęp 2023-11-30] (ang.).

[3] AlanA. Agresti AlanA., Analysis of ordinal categorical data, wyd. 2. ed, Wiley series in probability and statistics, Hoboken, NJ: Wiley, 2010, ISBN 978-0-470-08289-8 [dostęp 2023-11-30] .

[4] cor function - RDocumentation [online], www.rdocumentation.org [dostęp 2023-11-30] (ang.).

[5] scipy.stats.kendalltau — SciPy v1.11.4 Manual [online], docs.scipy.org [dostęp 2023-11-30] .

[6] Kenneth J.K.J. Berry Kenneth J.K.J. i inni, Stuart’s tau measure of effect size for ordinal variables: Some methodological considerations, „Behavior Research Methods”, 41 (4), 2009, s. 1144–1148, DOI: 10.3758/BRM.41.4.1144, ISSN 1554-3528 [dostęp 2023-11-30] (ang.).

[7] J. Durbin, A.S. Stuart. Inversions and rank correlations. „Journal of Royal Statistical Society Series”. B 2, s. 303–309, 1951.

[8] H.E. Daniels: Rank correlation and population models. J R Statist Soc B (1950), 171–181.

[9] Siegel i Castellan (1988).

[10] T. Kowalczyk, E. Pleszczyńska, F. Ruland, (red.): Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. Berlin Heidelberg New York: Springer Verlag, 2004, seria: Studies in Fuzziness and Soft Computing vol. 151. ISBN 978-3-540-21120-4.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]