Rozkład Hotellinga

Statystyka T² Hotellinga^[1] – uogólnienie rozkładu Studenta, który jest używany do testowania hipotez wielowymiarowych. Nazwa pochodzi od Harolda Hotellinga.

Statystyka Hotellinga jest definiowana jako:

t^{2}=n(\mathbf {x} -\mathbf {\mu } )'\mathbf {W} ^{-1}(\mathbf {x} -\mathbf {\mu } ),

gdzie $n$ jest liczbą obserwacji, $\mathbf {x}$ jest p-wymiarową kolumną wektorową, a $\mathbf {W}$ jest $p\times p$ macierzą kowariancji.

Jeśli $x\sim N_{p}(\mu ,\mathbf {V} )$ jest zmienną losową z wielowymiarowego rozkładu Gaussa i $\mathbf {W} \sim W_{p}(m,\mathbf {V} )$ (niezależne od $x$ ) ma rozkład Wisharta z taką samą macierzą wariancji $\mathbf {V}$ oraz z $m=n-1,$ wówczas rozkład $t^{2}$ jest $T^{2}(p,m),$ rozkładem T² Hotellinga z parametrami $p$ i $m.$

Można pokazać, że:

{\frac {m-p+1}{pm}}T^{2}\sim F_{p,m-p+1},

gdzie $F$ jest rozkładem F Snedecora.

Teraz załóżmy, że

\mathbf {x} _{1},\dots ,\mathbf {x} _{n}

jest $p\times 1$ kolumną wektorową, której wartościami są liczby rzeczywiste. Załóżmy, że

{\overline {\mathbf {x} }}=(\mathbf {x} _{1}+\ldots +\mathbf {x} _{n})/n

są ich średnią. Niech $p\times p$ będzie macierzą dodatnie określoną

\mathbf {W} =\sum _{i=1}^{n}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'/(n-1)

jest macierzą „przykładowych wariancji”. (Transpozycja jakiejkolwiek macierzy $M$ jest oznaczona jako $M'$ ). Niech $\mu$ będzie znanym $p\times 1$ wektorem. Wówczas statystyka Hotellinga przyjmuje postać:

t^{2}=n({\overline {\mathbf {x} }}-\mathbf {\mu } )'\mathbf {W} ^{-1}({\overline {\mathbf {x} }}-\mathbf {\mu } ).

Warto zauważyć, że $t^{2}$ jest blisko powiązona z kwadratem odległością Mahalanobisa.

W szczególności może to być pokazane poprzez^[2]:

Jeśli $\mathbf {x} _{1},\dots ,\mathbf {x} _{n}\sim N_{p}(\mu ,\mathbf {V} ),$ są niezależne, i ${\overline {\mathbf {x} }}$ i $\mathbf {W}$ są jak zdefiniowano powyżej, wówczas $\mathbf {W}$ ma rozkład Wisharta z $n-1$ stopniami swobody

\mathbf {W} \sim W_{p}(V,n-1)

i jest niezależna od ${\overline {\mathbf {x} }},$ oraz

{\overline {\mathbf {x} }}\sim N_{p}(\mu ,V/n).

To oznacza, że:

t^{2}=n({\overline {\mathbf {x} }}-\mathbf {\mu } )'\mathbf {W} ^{-1}({\overline {\mathbf {x} }}-\mathbf {\mu } )\sim T^{2}(p,n-1).

Statystyka T² Hotellinga dla dwóch prób edytuj

Jeśli $\mathbf {x} _{1},\dots ,\mathbf {x} _{n_{x}}\sim N_{p}({\boldsymbol {\mu }},\mathbf {V} )$ oraz $\mathbf {y} _{1},\dots ,\mathbf {y} _{n_{y}}\sim N_{p}({\boldsymbol {\mu }}_{Y},\mathbf {V} ),$ są próbkami niezależnymi wyciągniętymi z dwóch niezależnych wielowymiarowych rozkładów Gaussa o takiej samej średniej oraz kowariancji, i definiujemy

{\overline {\mathbf {x} }}={\frac {1}{n_{x}}}\sum _{i=1}^{n_{x}}\mathbf {x} _{i}\qquad {\overline {\mathbf {y} }}={\frac {1}{n_{y}}}\sum _{i=1}^{n_{y}}\mathbf {y} _{i}

jako średnie próbek, oraz

\mathbf {W} ={\frac {\sum _{i=1}^{n_{x}}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'+\sum _{i=1}^{n_{y}}(\mathbf {y} _{i}-{\overline {\mathbf {y} }})(\mathbf {y} _{i}-{\overline {\mathbf {y} }})'}{n_{x}+n_{y}-2}}

jako estymator nieobciążonej macierzy kowariancji, wówczas statystyka T² Hotellinga dla dwóch prób wygląda tak:

t^{2}={\frac {n_{x}n_{y}}{n_{x}+n_{y}}}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})'\mathbf {W} ^{-1}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})\sim T^{2}(p,n_{x}+n_{y}-2)

i może być przedstawiona w postaci rozkładu F Snedecora:

{\frac {n_{x}+n_{y}-p-1}{(n_{x}+n_{y}-2)p}}t^{2}\sim F(p,n_{x}+n_{y}-1-p)

^[2].

Zobacz też edytuj

Przypisy edytuj

↑ H. Hotelling (1931) The generalization of Student’s ratio, Ann. Math. Statist., Vol. 2, s. 360–378.
↑ ^a ^b K.V. Mardia, J.T. Kent, J.M. Bibby (1979), Multivariate Analysis, Academic Press.

[1] H. Hotelling (1931) The generalization of Student’s ratio, Ann. Math. Statist., Vol. 2, s. 360–378.

[MKB-2] K.V. Mardia, J.T. Kent, J.M. Bibby (1979), Multivariate Analysis, Academic Press.

[1]

[2]