Statystyka T² Hotellinga [1] – uogólnienie rozkładu Studenta , który jest używany do testowania hipotez wielowymiarowych. Nazwa pochodzi od Harolda Hotellinga .
Statystyka Hotellinga jest definiowana jako:
t 2 = n ( x − μ ) ′ W − 1 ( x − μ ) , {\displaystyle t^{2}=n(\mathbf {x} -\mathbf {\mu } )'\mathbf {W} ^{-1}(\mathbf {x} -\mathbf {\mu } ),} gdzie n {\displaystyle n} jest liczbą obserwacji, x {\displaystyle \mathbf {x} } jest p-wymiarową kolumną wektorową, a W {\displaystyle \mathbf {W} } jest p × p {\displaystyle p\times p} macierzą kowariancji .
Jeśli x ∼ N p ( μ , V ) {\displaystyle x\sim N_{p}(\mu ,\mathbf {V} )} jest zmienną losową z wielowymiarowego rozkładu Gaussa i W ∼ W p ( m , V ) {\displaystyle \mathbf {W} \sim W_{p}(m,\mathbf {V} )} (niezależne od x {\displaystyle x} ) ma rozkład Wisharta z taką samą macierzą wariancji V {\displaystyle \mathbf {V} } oraz z m = n − 1 , {\displaystyle m=n-1,} wówczas rozkład t 2 {\displaystyle t^{2}} jest T 2 ( p , m ) , {\displaystyle T^{2}(p,m),} rozkładem T² Hotellinga z parametrami p {\displaystyle p} i m . {\displaystyle m.}
Można pokazać, że:
m − p + 1 p m T 2 ∼ F p , m − p + 1 , {\displaystyle {\frac {m-p+1}{pm}}T^{2}\sim F_{p,m-p+1},} gdzie F {\displaystyle F} jest rozkładem F Snedecora .
Teraz załóżmy, że
x 1 , … , x n {\displaystyle \mathbf {x} _{1},\dots ,\mathbf {x} _{n}} jest p × 1 {\displaystyle p\times 1} kolumną wektorową, której wartościami są liczby rzeczywiste . Załóżmy, że
x ¯ = ( x 1 + … + x n ) / n {\displaystyle {\overline {\mathbf {x} }}=(\mathbf {x} _{1}+\ldots +\mathbf {x} _{n})/n} są ich średnią . Niech p × p {\displaystyle p\times p} będzie macierzą dodatnie określoną
W = ∑ i = 1 n ( x i − x ¯ ) ( x i − x ¯ ) ′ / ( n − 1 ) {\displaystyle \mathbf {W} =\sum _{i=1}^{n}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'/(n-1)} jest macierzą „przykładowych wariancji ”. (Transpozycja jakiejkolwiek macierzy M {\displaystyle M} jest oznaczona jako M ′ {\displaystyle M'} ). Niech μ {\displaystyle \mu } będzie znanym p × 1 {\displaystyle p\times 1} wektorem. Wówczas statystyka Hotellinga przyjmuje postać:
t 2 = n ( x ¯ − μ ) ′ W − 1 ( x ¯ − μ ) . {\displaystyle t^{2}=n({\overline {\mathbf {x} }}-\mathbf {\mu } )'\mathbf {W} ^{-1}({\overline {\mathbf {x} }}-\mathbf {\mu } ).} Warto zauważyć, że t 2 {\displaystyle t^{2}} jest blisko powiązona z kwadratem odległością Mahalanobisa .
W szczególności może to być pokazane poprzez[2] :
Jeśli x 1 , … , x n ∼ N p ( μ , V ) , {\displaystyle \mathbf {x} _{1},\dots ,\mathbf {x} _{n}\sim N_{p}(\mu ,\mathbf {V} ),} są niezależne, i x ¯ {\displaystyle {\overline {\mathbf {x} }}} i W {\displaystyle \mathbf {W} } są jak zdefiniowano powyżej, wówczas W {\displaystyle \mathbf {W} } ma rozkład Wisharta z n − 1 {\displaystyle n-1} stopniami swobody
W ∼ W p ( V , n − 1 ) {\displaystyle \mathbf {W} \sim W_{p}(V,n-1)} i jest niezależna od x ¯ , {\displaystyle {\overline {\mathbf {x} }},} oraz
x ¯ ∼ N p ( μ , V / n ) . {\displaystyle {\overline {\mathbf {x} }}\sim N_{p}(\mu ,V/n).} To oznacza, że:
t 2 = n ( x ¯ − μ ) ′ W − 1 ( x ¯ − μ ) ∼ T 2 ( p , n − 1 ) . {\displaystyle t^{2}=n({\overline {\mathbf {x} }}-\mathbf {\mu } )'\mathbf {W} ^{-1}({\overline {\mathbf {x} }}-\mathbf {\mu } )\sim T^{2}(p,n-1).} Statystyka T² Hotellinga dla dwóch prób
edytuj
Jeśli x 1 , … , x n x ∼ N p ( μ , V ) {\displaystyle \mathbf {x} _{1},\dots ,\mathbf {x} _{n_{x}}\sim N_{p}({\boldsymbol {\mu }},\mathbf {V} )} oraz y 1 , … , y n y ∼ N p ( μ Y , V ) , {\displaystyle \mathbf {y} _{1},\dots ,\mathbf {y} _{n_{y}}\sim N_{p}({\boldsymbol {\mu }}_{Y},\mathbf {V} ),} są próbkami niezależnymi wyciągniętymi z dwóch niezależnych wielowymiarowych rozkładów Gaussa o takiej samej średniej oraz kowariancji, i definiujemy
x ¯ = 1 n x ∑ i = 1 n x x i y ¯ = 1 n y ∑ i = 1 n y y i {\displaystyle {\overline {\mathbf {x} }}={\frac {1}{n_{x}}}\sum _{i=1}^{n_{x}}\mathbf {x} _{i}\qquad {\overline {\mathbf {y} }}={\frac {1}{n_{y}}}\sum _{i=1}^{n_{y}}\mathbf {y} _{i}} jako średnie próbek, oraz
W = ∑ i = 1 n x ( x i − x ¯ ) ( x i − x ¯ ) ′ + ∑ i = 1 n y ( y i − y ¯ ) ( y i − y ¯ ) ′ n x + n y − 2 {\displaystyle \mathbf {W} ={\frac {\sum _{i=1}^{n_{x}}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'+\sum _{i=1}^{n_{y}}(\mathbf {y} _{i}-{\overline {\mathbf {y} }})(\mathbf {y} _{i}-{\overline {\mathbf {y} }})'}{n_{x}+n_{y}-2}}} jako estymator nieobciążonej macierzy kowariancji, wówczas statystyka T² Hotellinga dla dwóch prób wygląda tak:
t 2 = n x n y n x + n y ( x ¯ − y ¯ ) ′ W − 1 ( x ¯ − y ¯ ) ∼ T 2 ( p , n x + n y − 2 ) {\displaystyle t^{2}={\frac {n_{x}n_{y}}{n_{x}+n_{y}}}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})'\mathbf {W} ^{-1}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})\sim T^{2}(p,n_{x}+n_{y}-2)} i może być przedstawiona w postaci rozkładu F Snedecora:
n x + n y − p − 1 ( n x + n y − 2 ) p t 2 ∼ F ( p , n x + n y − 1 − p ) {\displaystyle {\frac {n_{x}+n_{y}-p-1}{(n_{x}+n_{y}-2)p}}t^{2}\sim F(p,n_{x}+n_{y}-1-p)} [2] .
↑ H. Hotelling (1931) The generalization of Student’s ratio , Ann. Math. Statist., Vol. 2, s. 360–378.
↑ a b K.V. Mardia, J.T. Kent, J.M. Bibby (1979), Multivariate Analysis , Academic Press.