Statystyka T² Hotellinga [1] – uogólnienie rozkładu Studenta , który jest używany do testowania hipotez wielowymiarowych. Nazwa pochodzi od Harolda Hotellinga .
Statystyka Hotellinga jest definiowana jako:
t
2
=
n
(
x
−
μ
)
′
W
−
1
(
x
−
μ
)
,
{\displaystyle t^{2}=n(\mathbf {x} -\mathbf {\mu } )'\mathbf {W} ^{-1}(\mathbf {x} -\mathbf {\mu } ),}
gdzie
n
{\displaystyle n}
jest liczbą obserwacji,
x
{\displaystyle \mathbf {x} }
jest p-wymiarową kolumną wektorową, a
W
{\displaystyle \mathbf {W} }
jest
p
×
p
{\displaystyle p\times p}
macierzą kowariancji .
Jeśli
x
∼
N
p
(
μ
,
V
)
{\displaystyle x\sim N_{p}(\mu ,\mathbf {V} )}
jest zmienną losową z wielowymiarowego rozkładu Gaussa i
W
∼
W
p
(
m
,
V
)
{\displaystyle \mathbf {W} \sim W_{p}(m,\mathbf {V} )}
(niezależne od
x
{\displaystyle x}
) ma rozkład Wisharta z taką samą macierzą wariancji
V
{\displaystyle \mathbf {V} }
oraz z
m
=
n
−
1
,
{\displaystyle m=n-1,}
wówczas rozkład
t
2
{\displaystyle t^{2}}
jest
T
2
(
p
,
m
)
,
{\displaystyle T^{2}(p,m),}
rozkładem T² Hotellinga z parametrami
p
{\displaystyle p}
i
m
.
{\displaystyle m.}
Można pokazać, że:
m
−
p
+
1
p
m
T
2
∼
F
p
,
m
−
p
+
1
,
{\displaystyle {\frac {m-p+1}{pm}}T^{2}\sim F_{p,m-p+1},}
gdzie
F
{\displaystyle F}
jest rozkładem F Snedecora .
Teraz załóżmy, że
x
1
,
…
,
x
n
{\displaystyle \mathbf {x} _{1},\dots ,\mathbf {x} _{n}}
jest
p
×
1
{\displaystyle p\times 1}
kolumną wektorową, której wartościami są liczby rzeczywiste . Załóżmy, że
x
¯
=
(
x
1
+
…
+
x
n
)
/
n
{\displaystyle {\overline {\mathbf {x} }}=(\mathbf {x} _{1}+\ldots +\mathbf {x} _{n})/n}
są ich średnią . Niech
p
×
p
{\displaystyle p\times p}
będzie macierzą dodatnie określoną
W
=
∑
i
=
1
n
(
x
i
−
x
¯
)
(
x
i
−
x
¯
)
′
/
(
n
−
1
)
{\displaystyle \mathbf {W} =\sum _{i=1}^{n}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'/(n-1)}
jest macierzą „przykładowych wariancji ”. (Transpozycja jakiejkolwiek macierzy
M
{\displaystyle M}
jest oznaczona jako
M
′
{\displaystyle M'}
). Niech
μ
{\displaystyle \mu }
będzie znanym
p
×
1
{\displaystyle p\times 1}
wektorem. Wówczas statystyka Hotellinga przyjmuje postać:
t
2
=
n
(
x
¯
−
μ
)
′
W
−
1
(
x
¯
−
μ
)
.
{\displaystyle t^{2}=n({\overline {\mathbf {x} }}-\mathbf {\mu } )'\mathbf {W} ^{-1}({\overline {\mathbf {x} }}-\mathbf {\mu } ).}
Warto zauważyć, że
t
2
{\displaystyle t^{2}}
jest blisko powiązona z kwadratem odległością Mahalanobisa .
W szczególności może to być pokazane poprzez[2] :
Jeśli
x
1
,
…
,
x
n
∼
N
p
(
μ
,
V
)
,
{\displaystyle \mathbf {x} _{1},\dots ,\mathbf {x} _{n}\sim N_{p}(\mu ,\mathbf {V} ),}
są niezależne, i
x
¯
{\displaystyle {\overline {\mathbf {x} }}}
i
W
{\displaystyle \mathbf {W} }
są jak zdefiniowano powyżej, wówczas
W
{\displaystyle \mathbf {W} }
ma rozkład Wisharta z
n
−
1
{\displaystyle n-1}
stopniami swobody
W
∼
W
p
(
V
,
n
−
1
)
{\displaystyle \mathbf {W} \sim W_{p}(V,n-1)}
i jest niezależna od
x
¯
,
{\displaystyle {\overline {\mathbf {x} }},}
oraz
x
¯
∼
N
p
(
μ
,
V
/
n
)
.
{\displaystyle {\overline {\mathbf {x} }}\sim N_{p}(\mu ,V/n).}
To oznacza, że:
t
2
=
n
(
x
¯
−
μ
)
′
W
−
1
(
x
¯
−
μ
)
∼
T
2
(
p
,
n
−
1
)
.
{\displaystyle t^{2}=n({\overline {\mathbf {x} }}-\mathbf {\mu } )'\mathbf {W} ^{-1}({\overline {\mathbf {x} }}-\mathbf {\mu } )\sim T^{2}(p,n-1).}
Statystyka T² Hotellinga dla dwóch prób
edytuj
Jeśli
x
1
,
…
,
x
n
x
∼
N
p
(
μ
,
V
)
{\displaystyle \mathbf {x} _{1},\dots ,\mathbf {x} _{n_{x}}\sim N_{p}({\boldsymbol {\mu }},\mathbf {V} )}
oraz
y
1
,
…
,
y
n
y
∼
N
p
(
μ
Y
,
V
)
,
{\displaystyle \mathbf {y} _{1},\dots ,\mathbf {y} _{n_{y}}\sim N_{p}({\boldsymbol {\mu }}_{Y},\mathbf {V} ),}
są próbkami niezależnymi wyciągniętymi z dwóch niezależnych wielowymiarowych rozkładów Gaussa o takiej samej średniej oraz kowariancji, i definiujemy
x
¯
=
1
n
x
∑
i
=
1
n
x
x
i
y
¯
=
1
n
y
∑
i
=
1
n
y
y
i
{\displaystyle {\overline {\mathbf {x} }}={\frac {1}{n_{x}}}\sum _{i=1}^{n_{x}}\mathbf {x} _{i}\qquad {\overline {\mathbf {y} }}={\frac {1}{n_{y}}}\sum _{i=1}^{n_{y}}\mathbf {y} _{i}}
jako średnie próbek, oraz
W
=
∑
i
=
1
n
x
(
x
i
−
x
¯
)
(
x
i
−
x
¯
)
′
+
∑
i
=
1
n
y
(
y
i
−
y
¯
)
(
y
i
−
y
¯
)
′
n
x
+
n
y
−
2
{\displaystyle \mathbf {W} ={\frac {\sum _{i=1}^{n_{x}}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'+\sum _{i=1}^{n_{y}}(\mathbf {y} _{i}-{\overline {\mathbf {y} }})(\mathbf {y} _{i}-{\overline {\mathbf {y} }})'}{n_{x}+n_{y}-2}}}
jako estymator nieobciążonej macierzy kowariancji, wówczas statystyka T² Hotellinga dla dwóch prób wygląda tak:
t
2
=
n
x
n
y
n
x
+
n
y
(
x
¯
−
y
¯
)
′
W
−
1
(
x
¯
−
y
¯
)
∼
T
2
(
p
,
n
x
+
n
y
−
2
)
{\displaystyle t^{2}={\frac {n_{x}n_{y}}{n_{x}+n_{y}}}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})'\mathbf {W} ^{-1}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})\sim T^{2}(p,n_{x}+n_{y}-2)}
i może być przedstawiona w postaci rozkładu F Snedecora:
n
x
+
n
y
−
p
−
1
(
n
x
+
n
y
−
2
)
p
t
2
∼
F
(
p
,
n
x
+
n
y
−
1
−
p
)
{\displaystyle {\frac {n_{x}+n_{y}-p-1}{(n_{x}+n_{y}-2)p}}t^{2}\sim F(p,n_{x}+n_{y}-1-p)}
[2] .
↑ H. Hotelling (1931) The generalization of Student’s ratio , Ann. Math. Statist., Vol. 2, s. 360–378.
↑ a b K.V. Mardia, J.T. Kent, J.M. Bibby (1979), Multivariate Analysis , Academic Press.