Niech dany będzie model regresji liniowej, zapisany w notacji macierzowej:
y
_
=
X
β
_
+
ε
_
,
(
y
_
,
ε
_
∈
R
n
,
β
_
∈
R
K
,
X
∈
R
n
×
K
)
,
{\displaystyle {\underline {y}}=X{\underline {\beta }}+{\underline {\varepsilon }},\quad ({\underline {y}},{\underline {\varepsilon }}\in \mathbb {R} ^{n},{\underline {\beta }}\in \mathbb {R} ^{K},X\in \mathbb {R} ^{n\times K}),}
tj.
y
i
=
∑
j
=
1
K
β
j
X
i
j
+
ε
i
(
i
=
1
,
2
,
…
,
n
)
,
{\displaystyle y_{i}=\sum _{j=1}^{K}\beta _{j}X_{ij}+\varepsilon _{i}\quad (i=1,2,\dots ,n),}
gdzie
β
j
{\displaystyle \beta _{j}}
są współczynnikami modelu,
X
i
j
{\displaystyle X_{ij}}
są zmiennymi objaśniającymi natomiast
ε
i
{\displaystyle \varepsilon _{i}}
są zmiennymi losowymi błędu (nazywanymi czasami szumem ). W przypadku modelu regresji ze stałą, wprowadza się dodatkowy współczynnik
β
K
+
1
{\displaystyle \beta _{K+1}}
oraz odpowiadającą mu kolumnę jedynek:
X
i
(
K
+
1
)
=
1
{\displaystyle X_{i(K+1)}=1}
dla wszelkich
i
.
{\displaystyle i.}
Założenia twierdzenia Gaussa-Markowa:
E
[
ε
i
]
=
0
{\displaystyle {\mathsf {E}}[\varepsilon _{i}]=0}
dla wszelkich
i
.
{\displaystyle i.}
V
a
r
(
ε
i
)
=
σ
2
<
∞
,
{\displaystyle {\mathsf {Var}}(\varepsilon _{i})=\sigma ^{2}<\infty ,}
szumy są parami nieskorelowane:
C
o
v
(
ε
i
,
ε
j
)
=
0
,
(
i
≠
j
)
.
{\displaystyle {\mathsf {Cov}}(\varepsilon _{i},\varepsilon _{j})=0,\quad (i\neq j).}
Liniowy estymator
β
j
{\displaystyle \beta _{j}}
jest po prostu kombinacją liniową
y
i
:
{\displaystyle y_{i}{:}}
β
^
j
=
c
1
j
y
1
+
…
+
c
n
j
y
n
,
{\displaystyle {\widehat {\beta }}_{j}=c_{1j}y_{1}+\ldots +c_{nj}y_{n},}
w której współczynniki
c
i
j
{\displaystyle c_{ij}}
nie zależą od
β
j
,
{\displaystyle \beta _{j},}
ale mogą zależeć od
X
i
j
.
{\displaystyle X_{ij}.}
Z definicji, estymator
β
^
j
{\displaystyle {\widehat {\beta }}_{j}}
jest nieobciążony, gdy
E
[
β
^
j
]
=
β
j
.
{\displaystyle {\mathsf {E}}\left[{\widehat {\beta }}_{j}\right]=\beta _{j}.}
Niech
∑
j
=
1
K
λ
j
β
j
{\displaystyle \sum \nolimits _{j=1}^{K}\lambda _{j}\beta _{j}}
będzie kombinacją liniową współczynników. Wówczas błąd średniokwadratowy odpowiadający takiemu oszacowaniu wynosi
E
[
(
∑
j
=
1
K
λ
j
(
β
^
j
−
β
j
)
)
2
]
,
{\displaystyle {\mathsf {E}}\left[\left(\sum _{j=1}^{K}\lambda _{j}\left({\widehat {\beta }}_{j}-\beta _{j}\right)\right)^{2}\right],}
Z uwagi na to, że rozważane tu estymatory są nieobciążone, błąd średniokwadratowy jest równy wariancji rzeczonej kombinacji liniowej. Najlepszym nieobciążonym estymatorem (ang. BLUE ) jest wektor
β
{\displaystyle \beta }
o parametrach
β
j
,
{\displaystyle \beta _{j},}
którego błąd średniokwadratowy jest najmniejszy spośród wszystkich wektorów
λ
{\displaystyle \lambda }
będących kombinacjami liniowymi parametrów. Równoważnie, macierz
V
a
r
(
β
~
)
−
V
a
r
(
β
^
)
{\displaystyle {\mathsf {Var}}\left({\widetilde {\beta }}\right)-{\mathsf {Var}}\left({\widehat {\beta }}\right)}
jest nieujemnie określona dla każdego liniowego, nieobciążonego estymatora
β
~
{\displaystyle {\widetilde {\beta }}}
(zob. uwagi o dowodzie ). Estymator najmniejszych kwadratów (ang. OLS ) to funkcja
β
^
=
(
X
′
X
)
−
1
X
′
y
{\displaystyle {\widehat {\beta }}=(X'X)^{-1}X'y}
zależna od
y
{\displaystyle y}
oraz
X
{\displaystyle X}
(gdzie
X
′
{\displaystyle X'}
oznacza transpozycję macierzy
X
{\displaystyle X}
). Funkcja ta minimalizuje sumę kwadratów błędów przypadkowych , tj.
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
=
∑
i
=
1
n
(
y
i
−
∑
j
=
1
K
β
^
j
X
i
j
)
2
.
{\displaystyle \sum _{i=1}^{n}\left(y_{i}-{\widehat {y}}_{i}\right)^{2}=\sum _{i=1}^{n}\left(y_{i}-\sum _{j=1}^{K}{\widehat {\beta }}_{j}X_{ij}\right)^{2}.}
Twierdzenie Gaussa-Markowa orzeka, że
estymator średniokwadraowy (OLS) jest najlepszym nieobciążonym liniowym estymatorem (BLUE) [2] .
Niech
β
~
=
C
y
{\displaystyle {\tilde {\beta }}=Cy}
będzie dowolnym liniowym etymatorem
β
,
{\displaystyle \beta ,}
gdzie
C
=
(
X
′
X
)
−
1
X
′
+
D
{\displaystyle C=(X'X)^{-1}X'+D}
a
D
{\displaystyle D}
jest
K
×
n
{\displaystyle K\times n}
niezerową macierzą. Zakładając nieobciążoność, najlepszy estymator nieobciążony to estymator o minimalnej wariancji. By zakończyć dowód należy wykazać, że wariancja
β
~
=
C
y
{\displaystyle {\tilde {\beta }}=Cy}
nie jest mniejsza od wariancji
β
^
,
{\displaystyle {\widehat {\beta }},}
tj. estymatora najmniejszych kwadratów.
E
[
β
~
]
=
E
[
C
y
]
=
E
[
(
(
X
′
X
)
−
1
X
′
+
D
)
(
X
β
+
ε
)
]
=
(
(
X
′
X
)
−
1
X
′
+
D
)
X
β
+
(
(
X
′
X
)
−
1
X
′
+
D
)
E
[
ε
]
=
(
(
X
′
X
)
−
1
X
′
+
D
)
X
β
E
[
ε
]
=
0
=
(
X
′
X
)
−
1
X
′
X
β
+
D
X
β
=
(
I
K
+
D
X
)
β
.
{\displaystyle {\begin{aligned}{\mathsf {E}}\left[{\tilde {\beta }}\right]&={\mathsf {E}}[Cy]\\&={\mathsf {E}}\left[\left((X'X)^{-1}X'+D\right)(X\beta +\varepsilon )\right]\\&=\left((X'X)^{-1}X'+D\right)X\beta +\left((X'X)^{-1}X'+D\right){\mathsf {E}}[\varepsilon ]\\&=\left((X'X)^{-1}X'+D\right)X\beta &&{\mathsf {E}}[\varepsilon ]=0\\&=(X'X)^{-1}X'X\beta +DX\beta \\&=(I_{K}+DX)\beta .\end{aligned}}}
Oznacza to, że estymator
β
~
{\displaystyle {\tilde {\beta }}}
jest nieobciążony wtedy i tylko wtedy, gdy
D
X
=
0.
{\displaystyle DX=0.}
W tym wypadku:
V
a
r
(
β
~
)
=
V
a
r
(
C
y
)
=
C
V
a
r
(
y
)
C
′
=
σ
2
C
C
′
=
σ
2
(
(
X
′
X
)
−
1
X
′
+
D
)
(
X
(
X
′
X
)
−
1
+
D
′
)
=
σ
2
(
(
X
′
X
)
−
1
X
′
X
(
X
′
X
)
−
1
+
(
X
′
X
)
−
1
X
′
D
′
+
D
X
(
X
′
X
)
−
1
+
D
D
′
)
=
σ
2
(
X
′
X
)
−
1
+
σ
2
(
X
′
X
)
−
1
(
D
X
)
′
+
σ
2
D
X
(
X
′
X
)
−
1
+
σ
2
D
D
′
=
σ
2
(
X
′
X
)
−
1
+
σ
2
D
D
′
D
X
=
0
=
V
a
r
(
β
^
)
+
σ
2
D
D
′
σ
2
(
X
′
X
)
−
1
=
V
a
r
(
β
^
)
{\displaystyle {\begin{aligned}{\mathsf {Var}}\left({\tilde {\beta }}\right)&={\mathsf {Var}}(Cy)\\&=C{\mathsf {Var}}(y)C'\\&=\sigma ^{2}CC'\\&=\sigma ^{2}\left((X'X)^{-1}X'+D\right)\left(X(X'X)^{-1}+D'\right)\\&=\sigma ^{2}\left((X'X)^{-1}X'X(X'X)^{-1}+(X'X)^{-1}X'D'+DX(X'X)^{-1}+DD'\right)\\&=\sigma ^{2}(X'X)^{-1}+\sigma ^{2}(X'X)^{-1}(DX)'+\sigma ^{2}DX(X'X)^{-1}+\sigma ^{2}DD'\\&=\sigma ^{2}(X'X)^{-1}+\sigma ^{2}DD'&&DX=0\\&={\mathsf {Var}}\left({\widehat {\beta }}\right)+\sigma ^{2}DD'&&\sigma ^{2}(X'X)^{-1}={\mathsf {Var}}\left({\widehat {\beta }}\right)\end{aligned}}}
Macierz DD' jest nieujemnie określona,
V
a
r
(
β
~
)
{\displaystyle {\mathsf {Var}}\left({\tilde {\beta }}\right)}
dominuje zatem
V
a
r
(
β
^
)
{\displaystyle {\mathsf {Var}}\left({\widehat {\beta }}\right)}
poprzez macierz nieujemnie określoną[3] (zob. uwagi o dowodzie ).
Uwaga o dowodzie
edytuj
Powyższy dowód opiera się na równoważności warunku
V
a
r
(
β
~
)
−
V
a
r
(
β
^
)
⩾
0
{\displaystyle {\mathsf {Var}}\left({\tilde {\beta }}\right)-{\mathsf {Var}}\left({\widehat {\beta }}\right)\geqslant 0}
z tym, że najlepszym (tj. mającym minimalną wariancję) estymatorem
ℓ
t
β
{\displaystyle \ell ^{t}\beta }
jest
ℓ
t
β
^
.
{\displaystyle \ell ^{t}{\widehat {\beta }}.}
Zależność taka istotnie zachodzi. Niech
ℓ
t
β
~
{\displaystyle \ell ^{t}{\tilde {\beta }}}
będzie dowolnym liniowym, nieobciążonym estymatorem
ℓ
t
β
.
{\displaystyle \ell ^{t}\beta .}
Wówczas
V
a
r
(
ℓ
t
β
~
)
=
ℓ
t
V
a
r
(
β
~
)
ℓ
=
σ
2
ℓ
t
(
X
′
X
)
−
1
ℓ
+
ℓ
t
D
D
t
ℓ
=
V
a
r
(
ℓ
t
β
^
)
+
(
D
t
ℓ
)
t
(
D
t
ℓ
)
σ
2
ℓ
t
(
X
′
X
)
−
1
ℓ
=
V
a
r
(
ℓ
t
β
^
)
=
Var
(
ℓ
t
β
^
)
+
‖
D
t
ℓ
‖
⩾
V
a
r
(
ℓ
t
β
^
)
{\displaystyle {\begin{aligned}{\mathsf {Var}}\left(\ell ^{t}{\tilde {\beta }}\right)&=\ell ^{t}{\mathsf {Var}}\left({\tilde {\beta }}\right)\ell \\&=\sigma ^{2}\ell ^{t}(X'X)^{-1}\ell +\ell ^{t}DD^{t}\ell \\&={\mathsf {Var}}\left(\ell ^{t}{\widehat {\beta }}\right)+(D^{t}\ell )^{t}(D^{t}\ell )&&\sigma ^{2}\ell ^{t}(X'X)^{-1}\ell ={\mathsf {Var}}\left(\ell ^{t}{\widehat {\beta }}\right)\\&=\operatorname {Var} \left(\ell ^{t}{\widehat {\beta }}\right)+\|D^{t}\ell \|\\&\geqslant {\mathsf {Var}}\left(\ell ^{t}{\widehat {\beta }}\right)\end{aligned}}}
W tym wypadku, równość zachodzi wtedy i tylko wtedy, gdy
D
t
ℓ
=
0.
{\displaystyle D^{t}\ell =0.}
Zachodzi wówczas
ℓ
t
β
~
=
ℓ
t
(
(
(
X
′
X
)
−
1
X
′
+
D
)
Y
)
=
ℓ
t
(
X
′
X
)
−
1
X
′
Y
+
ℓ
t
D
Y
=
ℓ
t
β
^
+
(
D
t
ℓ
)
t
Y
=
ℓ
t
β
^
D
t
ℓ
=
0
{\displaystyle {\begin{aligned}\ell ^{t}{\tilde {\beta }}&=\ell ^{t}\left(((X'X)^{-1}X'+D)Y\right)&&{\text{ }}\\&=\ell ^{t}(X'X)^{-1}X'Y+\ell ^{t}DY\\&=\ell ^{t}{\widehat {\beta }}+(D^{t}\ell )^{t}Y\\&=\ell ^{t}{\widehat {\beta }}&&D^{t}\ell =0\end{aligned}}}
Oznacza to, że równość zachodzi wtedy i tylko wtedy, gdy
ℓ
t
β
~
=
ℓ
t
β
^
,
{\displaystyle \ell ^{t}{\tilde {\beta }}=\ell ^{t}{\widehat {\beta }},}
co implikuje jedyność estymatora najmniejszych kwadratów (OLS) jako estymatora BLUE[4] .
Bibliografia
edytuj
N.H. Bingham, J.M. Fry, Regression: Linear Models in Statistics , Springer Undergraduate Mathematics Series, 2010.
A. Sen, M. Srivastava, Regression Analysis Theory, Methods, and Applications , Springer-Verlag, New York, 1990.