Twierdzenie Gaussa-Markowa

twierdzenie statystyki matematycznej

Twierdzenie Gaussa-Markowa – twierdzenie statystyki mówiące, że estymator najmniejszych kwadratów jest (o ile jest on stosowalny) najlepszym (tj. mającym najmniejszą wariancję) estymatorem spośród liniowych, nieobciążonych estymatorów liniowego modelu regresji[1].

Twierdzenie edytuj

Niech dany będzie model regresji liniowej, zapisany w notacji macierzowej:

 

tj.

 

gdzie   są współczynnikami modelu,  zmiennymi objaśniającymi natomiast   są zmiennymi losowymi błędu (nazywanymi czasami szumem). W przypadku modelu regresji ze stałą, wprowadza się dodatkowy współczynnik   oraz odpowiadającą mu kolumnę jedynek:   dla wszelkich  

Założenia twierdzenia Gaussa-Markowa:

  dla wszelkich  
 
  • szumy są parami nieskorelowane:
 

Liniowy estymator   jest po prostu kombinacją liniową  

 

w której współczynniki   nie zależą od   ale mogą zależeć od   Z definicji, estymator   jest nieobciążony, gdy

 

Niech

 

będzie kombinacją liniową współczynników. Wówczas błąd średniokwadratowy odpowiadający takiemu oszacowaniu wynosi

 

Z uwagi na to, że rozważane tu estymatory są nieobciążone, błąd średniokwadratowy jest równy wariancji rzeczonej kombinacji liniowej. Najlepszym nieobciążonym estymatorem (ang. BLUE) jest wektor   o parametrach   którego błąd średniokwadratowy jest najmniejszy spośród wszystkich wektorów   będących kombinacjami liniowymi parametrów. Równoważnie, macierz

 

jest nieujemnie określona dla każdego liniowego, nieobciążonego estymatora   (zob. uwagi o dowodzie). Estymator najmniejszych kwadratów (ang. OLS) to funkcja

 

zależna od   oraz   (gdzie   oznacza transpozycję macierzy  ). Funkcja ta minimalizuje sumę kwadratów błędów przypadkowych, tj.

 

Twierdzenie Gaussa-Markowa orzeka, że

estymator średniokwadraowy (OLS) jest najlepszym nieobciążonym liniowym estymatorem (BLUE)[2].

Dowód edytuj

Niech   będzie dowolnym liniowym etymatorem   gdzie   a   jest   niezerową macierzą. Zakładając nieobciążoność, najlepszy estymator nieobciążony to estymator o minimalnej wariancji. By zakończyć dowód należy wykazać, że wariancja   nie jest mniejsza od wariancji   tj. estymatora najmniejszych kwadratów.

 

Oznacza to, że estymator   jest nieobciążony wtedy i tylko wtedy, gdy   W tym wypadku:

 

Macierz DD' jest nieujemnie określona,   dominuje zatem   poprzez macierz nieujemnie określoną[3] (zob. uwagi o dowodzie).

Uwaga o dowodzie edytuj

Powyższy dowód opiera się na równoważności warunku

 

z tym, że najlepszym (tj. mającym minimalną wariancję) estymatorem   jest   Zależność taka istotnie zachodzi. Niech   będzie dowolnym liniowym, nieobciążonym estymatorem   Wówczas

 

W tym wypadku, równość zachodzi wtedy i tylko wtedy, gdy   Zachodzi wówczas

 

Oznacza to, że równość zachodzi wtedy i tylko wtedy, gdy

 

co implikuje jedyność estymatora najmniejszych kwadratów (OLS) jako estymatora BLUE[4].

Przypisy edytuj

Bibliografia edytuj

  • N.H. Bingham, J.M. Fry, Regression: Linear Models in Statistics, Springer Undergraduate Mathematics Series, 2010.
  • A. Sen, M. Srivastava, Regression Analysis Theory, Methods, and Applications, Springer-Verlag, New York, 1990.