Wariancja

Wariancja – miara zmienności zmiennej losowej będąca wartością oczekiwaną kwadratu różnicy wartości zmiennej losowej X i jej wartości oczekiwanej^[1]. W statystyce opisowej obliczana jest jako średnia arytmetyczna kwadratów odchyleń (różnic) poszczególnych wartości cechy od średniej^[2].

Wariancja zmiennej losowej $X,$ oznaczana jako $\operatorname {Var} [X]$ lub $D^{2}(X),$ zdefiniowana jest wzorem^[1]:

\operatorname {Var} [X]=E[(X-\mu )^{2}],

gdzie:

E[\dots ]

jest wartością oczekiwaną zmiennej losowej podanej w nawiasach kwadratowych,

\mu

jest wartością oczekiwaną zmiennej

X.

Innym, często prostszym, sposobem wyznaczania wariancji jest wzór:

D^{2}(X)=E(X^{2})-[E(X)]^{2}.

Wariancja jest momentem centralnym drugiego rzędu zmiennej losowej.

Jeżeli ponadto $\mathbb {E} X^{2}\leqslant \infty$ oraz ${\mathcal {G}}$ jest σ-ciałem zdarzeń, to wariancją warunkową nazywamy:

\operatorname {Var} (X|{\mathcal {G}}):=\mathbb {E} {\Big (}{\big (}X-{\mathcal {E}}(X|{\mathcal {G}}){\big )}^{2}{\Big |}\ {\mathcal {G}}{\Big )}.

Statystyka opisowa edytuj

Jako jedna z najpopularniejszych miar w statystyce opisowej służąca do opisu danego kompletnego zbioru danych^[3], wariancja zdefiniowana jest dla zbioru obserwacji z cechą $x$ wzorem^[2]:

S^{2}(x)={\frac {\sum _{i=1}^{N}(x_{i}-{\overline {x}})^{2}}{N}},

gdzie ${\overline {x}}$ oznacza średnią wartość cechy, a $N$ liczebność zbioru.

Wyrażona jest w jednostkach miary badanej cechy podniesionych do kwadratu^[4].

Dane pogrupowane edytuj

W przypadku obliczania wariancji dla danych pogrupowanych w postaci szereg rozdzielczego punktowego, wykorzystuje się wzory^[5]:

S^{2}(x)={\frac {\sum _{i=1}^{k}(x_{i}-{\overline {x}})^{2}\cdot n_{i}}{n}}={\frac {\sum _{i=1}^{k}x_{i}^{2}\cdot n_{i}}{n}}-{\overline {x}}^{2},

gdzie $k$ oznacza liczbę klas szeregu punktowego, $n_{i}$ – liczebność i-tej klasy, a $n$ – liczebność całej zbiorowości (odpowiednik $N$ we wzorze powyżej).

W przypadku szeregu rozdzielczego przedziałowego za wartość $x$ przyjmuje się środki poszczególnych przedziałów $({\overset {.}{x}})$ ^[6]:

S^{2}(x)={\frac {\sum _{i=1}^{k}({\overset {.}{x}}_{i}-{\overline {x}})^{2}\cdot n_{i}}{n}}={\frac {\sum _{i=1}^{k}{\overset {.}{x}}_{i}^{2}\cdot n_{i}}{n}}-{\overline {x}}^{2}.

Ze względu na przyjęcie jako reprezentacji przedziałów wartości środkowych ${\overset {.}{x}},$ wariancja liczona według powyższego wzoru jest przybliżeniem wariancji dla danych kompletnych^[7].

Estymatory edytuj

Wariancja próby losowej o wartościach $x_{i},$ gdzie $i=1,2,3,\dots ,$ jest następująca:

\sigma ^{2}=\lim _{n\to \infty }{\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}.

Wariancję dla populacji można estymować za pomocą n-elementowej próby losowej. Estymator największej wiarygodności:

s^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}

jest zgodnym, lecz obciążonym estymatorem wariancji (jest nieobciążony asymptotycznie). Innymi słowy, gdybyśmy z populacji losowali próbkę wielokrotnie i obliczali jego wyniki, to ich średnia nie byłaby równa wariancji w całej populacji. Dlatego też częściej używa się również zgodnego, lecz nieobciążonego estymatora:

s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}.

W przypadku, gdy znamy dokładną wartość oczekiwaną $\mu$ w populacji, wówczas estymator

s^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-\mu \right)^{2}

jest już nieobciążony i zgodny.

Własności wariancji edytuj

Dla zmiennych losowych $X,$ $Y$ i dowolnych stałych $a,\ b,\ c$ zachodzą następujące własności:

1. $D^{2}(c)=0$

Dowód. Korzystając z własności wartości oczekiwanej (wartość oczekiwana stałej jest równa tej stałej), mamy:

D^{2}(c)=E[(c-Ec)^{2}]=E[0^{2}]=E[0]=0.

2. $D^{2}(X)\geqslant 0$

Dowód. Korzystamy z własności wartości oczekiwanej mówiącej o tym, że jeżeli zmienna losowa jest dodatnio określona prawie wszędzie to jej wartość oczekiwana jest dodatnia. Ponieważ zmienna losowa $(X-EX)^{2}$ jest dodatnio określona, mamy:

D^{2}(X)=E[(X-EX)^{2}]\geqslant 0.

3. $D^{2}(a\cdot X)=a^{2}\cdot D^{2}(X)$

Dowód. Korzystając z definicji wariancji, a następnie z liniowości wartości oczekiwanej mamy:

{\begin{aligned}&D^{2}(a\cdot X)\\={}&E[(aX-E(aX))^{2}]\\={}&E[(aX-aEX)^{2}]\\={}&E[(a(X-EX))^{2}]\\={}&E[a^{2}(X-EX)^{2}]\\={}&a^{2}E[(X-EX)^{2}]\\={}&a^{2}\cdot D^{2}(X).\end{aligned}}

4. $D^{2}(X+b)=D^{2}(X)$

Dowód. Korzystamy z własności wartości oczekiwanej mówiącej o tym, że $Ec=c$ dla $c$ stałej i z liniowości:

{\begin{aligned}&D^{2}(X+b)\\={}&E[(X+b-E(X+b))^{2}]\\={}&E[(X+b-EX-Eb)^{2}]\\={}&E[(X+b-EX-b)^{2}]\\={}&E[(X-EX)^{2}]\\={}&D^{2}(X).\end{aligned}}

5. $D^{2}(X\pm Y)=D^{2}(X)+D^{2}(Y)\pm 2\operatorname {Cov} (X,Y)$ w ogólnym przypadku; (gdzie $\operatorname {Cov} (X,Y)$ to kowariancja)

Dowód. Sprawdzone zostanie tylko twierdzenie dla sumy, twierdzenie dla różnicy rozwiązuje się analogicznie. Czyli mamy:

{\begin{aligned}&D^{2}(X+Y)\\={}&E[(X+Y-E(X+Y))^{2}]\\={}&E[(X+Y-EX-EY)^{2}]\\={}&E[((X-EX)+(Y-EY))^{2}]\\={}&E[(X-EX)^{2}+2(X-EX)(Y-EY)+(Y-EY)^{2}]\\={}&\dots \end{aligned}}

Korzystając z liniowości wartości oczekiwanej i definicji kowariancji, mamy:

{\begin{aligned}\dots ={}&E[(X-EX)^{2}]+2E[(X-EX)(Y-EY)]+E[(Y-EY)^{2}]\\={}&D^{2}(X)+D^{2}(Y)+2\operatorname {Cov} (X,Y).\end{aligned}}

Z powyższego twierdzenia łatwo wysnuć wniosek, że jeżeli zmienne $X$ i $Y$ są niezależne, zachodzi:

D^{2}(X\pm Y)=D^{2}(X)+D^{2}(Y).

Pierwiastek kwadratowy z wariancji definiujemy jako odchylenie standardowe.

Pierwiastek z estymatora nieobciążonego wariancji jest często używany jako estymator odchylenia standardowego, jednak jest wówczas obciążony (zobacz odchylenie standardowe).

Zobacz też edytuj

Przypisy edytuj

↑ ^a ^b Wariancja, [w:] Encyklopedia PWN [dostęp 2023-03-25] .
↑ ^a ^b MirosławM. Krzysztofiak MirosławM., AndrzejA. Luszniewicz AndrzejA., Statystyka, Warszawa: Państwowe Wydawnictwo Ekonomiczne, 1976, s. 131 .
↑ EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 165–166, ISBN 978-83-7583-172-6 .
↑ EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 163, ISBN 978-83-7583-172-6 .
↑ EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 233–234, ISBN 978-83-7583-172-6 .
↑ EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 239, ISBN 978-83-7583-172-6 .
↑ EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 241, ISBN 978-83-7583-172-6 .

Bibliografia edytuj

W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski: Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, część 2. Statystyka matematyczna. Warszawa: Wydawnictwo Naukowe PWN, 2006, s. 48. ISBN 83-01-14292-8.
Jacek Jakubowski, Rafał Sztencel: Wstęp do teorii prawdopodobieństwa. Warszawa: Script, 2004, s. 84. ISBN 83-89716-01-1.

[pwn-1] Wariancja, [w:] Encyklopedia PWN [dostęp 2023-03-25] .

[statystyka131-2] MirosławM. Krzysztofiak MirosławM., AndrzejA. Luszniewicz AndrzejA., Statystyka, Warszawa: Państwowe Wydawnictwo Ekonomiczne, 1976, s. 131 .

[wasilewska165166-3] EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 165–166, ISBN 978-83-7583-172-6 .

[wasilewska163-4] EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 163, ISBN 978-83-7583-172-6 .

[wasilewska233234-5] EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 233–234, ISBN 978-83-7583-172-6 .

[wasilewska239-6] EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 239, ISBN 978-83-7583-172-6 .

[wasilewska241-7] EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 241, ISBN 978-83-7583-172-6 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]