Przedział predykcji

Przedział predykcji – wyznaczone na podstawie zebranych danych oszacowanie zakresu, w którym z ustalonym prawdopodobieństwem (równym $1-\alpha$ ) będzie mieścić się nowa obserwacja pochodząca z badanej populacji. Przedziały predykcji to narzędzie wnioskowania statystycznego. Są one używane przede wszystkim, ale nie wyłącznie, w analizie regresji.

Przedział predykcji na podstawie próby losowej

Załóżmy, że z populacji, co do której w przybliżeniu możemy założyć rozkład normalny, pobrano $n$ -elementową prostą próbę losową. W takiej sytuacji przedział predykcji dla nowej obserwacji pochodzącej z tej samej populacji można wyznaczyć na podstawie wzoru^[1]:

{\bar {x}}\pm t_{\left({\alpha }/{2},n-1\right)}s{\sqrt {1+{\frac {1}{n}}}}

,

gdzie ${\bar {x}}$ to średnia z próby, $s$ to odchylenie standardowe z próby, zaś $t_{\left({\alpha }/{2},n-1\right)}$ to kwantyl rzędu $1-{\frac {\alpha }{2}}$ rozkładu t Studenta z $n-1$ stopniami swobody.

Warto zauważyć, że przedział predykcji jest zwykle dużo szerszy niż analogiczny przedział ufności dla średniej wyrażony podobnym wzorem: ${\bar {x}}\pm t_{\left({\alpha }/{2},n-1\right)}s{\sqrt {\frac {1}{n}}}$ . Jest tak dlatego, że przedział ufności stanowi oszacowanie średniej, a przedział predykcji oszacowanie pojedynczej nowej wartości z populacji.

Przedział predykcji w regresji prostej

Korzystając z modelu regresji prostej (regresji liniowej z jedną zmienną objaśniającą), można prognozować wartość zmiennej objaśnianej dla nowej obserwacji $h$ pochodzącej z populacji na podstawie wzoru^[2]:

{\hat {y}}_{h}\pm t_{(\alpha /2,n-2)}{\hat {\sigma }}{\sqrt {1+{\frac {1}{n}}+{\frac {(x_{h}-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}}

gdzie $x_{h}$ to wartość zmiennej objaśniającej nowej obserwacji, ${\hat {y}}_{h}$ to prognoza punktowa zmiennej objaśnianej, $n$ to liczba obserwacji wykorzystanych do zbudowania modelu (liczebność próby), ${\bar {x}}$ to średnia wartość zmiennej objaśniającej w próbie, $t_{\left({\alpha }/{2},n-2\right)}$ to kwantyl rzędu $1-{\frac {\alpha }{2}}$ rozkładu t Studenta z $n-2$ stopniami swobody, zaś ${\hat {\sigma }}$ to pierwiastek ze średniego kwadratu różnicy reszt ${\hat {\sigma }}^{2}$ :

{\hat {\sigma }}^{2}={\frac {\sum _{i}(y_{i}-{\hat {y}}_{i})^{2}}{n-2}}

Przedział predykcji w regresji wielorakiej

Dla modelu regresji wielorakiej przedział predykcji możemy wyznaczyć, stosując wzór^[3]:

{\hat {y}}_{h}\pm t_{(alpha/2,n-k-1)}{\hat {\sigma }}{\sqrt {1+\mathbf {x} _{h}^{\top }(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {x} _{h}}}

,

gdzie $\mathbf {x} _{h}$ to wektor zmiennych objaśniających nowej obserwacji (z elementem równym jeden odpowiadającym wyrazowi wolnemu, zwykle na pierwszej pozycji), ${\hat {y}}_{h}$ to prognoza punktowa zmiennej objaśnianej, $n$ to liczba obserwacji wykorzystanych do zbudowania modelu (liczebność próby), $k$ to liczba zmiennych objaśniających, $\mathbf {X}$ to macierz układu zawierająca kolumnę jedynek odpowiadającą wyrazowi wolnemu oraz wartości $k$ zmiennych objaśniających (w kolumnach) dla $n$ obserwacji (w wierszach), $t_{\left({\alpha }/{2},n-k-1\right)}$ to kwantyl rzędu $1-{\frac {\alpha }{2}}$ rozkładu t Studenta z $n-k-1$ stopniami swobody, zaś ${\hat {\sigma }}$ to pierwiastek ze średniego kwadratu różnicy reszt wyznaczonego za pomocą wzoru:

{\hat {\sigma }}^{2}={\frac {\sum _{i}(y_{i}-{\hat {y}}_{i})^{2}}{n-k-1}}

.

Zobacz też

Przypisy

↑ Ron N.R.N. Forthofer Ron N.R.N., Eun SulE.S. Lee Eun SulE.S., MikeM. Hernandez MikeM., Biostatistics: a guide to design, analysis, and discovery, wyd. 2nd ed, Burlington, MA: Elsevier Academic Press, 2007, s. 169–212, ISBN 978-0-12-369492-8 [dostęp 2024-07-28] .
↑ Linear Regression, [w:] Ronald N.R.N. Forthofer Ronald N.R.N., Eun SulE.S. Lee Eun SulE.S., MikeM. Hernandez MikeM., Biostatistics (Second Edition), Elsevier, 2007, s. 349–386, DOI: 10.1016/b978-0-12-369492-8.50018-2, ISBN 978-0-12-369492-8 [dostęp 2024-07-28] .
↑ Chapter 9 - REGRESSION, [w:] Sheldon M.S.M. Ross Sheldon M.S.M., Introduction to Probability and Statistics for Engineers and Scientists (Fourth Edition), Elsevier, 2009, s. 353–439, DOI: 10.1016/b978-0-12-370483-2.00014-x, ISBN 978-0-12-370483-2 [dostęp 2024-07-28] .

[1] Ron N.R.N. Forthofer Ron N.R.N., Eun SulE.S. Lee Eun SulE.S., MikeM. Hernandez MikeM., Biostatistics: a guide to design, analysis, and discovery, wyd. 2nd ed, Burlington, MA: Elsevier Academic Press, 2007, s. 169–212, ISBN 978-0-12-369492-8 [dostęp 2024-07-28] .

[2] Linear Regression, [w:] Ronald N.R.N. Forthofer Ronald N.R.N., Eun SulE.S. Lee Eun SulE.S., MikeM. Hernandez MikeM., Biostatistics (Second Edition), Elsevier, 2007, s. 349–386, DOI: 10.1016/b978-0-12-369492-8.50018-2, ISBN 978-0-12-369492-8 [dostęp 2024-07-28] .

[3] Chapter 9 - REGRESSION, [w:] Sheldon M.S.M. Ross Sheldon M.S.M., Introduction to Probability and Statistics for Engineers and Scientists (Fourth Edition), Elsevier, 2009, s. 353–439, DOI: 10.1016/b978-0-12-370483-2.00014-x, ISBN 978-0-12-370483-2 [dostęp 2024-07-28] .

[1]

[2]

[3]