Przedział predykcji

Przedział predykcji – wyznaczone na podstawie zebranych danych oszacowanie zakresu, w którym z ustalonym prawdopodobieństwem (równym ) będzie mieścić się nowa obserwacja pochodząca z badanej populacji. Przedziały predykcji to narzędzie wnioskowania statystycznego. Są one używane przede wszystkim, ale nie wyłącznie, w analizie regresji.

Przedział predykcji na podstawie próby losowej

edytuj

Załóżmy, że z populacji, co do której w przybliżeniu możemy założyć rozkład normalny, pobrano  -elementową prostą próbę losową. W takiej sytuacji przedział predykcji dla nowej obserwacji pochodzącej z tej samej populacji można wyznaczyć na podstawie wzoru[1]:

 ,

gdzie   to średnia z próby,   to odchylenie standardowe z próby, zaś   to kwantyl rzędu   rozkładu t Studenta z   stopniami swobody.

Warto zauważyć, że przedział predykcji jest zwykle dużo szerszy niż analogiczny przedział ufności dla średniej wyrażony podobnym wzorem:  . Jest tak dlatego, że przedział ufności stanowi oszacowanie średniej, a przedział predykcji oszacowanie pojedynczej nowej wartości z populacji.

Przedział predykcji w regresji prostej

edytuj

Korzystając z modelu regresji prostej (regresji liniowej z jedną zmienną objaśniającą), można prognozować wartość zmiennej objaśnianej dla nowej obserwacji   pochodzącej z populacji na podstawie wzoru[2]:

 

gdzie   to wartość zmiennej objaśniającej nowej obserwacji,   to prognoza punktowa zmiennej objaśnianej,   to liczba obserwacji wykorzystanych do zbudowania modelu (liczebność próby),   to średnia wartość zmiennej objaśniającej w próbie,   to kwantyl rzędu   rozkładu t Studenta z   stopniami swobody, zaś   to pierwiastek ze średniego kwadratu różnicy reszt  :

 

Przedział predykcji w regresji wielorakiej

edytuj

Dla modelu regresji wielorakiej przedział predykcji możemy wyznaczyć, stosując wzór[3]:

 ,

gdzie   to wektor zmiennych objaśniających nowej obserwacji (z elementem równym jeden odpowiadającym wyrazowi wolnemu, zwykle na pierwszej pozycji),   to prognoza punktowa zmiennej objaśnianej,   to liczba obserwacji wykorzystanych do zbudowania modelu (liczebność próby),   to liczba zmiennych objaśniających,   to macierz układu zawierająca kolumnę jedynek odpowiadającą wyrazowi wolnemu oraz wartości   zmiennych objaśniających (w kolumnach) dla   obserwacji (w wierszach),   to kwantyl rzędu   rozkładu t Studenta z   stopniami swobody, zaś   to pierwiastek ze średniego kwadratu różnicy reszt wyznaczonego za pomocą wzoru:

 .

Zobacz też

edytuj

Przypisy

edytuj
  1. Ron N. Forthofer, Eun Sul Lee, Mike Hernandez, Biostatistics: a guide to design, analysis, and discovery, wyd. 2nd ed, Burlington, MA: Elsevier Academic Press, 2007, s. 169–212, ISBN 978-0-12-369492-8 [dostęp 2024-07-28].
  2. Linear Regression, [w:] Ronald N. Forthofer, Eun Sul Lee, Mike Hernandez, Biostatistics (Second Edition), Elsevier, 2007, s. 349–386, DOI10.1016/b978-0-12-369492-8.50018-2, ISBN 978-0-12-369492-8 [dostęp 2024-07-28].
  3. Chapter 9 - REGRESSION, [w:] Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and Scientists (Fourth Edition), Elsevier, 2009, s. 353–439, DOI10.1016/b978-0-12-370483-2.00014-x, ISBN 978-0-12-370483-2 [dostęp 2024-07-28].