Macierz układu[1] (także macierz modelu[2], macierz regresorów, macierz planu eksperymentu, macierz zmiennych objaśniających[3], macierz obserwacji[4], macierz projektowa[5], ang. design matrix) – wykorzystywana w modelowaniu statystycznym macierz zawierająca wartości zmiennych objaśniających dla zebranych obserwacji, najczęściej oznaczana przez X. Macierz układu stosowana jest np. w analizie regresji lub w analizie wariancji[6][7][8]. Każdy wiersz reprezentuje pojedynczy obiekt, a kolejne kolumny odpowiadają zmiennym. Macierz może zawierać zmienne ilościowe, a także zero-jedynkowe zmienne sztuczne wskazujące na przynależność obiektu do danej grupy; może również zawierać kolumnę z samymi jedynkami.

Zaletą koncepcji macierzy układu jest to, że może ona znaleźć zastosowanie dla wielu różnych planów eksperymentalnych i modeli statystycznych, w tym dla analizy wariancji, analizy kowariancji i regresji liniowej.

Definicja

edytuj

Macierz układu to macierz  , w której   (element w j-tej kolumnie i-tego rzędu macierzy  ) zawiera wartość j-tej zmiennej powiązanej z i-tym obiektem.

Model regresji liniowej można przedstawić w formie macierzowej:

 

gdzie X jest macierzą układu,   jest wektorem współczynników modelu (po jednym dla każdej zmiennej),   jest wektorem błędów losowych ze średnią zerową, a y jest wektorem zawierającym wartości zmiennej objaśnianej dla każdego obiektu.

Wymiary

edytuj

Macierz układu ma wymiary n × p, gdzie n jest liczbą zaobserwowanych obiektów, a p jest liczbą zmiennych (cech) zmierzonych dla każdego obiektu[9][10].

Różne wiersze mogą na przykład odpowiadać kolejnym powtórzeniom eksperymentu, podczas gdy kolumny odpowiadają poszczególnym zmiennym (na przykład zastosowanym zabiegom). Załóżmy na przykład, że w eksperymecnie dziesięciu osobom zostaną zadane 4 pytania. Macierz danych M byłaby macierzą o wymiarach 10×4 (10 wierszy i 4 kolumny). W wierszu i w kolumnie j znajdzie się odpowiedź i-tej osoby na j-te pytanie.

Przykłady

edytuj

Średnia arytmetyczna

edytuj

Macierz układu średniej arytmetycznej jest wektorem kolumnowym jedynek.

Prosta regresja liniowa

edytuj

Prosta regresja liniowa to regresja z pojedynczą zmienną objaśniającą:

 

gdzie   jest wyrazem wolnym (stałą, punktem przecięcia linii regresji z osią y), a   określa nachylenie (jest współczynnikiem kierunkowym) linii regresji. Załóżmy, że mamy 7 obserwacji (i = 1, 2, …, 7). Model taki można przedstawić w postaci macierzowej w następujący sposób:

 

Macierz, której kolumny w tym przykładzie to jedynki i x, jest macierzą układu. Pierwsza kolumna w macierzy układu zawiera same jedynki i umożliwia oszacowanie wyrazu wolnego, podczas gdy druga kolumna zawiera wartości zmiennej objaśniającej x powiązane z odpowiednimi wartościami y.

Regresja wielokrotna

edytuj

Załóżmy ponownie, że dane składają się z siedmiu obserwacji i dla każdej zaobserwowanej wartości zmiennej objaśnianej ( ), obserwuje się również wartości dwóch zmiennych objaśniających wi oraz xi:

 

Model ten można zapisać w postaci macierzowej w następujący sposób:

 

Macierz 7×3 zawierająca jedynki, wartości wi i xi jest macierzą układu.

Jednoczynnikowa analiza wariancji

edytuj

Załóżmy, że mamy model analizy wariancji (ANOVA) z trzema grupami i siedmioma obserwacjami. Zbiór danych zawiera trzy pierwsze obserwacje należące do pierwszej grupy, dwie kolejne obserwacje należące do drugiej grupy i dwie ostatnie obserwacje należące do trzeciej grupy. Model, który ma być dopasowany, sprowadza się do estymacji średniej w każdej grupie:

 

W formie macierzowej można go zapisać w następujący sposób:

 

W tym modelu   reprezentuje średnią w  -tej grupie.

Jednoczynnikowa analiza wariancji z grupą odniesienia

edytuj

Model ANOVA można równoważnie zapisać z wykorzystaniem parametrów grupowych   oznaczających odstępstwo od jakiegoś poziomu odniesienia. Zwykle za odniesienie przyjmuje się jedną z rozważanych grup. Ma to sens na przykład w kontekście porównywania wielu grup poddawanych leczeniu z grupą kontrolną („grupą odniesienia”, „grupą referencyjną”). W tym przykładzie jako grupę odniesienia wskazano grupę 1. Równanie wygląda w następujący sposób:

 

przy czym   wynosi zero. W formie macierzowej takie równanie można przedstawić w nastepujący sposób:

 

W tym modelu   jest średnią grupy odniesienia, zaś   jest różnicą pomiędzy średnią w grupie   a średnią grupy odniesienia. Parametr   nie jest uwzględniony w macierzy, ponieważ z konieczności wynosi zero.

Przypisy

edytuj
  1. design matrix | ISI [online], isi-web.org [dostęp 2024-06-29].
  2. Komisja Egzaminacyjna dla Aktuariuszy (KNF), LXXXIX Egzamin dla Aktuariuszy. Sesja egzaminacyjna w dniu 17 października 2023 r. Modelowanie [online], 2023 (pol.).
  3. Jacek Osiewalski, Wykłady Jacka Osiewalskiego z Ekonometrii zebrane ku pouczeniu i przestrodze, Błażej Mazur (red.), 2001 (pol.).
  4. Komisja Egzaminacyjna dla Aktuariuszy (KNF), LXXXV Egzamin dla Aktuariuszy. Sesja egzaminacyjna w dniu 9 czerwca 2022 r. Modelowanie [online], 2023 (pol.).
  5. Matematyczny Słownik Angielsko - Polski [online], www.bazawiedzy24.pl [dostęp 2024-06-24].
  6. B. S. Everitt: Cambridge Dictionary of Statistics. Wyd. 2nd. Cambridge, UK: Cambridge University Press, 2002. ISBN 0-521-81099-X.
  7. Neil H. Timm: Applied Multivariate Analysis. Springer Science & Business Media, 2007, s. 107. ISBN 978-0-387-22771-9.
  8. George E.P. Box, George C. Tiao, Bayesian inference in statistical analysis, Wiley classics library, New York Chichester Brisbane [etc]: J. Wiley and sons, 1992, ISBN 978-0-471-57428-6 [dostęp 2024-06-29].
  9. Richard A Johnson: Applied Multivariate Statistical Analysis. Pearson, 2001, s. 111–112. ISBN 0-13-187715-1.
  10. Basic Concepts for Multivariate Statistics p.2.