Odległość Mahalanobisa

Odległość Mahalanobisa – odległość między dwoma punktami w wielowymiarowej przestrzeni różnicująca wkład poszczególnych składowych współrzędnych punktów oraz wykorzystująca korelacje między nimi. Znajduje ona zastosowanie w statystyce, przy wyznaczaniu podobieństwa między nieznanym wektorem losowym a wektorem ze znanego zbioru. Zdefiniowana przez Prasantę Chandrę Mahalanobisa w 1936 roku.

Definicja edytuj

Dane mamy 2 wektory losowe $\mathbf {x} =[x_{1},x_{2},\dots ,x_{n}],$ $\mathbf {y} =[y_{1},y_{2},\dots ,y_{n}]$ w przestrzeni $\mathbb {R} ^{n},$ oraz pewną symetryczną, dodatnio określoną macierz $C.$ Odległość Mahalanobisa zdefiniowana jest jako:

d_{m}(\mathbf {x} ,\mathbf {y} ):={\sqrt {(\mathbf {x} -\mathbf {y} )^{T}C^{-1}(\mathbf {x} -\mathbf {y} )}}

Interpretacja edytuj

Odległość Mahalanobisa stosuje się w analizie skupień. Mając dany zbiór punktów tworzących pewną klasę, możemy wyznaczyć dla niego wektor średni ${\boldsymbol {\mu }}=[\mu _{1},\mu _{2},\dots ,\mu _{n}]$ oraz macierz kowariancji $C,$ które odzwierciedlają pewien charakter tej klasy. Badając przynależność nieznanego wektora losowego $\mathbf {x}$ do danej klasy, mierzy się jego podobieństwo do wektora ${\boldsymbol {\mu }},$ uwzględniając przy tym informację o wariancjach poszczególnych składowych oraz korelacjach między nimi. Miarą takiego podobieństwa jest odległość Mahalanobisa, nazywana ważoną odległością euklidesową, przy czym macierzą wag jest $C^{-1}.$

Rozważmy trzy przypadki różnych zbiorów danych:

Przypadek 1 edytuj

Poszczególne składowe w zbiorze mają równe wariancje (można przyjąć, że są one równe 1) i nie są skorelowane. Wówczas macierz kowariancji $C$ jest macierzą jednostkową, a odległość Mahalanobisa jest równa odległości euklidesowej:

{\begin{aligned}d_{m}(\mathbf {x} ,{\boldsymbol {\mu }})&={\sqrt {(x_{1}-\mu _{1})^{2}+\ldots +(x_{n}-\mu _{n})^{2}}}\\&={\sqrt {(\mathbf {x} -{\boldsymbol {\mu }})\mathbb {I} ^{-1}(\mathbf {x} -{\boldsymbol {\mu }})^{T}}}\end{aligned}}

Punkty o identycznej odległości od pewnego danego punktu centralnego tworzą na płaszczyźnie okrąg, a w przestrzeni o trzech lub więcej wymiarach odpowiednio sferę i hipersferę.

Przypadek 2 edytuj

Składowe $x_{1},x_{2},\dots ,x_{n}$ wektora losowego $\mathbf {x}$ nie są skorelowane, lecz mają różne wariancje: $\sigma _{1}^{2},\sigma _{2}^{2},\dots ,\sigma _{n}^{2}.$ Aby znormalizować poszczególne składowe należy je podzielić przez odpowiadające im wariancje:

{\begin{aligned}d_{m}(\mathbf {x} ,{\boldsymbol {\mu }})&={\sqrt {{\frac {(x_{1}-\mu _{1})^{2}}{\sigma _{1}^{2}}}+\ldots +{\frac {(x_{n}-\mu _{n})^{2}}{\sigma _{n}^{2}}}}}\\&={\sqrt {(\mathbf {x} -{\boldsymbol {\mu }})D^{-1}(\mathbf {x} -{\boldsymbol {\mu }})^{T}}}\end{aligned}}

gdzie $D$ jest macierzą diagonalną $\mathrm {diag} (\sigma _{1}^{2},\sigma _{2}^{2},\dots ,\sigma _{n}^{2}).$

Punkty o identycznej odległości tworzą na płaszczyźnie elipsę, a w przestrzeni trójwymiarowej elipsoidę, przy czym osie utworzonej figury są równoległe do osi układu współrzędnych.

Przypadek 3 edytuj

Składowe mają różne wariancje i są skorelowane: $\sigma _{ij}^{2}>0,\ \ 1\leqslant i,j\leqslant n.$ Odpowiada to pełnej macierzy kowariancji $C,$ a utworzona przez punkty o tej samej odległości elipsa jest obrócona o pewien kąt względem osi układu współrzędnych. Obrót ten jest dany przez macierz wektorów własnych macierzy $C\,^{-1},$ zaś długości półosi hiper-elipsoidy są określone przez odwrotności pierwiastków kwadratowych jej wartości własnych ${\frac {1}{\sqrt {\lambda _{1}}}},\dots ,{\frac {1}{\sqrt {\lambda _{n}}}},.$

Wartości własne spełniają równanie charakterystyczne, które w ogólności dla macierzy symetrycznej kwadratowej rozmiaru [ $n$ x $n$ ] sprowadza się do poszukiwania pierwiastków wielomianu $n$ tego stopnia.

Zastosowania edytuj

Kwadrat odległości Mahalanobisa występuje w wykładniku wielowymiarowego rozkładu Gaussa.
W zagadnieniach grupowania danych, np. klasteryzacji rozmytej, odległość Mahalanobisa wykorzystana jest do określania kształtu grupy (klastra). Przykładem jest algorytm GK^[1] (Gustaffsona-Kessela).

Przypisy edytuj

↑ D.E. Gustafson, W.C. Kessel, Fuzzy clustering with a fuzzy covariance matrix, IEEE Conference on Decision and Control including the 17th Symposium on Adaptive Processes, 1978, 17, s. 761–766.

[GK-1] D.E. Gustafson, W.C. Kessel, Fuzzy clustering with a fuzzy covariance matrix, IEEE Conference on Decision and Control including the 17th Symposium on Adaptive Processes, 1978, 17, s. 761–766.

[1]