Odległość Mahalanobisa

Odległość Mahalanobisa – odległość między dwoma punktami w wielowymiarowej przestrzeni różnicująca wkład poszczególnych składowych współrzędnych punktów oraz wykorzystująca korelacje między nimi. Znajduje ona zastosowanie w statystyce, przy wyznaczaniu podobieństwa między nieznanym wektorem losowym a wektorem ze znanego zbioru. Zdefiniowana przez Prasantę Chandrę Mahalanobisa w 1936 roku.

Definicja edytuj

Dane mamy 2 wektory losowe     w przestrzeni   oraz pewną symetryczną, dodatnio określoną macierz   Odległość Mahalanobisa zdefiniowana jest jako:

 

Interpretacja edytuj

Odległość Mahalanobisa stosuje się w analizie skupień. Mając dany zbiór punktów tworzących pewną klasę, możemy wyznaczyć dla niego wektor średni   oraz macierz kowariancji   które odzwierciedlają pewien charakter tej klasy. Badając przynależność nieznanego wektora losowego   do danej klasy, mierzy się jego podobieństwo do wektora   uwzględniając przy tym informację o wariancjach poszczególnych składowych oraz korelacjach między nimi. Miarą takiego podobieństwa jest odległość Mahalanobisa, nazywana ważoną odległością euklidesową, przy czym macierzą wag jest  

Rozważmy trzy przypadki różnych zbiorów danych:

Przypadek 1 edytuj

 

Poszczególne składowe w zbiorze mają równe wariancje (można przyjąć, że są one równe 1) i nie są skorelowane. Wówczas macierz kowariancji   jest macierzą jednostkową, a odległość Mahalanobisa jest równa odległości euklidesowej:

 

Punkty o identycznej odległości od pewnego danego punktu centralnego tworzą na płaszczyźnie okrąg, a w przestrzeni o trzech lub więcej wymiarach odpowiednio sferę i hipersferę.

Przypadek 2 edytuj

 

Składowe   wektora losowego   nie są skorelowane, lecz mają różne wariancje:   Aby znormalizować poszczególne składowe należy je podzielić przez odpowiadające im wariancje:

 

gdzie   jest macierzą diagonalną  

Punkty o identycznej odległości tworzą na płaszczyźnie elipsę, a w przestrzeni trójwymiarowej elipsoidę, przy czym osie utworzonej figury są równoległe do osi układu współrzędnych.

Przypadek 3 edytuj

 

Składowe mają różne wariancje i są skorelowane:   Odpowiada to pełnej macierzy kowariancji   a utworzona przez punkty o tej samej odległości elipsa jest obrócona o pewien kąt względem osi układu współrzędnych. Obrót ten jest dany przez macierz wektorów własnych macierzy   zaś długości półosi hiper-elipsoidy są określone przez odwrotności pierwiastków kwadratowych jej wartości własnych  

Wartości własne spełniają równanie charakterystyczne, które w ogólności dla macierzy symetrycznej kwadratowej rozmiaru [  x  ] sprowadza się do poszukiwania pierwiastków wielomianu   tego stopnia.

Zastosowania edytuj

  • Kwadrat odległości Mahalanobisa występuje w wykładniku wielowymiarowego rozkładu Gaussa.
  • W zagadnieniach grupowania danych, np. klasteryzacji rozmytej, odległość Mahalanobisa wykorzystana jest do określania kształtu grupy (klastra). Przykładem jest algorytm GK[1] (Gustaffsona-Kessela).

Przypisy edytuj

  1. D.E. Gustafson, W.C. Kessel, Fuzzy clustering with a fuzzy covariance matrix, IEEE Conference on Decision and Control including the 17th Symposium on Adaptive Processes, 1978, 17, s. 761–766.