Naiwny klasyfikator bayesowski

Naiwny klasyfikator bayesowski, naiwny klasyfikator Bayesa – prosty klasyfikator probabilistyczny. Naiwne klasyfikatory bayesowskie są oparte na założeniu o wzajemnej niezależności predyktorów (zmiennych niezależnych). Często nie mają one żadnego związku z rzeczywistością i właśnie z tego powodu nazywa się je naiwnymi. Bardziej opisowe jest określenie – „model cech niezależnych”. Ponadto model prawdopodobieństwa można wyprowadzić korzystając z twierdzenia Bayesa.

W zależności od rodzaju dokładności modelu prawdopodobieństwa, naiwne klasyfikatory bayesowskie można skutecznie „uczyć” w trybie uczenia z nadzorem. W wielu praktycznych aplikacjach, estymacja parametru dla naiwnych modeli Bayesa używa metody maksymalnego prawdopodobieństwa a posteriori; inaczej mówiąc, można pracować z naiwnym modelem Bayesa bez wierzenia w twierdzenie Bayesa albo używania jakichś metod Bayesa.

Pomimo ich naiwnego projektowania i bardzo uproszczonych założeń, w wielu rzeczywistych sytuacjach naiwne klasyfikatory Bayesa często pracują dużo lepiej, niż można było tego oczekiwać.

Naiwny model probabilistyczny BayesaEdytuj

Model prawdopodobieństwa dla klasyfikatora jest modelem warunkowym

 

przez zmienną zależną klasy   z niewielu rezultatów albo „klas”, zależnych od kilku opisujących zmiennych   do   Problem pojawia się, gdy liczba cech   jest duża lub gdy cecha może przyjmować dużą liczbę wartości. Wtedy opieranie się na modelu tablic prawdopodobieństw jest niewykonalne. Dlatego też inaczej formułuje się taki model, by był bardziej przystępny.

Korzystając z twierdzenia Bayesa:

 

W praktyce interesujący jest tylko licznik ułamka, bo mianownik nie zależy od   i wartości cechy   są dane. Mianownik jest więc stały.

Licznik ułamka jest równoważny do łącznego modelu prawdopodobieństwa

 

który można zapisać, wykorzystując prawdopodobieństwo warunkowe

 

i tak dalej. Włącza się teraz „naiwną” warunkową zależność. Zakładając, że każda cecha   jest warunkowo niezależna od każdej innej cechy

  dla  

Oznacza to

 

więc model można wyrazić jako

 

Oznacza to, że pod powyższymi niezależnymi założeniami, warunkowe rozmieszczenie nad klasą zmiennych   można zapisać

 

gdzie   jest współczynnikiem skalowania zależnym wyłącznie od  

Modele tej formy są łatwiejsze do zrealizowania, gdy rozłoży się je na czynniki zwane klasą „prior”   i niezależny rozkład prawdopodobieństwa   Jeśli są klasy   i jeśli model dla   może być wyrażony przez parametr   wtedy odpowiadający naiwny model Bayesa ma   parametrów. W praktyce często   (klasyfikacja binarna) i   (zmienna Bernouliego jako cecha), wtedy całkowita liczba parametrów naiwnego modelu Bayesa to   gdzie   jest liczbą binarnych użytych cech.

Estymacja parametruEdytuj

W przypadku uczenia z nadzorem, chcemy ocenić parametry probabilistycznego modelu. Z powodu założenia niezależnych cech, wystarczy ocenić klasę poprzednią i zależną cechę modelu niezależnie, wykorzystując metodę maksimum prawdopodobieństwa a posteriori (MAP), wnioskowanie Bayesa lub inną parametryczną procedurę estymacji.

Konstrukcja klasyfikatora z modelu probabilistycznegoEdytuj

Dotychczasowe omówienie problemu wyprowadziło model niezależnych cech, które są naiwnym probabilistycznym modelem Bayesa. Naiwny klasyfikator bayesowski łączy ten model z regułą decyzyjną. Jedna, ogólna reguła ma wydobyć hipotezę najbardziej prawdopodobną. Odpowiadający klasyfikator jest funkcją   zdefiniowaną

 

OmówienieEdytuj

Naiwny klasyfikator bayesowski ma wiele własności, które okazują się zaskakująco przydatne w praktyce, pomimo faktu, że założenia niezależności często są naruszone. Jak wszystkie probabilistyczne klasyfikatory, wykorzystujące regułą decyzyjną MAP, klasyfikacja jest tak długo poprawna, jak długo poprawna klasa jest bardziej prawdopodobna od innych (prawdopodobieństwa poszczególnych klas nie muszą być oceniane zbyt dokładnie). Inaczej mówiąc, klasyfikator jest wystarczająco mocny, by zignorować poważne niedociągnięcia naiwnego probabilistycznego modelu.

Przykład – klasyfikacja dokumentuEdytuj

Przedstawiony zostawnie tu problem klasyfikacji dokumentów metodą naiwnego klasyfikatora Bayesa. Rozważać będziemy klasyfikację poczty email pod względem zawartości i oceniać czy poszczególne wiadomości są chcianą pocztą czy też spamem. Wyobraźmy sobie, że dokumenty są przypisane do pewnej liczby klas dokumentów, które mogą być modelowane jako komplety słów, gdzie (niezależne) prawdopodobieństwo, że i-te słowo danego dokumentu zdarza się w dokumencie klasy C zapisujemy, jako

 

Zakładamy, że prawdopodobieństwo wystąpienia słowa w dokumencie jest niezależne od długości dokumentu lub też, że wszystkie dokumenty mają tę samą długość.

Wtedy prawdopodobieństwo danego dokumentu   klasy  

 

Pytanie, na które chcemy odpowiedzieć to: „jakie jest prawdopodobieństwo, że dany dokument   należy do danej klasy  ?”.

Korzystając z definicji

 

i

 
 

Przyjmijmy założenie, że są tylko dwie klasy: S i ¬S (w naszym przykładzie: spam i nie-spam).

 

i

 

Korzystając z bayesianu, powyższy rezultat zapisać możemy jako

 
 

Dzieląc jeden przez drugi, otrzymujemy:

 

Możemy to przekształcić do postaci:

 

W ten sposób, prawdopodobieństwo stosunku   może być wyrażone jako stosunek prawdopodobieństw. Bieżące prawdopodobieństwo   można obliczyć jako   korzystając z własności, że  

Otrzymujemy więc:

 

W końcu możemy sklasyfikować dany dokument. Jest to spam, jeśli

 

W innym wypadku dokument spamem nie jest.

Linki zewnętrzneEdytuj