You are on page 1of 8

© M.

Kmieć 2013

Wprowadzenie do analizy dyskryminacyjnej

Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji


dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela rozważane klasy obiektów.
Funkcja dyskryminacyjna jest linową kombinacją cech (zmiennych objaśniających). Podczas budowy
modelu dyskryminacyjnego obowiązują następujące założenia:

1. Zmienne objaśniające mają rozkład normalny.


2. Macierze kowariancji zmiennych objaśniających są równe w grupach.
3. Wartości średnie między grupami różnią się.

W nauce analizy dyskryminacyjnej sztandarowym i często wykorzystywanym zbiorem danych jest


zbiór dotyczących trzech odmian irysów: setosa, virginica i versicolor. Zawiera on po 50 obserwacji
dla każdego z trzech odmian tego kwiatu dotyczących: długości płatka, szerokości płatka, długości
działki kielicha i szerokości działki kielicha.

Rys.1 Płatek i działka kielicha. Źródło: http://en.wikipedia.org/wiki/Sepal

Zbiór ten znajduje się w katalogu głównym programu Statistica w Examples/Datasets/Irisdat.sta.

1
© M. Kmieć 2013

Statystyki opisowe

Dzięki histogramowi częstości występowania danej cechy możemy graficznie przedstawić jej rozkład.
W tym celu klikając prawym przyciskiem myszy w dowolnym polu w kolumnie zawierającej wartości
rozważanej cechy wybieramy Wykresy bloku danych / Histogram: Całe kolumny.

Histogram Dł działki
Arkusz119 1v*150c
Dł działki = 150*0,5*normal(x; 5,8433; 0,8281)
35

30

25
Liczba obs.

20

15

10

0
3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5

Dł działki

Rys. 2 Histogram częstości występowania zmiennej długość działki w badanej próbie.

Histogramy częstości występowania danej zmiennej z rozróżnieniem na kategorie (wg zmiennej


grupującej) dostępne są w menu Wykresy/Skategoryzowane.

Przed przystąpieniem do właściwej analizy dyskryminacyjnej warto przedstawić graficznie,


skategoryzowane zależności zmiennych grupujących w postaci wykresu rozrzutu. Skategoryzowane
wykresy rozrzutu dostępne są również w menu Wykresy/Skategoryzowane. Rys. 3 przedstawia
wykres rozrzutu długości płatka względem długości działki kielicha. Punkty dla konkretnych klas (w
tym przypadku odmian irysa) zaznaczone są różnymi kolorami zgodnie z legendą.

Wykres rozrzutu Dł płatka względem Dł działki; kategorie względem Odmiana


Irisdat 5v*150c
8

5
Dł płatka

0 Odmiana: SETOSA
4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Odmiana: VERSICOL
Odmiana: VIRGINIC
Dł działki

Rys. 3 Wykres rozrzutu długości płatka względem długości działki kielicha.

2
© M. Kmieć 2013

Właściwa analiza dyskryminacyjna

Analizę dyskryminacyjną rozpoczynamy od wczytania danych i określenia zmiennych. Po otworzeniu


pliku uruchamiamy moduł analizy dyskryminacyjnej zlokalizowany w menu
Statystyka/Wielowymiarowe/Analiza dyskryminacyjna. W celu dokonania analizy krokowej konieczne
jest zaznaczenie odpowiedniej opcji.

Zmienną grupującą jest oczywiście Odmiana, pozostałe zmienne to zmienne niezależne. Ponadto
wybrać należy wszystkie dostępne kody zmiennej grupującej tj. 1-3.

Po określeniu zmiennych i zatwierdzeniu przyciskiem OK w oknie Definicja modelu w zakładce


Statystyki opisowe możemy dokonać przeglądu podstawowych statystyk opisowych dla
zdefiniowanego zbioru danych wejściowych.

Wyświetlmy tabelę podsumowującą średnie każdej z czterech rozpatrywanych cech dla każdej z
trzech odmian irysa.

3
© M. Kmieć 2013

Na tym etapie, nie wdając się w formalną analizę wariancji, widać wyraźne różnice dla każdej z
czterech cech (tj. długości i szerokości płatka oraz długości i szerokości działki kielicha) pomiędzy
trzema odmianami. Na rys. 4 przedstawiony został tzw. wykres „ramka-wąsy” zmiennej długość
działki dla trzech dla trzech odmian. Punkt środkowy oznacza średnią arytmetyczną próby (oczywiście
dla przypadków ograniczonych przez zmienną grupującą). Szerszy prostokąt oznacza przedział
zmienności (średnia arytmetyczna +/- odchylenie standardowe). Tzw. wąsy wyznaczają 95% przedział
ufności dla wartości przeciętnej w populacji.

Ramkowy Dł działki; kategorie względem Odmiana


Irisdat 5v*150c
8,5

8,0

7,5

7,0

6,5
Dł działki

6,0

5,5

5,0

4,5

Odmiana: SETOSA
4,0 Odmiana: VERSICOL
Dł działki Dł działki Dł działki Odmiana: VIRGINIC

Rys. 4 Wykres „ramka-wąsy” zmiennej długość działki dla trzech odmian.

W celu rozpoczęcia analizy dyskryminacyjnej w oknie Definicja modelu w zakładce Więcej wybieramy
metodę: Krokowa postępująca oraz sposób wyświetlania wyników: Dla każdego kroku.

4
© M. Kmieć 2013

Po zatwierdzeniu wyboru przyciskiem OK przejdziemy do okna analizy dyskryminacyjnej.

Przed przejściem do kroku nr 1 wyświetlmy parametry statystyczne zmiennych. Na tym etapie


dostępne są tylko zmienne spoza modelu. W kolejnych krokach będzie można uzyskać informacje na
temat zmiennych dołączonych do modelu.

Lambda Wilksa to statystyka służąca do oceny mocy dyskryminacyjnej całego modelu, tj. wszystkich
zmiennych występujących w modelu łącznie, którą model będzie posiadał po wprowadzeniu do niego
danej zmiennej. Przyjmuje ona wartości od 0 do 1; wartości bliskie zeru świadczą o dużej mocy
dyskryminacyjnej modelu. Cząstkowe lambdy Wilksa określają wkłady poszczególnych zmiennych do
ogólnej mocy dyskryminacyjnej modelu. Ponieważ w kroku zerowym w modelu nie ma żadnej
zmiennej, wartości z pierwszej kolumny równe są wartościom z kolumny prawej. Wartość statystyki F

5
© M. Kmieć 2013

odzwierciedla moc dyskryminacyjną danej zmiennej. Zmienne dodawane są do modelu zgodnie z


wartościami F począwszy od tej zmiennej, której moc dyskryminacyjna jest największa. Wyniki w
tabeli wyświetlane są na czerwono, jednak nie można tego interpretować tak jak w przypadku testów
statystycznych np. jednorodności wariancji. Weryfikowaną hipotezą jest to czy dana zmienna wnosi
istotny wkład do modelu.

W celu przejścia do kroku nr 1 przyciskamy Dalej. Następnie przechodzimy do zakładki Klasyfikacja.

Funkcje klasyfikacyjne mają postać:

gdzie oznacza numer -tą zmienną klasyfikacyjną, to liczba zmiennych klasyfikacyjnych, .

W kroku pierwszym rozpatrywana jest jedna zmienna klasyfikacyjna, ta o największej istotnej mocy
dyskryminacyjnej.

Powyższe okno dostępne jest po naciśnięciu przycisku Funkcje klasyfikacyjne. Przedstawia ono
współczynniki funkcji klasyfikacyjnych, których jawna postać to:

Dla grupy (odmiany irysa setosa):

Dla grupy (odmiany irysa versicolor):

Dla grupy (odmiany irysa virginica):

6
© M. Kmieć 2013

O przynależności próbki do danej klasy decyduje maksymalna wartość funkcji klasyfikacyjnej.


Zmiennej klasyfikacyjnej odpowiada długość płatka.

W kroku trzecim w modelu znajdują się trzy zmienne – długość płatka, szerokość działki i szerokość
płatka.

Lambda Wilksa dla całego modelu (nad tabelą) na poziomie 0,02498 świadczy o jego dużej mocy
dyskryminacyjnej. Wartości tolerancji dla poszczególnych zmiennych określają jaka część informacji
wnoszonej przez tą zmienną nie jest powielana przez pozostałe. W przypadku zmiennej o niskiej
tolerancji do modelu wprowadzany byłby szum, co niekorzystnie odbijałoby się na jego zdolnościach
dyskryminacyjnych.

W zakładce Klasyfikacja dostępna jest macierz klasyfikacji, a także można wyświetlić wyniki
klasyfikacji poszczególnych przypadków.

Poniżej przedstawiona jest macierz klasyfikacji dla poszczególnych odmian (irysa). W wierszach
znajdują się ich nazwy, a w kolumnach liczba przypadków zaklasyfikowanych do danej klasy. Pierwsza
kolumna podaje procentową poprawność klasyfikacji danego przypadku.

Poniżej przedstawione są wyniki klasyfikacji poszczególnych przypadków. Wiersze oznaczone


gwiazdką oznaczają niepoprawną klasyfikację.

7
© M. Kmieć 2013

Ćwiczenia

Ćwiczenie 1

Dla danych z pliku Irisdat.sta:

1. Sporządzić histogramy częstości występowania dla wszystkich zmiennych.


2. Sporządzić histogramy częstości występowania dla wszystkich zmiennych z rozróżnieniem
na kategorie.
3. Sporządzić skategoryzowane wykresy rozrzutu dla wszystkich (dwuelementowych) kombinacji
zmiennych.
4. Sporządzić wykresy „ramka-wąsy” dla wszystkich zmiennych.
5. Przeprowadzić analizę krokową postępującą. Kolejne kroki ilustrować parametrami
statystycznymi dodanych zmiennych, wyznaczonymi funkcjami klasyfikacyjnymi (w postaci tabeli
i jawnie) oraz macierzą klasyfikacji. Dodatkowo należy podawać numery błędnie
sklasyfikowanych obserwacji.

Ćwiczenie 2

Dla danych z plików dane5.sta (źródło danych: http://www.ipipan.waw.pl/staff/j.mielniczuk/SSUS-


Programy-Dane.zip, plik należy pobrać z folderu w którym znajduje się niniejsza instrukcja)
przeprowadzić analizę dyskryminacyjną krokową postępującą. Każdy krok zilustrować parametrami
zmiennych w modelu i poza modelem oraz macierzą klasyfikacji. Czy któreś zmienne nie znalazły się
w modelu? Jeśli tak, to dlaczego? Sporządzić wykres (dla każdej zmiennej i łącznie) poprawności
klasyfikacji w zależności od kolejnego kroku.

You might also like