Wprowadzenie Do Analizy Dyskryminacyjnej

© M.
Kmieć 2013
Wprowadzenie do analizy dyskryminacyjnej
Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji

dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela rozważane klasy obiektów.
Funkcja dyskryminacyjna jest linową kombinacją cech (zmiennych objaśniających). Podczas budowy
modelu dyskryminacyjnego obowiązują następujące założenia:
1. Zmienne objaśniające mają rozkład normalny.

2. Macierze kowariancji zmiennych objaśniających są równe w grupach.
3. Wartości średnie między grupami różnią się.
W nauce analizy dyskryminacyjnej sztandarowym i często wykorzystywanym zbiorem danych jest

zbiór dotyczących trzech odmian irysów: setosa, virginica i versicolor. Zawiera on po 50 obserwacji
dla każdego z trzech odmian tego kwiatu dotyczących: długości płatka, szerokości płatka, długości
działki kielicha i szerokości działki kielicha.
Rys.1 Płatek i działka kielicha. Źródło: http://en.wikipedia.org/wiki/Sepal
Zbiór ten znajduje się w katalogu głównym programu Statistica w Examples/Datasets/Irisdat.sta.
1
© M. Kmieć 2013
Statystyki opisowe
Dzięki histogramowi częstości występowania danej cechy możemy graficznie przedstawić jej rozkład.
W tym celu klikając prawym przyciskiem myszy w dowolnym polu w kolumnie zawierającej wartości
rozważanej cechy wybieramy Wykresy bloku danych / Histogram: Całe kolumny.
Histogram Dł działki
Arkusz119 1v*150c
Dł działki = 150*0,5*normal(x; 5,8433; 0,8281)
35
30
25
Liczba obs.
20
15
10
0
3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5
Dł działki
Rys. 2 Histogram częstości występowania zmiennej długość działki w badanej próbie.
Histogramy częstości występowania danej zmiennej z rozróżnieniem na kategorie (wg zmiennej

grupującej) dostępne są w menu Wykresy/Skategoryzowane.
Przed przystąpieniem do właściwej analizy dyskryminacyjnej warto przedstawić graficznie,

skategoryzowane zależności zmiennych grupujących w postaci wykresu rozrzutu. Skategoryzowane
wykresy rozrzutu dostępne są również w menu Wykresy/Skategoryzowane. Rys. 3 przedstawia
wykres rozrzutu długości płatka względem długości działki kielicha. Punkty dla konkretnych klas (w
tym przypadku odmian irysa) zaznaczone są różnymi kolorami zgodnie z legendą.
Wykres rozrzutu Dł płatka względem Dł działki; kategorie względem Odmiana

Irisdat 5v*150c
8
5
Dł płatka
0 Odmiana: SETOSA
4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Odmiana: VERSICOL
Odmiana: VIRGINIC
Dł działki
Rys. 3 Wykres rozrzutu długości płatka względem długości działki kielicha.
2
© M. Kmieć 2013
Właściwa analiza dyskryminacyjna
Analizę dyskryminacyjną rozpoczynamy od wczytania danych i określenia zmiennych. Po otworzeniu

pliku uruchamiamy moduł analizy dyskryminacyjnej zlokalizowany w menu
Statystyka/Wielowymiarowe/Analiza dyskryminacyjna. W celu dokonania analizy krokowej konieczne
jest zaznaczenie odpowiedniej opcji.
Zmienną grupującą jest oczywiście Odmiana, pozostałe zmienne to zmienne niezależne. Ponadto
wybrać należy wszystkie dostępne kody zmiennej grupującej tj. 1-3.
Po określeniu zmiennych i zatwierdzeniu przyciskiem OK w oknie Definicja modelu w zakładce

Statystyki opisowe możemy dokonać przeglądu podstawowych statystyk opisowych dla
zdefiniowanego zbioru danych wejściowych.
Wyświetlmy tabelę podsumowującą średnie każdej z czterech rozpatrywanych cech dla każdej z
trzech odmian irysa.
3
© M. Kmieć 2013
Na tym etapie, nie wdając się w formalną analizę wariancji, widać wyraźne różnice dla każdej z
czterech cech (tj. długości i szerokości płatka oraz długości i szerokości działki kielicha) pomiędzy
trzema odmianami. Na rys. 4 przedstawiony został tzw. wykres „ramka-wąsy” zmiennej długość
działki dla trzech dla trzech odmian. Punkt środkowy oznacza średnią arytmetyczną próby (oczywiście
dla przypadków ograniczonych przez zmienną grupującą). Szerszy prostokąt oznacza przedział
zmienności (średnia arytmetyczna +/- odchylenie standardowe). Tzw. wąsy wyznaczają 95% przedział
ufności dla wartości przeciętnej w populacji.
Ramkowy Dł działki; kategorie względem Odmiana

Irisdat 5v*150c
8,5
8,0
7,5
7,0
6,5
Dł działki
6,0
5,5
5,0
4,5
Odmiana: SETOSA
4,0 Odmiana: VERSICOL
Dł działki Dł działki Dł działki Odmiana: VIRGINIC
Rys. 4 Wykres „ramka-wąsy” zmiennej długość działki dla trzech odmian.
W celu rozpoczęcia analizy dyskryminacyjnej w oknie Definicja modelu w zakładce Więcej wybieramy
metodę: Krokowa postępująca oraz sposób wyświetlania wyników: Dla każdego kroku.
4
© M. Kmieć 2013
Po zatwierdzeniu wyboru przyciskiem OK przejdziemy do okna analizy dyskryminacyjnej.
Przed przejściem do kroku nr 1 wyświetlmy parametry statystyczne zmiennych. Na tym etapie

dostępne są tylko zmienne spoza modelu. W kolejnych krokach będzie można uzyskać informacje na
temat zmiennych dołączonych do modelu.
Lambda Wilksa to statystyka służąca do oceny mocy dyskryminacyjnej całego modelu, tj. wszystkich
zmiennych występujących w modelu łącznie, którą model będzie posiadał po wprowadzeniu do niego
danej zmiennej. Przyjmuje ona wartości od 0 do 1; wartości bliskie zeru świadczą o dużej mocy
dyskryminacyjnej modelu. Cząstkowe lambdy Wilksa określają wkłady poszczególnych zmiennych do
ogólnej mocy dyskryminacyjnej modelu. Ponieważ w kroku zerowym w modelu nie ma żadnej
zmiennej, wartości z pierwszej kolumny równe są wartościom z kolumny prawej. Wartość statystyki F
5
© M. Kmieć 2013
odzwierciedla moc dyskryminacyjną danej zmiennej. Zmienne dodawane są do modelu zgodnie z

wartościami F począwszy od tej zmiennej, której moc dyskryminacyjna jest największa. Wyniki w
tabeli wyświetlane są na czerwono, jednak nie można tego interpretować tak jak w przypadku testów
statystycznych np. jednorodności wariancji. Weryfikowaną hipotezą jest to czy dana zmienna wnosi
istotny wkład do modelu.
W celu przejścia do kroku nr 1 przyciskamy Dalej. Następnie przechodzimy do zakładki Klasyfikacja.
Funkcje klasyfikacyjne mają postać:
gdzie oznacza numer -tą zmienną klasyfikacyjną, to liczba zmiennych klasyfikacyjnych, .
W kroku pierwszym rozpatrywana jest jedna zmienna klasyfikacyjna, ta o największej istotnej mocy
dyskryminacyjnej.
Powyższe okno dostępne jest po naciśnięciu przycisku Funkcje klasyfikacyjne. Przedstawia ono
współczynniki funkcji klasyfikacyjnych, których jawna postać to:
Dla grupy (odmiany irysa setosa):
Dla grupy (odmiany irysa versicolor):
Dla grupy (odmiany irysa virginica):
6
© M. Kmieć 2013
O przynależności próbki do danej klasy decyduje maksymalna wartość funkcji klasyfikacyjnej.

Zmiennej klasyfikacyjnej odpowiada długość płatka.
W kroku trzecim w modelu znajdują się trzy zmienne – długość płatka, szerokość działki i szerokość
płatka.
Lambda Wilksa dla całego modelu (nad tabelą) na poziomie 0,02498 świadczy o jego dużej mocy
dyskryminacyjnej. Wartości tolerancji dla poszczególnych zmiennych określają jaka część informacji
wnoszonej przez tą zmienną nie jest powielana przez pozostałe. W przypadku zmiennej o niskiej
tolerancji do modelu wprowadzany byłby szum, co niekorzystnie odbijałoby się na jego zdolnościach
dyskryminacyjnych.
W zakładce Klasyfikacja dostępna jest macierz klasyfikacji, a także można wyświetlić wyniki
klasyfikacji poszczególnych przypadków.
Poniżej przedstawiona jest macierz klasyfikacji dla poszczególnych odmian (irysa). W wierszach
znajdują się ich nazwy, a w kolumnach liczba przypadków zaklasyfikowanych do danej klasy. Pierwsza
kolumna podaje procentową poprawność klasyfikacji danego przypadku.
Poniżej przedstawione są wyniki klasyfikacji poszczególnych przypadków. Wiersze oznaczone

gwiazdką oznaczają niepoprawną klasyfikację.
7
© M. Kmieć 2013
Ćwiczenia
Ćwiczenie 1
Dla danych z pliku Irisdat.sta:
1. Sporządzić histogramy częstości występowania dla wszystkich zmiennych.

2. Sporządzić histogramy częstości występowania dla wszystkich zmiennych z rozróżnieniem
na kategorie.
3. Sporządzić skategoryzowane wykresy rozrzutu dla wszystkich (dwuelementowych) kombinacji
zmiennych.
4. Sporządzić wykresy „ramka-wąsy” dla wszystkich zmiennych.
5. Przeprowadzić analizę krokową postępującą. Kolejne kroki ilustrować parametrami
statystycznymi dodanych zmiennych, wyznaczonymi funkcjami klasyfikacyjnymi (w postaci tabeli
i jawnie) oraz macierzą klasyfikacji. Dodatkowo należy podawać numery błędnie
sklasyfikowanych obserwacji.
Ćwiczenie 2
Dla danych z plików dane5.sta (źródło danych: http://www.ipipan.waw.pl/staff/j.mielniczuk/SSUS-

Programy-Dane.zip, plik należy pobrać z folderu w którym znajduje się niniejsza instrukcja)
przeprowadzić analizę dyskryminacyjną krokową postępującą. Każdy krok zilustrować parametrami
zmiennych w modelu i poza modelem oraz macierzą klasyfikacji. Czy któreś zmienne nie znalazły się
w modelu? Jeśli tak, to dlaczego? Sporządzić wykres (dla każdej zmiennej i łącznie) poprawności
klasyfikacji w zależności od kolejnego kroku.

Wprowadzenie Do Analizy Dyskryminacyjnej

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Wprowadzenie Do Analizy Dyskryminacyjnej

Uploaded by

Copyright:

Available Formats

© M.

Wprowadzenie do analizy dyskryminacyjnej

Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji

1. Zmienne objaśniające mają rozkład normalny.

W nauce analizy dyskryminacyjnej sztandarowym i często wykorzystywanym zbiorem danych jest

Rys.1 Płatek i działka kielicha. Źródło: http://en.wikipedia.org/wiki/Sepal

Zbiór ten znajduje się w katalogu głównym programu Statistica w Examples/Datasets/Irisdat.sta.

Rys. 2 Histogram częstości występowania zmiennej długość działki w badanej próbie.

Histogramy częstości występowania danej zmiennej z rozróżnieniem na kategorie (wg zmiennej

Przed przystąpieniem do właściwej analizy dyskryminacyjnej warto przedstawić graficznie,

Wykres rozrzutu Dł płatka względem Dł działki; kategorie względem Odmiana

Rys. 3 Wykres rozrzutu długości płatka względem długości działki kielicha.

Właściwa analiza dyskryminacyjna

Analizę dyskryminacyjną rozpoczynamy od wczytania danych i określenia zmiennych. Po otworzeniu

Po określeniu zmiennych i zatwierdzeniu przyciskiem OK w oknie Definicja modelu w zakładce

Ramkowy Dł działki; kategorie względem Odmiana

Rys. 4 Wykres „ramka-wąsy” zmiennej długość działki dla trzech odmian.

Po zatwierdzeniu wyboru przyciskiem OK przejdziemy do okna analizy dyskryminacyjnej.

Przed przejściem do kroku nr 1 wyświetlmy parametry statystyczne zmiennych. Na tym etapie

odzwierciedla moc dyskryminacyjną danej zmiennej. Zmienne dodawane są do modelu zgodnie z

W celu przejścia do kroku nr 1 przyciskamy Dalej. Następnie przechodzimy do zakładki Klasyfikacja.

Funkcje klasyfikacyjne mają postać:

gdzie oznacza numer -tą zmienną klasyfikacyjną, to liczba zmiennych klasyfikacyjnych, .

Dla grupy (odmiany irysa setosa):

Dla grupy (odmiany irysa versicolor):

Dla grupy (odmiany irysa virginica):

O przynależności próbki do danej klasy decyduje maksymalna wartość funkcji klasyfikacyjnej.

Poniżej przedstawione są wyniki klasyfikacji poszczególnych przypadków. Wiersze oznaczone

Dla danych z pliku Irisdat.sta:

1. Sporządzić histogramy częstości występowania dla wszystkich zmiennych.

Dla danych z plików dane5.sta (źródło danych: http://www.ipipan.waw.pl/staff/j.mielniczuk/SSUS-

You might also like