Professional Documents
Culture Documents
Kmieć 2013
1
© M. Kmieć 2013
Statystyki opisowe
Dzięki histogramowi częstości występowania danej cechy możemy graficznie przedstawić jej rozkład.
W tym celu klikając prawym przyciskiem myszy w dowolnym polu w kolumnie zawierającej wartości
rozważanej cechy wybieramy Wykresy bloku danych / Histogram: Całe kolumny.
Histogram Dł działki
Arkusz119 1v*150c
Dł działki = 150*0,5*normal(x; 5,8433; 0,8281)
35
30
25
Liczba obs.
20
15
10
0
3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5
Dł działki
5
Dł płatka
0 Odmiana: SETOSA
4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Odmiana: VERSICOL
Odmiana: VIRGINIC
Dł działki
2
© M. Kmieć 2013
Zmienną grupującą jest oczywiście Odmiana, pozostałe zmienne to zmienne niezależne. Ponadto
wybrać należy wszystkie dostępne kody zmiennej grupującej tj. 1-3.
Wyświetlmy tabelę podsumowującą średnie każdej z czterech rozpatrywanych cech dla każdej z
trzech odmian irysa.
3
© M. Kmieć 2013
Na tym etapie, nie wdając się w formalną analizę wariancji, widać wyraźne różnice dla każdej z
czterech cech (tj. długości i szerokości płatka oraz długości i szerokości działki kielicha) pomiędzy
trzema odmianami. Na rys. 4 przedstawiony został tzw. wykres „ramka-wąsy” zmiennej długość
działki dla trzech dla trzech odmian. Punkt środkowy oznacza średnią arytmetyczną próby (oczywiście
dla przypadków ograniczonych przez zmienną grupującą). Szerszy prostokąt oznacza przedział
zmienności (średnia arytmetyczna +/- odchylenie standardowe). Tzw. wąsy wyznaczają 95% przedział
ufności dla wartości przeciętnej w populacji.
8,0
7,5
7,0
6,5
Dł działki
6,0
5,5
5,0
4,5
Odmiana: SETOSA
4,0 Odmiana: VERSICOL
Dł działki Dł działki Dł działki Odmiana: VIRGINIC
W celu rozpoczęcia analizy dyskryminacyjnej w oknie Definicja modelu w zakładce Więcej wybieramy
metodę: Krokowa postępująca oraz sposób wyświetlania wyników: Dla każdego kroku.
4
© M. Kmieć 2013
Lambda Wilksa to statystyka służąca do oceny mocy dyskryminacyjnej całego modelu, tj. wszystkich
zmiennych występujących w modelu łącznie, którą model będzie posiadał po wprowadzeniu do niego
danej zmiennej. Przyjmuje ona wartości od 0 do 1; wartości bliskie zeru świadczą o dużej mocy
dyskryminacyjnej modelu. Cząstkowe lambdy Wilksa określają wkłady poszczególnych zmiennych do
ogólnej mocy dyskryminacyjnej modelu. Ponieważ w kroku zerowym w modelu nie ma żadnej
zmiennej, wartości z pierwszej kolumny równe są wartościom z kolumny prawej. Wartość statystyki F
5
© M. Kmieć 2013
W kroku pierwszym rozpatrywana jest jedna zmienna klasyfikacyjna, ta o największej istotnej mocy
dyskryminacyjnej.
Powyższe okno dostępne jest po naciśnięciu przycisku Funkcje klasyfikacyjne. Przedstawia ono
współczynniki funkcji klasyfikacyjnych, których jawna postać to:
6
© M. Kmieć 2013
W kroku trzecim w modelu znajdują się trzy zmienne – długość płatka, szerokość działki i szerokość
płatka.
Lambda Wilksa dla całego modelu (nad tabelą) na poziomie 0,02498 świadczy o jego dużej mocy
dyskryminacyjnej. Wartości tolerancji dla poszczególnych zmiennych określają jaka część informacji
wnoszonej przez tą zmienną nie jest powielana przez pozostałe. W przypadku zmiennej o niskiej
tolerancji do modelu wprowadzany byłby szum, co niekorzystnie odbijałoby się na jego zdolnościach
dyskryminacyjnych.
W zakładce Klasyfikacja dostępna jest macierz klasyfikacji, a także można wyświetlić wyniki
klasyfikacji poszczególnych przypadków.
Poniżej przedstawiona jest macierz klasyfikacji dla poszczególnych odmian (irysa). W wierszach
znajdują się ich nazwy, a w kolumnach liczba przypadków zaklasyfikowanych do danej klasy. Pierwsza
kolumna podaje procentową poprawność klasyfikacji danego przypadku.
7
© M. Kmieć 2013
Ćwiczenia
Ćwiczenie 1
Ćwiczenie 2