You are on page 1of 291

Wykład 13.

Analiza głównych składowych


Cel stosowania analizy głównych składowych

• redukcja pierwotnego zbioru zmiennych opisujących zjawisko


• odkrycie ewentualnych prawidłowości między cechami
Cel stosowania analizy głównych składowych

Źródło: https://www.datacamp.com/tutorial/pca-analysis-r
Etapy analizy głównych składowych

Normalizacja zmiennych
Test Barletta/KMO

Obliczenie macierzy wariancji-


kowariancji / korelacji

Wyznaczenie wektorów
własnych i wartości własnych

Wybór głównych składowych

Przekształcenie danych w nową


przestrzeń
Test Barletta i współczynnik Kaisera-Mayera-Olkina
Test Barletta

2∙𝑝+5
𝐵𝑇 = −𝑙𝑛 𝑑𝑒𝑡𝑅 ∗ (𝑁 − 1 − )
6
𝑅 − macierz korelacji
𝑁 – liczba obserwacji
𝑝 – liczba zmiennych
Hipoteza zerowa: macierz korelacji jest macierzą jednostkową
Hipoteza alternatywna: macierz korelacji nie jest macierzą jednostkową
Statystyka testowa ma rozkład ch-kwadrat o 𝑝(𝑝 − 1)/2 stopnia swobody

Współczynnik Kaisera-Mayera-Olkina
KMO reprezentuje stopień, w jakim każda obserwowana zmienna jest przewidywana przez inne
zmienne w zbiorze danych, co wskazuje na przydatność analizy czynnikowej. Współczynnik KMO
przyjmuje wartości z przedziału [0, 1]. Im wyższa jest wartość tego współczynnika, tym silniejsze są
podstawy do zastosowania analizy składowych głównych. Powszechnie przyjmuje się, że wartość tego
współczynnika powinna przekroczyć wartość 0,5.
Przykładowe zastosowanie PCA

Image processing
An image is made of multiple features. PCA is mainly applied in image compression to retain the essential details of a
given image while reducing the number of dimensions. In addition, PCA can be used for more complicated tasks such
as image recognition.

Healthcare
In the same logic of image compression. PCA is used in magnetic resonance imaging (MRI) scans to reduce the
dimensionality of the images for better visualization and medical analysis. It can also be integrated into medical
technologies used, for instance, to recognize a given disease from image scans.

Security
Biometric systems used for fingerprint recognition can integrate technologies leveraging principal component analysis
to extract the most relevant features, such as the texture of the fingerprint and additional information.

Źródło: https://www.datacamp.com/tutorial/pca-analysis-r
Idea analizy głównych składowych

• Przekształcenie układu badanych (obserwowalnych) zmiennych (cech) X w zbiór nowych


(nieobserwowanych i nieskorelowanych) zmiennych Y, które są liniowymi kombinacjami
zmiennych X
• Liczba głównych składowych Y jest równa liczbie badanych cech X
• Suma wariancji wszystkich zmiennych X jest równa sumie wariancji głównych składowych
• Nowe zmienne (główne składowe) są wyznaczane w taki sposób by charakteryzowały się coraz
mniejszą wariancją – miarą zasobów informacyjnych o badanym zjawisku.
• Interesujące są te składowe główne, które wyjaśniają największą część wariancji – stąd analiza
skupia się tylko na tych składowych głównych. Zatem należy dążyć do tego, aby mała liczba
składowych głównych odpowiadała możliwie jak największej części zmienności.
• Wymagania dotyczące: rozkładu normalnego liczebności próby, obserwacji odstających, braków w
danych
Model analizy głównych składowych

Wariancja zmiennej będącej kombinacją liniową innych zmiennych:


Załóżmy, że mamy
• wektor zmiennych 𝑋 o wymiarze 𝑛𝑥1 (kolumnowy wektor)
• wektor wag 𝑎 o wymiarze 𝑛𝑥1.
• zmienna 𝑌 będąca kombinacją liniową zmiennych 𝑋 może być zapisana jako 𝑌 = 𝑎𝑇 𝑋.

Wariancję zmiennej 𝑌 można wówczas zapisać w notacji macierzowej jako:


𝑆 2 𝑌 = 𝑎𝑇 ∙ 𝑆 ∙ 𝑎
gdzie:
𝑆 to macierz kowariancji zmiennych 𝑋.
Model analizy głównych składowych

Model analizy można zapisać w następujący sposób:


𝑌1 = 𝑤11 𝑋1 + 𝑤21 𝑋2 + ⋯ + 𝑤𝑝1 𝑋𝑝 = 𝒘′𝟏 𝒙
𝑌2 = 𝑤12 𝑋1 + 𝑤22 𝑋2 + ⋯ + 𝑤𝑝2 𝑋𝑝 = 𝒘′𝟐 𝒙
……
gdzie 𝒘′𝟏 = [𝑤11 , 𝑤21 , … . , 𝑤𝑝1 ] jest wierszowym wektorem ładunków składnikowych
pierwszej głównej składowej, której wariancja wynosi:
𝑝 𝑝

𝑆 2 𝑌1 = ෍ ෍ 𝑤𝑗1 𝑤𝑘1 𝑠𝑗𝑘 = 𝒘′𝟏 𝑺𝒘𝟏


𝑘=1 𝑗=1

gdzie 𝑺 jest macierzą kowariancji. Dodatkowo spełniony jest warunek 𝒘′𝟏 𝒘𝟏 = 𝟏


Te same oznaczenia dotyczą kolejnych głównych składowych.
Szacowanie ładunków czynnikowych pierwszej głównej
składowej na podstawie macierz kowariancji

• Wybór takich ładunków 𝑤11 , 𝑤21 , … . , 𝑤𝑝1 które pozwolą maksymalizować wariancję
pierwszej głównej składowej:

𝑝 𝑝

𝑆 2 𝑌1 = ෍ ෍ 𝑤𝑗1 𝑤𝑘1 𝑠𝑗𝑘 = 𝒘′𝟏 𝑺𝒘𝟏


𝑘=1 𝑗=1

przy warunku:
𝑝
𝒘′𝟏 𝒘𝟏 = σ𝑗=1 𝑤𝑗1
2
=𝟏

• Wykorzystanie metody Langrange’a


Szacowanie ładunków czynnikowych pierwszej głównej
składowej na podstawie macierz kowariancji

• Funkcja pomocnicza: 𝜙 = 1 − 𝒘′𝟏 𝒘𝟏 = 0


• Funkcja Langrange’a:
𝐿 𝒘𝟏 = 𝑆 2 𝑌1 + 𝜆1 1 − 𝒘′𝟏 𝒘𝟏 = 𝒘′𝟏 𝑺𝒘𝟏 + 𝜆1 1 − 𝒘′𝟏 𝒘𝟏

𝜕L
= 2𝑺𝒘𝟏 − 2𝜆1 𝒘𝟏 = 2 𝑺 − 𝜆1 𝑰 𝒘𝟏 = 0
𝜕𝒘𝟏
𝑺 − 𝜆1 𝑰 𝒘𝟏 = 0
𝑺𝒘𝟏 = 𝜆1 𝒘𝟏 | ∙ 𝒘′𝟏
𝒘′𝟏 𝑺𝒘𝟏 = 𝜆1 𝒘′𝟏 𝒘𝟏 → 𝑆 2 (𝑌1 ) = 𝜆1
Analogiczne obliczenia dla pozostałych głównych składowych
Interpretacje

• wariancję głównej składowej 𝑌𝑙 daną wyrażeniem 𝑆 2 𝑌𝑙 = 𝒘′𝒍 𝑺𝒘𝒍 możemy zapisać


jako:
𝑆 2 𝑌𝑙 = 𝒘′𝒍 𝑺𝒘𝒍 = 𝜆𝑙 𝒘′𝒍 𝒘𝒍 = 𝜆𝑙

• całkowita wariancja układu składowych 𝑌1 , 𝑌2 , … , 𝑌𝑝 jest równa:

𝑝 𝑝

෍ 𝑆 2 𝑌𝑙 = 𝑡𝑟𝑺 = ෍ 𝜆𝑙
𝑙=1 𝑙=1

gdzie 𝑡𝑟𝑺 jest śladem macierzy kowariancji (suma elementów diagonalnych macierzy
kwadratowej), a zatem jest równa całkowitej wariancji zmiennych wyjściowych 𝑋𝑗
(𝑗 = 1,2, … 𝑝).
Interpretacje

• ważność 𝑙 −tej głównej składowej mierzymy ilorazem:

𝜆𝑙
𝐼 𝑌𝑙 = ∙ 100% (𝑙 = 1,2, … , 𝑝)
𝑡𝑟𝑺
który informuje jaką część całkowitej wariancji jest wyjaśniana przez 𝑙 −tą główną
składową.

• można wykazać, że współczynnik korelacji 𝑗 − tej zmiennej z 𝑙 − tą składową jest


równy:

𝜆𝑙 𝑤𝑗𝑙 𝑤𝑗𝑙 𝜆𝑙
𝑟𝑗𝑙 = =
𝑠𝑗 𝜆𝑙 𝑠𝑗
Ustalenie liczby głównych składowych

• kryterium wystarczającej proporcji - bazuje na wartościach własnych macierzy S, które


informują o wariancji wyjaśnionej przez kolejne główne składowe. Na tej podstawie
można stwierdzić jaki % całkowitej zmienności jest przez nie wyjaśniony. Kryterium –
zazwyczaj bierze pod uwagę taką liczbę głównych składowych, którą łącznie wyjaśnia
przynajmniej 70-90% całkowitej zmienności.
• kryterium wyraźnej zmiany poziomu zmienności wyjaśnianej przez daną główną
składową. Kryterium to jest podstawą tzw. wykresu osypiska Cattella. Wybór ilości
głównych składowych sprowadza się do znalezienia takiego punktu, przy którym wykres
zaczyna się "spłaszczać".
Ustalenie liczby głównych składowych

• Kryterium Kaisera - metoda "wartości własnej (lambda) większej od jedności" - jest


najczęściej stosowana. Jej podstawą jest to, że każda główna składowa powinna
wyjaśniać przynajmniej tyle, ile jedna zmienna pierwotna. Metoda ta powinna być
stosowana gdy ilość zmiennych jest większa od 20. Gdy liczba zmiennych jest mniejsza
istnieje tendencja wyodrębniania zbyt małej ilości czynników
Przykład 1 - żółwie

Wykorzystaj dane dotyczące rozmiarów żółwi (plik xlsx), wykorzystywanych przy okazji
zajęć dotyczących analizy skupień. Stosując analizę głównych składowych spróbuj
zredukować liczbę zmiennych. Spróbuj nadać nazwę dla otrzymanych głównych
składowych.
Wykład 12. Metodyka analizy zdarzeń.
Założenia i przykładowe badania.
Rodzaje efektywności rynku finansowego

• efektywność alokacyjną - rynek jest efektywny w przypadku, gdy gwarantuje swobodny przepływ kapitału
między przedsiębiorstwami. W ten sposób podmioty zgłaszającego jego niedobór pozyskują środki, a w skali
gospodarki jako całości realizowane są najlepsze projekty inwestycyjne.

• efektywność techniczną - odnosi się do kosztów transakcji zawieranych na rynku. Konkurencja panująca między
pośrednikami na rynku efektywnym gwarantuje obniżkę kosztów zawierania transakcji między stronami oraz
możliwość ich zawierania bez zbędnej zwłoki,

• efektywność informacyjną - rynek efektywny to taki, na którym ceny instrumentów finansowych zawsze w pełni
odzwierciedlają wszelkie dostępne informacje.
Hipotezy o trzech formach efektywności rynku

• Hipoteza o słabej formie efektywności rynku zakłada iż ceny walorów w pełni odzwierciedlają wszystkie
historyczne informacje dotyczące notowań, obrotów oraz sekwencji wzrostów i spadków.

• Hipoteza o średniej (półsilnej) efektywności przyjmuje, że ceny rynkowe instrumentów finansowych


uwzględniają szerszy zakres informacji niż w przypadku słabej formy efektywności. Poza historycznymi danymi
wartość rynkowa walorów uwzględnia również wszystkie inne, publicznie dostępne informacje.

• Hipoteza o silnej efektywności rynku – rynkowe ceny walorów uwzględniają wszystkie, związane z nimi
informacje. Są to informacje zarówno o charakterze publicznie dostępnym, jak i poufne.
Idea i etapy metodyki analizy zdarzeń

Analiza zdarzeń polega na analizie zwyżkowych stóp zwrotu w okresie, w którym miało miejsce udostępnienie do
publicznej wiadomości informacji, istotnych z punktu widzenia emitenta instrumentów finansowych. .

1) Identyfikacja zdarzenia oraz zdefiniowanie jego okna,


2) Wskazanie kryteriów doboru spółek do próby badawczej,
3) Zdefiniowanie miar oczekiwanej (normalnej) i zwyżkowej (nadzwyczajnej) stopy zwrotu,
4) Określenie długości okna z którego pochodzą dane, określenie położenia okna estymacyjnego i okna zdarzenia,
szacowanie modelu oczekiwanej stopy zwrotu,
5) Zweryfikowanie postawionej hipotezy,
6) Przedstawienie wyników empirycznych,
7) Interpretacja rezultatów i sformułowanie wniosków.
Zdefiniowanie miar oczekiwanej i zwyżkowej stopy zwrotu,

I. Model wyceny aktywów i pasywów (ang. capital assets pricing model – CAPM)

𝑅෠𝑖,𝑡 = 𝛼𝑖 + 𝑅𝑓,𝑡 + 𝛽𝑖 𝑅𝑚,𝑡 − 𝑅𝑓,𝑡


gdzie:
𝑅෠𝑖,𝑡 − oczekiwana stopa zwrotu i-tej akcji w dniu t,
𝑅𝑓,𝑡 − stopa zwrotu wolna od ryzyka,
𝑅𝑚,𝑡 − stopa zwrotu z portfela rynkowego w dniu t.

II. Model rynkowy (ang. market model – MM)


𝑅෠𝑖,𝑡 = 𝛼𝑖 + 𝛽𝑖 𝑅𝑚,𝑡 (2.3.2)
Oznaczenia jak poprzednio.
Zdefiniowanie miar oczekiwanej i zwyżkowej stopy zwrotu,

III. Model średniej (ang. mean adjusted returns model – MAR)


𝑅෠𝑖,𝑡 = 𝑅ത𝑖
gdzie:
𝑅ത𝑖 − średnia stopa zwrotu i-tej akcji obliczana na podstawie obserwacji pochodzących z okna estymacyjnego.

IV. Model indeksowy (ang. Market adjusted lub index adjusted model – IM)
𝑅෠𝑖,𝑡 = 𝑅𝑚,𝑡
Zdefiniowanie miar oczekiwanej i zwyżkowej stopy zwrotu,

Przez zwyżkową stopę zwrotu (inaczej anormalne stopy zwrotu) należy rozumieć różnicę między rzeczywistą stopą
zwrotu z waloru a oczekiwaną stopą zwrotu oszacowaną na podstawie jednego z wcześniej przedstawionych modeli:
𝐴𝑅𝑖,𝑡 = 𝑅𝑖,𝑡 − 𝑅෠𝑖,𝑡
gdzie:
𝐴𝑅𝑖,𝑡 − anormalna stopa zwrotu z waloru i-tego w okresie t,
𝑅𝑖,𝑡 − rzeczywista, historyczna stopa zwrotu z waloru i-tego w okresie t.
Określenie długości okna z którego pochodzą dane, określenie
położenia okna estymacyjnego i zdarzenia, szacowanie modelu
oczekiwanej stopy zwrotu
Weryfikacja istotności wpływu zdarzenia

Hipoteza zerowa: zdarzenie nie ma wpływu na stopy zwrotu


Hipoteza alternatywna: zdarzenie ma wpływ na stopy zwrotu
Zweryfikowanie postawionej hipotezy - badania wpływu
określonego zdarzenia dla próby spółek

Test dla średnich zwyżkowych (anormalnych) stóp zwrotu

σ𝑁
𝑖=1 𝐴𝑅𝑖,𝑡
𝐴𝑅𝑡 =
𝑁
Odpowiednia statystyka wyrażona jest zależnością (Gurgul H., Analiza zdarzeń na rynkach akcji. Wpływ informacji
na ceny papierów wartościowych, Wydawnictwo Oficyna Ekonomiczna, Kraków 2006, s.51):

𝐴𝑅𝑡
𝑡𝑠𝑡𝑎𝑡 = 𝑁
𝜎ො𝐴𝑅𝑡

gdzie:

𝑁
1
𝜎ො𝐴𝑅𝑡 = ෍(𝐴𝑅𝑖,𝑡 −𝐴𝑅𝑡 )2
𝑁−1
𝑖=1

Przedstawiona statystyka ma rozkład t-Studenta o 𝑁 − 1 stopniach swobody (𝑁 -liczba zdarzeń). Hipotezę zerową należy odrzucić wtedy
gdy |𝑡𝑠𝑡𝑎𝑡 | > 𝑡𝑘𝑟𝑦𝑡 (𝛼, 𝑁 − 1).
Zweryfikowanie postawionej hipotezy - badania wpływu
określonego zdarzenia dla próby spółek

Test dla średnich zwyżkowych (anormalnych) stóp zwrotu

σ𝑁
𝑖=1 𝐴𝑅𝑖,𝑡
𝐴𝑅𝑡 =
𝑁
Odpowiednia statystyka wyrażona jest zależnością (Brown S.J., Warner J.B. Using Daily Stock Returns, The Case of
Event Studies. Journal of Financial Economics, 14:3-31, 1985) :

𝐴𝑅𝑡
𝑡𝑠𝑡𝑎𝑡 =
𝜎ො𝐴𝑅𝑡

gdzie:

𝑡0 +𝑇−1 𝑡0 +𝑇−1
1 1
𝜎ො𝐴𝑅𝑡 = ෍ (𝐴𝑅𝑖,𝑡 −𝐴𝑅)2 𝐴𝑅 = ෍ 𝐴𝑅𝑡
𝑇−1 𝑇
𝑡=𝑡0 𝑡=𝑡0

Przedstawiona statystyka ma rozkład t-Studenta o T − 1 stopniach swobody (𝑇 −długość okna estymacyjnego). Hipotezę zerową należy
odrzucić wtedy gdy |𝑡𝑠𝑡𝑎𝑡 | > 𝑡𝑘𝑟𝑦𝑡 (𝛼, 𝑇 − 1).
Zweryfikowanie postawionej hipotezy - badania wpływu
określonego zdarzenia dla próby spółek – test nieparametryczny (1)

Test znaków Gurgul H., (Wpływ informacji makroekonomicznych na transakcje na rynkach akcji, Wydawnictwo CH
Beck, Warszawa 2020, s. 193)

- Założenie o symetrii rozkładu anormalnych stóp zwrotu


- Statystyka testowa

𝑝Ƹ 𝑡0 − 0,5 𝑁
𝑍𝑠 = 𝑁 = (𝑝Ƹ − 0,5)
0,5(1 − 0,5) 0,5 𝑡0

𝑝ො𝑡0 −jest odsetkiem ponadprzeciętnych stóp zwrotu 𝐴𝑅𝑖,𝑡0 (dla i=1,2,…, N) odpowiadających momentowi 𝑡0 które są większe

od 0 tzn.:

𝑁
1
𝑝ො𝑡0 = ෍ 𝑠𝑖,𝑡0
𝑁
𝑖=1

gdzie:

1 𝐴𝑅𝑖,𝑡0 > 0
𝑠𝑖,𝑡0 = ൝
Zweryfikowanie postawionej hipotezy - badania wpływu
określonego zdarzenia dla próby spółek – test nieparametryczny (2)

Uogólniony test znaków Cowana (Wpływ informacji makroekonomicznych na transakcje na rynkach akcji,
Wydawnictwo CH Beck, Warszawa 2020, s. 194)

- Hipoteza główna o braku wpływu zdarzenia na stopy zwrotu akcji = odsetek dodatnich ponadprzeciętnych stóp zwrotu w
danym momencie 𝑡0 z okna zdarzenia nie odbiega od odsetka pozytywnych ponadprzeciętnych stóp zwrotu
zaobserwowanych w oknie estymacyjnym, czyli w czasie normalnego zachowania stóp zwrotu
- Statystyka testowa

𝑝Ƹ 𝑡0 − 𝑝0
𝑍𝑠 = 𝑁
𝑝0 (1 − 𝑝0 )
gdzie:

𝑁 𝑇1
1
𝑝0 = ෍ ෍ 𝑠𝑖,𝑡
𝑁𝐿1
𝑖=1 𝑡=𝑇0

Jest oszacowaniem odsetka pozytywnych ponadprzeciętnych stóp zwrotu w oknie estymacyjnym.

Statystyka ma asymptotycznie rozkład N(0,1)


Zweryfikowanie postawionej hipotezy - badania wpływu
określonego zdarzenia dla próby spółek – test nieparametryczny (2)

Uogólniony test znaków Corrado-Zivneya (Wpływ informacji makroekonomicznych na transakcje na rynkach akcji,
Wydawnictwo CH Beck, Warszawa 2020, s. 194)
- Brane pod uwagę jest położenie ponadprzeciętnych stóp zwrotu względem mediany
- Dla każdego zdarzenia niech 𝐴𝑅𝑖,𝑚𝑒 będzie medianą ponadprzeciętnych stóp zwrotu z okna estymacyjnego i z okna

zdarzenia. Niech ponadto 𝐺𝑖,𝑡 = 𝑠𝑖𝑔𝑛 𝐴𝑅𝑖,𝑡 − 𝐴𝑅𝑖,𝑚𝑒 będzie znakiem odchylenia, równym -1,0 lub 1.
- Statystyka testowa:

𝑁
1
𝑍𝐶𝑍 = ෍ 𝐺𝑖,𝑡0
𝑁𝑠𝐺 𝑖=1
gdzie:

2
𝑇2 𝑁
1 1
𝑠𝐺 = ෍ ෍ 𝐺𝑖,𝑡
𝐿1 + 𝐿2 − 1 𝑁 𝑖=1
𝑡=𝑇0

Jest oszacowaniem odchylenia standardowego na podstawie wszystkich danych (tzn. z okna estymacyjnego i z okna zdarzenia)
Statystyka ma asymptotycznie rozkład N(0,1)
Analiza zdarzeń – przykład zastosowania
Definicja zdarzenia

Terminy publikacji raportów kwartalnych:


I kwartał – nie później niż 45 dni po zakończeniu okresu,
II kwartał – brak obowiązku publikacji,
III kwartał – nie później niż 45 dni po zakończeniu okresu,
IV kwartał – nie później niż 60 dni po zakończeniu okresu lub brak publikacji (zastąpienie raportem rocznym)

Raport półroczny – nie później niż 2 miesiące po zakończeniu okresu


Raport roczny – nie później niż 4 miesiące po zakończeniu roku.
Okno zdarzenia i okno estymacji
Próba badawcza

• 30 spółek notowanych na GPW (po 10 z indeksów WIG20, mWIG40, sWIG80)


• Kryteria doboru: przynależność do indeksu, długość notowań, dostępność danych.
• Okres badania: I kwartał 2006r– IV kwartał 2010r.
• Próba badawcza: 5 lat x 4 kwartały x 30 spółek = 600 zdarzeń
Wyniki badania – cała próba

Dzień 𝑨𝑹 𝑪𝑨𝑹 statystyka t1 statystyka t2 statystyka t3 statystyka t4

-5 0,01% 0,01% 0,0403 0,0231 -0,7814 -0,7054


-4 -0,15% -0,14% -0,9541 -0,4855 -1,5912 -1,5105
-3 0,14% 0,00% 0,9234 0,0047 -0,8066 -0,6860
-2 0,15% 0,15% 0,9578 0,4533 0,1406 0,1165
-1 0,20% 0,35% 1,2760 0,9973 1,0556 0,8845
0 0,10% 0,45% 0,6099 1,2094 1,5003 1,2660
1 -0,29% 0,16% -1,8331 0,4140 0,4616 0,3656
2 -0,22% -0,06% -1,3855 -0,1425 0,0793 0,0593
3 -0,19% -0,24% -1,1972 -0,5871 -0,7967 -0,5578
4 0,03% -0,22% 0,1678 -0,5063 -1,0672 -0,7552
5 -0,17% -0,39% -1,0712 -0,8666 -1,4407 -1,0135
6 -0,15% -0,54% -0,9703 -1,1716 -1,9345 -1,3581
7 0,07% -0,47% 0,4576 -0,9870 -1,7194 -1,2077
8 0,13% -0,33% 0,8575 -0,6841 -1,1051 -0,7749
9 0,18% -0,15% 1,1528 -0,3044 -0,6637 -0,4739
10 0,11% -0,04% 0,7245 -0,0748 -0,5686 -0,4179
Wyniki badania – spółki z indeksu WIG20

Dzień 𝑨𝑹 𝑪𝑨𝑹 statystyka t1 statystyka t2 statystyka t3 statystyka t4

-5 0,04% 0,04% 0,2518 0,1335 -0,4344 -0,4246


-4 -0,06% -0,02% -0,3512 -0,0488 -1,0756 -1,1406
-3 -0,02% -0,04% -0,1237 -0,1025 -0,9530 -0,9576
-2 0,24% 0,20% 1,3873 0,5041 -0,0193 -0,0179
-1 0,19% 0,39% 1,0978 0,9291 0,6998 0,7299
0 0,09% 0,49% 0,5360 1,0958 1,3007 1,3937
1 0,12% 0,61% 0,6809 1,3044 1,5036 1,5596
2 0,16% 0,77% 0,9308 1,5886 1,9541 1,9423
3 0,04% 0,81% 0,2571 1,6201 1,8044 1,7642
4 -0,07% 0,74% -0,4026 1,4301 1,4828 1,4213
5 0,12% 0,86% 0,6683 1,6017 1,6325 1,6306
6 -0,12% 0,74% -0,6837 1,3385 1,2110 1,1678
7 0,10% 0,85% 0,6020 1,4851 1,1761 1,1442
8 -0,10% 0,75% -0,5685 1,2761 1,4326 1,3557
9 0,12% 0,87% 0,7049 1,4485 1,6213 1,5169
10 0,03% 0,90% 0,1565 1,4580 1,3280 1,2894
Wyniki badania – spółki z indeksu mWIG40

Dzień 𝑨𝑹 𝑪𝑨𝑹 statystyka t1 statystyka t2 statystyka t3 statystyka t4

-5 0,23% 0,23% 0,5744 0,4201 1,2706 1,1383


-4 0,17% 0,41% 0,4184 0,6722 1,1985 1,0033
-3 0,27% 0,67% 0,6491 1,0399 1,4795 1,2053
-2 0,00% 0,67% 0,0073 0,9848 1,0829 0,8793
-1 0,22% 0,89% 0,5312 1,2352 1,4909 1,2268
0 0,04% 0,93% 0,0872 1,2248 1,5355 1,2069
1 -0,73% 0,20% -1,7873 0,2484 0,3037 0,2282
2 -0,40% -0,20% -0,9747 -0,2456 -0,3931 -0,2902
3 -0,22% -0,42% -0,5457 -0,4979 -1,0864 -0,7340
4 0,02% -0,40% 0,0583 -0,4541 -1,3203 -0,9076
5 -0,36% -0,76% -0,8872 -0,8370 -1,5627 -1,0879
6 0,03% -0,73% 0,0844 -0,7754 -1,3941 -0,9574
7 0,16% -0,57% 0,3964 -0,5862 -1,0166 -0,6808
8 0,20% -0,36% 0,5005 -0,3648 -0,6569 -0,4404
9 0,43% 0,07% 1,0631 0,0703 -0,1095 -0,0750
10 0,08% 0,15% 0,1989 0,1463 -0,1706 -0,1171
Wyniki badania – spółki z indeksu sWIG80

Dzień 𝑨𝑹 𝑪𝑨𝑹 statystyka t1 statystyka t2 statystyka t3 statystyka t4

-5 -0,26% -0,22% -1,6653 -0,4490 -2,1764 -1,8659


-4 -0,51% -0,73% -3,2624 -1,3711 -3,6015 -2,7252
-3 0,19% -0,53% 1,2419 -0,9423 -1,9163 -1,5108
-2 0,18% -0,35% 1,1851 -0,5824 -0,8141 -0,6266
-1 0,19% -0,16% 1,2046 -0,2574 -0,3544 -0,2602
0 0,15% -0,01% 0,9702 -0,0187 -0,2260 -0,1729
1 -0,47% -0,49% -3,0539 -0,7010 -0,9888 -0,6917
2 -0,38% -0,87% -2,4588 -1,2018 -1,3981 -0,8921
3 -0,39% -1,26% -2,5162 -1,6791 -2,0684 -1,2327
4 0,12% -1,14% 0,7742 -1,4673 -1,9846 -1,2010
5 -0,20% -1,34% -1,3077 -1,6740 -2,6012 -1,5418
6 -0,34% -1,68% -2,2168 -2,0406 -3,1345 -1,8671
7 -0,01% -1,69% -0,0607 -1,9942 -3,1049 -1,8811
8 0,05% -1,64% 0,3166 -1,8847 -2,6588 -1,6193
9 -0,02% -1,66% -0,1273 -1,8591 -2,6290 -1,6498
10 0,25% -1,41% 1,6160 -1,5410 -2,1161 -1,3895
Wyniki badania – wszystkie indeksy
Wyniki badania – WIG20 z uwzględnieniem charakteru wyniku
finansowego
Wyniki badania – mWIG40 z uwzględnieniem charakteru
wyniku finansowego
Wyniki badania – sWIG80 z uwzględnieniem charakteru
wyniku finansowego
Przykładowe badania, wykorzystujące omawianą metodykę:

• Wpływ zmian w składach indeksów WIG20 oraz mWIG40 na kursy akcji spółek notowanych na GPW w
Warszawie
• Wpływ publikacji wskaźników makroekonomicznych opisujących gospodarkę Stanów Zjednoczonych na stopy
zwrotu indeksu WIG/spółek notowanych na GPW
• Wpływ zapowiedzi dywidendy na ceny akcji
• Efekty zmian podstawowych stóp procentowych
• Opinie analityków, transakcje insiderów oraz rezygnacje członków zarządu z zajmowanych stanowisk
• Wpływ transakcji przejęć na cenę akcji spółek notowanych na Giełdzie Papierów Wartościowych w
Warszawie
• Wpływ ataków terrorystycznych na indeksy Giełdy Papierów Wartościowych w Warszawie
• Wpływ fake newsów na notowania kryptowalut
• Wpływ fake newsów na notowania akcji spółek notowanych w USA
• Wpływ ważnych wydarzeń sportowych na notowania akcji firm sponsorujących sport
Źródła:

• Gurgul H., Analiza zdarzeń na rynkach akcji. Wpływ informacji na ceny papierów wartościowych,
Wydawnictwo Oficyna Ekonomiczna, Kraków 2006.
• Gurgul H., Wpływ informacji makroekonomicznych na transakcje na rynkach akcji, Wydawnictwo CH
Beck, Warszawa 2020.
• Czekaj J., Woś M., Żarnowski J., Efektywność giełdowego rynku akcji w Polsce, Wydawnictwo Naukowe PWN,
Warszawa 2001.
• Szyszka A., Efektywność Giełdy Papierów Wartościowych w Warszawie na tle rynków dojrzałych, Wydawnictwo
Akademii Ekonomicznej w Poznaniu, Poznań 2003.
• Elton E.J., Gruber M.J., Nowoczesna teoria portfelowa i analiza papierów wartościowych, Wydawnictwo WIG-
Press, Warszawa 1998
• Campbell J.Y., Lo A.W., MacKinlay A.C., The Econometrics of Financial Markets, Princeton University Press,
Princeton, New Jersey 1997.
• Pynnönen S., On regression based event study, Acta Wasaensia, Nr 143. 2005
Wykład 11. Metoda quasi-eksperymentalne.
Założenia i przykładowe badania
Idea metody syntetycznej kontroli

Metodyka stosowana dla porównawczych studiów przypadków, dąży do oszacowania wartości wyniku dla jednostki
poddanej interwencji politycznej, gdyby jej nie było, z wykorzystaniem niewielkiej grupy podobnych jednostek, które
nie zostały poddane interwencji. Bazuje na założeniu, że kombinacja wielu jednostek z puli dawców może lepiej
odzwierciedlić cechy jednostki poddanej interwencji (Abadie i Gardeazabal 2003, Abadie i in 2010, Abadie i in 2015).

Pakiety w R: Synth, augsynth


Założenia omawianej metodyki

Załóżmy że:
• zgromadziliśmy dane o 𝐽+1 jednostkach: 𝑗 = 1,2, … , 𝐽 + 1
• pierwsza jednostka 𝑗 = 1 jest jednostka poddaną interwencji politycznej (ang. treated unit),
• pozostałe jednostki 𝑗 = 2, … . 𝐽 + 1 są obiektami z tzw. puli dawców (ang. donor pool) i stanowią zbór
potencjalnych jednostek porównawczych, które nie zostały poddane interwencji politycznej
• zebrane dane dotyczą 𝑇 okresów, z czego pierwsze 𝑇0 to okresy przed interwencją polityczną (okresy
1,2, … , 𝑇0 )

• dla każdej jednostki 𝑗 oraz okresu 𝑡 można zaobserwować wynik 𝑌𝑗𝑡

• dla każdej jednostki 𝑗 dysponujemy także zbiorem 𝑘 predyktorów wyniku 𝑋1𝑗, … , 𝑋𝑘𝑗 które mogą

obejmować wartości wyniku sprzed interwencji 𝑌𝑗𝑡


Założenia omawianej metodyki

Załóżmy że:
• wektory o wymiarach (𝑘𝑥1) 𝑿𝟏 , … . 𝑿𝑱+𝟏 zawierają wartości predyktorów dla jednostek 𝑗 = 1, … . 𝐽 + 1.

• macierz 𝑿0 = 𝑋2 … 𝑋𝐽+1 o wymiarach (𝑘𝑥𝐽) zawiera wartości predyktorów dla 𝐽 jednostek


niepoddanych interwencji politycznej
• dla każdej jednostki 𝑗 oraz okresu 𝑡 zdefiniować można 𝑌𝑗𝑡𝑁 jako potencjalny wynik gdyby nie było

interwencji politycznej, oraz przez 𝑌𝑗𝑡𝐼 wynik, gdyby taka interwencja miała miejsce
• dla jednostki poddanej interwencji politycznej (𝑗 = 1) oraz okresu po jej wystąpieniu 𝑡 > 𝑇0 zdefiniować
𝐼
można 𝑌1𝑡 jako potencjalny wynik po interwencji. Dzięki temu efektem samej interwencji dla dotkniętej
𝐼 𝑁
nią jednostki w okresie 𝑡 > 𝑇0 jest 𝜏1𝑡 = 𝑌1𝑡 − 𝑌1𝑡
𝑁
• problem zbadania wpływu interwencji sprowadza się zatem do oszacowania wielkości 𝑌1𝑡
Szacowanie

• Formalnie synthetic control może być zdefiniowana jako wektor (𝐽𝑥1) wag o postaci 𝑊 =
𝑁
(𝑤2 , … , 𝑤𝐽+1 )′. Znając wektor wag 𝑊 estymatorami 𝑌1𝑡 oraz 𝜏1𝑡 są odpowiednio:

𝐽+1

𝑌෠1𝑡
𝑁
= ෍ 𝑤𝑗 𝑌𝑗𝑡 (2)
𝑗=2

𝜏Ƹ1𝑡 = 𝑌1𝑡 − 𝑌෠1𝑡


𝑁
(3)

Przyjmuje się że wagi spełniają założenia 𝑤𝑗 ≥ 0 𝑗 = 2, , … 𝐽 oraz 𝑤2 + ⋯ + 𝑤𝐽+1 = 1.


Szacowanie

Dobór wag odbywa się w taki sposób by otrzymana synthetic control najlepiej odzwierciedlała wartości
predyktorów wyniku dla jednostki poddanej interwencji przed jej miejscem. Oznacza to, że biorąc pod uwagę
nieujemne wartości 𝑣1 , … 𝑣𝑘 autorzy proponują 𝑾∗ = 𝑤2∗, … , 𝑤𝐽+1

który minimalizuje odległość między
jednostką poddaną interwencji oraz synthetic control:

𝑿𝟏 − 𝑿𝟎 𝑾 = 𝑿𝟏 − 𝑿𝟎 𝑾 ′ 𝑽 𝑿𝟏 − 𝑿𝟎 𝑾 (4)
w R: 𝑿𝟏 − 𝑿𝟎 𝑾 = 𝑿𝟏 − 𝑿𝟎 𝑾 ′ 𝑽 𝑿𝟏 − 𝑿𝟎 𝑾

𝑽 to macierz diagonalna, z elementami 𝑣1 , … 𝑣𝑘 , które odzwierciedlają ważność każdej ze zmiennych


predykcyjnych.
Szacowanie
Wybór macierzy 𝑽∗ wśród wszystkich diagonalnych macierzy jest dokonywany tak, aby średni kwadratowy
błąd predykcji (MSPE) zmiennej odpowiedzialnej za wynik był minimalizowany dla pewnego zbioru okresów
sprzed interwencji. Niech:

o 𝒁𝟏 (𝑇𝑃 𝑥1) będzie wektorem wartości wyniku dla jednostki poddanej interwencji dla pewnego zbioru
okresów sprzed interwencji

o 𝒁𝟎 (𝑇𝑃 𝑥𝐽) niech będzie macierzą analogicznych wartości dla jednostek z puli dawców, gdzie 𝑇𝑃 (1 ≤
𝑇𝑃 ≤ 𝑇0 ) jest liczba okresów sprzed interwencji,

dla których średni kwadratowy błąd predykcji (MSPE) jest minimalizowany. Wówczas 𝑽∗ jest dobrany w taki
sposób by minimalizować:

𝑎𝑟𝑔min 𝒁𝟏 − 𝒁𝟎 𝑾∗ (𝑽) ′ 𝒁𝟏 − 𝒁𝟎 𝑾∗(𝑽) (5)


𝑉∈𝛾

1 𝑇0 2
𝐽+1
w R: 𝑀𝑆𝑃𝐸 = σ 𝑌1𝑡 − σ𝑗=2 𝑤𝑗∗ 𝑌𝑗𝑡
𝑇0 𝑡=1

gdzie 𝛾 jest zbiorem wszystkich nieujemnych macierzy diagonalnych (𝐾𝑥𝐾) a wagi dla synthetic control są
dane przez 𝑾∗ . Pakiet synth() rozwiązuje zagnieżdżony problem optymalizacyjny który minimalizuje
powyższe równanie (5), dla 𝑾∗ (𝑽∗ ) określonego przez równanie (4).
Badania przeprowadzone przez autora metody
Autor/treated unit Predyktory Wynik Wnioski

Mitze i in. 2020 Niemcy, Jena Skumulowana liczba przypadków na dzień i na Skumulowana liczba przypadków Maseczki na twarz zmniejszyły
siedem dni przed maseczkami, średnia liczba infekcji/skumulowana liczba przypadków infekcji liczbę nowo zarejestrowanych
200 pkt
Przegląd literatury
nowych dziennych przypadków w ciągu ostatnich na 100 tys. ludności
7 dni, gęstość zaludnienia, udział ludności z
zakażeń z ciężkim ostrym
zespołem oddechowym od 15% do
wyższych wykształceniem, udział kobiet w 75% w okresie 20 dni po ich
populacji, średni wiek kobiet, średni wiek obowiązkowym wprowadzeniu.
mężczyzn, udział ludzi starszych, udział ludzi Maseczki na twarz zmniejszają
młodych, lekarze na 10 tys. ludności, apteki na dzienne tempo wzrostu
100 tys. ludności, rodzaj miejscowości, zgłaszanych infekcji o około 47%.

Tian i in 2021, Chiny, Wenzhou, Gęstość zaludnienia, udział ludności w wieku Liczba zachorowań na 100 tys. osób Gdyby nie lockdown liczba
Shanghai powyżej 65 lat, temperatura, PKB per capita, 3 zachorowań by wzrosła 2,18 razy
główne składowe z PCA dla Wenzhou oraz 7,69 razy dla
200 pkt
Shanghaju

Cho, 2020 Gęstość zaludnienia, udział ludności żyjących w Skumulowana liczba infekcji na 1mln ludności Lockdown spowodowałby spadek
miastach, wielkość gospodarstwa, średnia liczba infekcji o ok. 75%
Szwecja zgonów na 1 mln ludności w ciągu 20 dni, liczba
140 pkt zachorowań na 1 mln ludności w ciągu 3 dni
(oddalonych od siebie o tydzień każdy)

Born i in. 2020 Liczba ludności, wskaźnik urbanizacji, logarytm Logarytm ze skumulowanych Lockdown spowodowałby spadek
z przypadków infekcji w ciągu 13 dni zachorowań/skumulowana liczba zgonów infekcji o 75%, a zgonów o 50%
Szwecja poprzedzających wprowadzanie obostrzeń (13
100 pkt zmiennych)

Tian i in. 2020 Szerokość geograficzna, gęstość zaludnienia, 2 Liczba zachorowań na 100tys osób Lockdown wprowadzony w
główne składowe z PCA Shenzen spowodował duży spadek
Chiny, Shenzhen liczby zachorowań
40 pkt
Autor/treated unit Predyktory Wynik Wnioski

Bayat i in., 2020 Dzienna liczba zachorowań Dzienna liczba zachorowań Szybsze wprowadzenie
lockdowanu spowodowałoby
Nowy Jork Dzienna liczba zgonów Dzienna liczba zgonów redukcję zgonów o 80%
Przegląd literatury
Working paper

Alfano i in. 2020 Całkowita liczba zachorowań od początku Logarytmy skumulowanych pozytywnych W Bolzano, prowincji we
pandemii na dzień przed otwarciem szkoły, przypadków Włoszech w której jako pierwszej
Włochy, Bolzano dochód na osobę, liczba ludności, udział ludzi w otworzono szkoły po przerwie
wieku szkolnym, gęstość zaludnienia, udział ludzi wakacyjnej było dużo więcej
żyjących z miejscowościach mniejszych niż 30 zachorowań niż w okolicy
Working paper tys.

Cerqueti i in. 2021 Skumulowana liczba zachorowań na 1 mln Wskaźnik śmiertelności (skumulowana liczba Wprowadzenie lockdownu
ludności, liczba łóżek szpitalnych na 100 tys. zgonów na 1 mln ludności) uratowało 20400 żyć
Włochy ludności, mediana wieku ludności, wielkość
gospodarstwa, wskaźniki mobilności

Working paper

Neidhffofer I Neidhffofer, 2020, Liczba ludności, gęstość zaludnienia, mediana Skumulowana liczba zgonów Zamknięcie szkół i innych miejsc
Argentyna, Włochy, Korea wieku, udział ludności powyżej 65 roku życia, spowodowało spadek wskaźnika
Południowa PKB per capita, łóżka szpitalne na 100 tys. śmiertelności (o 84%,29% i 91% w
ludności, wydatki na opiekę zdrowotną, średnia Argentynie, Włoszech i Korei)
liczba zgonów przed interwencją, stopa wzrostu
Working paper liczby zakażonych, wskaźniki mobilności.
Rozwój pandemii w Polsce
Rozwój pandemii w Polsce

700
Skumulowana liczba /10tys mieszkańców

600

500

400

300

200

100

0
24 12 31 12 7 01 14 01 21 01 28 01 4 02 11 02 18 02 25 02 4 03 11 03 18 03 25 03 1 04 8 04 15 04 22 04 29 04 6 05
2020 2020 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021

Dolnośląskie Kujawsko-pomorskie Łódzkie Lubelskie


Lubuskie Małopolskie Mazowieckie Opolskie
Podkarpackie Podlaskie Pomorskie Śląskie
Świętokrzyskie Warmińsko-mazurskie Wielkopolskie Zachodniopomorskie
Przedmiot badania

• 27 luty – województwo warmińsko-mazurskie – zamknięcie hoteli, galerii handlowych, kin, teatrów,


muzeów, galerii sztuki, basenów i kortów tenisowych. Uczniowie klas I-III wracają do nauki zdalnej.

mazowiecki i lubuskie
warmińsko-mazurskie

Cała Polska
pomorskie

27. II 13.III 15.III 20.III


Założenia dotyczące przeprowadzonego badania

• Jednostka poddana interwencji: województwo warmińsko-mazurskie, pula dawców: pozostałe


województwa
• Zmienne predykcyjne: skumulowana liczba przypadków na dzień i na siedem dni przed
wprowadzeniem obostrzeń (27.02), średnia liczba nowych dziennych przypadków w ciągu
ostatnich 7 dni,, udział osób młodych, lekarze na 10 tys. ludności, apteki na 10 tys. ludności, udział
osób mieszkających w miastach, liczba zaszczepionych na 10 tys. mieszkańców na dzień 27.02.,
liczba ozdrowieńców na 10 tys. mieszkańców na dzień 27.02.

• Wynik: skumulowana liczba nowych przypadków


• Okres dla optymalizacji: 13.02.2021 – 26.02.2021
• Okres badania wpływ obostrzeń na rozwój pandemii: 27.02.2021 – 20.03.2021
Wyniki badania empirycznego

Województwo
Województwo syntetyczne
Zmienna predykcyjna warmińsko Pula dawców (KP 0,745, SL 0,196
mazurskie MZ 0,055, inne
0,004)

Skumulowana liczba przypadków dzień przed obostrzeniami 8944,0 6808,4 8908,2


Skumulowana liczba przypadków 7 dni przed obostrzeniami 4378,0 3306,9 4412,7
Średnia dzienna liczba nowych przypadków w ciągu 7 dni 704,3 562,1 720,8
Udział osób młodych 22,5 22,8 22,8
Liczba lekarzy na 10 tys ludności 42,4 55,7 58,5
Liczba aptek na 10 tys ludności 2,9 3,1 2,9
Udział osób mieszkających w miastach 59,2 58,5 63,1
Liczba zaszczepionych na 10 tys. mieszkańców na dzień 27.02 799,1 848,3 785,9
Liczba ozdrowieńców na 10 tys. mieszkańców na dzień 27.02 575,6 432,0 534,8
RMSPE 126,6
Wyniki badania empirycznego

Zmienna Waga

Skumulowana liczba przypadków dzień przed obostrzeniami 0,624

Skumulowana liczba przypadków 7 dni przed obostrzeniami 0,195

Średnia dzienna liczba zachorowań w ciągu 7 dni 0,178

Udział osób młodych 0,004

Liczba lekarzy na 10 tys ludności 0,000

Liczba aptek na 10 tys ludności 0,000

Udział osób mieszkających w miastach 0,000

Liczba zaszczepionych na 10 tys. mieszkańców na dzień 27.02 0,000

Liczba ozdrowieńców na 10 tys. mieszkańców na dzień 27.02 0,000


Wyniki badania empirycznego

10000

9000

8000
Accumulated number of cases

7000

6000

5000

4000

3000

2000

1000

0
13 02 14 02 15 02 16 02 17 02 18 02 19 02 20 02 21 02 22 02 23 02 24 02 25 02 26 02
2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021
Day

warmińsko-mazurskie synthetic control unit


Accumulated number of cases

10000
15000
20000
25000
30000
35000
40000

0
5000
13 02 2021
14 02 2021
15 02 2021
16 02 2021
17 02 2021
18 02 2021
19 02 2021
20 02 2021
21 02 2021
22 02 2021
23 02 2021
24 02 2021
25 02 2021
26 02 2021
27 02 2021
Wyniki badania empirycznego

28 02 2021

warmińsko-mazurskie
1 03 2021
2 03 2021

Day
3 03 2021
4 03 2021
5 03 2021
6 03 2021
7 03 2021
synthetic control unit

8 03 2021
9 03 2021
10 03 2021
11 03 2021
12 03 2021
13 03 2021
14 03 2021
15 03 2021
16 03 2021
17 03 2021
18 03 2021
19 03 2021
20 03 2021
Wyniki badania empirycznego - placebo w czasie (ograniczenia
od 22.01)
16000

14000
Accumulated number of cases

12000

10000

8000

6000

4000

2000

Day

warmińsko-mazurskie synthetic control unit


Gapin accumulated number of cases

-8000
-6000
-4000
-2000

-12000
-10000
0
2000
4000
6000
13 02 2021
14 02 2021
15 02 2021
16 02 2021
17 02 2021
18 02 2021
19 02 2021
20 02 2021
21 02 2021
22 02 2021
23 02 2021
24 02 2021
25 02 2021
26 02 2021
27 02 2021
28 02 2021

warmińsko-mazurskie
1 03 2021
2 03 2021
Day

3 03 2021
4 03 2021
5 03 2021
other regions 6 03 2021
7 03 2021
8 03 2021
9 03 2021
10 03 2021
11 03 2021
12 03 2021
13 03 2021
Wyniki badania empirycznego – placebo w przestrzeni

14 03 2021
15 03 2021
16 03 2021
17 03 2021
18 03 2021
19 03 2021
20 03 2021
Accumulated number of cases

10000
15000
20000
25000
30000
35000
40000
45000

0
5000
13 02 2021
14 02 2021
15 02 2021
16 02 2021
17 02 2021
18 02 2021
19 02 2021
20 02 2021
21 02 2021
22 02 2021

warmińsko-mazurskie
23 02 2021
24 02 2021
25 02 2021
26 02 2021
27 02 2021
28 02 2021
1 03 2021
2 03 2021

synthetic control unit


Day
3 03 2021
4 03 2021
5 03 2021
6 03 2021
7 03 2021
8 03 2021
Wyniki badania empirycznego – leave-one-out

9 03 2021
10 03 2021
11 03 2021
12 03 2021
13 03 2021
synthetic control unit (leave-one-out)

14 03 2021
15 03 2021
16 03 2021
17 03 2021
18 03 2021
19 03 2021
20 03 2021
Accumulated number of cases

10000
15000
20000
25000
30000
35000
40000

0
5000
13 02 2021
14 02 2021
15 02 2021
16 02 2021
17 02 2021
18 02 2021
19 02 2021
20 02 2021
21 02 2021
22 02 2021
23 02 2021
24 02 2021
25 02 2021

synthetic control unit


warmińsko-mazurskie
26 02 2021
27 02 2021
28 02 2021
1 03 2021

Day 2 03 2021
3 03 2021
4 03 2021
5 03 2021
6 03 2021
7 03 2021
8 03 2021
9 03 2021
10 03 2021
synthetic control unit (without variables on demographics and healthcare)
synthetic control unit (without variables on the dynamics of the pandemic)
Wyniki badania empirycznego – różne predyktory

11 03 2021
12 03 2021
13 03 2021
14 03 2021
15 03 2021
16 03 2021
17 03 2021
18 03 2021
19 03 2021
20 03 2021
Podsumowanie

• Gdyby nie wprowadzenie obostrzeń w badanym okresie w województwie warmińsko-mazurskim


byłoby o blisko 9500 przypadków (ponad 34%) więcej niż miało miejsce w rzeczywistości
• Efekty placebo potwierdziły wiarygodność uzyskanych wyników
• Uzyskane wyniki są odporne na zmianę próby wchodzącej w skład puli dawców oraz zmianę
zestawu zmiennych predykcyjnych
Założenia dotyczące przeprowadzonego badania nr 2

60

50

40
liczba obostrzeń

30

20

10

państwo
Założenia dotyczące przeprowadzonego badania nr 2
Założenia dotyczące przeprowadzonego badania nr 2

• Interwencja: brak restrykcyjnego lockdownu w Państwie

• Jednostka poddana interwencji: Szwecja, pula dawców: pozostałe 17 państw Europy

• Potencjalne zmienne predykcyjne: bilans handlowy, udział inwestycji w PKB, udziały w wartości
dodanej sektorów: rolnictwo, produkcyjnego, budownictwa, handlu, nieruchomości, sztuki i rozrywki,
stopa bezrobocia, wydatki na służbę zdrowia (% PKB), udział osób z podstawowym, średnim
i wyższym wykształceniem w sile roboczej

• Wynik: PKB per capita, deficyt/nadwyżka budżetowa jako % PKB, dług publiczny jako % PKB

• Okres dla optymalizacji: 2015Q1-2020Q1

• Okres badania wpływu obostrzeń na gospodarkę: 2020Q2-2021Q4


PKB per capita

0
10000
30000
40000
50000
60000
70000

20000
2015Q1
2015Q2
2015Q3
2015Q4
2016Q1
2016Q2
2016Q3
2016Q4
2017Q1
2017Q2

Szwecja (bez lockdownu)


2017Q3
2017Q4
2018Q1
2018Q2
2018Q3

Kwartał
Wyniki przeprowadzonego badania nr 2

2018Q4
2019Q1
2019Q2
2019Q3
2019Q4
2020Q1
2020Q2
Szwecja syntetyczna (z lockdownem)

2020Q3
2020Q4
2021Q1
2021Q2
2021Q3
2021Q4
Deficyt/nadwyżka (% PKB)

-8
-6
-4
-2

-10
0
2
4
2015Q1
2015Q2
2015Q3
2015Q4
2016Q1
2016Q2
2016Q3
2016Q4
2017Q1
2017Q2
2017Q3

Szwecja (bez lockdownu)


2017Q4
2018Q1
2018Q2
2018Q3

Kwartał
2018Q4
Wyniki przeprowadzonego badania nr 2

2019Q1
2019Q2
2019Q3
2019Q4
2020Q1
2020Q2
2020Q3
Szwecja syntetyczna (z lockdownem)

2020Q4
2021Q1
2021Q2
2021Q3
2021Q4
dług publiczny (% PKB)

30
32
36
38
42
44
46

34
40
2015Q1
2015Q2
2015Q3
2015Q4
2016Q1
2016Q2
2016Q3
2016Q4
2017Q1
2017Q2

Szwecja (bez lockdownu)


2017Q3
2017Q4
2018Q1
2018Q2
2018Q3

kwartał
2018Q4
Wyniki przeprowadzonego badania nr 2

2019Q1
2019Q2
2019Q3
2019Q4
2020Q1
2020Q2
Szwecja syntetyczna (z lockdownem)

2020Q3
2020Q4
2021Q1
2021Q2
2021Q3
2021Q4
Podsumowanie

Badanie potwierdza i pozwala zmierzyć negatywny wpływ wprowadzenie restrykcyjnego lockdownu na


kondycję gospodarczą państwa.
Taka strategia walki z pandemią powoduje:
o spadek produktu krajowego brutto
o wzrost deficytu (deficyt -3,6% zamiast nadwyżki 0,6%)
o wzrost długu publicznego (o około 7 p.p.)
Dodatkowe analizy efektów placebo (w czasie i przestrzeni) potwierdziły skuteczność metody
syntetycznej kontroli w przeprowadzonych badaniach.
Metodyka badawcza – metoda różnicy w różnicach
(ang. Differences-in-Differences)

Pakiet w R: did
Metodyka badawcza – metoda różnicy w różnicach

• Szacowany model

𝑌𝑖𝑡 = 𝛽0 + 𝛽1 𝐷𝑖 + 𝛽2 𝑃𝑡 + 𝛽3 𝐷𝑖 ∙ 𝑃𝑡 + 𝛽4 𝑋𝑖𝑡 + 𝑒𝑖𝑡

𝑌𝑖𝑡 – wartość wyniku badania dla 𝑖 jednostki w okresie 𝑡


𝐷𝑖 − jest zmienną binarna wskazującą grupę badaną (=1) i kontrolną (=0).
𝑃𝑡 − jest zmienną binarną wskazującą okresy przed interwencją (=0) oraz po interwencji (=1)
𝐷𝑖 ∗ 𝑃𝑡 − zmienna binarna wskazująca czy obserwacja pochodzi z grupy poddanej badaniu oraz po
interwencji (=1) oraz z innego przypadku (=0)

Metoda różnicy w różnicach zakłada, że ​– w przypadku braku interwencji – grupa poddana badaniu i
grupa kontrolna mają podobny trend w czasie - założenie trendu równoległego.
Metodyka badawcza – metoda różnicy w różnicach

𝑌𝑖𝑡 = 𝛽0 + 𝛽1 𝐷𝑖 + 𝛽2 𝑃𝑡 + 𝛽3 𝐷𝑖 ∙ 𝑃𝑡 + 𝛽4 𝑋𝑖𝑡 + 𝑒𝑖𝑡


𝛽0 – przeciętny poziom badanej zmiennej dla grupy kontrolnej przed interwencją
𝛽1 – różnica między poziomami badanej zmiennej dla grupy kontrolnej i badanej przed interwencją
𝛽2 – różnica między poziomami badanej zmiennej dla grupy kontrolnej przed i po interwencji
𝛽3 – estymator D&D. Czy interwencja miała wpływ na poziom badanej zmiennej?
Metodyka badawcza – analiza przerywanych szeregów
czasowych (ang. Interrupted Time Series)
Metodyka badawcza – analiza przerywanych szeregów
czasowych (ang. Interrupted Time Series)

• Szacowany model

𝑌𝑡 = 𝑏𝑜 + 𝑏1 𝑇 + 𝑏2 𝐷𝑡 + 𝑏3 𝑃 + 𝑒𝑡
𝑌𝑡 – zmienna odpowiedzialna za wynik badania
𝑇 − jest zmienną odpowiedzialną za czas, który minął od początku analizy
𝐷𝑡 − jest zmienną binarną wskazującą obserwacje zebrane przed (=0) oraz po (=1) interwencji
𝑃 − jest zmienną odpowiedzialną za czas który minął od momentu interwencji (przed interwencją 𝑃=0)
Metodyka badawcza – analiza przerywanych szeregów
czasowych (ang. Interrupted Time Series)

• Szacowany model

𝑌𝑡 = 𝑏𝑜 + 𝑏1 𝑇 + 𝑏2 𝐷𝑡 + 𝑏3 𝑃 + 𝑒𝑡
𝑌𝑡 – zmienna odpowiedzialna za wynik badania
𝑇 − jest zmienną odpowiedzialną za czas, który minął od początku analizy
𝐷𝑡 − jest zmienną binarną wskazującą obserwacje zebrane przed (=0) oraz po (=1) interwencji
𝑃 − jest zmienną odpowiedzialną za czas który minął od momentu interwencji (przed interwencją 𝑃=0)
Metodyka badawcza – analiza przerywanych szeregów
czasowych (ang. Interrupted Time Series)

• Szacowany model

𝑌𝑡 = 𝑏𝑜 + 𝑏1 𝑇 + 𝑏2 𝐷𝑡 + 𝑏3 𝑃 + 𝑒𝑡
Założenia dotyczące przeprowadzonego badania nr 3

• Interwencja: Uchwała Nr XVIII/243/16 Sejmiku Województwa Małopolskiego z dnia 15 stycznia 2016 r. –


wprowadziła z dniem 1. września 2019 całkowity zakaz spalania węgla i drewna na terenie miasta Krakowa.

• Efekt uchwały: likwidacja w latach 2016-2019 w Krakowie 18,4 tys. kotłów

• Obiekty badania: 12 miast wojewódzkich (bez Bydgoszczy, Opola, Zielonej Góry, Gdańska, Olsztyna i
Poznania)

• Zakres czasowy badania: 01.01.2010 – 31.12.2022

• Zmienna zależna: przeciętne miesięczne stężenie pyłu PM10

• Zmienne predykcyjne: temperatura powierza, siła wiatru, ciśnienie, wilgotność

• Źródła danych: bazy Głównego Inspektoratu Ochrony Środowiska oraz Instytutu Meteorologii i Gospodarki
Wodnej
Wyniki – metoda różnicy w różnicach DiD

140,00

120,00
Stężenie pyłu PM10

100,00

80,00

60,00

40,00

20,00

0,00
sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz
10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16 17 17 17 18 18 18 19 19 19 20 20 20 21 21 21 22 22 22
Miesiąc

Kraków z zakazem paliw stałych Kraków bez zakazu paliw stałych

Średnia zmiana w wyniku wprowadzenia uchwały: -21,71μg/m3 (-39,95%)


Wyniki – analiza przerywanych szeregów czasowych ITS

140

120

100
Stęzenie pyłu PM10

80

60

40

20

0
sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz
10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16 17 17 17 18 18 18 19 19 19 20 20 20 21 21 21 22 22 22
Miesiąc

Kraków z zakazem Kraków bez zakazu

Model SARIMA (2,0,0)(2,1,0)[12]


Średnia zmiana w wyniku wprowadzenia uchwały: -12,46μg/m3 (-22,94%)
Podsumowanie

• Wykorzystane metody potwierdzają i pozwalają zmierzyć pozytywny wpływ wprowadzenie uchwały


antysmogowej w Krakowie

• Taka strategia walki ze smogiem powoduje:

o spadek przeciętnego miesięcznego stężenia pyłu PM10 o 21,71 μg/m3 w przypadku D&D

o spadek przeciętnego miesięcznego stężenia pyłu PM10 o 12,46 μg/m3 w przypadku ITS
Bibliografia

• Abadie, A., Gardeazabal, J., (2003), The Economic Costs of Conflict: A Case Study of the Basque Country , American Economic Review, 93 (1): 113-
132.

• Abadie, A., Diamond, A., Hainmueller, J., (2010), Synthetic Control Methods for Comparative Case Studies: Estimating the Effect of California’s
Tobacco Control Program, Journal of the American Statistical Association, 105 (490), 493-505,

• Abadie, A., Diamond, A., Hainmueller, J., (2015), Comparative politics and the synthetic control method, American Journal of Political Science, 59 (2),
495–510.

• Abadie, A. (2021), Using Synthetic Controls: Feasibility, Data Requirements, and Methodological Aspects, Journal of Economic Literature, 59 (2): 391-
425

• Mitze, T., Kosfeld, R., Rode, J., & Wälde, K. (2020), Face masks considerably reduce COVID-19 cases in Germany. Proceedings of the National
Academy of Sciences, 117(51), 32293 –32301. https://doi.org/10.1073/pnas.2015954117

• Tian, T., Tan, J., Luo, W., Jiang, Y., Chen, M., Yang, S., Wen, C., Pan, W., Wang, X., (2021): The Effects of Stringent and Mild Interventions for
Coronavirus Pandemic, Journal of the American Statistical Association, DOI: 10.1080/01621459.2021.1897015

• Cho, S. W., (2020). Quantifying the impact of nonpharmaceutical interventions during the COVID-19 outbreak: The case of Sweden. The Econometrics
Journal 23(3), 323-344.

• Born B, Dietrich AM, Müller GJ (2021), The lockdown effect: A counterfactual for Sweden. PLoS ONE 16(4): e0249732.
https://doi.org/10.1371/journal.pone.0249732

• Tian, T., Luo, W., Tan, J., Jiang, Y., Chen, M., Pan, W.,Yang, S., Zhao, J., Wang, X., Zhang, H., (2021), The timing and effectiveness of implementing
mild interventions of COVID-19 in large industrial regions via a synthetic control method. Statistics and Its Interface. 14. 3-12. 10.4310/20-SII634.
Bibliografia

• Huber, M., Langen, H., (2020), The impact of response measures on COVID-19-related hospitalization and death rates in Germany and
Switzerland. Swiss Journal of Economics and Statistics 156, 10.

• Bayat, N., Morrin, C., Wang, Y., Misra, V., (2020), Synthetic Control, synthetic Interventions, and COVID-19 spread: Exploring the impact
of lockdown measures and herd immunity. arXiv preprint arXiv:2009.09987.

• Alfano, V., Ercolano. S., Cicatiello, L., (2020), A Synthetic Control Method Analysis of Schools Opening and Covid-19 Outbreak in Italy,
CESifo Working Paper Series 8784, CESifo

• Cerqueti, R., Coppier, R., Girardi, A., Ventura, M., (2021), The sooner the better: lives saved by the lockdown during the COVID-19
outbreak. The case of Italy, Papers 2101.11901, arXiv.org.

• Neidhöfer, G., Neidhöfer, C., (2020), "The effectiveness of school closures and other pre-lockdown COVID-19 mitigation strategies in
Argentina, Italy, and South Korea," ZEW Discussion Papers 20-034, ZEW - Leibniz Centre for European Economic Research
• Ben-Michael, E., Feller, A., Rothstein, J., (2021), The Augmented Synthetic Control Method, Journal of the American Statistical
Association, 116:536, 1789-1803
• Schaffer, A.L., Dobbins, T.A., Pearson, SA. Interrupted time series analysis using autoregressive integrated moving average (ARIMA)
models: a guide for evaluating large-scale health interventions. BMC Med Res Methodol 21, 58 (2021)
• Callaway, B., Sant’Anna, P.H.C., (2021), Difference-in-Differences with multiple time periods, Journal of Econometrics, 225(2), 200-230.
Wykład 10.2. Drzewa decyzyjne i las losowy
Recepta na zaliczenie egzaminu z Ekonometrii

Wydział

Ekonomii WIGE

Czas
POPRAWKA
nauki
<=2 >2

Wykłady Wykłady
i ćwiczenia i ćwiczenia
Tak Nie Nie Tak

POPRAWKA WARUNEK
WARUNEK POPRAWKA ZALICZENIE
ZALICZENIE
Cel wykorzystania drzew decyzyjnych

Celem analizy przy użyciu drzew decyzyjnych jest wyjaśnianie lub przewidywanie odpowiedzi
zakodowanej w jakościowej lub ilościowej zmiennej zależnej na podstawie pomiarów jednej lub więcej
zmiennych predykcyjnych
Rodzaje drzew decyzyjnych

Klasyfikacyjne – jeżeli zmienna objaśniana jest wyrażona na skalach słabych (jakościowych)

Regresyjne – jeżeli zmienna objaśniana jest wyrażona na skalach mocnych (ilościowych)

Skala zmiennych objaśniających nie ma znaczenia!


Definicja i budowa drzewa decyzyjnego

Drzewem decyzyjnym (klasyfikacyjnym lub regresyjnym) określimy drzewo reprezentujące proces


podziału zbioru obiektów na jednorodne klasy.

W takim drzewie wewnętrzne węzły będą opisywać sposób dokonania podziału na jednorodne klasy
(dokonywany w oparciu o wartości cech obiektów), a liście będą odpowiadać klasom, do których
obiekty należą.

Z kolei krawędzie drzewa (gałęzie) reprezentują wartości cech, na podstawie których dokonano
podziału.
Definicja i budowa drzewa decyzyjnego

GAŁĄŹ WĘZEŁ
(krawędź drzewa, ŹRÓDŁOWY
wartość zmiennej wykorzystanej do GAŁĄŹ
podziału)

WĘZEŁ WEWNĘTRZNY
(zmienna w oparciu, o którą LIŚĆ
dokonano podziału)

GAŁĄŹ GAŁĄŹ

LIŚĆ
(węzeł końcowy LIŚĆ
- klasa do której należą obiekty)
Drzewa decyzyjne - definicje

Droga to skończony ciąg krawędzi. A długość drogi to liczba krawędzi tworzących drogę.

Głębokość drzewa to długość najdłuższej drogi między węzłem źródłowym a dowolnym liściem
drzewa

Wielkość drzewa to liczba liści (węzłów końcowych).


Drzewa decyzyjne - definicje

Drzewo binarne to drzewo, w którym z każdego węzła wewnętrznego wychodzą dwie gałęzie.

A, B, C

A B, C

B C

Drzewo niebinarne to drzewo, w którym z każdego węzła wewnętrznego wychodzi dowolna liczba
gałęzi.
A, B, C

A B C
Proces tworzenia drzewa

Rekurencyjny podział zbioru uczącego na podzbiory aż do uzyskania ich jednorodności ze względu na


przynależność obiektów do klas.

1. Mając zbiór obiektów 𝑆, sprawdź, czy należą one do tej samej klasy. Jeżeli tak, to zakończ pracę.
2. W przeciwnym przypadku rozważ wszystkie możliwe podziały zbioru 𝑆 na podzbiory 𝑆1 , 𝑆2 , … , 𝑆𝑛
tak, aby były one jak najbardziej jednorodne.
3. Dokonaj oceny jakości każdego z tych podziałów zgodnie z przyjętym kryterium i wybierz najlepszy
z nich.
4. Podziel zbiór 𝑆 w wybrany sposób.
5. Wykonaj kroki 1-4 rekurencyjnie dla każdego z podzbiorów.
Proces tworzenia drzewa

Algorytm tworzenia drzewa sprawdza wszystkie możliwe podziały dla każdej zmiennej predykcyjnej w
celu znalezienia podziału, przy którym następuje największa poprawa dobroci dopasowania
(zmniejszenie zanieczyszczenia).

W procesie tworzenia drzewa wyróżniamy dwa podstawowe etapy:


1. Określenie kryteriów trafności podziałów i dokonanie podziałów.
2. Wyznaczenie końca podziałów.

Celem jest zbudowanie drzewa jak najmniejszego. Wtedy uzyskane reguły są najprostsze.
Etap 1: Określenie kryteriów trafności podziałów i dokonanie
podziałów.

Do podziału zbioru obiektów można zastosować różnorodne kryteria np. indeks Giniego,
entropię itp.

Najpopularniejszą miarą, preferowaną przez twórców metody CART, jest indeks Giniego wyznaczany
według wzoru:

𝑛
2
𝐺𝑖𝑛𝑖 = 1 − ෍ 𝑝𝑖
𝑖=1
𝑝𝑖 − prawdopodobieństwo że obiekt zostanie zaklasyfikowany do klasy 𝑖
Opiera się on na iloczynach udziałów klas w węźle.
Etap 1: Określenie kryteriów trafności podziałów i dokonanie
podziałów.

Indeks Giniego osiąga wartość zero, gdy w danym węźle wystąpi tylko jedna klasa; osiąga on wartość
maksymalną, gdy wielkości klas w danym węźle są równe. Wybieramy do podziału zmienną, która
minimalizuje indeks.
Etap 2: Wyznaczenie końca podziałów.

Drugi etap budowy drzewa klasyfikacyjnego polega na rozstrzygnięciu, kiedy należy zakończyć podziały.

Jedną z własności drzew klasyfikacyjnych jest to, że brak ograniczenia na liczbę wykonywanych
podziałów, może doprowadzić ostatecznie do czystej klasyfikacji, w której każdy końcowy węzeł będzie
zawierał tylko jedną klasę obiektów!

W wyniku takiego działania uzyskamy drzewa „przeuczone”, nadmiernie dopasowane. Drzewo będzie
klasyfikowało (odtwarzało) obserwacje ze 100% poprawnością. Równocześnie uzyskany,
skomplikowany model, który nie będzie radził sobie z nowymi, nieznanymi obserwacjami.
Etap 2: Wyznaczenie końca podziałów.

L.P. Dochody Student Płeć Kupuje komputer


1 średnie tak mężczyzna tak
2 średnie nie kobieta nie
3 wysokie tak kobieta tak
4 niskie tak mężczyzna nie
5 niskie tak kobieta nie
6 średnie tak kobieta tak
7 niskie nie kobieta nie
8 średnie nie mężczyzna nie
tak Drzewo 1 dla KupujeKomputer
nie
Liczba węzłów dzielonych: 2, liczba węzłów końcowych: 3

ID=1 N=8
nie

Student

= nie ... = Inne


ID=2 N=3 ID=3 N=5
nie tak

Dochody

= niskie ... = Inne


ID=4 N=2 ID=5 N=3
nie tak
Etap 2: Wyznaczenie końca podziałów.

Może to jednak równocześnie doprowadzić do nadmiernego rozrostu drzewa. Będzie ono liczyło
wówczas zbyt wiele liści, co w efekcie spowoduje, że uzyskane reguły decyzyjne staną się niejasne.

Drzewo 5 dla Cena


Liczba węzłów dzielonych: 16, liczba węzłów końcowych: 17
ID=1 N=2401

Śr=321911,104444

Var=41937166418,829208

Pow

<= 68,38 > 68,38

ID=2 N=1982 ID=3 N=419

Śr=281555,494950 Śr=512805,658186

Var=10431234679,888241 Var=146825601940,247770

Pow CenaM2

<= 50,215 > 50,215 <= 9324,34 > 9324,34

ID=4 N=1308 ID=5 N=674 ID=32 N=408 ID=33 N=11

Śr=251102,247668 Śr=340654,675134 Śr=484057,183284 Śr=1579112,727273

Var=7850497950,313909 Var=10147073642,523365 Var=99798726383,763474 Var=723429700438,016480

CenaM2 CenaM2 Pow

<= 6595,655 > 6595,655 <= 6836,125 > 6836,125 <= 127,25 > 127,25

ID=6 N=855 ID=7 N=453 ID=24 N=569 ID=25 N=105 ID=34 N=375 ID=35 N=33

Śr=223682,187544 Śr=302855,341280 Śr=317863,995501 Śr=464158,453333 Śr=459685,762080 Śr=761005,151515

Var=3812843333,417729 Var=11373781159,879122 Var=6141998813,544087 Var=13782846586,611250 Var=36823349871,185913 Var=731978212243,158810

Pow Pow CenaM2 CenaM2

<= 40,105 > 40,105 <= 39,05 > 39,05 <= 5378,27 > 5378,27 <= 5489,97 > 5489,97

ID=8 N=392 ID=9 N=463 ID=18 N=265 ID=19 N=188 ID=26 N=288 ID=27 N=281 ID=36 N=253 ID=37 N=122

Śr=197457,918010 Śr=245885,024816 Śr=268207,588679 Śr=351693,928723 Śr=284750,120972 Śr=351802,770819 Śr=404240,082134 Śr=574667,377049

Var=3735520679,450059 Var=2803089561,754272 Var=11450094518,642132 Var=7188856879,245978 Var=7054793321,132725 Var=2930780835,157011 Var=34489740800,909081 Var=22066713896,398819

CenaM2 Pow Pow Pow

<= 5213,885 > 5213,885 <= 24,9 > 24,9 <= 54,925 > 54,925 <= 69,06 > 69,06

ID=14 N=180 ID=15 N=283 ID=20 N=21 ID=21 N=244 ID=30 N=98 ID=31 N=183 ID=38 N=2 ID=39 N=251

Śr=209361,008833 Śr=269115,847703 Śr=175285,714286 Śr=276204,963115 Śr=313925,316327 Śr=372086,872131 Śr=1465000,000000 Śr=395787,811873

Var=3819051946,788691 Var=768740326,782653 Var=849799319,727891 Var=11555325986,437166 Var=1548409932,563203 Var=2491312001,842011 Var=1404225000000,000000 Var=14538245246,661119

Pow Pow

<= 26,3 > 26,3 <= 89,45 > 89,45

ID=22 N=14 ID=23 N=230 ID=40 N=148 ID=41 N=103

Śr=384767,857143 Śr=269596,786957 Śr=345840,019595 Śr=467557,455146

Var=42478549145,408157 Var=8911972117,506786 Var=11308800031,929424 Var=10442996198,406191


Etap 2: Wyznaczenie końca podziałów.

W celu zakończenia podziału stosuje się najczęściej jedną z reguł:


• określa się minimalną liczebność węzła końcowego. Oznacza to kontynuowanie podziałów do
momentu, kiedy wszystkie węzły końcowe są czyste lub zawierają nie więcej niż określoną
minimalną liczbę obiektów;
• ustala się frakcje obiektów. Podziałów dokonuje się do czasu, gdy wszystkie węzły końcowe są
czyste lub zawierają nie więcej przypadków niż określona frakcja wielkości jednej lub więcej
klas.
• podaje się maksymalną głębokość drzewa lub maksymalną liczbę podziałów – węzłów.
Ocena jakości drzewa decyzyjnego

Jednym z kryteriów oceny jakości drzewa jest liczba błędnie sklasyfikowanych obiektów.
Służy do tego macierz klasyfikacji (z poprzednich wykładów)

Według wskazania funkcji

Liczebność grupy
1 2
testującej

Rzeczywista 1 𝑛11 𝑛12 𝑁1


przynależność
2 𝑛21 𝑛22 𝑁2
Ocena jakości drzewa decyzyjnego

• Koszty Resubstytucji – proporcja przypadków błędnie sklasyfikowanych przez model


klasyfikujący zbudowany na bazie wszystkich przypadków.

• Koszty Sprawdzianu Krzyżowego SK – podstawowe narzędzie wyboru drzewa. Wybieramy


drzewo najmniej złożone o koszcie SK mniejszym od minimalnego
kosztu SK + błąd standardowy SK.

**Opis omówionych zagadnień, wykorzystywanych w Statistice:


https://www.statsoft.pl/textbook/stathome_stat.html?https%3A%2F%2Fwww.statsoft.pl%2Ftextbook%2Fstclatre.h
tml
Ocena jakości drzewa decyzyjnego

Sekwencja kosztów
Zmienna zależna: KUP
0,42

0,41

0,40

0,39

0,38

0,37
Koszt

0,36

0,35

0,34

0,33

0,32

0,31
0 1 2 3 4 5 6 7 8 9 10 Koszt resubst.
Drzewo numer Koszt SK
Ranking zmiennych

Metoda CART pozwala na skonstruowanie rankingu ważności zmiennych predykcyjnych w oparciu o


znormalizowane podziały zastępcze (surrogate split).

Daną zmienną uznajemy za ważną w procesie klasyfikacji, czyli za niosącą informację o klasie, jeśli
zmienna ta często bierze udział w procesie klasyfikowania obiektów ze zbioru uczącego.

Najważniejsza zmienna uzyskuje w rankingu 100 punktów.


Najniższa potencjalnie istotność wynosi 0 punktów.
Ranking zmiennych

Wykres ważności
Zmienna zależna: Cena
1,1

1,0

0,9

0,8

0,7
Ważność

0,6

0,5

0,4

0,3

0,2

0,1

0,0
Pow CenaM2 Izby PowPrzy PomPrzy Miesiac Pietro
Rodzaje drzew

Różnice pomiędzy drzewami dotyczą:

1. Postaci funkcji oceniającej jakość podziału


2. Liczby krawędzi wychodzących z węzła
3. Rodzaju zmiennej objaśnianej.
Algorytmy budowy drzew

Ciągła
Rodzaj Kryterium
Nazwa Rok Autorzy zmienna
drzewa podziału
objaśniana
ID3 1983 Quinlan dowolne Entropia Nie
Brieman,
CART 1984 Friedman binarne Gini indeks Tak
Olshen, Stone
C4.5
1987 Quinlan dowolne Entropia Nie
(C5.0)
CHAID 1993 SPSS Inc. dowolne Chi kwadrat Tak
QUEST 1997 Loh, Shih binarne Statystyki Nie
Zalety drzew decyzyjnych

Szybka klasyfikacja
Zrozumiały proces decyzyjny.
Możliwość stosowania cech różnych typów (numerycznych i nominalnych).
Brak warunków nakładanych na rozkłady badanych zmiennych.
Brak wrażliwości na wartości skrajne.
Odporność na braki danych.
Wady drzew decyzyjnych

Wraz ze wzrostem liczby klas rośnie rozmiar drzewa


Jakość klasyfikacji nie sprzyja małemu rozmiarowi drzewa.
W węzłach testowany jest jeden atrybut (lokalność).
Drzewa decyzyjne - wzmacnianie

Niestabilność drzew:

Mała zmiana w danych powoduje dużą zmianę w podziałach.

Przyczyna leży w hierarchicznej naturze drzew – błąd na początku podziałów przyczynia się do błędów
w następnych podziałach.

Można niestabilność starać się usunąć zmieniając kryterium podziału, ale nie zostanie ona usunięta
całkowicie.

Niestabilność jest cena za prostotę drzew


Las losowy - idea

• konstrukcję wielu drzew klasyfikacyjnych w oparciu o losowo wybierane zmienne wykorzystywane


do budowy pojedynczego drzewa oraz losowy zbiór obiektów służący do jego nauki
• każde z utworzonych w ten sposób drzew klasyfikacyjnych służy klasyfikacji obiektów, które nie
brały udziału przy jego budowie
• każda obserwacja jest klasyfikowana przez wiele drzew, a ostateczna decyzja o klasie, do której
należy, ustalana jest z wykorzystaniem głosowania większościowego.
Oznacza to, że obiekt klasyfikowany jest do klasy (populacji), na którą wskazała największa liczba
drzew w lesie
Las losowy - algorytm

Oznaczenia:
𝑍= 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , (𝑥𝑁 , 𝑦𝑁 ) − próba
D - liczba drzew w lesie
K – liczba zmiennych objaśniających
Las losowy - algorytm

1. Dla każdego d = 1, 2, …, D:
a) Z próby Z losowane jest ze zwracaniem N obserwacji tworząc pseudopróbę Zd (ang. bootstraping).
b) Dla wylosowanej pseudopróby Zd budowane jest drzewo klasyfikacyjne Td. Dla każdego węzła budowanego
drzewa wykonywane są następujące kroki:
I) Spośród K zmiennych objaśniających losowane jest m << K zmiennych bez zwracania. Parametr m jest
ustalany przed rozpoczęciem działania algorytmu, a jego sugerowana wielkość to 𝐾.
II) Dla m zmiennych ustalany jest najlepszy możliwy podział obserwacji
w węźle (jak dla pojedynczego drzewa).
III) Węzeł zostaje podzielony zgodnie z najlepszym znalezionym podziałem
w kroku II.
Kroki I-III są wykonywane dopóki liczba obserwacji w węźle nie będzie równa 1 lub wszystkie obserwacje w
węźle nie będą należały do tej samej klasy.
2. Dla 𝑥𝑖 dokonywana jest predykcja klasy z wykorzystaniem wszystkich drzew 𝑇 𝑑 𝑥𝑖 , 𝑑 = 1, 2, … , 𝐷, przy
których budowie obserwacja 𝑥𝑖 nie brała udziału.
3. Obserwacja 𝑥𝑖 klasyfikowana jest ostatecznie do klasy, na którą wskazała największa liczba drzew w drugim
kroku algorytmu.
Las losowy – cechy charakterystyczne

1. Reguła działania lasu losowego polegająca na klasyfikacji obiektów jedynie przez drzewa
klasyfikacyjne, w których budowie dana obserwacja nie uczestniczyła powoduje, że metoda ta jest
bardziej stabilna z punktu widzenia jakości prognoz dla obiektów próby uczącej i testującej.
2. Ze względu na możliwość sterowania parametrami budowy lasu losowego (liczba drzew, liczba
losowanych zmiennych w budowie pojedynczego drzewa) metoda ta jest szczególnie zalecana w
sytuacji klasyfikacji obiektów opisanych za pomocą dużej liczby zmiennych

Warto obejrzeć:
https://www.youtube.com/watch?v=J4Wdy0Wc_xQ&t=3s
Literatura

• A comparision of Prediction Accuracy, Complexity, and Training Time of Thirty-three Old and New Classification Algorithms, L.,
Tjen-Sien, L. Wei-Yin, S. Yu-Shan, Machine Learning, 40, 2000.
• Classification and regression trees, L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone, Wadsworth & Brooks/Cole Advanced
Books & Software, Monterey 1984.
• Nieparametryczna metoda dyskryminacji i regresji, E. Gatnar, PWN, 2001.
• Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000.
• Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001.
• Odkrywanie asocjacji: Algorytmy i struktury danych, T. Morzy, OWN, 2004.
• Split Selection Methods for Classification Trees, Loh Wei-Yin, Shih Yu-Shan, Statistica Sinica 1997, Vol. 7.
• Systemy uczące się, P. Cichosz, WNT, 2000.
• Sztuczne sieci neuronowe i metody statystyczne, D. Witkowska, Beck, 2002.
Wykład 10.1. Metoda k-najbliższych sąsiadów
(k-nn ang. k nearest neighbours)
Założenia

• Dany jest zbiór uczący zawierający obserwacje z których każda ma przypisany wektor zmiennych
objaśniających oraz wartość zmiennej objaśnianej Y.
• Dana jest zbiór obserwacji z próby testowej, z przypisanymi wektorami zmiennych objaśniających
dla których chcemy prognozować wartość zmiennej objaśnianej Y.
• Zmienne wyrażone są tej samej jednostce, mają ten sam zakres wartości.
Idea metody
Idea metody
Idea metody
Schemat postępowania

Krok I: Ustal wartość parametru 𝑘

Krok II: Znormalizuj wartość badanych zmiennych (jeśli jest to potrzebne).

Krok III: Oblicz odległość każdego obiektu z próby uczącej od obiektu z próby testowej.

Krok IV: Poszukaj 𝑘 najbliższych obiektów (sąsiadów) dla obiektu z próby testowej

Krok V: Głosuj wśród 𝑘 najbliższych obiektów (sąsiadów) w celu wyznaczenia klasy, do której

przyporządkowujesz obiekt z próby testowej.

Walidacja krzyżowa jako metoda optymalizacji wartości parametru 𝑘


Walidacja krzyżowa - idea

• dostępna próba zostaje podzielona na v części

• v-krotnie klasyfikator jest konstruowany na podstawie v-1 części, oraz testowany na tej,

nieuwzględnionej w uczeniu.

• oszacowaniem błędu predykcji jest średnia z uzyskanych w ten sposób v wyników pośrednich.

Zaletą walidacji krzyżowej jest fakt, iż każda z obserwacji zostaje uwzględniona zarówno przy

szacowaniu modelu, jak i przy jego testowaniu. Wadą metody jest większy (w porównaniu

z np. prostym (jednokrotnym) podziałem próby na uczącą i testową) koszt obliczeniowy.


Walidacja krzyżowa – idea (v=10)
Cechy metody k-najbliższych sąsiadów

▪ Konieczność ustalenia liczby najbliższych sąsiadów.


▪ Wyznaczenie miary podobieństwa wśród obiektów (wiele miar podobieństwa).
▪ Jeśli k jest małe, algorytm nie jest odporny na szumy - jakość klasyfikacji jest niska. Jeśli k jest
duże, czas działania algorytmu rośnie - większa złożoność obliczeniowa. Należy wybrać k, które
daje najwyższą trafność klasyfikacji.
Przykład

W pliku xlsx znajdują się informacje o 24 obiektach opisanych za pomocą dwóch zmiennych X1 i X2,
należących do dwóch grup: A i B. Wykorzystując metodę k-najbliższych sąsiadów, gdzie k=5 oraz
miarę euklidesową sprawdź czy obiekt 25 został prawidłowo przyporządkowany do grupy A. Przyjmij,
że zmienne X1 i X2 mają jednakową jednostkę i zakres wartości.

Następnie z wykorzystaniem programu Statistica ustal optymalną wartość k.


Wykład 9. Analiza dyskryminacyjna - przypadek trzech grup.
Szacowanie funkcji dyskryminacyjnej dla trzech populacji –
etapy postępowania

1. Należy oszacować funkcje dyskryminacyjne dla par grup i następnie zastosować odpowiednią regułę
klasyfikacyjną. Zakładając, że liczba populacji to 3, wystarczy oszacować dwie spośród trzech
możliwych funkcji dyskryminacyjnych o postaci:
1
𝐷12 𝑥 = ഥ 𝒙𝟐 𝑇 𝑺−1 𝑥 −
𝒙𝟏 − ഥ ഥ 𝒙𝟐 𝑇 𝑺−1 ഥ
𝒙𝟏 − ഥ 𝒙𝟏 + ഥ
𝒙𝟐
2

1
𝐷13 𝑥 = ഥ 𝒙𝟑 𝑇 𝑺−1 𝑥 −
𝒙𝟏 − ഥ ഥ 𝒙𝟑 𝑇 𝑺−1 ഥ
𝒙𝟏 − ഥ 𝒙𝟏 + ഥ
𝒙𝟑
2
1
𝐷23 𝑥 = ഥ 𝒙𝟑 𝑇 𝑺−1 𝑥 −
𝒙𝟐 − ഥ ഥ 𝒙𝟑 𝑇 𝑺−1 ഥ
𝒙𝟐 − ഥ 𝒙𝟐 + ഥ
𝒙𝟑
2
gdzie 𝑺−1 to oszacowanie macierzy wariancji-kowariancji (wspólnej dla wszystkich populacji).
Szacowanie funkcji dyskryminacyjnej dla trzech populacji –
etapy postępowania

2. Każdą z r grup należy podzielić na dwie podgrupy – tzw. grupę uczącą oraz grupę testującą.
Parametry funkcji dyskryminacyjnych szacuje się w oparciu o dane z grup uczących (!!). Natomiast
jakość otrzymanej funkcji sprawdzamy na grupach testujących. Nie dokonujemy normalizacji ani
ujednolicania cech.
Szacowanie funkcji dyskryminacyjnej dla trzech populacji –
etapy postępowania
3. Oszacowanie parametrów funkcji dyskryminacyjnej:
𝑻 𝑻
𝒊𝒋𝒂 = ഥ
𝒙𝒊 − ഥ
𝒙𝒋 ∙ 𝑺−𝟏 𝑜𝑟𝑎𝑧

1 𝑇 1
𝑖𝑗 𝑎0 = − ഥ
𝒙 −ഥ
𝒙𝒋 ∙ 𝑺−𝟏 ഥ 𝒙𝒋 = − ∙ 𝒂𝑻 ∙ ഥ
𝒙𝒊 + ഥ 𝒙𝒊 + ഥ
𝒙𝒋
2 𝒊 2
gdzie:
𝑖, 𝑗 = 1,2 lub 3 oraz 𝑖 ≠ 𝑗
ഥ 𝒙𝒋 to wektory średnich poszczególnych cech odpowiednio w grupach i-tej oraz j-tej,
𝒙𝒊 oraz ഥ
𝑺 to oszacowanie macierzy wariancji-kowariancji, którą szacuje się w oparciu o macierz 𝑾𝒆 :

𝑺𝒆 𝑾𝒆 𝑻 𝑾𝒆
𝑺= =
𝑛 𝑛
𝑺𝒆 – macierz sum kwadratów i iloczynów mieszanych odchyleń wewnątrzgrupowych (a więc odpowiednik SSE w
ANOVA, wyrażający zmienność wewnątrzgrupową),
𝑛 – liczba stopni swobody równa: 𝑁1 + 𝑁2 + 𝑁3 − 3; 𝑁1 , 𝑁2 oraz 𝑁3 to liczebności grup uczących,
𝑾𝒆 – macierz odchyleń (wewnątrzgrupowych) wartości poszczególnych cech (we wszystkich trzech grupach
uczących) od ich średnich – uwaga: właściwych dla grupy 1,2 albo 3
Szacowanie funkcji dyskryminacyjnej dla trzech populacji –
etapy postępowania

4. Obliczenie wartości funkcji dyskryminacyjnych 𝐷𝑖𝑗 𝑥 dla obiektów z grup testujących i


przydzielenie badanych obiektów do właściwych im grup, zgodnie z regułą klasyfikacyjną, korzystając
z faktu iż 𝐷23 𝑥 = 𝐷13 𝑥 − 𝐷12 𝑥 . Nowy obiekt opisany wektorem x należy zatem do:

Populacji 1, jeżeli 𝐷12 𝑥 > 0 oraz 𝐷13 𝑥 > 0

Populacji 2, jeżeli 𝐷12 𝑥 < 0 oraz 𝐷13 𝑥 > 𝐷12 𝑥 →patrz 𝐷13 𝑥 − 𝐷12 𝑥 > 0֞ 𝐷23 𝑥 > 0

Populacji 3, jeżeli 𝐷13 𝑥 < 0 oraz 𝐷12 𝑥 > 𝐷13 𝑥 →patrz 𝐷13 𝑥 − 𝐷12 𝑥 < 0֞ 𝐷23 𝑥 < 0
Szacowanie funkcji dyskryminacyjnej dla trzech populacji –
etapy postępowania

5. Ocena jakości klasyfikacji – konstrukcja macierzy klasyfikacji dla trzech grup:

Według wskazania funkcji


3 Liczebność grupy
1 2
testującej
Rzeczywista 1 𝑛11 𝑛12 𝑛13 𝑁1
przynależność 2 𝑛21 𝑛22 𝑛23 𝑁2

3 𝑛31 𝑛32 𝑛33 𝑁3

𝑛11
Wskaźnik trafnych klasyfikacji w grupie 1:
𝑁1

𝑛22
Wskaźnik trafnych klasyfikacji w grupie 2:
𝑁2

𝑛33
Wskaźnik trafnych klasyfikacji w grupie 3:
𝑁3

𝑛11 +𝑛22 +𝑛33


Globalny współczynnik trafnych klasyfikacji:
𝑁1 +𝑁2 +𝑁3
Analiza dyskryminacyjna - przykład

W tabeli w Excelu przedstawiono dane na temat 3 gatunków irysów. Każdy obiekt został opisany za
pomocą 4 zmiennych, charakteryzujących wymiary płatków kwiatowych.
1. Z każdego gatunku irysa wydziel grupę uczącą (30 obiektów) oraz grupę testującą
(20 obiektów).
2. Oszacuj funkcje dyskryminacyjne, które pozwolą na odróżnienie trzech gatunków kosaćca, biorąc
pod uwagę wymiary płatków "zewnętrznych" (ang. sepal)
i "wewnętrznych" (ang. petal) kwiatostanu.
3. Sprawdź trafność klasyfikacji na grupie testującej (macierz klasyfikacji).
4. Oceń moc dyskryminacyjną modelu oraz pierwszej zmiennej.
Wykład 8. Liniowa funkcja dyskryminacyjna i jej weryfikacja statystyczna.
Analiza dyskryminacyjna - założenia

Stosując analizę dyskryminacyjną (ang. discriminant analysis) przyjmuje się, iż:


• znamy liczbę klas (skupień, grup), problem do rozwiązania to przydzielenie badanych obiektów do jednej
z grup,
• próby zostały pobrane losowo, niezależnie od siebie z r populacji,
• każda populacja charakteryzuje się rozkładem normalnym o tej samej wariancji, średnie oczywiście mogą
się różnić,
• cechy opisujące obiekty (zmienne 𝑥𝑘 ) nie powinny być ze sobą skorelowane.
• znane jest prawdopodobieństwo a priori 𝑝𝑖 , że obiekt pochodzi z populacji 𝜋𝑖 oraz funkcje gęstości
wektora losowego 𝑓𝑖 (𝑥) w poszczególnych populacjach.
Analiza dyskryminacyjna - idea

Celem jest odgadnięcie z jakiej populacji (spośród dwóch znanych) pochodzi brany pod uwagę obiekt. Jeśli
wiemy, jakie parametry mają rozkłady badanych grup, możemy wyznaczyć ich funkcje gęstości i porównując
obie funkcje stwierdzić, czy bardziej prawdopodobne jest, że obiekt należy do jednej czy do drugiej populacji.
Wartość oszacowanej funkcji dyskryminacyjnej daje odpowiedź, z której populacji pochodzi dany obiekt.
Analiza dyskryminacyjna - idea

Niech 𝛾𝑖 𝑥 oznacza prawdopodobieństwo a posteriori tego, że obiekt, opisany wektorem 𝑥 będący


realizacją wektora losowego 𝑋, należy do populacji 𝜋𝑖 . Korzystając z twierdzenia Bayesa
prawdopodobieństwo to można przedstawić za pomocą wzoru:

𝑝𝑖 𝑓𝑖 (𝑥)
𝛾𝑖 𝑥 = 𝑗 = 1 lub 𝑖 = 2
𝑝1 𝑓1 𝑥 + 𝑝2 𝑓2 (𝑥)
Reguła klasyfikacja: zakłada się, iż obiekt powinien być zaklasyfikowany do tej populacji, dla której
powyższe prawdopodobieństwo jest wyższe czyli:
• jeżeli dla danego wektora 𝑥 zachodzi 𝛾1 𝑥 > 𝛾2 𝑥 to obiekt zaliczany jest do populacji 𝜋1
• jeżeli dla danego wektora 𝑥 zachodzi 𝛾2 𝑥 > 𝛾1 𝑥 to obiekt zaliczany jest do populacji 𝜋2
Analiza dyskryminacyjna - idea

By nadać tej regule postać analityczną zapisuje się ją w postaci ilorazu


prawdopodobieństw:
𝑝1 𝑓1 (𝑥)
𝛾1 𝑥 𝑝 𝑓 𝑥 + 𝑝2 𝑓2 (𝑥) 𝑝1 𝑓1 (𝑥)
𝑍 𝑥 = = 1 1 =
𝛾2 𝑥 𝑝2 𝑓2 (𝑥) 𝑝2 𝑓2 (𝑥)
𝑝1 𝑓1 𝑥 + 𝑝2 𝑓2 (𝑥)

Reguła klasyfikacja: zakłada się, iż obiekt powinien być zaklasyfikowany do:


• pierwszej populacji jeżeli 𝑍 𝑥 ? ?
• drugiej populacji jeżeli 𝑍 𝑥 ? ?
Analiza dyskryminacyjna - idea

Przyjmijmy, że 𝑝1 = 𝑝2 . Wówczas:

𝑝1 𝑓1 (𝑥) 𝑓(𝑥, 𝜑1 ) 𝑁(𝜇1 , Σ) 2𝜋 −0,5𝐾 |Σ|−0,5 exp −0,5(𝑥 − 𝜇1 )𝑇 Σ−1 (𝑥 − 𝜇1 )


𝑍 𝑥 = = = =
𝑝2 𝑓2 (𝑥) 𝑓(𝑥, 𝜑2 ) 𝑁(𝜇1 , Σ) 2𝜋 −0,5𝐾 |Σ|−0,5 exp −0,5(𝑥 − 𝜇 )𝑇 Σ−1 (𝑥 − 𝜇 )
2 2

1
𝑍 𝑥 = 𝑒𝑥𝑝 𝜇1 − 𝜇2 𝑇 ∑−1 𝑥 − 𝜇1 − 𝜇2 𝑇 ∑−1 𝜇1 + 𝜇2
2
Analiza dyskryminacyjna - idea
Analiza dyskryminacyjna - idea

Iloraz funkcji gęstości jest większy niż 1, gdy wartość 𝐷 𝑥 > ? ? ? :

1
𝐷 𝑥 = 𝜇1 − 𝜇2 𝑇 𝛴−1 𝑥 − 𝜇1 − 𝜇2 𝑇 𝛴−1 𝜇1 + 𝜇2
2
𝐷 𝑥 to tzw. funkcja dyskryminacyjna. Jest to wielowymiarowa liniowa funkcja 𝑥, stąd analizę nazywa się
liniową analizą dyskryminacyjną – wystarczy przyjąć że:

1
𝜇1 − 𝜇2 𝑇 𝛴−1 = 𝛼 𝑇 𝑜𝑟𝑎𝑧 − 𝜇1 − 𝜇2 𝑇 𝛴−1 𝜇1 + 𝜇2 = 𝛼0
2
to funkcję dyskryminacyjną można zapisać następująco:
𝐷 𝑥 = 𝛼 𝑇 𝑥 + 𝛼0 = 𝛼1 𝑥1 + 𝛼2 𝑥2 + ⋯ . + 𝛼𝐾 𝑥𝐾 + 𝛼0
Szacowanie funkcji dyskryminacyjnej – etapy postępowania

1. Każdą z grup (1 oraz 2) należy podzielić na dwie podgrupy – tzw. grupę uczącą oraz grupę testującą
(walidacyjną). Parametry funkcji dyskryminacyjnej szacuje się w oparciu o dane z grup uczących (!!).
Natomiast jakość otrzymanej funkcji (jej sprawność w rozpoznawaniu przynależności obiektów) sprawdzamy
na grupach testujących. Nie dokonujemy normalizacji ani ujednolicania cech.
Szacowanie funkcji dyskryminacyjnej – etapy postępowania

2. Oszacowanie parametrów funkcji dyskryminacyjnej:


𝒂𝑻 = ഥ
𝒙𝟏 − ഥ
𝒙𝟐 𝑻
∙ 𝑺−𝟏 𝑜𝑟𝑎𝑧

1 𝑇
1
𝑎0 = − ഥ
𝒙 −ഥ
𝒙𝟐 ∙ 𝑺−𝟏 ഥ 𝒙𝟐 = − ∙ 𝒂𝑻 ∙ ഥ
𝒙𝟏 + ഥ 𝒙𝟏 + ഥ
𝒙𝟐
2 𝟏 2
gdzie:
ഥ 𝒙𝟐 to wektory średnich poszczególnych cech odpowiednio w grupach 1 oraz 2,
𝒙𝟏 oraz ഥ
𝑺 to oszacowanie macierzy wariancji-kowariancji, którą szacuje się w oparciu o macierz 𝑾𝒆 :

𝑺𝒆 𝑾𝒆 𝑻 𝑾𝒆
𝑺= =
𝑛 𝑛
𝑺𝒆 – macierz sum kwadratów i iloczynów mieszanych odchyleń wewnątrzgrupowych (a więc odpowiednik SSE w
ANOVA, wyrażający zmienność wewnątrzgrupową),
𝑛 – liczba stopni swobody równa: 𝑛1 + 𝑛2 − 2; 𝑛1 oraz 𝑛2 to liczebności grup uczących,
𝑾𝒆 – macierz odchyleń (wewnątrzgrupowych) wartości poszczególnych cech (z obu podgrup uczących) od ich
średnich – uwaga: właściwych dla grupy 1 lub 2 (jeżeli wartość danej cechy pochodzi z grupy 1, to od niej
odejmujemy średnią tej cechy dla grupy 1).

.
Szacowanie funkcji dyskryminacyjnej – etapy postępowania

3. Obliczenie wartości funkcji dyskryminacyjnej 𝐷 𝑥 dla obiektów z grup testujących i przydzielenie


badanych obiektów do właściwych im grup, zgodnie ze wskazaniami 𝐷 𝑥 . Jeżeli parametry funkcji
dyskryminacyjnej były szacowane w oparciu o równoliczne grupy uczące, to wartością 𝐷 𝑥 rozdzielającą
obiekty między obiema grupami jest 𝐷 𝑥 = 0, a dokładniej jeśli 𝐷 𝑥 > 0, to obiekt zaliczamy jest do grupy
1,a jeśli 𝐷 𝑥 ≤ 0, to do grupy 2.

.
Szacowanie funkcji dyskryminacyjnej – etapy postępowania

4. Ocena jakości klasyfikacji – konstrukcja macierzy klasyfikacji:

Według wskazania funkcji


Liczebność grupy
1 2
. testującej
Rzeczywista 1 𝑛11 𝑛12 𝑁1
przynależność 2 𝑛21 𝑛22 𝑁2

Globalny współczynnik trafnych klasyfikacji:

𝑛11 + 𝑛22
𝑁1 + 𝑁2

Wskaźnik trafnych klasyfikacji w grupie 1:


𝑛11
𝑁1
Wskaźnik trafnych klasyfikacji w grupie 2:
𝑛22
𝑁2
Zdolność dyskryminacyjna całego modelu

Badana poprzez statystykę 𝛌-Wilksa dla modelu, obliczaną jako:

det( 𝑊𝑒 𝑇 𝑊𝑒 )
λ=
det( 𝑊𝑡𝑜𝑡 𝑇 𝑊𝑡𝑜𝑡 )

gdzie:
𝑊𝑒 – macierz odchyleń wewnątrzgrupowych (od średnich grupowych); 𝑊𝑒 𝑇 𝑊𝑒 : odpowiednik SSE z ANOVA
𝑊𝑡𝑜𝑡 – macierz odchyleń całkowitych (od średniej ogólnej), 𝑊𝑡𝑜𝑡 𝑇 𝑊𝑡𝑜𝑡 to odpowiednik SST z ANOVA, przy
czym średnia ogólna to wektor, którego elementy to średnie poszczególnych cech
Zdolność dyskryminacyjna całego modelu

Populacje różnią się znacząco, jeżeli zmienność całkowita jest dużo większa, niż zmienność wewnątrz
grupowa. Wtedy statystyka λ -Wilksa dla modelu jest bliska zeru i wskazuje ona na dobrą zdolność
dyskryminacyjną modelu. λ ∈< 0,1 >
Testowanie hipotezy zerowej o braku różnic między populacjami (a więc o słabej zdolności
dyskryminującej modelu) polega na przekształceniu statystyki λ -Wilksa dla modelu w statystykę 𝐹.
Zdolność dyskryminacyjna całego modelu
Zakładając, że:
𝑟 – liczba populacji,
𝐾 – liczba cech (zmiennych) opisujących dany obiekt,
𝑁 – łączna liczebność wszystkich badanych grup

𝐾 = 1 oraz 𝑟 dowolne
1−λ 𝑁−𝑟
𝐹𝑟−1,𝑁−𝑟 = ∙
λ 𝑟−1
𝐾 = 2 oraz 𝑟 dowolne
1− λ 𝑁−𝑟−1
𝐹2 𝑟−1 ,2( 𝑁−𝑟−1) = ∙
λ 𝑟−1
𝐾 dowolne oraz 𝑟 = 2 (dwie populacje)
1−λ 𝑁−𝑟−𝐾+1
𝐹𝐾,𝑁−𝑟−𝐾+1 = ∙
λ 𝐾

𝐾 dowolne oraz 𝑟 = 3 (trzy populacje)


1− λ 𝑁−𝑟−𝐾+1
𝐹2𝐾,2(𝑁−𝑟−𝐾+1) = ∙
λ 𝐾

Jeżeli 𝑭 > 𝑭𝒌𝒓 odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 (populacje różnią się istotnie), model ma dobrą zdolność
dyskryminującą.
Zdolność dyskryminacyjna poszczególnych cech (zmiennych)

Badana poprzez współczynnik 𝛌𝒌-Wilksa dla k-tej zmiennej, która wskazuje ile wynosiłby współczynnik λ -
Wilksa dla modelu, gdyby usunąć k-tą zmienną (cechę) z modelu dyskryminacyjnego. λ𝑘 ∈< 0,1 >
Ponieważ każde wprowadzenie dodatkowej zmiennej do modelu poprawia jego zdolności dyskryminujące,
stąd też λ𝑘 jest zawsze nie mniejsza, niż λ dla modelu, a więc λ𝑘 ≥ λ.
Im większa jest różnica między λ𝑘 a λ, tym bardziej istotna jest k-ta zmienna (ma silniejszą zdolność
dyskryminującą i powinna pozostać w modelu).
Zdolność dyskryminacyjna poszczególnych cech (zmiennych)

Różnicę między nimi wskazuje cząstkowy współczynnik 𝛌𝒌 -Wilksa dla k-tej zmiennej, na podstawie
którego podejmuje się decyzję o tym, które zmienne można usunąć z modelu (gdyż ich zdolności
dyskryminacyjne są niewielkie):

λ
λ𝑐𝑧
𝑘 =
λ𝑘
Im cząstkowa λ𝑘 -Wilksa jest mniejsza (bliższa zeru), tym silniejsza zdolność dyskryminacyjna badanej cechy.
Λ𝑐𝑧
𝑘 ∈< 0,1 >

Istotność wpływu k-tej zmiennej bada się także w oparciu o statystykę F :

1 − λ𝑐𝑧𝑘
𝐹𝑟−1,𝑁−𝑟−𝐾+1 = 𝑟−1
λ𝑐𝑧
𝑘
𝑁−𝑟−𝐾+1
Jeżeli 𝑭 > 𝑭𝒌𝒓 odrzucamy 𝑯𝒐 na korzyść 𝑯𝟏 (zmienna jest istotna), k-ta zmienna ma dobrą zdolność
dyskryminującą, nie należy usuwać jej z modelu.
Współczynnik tolerancji dla zmiennych

Współczynnik tolerancji obliczany ze wzoru:


𝑇𝑘 = 1 − 𝑅𝑘2
przy czym 𝑅𝑘 to współczynnik korelacji wielorakiej między analizowaną k-tą zmienną a pozostałymi
zmiennymi występującymi już w modelu.

Współczynnik tolerancji 𝑇𝑘 wskazuje, jaki odsetek nowych informacji (nie wnoszonych przez zmienne
już uwzględnione w modelu) jest wnoszony przez k-tą zmienną. Wskazuje tę część wariancji, która nie
jest wyjaśniona przez pozostałe zmienne w modelu.
Jeśli k-ta zmienna jest zbędna w modelu (nie wnosi nowych informacji lub informacje przez nią
wnoszone są już wnoszone przez pozostałe zmienne w modelu), jej współczynnik tolerancji 𝑇𝑘 będzie
bliski zeru.
Przypadek nierównolicznych grup w próbie uczącej

Z nierównolicznych grup wynika, że 𝑝1 ≠ 𝑝2

Z przedstawionych na poprzednich slajdach wzorów wynika że:


𝑝1 𝑓1(𝑥) 𝑝1
𝑍 𝑥 = = ∙ exp 𝐷 𝑥 .
𝑝2 𝑓2 (𝑥) 𝑝2

𝑝1
Obiekt należy do grupy 1 gdy 𝑍 𝑥 > 1 czyli tym razem gdy ∙ exp 𝐷 𝑥 > 1, a więc gdy exp 𝐷 𝑥 >
𝑝2

𝑝2 𝑝
, co daje po przekształceniu 𝐷 𝑥 > ln( 2).
𝑝1 𝑝1

Wartością funkcji dyskryminacyjnej, na podstawie której dokonuje się klasyfikacji obiektu do danej grupy nie
𝑝
jest już zero, ale wartość ln( 2).
𝑝1
Metody krokowe doboru zmiennych
Metoda krokowa wprzód
Model jest budowany iteracyjnie. W każdym kolejnym kroku brane są pod uwagę wszystkie potencjalne
zmienne i sprawdzane jest, która z nich wniesie najwięcej w ramach dyskryminacji obiektów między
grupami. Ta zmienna zostaje wybrana do modelu i procedura się powaarza. Zmienne są tak długo
wprowadzane aż wartość statystyki F dla nich jest wyższa od zadeklarowanej przez badacza
Fwprowadzenia.

Metoda krokowa wstecz


Na początku budowany jest model ze wszystkimi potencjalnymi zmiennymi (cechami). W każdym
kolejnym kroku z modelu eliminowana jest ta zmienna, która wnosi najmniej do dyskryminacji,
przewidywania przynależności badanych obiektów. W ten sposób, po kolejnych iteracjach w modelu
zostają tylko „ważne” z punktu widzenia dyskryminacji zmienne. Zmienne są tak długo eliminowane z
modelu aż wartość statystyki F dla nich jest niższa od zadeklarowanej przez badacza Fusunięcia.
Analiza dyskryminacyjna - przykład
Poniższa tabela zawiera wartości 3 wybranych wskaźników finansowych dla 10 spółek giełdowych. Wykonaj
odpowiednie polecenia wskazane w arkuszu.

Wskaźnik Rotacja Rotacja Wartości


Spółka płynności należności w zapasów funkcji
bieżącej dniach w dniach

Elkop 0,79 97,3 11,5


Elektromontaż-Warszawa 0,995 121,1 20
Energomontaż-Północ 1,249 135,9 85,2
Mostostal-Zabrze 0,794 45,4 1,5
Resbud 0,825 69,5 4,5
Mostostal-Płock 4,235 101,1 8,6
Polnord 1,233 153,3 15,9
Mostostal-Export 0,917 224,4 26,4
Bauma 0,722 161,1 20,9
LPP 1,436 47,2 118,8
Wykład 7. MANOVA – wielowymiarowa analiza wariancji.
Łączna analiza 𝐾 zmiennych
𝑋1 , 𝑋2 , … , 𝑋𝐾

tworzą 𝐾 − wymiarową zmienną losową

Obserwacja – 𝐾- wymiarowy wektor

𝑥1
𝑥2
𝑥= … .
𝑥𝐾

(realizacja K-wymiarowej zmiennej losowej)


𝑥𝑖𝑘𝑡 − obserwacja 𝑡 zmiennej 𝑋𝑘 w populacji 𝑖

Macierz wszystkich obserwacji (𝐾 zmiennych, 𝑟 populacji)


X1 X2 ....... XK-1 XK

 x111 x121 ... x1( K −1)1 x1K 1  jedna obserwacja


x x122 ... x1( K −1) 2 x1K 2 
 112
 ... ... ... ... ... 
 
 x211 x221 ... x2 ( K −1)1 x2 K 1 
 x212 x222 ... x2( K −1) 2 x2 K 2 
 
 ... ... ... ... ... 
x x321 ... x3( K −1)1 x3 K 1 
 311 
 x312 x322 ... x3( K −1) 2 x3 K 2 
 ... ... ... ... ... 
 
 ... ... ... ... ... 
Niech
ni – oznacza liczebność próby z populacji i
N – oznacza łączną liczebność próby
r
N =  ni
i =1
Rozkład K-wymiarowej zmiennej losowej opisany jest przez:

- wektor wartości oczekiwanych, czyli centroid populacji (rozkładu)

𝜇1
𝜇 = ….
𝜇𝐾

- macierz wariancji–kowariancji

𝐷2 (𝑋1 ) 𝑐𝑜𝑣(𝑋1 , 𝑋2 ) … 𝑐𝑜𝑣(𝑋1 , 𝑋𝐾 )


෍ = 𝑐𝑜𝑣(𝑋 ,𝑋 ) 𝐷2 (𝑋2 ) … . 𝑐𝑜𝑣(𝑋2 , 𝑋𝐾 )
…1 2 …. … …
𝑐𝑜𝑣(𝑋1 , 𝑋𝐾 ) 𝑐𝑜𝑣(𝑋2 , 𝑋𝐾 ) … 𝐷2 (𝑋𝐾 )
Oszacowania z próby parametrów rozkładu:

ഥ𝒊 – wektor średnich „grupowych” / centroid populacji


𝒙

𝑥ҧ𝑖1
ഥ𝒊 = …
𝒙 𝑑𝑙𝑎 𝑖 = 1, … , 𝑟
𝑥ҧ𝑖𝐾

𝑥ҧ𝑖𝑘 - średnia zmiennej 𝑋𝑘 w populacji 𝑖 (na podstawie 𝑛𝑖 obserwacji)


Macierz obserwacji:

X1 X2 ....... XK-1 XK
 x111 x121 ... x1( K −1)1 x1K 1 
x x122 ... x1( K −1) 2 x1K 2 
 112
 ... ... ... ... ... 
 
 x211 x221 ... x2 ( K −1)1 x2 K 1 
 x212 x222 ... x2( K −1) 2 x2 K 2 
 
 ... ... ... ... ... 
x x321 ... x3( K −1)1 x3 K 1 
 311 
 x312 x322 ... x3( K −1) 2 x3 K 2 
 ... ... ... ... ... 
 
 ... ... ... ... ... 
Macierz odchyleń (błędów) „wewnątrz-grupowych”

 x111 − x11 ... x1K1 − x1K 


x − x ... x1K 2 − x1K 
 112 11
 ... ... ... 
 
 x211 − x21 ... x2 K1 − x2 K 
 x212 − x21 ... x2 K 2 − x2 K 
We =  
 ... ... ... 
x − x ... x3K1 − x3K 
 311 31 
 x312 − x31 ... x3K 2 − x3K 
 
 ... ... ... 
 ... ... ... 

Macierz sum kwadratów i iloczynów mieszanych odchyleń


(błędów) losowych:

𝑆𝑒 = 𝑊𝑒𝑇 𝑊𝑒 (odpowiednik SSE)


𝑥෤1
𝑥෤ = … – wektor średnich ogólnych wspólny dla wszystkich populacji
𝑥෤𝐾

𝑥෤𝑘 - średnia zmiennej 𝑋𝑘 w całej próbie (na podstawie 𝑁 obserwacji)

Macierz odchyleń „ogólnych”


 x111 − ~
x1 ... x1K 1 − ~xK 
x − ~ ... x1K 2 − ~x K 
 112 x1
 ... ... ... 
 ~ 
 x211 − x1 ... x2 K 1 − ~
xK 
 x212 − ~
x1 xK 
... x2 K 2 − ~
Wtot =  
 ... ... ... 
x − ~ x ... x3K1 − x K 
~
 311 1 
 x312 − ~
x1 ... x3K 2 − ~xK 
 
 ... ... ... 
 ... ... ... 

Macierz sum kwadratów i iloczynów mieszanych odchyleń (błędów) całkowitych:

𝑇
𝑆𝑇 = 𝑊𝑡𝑜𝑡 𝑊𝑡𝑜𝑡 (odpowiednik SST)
MANOVA (r populacji, K zmiennych)
Badanie różnic między centroidami r populacji

ANOVA to test równości wartości średnich

MANOVA to test równości centroidów r populacji

Układ testowanych (łącznie) hipotez:

𝐻0 : 𝜇1 = 𝜇2 = … = 𝜇𝑟
𝐻1 : nie wszystkie wektory 𝜇𝑖 𝑖 = 1, … , 𝑟 są sobie równe 𝑟 ≥ 2
ZAŁOŻENIA MANOVA

1. Każda z r badanych populacji ma wielowymiarowy rozkład normalny.

2. Wszystkie r populacji mają takie same macierze wariancji/ kowariancji Σ.

𝑛𝑖 − liczebność próby z populacji (zabiegu) 𝑖

𝑁 = σ𝑟𝑖=1 𝑛𝑖 łączna liczebność próby


ANOVA:

𝑆𝑆𝑇 = 𝑆𝑆𝑇𝑅 + 𝑆𝑆𝐸

czyli: całkowita suma kwadratów =zabiegowa suma kwadratów + suma


kwadratów błędów losowych

MANOVA:
𝑆𝑇 = 𝑆𝐴 + 𝑆𝑒
gdzie:
𝑆𝑇 - macierz sum kwadratów i iloczynów mieszanych odchyleń całkowitych
𝑆𝐴 - macierz sum kwadratów i iloczynów mieszanych odchyleń międzygrupowych
𝑆𝑒 - macierz sum kwadratów i iloczynów mieszanych odchyleń wewnątrzgrupowych
Wyznacznik każdej z macierzy mierzy odpowiednią zmienność:

𝑆𝑇 całkowitą
𝑆𝐴 międzygrupową
𝑆𝑒 wewnątrzgrupową

Stąd współczynnik lambda Wilksa

𝑆𝑒
Λ=
𝑆𝑇

Analizowane populacje różnią się między sobą, gdy

ST ≫ Se

czyli gdy lambda jest „bliskie” zera i wtedy odrzucamy H0


Przekształcenie współczynnika 𝜦 w statystkę 𝑭

𝒓 𝑲 Transformacja

1−𝛬𝑁 −𝑟
dowolne 1 = 𝐹(𝑟−1,𝑁−𝑟)
𝛬 𝑟−1
1− 𝛬𝑁 −𝑟 −1
dowolne 2 = 𝐹2(𝑟−1),2(𝑁−𝑟−1)
𝛬 𝑟 − 1
1−𝛬𝑁−𝐾−1
2 Dowolne = 𝐹(𝐾,𝑁−𝐾−1)
𝛬 𝐾

1− 𝛬𝑁 −𝐾 −2
3 dowolne = 𝐹(2𝐾,2[𝑁−𝐾−2])
𝛬 𝐾

Hipotezę zerową 𝐻0 : 𝜇1 = 𝜇2 = … = 𝜇𝑟 odrzucamy gdy 𝐹𝑒𝑚𝑝 > 𝐹𝑘𝑟𝑦𝑡


MANOVA - przykład

Szpitale w państwie XYZ zostały podzielone ze względu na formę własności. Badanie ma


na celu sprawdzenie wpływu formy własności na koszty ich funkcjonowania tj. koszty
opieki oraz koszty utrzymania. W tabeli przedstawiono odpowiednie dane empiryczne.

Forma
Obserwacja Koszty opieki X1 Koszty utrzymania X2
własności
1 9 3
Prywatna 2 6 2
3 9 7
1 2 2
Rządowa
2 2 2
1 3 8
Non-profit 2 1 9
3 2 7

Czy forma własności wpływa na koszty funkcjonowania tych placówek?


Wykład 6. Testy nieparametryczne jako narzędzia
porównywania populacji.
Metody porównywania populacji
Metody porównywania populacji
Rangi i sposób ich ustalania

Rangi odzwierciedlają uporządkowanie obserwacji wg wartości badanej zmiennej. Jeżeli niektóre


obserwacje charakteryzują się tym samym poziomem badanej zmiennej, należy wprowadzić rangi
wiązane (ang. tied ranks). Wtedy rangi nie muszą przyjmować wartości całkowitych.

Ranga wiązana to średnia z rang, które zostałyby przypisane tym samym wartościom obserwacji (2,5 to
średnia z 2+3; 6 to średnia z 5+6+7).

Przykład: Przypisana
Obserwacje
ranga
4
5
5
8
11
11
11
15
19
Rangi i sposób ich ustalania

Rangi odzwierciedlają uporządkowanie obserwacji wg wartości badanej zmiennej. Jeżeli niektóre


obserwacje charakteryzują się tym samym poziomem badanej zmiennej, należy wprowadzić rangi
wiązane (ang. tied ranks). Wtedy rangi nie muszą przyjmować wartości całkowitych.

Ranga wiązana to średnia z rang, które zostałyby przypisane tym samym wartościom obserwacji (2,5 to
średnia z 2+3; 6 to średnia z 5+6+7).

Przykład: Przypisana
Obserwacje
ranga
4 1
5 2,5
5 2,5
8 4
11 6
11 6
11 6
15 8
19 9
Test Kruskala Wallisa – alternatywa dla ANOVA

Test polega na porównaniu rozkładów populacji – jeżeli są one takie same, przyjmuje się, że
charakteryzują się podobnymi parametrami. Jedyne założenia w teście KW to założenie, że wszystkie
próby są losowe i pobrane niezależnie z r populacji.

Danym poddawanym analizie muszą zostać nadane rangi. Test KW bada, czy średnie rangi dla grup
różnią się istotnie:
• jeżeli wszystkie badane próby pochodzą z identycznych populacji, to zakłada się, iż średnie rangi
dla poszczególnych grup są rozrzucone wokół całkowitej średniej rangi obliczonej dla wszystkich
wyników, a więc nie różnią się znacząco między sobą,
• jeżeli próby pochodzą z różnych populacji, to oczekuje się, iż średnie rangi dla grup silnie różnią
się między sobą.
Test Kruskala Wallisa

Hipotezy i postać statystyki testującej


𝑯𝟎 : wszystkie r populacji ma taki sam rozkład
𝑯𝟏 : przynajmniej jedna populacja ma inny rozkład

Wartość empiryczna statystyki testującej w teście Kruskala-Wallisa:


𝑟
12 𝑅𝑖2
𝐻= ෍ − 3(𝑁 + 1)
𝑁(𝑁 + 1) 𝑛𝑖
𝑖=1
gdzie:
𝑛𝑖 – liczebność i-tej próby
𝑁 – łączna liczebność wszystkich grup, zatem: 𝑁 = σ𝑟𝑖=1 𝑛𝑖
𝑅𝑖 – suma rang w i-tej grupie
Test Kruskala Wallisa

Uwaga!
W przypadku gdy dla analizowanych danych wystąpią rangi wiązane wartość empiryczną statystyki
należy skorygować w następujący sposób:
𝑟
1 12 𝑅𝑖2
𝐻′ = ෍ − 3(𝑁 + 1)
𝐶 𝑁(𝑁 + 1) 𝑛𝑖
𝑖=1
gdzie:
σ𝐾 3
𝑘=1(𝑡𝑘 − 𝑡𝑘 )
𝐶 =1−
𝑁3 − 𝑁

𝑡𝑘 − liczba obserwacji wchodzących w skład 𝑘 −tej rangi wiązanej.


𝐾 − ilość rang wiązanych w przypadku analizowanych danych
Test Kruskala Wallisa

Dla nielicznych prób (każda grupa o 𝑛𝑖 < 5), istnieją dokładne tablice rozkładu H przy założeniu
prawdziwości 𝐻0 .

Przy liczebności poszczególnych prób nie mniejszej, niż 5 (tj.𝑛𝑖 ≥ 5), rozkład testu H, przy założeniu
prawdziwości 𝐻0, jest dobrze przybliżany przez rozkład 𝜒 2 o r-1 stopniach swobody.

2
Jeżeli 𝑯 > 𝜒𝑟−1 należy odrzucić 𝑯𝟎 na korzyść 𝑯𝟏, a więc nie wszystkie populacje mają ten sam
rozkład
Test Kruskala Wallisa

Co dalej (jeśli nastąpi odrzucenie H0)?


Jeżeli stwierdzono, iż populacje różnią się, pojawia się (podobnie, jak w ANOVA) pytanie, które
konkretnie populacje się różnią. Odpowiedzi udziela test porównujący średnie rangi między parami
prób (analogiczny do testu HSD Tukey’a).
Weryfikowane hipotezy:
𝑯𝟎 : rozkłady populacji k oraz l są identyczne
𝑯𝟏 : rozkłady populacji k oraz l nie są identyczne
Statystyka empiryczna – porównywanie k-tej próby z l-tą próbą:

𝑅ത𝑘 − 𝑅ത𝑙 k≠l


𝐷= przy czym:
𝑁(𝑁 + 1) 1 1 k, l = 1,2, … , r
∙ +
12 𝑛𝑘 𝑛𝑙

gdzie: 𝑅ത𝑘 oraz 𝑅ത𝑙 oznaczają średnie rangi w poszczególnych próbach.


.
Test Kruskala Wallisa

𝛼
Jeżeli 𝑫 > 𝒛𝒌𝒓 (1 − ), należy odrzucić 𝑯𝟎 na korzyść 𝑯𝟏 , a więc rozkłady dwóch badanych
2

populacji nie są identyczne.

𝛼
𝒛𝒌𝒓 1 − − wartością krytyczną, odczytaną ze standaryzowanej tablicy rozkładu normalnego
2

UWAGA: W Statistice przy wartościach p wykorzystywana jest poprawka Bonferroniego (pdf na


moodle***)
Test Kruskala Wallisa

Etapy postępowania
1. Rangowanie obserwacji z całego zbioru (bez względu na to, z której próby pochodzą).
Porządkowanie w taki sposób, że najniższa ranga przypisywana jest najniższej wartości zmiennej.
2. Sumowanie rang w obrębie poszczególnych prób (wyznaczenie 𝑅𝑖 ).
3. Obliczenie wartości empirycznej statystyki testującej H.
4. Porównanie wartości empirycznej z wartością krytyczną (odczytaną z tablic rozkładu przy poziomie
istotności 𝛼 oraz 𝑟 − 1 liczbie stopni swobody) i podjęcie decyzji.
5. Jeżeli w 4. nastąpi odrzucenie 𝐻0, należy przeprowadzić porównanie populacji parami za pomocą
testu D (analogicznego do HSD Tukey’a).
Test Kruskala Wallisa - przykład

Analityk zatrudniony w branży wydawniczej chce sprawdzić, czy koszt reklamy prasowej danych
rozmiarów jest taki sam w czterech dużych grupach gazet. Pobrano losowo próby po 7 tytułów z każdej
grupy i zanotowano koszt reklamy w każdej z wylosowanych gazet. Dane (w $) zaprezentowano w
tabeli:

Grupa A Grupa B Grupa C Grupa D


57 72 35 73
65 81 42 85
50 64 58 92
45 55 59 68
70 90 46 82
62 38 60 94
48 75 61 66

Czy uważasz, że istnieją różnice w cenie reklamy między czterema wyróżnionymi grupami gazet?
EXCEL
Test U Manna-Whitneya (alternatywa testu t dla dwóch
średnich)

Jedyne założenie w teście U: obie próby są losowe i pobrane niezależnie od siebie z dwóch populacji.

Hipotezy w teście U Manna-Whitneya i etapy postępowania


𝑯𝟎 : obie populacje mają taki sam rozkład
𝑯𝟏 : populacje nie mają takiego samego rozkładu
Test U Manna-Whitneya

Etapy postępowania:
1. Uporządkować wszystkie obserwacje (rosnąco). Przypisać rangi (od najmniejszej).
2. Wartościom równym nadać rangi wiązane.
3. Obliczyć sumę rang obserwacji pochodzących z obu populacji 𝑅𝑖 .
4. Postawić hipotezy:
𝑯𝟎 : obie populacje mają taki sam rozkład
𝑯𝟏 : populacje nie mają takiego samego rozkładu
5. Obliczyć wartości statystyki U Manna-Whitneya:

𝑛1 (𝑛1 + 1)
𝑈 = 𝑛1 𝑛2 + − 𝑅1
2
gdzie: 𝑛1 – liczebność próby 1, 𝑛2 – liczebność próby 2.
Test U Manna-Whitneya

6. Jeżeli próby są duże (𝑛1 , 𝑛2 ≥ 10) przejdź do pkt. 7, a jeżeli są małe (𝑛1 i/lub 𝑛2 < 10) to stosuje
się rozkład statystyki U podany w tablicach (patrz np. Aczel)

7. Jeżeli badane próby są duże (𝑛1 , 𝑛2 ≥ 10), za 𝑅1 przyjmuje się większą z dwóch sum rang oraz
stosuje się aproksymacje normalną. Należy obliczyć wartość oczekiwaną oraz odchylenie standardowe:

𝑛1 𝑛2 𝑛1 𝑛2 (𝑛1 + 𝑛2 + 1)
𝐸 𝑈 = 𝜎𝑈 =
2 12
A następnie obliczyć wartość empiryczną statystyki testu dla dużych prób:
𝑈 − 𝐸 𝑈 + 0,5
𝑧=
𝜎𝑈
Wartość empiryczną porównuje się z wartością krytyczną, odczytaną ze standaryzowanej tablicy
rozkładu normalnego (w Excelu „=rozkład.normalny.s.odw()”), przy czym dla testu dwustronnego
𝛼
odczytujemy wartość z tablicy przy poziomie (poziom istotności dla przeprowadzanego testu to 𝛼).
2
Test U Manna-Whitneya

Jeżeli 𝒛 < 𝒛𝒌𝒓 , odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 , a więc rozkłady w populacjach różnią się
Najczęściej wykorzystywane wartości krytyczne:

Wartość krytyczna 𝑧𝑘𝑟 -1,64 -1,96 -2,58


Poziom istotności 𝛼 dla testu:
0,1 0,05 0,01
dwustronnego
Test U Manna-Whitneya - przykład

Badano dwie grupy zawodników pewnej dyscypliny sportu. Każda grupa poddana była
innemu programowi treningowemu. Następnie z każdej z grup wylosowano po 10
zawodników i poddano ich testowi. Wyniki testu zawiera tabela. Za pomocą testu U Manna-
Whitneya sprawdź czy obie grupy zawodników różnią się pod względem wyników
osiąganych w teście (sprawdź, czy rozkłady wyników testu w obu grupach różnią się).
EXCEL Grupa I Grupa II
27 6
33 9
37 14
52 16
53 29
57 43
69 45
70 47
71 50
77 55
Wykład 5. Dwuczynnikowa analiza wariancji.
Dwuczynnikowa analiza wariancji

Jest metodą badania, czy występują istotne różnice w średnich w r populacjach ze względu na dwa
czynniki (każdy może mieć inna liczbę poziomów).

Pytania, na jakie odpowiada dwuczynnikowa ANOVA:


1) Czy występują istotne różnice w średniej ze względu na czynnik A? (efekt swoisty czynnika A)
2) Czy występują istotne różnice w średniej ze względu na czynnik B? (efekt swoisty czynnika B)
3) Czy występuje wzajemne oddziaływanie (interakcja) między czynnikami A oraz B? (efekt interakcji)

Rozpatrywane są dwa czynniki (JAKOŚCIOWE) mające potencjalny wpływ na wartości zmiennej X


• czynnik A „przyjmuje” a poziomów
• czynnik B „przyjmuje” b poziomów
Oznaczenia w dwuczynnikowej ANOVA
Czynnik B
ma trzy poziomy,
k=1,2,3
Branża
I II III
(k=1) (k=2) (k=3)
54 48 71
61 50 76

Wschodni (j=1)
59 49 65
56 60 70
70 54 68
62 52 62
63 49 73
57 55 60
68 53 79
52 44 61
50 49 64
Czynnik A
Centralny (j=2)
58 54 69
ma trzy
59 53 58
Rejon

poziomy,
62 51 57
J=1,2,3
57 60 63
58 55 65
64 47 63
61 50 50
63 65 82
67 58 72
Zachodni (j=3)

68 62 79
72 70 77
68 57 80
75 61 69
62 68 84
65 65 83
70 73 76
Oznaczenia w dwuczynnikowej ANOVA

Klatka – kombinacja j-tego wiersza oraz k-tej kolumny. Stąd liczba klatek to: a·b
a – liczba poziomów czynnika A ( j = 1, …, a)
b – liczba poziomów czynnika B (k = 1, …, b)
N – liczba wszystkich obiektów poddanych badaniu
𝑛𝑖 – liczebność (i-tej) klatki,
𝑛𝑗 − liczba wszystkich obiektów o j-tym poziomie czynnika A
𝑛𝑘 – liczba wszystkich obiektów o k-tym poziomie czynnika B
Oznaczenia w dwuczynnikowej ANOVA

σ𝑖 σ𝑗 σ𝑘 𝑥𝑖𝑗𝑘
𝑥෤ = – średnia ogólna
𝑁
σ𝑗 σ𝑘 𝑥𝑖𝑗𝑘
𝑥ҧ𝑖 = − średnia w 𝑖 − tej klatce (a więc średnia obiektów o
𝑛𝑖
𝑗 − tym poziomie czynnika A i 𝑘 − tym poziomie czynnika B)

σ𝑗 𝑥𝑖𝑗𝑘
𝑥𝑗ҧ = − średnia obiektów o 𝑗 − tym poziomie czynika A
𝑛𝑗
(bez względu na poziom czynnika B)
σ𝑘 𝑥𝑖𝑗𝑘
𝑥ҧ𝑘 = − średnia obiektów o 𝑘 − tym poziomie czynika B
𝑛𝑘
(bez względu na poziom czynnika A)
Idea dwuczynnikowej ANOVA

SST = SSTR + SSE

෪2 = ෍ 𝑛𝑖 (𝑥ҧ𝑖 − 𝑥෥ )2
෍ ෍ ෍(𝑥𝑖𝑗𝑘 − 𝑥) + ෍ ෍ ෍(𝑥𝑖𝑗𝑘 − 𝑥ҧ𝑖 )2
𝑖 𝑗 𝑘 𝑖 𝑖 𝑗 𝑘
Idea dwuczynnikowej ANOVA

SST = SSTR + SSE

෪2 = ෍ 𝑛𝑖 (𝑥ҧ𝑖 − 𝑥෥ )2
෍ ෍ ෍(𝑥𝑖𝑗𝑘 − 𝑥) + ෍ ෍ ෍(𝑥𝑖𝑗𝑘 − 𝑥ҧ𝑖 )2
𝑖 𝑗 𝑘 𝑖 𝑖 𝑗 𝑘

SSTR = SS A + SS B + SS(AB)
෍ 𝑛𝑖 (𝑥ҧ𝑖 − 𝑥෥ )2 = ෍ 𝑛𝑗 (𝑥𝑗ҧ − 𝑥෥ )2 + ෍ 𝑛𝑘 (𝑥ҧ 𝑘 − 𝑥෥ )2 + ෍ ෍ ෍ 𝑛𝑖 ( 𝑥ҧ𝑖 − 𝑥𝑗ҧ − 𝑥ҧ𝑘 + 𝑥෥ )2
𝑖 𝑗 𝑘 𝑖 𝑗 𝑘
Testy przeprowadzane w ramach dwuczynnikowej ANOVA

1. Test na swoisty efekt czynnika A:

𝐻0 : 𝜇𝐴1 = 𝜇𝐴2 = ⋯ = 𝜇𝐴𝑎


𝐻1 : przynajmniej jedna średnia inna

𝑆𝑆(𝐴)/(𝑎 − 1) 𝑀𝑆(𝐴)
𝐹= =
𝑆𝑆𝐸/(𝑎𝑏 𝑛𝑖 − 1 ) 𝑀𝑆𝐸
Jeżeli 𝑭 > 𝑭𝒌𝒓 , odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 (nie wszystkie populacje charakteryzują się
jednakową średnią pod kątem czynnika A).

Wartość krytyczna – odczytana z tablic rozkładu F przy zadanym poziomie istotności 𝛼 oraz liczbie
stopni swobody licznika (𝑎 − 1) oraz liczbie stopni swobody mianownika 𝑎𝑏 𝑛𝑖 − 1
Testy przeprowadzane w ramach dwuczynnikowej ANOVA

2. Test na swoisty efekt czynnika B:

𝐻0 : 𝜇𝐵1 = 𝜇𝐵2 = ⋯ = 𝜇𝐵𝑏


𝐻1 : przynajmniej jedna średnia inna

𝑆𝑆(𝐵)/(𝑏 − 1) 𝑀𝑆(𝐵)
𝐹= =
𝑆𝑆𝐸/(𝑎𝑏 𝑛𝑖 − 1 ) 𝑀𝑆𝐸
Jeżeli 𝑭 > 𝑭𝒌𝒓 , odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 (nie wszystkie populacje charakteryzują się
jednakową średnią pod kątem czynnika B).

Wartość krytyczna – odczytana z tablic rozkładu F przy zadanym poziomie istotności 𝛼 oraz liczbie
stopni swobody licznika (𝑏 − 1) oraz liczbie stopni swobody mianownika 𝑎𝑏 𝑛𝑖 − 1
Testy przeprowadzane w ramach dwuczynnikowej ANOVA

3. Test na interakcję czynników A oraz B:

𝐻0 : nie występuje interakcja czynników A oraz B


𝐻1 : występuje interakcja czynników A oraz B

𝑆𝑆(𝐴𝐵)/[ 𝑎 − 1 𝑏 − 1 ] 𝑀𝑆(𝐴𝐵)
𝐹= =
𝑆𝑆𝐸/(𝑎𝑏 𝑛𝑖 − 1 ) 𝑀𝑆𝐸

Jeżeli 𝑭 > 𝑭𝒌𝒓 , odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 (występuje interakcja).

Wartość krytyczna – odczytana z tablic rozkładu F przy zadanym poziomie istotności 𝛼 oraz liczbie
stopni swobody licznika (𝑎 − 1)(𝑏 − 1) oraz liczbie stopni swobody mianownika 𝑎𝑏 𝑛𝑖 − 1
Test HSD w dwuczynnikowej ANOVA

Co dalej (jeżeli nastąpi odrzucenie 𝐻0 )?


Analogiczny do testu HSD dla analizy jednoczynnikowej – porównuje się średnie parami (ze względu
na dany poziom czynnika jednego, przy różnych poziomach czynnika drugiego)). Przy istotnej
interakcji, porównuje się parami średnie we wszystkich klatkach.

Uwaga: trzeba uważać przy interakcji.


Jeżeli występuje istotna interakcja między czynnikami, średnie w klatkach powinno się skorygować o interakcję:
średnia w klatce – (efekt w wierszu + efekt w kolumnie + średnia ogólna)
przy czym:
efekt w wierszu: średnia dla wiersza – średnia ogólna
efekt w kolumnie: średnia dla kolumny – średnia ogólna

Jeżeli nie ma interakcji, porównuje się średnie ze względu na poziomy jednego czynnika (bez względu na poziom
drugiego czynnika).
Test HSD w dwuczynnikowej ANOVA

Wartości krytyczne statystyki HSD to:


a) przy testowaniu różnic średnich ze względu na poziomy czynnika A – parami porównujemy średnie dla różnych
poziomów tego czynnika:
𝑀𝑆𝐸
𝐻𝑆𝐷𝑘𝑟 = 𝑞𝛼
𝑏𝑛𝑖
𝑞𝛼 − wartość z tablic studentyzowanego rozkładu rozstępu przy liczbie stopni swobody: 𝑎 oraz 𝑎𝑏(𝑛𝑖 − 1)

Jeżeli 𝐻𝑆𝐷𝑒𝑚𝑝 > 𝐻𝑆𝐷𝑘𝑟 odrzucamy 𝐻0 na korzyść 𝐻1 , badane dwie grupy (ze względu na dwa poziomy czynnika A)
różnią się pod względem średniej.

b) przy testowaniu różnic średnich ze względu na poziomy czynnika B – parami porównujemy średnie dla różnych
poziomów tego czynnika:
𝑀𝑆𝐸
𝐻𝑆𝐷𝑘𝑟 = 𝑞𝛼
𝑎𝑛𝑖
𝑞𝛼 − wartość z tablic studentyzowanego rozkładu rozstępu przy liczbie stopni swobody: 𝑏 oraz 𝑎𝑏(𝑛𝑖 − 1)

Jeżeli 𝐻𝑆𝐷𝑒𝑚𝑝 > 𝐻𝑆𝐷𝑘𝑟 odrzucamy 𝐻0 na korzyść 𝐻1 , badane dwie grupy (ze względu na dwa poziomy czynnika
B) różnią się pod względem średniej.
Dwuczynnikowa analiza wariancji ANOVA - przykład

Przykład 1.
Badano uposażenia dyrektorów (tys.$ rocznie) w trzech branżach i trzech rejonach kraju. Przeprowadź
podwójną ANOVA.
1. Zbuduj tablicę ANOVA i przeprowadź odpowiednie testy.
2. Jeżeli nastąpi odrzucenie H0, przeprowadź testy HSD Tukeya i porównaj średnie parami.
Dwuczynnikowa analiza wariancji ANOVA - przykład
Branża (czynnik B)
I II III
54 48 71
61 50 76
59 49 65

Wschodni
56 60 70
70 54 68
62 52 62
63 49 73
57 55 60
68 53 79
52 44 61
50 49 64
Rejon (czynnik A)

58 54 69
Centralny

59 53 58
62 51 57
57 60 63
58 55 65
64 47 63
61 50 50
63 65 82
67 58 72
68 62 79
Zachodni

72 70 77
68 57 80
75 61 69
62 68 84
65 65 83
70 73 76
Wykład 4. ANOVA – jednowymiarowa analiza wariancji i jej
zastosowania.
.
Jednowymiarowa analiza wariancji ANOVA

Jest metodą badania czy przeciętny poziom zmiennej opisującej obiekty w różnych populacjach jest
istotnie różny.

Założenia przyjmowane w analizie wariancji


1) Próby zostały pobrane losowo, niezależnie od siebie z r populacji
2) Każda populacja charakteryzuje się rozkładem normalnym o tej samej wariancji 𝜎 2 , średnie
oczywiście mogą się różnić (wystarczy jeżeli rozkłady są zbliżone do normalnego, analiza nadal
będzie dawała wiarygodne wyniki) .
Jednowymiarowa analiza wariancji ANOVA

Oznaczenia:
𝑟 − liczba analizowanych populacji 𝑖 = 1, … , 𝑟
𝑁 − łączna liczba obserwacji (liczebność wszystkich prób)
𝑛𝑖 − liczebność próby z populacji i-tej

Hipotezy badawcze:
𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑟
𝐻1 : 𝑝𝑟𝑧𝑦𝑛𝑎𝑗𝑚𝑛𝑖𝑒𝑗 𝑗𝑒𝑑𝑛𝑎 ś𝑟𝑒𝑑𝑛𝑖𝑎 𝑗𝑒𝑠𝑡 𝑖𝑛𝑛𝑎
Jednowymiarowa analiza wariancji ANOVA

Zasada leżąca u podstaw ANOVA


Jeśli średnie w populacjach są różne (co najmniej dwie z nich się różnią między sobą), to
prawdopodobne jest, że odchylenia wyników obserwacji od odpowiadających im średnim z prób 𝑥ҧ𝑖
będą małe w porównaniu z odchyleniami r średnich z prób od średniej ogólnej 𝑥.

𝑥𝑖𝑗 − obserwacja j w populacji i


𝑥ҧ𝑖 − średnia wartość zmiennej w populacji i (grupowa średnia)
𝑛𝑖
σ𝑗=1 𝑥𝑖𝑗
𝑥ҧ𝑖 =
𝑛𝑖
𝑥෤ − ogólna średnia
𝑛
σ𝑟𝑖=1 σ𝑗=1
𝑖
𝑥𝑖𝑗
𝑥෤ =
𝑁
Jednowymiarowa analiza wariancji ANOVA

Trzy rodzaje odchyleń od średniej:


1) Odchylenie losowe, przypadkowe – odchylenie obserwacji od średniej grupowej:
𝑒𝑖𝑗 = 𝑥𝑖𝑗 − 𝑥ҧ𝑖

2) Odchylenie zabiegowe – odchylenie średniej dla danej grupy od ogólnej:


𝑡𝑖 = 𝑥ҧ𝑖 − 𝑥෤

3) Odchylenie ogólne – odchylenie obserwacji od średniej ogólnej


𝑡𝑜𝑡𝑖𝑗 = 𝑒𝑖𝑗 + 𝑡𝑖

𝑥𝑖𝑗 − 𝑥෤ = 𝑥𝑖𝑗 − 𝑥ҧ𝑖 + (𝑥ҧ𝑖 − 𝑥)



Jednowymiarowa analiza wariancji ANOVA

Aby zweryfikować hipotezę o równości wartości oczekiwanej obliczamy sumę kwadratów odchyleń
obserwacji od średniej ogólnej po wszystkich obserwacjach

𝑟 𝑛𝑖 𝑟 𝑛𝑖
2 2
෍ ෍ 𝑥𝑖𝑗 − 𝑥෤ = ෍ ෍ 𝑥𝑖𝑗 − 𝑥ҧ𝑖 + (𝑥ҧ𝑖 − 𝑥)

𝑖=1 𝑗=1 𝑖=1 𝑗=1
Jednowymiarowa analiza wariancji ANOVA

Zasada sumy kwadratów:

𝑟 𝑛𝑖 𝑟 𝑛𝑖 𝑟
2 2
෍ ෍ 𝑥𝑖𝑗 − 𝑥෤ = ෍ ෍ 𝑥𝑖𝑗 − 𝑥ҧ𝑖 ෤ 2
+ ෍ 𝑛𝑖 (𝑥ҧ𝑖 − 𝑥)
𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑖=1

𝑆𝑆𝑇 = 𝑆𝑆𝐸 + 𝑆𝑆𝑇𝑅

Stopnie swobody: N-1 𝑁−𝑟 𝑟−1


Jednowymiarowa analiza wariancji ANOVA

Statystyka służąca do weryfikacji hipotezy zerowej o równości wartości oczekiwanych ma postać:

𝑆𝑆𝑇𝑅
𝑀𝑆𝑇𝑅
𝐹𝑒𝑚𝑝 = 𝑟 − 1 =
𝑆𝑆𝐸 𝑀𝑆𝐸
𝑁−𝑟
Przy założeniu prawdziwości hipotezy zerowej statystyka F ma rozkład Snedecora-Fishera o 𝑟 − 1
stopniach swobody licznika i 𝑁 − 𝑟 stopniach swobody mianownika.

Jeżeli 𝐹𝑒𝑚𝑝 > 𝐹𝑘𝑟𝑦𝑡 to odrzucamy 𝐻0 na korzyść 𝐻1 (nie wszystkie populacje charakteryzują się
jednakową średnią)
Jednowymiarowa analiza wariancji ANOVA

Wartości krytyczne rozkładu F-Snedecora (poziom istotności 0,05) v1-stopni


swobody licznika, v2-stopni swobody mianownika

v1

v2 1 2 3 4 5 6

1 161,448 199,500 215,707 224,583 230,162 233,986

2 18,513 19,000 19,164 19,247 19,296 19,330

3 10,128 9,552 9,277 9,117 9,013 8,941

4 7,709 6,944 6,591 6,388 6,256 6,163

5 6,608 5,786 5,409 5,192 5,050 4,950


Jednowymiarowa analiza wariancji ANOVA

Co dalej (jeżeli nastąpi odrzucenie 𝐻0 )?


Jedną z metod jest porównanie średnich parami metodą Tukeya – test HSD Tukeya (ang. Honestly
Significant Difference).

Test HSD Tukeya pozwala na porównanie dowolnie wybranej pary średnich przy jednym, ustalonym
dla wszystkich porównań, poziomie istotności. Jeżeli porównuje się wszystkie średnie między sobą
𝑟
(parami), należy dokonać porównań.
2

Hipotezy w pojedynczym (dla jednej pary) teście HSD Tukeya:


𝐻0 : 𝜇𝑘 = 𝜇𝑙
𝐻1 : 𝜇𝑘 ≠ 𝜇𝑙
Jednowymiarowa analiza wariancji ANOVA

Statystyką testującą jest moduł różnicy między średnimi z dwóch prób:

𝑘≠𝑙
𝐻𝑆𝐷𝑒𝑚𝑝 = 𝑥ҧ𝑘 − 𝑥ҧ𝑙 przy czym:
𝑘, 𝑙 = 1, … , 𝑟
Wartość krytyczną trzeba obliczyć ze wzoru:

𝑀𝑆𝐸
𝐻𝑆𝐷𝑘𝑟 = 𝑞𝛼 gdzie:
𝑛𝑖

𝑞𝛼 − wartość odczytana z tablic studentyzowanego rozkładu rozstępu (liczba stopni swobody r oraz N-
r)
𝑛𝑖 − liczebność grup (w przypadku gdy grupy są równoliczne); jeżeli liczebności poszczególnych prób
nie są równe, zamiast 𝑛𝑖 wstawia się np. liczebność najmniejszej próby

Jeżeli 𝐻𝑆𝐷𝑒𝑚𝑝 > 𝐻𝑆𝐷𝑘𝑟 to odrzucamy 𝐻0 na korzyść 𝐻1 (badane dwie populacje różnią się pod
względem średniej)
Jednowymiarowa analiza wariancji ANOVA

Test Shapiro-Wilka/test Kołmogorowa Smirnowa na normalność rozkładu:


𝐻0 : próba pochodzi z populacji o rozkładzie normalnym
𝐻0 : próba pochodzi z populacji o innym rozkładzie

Test Levene'a jednorodności wariancji


𝐻0 : wariancje zmiennej w grupach są równe
𝐻0 : wariancje zmiennej w grupach są różne
Idea testu: przeprowadzamy jednoczynnikową analizę wariancji dla zmiennej 𝑦𝑖𝑗 = 𝑥𝑖𝑗 − 𝑥ҧ𝑖
Obliczona w ten sposób statystyka F ma rozkład Fishera o o 𝑟 − 1 stopniach swobody licznika i 𝑁 − 𝑟
stopniach swobody mianownika.
Jednowymiarowa analiza wariancji ANOVA - przykład

Przykład 1.
Spółka Gulfstream Aerospace wyprodukowała trzy różne prototypy samolotu, który mógłby
być masowo produkowany jako najnowszy wielki odrzutowiec. Każdy z trzech prototypów
miał nieco odmienne cechy, które mogłyby mieć pewne konsekwencje dla sprawności
samolotu. W toku procesu decyzyjnego, który miał doprowadzić do ustalenia, jaki rodzaj
samolotu będzie ostatecznie produkowany, zatrudnieni w spółce inżynierowie
zainteresowali się tym, czy trzy produkowane prototypy mają mniej więcej ten sam
przeciętny zasięg lotu. Każdemu z prototypów wyznaczono losowo trasę 10 przelotów i
godzinę odlotu. Mierzono zasięg lotu przy pełnych zbiornikach paliwa. Dane o zasięgu
trzech prototypów podaje tabela (dane w milach). Zweryfikować, czy wszystkie trzy
prototypy mają ten sam przeciętny zasięg. Jeżeli tak nie jest, to stosując test Tukeya
sprawdź, które prototypy różnią się istotnie zasięgiem:
Jednowymiarowa analiza wariancji ANOVA - przykład

Prototyp A Prototyp B Prototyp C


4420 4230 4110
4540 4220 4090
4380 4100 4070
4550 4300 4160
4210 4420 4230
4330 4110 4120
4400 4230 4000
4340 4280 4200
4390 4090 4150
4510 4320 4220
Wykład 3.2 Analiza skupień jako narzędzie wyodrębniania
jednorodnych grup obiektów.
Metody grupowania

Metody grupowania obiektów

Metody hierarchiczne Metody niehierarchiczne


- procedury aglomeracyjne - metoda k-średnich
- procedury deglomeracyjne (podziału) - metoda Hartigana
- metoda taksonomii wrocławskiej - metoda kul
- metoda kostek
- metoda podziału przestrzennego
- taksonomii stochastycznej
Analiza skupień

Wyodrębnienie w zbiorze obiektów Ω = O1 , O2 , … , ON pewnych podzbiorów Ω𝑠 𝑠 = 1, … , 𝑆 . o


następujących własnościach:
• Ω𝑠 ≠ ø 𝑠 = 1,2, … 𝑆
• Ω𝑠 ∩ Ω𝑝 ≠ ø 𝑠 ≠ 𝑝, 𝑠 = 1,2, … 𝑆
• Ω1 ∪ … .∪ Ω𝑆 = 𝛺
• Obiekty zaliczone do jednego podzbioru były do siebie bardziej podobne niż to obiektów
zaliczonych do innych podzbiorów,
• Nie powinno być zbyt wiele podzbiorów jednoelementowych ani też zbioru mającego wszystkie
elementy.
Analiza skupień

Podstawą do przeprowadzenia analizy skupień jest ustalenie miary niepodobieństwa obiektów


opisanych za pomocą k-zmiennych. Zakładać będziemy, że zmienne te zostały znormalizowane.
Charakter zmiennych nie musi być ujednolicony.
Miarą podobieństwa jest odległość zmiennych, której wartości będą tworzyć macierz symetryczną 𝐷.
𝐷 = [𝑑𝑖𝑗 ]

Powyższa macierz definiuje jedynie odległość między obiektami. Gdy zaczynamy tworzyć skupienia
powstaje problem w jaki sposób na podstawie macierzy 𝐷 zdefiniować odległość między skupieniami,
z których przynajmniej jedno zawiera więcej niż jeden obiekt. Poszczególne metody analizy skupień
różnią się właśnie sposobem definiowania odległości między skupieniami.
Analiza skupień – przykładowe zastosowania

- Marketing – wykorzystywanie analizy skupień w celu podzielenia rynku na małe jednorodne grupy,

w celu poprawienia efektywności kampanii promocyjnych

- Rynek ubezpieczeniowy – grupowanie klientów w celu określenia optymalnego poziomu cen

oferowanych produktów

- Psychologia – ustalanie rodzaju osobowości na podstawie przeprowadzonych kwestionariuszy

- Sieci społecznościowe – grupowanie w celu rozpoznawania społeczności w ramach dużych grup

ludzi

- Medycyna – grupowanie genów odpowiadających za zdiagnozowane u pacjentów choroby;

rozpoznawanie w badaniu PET rodzajów tkanek.


Schemat metod aglomeracyjnych
Założenie: dana jest macierz 𝐷 = 𝑑𝑖𝑗 𝑖, 𝑗 = 1, … , 𝑁 odległości między klasyfikowanymi obiektami
𝑂1 , 𝑂2 , … , 𝑂𝑁 .

Każdy obiekt stanowi odrębne skupienie, czyli 𝑁 skupień jednoelementowych.

Etap I: Poszukuje się pary skupień najmniej odległych tzn.:

𝑑𝑝𝑞 = min 𝑑𝑖𝑗 = 𝑑 Ω𝑖 , Ω𝑗 , 𝑖, 𝑗 = 1, … , 𝑁 , 𝑝 < 𝑞


𝑖,𝑗

Etap II: Skupienia Ω𝑝 oraz Ω𝑞 łączy się w jedno skupienie, zachowując dla niego numer 𝑝
Etap III: Z macierzy 𝐷 usuwane są wiersz i kolumna 𝑞 (zmienia się wymiar na 𝑁 − 1)
Etap IV: Obliczane są odległości 𝑑𝑝𝑗 między „nowym” skupieniem Ω𝑝 a pozostałymi skupieniami i
wstawiane są do macierzy 𝐷 w miejsce kolumny/wiersza 𝑝.
Powrót do etapu I.
Koniec procedury: wszystkie obiekty = jedno skupienie
Metody aglomeracyjne

Różnią się sposobem wyznaczania odległości nowo utworzonego skupienia p od


wszystkich pozostałych skupień
• Metoda najbliższego sąsiedztwa (pojedynczego wiązania) – odległość pomiędzy dwoma grupami
obiektów jest równa odległości pomiędzy najbliższymi obiektami (sąsiadami) należącymi do
dwóch różnych grup obiektów.

• Metoda najdalszego sąsiedztwa sąsiedztwa (pełnego wiązania) – odległość pomiędzy dwoma


grupami obiektów jest równa odległości pomiędzy najdalszymi obiektami (sąsiadami) należącymi
do dwóch różnych grup obiektów.
Metody aglomeracyjne
• Metoda średniej międzygrupowej (średnich połączeń) – odległość pomiędzy dwoma grupami
obiektów jest równa średniej arytmetycznej odległości między wszystkimi parami obiektów
należących do dwóch różnych grup.

• Metoda środka ciężkości– odległość pomiędzy dwoma grupami obiektów jest równa odległości
między środkami ciężkości tych grup. .

• Analogiczne są metody średnich połączeń ważonych/ważonych środków ciężkości - w obliczeniach


uwzględnia się jednak wielkość odpowiednich skupień (tzn. liczbę zawartych w nich obiektów)
jako wagę. Powinny być stosowana wtedy, gdy podejrzewamy, że liczności skupień są wyraźnie
nierówne.
Metody aglomeracyjne

Metoda Warda – łączenie dwóch grup w jedną w taki sposób by zminimalizować sumę kwadratów
odchyleń wewnątrz skupień (zagadnienie wyjaśniane przy okazji kolejnego tematu). W danym etapie
spośród wszystkich możliwych do połączenia par skupień wybrana zostaje ta para, która po połączeniu
da skupienie o minimalnym zróżnicowaniu.
Schemat metod aglomeracyjnych
Ogólne formuły wyznaczania odległości skupienia Ω𝑝 = Ω𝑝 ∪ Ω𝑞 od pozostałych skupień Ω𝑗 :
𝑑𝑝𝑗 = 𝑎𝑝 𝑑𝑝𝑗 + 𝑎𝑞 𝑑𝑞𝑗 + 𝑏𝑑𝑝𝑞 + 𝑐|𝑑𝑝𝑗 − 𝑑𝑞𝑗 |
Wartości parametrów 𝑎𝑝 , 𝑎𝑞 , 𝑏, 𝑐 dla różnych metod grupowania obiektów

Metoda 𝑎𝑝 𝑎𝑞 b c
Najbliższego sąsiedztwa 0.5 0.5 0 -0.5
Najdalszego sąsiedztwa 0.5 0.5 0 0.5
Mediany 0.5 0.5 -0.25 0

𝑛𝑝 𝑛𝑞
Średniej grupowej 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0 0

𝑛𝑝 𝑛𝑞 𝑛𝑝 𝑛𝑞
Środka ciężkości − 2
𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛 𝑞 0

𝑛𝑝 + 𝑛𝑗 𝑛𝑞 + 𝑛𝑗 𝑛𝑗
Warda −
𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 0
Przykład 1:

Dana jest macierz odległości między obiektami:

O1 O2 O3 O4 O5
O1 0 4 5 2 5,5
O2 4 0 6 7 2,5
O3 5 6 0 3,5 3
O4 2 7 3,5 0 1,5
O5 5,5 2,5 3 1,5 0

Pogrupuj obiekty z wykorzystaniem metody najbliższego sąsiedztwa.


Przykład 1
Ogólne formuły wyznaczania odległości skupienia Ω𝑝 = Ω𝑝 ∪ Ω𝑞 od pozostałych skupień Ω𝑗 :
𝑑𝑝𝑗 = 𝑎𝑝 𝑑𝑝𝑗 + 𝑎𝑞 𝑑𝑞𝑗 + 𝑏𝑑𝑝𝑞 + 𝑐|𝑑𝑝𝑗 − 𝑑𝑞𝑗 |
Wartości parametrów 𝑎𝑝 , 𝑎𝑞 , 𝑏, 𝑐 dla różnych metod grupowania obiektów
Metoda 𝑎𝑝 𝑎𝑞 b c
Najbliższego sąsiedztwa 0.5 0.5 0 -0.5
Najdalszego sąsiedztwa 0.5 0.5 0 0.5
Mediany 0.5 0.5 -0.25 0

𝑛𝑝 𝑛𝑞
Średniej grupowej 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0 0

𝑛𝑝 𝑛𝑞 𝑛𝑝 𝑛𝑞
Środka ciężkości − 2
𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0

𝑛𝑝 + 𝑛𝑗 𝑛𝑞 + 𝑛𝑗 𝑛𝑗
Warda −
𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 0

𝑑𝑝𝑗 = 0,5 ∙ 𝑑𝑝𝑗 + 0,5 ∙ 𝑑𝑞𝑗 + 0 ∙ 𝑑𝑝𝑞 − 0,5 ∙ |𝑑𝑝𝑗 − 𝑑𝑞𝑗 |


Przykład 1
Ogólne formuły wyznaczania odległości skupienia Ω𝑝 = Ω𝑝 ∪ Ω𝑞 od pozostałych skupień Ω𝑗 :
𝑑𝑝𝑗 = 𝑎𝑝 𝑑𝑝𝑗 + 𝑎𝑞 𝑑𝑞𝑗 + 𝑏𝑑𝑝𝑞 + 𝑐|𝑑𝑝𝑗 − 𝑑𝑞𝑗 |
Wartości parametrów 𝑎𝑝 , 𝑎𝑞 , 𝑏, 𝑐 dla różnych metod grupowania obiektów
Metoda 𝑎𝑝 𝑎𝑞 b c
Najbliższego sąsiedztwa 0.5 0.5 0 -0.5
Najdalszego sąsiedztwa 0.5 0.5 0 0.5
Mediany 0.5 0.5 -0.25 0

𝑛𝑝 𝑛𝑞
Średniej grupowej 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0 0

𝑛𝑝 𝑛𝑞 𝑛𝑝 𝑛𝑞
Środka ciężkości − 2
𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0

𝑛𝑝 + 𝑛𝑗 𝑛𝑞 + 𝑛𝑗 𝑛𝑗
Warda −
𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 0

𝑑𝑝𝑗 = 0,5 ∙ 𝑑𝑝𝑗 + 0,5 ∙ 𝑑𝑞𝑗 − 0,5 ∙ |𝑑𝑝𝑗 − 𝑑𝑞𝑗 |


Przykład 1

Diagram drzewa
Pojedyncze wiązanie
Odległ. euklidesowa
3,2
Przyrosty Przyrosty
3,0
𝑑𝑙 bezwzględne względne
2,8
𝑑𝑙 − 𝑑𝑙−1 𝑑𝑙 /𝑑𝑙−1
2,6
1,5
Odległość wiąz.

2,4

2,2
2 0,5 1,33

2,0
2,5 0,5 1,25

1,8
3 0,5 1,20

1,6

1,4

1,2
O3 O2 O5 O4 O1
Przykład 1

Diagram drzewa
Pojedyncze wiązanie
Odległ. euklidesowa
3,2
Przyrosty Przyrosty
3,0
𝑑𝑙 bezwzględne względne
2,8
𝑑𝑙 − 𝑑𝑙−1 𝑑𝑙 /𝑑𝑙−1
2,6
1,5
Odległość wiąz.

2,4

2,2
2 0,5 1,33

2,0
2,5 0,5 1,25

1,8
3 0,5 1,20

1,6

1,4

1,2
O3 O2 O5 O4 O1
Przykład 2:

Dana jest macierz odległości między obiektami. Pogrupuj obiekty z wykorzystaniem metody
średniej grupowej.

O1 O2 O3 O4 O5
O1 0 4 5 2 5,5
O2 4 0 6 7 2,5
O3 5 6 0 3,5 3
O4 2 7 3,5 0 1,5
O5 5,5 2,5 3 1,5 0
Podział dendogramu

Drzewo połączeń (dendogram) jest dopiero podstawą do wyodrębnienia skupień obiektów podobnych.
Możliwe są różne warianty postępowania, ale zawsze wyodrębnienie skupień następuje przez wykreślenie z
dendrogramu kolejnych gałęzi od najdłuższej rozpoczynając:
1. Ustalamy z góry liczbę skupień 𝑆 którą zamierzamy podzielić i usuwamy 𝑆 − 1 najdłuższych krawędzi
2. Ustalamy bezwzględne przyrosty 𝑑𝑖 − 𝑑𝑖−1 długości kolejnych krawędzi połączeń i usuwamy tą krawędź,
dla której nastąpił największy przyrost i wszystkie krawędzie od niej dłuższe
𝑑𝑖
3. Obliczamy wskaźnik względnego przyrostu długości krawędzi i usuwamy tę krawędź, gdzie ten
𝑑𝑖−1

iloraz był największy i wszystkie krawędzie od nich większe


4. Ustalamy pierwszą krytyczną wartość długości krawędzi na podstawie macierzy odległości 𝐷. Po
ustaleniu wartości granicznej, odrzucamy wszystko co jest od niej większe
5. Inne metody**:
Islam, M.A., Alizadeh, B., Heuvel, E.R., Bruggeman, R., Cahn, W., Haan, L.D., Kahn, R., Meijer, C., Myin-Germeys, I.,
Os, J.V., & Wiersma, D. (2015). A comparison of indices for identifying the number of clusters in hierarchical
clustering: A study on cognition in schizophrenia patients. Communications in Statistics: Case Studies, Data Analysis
and Applications, 1, 113 - 98.
Schemat hierarchicznych procedur podziału
Założenie: dana jest macierz 𝐷 = 𝑑𝑖𝑗 𝑖, 𝑗 = 1, … , 𝑁 odległości między klasyfikowanymi obiektami
𝑂1 , 𝑂2 , … , 𝑂𝑁 .
Wszystkie obiekty stanowią jedno skupienie Ω = {𝑂1 , 𝑂2 , … , 𝑂𝑁 }

Etap I: W każdym istniejącym skupieniu wyszukiwana jest najbardziej zróżnicowana para obiektów
(tyle par, ile na danym etapie jest skupień!). Ustalana jest ta para, której odległość jest największa.
Załóżmy, że jest to para 𝑂𝑝 oraz 𝑂𝑞 ze skupienia Ω
Etap II: Skupienie Ω ulega stopniowemu podziałowi na dwa mniejsze Ω𝑝 oraz Ω𝑞 „skupione” wokół
odpowiednio 𝑂𝑝 oraz 𝑂𝑞 .
Procedura powtarzana jest do rozpadnięcia zbioru Ω na 𝑁 skupień.
Schemat hierarchicznych procedur podziału

Zasady przydziału obiektów ze skupienia 𝛺 do tworzonych, mniejszych skupień:

Wariant I. Metoda najbliższej grupy.


Dla każdego obiektu pozostałego w 𝛺 szukamy obiektu najbardziej odległego od wszystkich obiektów
już przyporządkowanych do dwóch grup na bezpośrednio niższym szczeblu agregacji. Jeżeli obiekt ten
jest najbardziej odległy od obiektu z pierwszej grupy to przydzielamy go do drugiej z grup i usuwamy
z grupy na danym szczeblu agregacji. W sytuacji gdy obiekt jest najbardziej odległy od obiektu z
drugiej grupy, przydzielamy go do pierwszej z grup i usuwamy z grupy na danym szczeblu agregacji

Wariant II. Metoda najbliższego obiektu.


Dla każdego obiektu pozostałego w 𝛺 szukamy obiektu najmniej odległego od wszystkich obiektów
już przydzielonych do grup na bezpośrednio niższych szczeblach agregacji. Obiekt ten przydzielamy
do tej grupy obiektów na bezpośrednio niższym szczeblu agregacji, od której jest najmniej odległy i
usuwamy go z grupy obiektów na danym szczeblu agregacji (metoda najbliższego obiektu).
Przykład 3:

Dana jest macierz odległości między obiektami:


O1 O2 O3 O4 O5 O6 O7 O8
O1 0 1,414 2,693 5,831 6,557 7,517 9,95 11,576
O2 1,414 0 1,803 4,69 5,385 6,442 8,775 10,488
O3 2,693 1,803 0 3,202 4,387 5,025 7,566 9,069
O4 5,831 4,69 3,202 0 2,236 2,121 4,583 6
O5 6,557 5,385 4,387 2,236 0 1,871 3,464 5,385
O6 7,517 6,442 5,025 2,121 1,871 0 2,739 4,062
O7 9,95 8,775 7,566 4,583 3,464 2,739 0 2,236
O8 11,576 10,488 9,069 6 5,385 4,062 2,236 0

Dokonaj podziału obiektów z wykorzystaniem metody podziałowej (metodą najbliższego obiektu).


Metoda k-średnich

• Metoda optymalizacji iteracyjnej, której celem jest „poprawienie wstępnego” podziału (np. na k
skupień) badanego zbioru obiektów z punktu widzenia pewnej zdefiniowanej funkcji-kryterium (np.
odległość od centrów skupień, błąd grupowania czy stosunek zmienności międzygrupowej do
zmienności wewnątrzgrupowej),
• Ustalamy z góry liczbę grup k, maksymalną liczbę iteracji poprawiania dobroci grupowania oraz
wstępne centra skupień.
Metoda k-średnich

Wstępne centra skupień w Statistice:


• Wybierz obserwacje tak, aby zmaksymalizować odległości skupień. Po wybraniu tej opcji, jako wstępne
centra skupień zostaną wzięte obserwacje lub obiekty zgodnie z zasadami maksymalizacji wstępnych
odległości między skupieniami. Procedura ta może jednak prowadzić do utworzenia skupień
składających się z pojedynczych obserwacji, jeśli w danych występują wyraźne przypadki odstające.
• Sortuj odległości i weź obserwacje przy stałym interwale. W przypadku tej opcji w pierwszej kolejności
wszystkie odległości między obiektami zostaną posortowane, a następnie na początkowe centra skupień
zostaną wybrane obiekty przy stałych interwałach.
• Wybierz pierwszych N (N równe liczbie skupień) obserwacji. Jeśli wybierzemy tą opcję, na wstępne
centra skupień zostanie wziętych N (liczba skupień) pierwszych obserwacji. W ten sposób opcja ta
umożliwia pełną kontrolę nad wyborem wstępnej konfiguracji. Jest ona przydatna zwłaszcza wtedy, gdy
mamy pewne oczekiwania a priori co do natury analizowanych skupień. W takim przypadku przypadki,
które mają stać się wyjściowymi centrami skupień, musimy przenieść na początek pliku.
Schemat metody k-średnich (kryterium-odległość od środka
ciężkości)

Ustalamy liczbę skupień k, liczbę iteracji oraz wstępne centra skupień

Obliczamy odległość każdego obiektu od centrów skupień

Każdy obiekt przyporządkowujemy do grupy, dla której jego odległość od centrum skupienia jest najmniejsza

Obliczamy centra skupień nowych grup

Obliczamy odległość każdego obiektu od „nowych” centrów skupień

Każdy obiekt przyporządkowujemy do grupy, dla której jego odległość od centrum skupienia jest najmniejsza

Przeprowadzamy kolejne iteracje aż do momentu gdy w danej iteracji nie nastąpiło przemieszczenie obiektu
lub osiągnięto założoną liczbę iteracji.
Przykład 4:

W poniższej tabeli przedstawiono 4 obiekty, opisane za pomocą dwóch zmiennych

Obiekt X1 X2

A 1 1

B 2 1

C 4 3

D 5 4

Dokonaj podziału obiektów na 2 skupienia wykorzystując metodę k-średnich. Przyjmij, że wstępnymi


centrami skupień są dwa pierwsze obiekty.

EXCEL
Mierniki jakości grupowania
• Cel grupowania: obiekty należące do tej samej grupy powinny być jak najbardziej do siebie podobne
(jak najwyższa homogeniczność grup), a obiekty należące do różnych grup powinny być jak najbardziej
niepodobne (heterogeniczne)
• Mierniki homogeniczności – im mniejsze wartości tych miar tym większe podobieństwo obiektów
wewnątrz grup.
Przykładowy cząstkowy miernik homogeniczności oparty na odległości obiektów w skupieniu od
centrum skupienia:

σ𝑖∈Ω𝑠 𝑑(𝑂𝑖 , 𝑂𝑠 )
𝑑𝑠 =
𝑛𝑠
𝑑 𝑂𝑖 , 𝑂𝑠 − odległość każdego obiektu od centrum skupienia
𝑛𝑠 − liczebność danego skupienia
Przykładowy sumaryczny miernik homogeniczności bazujący na pomiarze odległości obiektów od
centrów skupień:

σ𝑆𝑠=1 𝑑𝑠
𝑑=
𝑆
𝑆 −liczba wyodrębnionych skupień
Mierniki jakości grupowania
• Mierniki heterogeniczności grup – im wyższe wartości tych miar tym mniejsze podobieństwo
utworzonych grup.
Przykładowy cząstkowy miernik heterogeniczności oparty na odległości między centrem skupenia
danej grupy od centrów pozostałych grup:

σ𝑆𝑠 ′=1 𝑑(𝑂𝑠 , 𝑂𝑠 ′ )


𝑠 ′ ≠𝑠
𝐷𝑠 =
𝑆−1
𝑑(𝑂𝑠 , 𝑂𝑠 ′ ) − odległość między centrami dwóch wyodrębnionych skupień

Przykładowy sumaryczny miernik heterogeniczności bazujący na pomiarze odległości pomiędzy


centrami skupień obiektów:

σ𝑆𝑠=1 𝐷𝑠
𝐷=
𝑆
Mierniki jakości grupowania
• Miernik poprawności grupowania:

𝑑
𝑀𝐽𝐺 =
𝐷

Im niższa wartość tego miernika, tym większa poprawność grupowania


Wykład 3.1. Odległość obiektów jako miara ich zróżnicowania.
Miara odległości między obiektami

Stopień podobieństwa obiektów mierzony jest za pomocą miar odległości.

Miarą odległości między obiektem i-tym a obiektem j-tym nazywamy funkcję d spełniającą warunki:
• dodatniości 𝑑𝑖𝑗 > 0
• symetryczności 𝑑𝑖𝑗 = 𝑑𝑗𝑖
• zwrotności 𝑑𝑖𝑖 = 0
• nierówności trójkąta 𝑑𝑖𝑗 ≤ 𝑑𝑖𝑘 + 𝑑𝑗𝑘
Wzrost wartości miary odległości oznacza zmniejszenie stopnia podobieństwa obiektów ze względu na
charakteryzujące je własności.

Odległości dla wszystkich par badanych obiektów można przedstawić w postaci macierzy:

𝐷 = 𝑑𝑖𝑗
Podstawowe miary odległości

1. Odległość Euklidesa
𝐾

𝑑𝑖𝑗 = ෍ (𝑧𝑖𝑘 − 𝑧𝑗𝑘 )2


𝑘=1

2. Odległość miejska (Manhattan)


𝐾

𝑑𝑖𝑗 = ෍ |𝑧𝑖𝑘 − 𝑧𝑗𝑘 |


𝑘=1
3. Odległość Czybyszewa

𝑑𝑖𝑗 = max |𝑧𝑖𝑘 − 𝑧𝑗𝑘 |


𝑘
4. Odległość Mahalanobisa

𝑇 −1
𝑑𝑖𝑗 = 𝒙𝑖 − 𝒙𝑗 𝑆 𝒙𝑖 − 𝒙𝑗
0,5
𝐾 𝐾

𝑑𝑖𝑗 = ෍ ෍ 𝑠𝑚𝑙 (𝑥𝑖𝑚 − 𝑥𝑗𝑚 )(𝑥𝑖𝑙 − 𝑥𝑗𝑙 )


𝑚=1 𝑙=1

𝑆 −1 - macierz wariancji-kowariancji
𝑠 -element macierz odwrotnej do macierzy kowariancji
Podstawowe miary odległości - przykład

W tabeli przedstawiono dane dotyczące: liczby uczniów i studentów na 1000 ludności 𝑋1 , liczby
odbiorników radiofonicznych na 1000 ludności 𝑋2 oraz liczby odbiorników telewizyjnych na 1000
ludności 𝑋3 na 6 kontynentach świata w 1994 r.

Konstynent 𝑋1 𝑋2 𝑋3
Afryka 171 170 38
Ameryka Północna 231 2013 800
Ameryka Południowa 236 360 166
Azja 179 184 73
Europa 182 736 381
Australia i Oceania 198 990 375
Podstawowe miary odległości - przykład

Dane te tworzą macierz:

171 170 38
231 2013 800
236 360 166
𝑋=
179 184 73
182 736 381
198 990 375

Wyznacz macierz odległości między badanymi kontynentami. Wykorzystaj w tym celu trzy miary:
euklidesową, miejską oraz Czybyszewa.
Podstawowe miary odległości - przykład

II krok: macierz odległości – miara euklidesowa

Ameryka Ameryka
Afryka Azja Europa Australia
Północna Południowa

Afryka
Ameryka
Północna
Ameryka
Południowa
Azja
Europa
Australia
Podstawowe miary odległości - przykład

II krok: macierz odległości – miara miejska

Ameryka Ameryka
Afryka Azja Europa Australia
Północna Południowa

Afryka
Ameryka
Północna
Ameryka
Południowa
Azja
Europa
Australia
Podstawowe miary odległości - przykład

II krok: macierz odległości – miara Czybyszewa

Ameryka Ameryka
Afryka Azja Europa Australia
Północna Południowa

Afryka
Ameryka
Północna
Ameryka
Południowa
Azja
Europa
Australia
Wykład 1 oraz 2. Zjawisko złożone i jego wielowymiarowy opis.
Skale pomiarowe. Metody porządkowania liniowego.
Złożone zjawisko gospodarcze

Zbiór obiektów Ω = 𝑂1 , 𝑂2 , 𝑂3 , … , 𝑂𝑁

Zmienne opisujące te obiekty 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝐾

Poszczególne zmienne mogą być:


• mierzone w różnych skalach
• różnić się charakterem
• wyrażone w różnych jednostkach
• mają różny zakres wartości
Złożone zjawisko gospodarcze - przykłady

Poziom życia mieszkańców Kondycja finansowa przedsiębiorstwa

• Liczba samochodów • Rentowność aktywów


• Sieć wodociągowa • Rentowność sprzedaży

• Wskaźnik bezrobocia • Cykl (zapasów) w dniach


• Liczba osób na izbę
• Wskaźnik płynności
• Spożycie mięsa na osobę • Wskaźnik ogólnego zadłużenia
Skale pomiaru zmiennych

1. Skala nominalna – przyporządkowuje poszczególnym wariantom zmiennej wyłącznie nazwy.


Pozwala na stwierdzenie identyczności/różnic porównywanych obiektów oraz zliczanie obiektów
identycznych/różnych. Przykład: płeć (kobieta, mężczyzna)
2. Skala porządkowa – pozwala dodatkowo na porównywanie wartości zmiennych zaobserwowanych
w obiektach (liniowe porządkowanie obiektów). Nie pozwala na określenie odległości między
obiektami. Umożliwia zliczanie obiektów uporządkowanych Przykład: poziom wykształcenia.
3. Skala przedziałowa – pozwala dodatkowo obliczyć odległości między obiektami, dokonując
pomiaru za pomocą liczb rzeczywistych. Przykład: temperatura ciała.
4. Skala ilorazowa – ma podobny charakter jak skala przedziałowa, z tym że występuje na mniej zero
bezwzględne (zero ogranicza lewostronnie zakres tej skali). Dowolną wartość danego obiektu
można przedstawić jako krotność wartości dla innego obiektu Przykład: wiek czy waga.
Skale pomiaru zmiennych a wykonalność działań

Dopuszczalne operacje
Typ skali
arytmetyczne

Zliczanie zdarzeń (liczba relacji


Nominalna
równości, różności)

Zliczanie zdarzeń (liczba relacji


Porządkowa (rangowa) równości, różności, większości,
mniejszości)

Powyższe oraz dodawanie i


Przedziałowa (interwałowa)
odejmowanie

Powyższe oraz mnożenie i


Ilorazowa (stosunkowa)
dzielenie
Wskazówki dotyczące zmiennych diagnostycznych:

1. Ich wartości nie powinny zależeć od wielkości badanych obiektów – wykorzystywanie


wskaźników natężenia lub struktury.

2. Zmienne powinny silnie różnicować badane obiekty.

3. Zmienne nie powinny być ze sobą silnie skorelowane.


Podział zmiennych ze względu na ich charakter (kierunek
powiązania z poziomem badanego zjawiska)

1. Stymulanty (maksymanty) 𝑋𝑘 – zmienne, których wysokie wartości dla badanych obiektów są


pożądane z punktu widzenia rozpatrywanego zjawiska.

2. Destymulanty (minimanty) 𝑋𝑘𝐷 – zmienne, których wysokie wartości dla badanych obiektów są
niepożądane z punktu widzenia rozpatrywanego zjawiska.

3. Nominanty – 𝑋𝑘𝑁 zmienne, których odchylenia wartości dla badanego obiektu od konkretnej
wartości (nominanta punktowa) lub od przedziału wartości (nominanta przedziałowa) są
niepożądane z punktu widzenia badanego zjawiska.
Etap I. Ujednolicenie charakteru zmiennych – czyli
doprowadzamy zmienne do postaci stymulant

1. Doprowadzenie destymulant do postaci stymulant

a) przekształcenie ilorazowe
1
𝑋𝑘 =
𝑋𝑘𝐷 + 𝑐𝑘
𝑐𝑘 −pewna nieujemna stała

b) przekształcenie różnicowe
𝑋𝑘 = 1 − 𝑋𝑘𝐷
𝑋𝑘 = 100 − 𝑋𝑘𝐷
Etap I. Ujednolicenie charakteru zmiennych – czyli
doprowadzamy zmienne do postaci stymulant

2. Doprowadzenie nomiananty punktowej do stymulant

1
𝑋𝑘 =
𝑋𝑘𝑁 − 𝑋𝑘0 + 𝑐𝑘

𝑋𝑘𝑁 − zmienna o charakterze nominanty punktowej


𝑋𝑘0 − punktowy poziom normalny
Etap I. Ujednolicenie charakteru zmiennych – czyli
doprowadzamy zmienne do postaci stymulant

3. Doprowadzenie nomiananty przedziałowej do stymulant

1
1 𝑁 𝑑𝑙𝑎 𝑋𝑘𝑁 < 𝑋𝑘1
𝑋𝑘 − 𝑋𝑘 + 𝑐𝑘
1
𝑋𝑘𝑠 = 𝑑𝑙𝑎 𝑋𝑘1 ≤ 𝑋𝑘𝑁 ≤ 𝑋𝑘2
𝑐𝑘
1
𝑁 2 𝑑𝑙𝑎 𝑋𝑘𝑁 > 𝑋𝑘2
𝑋𝑘 − 𝑋𝑘 + 𝑐𝑘

𝑋𝑘1 − dolna wartość przedziału normalnego


𝑋𝑘2 − górna wartość przedziału normalnego
Etap II. Normalizacja zmiennych – czyli ujednolicenie skal,
jednostek i zakresu wartości zmiennych

Polega na wyrażeniu wszystkich zmiennych na jednej umownej jednolitej skali.


Ogólna forma normalizacyjna ma postać:
𝑝
𝑋𝑘 − 𝑎𝑘
𝑍𝑘 =
𝑏𝑘
gdzie:
𝑋𝑘 − zmienna w postaci stymulanty
𝑍𝑘 − zmienna po normalizacji
𝑎𝑘 , 𝑏𝑘 , 𝑝 − parametry normlizacyjne
Etap II. Normalizacja zmiennych – czyli ujednolicenie
jednostek i zakresu wartości zmiennych

Wybrane formuły normalizacyjne:

a) standaryzacja (klasyczna)
𝑋𝑘 − 𝑋𝑘
𝑍𝑘 =
𝑠𝑘
𝑋𝑘 − średnia dla zmiennej K
𝑠𝑘 − odchylenie standardowe dla zmiennej K
Etap II. Normalizacja zmiennych – czyli ujednolicenie
jednostek i zakresu wartości zmiennych

b) unitaryzacja
𝑋𝑘 − 𝑋𝑘𝑚𝑖𝑛
𝑍𝑘 = 𝑍𝑘 ∈< 0,1 >
𝑋𝑘𝑚𝑎𝑥 − 𝑋𝑘𝑚𝑖𝑛

𝑋𝑘𝑚𝑎𝑥 , 𝑋𝑘𝑚𝑖𝑛 − wartość maksymalna/minimalna dla zmiennej K


Etap II. Normalizacja zmiennych – czyli ujednolicenie
jednostek i zakresu wartości zmiennych

c) przekształcenia ilorazowe
𝑋𝑘
𝑍𝑘 = 𝑚𝑎𝑥 𝑋𝑘 ≥ 0 𝑍𝑘 ∈ (0,1 >
𝑋𝑘
lub
𝑋𝑘
𝑍𝑘 = 𝑋𝑘 > 0 𝑍𝑘 ∈< 1,+∝)
𝑋𝑘𝑚𝑖𝑛

𝑋𝑘𝑚𝑎𝑥 , 𝑋𝑘𝑚𝑖𝑛 − wartość maksymalna/minimalna dla zmiennej K


Etap III. Konstrukcja miernika syntetycznego – zmiennej
agregatowej

Miernik syntetyczny – konstruowany jest w celu scharakteryzowania zjawiska złożonego w obiekcie


𝑂𝑖 opisanego z wykorzystaniem 𝐾 oryginalnych zmiennych, za pomocą jednej zmiennej syntetycznej.

Wyróżniamy dwa rodzaje mierników:


a) mierniki bezwzorcowe
b) mierniki wzorcowe
Etap III. Konstrukcja miernika syntetycznego – zmiennej
agregatowej

a) miernik bezwzorcowy:

𝑀𝑆𝑖 = ෍ 𝑤𝑘 ∙ 𝑧𝑖𝑘 0 ≤ 𝑤𝑘 ≤ 1 ෍ 𝑤𝑘 = 1
𝑘=1

𝑧𝑖𝑘 − wartość znormalizowanej zmiennej 𝑍𝑘 w i-tym obiekcie


𝑤𝑘 − waga zmiennej 𝑍𝑘

Sposób ustalania wag:


1
• wagi są równe 𝑤𝑘 =
𝐾
• ekspercko
• w oparciu o zróżnicowanie wartości zmiennych (kolejny slajd)
Etap III. Konstrukcja miernika syntetycznego – zmiennej
agregatowej

• w oparciu o zróżnicowanie wartości zmiennych - premiowane wysokimi wagami powinny być te


zmienne, które wykazują dużą zmienność
𝑉𝑘 𝑠𝑘
𝑤𝑘 = 𝑉𝑘 =
σ𝑘 𝑉𝑘 𝑋ത𝑘

𝑉𝑘 − współczynnik zmienności dla zmiennej K,


𝑠𝑘 − odchylenie standardowe dla zmiennej K,
𝑋ത𝑘 − średnia dla zmiennej K

Pamiętać: warunek nieujemnych zmiennych diagnostycznych!


Etap III. Konstrukcja miernika syntetycznego – zmiennej
agregatowej - podsumowanie

𝑢𝑗𝑒𝑑𝑛𝑜𝑙𝑖𝑐𝑒𝑛𝑖𝑒
𝑋1 𝑋2 𝑋𝐾 𝑐ℎ𝑎𝑟𝑎𝑘𝑡𝑒𝑟𝑢 𝑍1 𝑍2 𝑍𝐾 𝑀𝑆1
𝑂1 𝑂1 𝑎𝑔𝑟𝑒𝑔𝑜𝑤𝑎𝑛𝑖𝑒
𝑂2 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑎𝑐𝑗𝑎 𝑂2
− 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑦𝑧𝑎𝑐𝑗𝑎 𝑤𝑎𝑟𝑡𝑜ś𝑐𝑖 𝑧𝑚𝑖𝑒𝑛𝑛𝑦𝑐ℎ
−𝑢𝑛𝑖𝑡𝑎𝑟𝑦𝑧𝑎𝑐𝑗𝑎 𝑂𝑁 𝑀𝑆𝑁
𝑂𝑁
−𝑓𝑜𝑟𝑚𝑢ł𝑦 𝑖𝑙𝑜𝑟𝑎𝑧𝑜𝑒
Przykład – kondycja finansowa spółek giełdowych

Poniższe dane przedstawiają wartości trzech wskaźników finansowych dla 7 spółek


giełdowych z IV kwartału 2010 r.:
1. Ustal charakter poszczególnych wskaźników (zmiennych) i sprowadź je
wszystkie do postaci stymulant.
2. Znormalizuj wartości poszczególnych zmiennych stosując unitaryzację.
3. Skonstruuj bezwzorcowy miernik syntetyczny. Wykorzystaj dwa warianty wag:
jednakowe oraz ustalone w oparciu o zróżnicowanie wartości zmiennych. Utwórz
na podstawie wartości tych mierników odpowiednie rankingi spółek ze względu
na ich kondycję finansową. Skomentuj uzyskane wyniki.
Przykład – kondycja finansowa spółek giełdowych

Wskaźnik
Rotacja zapasów w Stopa zwrotu z
Spółka płynności
dniach aktywów
bieżącej

1,269 3,685 0,042


Ambra SA
0,998 20,376 0,041
Polski Koncern Mięsny Duda SA
2,05 16,881 0,012
Indykpol SA
1,009 6,737 0,008
Graal SA
0,819 9,272 0,023
Kofola SA
2,679 13,099 0,177
WAWEL SA
1,319 54,162 0,041
Mostostal W-wa

Nominanta c=0,5
Destymulanta Stymulanta
Charakter
<1,5 – 2>
Przykład – kondycja finansowa spółek giełdowych

Doprowadzenie nomiananty przedziałowej do stymulant

1
1 𝑁 𝑑𝑙𝑎 𝑋𝑘𝑁 < 𝑋𝑘1
𝑋𝑘 − 𝑋𝑘 + 𝑐𝑘
1
𝑋𝑘𝑠 = 𝑑𝑙𝑎 𝑋𝑘1 ≤ 𝑋𝑘𝑁 ≤ 𝑋𝑘2
𝑐𝑘
1
𝑁 2 𝑑𝑙𝑎 𝑋𝑘𝑁 > 𝑋𝑘2
𝑋𝑘 − 𝑋𝑘 + 𝑐𝑘

𝑋𝑘1 − dolna wartość przedziału normalnego


𝑋𝑘2 − górna wartość przedziału normalnego
Przykład – kondycja finansowa spółek giełdowych

Doprowadzenie nomiananty przedziałowej do stymulant

1
𝑁 𝑑𝑙𝑎 𝑋𝑘𝑁 < 1,5
1,5 − 𝑋𝑘 + 0,5
1
𝑋𝑘𝑠 = 𝑑𝑙𝑎 1,5 ≤ 𝑋𝑘𝑁 ≤ 2,0
0,5
1
𝑁 𝑑𝑙𝑎 𝑋𝑘𝑁 > 2,0
𝑋𝑘 − 2,0 + 0,5

𝑋𝑘1 = 1,5 − dolna wartość przedziału normalnego


𝑋𝑘2 = 2,0 − górna wartość przedziału normalnego
=JEŻELI(C27<1,5;1/(1,5-C27+0,5);JEŻELI(2<C27;1/(C27-2+0,5);1/0,5))

=JEŻELI(C27<1,5;1/(1,5-C27+0,5);JEŻELI(2<C27;1/(C27-2+0,5);1/0,5))
C27 – adres przekształcanej wartości nominanty
Przykład – kondycja finansowa spółek giełdowych

Etap I: Ujednolicenie charakteru zmiennych do stymulant

Spółka Wskaźnik płynności bieżącej Rotacja zapasów w dniach Stopa zwrotu z aktywów

Ambra SA 1,368 0,271 0,042


Polski Koncern Mięsny Duda SA 0,998 0,049 0,041
Indykpol SA 1,818 0,059 0,012
Graal SA 1,009 0,148 0,008
Kofola SA 0,847 0,108 0,023
WAWEL SA 0,848 0,076 0,177
Mostostal W-wa 1,468 0,018 0,041
Przykład – kondycja finansowa spółek giełdowych

Etap II: Dokonaj normalizacji zmiennych za pomocą formuły unitaryzacji

Unitaryzacja
𝑋𝑘 − 𝑋𝑘𝑚𝑖𝑛
𝑍𝑘 = 𝑍𝑘 ∈< 0,1 >
𝑋𝑘𝑚𝑎𝑥 − 𝑋𝑘𝑚𝑖𝑛

𝑋𝑘𝑚𝑎𝑥 , 𝑋𝑘𝑚𝑖𝑛 − wartość maksymalna/minimalna dla zmiennej K


Przykład – kondycja finansowa spółek giełdowych

Etap II: Dokonaj normalizacji zmiennych za pomocą formuły unitaryzacji

Wskaźnik Rotacja
Stopa zwrotu z
Spółka płynności zapasów w
aktywów
bieżącej dniach

Ambra SA 0,537 1,000 0,201


Polski Koncern Mięsny Duda SA 0,156 0,121 0,195
Indykpol SA 1,000 0,161 0,024
Graal SA 0,167 0,514 0,000
Kofola SA 0,000 0,353 0,089
WAWEL SA 0,001 0,229 1,000
Mostostal W-wa 0,640 0,000 0,195
Przykład – kondycja finansowa spółek giełdowych

Etap III: Oblicz wartość miernika bezwzorcowego

Miejsce Miejsce
Miernik bezwzorcowy Miernik bezwzorcowy rankingowe rankingowe
Spółka
(jednakowe wagi) (zróżnicowane wagi) (jednakowe (różnicowane
wagi) wagi)

Ambra SA 0,579 0,555 1 1


Polski Koncern Mięsny Duda SA 0,157 0,161 6 7
Indykpol SA 0,395 0,248 3 3
Graal SA 0,227 0,219 5 4
Kofola SA 0,147 0,170 7 6
WAWEL SA 0,41 0,538 2 2
Mostostal W-wa 0,278 0,202 4 5
Etap III. Konstrukcja miernika syntetycznego – zmiennej
agregatowej

b) miernik wzorcowy:
Wzorzec – obiekt opisany za pomocą najwyższych wartości poszczególnych zmiennych

𝑧0 = 𝑧01 , 𝑧02 , … , 𝑧0𝐾 𝑧0𝑘 = max(𝑧𝑖𝑘 )


𝑖
Odległość każdego obiektu od wzorca:
𝐾
1
𝑑𝑖0 = ෍ ( 𝑧𝑖𝑘 − 𝑧0𝑘 )2
𝐾
𝑘=1

Miernik wzorcowy:
𝑑𝑖0
𝑀𝑆𝑊𝑖 = 1 −
𝑑ҧ0 + 2𝑠𝑑
𝑑ҧ0 − średnia odległość od wzorca,
𝑠𝑑 − odchylenie standardowe odległości od wzorca
Przykład – kondycja finansowa spółek giełdowych

Poniżej znajdują się zmienne po unitaryzacji z poprzedniego przykładu.


Skonstruuj miernik wzorcowy opisujący kondycję finansową spółek. Utwórz na
podstawie wartości tego miernika odpowiedni ranking spółek ze względu na ich
kondycję finansową. Skomentuj uzyskane wyniki.

Wskaźnik płynności Stopa zwrotu z


Spółka Rotacja zapasów w dniach
bieżącej aktywów

Ambra SA 0,537 1,000 0,201


Polski Koncern Mięsny Duda SA 0,156 0,121 0,195
Indykpol SA 1,000 0,161 0,024
Graal SA 0,167 0,514 0,000
Kofola SA 0,000 0,353 0,089
WAWEL SA 0,001 0,229 1,000
Mostostal W-wa 0,640 0,000 0,195
Przykład – kondycja finansowa spółek giełdowych

Oblicz wartość miernika wzorcowego dla badanych spółek

Miejsce
Wskaźnik Rotacja
Stopa zwrotu z Miernik rankingowe
Spółka płynności zapasów w di0
aktywów wzorcowy (miernik
bieżącej dniach
wzorcowy)

Ambra SA 0,215 0 0,638 0,533 0,453 1


Polski Koncern Mięsny Duda SA 0,713 0,773 0,648 0,843 0,135 6
Indykpol SA 0 0,704 0,953 0,743 0,238 3
Graal SA 0,694 0,236 1 0,802 0,178 5
Kofola SA 1 0,418 0,83 0,866 0,112 7
WAWEL SA 0,997 0,595 0 0,728 0,253 2
Mostostal W-wa 0,13 1 0,648 0,77 0,21 4
Miernik TOPSIS – oryginalna koncepcja

Procedura postępowania:
1) Normalizacja zmiennych

𝑥𝑖𝑘
𝑧𝑖𝑘 =
σ𝑁 2
𝑖=1 𝑥𝑖𝑘

𝑥𝑖𝑘 – obserwacja k-tej zmiennej dla obiektu


2) Wyznaczenie współrzędnych
a) wzorca

+ 𝑚𝑎𝑥𝑖 𝑧𝑖𝑘 dla zmiennych stymulant


𝑧𝑜𝑘 =ቊ
𝑚𝑖𝑛𝑖 𝑧𝑖𝑘 dla zmiennych destymulant

a) antywzorca

− 𝑚𝑖𝑛𝑖 𝑧𝑖𝑘 dla zmiennych stymulant


𝑧𝑜𝑘 =ቊ
𝑚𝑎𝑥𝑖 𝑧𝑖𝑘 dla zmiennych destymulant
Miernik TOPSIS – oryginalna koncepcja

3) Wyznaczenie odległości każdego obiektu od:


a) wzorca

𝐾
+ + 2
𝑑𝑖𝑜 = ෍ 𝑧𝑖𝑘 − 𝑧𝑜𝑘
𝑘=1

a) antywzorca

𝐾
− − 2
𝑑𝑖𝑜 = ෍ 𝑧𝑖𝑘 − 𝑧𝑜𝑘
𝑘=1

4) Wyznaczenie wartości miernika syntetycznego:


𝑑𝑖𝑜
𝑀𝑆𝑖 = + −
𝑑𝑖𝑜 + 𝑑𝑖𝑜
Miernik TOPSIS – modyfikacja

1) Doprowadzamy wszystkie zmienne do postaci stymulant


2) „Normujemy” wartości zmiennych

𝑥𝑖𝑘
𝑧𝑖𝑘 =
σ𝑁 2
𝑖=1 𝑥𝑖𝑘

𝑥𝑖𝑘 – obserwacja k-tej zmiennej dla obiektu i

3) Wyznaczamy wzorzec i antywzorzec:


+
𝑧𝑜𝑘 = 𝑚𝑎𝑥𝑖 (𝑧𝑖𝑘 ) wzorzec
oraz

𝑧𝑜𝑘 = 𝑚𝑖𝑛𝑖 (𝑧𝑖𝑘 ) antywzorzec
Miernik TOPSIS – modyfikacja

4) Wyznaczenie odległości każdego obiektu od:


a) wzorca

𝐾
+ + 2
𝑑𝑖𝑜 = ෍ 𝑧𝑖𝑘 − 𝑧𝑜𝑘
𝑘=1

a) antywzorca

𝐾
− − 2
𝑑𝑖𝑜 = ෍ 𝑧𝑖𝑘 − 𝑧𝑜𝑘
𝑘=1

5) Wyznaczenie wartości miernika syntetycznego:


𝑑𝑖𝑜
𝑀𝑆𝑖 = + −
𝑑𝑖𝑜 + 𝑑𝑖𝑜
Przykład – kondycja finansowa spółek giełdowych

Poniżej znajdują się zmienne po ujednoliceniu charakteru z poprzedniego przykładu.


Skonstruuj miernik TOPSIS opisujący kondycję finansową spółek. Utwórz na
podstawie wartości tego miernika odpowiedni ranking spółek ze względu na ich
kondycję finansową. Skomentuj uzyskane wyniki

Wskaźnik płynności Stopa zwrotu z


Spółka Rotacja zapasów w dniach
bieżącej aktywów

Ambra SA 1,368 0,271 0,042


Polski Koncern Mięsny Duda SA 0,998 0,049 0,041
Indykpol SA 1,818 0,059 0,012
Graal SA 1,009 0,148 0,008
Kofola SA 0,847 0,108 0,023
WAWEL SA 0,848 0,076 0,177
Mostostal W-wa 1,468 0,018 0,041
Przykład – kondycja finansowa spółek giełdowych

Dane po normalizacji (za pomocą formuły przeznaczonej dla TOPSIS)

Wskaźnik Rotacja
Stopa zwrotu z
Spółka płynności zapasów w
aktywów
bieżącej dniach

Ambra SA 0,417 0,785 0,218


Polski Koncern Mięsny Duda SA 0,304 0,142 0,213
Indykpol SA 0,554 0,171 0,062
Graal SA 0,307 0,430 0,041
Kofola SA 0,258 0,312 0,119
WAWEL SA 0,258 0,221 0,918
Mostostal W-wa 0,447 0,053 0,213
Przykład – kondycja finansowa spółek giełdowych

Oblicz wartość miernika TOPSIS dla badanych spółek

Miejsce
rankingowe
Spółka di0+ di0- Miernik TOPSIS
(miernik
TOPSIS)

Ambra SA 0,713 0,769 0,519 2


Polski Koncern Mięsny Duda SA 0,987 0,198 0,167 7
Indykpol SA 1,053 0,319 0,233 4
Graal SA 0,977 0,379 0,280 3
Kofola SA 0,974 0,270 0,217 5
WAWEL SA 0,637 0,892 0,583 1
Mostostal W-wa 1,022 0,255 0,200 6
Przykład – kondycja finansowa spółek giełdowych

Porównanie rankingów

Miejsce rankingowe Miejsce rankingowe Miejsce rankingowe Miejsce rankingowe


(jednakowe wagi) (różnicowane wagi) (miernik wzorcowy) (miernik TOPSIS)

1 1 1 2
6 7 6 7
3 3 3 4
5 4 5 3
7 6 7 5
2 2 2 1
4 5 4 6
Przykład – kondycja finansowa spółek giełdowych

Porównanie rankingów (współczynniki korelacji Spearmana)

Bezworcowy Bezwzorcowy
Miernik Wzorcowy TOPSIS
(jednakowe wagi) (różne wagi)

Bezworcowy (jednakowe wagi) 1,000000 0,928571 1,000000 0,714286

Bezwzorcowy (różne wagi) 0,928571 1,000000 0,928571 0,892857

Wzorcowy 1,000000 0,928571 1,000000 0,714286

TOPSIS 0,714286 0,892857 0,714286 1,000000


TOPSIS – modyfikacje i zastosowania

• Wachowicz, T., Roszkowska, E., 2013, Metoda TOPSIS i jej rozszerzenia – studium metodologiczne, In book:
Analiza wielokryterialna. Wybrane zagadnienia, Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach,
red. Tadeusz Trzaskalik
Miernik syntetyczny – podział obiektów na grupy

Na podstawie wartości miernika syntetycznego oprócz ustalenia porządku (rankingu obiektów) ze względu na dane
zjawisko możemy także dokonać podziału na grupy o różnym poziomie danego zjawiska.

Podział na 3 grupy
• Bardzo dobre 𝑀𝑆𝑖 > 𝑀𝑆 + 𝑠𝑀𝑆
• Przeciętne 𝑀𝑆 − 𝑠𝑀𝑆 ≤ 𝑀𝑆𝑖 ≤ 𝑀𝑆 + 𝑠𝑀𝑆
• Słabe 𝑀𝑆𝑖 < 𝑀𝑆 − 𝑠𝑀𝑆

Podział na 4 grupy
• Bardzo dobre 𝑀𝑆𝑖 > 𝑀𝑆 + 𝑠𝑀𝑆
• Dobre 𝑀𝑆 < 𝑀𝑆𝑖 ≤ 𝑀𝑆 + 𝑠𝑀𝑆
• Przeciętne 𝑀𝑆 − 𝑠𝑀𝑆 < 𝑀𝑆𝑖 ≤ 𝑀𝑆
• Słabe 𝑀𝑆𝑖 ≤ 𝑀𝑆 − 𝑠𝑀𝑆

You might also like