Professional Documents
Culture Documents
Źródło: https://www.datacamp.com/tutorial/pca-analysis-r
Etapy analizy głównych składowych
Normalizacja zmiennych
Test Barletta/KMO
Wyznaczenie wektorów
własnych i wartości własnych
2∙𝑝+5
𝐵𝑇 = −𝑙𝑛 𝑑𝑒𝑡𝑅 ∗ (𝑁 − 1 − )
6
𝑅 − macierz korelacji
𝑁 – liczba obserwacji
𝑝 – liczba zmiennych
Hipoteza zerowa: macierz korelacji jest macierzą jednostkową
Hipoteza alternatywna: macierz korelacji nie jest macierzą jednostkową
Statystyka testowa ma rozkład ch-kwadrat o 𝑝(𝑝 − 1)/2 stopnia swobody
Współczynnik Kaisera-Mayera-Olkina
KMO reprezentuje stopień, w jakim każda obserwowana zmienna jest przewidywana przez inne
zmienne w zbiorze danych, co wskazuje na przydatność analizy czynnikowej. Współczynnik KMO
przyjmuje wartości z przedziału [0, 1]. Im wyższa jest wartość tego współczynnika, tym silniejsze są
podstawy do zastosowania analizy składowych głównych. Powszechnie przyjmuje się, że wartość tego
współczynnika powinna przekroczyć wartość 0,5.
Przykładowe zastosowanie PCA
Image processing
An image is made of multiple features. PCA is mainly applied in image compression to retain the essential details of a
given image while reducing the number of dimensions. In addition, PCA can be used for more complicated tasks such
as image recognition.
Healthcare
In the same logic of image compression. PCA is used in magnetic resonance imaging (MRI) scans to reduce the
dimensionality of the images for better visualization and medical analysis. It can also be integrated into medical
technologies used, for instance, to recognize a given disease from image scans.
Security
Biometric systems used for fingerprint recognition can integrate technologies leveraging principal component analysis
to extract the most relevant features, such as the texture of the fingerprint and additional information.
Źródło: https://www.datacamp.com/tutorial/pca-analysis-r
Idea analizy głównych składowych
• Wybór takich ładunków 𝑤11 , 𝑤21 , … . , 𝑤𝑝1 które pozwolą maksymalizować wariancję
pierwszej głównej składowej:
𝑝 𝑝
przy warunku:
𝑝
𝒘′𝟏 𝒘𝟏 = σ𝑗=1 𝑤𝑗1
2
=𝟏
𝜕L
= 2𝑺𝒘𝟏 − 2𝜆1 𝒘𝟏 = 2 𝑺 − 𝜆1 𝑰 𝒘𝟏 = 0
𝜕𝒘𝟏
𝑺 − 𝜆1 𝑰 𝒘𝟏 = 0
𝑺𝒘𝟏 = 𝜆1 𝒘𝟏 | ∙ 𝒘′𝟏
𝒘′𝟏 𝑺𝒘𝟏 = 𝜆1 𝒘′𝟏 𝒘𝟏 → 𝑆 2 (𝑌1 ) = 𝜆1
Analogiczne obliczenia dla pozostałych głównych składowych
Interpretacje
𝑝 𝑝
𝑆 2 𝑌𝑙 = 𝑡𝑟𝑺 = 𝜆𝑙
𝑙=1 𝑙=1
gdzie 𝑡𝑟𝑺 jest śladem macierzy kowariancji (suma elementów diagonalnych macierzy
kwadratowej), a zatem jest równa całkowitej wariancji zmiennych wyjściowych 𝑋𝑗
(𝑗 = 1,2, … 𝑝).
Interpretacje
𝜆𝑙
𝐼 𝑌𝑙 = ∙ 100% (𝑙 = 1,2, … , 𝑝)
𝑡𝑟𝑺
który informuje jaką część całkowitej wariancji jest wyjaśniana przez 𝑙 −tą główną
składową.
𝜆𝑙 𝑤𝑗𝑙 𝑤𝑗𝑙 𝜆𝑙
𝑟𝑗𝑙 = =
𝑠𝑗 𝜆𝑙 𝑠𝑗
Ustalenie liczby głównych składowych
Wykorzystaj dane dotyczące rozmiarów żółwi (plik xlsx), wykorzystywanych przy okazji
zajęć dotyczących analizy skupień. Stosując analizę głównych składowych spróbuj
zredukować liczbę zmiennych. Spróbuj nadać nazwę dla otrzymanych głównych
składowych.
Wykład 12. Metodyka analizy zdarzeń.
Założenia i przykładowe badania.
Rodzaje efektywności rynku finansowego
• efektywność alokacyjną - rynek jest efektywny w przypadku, gdy gwarantuje swobodny przepływ kapitału
między przedsiębiorstwami. W ten sposób podmioty zgłaszającego jego niedobór pozyskują środki, a w skali
gospodarki jako całości realizowane są najlepsze projekty inwestycyjne.
• efektywność techniczną - odnosi się do kosztów transakcji zawieranych na rynku. Konkurencja panująca między
pośrednikami na rynku efektywnym gwarantuje obniżkę kosztów zawierania transakcji między stronami oraz
możliwość ich zawierania bez zbędnej zwłoki,
• efektywność informacyjną - rynek efektywny to taki, na którym ceny instrumentów finansowych zawsze w pełni
odzwierciedlają wszelkie dostępne informacje.
Hipotezy o trzech formach efektywności rynku
• Hipoteza o słabej formie efektywności rynku zakłada iż ceny walorów w pełni odzwierciedlają wszystkie
historyczne informacje dotyczące notowań, obrotów oraz sekwencji wzrostów i spadków.
• Hipoteza o silnej efektywności rynku – rynkowe ceny walorów uwzględniają wszystkie, związane z nimi
informacje. Są to informacje zarówno o charakterze publicznie dostępnym, jak i poufne.
Idea i etapy metodyki analizy zdarzeń
Analiza zdarzeń polega na analizie zwyżkowych stóp zwrotu w okresie, w którym miało miejsce udostępnienie do
publicznej wiadomości informacji, istotnych z punktu widzenia emitenta instrumentów finansowych. .
I. Model wyceny aktywów i pasywów (ang. capital assets pricing model – CAPM)
IV. Model indeksowy (ang. Market adjusted lub index adjusted model – IM)
𝑅𝑖,𝑡 = 𝑅𝑚,𝑡
Zdefiniowanie miar oczekiwanej i zwyżkowej stopy zwrotu,
Przez zwyżkową stopę zwrotu (inaczej anormalne stopy zwrotu) należy rozumieć różnicę między rzeczywistą stopą
zwrotu z waloru a oczekiwaną stopą zwrotu oszacowaną na podstawie jednego z wcześniej przedstawionych modeli:
𝐴𝑅𝑖,𝑡 = 𝑅𝑖,𝑡 − 𝑅𝑖,𝑡
gdzie:
𝐴𝑅𝑖,𝑡 − anormalna stopa zwrotu z waloru i-tego w okresie t,
𝑅𝑖,𝑡 − rzeczywista, historyczna stopa zwrotu z waloru i-tego w okresie t.
Określenie długości okna z którego pochodzą dane, określenie
położenia okna estymacyjnego i zdarzenia, szacowanie modelu
oczekiwanej stopy zwrotu
Weryfikacja istotności wpływu zdarzenia
σ𝑁
𝑖=1 𝐴𝑅𝑖,𝑡
𝐴𝑅𝑡 =
𝑁
Odpowiednia statystyka wyrażona jest zależnością (Gurgul H., Analiza zdarzeń na rynkach akcji. Wpływ informacji
na ceny papierów wartościowych, Wydawnictwo Oficyna Ekonomiczna, Kraków 2006, s.51):
𝐴𝑅𝑡
𝑡𝑠𝑡𝑎𝑡 = 𝑁
𝜎ො𝐴𝑅𝑡
gdzie:
𝑁
1
𝜎ො𝐴𝑅𝑡 = (𝐴𝑅𝑖,𝑡 −𝐴𝑅𝑡 )2
𝑁−1
𝑖=1
Przedstawiona statystyka ma rozkład t-Studenta o 𝑁 − 1 stopniach swobody (𝑁 -liczba zdarzeń). Hipotezę zerową należy odrzucić wtedy
gdy |𝑡𝑠𝑡𝑎𝑡 | > 𝑡𝑘𝑟𝑦𝑡 (𝛼, 𝑁 − 1).
Zweryfikowanie postawionej hipotezy - badania wpływu
określonego zdarzenia dla próby spółek
σ𝑁
𝑖=1 𝐴𝑅𝑖,𝑡
𝐴𝑅𝑡 =
𝑁
Odpowiednia statystyka wyrażona jest zależnością (Brown S.J., Warner J.B. Using Daily Stock Returns, The Case of
Event Studies. Journal of Financial Economics, 14:3-31, 1985) :
𝐴𝑅𝑡
𝑡𝑠𝑡𝑎𝑡 =
𝜎ො𝐴𝑅𝑡
gdzie:
𝑡0 +𝑇−1 𝑡0 +𝑇−1
1 1
𝜎ො𝐴𝑅𝑡 = (𝐴𝑅𝑖,𝑡 −𝐴𝑅)2 𝐴𝑅 = 𝐴𝑅𝑡
𝑇−1 𝑇
𝑡=𝑡0 𝑡=𝑡0
Przedstawiona statystyka ma rozkład t-Studenta o T − 1 stopniach swobody (𝑇 −długość okna estymacyjnego). Hipotezę zerową należy
odrzucić wtedy gdy |𝑡𝑠𝑡𝑎𝑡 | > 𝑡𝑘𝑟𝑦𝑡 (𝛼, 𝑇 − 1).
Zweryfikowanie postawionej hipotezy - badania wpływu
określonego zdarzenia dla próby spółek – test nieparametryczny (1)
Test znaków Gurgul H., (Wpływ informacji makroekonomicznych na transakcje na rynkach akcji, Wydawnictwo CH
Beck, Warszawa 2020, s. 193)
𝑝Ƹ 𝑡0 − 0,5 𝑁
𝑍𝑠 = 𝑁 = (𝑝Ƹ − 0,5)
0,5(1 − 0,5) 0,5 𝑡0
𝑝ො𝑡0 −jest odsetkiem ponadprzeciętnych stóp zwrotu 𝐴𝑅𝑖,𝑡0 (dla i=1,2,…, N) odpowiadających momentowi 𝑡0 które są większe
od 0 tzn.:
𝑁
1
𝑝ො𝑡0 = 𝑠𝑖,𝑡0
𝑁
𝑖=1
gdzie:
1 𝐴𝑅𝑖,𝑡0 > 0
𝑠𝑖,𝑡0 = ൝
Zweryfikowanie postawionej hipotezy - badania wpływu
określonego zdarzenia dla próby spółek – test nieparametryczny (2)
Uogólniony test znaków Cowana (Wpływ informacji makroekonomicznych na transakcje na rynkach akcji,
Wydawnictwo CH Beck, Warszawa 2020, s. 194)
- Hipoteza główna o braku wpływu zdarzenia na stopy zwrotu akcji = odsetek dodatnich ponadprzeciętnych stóp zwrotu w
danym momencie 𝑡0 z okna zdarzenia nie odbiega od odsetka pozytywnych ponadprzeciętnych stóp zwrotu
zaobserwowanych w oknie estymacyjnym, czyli w czasie normalnego zachowania stóp zwrotu
- Statystyka testowa
𝑝Ƹ 𝑡0 − 𝑝0
𝑍𝑠 = 𝑁
𝑝0 (1 − 𝑝0 )
gdzie:
𝑁 𝑇1
1
𝑝0 = 𝑠𝑖,𝑡
𝑁𝐿1
𝑖=1 𝑡=𝑇0
Uogólniony test znaków Corrado-Zivneya (Wpływ informacji makroekonomicznych na transakcje na rynkach akcji,
Wydawnictwo CH Beck, Warszawa 2020, s. 194)
- Brane pod uwagę jest położenie ponadprzeciętnych stóp zwrotu względem mediany
- Dla każdego zdarzenia niech 𝐴𝑅𝑖,𝑚𝑒 będzie medianą ponadprzeciętnych stóp zwrotu z okna estymacyjnego i z okna
zdarzenia. Niech ponadto 𝐺𝑖,𝑡 = 𝑠𝑖𝑔𝑛 𝐴𝑅𝑖,𝑡 − 𝐴𝑅𝑖,𝑚𝑒 będzie znakiem odchylenia, równym -1,0 lub 1.
- Statystyka testowa:
𝑁
1
𝑍𝐶𝑍 = 𝐺𝑖,𝑡0
𝑁𝑠𝐺 𝑖=1
gdzie:
2
𝑇2 𝑁
1 1
𝑠𝐺 = 𝐺𝑖,𝑡
𝐿1 + 𝐿2 − 1 𝑁 𝑖=1
𝑡=𝑇0
Jest oszacowaniem odchylenia standardowego na podstawie wszystkich danych (tzn. z okna estymacyjnego i z okna zdarzenia)
Statystyka ma asymptotycznie rozkład N(0,1)
Analiza zdarzeń – przykład zastosowania
Definicja zdarzenia
• Wpływ zmian w składach indeksów WIG20 oraz mWIG40 na kursy akcji spółek notowanych na GPW w
Warszawie
• Wpływ publikacji wskaźników makroekonomicznych opisujących gospodarkę Stanów Zjednoczonych na stopy
zwrotu indeksu WIG/spółek notowanych na GPW
• Wpływ zapowiedzi dywidendy na ceny akcji
• Efekty zmian podstawowych stóp procentowych
• Opinie analityków, transakcje insiderów oraz rezygnacje członków zarządu z zajmowanych stanowisk
• Wpływ transakcji przejęć na cenę akcji spółek notowanych na Giełdzie Papierów Wartościowych w
Warszawie
• Wpływ ataków terrorystycznych na indeksy Giełdy Papierów Wartościowych w Warszawie
• Wpływ fake newsów na notowania kryptowalut
• Wpływ fake newsów na notowania akcji spółek notowanych w USA
• Wpływ ważnych wydarzeń sportowych na notowania akcji firm sponsorujących sport
Źródła:
• Gurgul H., Analiza zdarzeń na rynkach akcji. Wpływ informacji na ceny papierów wartościowych,
Wydawnictwo Oficyna Ekonomiczna, Kraków 2006.
• Gurgul H., Wpływ informacji makroekonomicznych na transakcje na rynkach akcji, Wydawnictwo CH
Beck, Warszawa 2020.
• Czekaj J., Woś M., Żarnowski J., Efektywność giełdowego rynku akcji w Polsce, Wydawnictwo Naukowe PWN,
Warszawa 2001.
• Szyszka A., Efektywność Giełdy Papierów Wartościowych w Warszawie na tle rynków dojrzałych, Wydawnictwo
Akademii Ekonomicznej w Poznaniu, Poznań 2003.
• Elton E.J., Gruber M.J., Nowoczesna teoria portfelowa i analiza papierów wartościowych, Wydawnictwo WIG-
Press, Warszawa 1998
• Campbell J.Y., Lo A.W., MacKinlay A.C., The Econometrics of Financial Markets, Princeton University Press,
Princeton, New Jersey 1997.
• Pynnönen S., On regression based event study, Acta Wasaensia, Nr 143. 2005
Wykład 11. Metoda quasi-eksperymentalne.
Założenia i przykładowe badania
Idea metody syntetycznej kontroli
Metodyka stosowana dla porównawczych studiów przypadków, dąży do oszacowania wartości wyniku dla jednostki
poddanej interwencji politycznej, gdyby jej nie było, z wykorzystaniem niewielkiej grupy podobnych jednostek, które
nie zostały poddane interwencji. Bazuje na założeniu, że kombinacja wielu jednostek z puli dawców może lepiej
odzwierciedlić cechy jednostki poddanej interwencji (Abadie i Gardeazabal 2003, Abadie i in 2010, Abadie i in 2015).
Załóżmy że:
• zgromadziliśmy dane o 𝐽+1 jednostkach: 𝑗 = 1,2, … , 𝐽 + 1
• pierwsza jednostka 𝑗 = 1 jest jednostka poddaną interwencji politycznej (ang. treated unit),
• pozostałe jednostki 𝑗 = 2, … . 𝐽 + 1 są obiektami z tzw. puli dawców (ang. donor pool) i stanowią zbór
potencjalnych jednostek porównawczych, które nie zostały poddane interwencji politycznej
• zebrane dane dotyczą 𝑇 okresów, z czego pierwsze 𝑇0 to okresy przed interwencją polityczną (okresy
1,2, … , 𝑇0 )
• dla każdej jednostki 𝑗 dysponujemy także zbiorem 𝑘 predyktorów wyniku 𝑋1𝑗, … , 𝑋𝑘𝑗 które mogą
Załóżmy że:
• wektory o wymiarach (𝑘𝑥1) 𝑿𝟏 , … . 𝑿𝑱+𝟏 zawierają wartości predyktorów dla jednostek 𝑗 = 1, … . 𝐽 + 1.
interwencji politycznej, oraz przez 𝑌𝑗𝑡𝐼 wynik, gdyby taka interwencja miała miejsce
• dla jednostki poddanej interwencji politycznej (𝑗 = 1) oraz okresu po jej wystąpieniu 𝑡 > 𝑇0 zdefiniować
𝐼
można 𝑌1𝑡 jako potencjalny wynik po interwencji. Dzięki temu efektem samej interwencji dla dotkniętej
𝐼 𝑁
nią jednostki w okresie 𝑡 > 𝑇0 jest 𝜏1𝑡 = 𝑌1𝑡 − 𝑌1𝑡
𝑁
• problem zbadania wpływu interwencji sprowadza się zatem do oszacowania wielkości 𝑌1𝑡
Szacowanie
• Formalnie synthetic control może być zdefiniowana jako wektor (𝐽𝑥1) wag o postaci 𝑊 =
𝑁
(𝑤2 , … , 𝑤𝐽+1 )′. Znając wektor wag 𝑊 estymatorami 𝑌1𝑡 oraz 𝜏1𝑡 są odpowiednio:
𝐽+1
𝑌1𝑡
𝑁
= 𝑤𝑗 𝑌𝑗𝑡 (2)
𝑗=2
Dobór wag odbywa się w taki sposób by otrzymana synthetic control najlepiej odzwierciedlała wartości
predyktorów wyniku dla jednostki poddanej interwencji przed jej miejscem. Oznacza to, że biorąc pod uwagę
nieujemne wartości 𝑣1 , … 𝑣𝑘 autorzy proponują 𝑾∗ = 𝑤2∗, … , 𝑤𝐽+1
∗
który minimalizuje odległość między
jednostką poddaną interwencji oraz synthetic control:
𝑿𝟏 − 𝑿𝟎 𝑾 = 𝑿𝟏 − 𝑿𝟎 𝑾 ′ 𝑽 𝑿𝟏 − 𝑿𝟎 𝑾 (4)
w R: 𝑿𝟏 − 𝑿𝟎 𝑾 = 𝑿𝟏 − 𝑿𝟎 𝑾 ′ 𝑽 𝑿𝟏 − 𝑿𝟎 𝑾
o 𝒁𝟏 (𝑇𝑃 𝑥1) będzie wektorem wartości wyniku dla jednostki poddanej interwencji dla pewnego zbioru
okresów sprzed interwencji
o 𝒁𝟎 (𝑇𝑃 𝑥𝐽) niech będzie macierzą analogicznych wartości dla jednostek z puli dawców, gdzie 𝑇𝑃 (1 ≤
𝑇𝑃 ≤ 𝑇0 ) jest liczba okresów sprzed interwencji,
dla których średni kwadratowy błąd predykcji (MSPE) jest minimalizowany. Wówczas 𝑽∗ jest dobrany w taki
sposób by minimalizować:
1 𝑇0 2
𝐽+1
w R: 𝑀𝑆𝑃𝐸 = σ 𝑌1𝑡 − σ𝑗=2 𝑤𝑗∗ 𝑌𝑗𝑡
𝑇0 𝑡=1
gdzie 𝛾 jest zbiorem wszystkich nieujemnych macierzy diagonalnych (𝐾𝑥𝐾) a wagi dla synthetic control są
dane przez 𝑾∗ . Pakiet synth() rozwiązuje zagnieżdżony problem optymalizacyjny który minimalizuje
powyższe równanie (5), dla 𝑾∗ (𝑽∗ ) określonego przez równanie (4).
Badania przeprowadzone przez autora metody
Autor/treated unit Predyktory Wynik Wnioski
Mitze i in. 2020 Niemcy, Jena Skumulowana liczba przypadków na dzień i na Skumulowana liczba przypadków Maseczki na twarz zmniejszyły
siedem dni przed maseczkami, średnia liczba infekcji/skumulowana liczba przypadków infekcji liczbę nowo zarejestrowanych
200 pkt
Przegląd literatury
nowych dziennych przypadków w ciągu ostatnich na 100 tys. ludności
7 dni, gęstość zaludnienia, udział ludności z
zakażeń z ciężkim ostrym
zespołem oddechowym od 15% do
wyższych wykształceniem, udział kobiet w 75% w okresie 20 dni po ich
populacji, średni wiek kobiet, średni wiek obowiązkowym wprowadzeniu.
mężczyzn, udział ludzi starszych, udział ludzi Maseczki na twarz zmniejszają
młodych, lekarze na 10 tys. ludności, apteki na dzienne tempo wzrostu
100 tys. ludności, rodzaj miejscowości, zgłaszanych infekcji o około 47%.
Tian i in 2021, Chiny, Wenzhou, Gęstość zaludnienia, udział ludności w wieku Liczba zachorowań na 100 tys. osób Gdyby nie lockdown liczba
Shanghai powyżej 65 lat, temperatura, PKB per capita, 3 zachorowań by wzrosła 2,18 razy
główne składowe z PCA dla Wenzhou oraz 7,69 razy dla
200 pkt
Shanghaju
Cho, 2020 Gęstość zaludnienia, udział ludności żyjących w Skumulowana liczba infekcji na 1mln ludności Lockdown spowodowałby spadek
miastach, wielkość gospodarstwa, średnia liczba infekcji o ok. 75%
Szwecja zgonów na 1 mln ludności w ciągu 20 dni, liczba
140 pkt zachorowań na 1 mln ludności w ciągu 3 dni
(oddalonych od siebie o tydzień każdy)
Born i in. 2020 Liczba ludności, wskaźnik urbanizacji, logarytm Logarytm ze skumulowanych Lockdown spowodowałby spadek
z przypadków infekcji w ciągu 13 dni zachorowań/skumulowana liczba zgonów infekcji o 75%, a zgonów o 50%
Szwecja poprzedzających wprowadzanie obostrzeń (13
100 pkt zmiennych)
Tian i in. 2020 Szerokość geograficzna, gęstość zaludnienia, 2 Liczba zachorowań na 100tys osób Lockdown wprowadzony w
główne składowe z PCA Shenzen spowodował duży spadek
Chiny, Shenzhen liczby zachorowań
40 pkt
Autor/treated unit Predyktory Wynik Wnioski
Bayat i in., 2020 Dzienna liczba zachorowań Dzienna liczba zachorowań Szybsze wprowadzenie
lockdowanu spowodowałoby
Nowy Jork Dzienna liczba zgonów Dzienna liczba zgonów redukcję zgonów o 80%
Przegląd literatury
Working paper
Alfano i in. 2020 Całkowita liczba zachorowań od początku Logarytmy skumulowanych pozytywnych W Bolzano, prowincji we
pandemii na dzień przed otwarciem szkoły, przypadków Włoszech w której jako pierwszej
Włochy, Bolzano dochód na osobę, liczba ludności, udział ludzi w otworzono szkoły po przerwie
wieku szkolnym, gęstość zaludnienia, udział ludzi wakacyjnej było dużo więcej
żyjących z miejscowościach mniejszych niż 30 zachorowań niż w okolicy
Working paper tys.
Cerqueti i in. 2021 Skumulowana liczba zachorowań na 1 mln Wskaźnik śmiertelności (skumulowana liczba Wprowadzenie lockdownu
ludności, liczba łóżek szpitalnych na 100 tys. zgonów na 1 mln ludności) uratowało 20400 żyć
Włochy ludności, mediana wieku ludności, wielkość
gospodarstwa, wskaźniki mobilności
Working paper
Neidhffofer I Neidhffofer, 2020, Liczba ludności, gęstość zaludnienia, mediana Skumulowana liczba zgonów Zamknięcie szkół i innych miejsc
Argentyna, Włochy, Korea wieku, udział ludności powyżej 65 roku życia, spowodowało spadek wskaźnika
Południowa PKB per capita, łóżka szpitalne na 100 tys. śmiertelności (o 84%,29% i 91% w
ludności, wydatki na opiekę zdrowotną, średnia Argentynie, Włoszech i Korei)
liczba zgonów przed interwencją, stopa wzrostu
Working paper liczby zakażonych, wskaźniki mobilności.
Rozwój pandemii w Polsce
Rozwój pandemii w Polsce
700
Skumulowana liczba /10tys mieszkańców
600
500
400
300
200
100
0
24 12 31 12 7 01 14 01 21 01 28 01 4 02 11 02 18 02 25 02 4 03 11 03 18 03 25 03 1 04 8 04 15 04 22 04 29 04 6 05
2020 2020 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021
mazowiecki i lubuskie
warmińsko-mazurskie
Cała Polska
pomorskie
Województwo
Województwo syntetyczne
Zmienna predykcyjna warmińsko Pula dawców (KP 0,745, SL 0,196
mazurskie MZ 0,055, inne
0,004)
Zmienna Waga
10000
9000
8000
Accumulated number of cases
7000
6000
5000
4000
3000
2000
1000
0
13 02 14 02 15 02 16 02 17 02 18 02 19 02 20 02 21 02 22 02 23 02 24 02 25 02 26 02
2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021
Day
10000
15000
20000
25000
30000
35000
40000
0
5000
13 02 2021
14 02 2021
15 02 2021
16 02 2021
17 02 2021
18 02 2021
19 02 2021
20 02 2021
21 02 2021
22 02 2021
23 02 2021
24 02 2021
25 02 2021
26 02 2021
27 02 2021
Wyniki badania empirycznego
28 02 2021
warmińsko-mazurskie
1 03 2021
2 03 2021
Day
3 03 2021
4 03 2021
5 03 2021
6 03 2021
7 03 2021
synthetic control unit
8 03 2021
9 03 2021
10 03 2021
11 03 2021
12 03 2021
13 03 2021
14 03 2021
15 03 2021
16 03 2021
17 03 2021
18 03 2021
19 03 2021
20 03 2021
Wyniki badania empirycznego - placebo w czasie (ograniczenia
od 22.01)
16000
14000
Accumulated number of cases
12000
10000
8000
6000
4000
2000
Day
-8000
-6000
-4000
-2000
-12000
-10000
0
2000
4000
6000
13 02 2021
14 02 2021
15 02 2021
16 02 2021
17 02 2021
18 02 2021
19 02 2021
20 02 2021
21 02 2021
22 02 2021
23 02 2021
24 02 2021
25 02 2021
26 02 2021
27 02 2021
28 02 2021
warmińsko-mazurskie
1 03 2021
2 03 2021
Day
3 03 2021
4 03 2021
5 03 2021
other regions 6 03 2021
7 03 2021
8 03 2021
9 03 2021
10 03 2021
11 03 2021
12 03 2021
13 03 2021
Wyniki badania empirycznego – placebo w przestrzeni
14 03 2021
15 03 2021
16 03 2021
17 03 2021
18 03 2021
19 03 2021
20 03 2021
Accumulated number of cases
10000
15000
20000
25000
30000
35000
40000
45000
0
5000
13 02 2021
14 02 2021
15 02 2021
16 02 2021
17 02 2021
18 02 2021
19 02 2021
20 02 2021
21 02 2021
22 02 2021
warmińsko-mazurskie
23 02 2021
24 02 2021
25 02 2021
26 02 2021
27 02 2021
28 02 2021
1 03 2021
2 03 2021
9 03 2021
10 03 2021
11 03 2021
12 03 2021
13 03 2021
synthetic control unit (leave-one-out)
14 03 2021
15 03 2021
16 03 2021
17 03 2021
18 03 2021
19 03 2021
20 03 2021
Accumulated number of cases
10000
15000
20000
25000
30000
35000
40000
0
5000
13 02 2021
14 02 2021
15 02 2021
16 02 2021
17 02 2021
18 02 2021
19 02 2021
20 02 2021
21 02 2021
22 02 2021
23 02 2021
24 02 2021
25 02 2021
Day 2 03 2021
3 03 2021
4 03 2021
5 03 2021
6 03 2021
7 03 2021
8 03 2021
9 03 2021
10 03 2021
synthetic control unit (without variables on demographics and healthcare)
synthetic control unit (without variables on the dynamics of the pandemic)
Wyniki badania empirycznego – różne predyktory
11 03 2021
12 03 2021
13 03 2021
14 03 2021
15 03 2021
16 03 2021
17 03 2021
18 03 2021
19 03 2021
20 03 2021
Podsumowanie
60
50
40
liczba obostrzeń
30
20
10
państwo
Założenia dotyczące przeprowadzonego badania nr 2
Założenia dotyczące przeprowadzonego badania nr 2
• Potencjalne zmienne predykcyjne: bilans handlowy, udział inwestycji w PKB, udziały w wartości
dodanej sektorów: rolnictwo, produkcyjnego, budownictwa, handlu, nieruchomości, sztuki i rozrywki,
stopa bezrobocia, wydatki na służbę zdrowia (% PKB), udział osób z podstawowym, średnim
i wyższym wykształceniem w sile roboczej
• Wynik: PKB per capita, deficyt/nadwyżka budżetowa jako % PKB, dług publiczny jako % PKB
0
10000
30000
40000
50000
60000
70000
20000
2015Q1
2015Q2
2015Q3
2015Q4
2016Q1
2016Q2
2016Q3
2016Q4
2017Q1
2017Q2
Kwartał
Wyniki przeprowadzonego badania nr 2
2018Q4
2019Q1
2019Q2
2019Q3
2019Q4
2020Q1
2020Q2
Szwecja syntetyczna (z lockdownem)
2020Q3
2020Q4
2021Q1
2021Q2
2021Q3
2021Q4
Deficyt/nadwyżka (% PKB)
-8
-6
-4
-2
-10
0
2
4
2015Q1
2015Q2
2015Q3
2015Q4
2016Q1
2016Q2
2016Q3
2016Q4
2017Q1
2017Q2
2017Q3
Kwartał
2018Q4
Wyniki przeprowadzonego badania nr 2
2019Q1
2019Q2
2019Q3
2019Q4
2020Q1
2020Q2
2020Q3
Szwecja syntetyczna (z lockdownem)
2020Q4
2021Q1
2021Q2
2021Q3
2021Q4
dług publiczny (% PKB)
30
32
36
38
42
44
46
34
40
2015Q1
2015Q2
2015Q3
2015Q4
2016Q1
2016Q2
2016Q3
2016Q4
2017Q1
2017Q2
kwartał
2018Q4
Wyniki przeprowadzonego badania nr 2
2019Q1
2019Q2
2019Q3
2019Q4
2020Q1
2020Q2
Szwecja syntetyczna (z lockdownem)
2020Q3
2020Q4
2021Q1
2021Q2
2021Q3
2021Q4
Podsumowanie
Pakiet w R: did
Metodyka badawcza – metoda różnicy w różnicach
• Szacowany model
Metoda różnicy w różnicach zakłada, że – w przypadku braku interwencji – grupa poddana badaniu i
grupa kontrolna mają podobny trend w czasie - założenie trendu równoległego.
Metodyka badawcza – metoda różnicy w różnicach
• Szacowany model
𝑌𝑡 = 𝑏𝑜 + 𝑏1 𝑇 + 𝑏2 𝐷𝑡 + 𝑏3 𝑃 + 𝑒𝑡
𝑌𝑡 – zmienna odpowiedzialna za wynik badania
𝑇 − jest zmienną odpowiedzialną za czas, który minął od początku analizy
𝐷𝑡 − jest zmienną binarną wskazującą obserwacje zebrane przed (=0) oraz po (=1) interwencji
𝑃 − jest zmienną odpowiedzialną za czas który minął od momentu interwencji (przed interwencją 𝑃=0)
Metodyka badawcza – analiza przerywanych szeregów
czasowych (ang. Interrupted Time Series)
• Szacowany model
𝑌𝑡 = 𝑏𝑜 + 𝑏1 𝑇 + 𝑏2 𝐷𝑡 + 𝑏3 𝑃 + 𝑒𝑡
𝑌𝑡 – zmienna odpowiedzialna za wynik badania
𝑇 − jest zmienną odpowiedzialną za czas, który minął od początku analizy
𝐷𝑡 − jest zmienną binarną wskazującą obserwacje zebrane przed (=0) oraz po (=1) interwencji
𝑃 − jest zmienną odpowiedzialną za czas który minął od momentu interwencji (przed interwencją 𝑃=0)
Metodyka badawcza – analiza przerywanych szeregów
czasowych (ang. Interrupted Time Series)
• Szacowany model
𝑌𝑡 = 𝑏𝑜 + 𝑏1 𝑇 + 𝑏2 𝐷𝑡 + 𝑏3 𝑃 + 𝑒𝑡
Założenia dotyczące przeprowadzonego badania nr 3
• Obiekty badania: 12 miast wojewódzkich (bez Bydgoszczy, Opola, Zielonej Góry, Gdańska, Olsztyna i
Poznania)
• Źródła danych: bazy Głównego Inspektoratu Ochrony Środowiska oraz Instytutu Meteorologii i Gospodarki
Wodnej
Wyniki – metoda różnicy w różnicach DiD
140,00
120,00
Stężenie pyłu PM10
100,00
80,00
60,00
40,00
20,00
0,00
sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz
10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16 17 17 17 18 18 18 19 19 19 20 20 20 21 21 21 22 22 22
Miesiąc
140
120
100
Stęzenie pyłu PM10
80
60
40
20
0
sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz
10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16 17 17 17 18 18 18 19 19 19 20 20 20 21 21 21 22 22 22
Miesiąc
o spadek przeciętnego miesięcznego stężenia pyłu PM10 o 21,71 μg/m3 w przypadku D&D
o spadek przeciętnego miesięcznego stężenia pyłu PM10 o 12,46 μg/m3 w przypadku ITS
Bibliografia
• Abadie, A., Gardeazabal, J., (2003), The Economic Costs of Conflict: A Case Study of the Basque Country , American Economic Review, 93 (1): 113-
132.
• Abadie, A., Diamond, A., Hainmueller, J., (2010), Synthetic Control Methods for Comparative Case Studies: Estimating the Effect of California’s
Tobacco Control Program, Journal of the American Statistical Association, 105 (490), 493-505,
• Abadie, A., Diamond, A., Hainmueller, J., (2015), Comparative politics and the synthetic control method, American Journal of Political Science, 59 (2),
495–510.
• Abadie, A. (2021), Using Synthetic Controls: Feasibility, Data Requirements, and Methodological Aspects, Journal of Economic Literature, 59 (2): 391-
425
• Mitze, T., Kosfeld, R., Rode, J., & Wälde, K. (2020), Face masks considerably reduce COVID-19 cases in Germany. Proceedings of the National
Academy of Sciences, 117(51), 32293 –32301. https://doi.org/10.1073/pnas.2015954117
• Tian, T., Tan, J., Luo, W., Jiang, Y., Chen, M., Yang, S., Wen, C., Pan, W., Wang, X., (2021): The Effects of Stringent and Mild Interventions for
Coronavirus Pandemic, Journal of the American Statistical Association, DOI: 10.1080/01621459.2021.1897015
• Cho, S. W., (2020). Quantifying the impact of nonpharmaceutical interventions during the COVID-19 outbreak: The case of Sweden. The Econometrics
Journal 23(3), 323-344.
• Born B, Dietrich AM, Müller GJ (2021), The lockdown effect: A counterfactual for Sweden. PLoS ONE 16(4): e0249732.
https://doi.org/10.1371/journal.pone.0249732
• Tian, T., Luo, W., Tan, J., Jiang, Y., Chen, M., Pan, W.,Yang, S., Zhao, J., Wang, X., Zhang, H., (2021), The timing and effectiveness of implementing
mild interventions of COVID-19 in large industrial regions via a synthetic control method. Statistics and Its Interface. 14. 3-12. 10.4310/20-SII634.
Bibliografia
• Huber, M., Langen, H., (2020), The impact of response measures on COVID-19-related hospitalization and death rates in Germany and
Switzerland. Swiss Journal of Economics and Statistics 156, 10.
• Bayat, N., Morrin, C., Wang, Y., Misra, V., (2020), Synthetic Control, synthetic Interventions, and COVID-19 spread: Exploring the impact
of lockdown measures and herd immunity. arXiv preprint arXiv:2009.09987.
• Alfano, V., Ercolano. S., Cicatiello, L., (2020), A Synthetic Control Method Analysis of Schools Opening and Covid-19 Outbreak in Italy,
CESifo Working Paper Series 8784, CESifo
• Cerqueti, R., Coppier, R., Girardi, A., Ventura, M., (2021), The sooner the better: lives saved by the lockdown during the COVID-19
outbreak. The case of Italy, Papers 2101.11901, arXiv.org.
• Neidhöfer, G., Neidhöfer, C., (2020), "The effectiveness of school closures and other pre-lockdown COVID-19 mitigation strategies in
Argentina, Italy, and South Korea," ZEW Discussion Papers 20-034, ZEW - Leibniz Centre for European Economic Research
• Ben-Michael, E., Feller, A., Rothstein, J., (2021), The Augmented Synthetic Control Method, Journal of the American Statistical
Association, 116:536, 1789-1803
• Schaffer, A.L., Dobbins, T.A., Pearson, SA. Interrupted time series analysis using autoregressive integrated moving average (ARIMA)
models: a guide for evaluating large-scale health interventions. BMC Med Res Methodol 21, 58 (2021)
• Callaway, B., Sant’Anna, P.H.C., (2021), Difference-in-Differences with multiple time periods, Journal of Econometrics, 225(2), 200-230.
Wykład 10.2. Drzewa decyzyjne i las losowy
Recepta na zaliczenie egzaminu z Ekonometrii
Wydział
Ekonomii WIGE
Czas
POPRAWKA
nauki
<=2 >2
Wykłady Wykłady
i ćwiczenia i ćwiczenia
Tak Nie Nie Tak
POPRAWKA WARUNEK
WARUNEK POPRAWKA ZALICZENIE
ZALICZENIE
Cel wykorzystania drzew decyzyjnych
Celem analizy przy użyciu drzew decyzyjnych jest wyjaśnianie lub przewidywanie odpowiedzi
zakodowanej w jakościowej lub ilościowej zmiennej zależnej na podstawie pomiarów jednej lub więcej
zmiennych predykcyjnych
Rodzaje drzew decyzyjnych
W takim drzewie wewnętrzne węzły będą opisywać sposób dokonania podziału na jednorodne klasy
(dokonywany w oparciu o wartości cech obiektów), a liście będą odpowiadać klasom, do których
obiekty należą.
Z kolei krawędzie drzewa (gałęzie) reprezentują wartości cech, na podstawie których dokonano
podziału.
Definicja i budowa drzewa decyzyjnego
GAŁĄŹ WĘZEŁ
(krawędź drzewa, ŹRÓDŁOWY
wartość zmiennej wykorzystanej do GAŁĄŹ
podziału)
WĘZEŁ WEWNĘTRZNY
(zmienna w oparciu, o którą LIŚĆ
dokonano podziału)
GAŁĄŹ GAŁĄŹ
LIŚĆ
(węzeł końcowy LIŚĆ
- klasa do której należą obiekty)
Drzewa decyzyjne - definicje
Droga to skończony ciąg krawędzi. A długość drogi to liczba krawędzi tworzących drogę.
Głębokość drzewa to długość najdłuższej drogi między węzłem źródłowym a dowolnym liściem
drzewa
Drzewo binarne to drzewo, w którym z każdego węzła wewnętrznego wychodzą dwie gałęzie.
A, B, C
A B, C
B C
Drzewo niebinarne to drzewo, w którym z każdego węzła wewnętrznego wychodzi dowolna liczba
gałęzi.
A, B, C
A B C
Proces tworzenia drzewa
1. Mając zbiór obiektów 𝑆, sprawdź, czy należą one do tej samej klasy. Jeżeli tak, to zakończ pracę.
2. W przeciwnym przypadku rozważ wszystkie możliwe podziały zbioru 𝑆 na podzbiory 𝑆1 , 𝑆2 , … , 𝑆𝑛
tak, aby były one jak najbardziej jednorodne.
3. Dokonaj oceny jakości każdego z tych podziałów zgodnie z przyjętym kryterium i wybierz najlepszy
z nich.
4. Podziel zbiór 𝑆 w wybrany sposób.
5. Wykonaj kroki 1-4 rekurencyjnie dla każdego z podzbiorów.
Proces tworzenia drzewa
Algorytm tworzenia drzewa sprawdza wszystkie możliwe podziały dla każdej zmiennej predykcyjnej w
celu znalezienia podziału, przy którym następuje największa poprawa dobroci dopasowania
(zmniejszenie zanieczyszczenia).
Celem jest zbudowanie drzewa jak najmniejszego. Wtedy uzyskane reguły są najprostsze.
Etap 1: Określenie kryteriów trafności podziałów i dokonanie
podziałów.
Do podziału zbioru obiektów można zastosować różnorodne kryteria np. indeks Giniego,
entropię itp.
Najpopularniejszą miarą, preferowaną przez twórców metody CART, jest indeks Giniego wyznaczany
według wzoru:
𝑛
2
𝐺𝑖𝑛𝑖 = 1 − 𝑝𝑖
𝑖=1
𝑝𝑖 − prawdopodobieństwo że obiekt zostanie zaklasyfikowany do klasy 𝑖
Opiera się on na iloczynach udziałów klas w węźle.
Etap 1: Określenie kryteriów trafności podziałów i dokonanie
podziałów.
Indeks Giniego osiąga wartość zero, gdy w danym węźle wystąpi tylko jedna klasa; osiąga on wartość
maksymalną, gdy wielkości klas w danym węźle są równe. Wybieramy do podziału zmienną, która
minimalizuje indeks.
Etap 2: Wyznaczenie końca podziałów.
Drugi etap budowy drzewa klasyfikacyjnego polega na rozstrzygnięciu, kiedy należy zakończyć podziały.
Jedną z własności drzew klasyfikacyjnych jest to, że brak ograniczenia na liczbę wykonywanych
podziałów, może doprowadzić ostatecznie do czystej klasyfikacji, w której każdy końcowy węzeł będzie
zawierał tylko jedną klasę obiektów!
W wyniku takiego działania uzyskamy drzewa „przeuczone”, nadmiernie dopasowane. Drzewo będzie
klasyfikowało (odtwarzało) obserwacje ze 100% poprawnością. Równocześnie uzyskany,
skomplikowany model, który nie będzie radził sobie z nowymi, nieznanymi obserwacjami.
Etap 2: Wyznaczenie końca podziałów.
ID=1 N=8
nie
Student
Dochody
Może to jednak równocześnie doprowadzić do nadmiernego rozrostu drzewa. Będzie ono liczyło
wówczas zbyt wiele liści, co w efekcie spowoduje, że uzyskane reguły decyzyjne staną się niejasne.
Śr=321911,104444
Var=41937166418,829208
Pow
Śr=281555,494950 Śr=512805,658186
Var=10431234679,888241 Var=146825601940,247770
Pow CenaM2
<= 6595,655 > 6595,655 <= 6836,125 > 6836,125 <= 127,25 > 127,25
ID=6 N=855 ID=7 N=453 ID=24 N=569 ID=25 N=105 ID=34 N=375 ID=35 N=33
<= 40,105 > 40,105 <= 39,05 > 39,05 <= 5378,27 > 5378,27 <= 5489,97 > 5489,97
ID=8 N=392 ID=9 N=463 ID=18 N=265 ID=19 N=188 ID=26 N=288 ID=27 N=281 ID=36 N=253 ID=37 N=122
<= 5213,885 > 5213,885 <= 24,9 > 24,9 <= 54,925 > 54,925 <= 69,06 > 69,06
ID=14 N=180 ID=15 N=283 ID=20 N=21 ID=21 N=244 ID=30 N=98 ID=31 N=183 ID=38 N=2 ID=39 N=251
Pow Pow
Jednym z kryteriów oceny jakości drzewa jest liczba błędnie sklasyfikowanych obiektów.
Służy do tego macierz klasyfikacji (z poprzednich wykładów)
Liczebność grupy
1 2
testującej
Sekwencja kosztów
Zmienna zależna: KUP
0,42
0,41
0,40
0,39
0,38
0,37
Koszt
0,36
0,35
0,34
0,33
0,32
0,31
0 1 2 3 4 5 6 7 8 9 10 Koszt resubst.
Drzewo numer Koszt SK
Ranking zmiennych
Daną zmienną uznajemy za ważną w procesie klasyfikacji, czyli za niosącą informację o klasie, jeśli
zmienna ta często bierze udział w procesie klasyfikowania obiektów ze zbioru uczącego.
Wykres ważności
Zmienna zależna: Cena
1,1
1,0
0,9
0,8
0,7
Ważność
0,6
0,5
0,4
0,3
0,2
0,1
0,0
Pow CenaM2 Izby PowPrzy PomPrzy Miesiac Pietro
Rodzaje drzew
Ciągła
Rodzaj Kryterium
Nazwa Rok Autorzy zmienna
drzewa podziału
objaśniana
ID3 1983 Quinlan dowolne Entropia Nie
Brieman,
CART 1984 Friedman binarne Gini indeks Tak
Olshen, Stone
C4.5
1987 Quinlan dowolne Entropia Nie
(C5.0)
CHAID 1993 SPSS Inc. dowolne Chi kwadrat Tak
QUEST 1997 Loh, Shih binarne Statystyki Nie
Zalety drzew decyzyjnych
Szybka klasyfikacja
Zrozumiały proces decyzyjny.
Możliwość stosowania cech różnych typów (numerycznych i nominalnych).
Brak warunków nakładanych na rozkłady badanych zmiennych.
Brak wrażliwości na wartości skrajne.
Odporność na braki danych.
Wady drzew decyzyjnych
Niestabilność drzew:
Przyczyna leży w hierarchicznej naturze drzew – błąd na początku podziałów przyczynia się do błędów
w następnych podziałach.
Można niestabilność starać się usunąć zmieniając kryterium podziału, ale nie zostanie ona usunięta
całkowicie.
Oznaczenia:
𝑍= 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , (𝑥𝑁 , 𝑦𝑁 ) − próba
D - liczba drzew w lesie
K – liczba zmiennych objaśniających
Las losowy - algorytm
1. Dla każdego d = 1, 2, …, D:
a) Z próby Z losowane jest ze zwracaniem N obserwacji tworząc pseudopróbę Zd (ang. bootstraping).
b) Dla wylosowanej pseudopróby Zd budowane jest drzewo klasyfikacyjne Td. Dla każdego węzła budowanego
drzewa wykonywane są następujące kroki:
I) Spośród K zmiennych objaśniających losowane jest m << K zmiennych bez zwracania. Parametr m jest
ustalany przed rozpoczęciem działania algorytmu, a jego sugerowana wielkość to 𝐾.
II) Dla m zmiennych ustalany jest najlepszy możliwy podział obserwacji
w węźle (jak dla pojedynczego drzewa).
III) Węzeł zostaje podzielony zgodnie z najlepszym znalezionym podziałem
w kroku II.
Kroki I-III są wykonywane dopóki liczba obserwacji w węźle nie będzie równa 1 lub wszystkie obserwacje w
węźle nie będą należały do tej samej klasy.
2. Dla 𝑥𝑖 dokonywana jest predykcja klasy z wykorzystaniem wszystkich drzew 𝑇 𝑑 𝑥𝑖 , 𝑑 = 1, 2, … , 𝐷, przy
których budowie obserwacja 𝑥𝑖 nie brała udziału.
3. Obserwacja 𝑥𝑖 klasyfikowana jest ostatecznie do klasy, na którą wskazała największa liczba drzew w drugim
kroku algorytmu.
Las losowy – cechy charakterystyczne
1. Reguła działania lasu losowego polegająca na klasyfikacji obiektów jedynie przez drzewa
klasyfikacyjne, w których budowie dana obserwacja nie uczestniczyła powoduje, że metoda ta jest
bardziej stabilna z punktu widzenia jakości prognoz dla obiektów próby uczącej i testującej.
2. Ze względu na możliwość sterowania parametrami budowy lasu losowego (liczba drzew, liczba
losowanych zmiennych w budowie pojedynczego drzewa) metoda ta jest szczególnie zalecana w
sytuacji klasyfikacji obiektów opisanych za pomocą dużej liczby zmiennych
Warto obejrzeć:
https://www.youtube.com/watch?v=J4Wdy0Wc_xQ&t=3s
Literatura
• A comparision of Prediction Accuracy, Complexity, and Training Time of Thirty-three Old and New Classification Algorithms, L.,
Tjen-Sien, L. Wei-Yin, S. Yu-Shan, Machine Learning, 40, 2000.
• Classification and regression trees, L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone, Wadsworth & Brooks/Cole Advanced
Books & Software, Monterey 1984.
• Nieparametryczna metoda dyskryminacji i regresji, E. Gatnar, PWN, 2001.
• Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000.
• Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001.
• Odkrywanie asocjacji: Algorytmy i struktury danych, T. Morzy, OWN, 2004.
• Split Selection Methods for Classification Trees, Loh Wei-Yin, Shih Yu-Shan, Statistica Sinica 1997, Vol. 7.
• Systemy uczące się, P. Cichosz, WNT, 2000.
• Sztuczne sieci neuronowe i metody statystyczne, D. Witkowska, Beck, 2002.
Wykład 10.1. Metoda k-najbliższych sąsiadów
(k-nn ang. k nearest neighbours)
Założenia
• Dany jest zbiór uczący zawierający obserwacje z których każda ma przypisany wektor zmiennych
objaśniających oraz wartość zmiennej objaśnianej Y.
• Dana jest zbiór obserwacji z próby testowej, z przypisanymi wektorami zmiennych objaśniających
dla których chcemy prognozować wartość zmiennej objaśnianej Y.
• Zmienne wyrażone są tej samej jednostce, mają ten sam zakres wartości.
Idea metody
Idea metody
Idea metody
Schemat postępowania
Krok III: Oblicz odległość każdego obiektu z próby uczącej od obiektu z próby testowej.
Krok IV: Poszukaj 𝑘 najbliższych obiektów (sąsiadów) dla obiektu z próby testowej
Krok V: Głosuj wśród 𝑘 najbliższych obiektów (sąsiadów) w celu wyznaczenia klasy, do której
• v-krotnie klasyfikator jest konstruowany na podstawie v-1 części, oraz testowany na tej,
nieuwzględnionej w uczeniu.
• oszacowaniem błędu predykcji jest średnia z uzyskanych w ten sposób v wyników pośrednich.
Zaletą walidacji krzyżowej jest fakt, iż każda z obserwacji zostaje uwzględniona zarówno przy
szacowaniu modelu, jak i przy jego testowaniu. Wadą metody jest większy (w porównaniu
W pliku xlsx znajdują się informacje o 24 obiektach opisanych za pomocą dwóch zmiennych X1 i X2,
należących do dwóch grup: A i B. Wykorzystując metodę k-najbliższych sąsiadów, gdzie k=5 oraz
miarę euklidesową sprawdź czy obiekt 25 został prawidłowo przyporządkowany do grupy A. Przyjmij,
że zmienne X1 i X2 mają jednakową jednostkę i zakres wartości.
1. Należy oszacować funkcje dyskryminacyjne dla par grup i następnie zastosować odpowiednią regułę
klasyfikacyjną. Zakładając, że liczba populacji to 3, wystarczy oszacować dwie spośród trzech
możliwych funkcji dyskryminacyjnych o postaci:
1
𝐷12 𝑥 = ഥ 𝒙𝟐 𝑇 𝑺−1 𝑥 −
𝒙𝟏 − ഥ ഥ 𝒙𝟐 𝑇 𝑺−1 ഥ
𝒙𝟏 − ഥ 𝒙𝟏 + ഥ
𝒙𝟐
2
1
𝐷13 𝑥 = ഥ 𝒙𝟑 𝑇 𝑺−1 𝑥 −
𝒙𝟏 − ഥ ഥ 𝒙𝟑 𝑇 𝑺−1 ഥ
𝒙𝟏 − ഥ 𝒙𝟏 + ഥ
𝒙𝟑
2
1
𝐷23 𝑥 = ഥ 𝒙𝟑 𝑇 𝑺−1 𝑥 −
𝒙𝟐 − ഥ ഥ 𝒙𝟑 𝑇 𝑺−1 ഥ
𝒙𝟐 − ഥ 𝒙𝟐 + ഥ
𝒙𝟑
2
gdzie 𝑺−1 to oszacowanie macierzy wariancji-kowariancji (wspólnej dla wszystkich populacji).
Szacowanie funkcji dyskryminacyjnej dla trzech populacji –
etapy postępowania
2. Każdą z r grup należy podzielić na dwie podgrupy – tzw. grupę uczącą oraz grupę testującą.
Parametry funkcji dyskryminacyjnych szacuje się w oparciu o dane z grup uczących (!!). Natomiast
jakość otrzymanej funkcji sprawdzamy na grupach testujących. Nie dokonujemy normalizacji ani
ujednolicania cech.
Szacowanie funkcji dyskryminacyjnej dla trzech populacji –
etapy postępowania
3. Oszacowanie parametrów funkcji dyskryminacyjnej:
𝑻 𝑻
𝒊𝒋𝒂 = ഥ
𝒙𝒊 − ഥ
𝒙𝒋 ∙ 𝑺−𝟏 𝑜𝑟𝑎𝑧
1 𝑇 1
𝑖𝑗 𝑎0 = − ഥ
𝒙 −ഥ
𝒙𝒋 ∙ 𝑺−𝟏 ഥ 𝒙𝒋 = − ∙ 𝒂𝑻 ∙ ഥ
𝒙𝒊 + ഥ 𝒙𝒊 + ഥ
𝒙𝒋
2 𝒊 2
gdzie:
𝑖, 𝑗 = 1,2 lub 3 oraz 𝑖 ≠ 𝑗
ഥ 𝒙𝒋 to wektory średnich poszczególnych cech odpowiednio w grupach i-tej oraz j-tej,
𝒙𝒊 oraz ഥ
𝑺 to oszacowanie macierzy wariancji-kowariancji, którą szacuje się w oparciu o macierz 𝑾𝒆 :
𝑺𝒆 𝑾𝒆 𝑻 𝑾𝒆
𝑺= =
𝑛 𝑛
𝑺𝒆 – macierz sum kwadratów i iloczynów mieszanych odchyleń wewnątrzgrupowych (a więc odpowiednik SSE w
ANOVA, wyrażający zmienność wewnątrzgrupową),
𝑛 – liczba stopni swobody równa: 𝑁1 + 𝑁2 + 𝑁3 − 3; 𝑁1 , 𝑁2 oraz 𝑁3 to liczebności grup uczących,
𝑾𝒆 – macierz odchyleń (wewnątrzgrupowych) wartości poszczególnych cech (we wszystkich trzech grupach
uczących) od ich średnich – uwaga: właściwych dla grupy 1,2 albo 3
Szacowanie funkcji dyskryminacyjnej dla trzech populacji –
etapy postępowania
Populacji 2, jeżeli 𝐷12 𝑥 < 0 oraz 𝐷13 𝑥 > 𝐷12 𝑥 →patrz 𝐷13 𝑥 − 𝐷12 𝑥 > 0֞ 𝐷23 𝑥 > 0
Populacji 3, jeżeli 𝐷13 𝑥 < 0 oraz 𝐷12 𝑥 > 𝐷13 𝑥 →patrz 𝐷13 𝑥 − 𝐷12 𝑥 < 0֞ 𝐷23 𝑥 < 0
Szacowanie funkcji dyskryminacyjnej dla trzech populacji –
etapy postępowania
𝑛11
Wskaźnik trafnych klasyfikacji w grupie 1:
𝑁1
𝑛22
Wskaźnik trafnych klasyfikacji w grupie 2:
𝑁2
𝑛33
Wskaźnik trafnych klasyfikacji w grupie 3:
𝑁3
W tabeli w Excelu przedstawiono dane na temat 3 gatunków irysów. Każdy obiekt został opisany za
pomocą 4 zmiennych, charakteryzujących wymiary płatków kwiatowych.
1. Z każdego gatunku irysa wydziel grupę uczącą (30 obiektów) oraz grupę testującą
(20 obiektów).
2. Oszacuj funkcje dyskryminacyjne, które pozwolą na odróżnienie trzech gatunków kosaćca, biorąc
pod uwagę wymiary płatków "zewnętrznych" (ang. sepal)
i "wewnętrznych" (ang. petal) kwiatostanu.
3. Sprawdź trafność klasyfikacji na grupie testującej (macierz klasyfikacji).
4. Oceń moc dyskryminacyjną modelu oraz pierwszej zmiennej.
Wykład 8. Liniowa funkcja dyskryminacyjna i jej weryfikacja statystyczna.
Analiza dyskryminacyjna - założenia
Celem jest odgadnięcie z jakiej populacji (spośród dwóch znanych) pochodzi brany pod uwagę obiekt. Jeśli
wiemy, jakie parametry mają rozkłady badanych grup, możemy wyznaczyć ich funkcje gęstości i porównując
obie funkcje stwierdzić, czy bardziej prawdopodobne jest, że obiekt należy do jednej czy do drugiej populacji.
Wartość oszacowanej funkcji dyskryminacyjnej daje odpowiedź, z której populacji pochodzi dany obiekt.
Analiza dyskryminacyjna - idea
𝑝𝑖 𝑓𝑖 (𝑥)
𝛾𝑖 𝑥 = 𝑗 = 1 lub 𝑖 = 2
𝑝1 𝑓1 𝑥 + 𝑝2 𝑓2 (𝑥)
Reguła klasyfikacja: zakłada się, iż obiekt powinien być zaklasyfikowany do tej populacji, dla której
powyższe prawdopodobieństwo jest wyższe czyli:
• jeżeli dla danego wektora 𝑥 zachodzi 𝛾1 𝑥 > 𝛾2 𝑥 to obiekt zaliczany jest do populacji 𝜋1
• jeżeli dla danego wektora 𝑥 zachodzi 𝛾2 𝑥 > 𝛾1 𝑥 to obiekt zaliczany jest do populacji 𝜋2
Analiza dyskryminacyjna - idea
Przyjmijmy, że 𝑝1 = 𝑝2 . Wówczas:
1
𝑍 𝑥 = 𝑒𝑥𝑝 𝜇1 − 𝜇2 𝑇 ∑−1 𝑥 − 𝜇1 − 𝜇2 𝑇 ∑−1 𝜇1 + 𝜇2
2
Analiza dyskryminacyjna - idea
Analiza dyskryminacyjna - idea
1
𝐷 𝑥 = 𝜇1 − 𝜇2 𝑇 𝛴−1 𝑥 − 𝜇1 − 𝜇2 𝑇 𝛴−1 𝜇1 + 𝜇2
2
𝐷 𝑥 to tzw. funkcja dyskryminacyjna. Jest to wielowymiarowa liniowa funkcja 𝑥, stąd analizę nazywa się
liniową analizą dyskryminacyjną – wystarczy przyjąć że:
1
𝜇1 − 𝜇2 𝑇 𝛴−1 = 𝛼 𝑇 𝑜𝑟𝑎𝑧 − 𝜇1 − 𝜇2 𝑇 𝛴−1 𝜇1 + 𝜇2 = 𝛼0
2
to funkcję dyskryminacyjną można zapisać następująco:
𝐷 𝑥 = 𝛼 𝑇 𝑥 + 𝛼0 = 𝛼1 𝑥1 + 𝛼2 𝑥2 + ⋯ . + 𝛼𝐾 𝑥𝐾 + 𝛼0
Szacowanie funkcji dyskryminacyjnej – etapy postępowania
1. Każdą z grup (1 oraz 2) należy podzielić na dwie podgrupy – tzw. grupę uczącą oraz grupę testującą
(walidacyjną). Parametry funkcji dyskryminacyjnej szacuje się w oparciu o dane z grup uczących (!!).
Natomiast jakość otrzymanej funkcji (jej sprawność w rozpoznawaniu przynależności obiektów) sprawdzamy
na grupach testujących. Nie dokonujemy normalizacji ani ujednolicania cech.
Szacowanie funkcji dyskryminacyjnej – etapy postępowania
1 𝑇
1
𝑎0 = − ഥ
𝒙 −ഥ
𝒙𝟐 ∙ 𝑺−𝟏 ഥ 𝒙𝟐 = − ∙ 𝒂𝑻 ∙ ഥ
𝒙𝟏 + ഥ 𝒙𝟏 + ഥ
𝒙𝟐
2 𝟏 2
gdzie:
ഥ 𝒙𝟐 to wektory średnich poszczególnych cech odpowiednio w grupach 1 oraz 2,
𝒙𝟏 oraz ഥ
𝑺 to oszacowanie macierzy wariancji-kowariancji, którą szacuje się w oparciu o macierz 𝑾𝒆 :
𝑺𝒆 𝑾𝒆 𝑻 𝑾𝒆
𝑺= =
𝑛 𝑛
𝑺𝒆 – macierz sum kwadratów i iloczynów mieszanych odchyleń wewnątrzgrupowych (a więc odpowiednik SSE w
ANOVA, wyrażający zmienność wewnątrzgrupową),
𝑛 – liczba stopni swobody równa: 𝑛1 + 𝑛2 − 2; 𝑛1 oraz 𝑛2 to liczebności grup uczących,
𝑾𝒆 – macierz odchyleń (wewnątrzgrupowych) wartości poszczególnych cech (z obu podgrup uczących) od ich
średnich – uwaga: właściwych dla grupy 1 lub 2 (jeżeli wartość danej cechy pochodzi z grupy 1, to od niej
odejmujemy średnią tej cechy dla grupy 1).
.
Szacowanie funkcji dyskryminacyjnej – etapy postępowania
.
Szacowanie funkcji dyskryminacyjnej – etapy postępowania
𝑛11 + 𝑛22
𝑁1 + 𝑁2
det( 𝑊𝑒 𝑇 𝑊𝑒 )
λ=
det( 𝑊𝑡𝑜𝑡 𝑇 𝑊𝑡𝑜𝑡 )
gdzie:
𝑊𝑒 – macierz odchyleń wewnątrzgrupowych (od średnich grupowych); 𝑊𝑒 𝑇 𝑊𝑒 : odpowiednik SSE z ANOVA
𝑊𝑡𝑜𝑡 – macierz odchyleń całkowitych (od średniej ogólnej), 𝑊𝑡𝑜𝑡 𝑇 𝑊𝑡𝑜𝑡 to odpowiednik SST z ANOVA, przy
czym średnia ogólna to wektor, którego elementy to średnie poszczególnych cech
Zdolność dyskryminacyjna całego modelu
Populacje różnią się znacząco, jeżeli zmienność całkowita jest dużo większa, niż zmienność wewnątrz
grupowa. Wtedy statystyka λ -Wilksa dla modelu jest bliska zeru i wskazuje ona na dobrą zdolność
dyskryminacyjną modelu. λ ∈< 0,1 >
Testowanie hipotezy zerowej o braku różnic między populacjami (a więc o słabej zdolności
dyskryminującej modelu) polega na przekształceniu statystyki λ -Wilksa dla modelu w statystykę 𝐹.
Zdolność dyskryminacyjna całego modelu
Zakładając, że:
𝑟 – liczba populacji,
𝐾 – liczba cech (zmiennych) opisujących dany obiekt,
𝑁 – łączna liczebność wszystkich badanych grup
𝐾 = 1 oraz 𝑟 dowolne
1−λ 𝑁−𝑟
𝐹𝑟−1,𝑁−𝑟 = ∙
λ 𝑟−1
𝐾 = 2 oraz 𝑟 dowolne
1− λ 𝑁−𝑟−1
𝐹2 𝑟−1 ,2( 𝑁−𝑟−1) = ∙
λ 𝑟−1
𝐾 dowolne oraz 𝑟 = 2 (dwie populacje)
1−λ 𝑁−𝑟−𝐾+1
𝐹𝐾,𝑁−𝑟−𝐾+1 = ∙
λ 𝐾
Jeżeli 𝑭 > 𝑭𝒌𝒓 odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 (populacje różnią się istotnie), model ma dobrą zdolność
dyskryminującą.
Zdolność dyskryminacyjna poszczególnych cech (zmiennych)
Badana poprzez współczynnik 𝛌𝒌-Wilksa dla k-tej zmiennej, która wskazuje ile wynosiłby współczynnik λ -
Wilksa dla modelu, gdyby usunąć k-tą zmienną (cechę) z modelu dyskryminacyjnego. λ𝑘 ∈< 0,1 >
Ponieważ każde wprowadzenie dodatkowej zmiennej do modelu poprawia jego zdolności dyskryminujące,
stąd też λ𝑘 jest zawsze nie mniejsza, niż λ dla modelu, a więc λ𝑘 ≥ λ.
Im większa jest różnica między λ𝑘 a λ, tym bardziej istotna jest k-ta zmienna (ma silniejszą zdolność
dyskryminującą i powinna pozostać w modelu).
Zdolność dyskryminacyjna poszczególnych cech (zmiennych)
Różnicę między nimi wskazuje cząstkowy współczynnik 𝛌𝒌 -Wilksa dla k-tej zmiennej, na podstawie
którego podejmuje się decyzję o tym, które zmienne można usunąć z modelu (gdyż ich zdolności
dyskryminacyjne są niewielkie):
λ
λ𝑐𝑧
𝑘 =
λ𝑘
Im cząstkowa λ𝑘 -Wilksa jest mniejsza (bliższa zeru), tym silniejsza zdolność dyskryminacyjna badanej cechy.
Λ𝑐𝑧
𝑘 ∈< 0,1 >
1 − λ𝑐𝑧𝑘
𝐹𝑟−1,𝑁−𝑟−𝐾+1 = 𝑟−1
λ𝑐𝑧
𝑘
𝑁−𝑟−𝐾+1
Jeżeli 𝑭 > 𝑭𝒌𝒓 odrzucamy 𝑯𝒐 na korzyść 𝑯𝟏 (zmienna jest istotna), k-ta zmienna ma dobrą zdolność
dyskryminującą, nie należy usuwać jej z modelu.
Współczynnik tolerancji dla zmiennych
Współczynnik tolerancji 𝑇𝑘 wskazuje, jaki odsetek nowych informacji (nie wnoszonych przez zmienne
już uwzględnione w modelu) jest wnoszony przez k-tą zmienną. Wskazuje tę część wariancji, która nie
jest wyjaśniona przez pozostałe zmienne w modelu.
Jeśli k-ta zmienna jest zbędna w modelu (nie wnosi nowych informacji lub informacje przez nią
wnoszone są już wnoszone przez pozostałe zmienne w modelu), jej współczynnik tolerancji 𝑇𝑘 będzie
bliski zeru.
Przypadek nierównolicznych grup w próbie uczącej
𝑝1
Obiekt należy do grupy 1 gdy 𝑍 𝑥 > 1 czyli tym razem gdy ∙ exp 𝐷 𝑥 > 1, a więc gdy exp 𝐷 𝑥 >
𝑝2
𝑝2 𝑝
, co daje po przekształceniu 𝐷 𝑥 > ln( 2).
𝑝1 𝑝1
Wartością funkcji dyskryminacyjnej, na podstawie której dokonuje się klasyfikacji obiektu do danej grupy nie
𝑝
jest już zero, ale wartość ln( 2).
𝑝1
Metody krokowe doboru zmiennych
Metoda krokowa wprzód
Model jest budowany iteracyjnie. W każdym kolejnym kroku brane są pod uwagę wszystkie potencjalne
zmienne i sprawdzane jest, która z nich wniesie najwięcej w ramach dyskryminacji obiektów między
grupami. Ta zmienna zostaje wybrana do modelu i procedura się powaarza. Zmienne są tak długo
wprowadzane aż wartość statystyki F dla nich jest wyższa od zadeklarowanej przez badacza
Fwprowadzenia.
𝑥1
𝑥2
𝑥= … .
𝑥𝐾
𝜇1
𝜇 = ….
𝜇𝐾
- macierz wariancji–kowariancji
𝑥ҧ𝑖1
ഥ𝒊 = …
𝒙 𝑑𝑙𝑎 𝑖 = 1, … , 𝑟
𝑥ҧ𝑖𝐾
X1 X2 ....... XK-1 XK
x111 x121 ... x1( K −1)1 x1K 1
x x122 ... x1( K −1) 2 x1K 2
112
... ... ... ... ...
x211 x221 ... x2 ( K −1)1 x2 K 1
x212 x222 ... x2( K −1) 2 x2 K 2
... ... ... ... ...
x x321 ... x3( K −1)1 x3 K 1
311
x312 x322 ... x3( K −1) 2 x3 K 2
... ... ... ... ...
... ... ... ... ...
Macierz odchyleń (błędów) „wewnątrz-grupowych”
𝑇
𝑆𝑇 = 𝑊𝑡𝑜𝑡 𝑊𝑡𝑜𝑡 (odpowiednik SST)
MANOVA (r populacji, K zmiennych)
Badanie różnic między centroidami r populacji
𝐻0 : 𝜇1 = 𝜇2 = … = 𝜇𝑟
𝐻1 : nie wszystkie wektory 𝜇𝑖 𝑖 = 1, … , 𝑟 są sobie równe 𝑟 ≥ 2
ZAŁOŻENIA MANOVA
MANOVA:
𝑆𝑇 = 𝑆𝐴 + 𝑆𝑒
gdzie:
𝑆𝑇 - macierz sum kwadratów i iloczynów mieszanych odchyleń całkowitych
𝑆𝐴 - macierz sum kwadratów i iloczynów mieszanych odchyleń międzygrupowych
𝑆𝑒 - macierz sum kwadratów i iloczynów mieszanych odchyleń wewnątrzgrupowych
Wyznacznik każdej z macierzy mierzy odpowiednią zmienność:
𝑆𝑇 całkowitą
𝑆𝐴 międzygrupową
𝑆𝑒 wewnątrzgrupową
𝑆𝑒
Λ=
𝑆𝑇
ST ≫ Se
𝒓 𝑲 Transformacja
1−𝛬𝑁 −𝑟
dowolne 1 = 𝐹(𝑟−1,𝑁−𝑟)
𝛬 𝑟−1
1− 𝛬𝑁 −𝑟 −1
dowolne 2 = 𝐹2(𝑟−1),2(𝑁−𝑟−1)
𝛬 𝑟 − 1
1−𝛬𝑁−𝐾−1
2 Dowolne = 𝐹(𝐾,𝑁−𝐾−1)
𝛬 𝐾
1− 𝛬𝑁 −𝐾 −2
3 dowolne = 𝐹(2𝐾,2[𝑁−𝐾−2])
𝛬 𝐾
Forma
Obserwacja Koszty opieki X1 Koszty utrzymania X2
własności
1 9 3
Prywatna 2 6 2
3 9 7
1 2 2
Rządowa
2 2 2
1 3 8
Non-profit 2 1 9
3 2 7
Ranga wiązana to średnia z rang, które zostałyby przypisane tym samym wartościom obserwacji (2,5 to
średnia z 2+3; 6 to średnia z 5+6+7).
Przykład: Przypisana
Obserwacje
ranga
4
5
5
8
11
11
11
15
19
Rangi i sposób ich ustalania
Ranga wiązana to średnia z rang, które zostałyby przypisane tym samym wartościom obserwacji (2,5 to
średnia z 2+3; 6 to średnia z 5+6+7).
Przykład: Przypisana
Obserwacje
ranga
4 1
5 2,5
5 2,5
8 4
11 6
11 6
11 6
15 8
19 9
Test Kruskala Wallisa – alternatywa dla ANOVA
Test polega na porównaniu rozkładów populacji – jeżeli są one takie same, przyjmuje się, że
charakteryzują się podobnymi parametrami. Jedyne założenia w teście KW to założenie, że wszystkie
próby są losowe i pobrane niezależnie z r populacji.
Danym poddawanym analizie muszą zostać nadane rangi. Test KW bada, czy średnie rangi dla grup
różnią się istotnie:
• jeżeli wszystkie badane próby pochodzą z identycznych populacji, to zakłada się, iż średnie rangi
dla poszczególnych grup są rozrzucone wokół całkowitej średniej rangi obliczonej dla wszystkich
wyników, a więc nie różnią się znacząco między sobą,
• jeżeli próby pochodzą z różnych populacji, to oczekuje się, iż średnie rangi dla grup silnie różnią
się między sobą.
Test Kruskala Wallisa
Uwaga!
W przypadku gdy dla analizowanych danych wystąpią rangi wiązane wartość empiryczną statystyki
należy skorygować w następujący sposób:
𝑟
1 12 𝑅𝑖2
𝐻′ = − 3(𝑁 + 1)
𝐶 𝑁(𝑁 + 1) 𝑛𝑖
𝑖=1
gdzie:
σ𝐾 3
𝑘=1(𝑡𝑘 − 𝑡𝑘 )
𝐶 =1−
𝑁3 − 𝑁
Dla nielicznych prób (każda grupa o 𝑛𝑖 < 5), istnieją dokładne tablice rozkładu H przy założeniu
prawdziwości 𝐻0 .
Przy liczebności poszczególnych prób nie mniejszej, niż 5 (tj.𝑛𝑖 ≥ 5), rozkład testu H, przy założeniu
prawdziwości 𝐻0, jest dobrze przybliżany przez rozkład 𝜒 2 o r-1 stopniach swobody.
2
Jeżeli 𝑯 > 𝜒𝑟−1 należy odrzucić 𝑯𝟎 na korzyść 𝑯𝟏, a więc nie wszystkie populacje mają ten sam
rozkład
Test Kruskala Wallisa
𝛼
Jeżeli 𝑫 > 𝒛𝒌𝒓 (1 − ), należy odrzucić 𝑯𝟎 na korzyść 𝑯𝟏 , a więc rozkłady dwóch badanych
2
𝛼
𝒛𝒌𝒓 1 − − wartością krytyczną, odczytaną ze standaryzowanej tablicy rozkładu normalnego
2
Etapy postępowania
1. Rangowanie obserwacji z całego zbioru (bez względu na to, z której próby pochodzą).
Porządkowanie w taki sposób, że najniższa ranga przypisywana jest najniższej wartości zmiennej.
2. Sumowanie rang w obrębie poszczególnych prób (wyznaczenie 𝑅𝑖 ).
3. Obliczenie wartości empirycznej statystyki testującej H.
4. Porównanie wartości empirycznej z wartością krytyczną (odczytaną z tablic rozkładu przy poziomie
istotności 𝛼 oraz 𝑟 − 1 liczbie stopni swobody) i podjęcie decyzji.
5. Jeżeli w 4. nastąpi odrzucenie 𝐻0, należy przeprowadzić porównanie populacji parami za pomocą
testu D (analogicznego do HSD Tukey’a).
Test Kruskala Wallisa - przykład
Analityk zatrudniony w branży wydawniczej chce sprawdzić, czy koszt reklamy prasowej danych
rozmiarów jest taki sam w czterech dużych grupach gazet. Pobrano losowo próby po 7 tytułów z każdej
grupy i zanotowano koszt reklamy w każdej z wylosowanych gazet. Dane (w $) zaprezentowano w
tabeli:
Czy uważasz, że istnieją różnice w cenie reklamy między czterema wyróżnionymi grupami gazet?
EXCEL
Test U Manna-Whitneya (alternatywa testu t dla dwóch
średnich)
Jedyne założenie w teście U: obie próby są losowe i pobrane niezależnie od siebie z dwóch populacji.
Etapy postępowania:
1. Uporządkować wszystkie obserwacje (rosnąco). Przypisać rangi (od najmniejszej).
2. Wartościom równym nadać rangi wiązane.
3. Obliczyć sumę rang obserwacji pochodzących z obu populacji 𝑅𝑖 .
4. Postawić hipotezy:
𝑯𝟎 : obie populacje mają taki sam rozkład
𝑯𝟏 : populacje nie mają takiego samego rozkładu
5. Obliczyć wartości statystyki U Manna-Whitneya:
𝑛1 (𝑛1 + 1)
𝑈 = 𝑛1 𝑛2 + − 𝑅1
2
gdzie: 𝑛1 – liczebność próby 1, 𝑛2 – liczebność próby 2.
Test U Manna-Whitneya
6. Jeżeli próby są duże (𝑛1 , 𝑛2 ≥ 10) przejdź do pkt. 7, a jeżeli są małe (𝑛1 i/lub 𝑛2 < 10) to stosuje
się rozkład statystyki U podany w tablicach (patrz np. Aczel)
7. Jeżeli badane próby są duże (𝑛1 , 𝑛2 ≥ 10), za 𝑅1 przyjmuje się większą z dwóch sum rang oraz
stosuje się aproksymacje normalną. Należy obliczyć wartość oczekiwaną oraz odchylenie standardowe:
𝑛1 𝑛2 𝑛1 𝑛2 (𝑛1 + 𝑛2 + 1)
𝐸 𝑈 = 𝜎𝑈 =
2 12
A następnie obliczyć wartość empiryczną statystyki testu dla dużych prób:
𝑈 − 𝐸 𝑈 + 0,5
𝑧=
𝜎𝑈
Wartość empiryczną porównuje się z wartością krytyczną, odczytaną ze standaryzowanej tablicy
rozkładu normalnego (w Excelu „=rozkład.normalny.s.odw()”), przy czym dla testu dwustronnego
𝛼
odczytujemy wartość z tablicy przy poziomie (poziom istotności dla przeprowadzanego testu to 𝛼).
2
Test U Manna-Whitneya
Jeżeli 𝒛 < 𝒛𝒌𝒓 , odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 , a więc rozkłady w populacjach różnią się
Najczęściej wykorzystywane wartości krytyczne:
Badano dwie grupy zawodników pewnej dyscypliny sportu. Każda grupa poddana była
innemu programowi treningowemu. Następnie z każdej z grup wylosowano po 10
zawodników i poddano ich testowi. Wyniki testu zawiera tabela. Za pomocą testu U Manna-
Whitneya sprawdź czy obie grupy zawodników różnią się pod względem wyników
osiąganych w teście (sprawdź, czy rozkłady wyników testu w obu grupach różnią się).
EXCEL Grupa I Grupa II
27 6
33 9
37 14
52 16
53 29
57 43
69 45
70 47
71 50
77 55
Wykład 5. Dwuczynnikowa analiza wariancji.
Dwuczynnikowa analiza wariancji
Jest metodą badania, czy występują istotne różnice w średnich w r populacjach ze względu na dwa
czynniki (każdy może mieć inna liczbę poziomów).
Wschodni (j=1)
59 49 65
56 60 70
70 54 68
62 52 62
63 49 73
57 55 60
68 53 79
52 44 61
50 49 64
Czynnik A
Centralny (j=2)
58 54 69
ma trzy
59 53 58
Rejon
poziomy,
62 51 57
J=1,2,3
57 60 63
58 55 65
64 47 63
61 50 50
63 65 82
67 58 72
Zachodni (j=3)
68 62 79
72 70 77
68 57 80
75 61 69
62 68 84
65 65 83
70 73 76
Oznaczenia w dwuczynnikowej ANOVA
Klatka – kombinacja j-tego wiersza oraz k-tej kolumny. Stąd liczba klatek to: a·b
a – liczba poziomów czynnika A ( j = 1, …, a)
b – liczba poziomów czynnika B (k = 1, …, b)
N – liczba wszystkich obiektów poddanych badaniu
𝑛𝑖 – liczebność (i-tej) klatki,
𝑛𝑗 − liczba wszystkich obiektów o j-tym poziomie czynnika A
𝑛𝑘 – liczba wszystkich obiektów o k-tym poziomie czynnika B
Oznaczenia w dwuczynnikowej ANOVA
σ𝑖 σ𝑗 σ𝑘 𝑥𝑖𝑗𝑘
𝑥 = – średnia ogólna
𝑁
σ𝑗 σ𝑘 𝑥𝑖𝑗𝑘
𝑥ҧ𝑖 = − średnia w 𝑖 − tej klatce (a więc średnia obiektów o
𝑛𝑖
𝑗 − tym poziomie czynnika A i 𝑘 − tym poziomie czynnika B)
σ𝑗 𝑥𝑖𝑗𝑘
𝑥𝑗ҧ = − średnia obiektów o 𝑗 − tym poziomie czynika A
𝑛𝑗
(bez względu na poziom czynnika B)
σ𝑘 𝑥𝑖𝑗𝑘
𝑥ҧ𝑘 = − średnia obiektów o 𝑘 − tym poziomie czynika B
𝑛𝑘
(bez względu na poziom czynnika A)
Idea dwuczynnikowej ANOVA
෪2 = 𝑛𝑖 (𝑥ҧ𝑖 − 𝑥 )2
(𝑥𝑖𝑗𝑘 − 𝑥) + (𝑥𝑖𝑗𝑘 − 𝑥ҧ𝑖 )2
𝑖 𝑗 𝑘 𝑖 𝑖 𝑗 𝑘
Idea dwuczynnikowej ANOVA
෪2 = 𝑛𝑖 (𝑥ҧ𝑖 − 𝑥 )2
(𝑥𝑖𝑗𝑘 − 𝑥) + (𝑥𝑖𝑗𝑘 − 𝑥ҧ𝑖 )2
𝑖 𝑗 𝑘 𝑖 𝑖 𝑗 𝑘
SSTR = SS A + SS B + SS(AB)
𝑛𝑖 (𝑥ҧ𝑖 − 𝑥 )2 = 𝑛𝑗 (𝑥𝑗ҧ − 𝑥 )2 + 𝑛𝑘 (𝑥ҧ 𝑘 − 𝑥 )2 + 𝑛𝑖 ( 𝑥ҧ𝑖 − 𝑥𝑗ҧ − 𝑥ҧ𝑘 + 𝑥 )2
𝑖 𝑗 𝑘 𝑖 𝑗 𝑘
Testy przeprowadzane w ramach dwuczynnikowej ANOVA
𝑆𝑆(𝐴)/(𝑎 − 1) 𝑀𝑆(𝐴)
𝐹= =
𝑆𝑆𝐸/(𝑎𝑏 𝑛𝑖 − 1 ) 𝑀𝑆𝐸
Jeżeli 𝑭 > 𝑭𝒌𝒓 , odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 (nie wszystkie populacje charakteryzują się
jednakową średnią pod kątem czynnika A).
Wartość krytyczna – odczytana z tablic rozkładu F przy zadanym poziomie istotności 𝛼 oraz liczbie
stopni swobody licznika (𝑎 − 1) oraz liczbie stopni swobody mianownika 𝑎𝑏 𝑛𝑖 − 1
Testy przeprowadzane w ramach dwuczynnikowej ANOVA
𝑆𝑆(𝐵)/(𝑏 − 1) 𝑀𝑆(𝐵)
𝐹= =
𝑆𝑆𝐸/(𝑎𝑏 𝑛𝑖 − 1 ) 𝑀𝑆𝐸
Jeżeli 𝑭 > 𝑭𝒌𝒓 , odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 (nie wszystkie populacje charakteryzują się
jednakową średnią pod kątem czynnika B).
Wartość krytyczna – odczytana z tablic rozkładu F przy zadanym poziomie istotności 𝛼 oraz liczbie
stopni swobody licznika (𝑏 − 1) oraz liczbie stopni swobody mianownika 𝑎𝑏 𝑛𝑖 − 1
Testy przeprowadzane w ramach dwuczynnikowej ANOVA
𝑆𝑆(𝐴𝐵)/[ 𝑎 − 1 𝑏 − 1 ] 𝑀𝑆(𝐴𝐵)
𝐹= =
𝑆𝑆𝐸/(𝑎𝑏 𝑛𝑖 − 1 ) 𝑀𝑆𝐸
Wartość krytyczna – odczytana z tablic rozkładu F przy zadanym poziomie istotności 𝛼 oraz liczbie
stopni swobody licznika (𝑎 − 1)(𝑏 − 1) oraz liczbie stopni swobody mianownika 𝑎𝑏 𝑛𝑖 − 1
Test HSD w dwuczynnikowej ANOVA
Jeżeli nie ma interakcji, porównuje się średnie ze względu na poziomy jednego czynnika (bez względu na poziom
drugiego czynnika).
Test HSD w dwuczynnikowej ANOVA
Jeżeli 𝐻𝑆𝐷𝑒𝑚𝑝 > 𝐻𝑆𝐷𝑘𝑟 odrzucamy 𝐻0 na korzyść 𝐻1 , badane dwie grupy (ze względu na dwa poziomy czynnika A)
różnią się pod względem średniej.
b) przy testowaniu różnic średnich ze względu na poziomy czynnika B – parami porównujemy średnie dla różnych
poziomów tego czynnika:
𝑀𝑆𝐸
𝐻𝑆𝐷𝑘𝑟 = 𝑞𝛼
𝑎𝑛𝑖
𝑞𝛼 − wartość z tablic studentyzowanego rozkładu rozstępu przy liczbie stopni swobody: 𝑏 oraz 𝑎𝑏(𝑛𝑖 − 1)
Jeżeli 𝐻𝑆𝐷𝑒𝑚𝑝 > 𝐻𝑆𝐷𝑘𝑟 odrzucamy 𝐻0 na korzyść 𝐻1 , badane dwie grupy (ze względu na dwa poziomy czynnika
B) różnią się pod względem średniej.
Dwuczynnikowa analiza wariancji ANOVA - przykład
Przykład 1.
Badano uposażenia dyrektorów (tys.$ rocznie) w trzech branżach i trzech rejonach kraju. Przeprowadź
podwójną ANOVA.
1. Zbuduj tablicę ANOVA i przeprowadź odpowiednie testy.
2. Jeżeli nastąpi odrzucenie H0, przeprowadź testy HSD Tukeya i porównaj średnie parami.
Dwuczynnikowa analiza wariancji ANOVA - przykład
Branża (czynnik B)
I II III
54 48 71
61 50 76
59 49 65
Wschodni
56 60 70
70 54 68
62 52 62
63 49 73
57 55 60
68 53 79
52 44 61
50 49 64
Rejon (czynnik A)
58 54 69
Centralny
59 53 58
62 51 57
57 60 63
58 55 65
64 47 63
61 50 50
63 65 82
67 58 72
68 62 79
Zachodni
72 70 77
68 57 80
75 61 69
62 68 84
65 65 83
70 73 76
Wykład 4. ANOVA – jednowymiarowa analiza wariancji i jej
zastosowania.
.
Jednowymiarowa analiza wariancji ANOVA
Jest metodą badania czy przeciętny poziom zmiennej opisującej obiekty w różnych populacjach jest
istotnie różny.
Oznaczenia:
𝑟 − liczba analizowanych populacji 𝑖 = 1, … , 𝑟
𝑁 − łączna liczba obserwacji (liczebność wszystkich prób)
𝑛𝑖 − liczebność próby z populacji i-tej
Hipotezy badawcze:
𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑟
𝐻1 : 𝑝𝑟𝑧𝑦𝑛𝑎𝑗𝑚𝑛𝑖𝑒𝑗 𝑗𝑒𝑑𝑛𝑎 ś𝑟𝑒𝑑𝑛𝑖𝑎 𝑗𝑒𝑠𝑡 𝑖𝑛𝑛𝑎
Jednowymiarowa analiza wariancji ANOVA
Aby zweryfikować hipotezę o równości wartości oczekiwanej obliczamy sumę kwadratów odchyleń
obserwacji od średniej ogólnej po wszystkich obserwacjach
𝑟 𝑛𝑖 𝑟 𝑛𝑖
2 2
𝑥𝑖𝑗 − 𝑥 = 𝑥𝑖𝑗 − 𝑥ҧ𝑖 + (𝑥ҧ𝑖 − 𝑥)
𝑖=1 𝑗=1 𝑖=1 𝑗=1
Jednowymiarowa analiza wariancji ANOVA
𝑟 𝑛𝑖 𝑟 𝑛𝑖 𝑟
2 2
𝑥𝑖𝑗 − 𝑥 = 𝑥𝑖𝑗 − 𝑥ҧ𝑖 2
+ 𝑛𝑖 (𝑥ҧ𝑖 − 𝑥)
𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑖=1
𝑆𝑆𝑇𝑅
𝑀𝑆𝑇𝑅
𝐹𝑒𝑚𝑝 = 𝑟 − 1 =
𝑆𝑆𝐸 𝑀𝑆𝐸
𝑁−𝑟
Przy założeniu prawdziwości hipotezy zerowej statystyka F ma rozkład Snedecora-Fishera o 𝑟 − 1
stopniach swobody licznika i 𝑁 − 𝑟 stopniach swobody mianownika.
Jeżeli 𝐹𝑒𝑚𝑝 > 𝐹𝑘𝑟𝑦𝑡 to odrzucamy 𝐻0 na korzyść 𝐻1 (nie wszystkie populacje charakteryzują się
jednakową średnią)
Jednowymiarowa analiza wariancji ANOVA
v1
v2 1 2 3 4 5 6
Test HSD Tukeya pozwala na porównanie dowolnie wybranej pary średnich przy jednym, ustalonym
dla wszystkich porównań, poziomie istotności. Jeżeli porównuje się wszystkie średnie między sobą
𝑟
(parami), należy dokonać porównań.
2
𝑘≠𝑙
𝐻𝑆𝐷𝑒𝑚𝑝 = 𝑥ҧ𝑘 − 𝑥ҧ𝑙 przy czym:
𝑘, 𝑙 = 1, … , 𝑟
Wartość krytyczną trzeba obliczyć ze wzoru:
𝑀𝑆𝐸
𝐻𝑆𝐷𝑘𝑟 = 𝑞𝛼 gdzie:
𝑛𝑖
𝑞𝛼 − wartość odczytana z tablic studentyzowanego rozkładu rozstępu (liczba stopni swobody r oraz N-
r)
𝑛𝑖 − liczebność grup (w przypadku gdy grupy są równoliczne); jeżeli liczebności poszczególnych prób
nie są równe, zamiast 𝑛𝑖 wstawia się np. liczebność najmniejszej próby
Jeżeli 𝐻𝑆𝐷𝑒𝑚𝑝 > 𝐻𝑆𝐷𝑘𝑟 to odrzucamy 𝐻0 na korzyść 𝐻1 (badane dwie populacje różnią się pod
względem średniej)
Jednowymiarowa analiza wariancji ANOVA
Przykład 1.
Spółka Gulfstream Aerospace wyprodukowała trzy różne prototypy samolotu, który mógłby
być masowo produkowany jako najnowszy wielki odrzutowiec. Każdy z trzech prototypów
miał nieco odmienne cechy, które mogłyby mieć pewne konsekwencje dla sprawności
samolotu. W toku procesu decyzyjnego, który miał doprowadzić do ustalenia, jaki rodzaj
samolotu będzie ostatecznie produkowany, zatrudnieni w spółce inżynierowie
zainteresowali się tym, czy trzy produkowane prototypy mają mniej więcej ten sam
przeciętny zasięg lotu. Każdemu z prototypów wyznaczono losowo trasę 10 przelotów i
godzinę odlotu. Mierzono zasięg lotu przy pełnych zbiornikach paliwa. Dane o zasięgu
trzech prototypów podaje tabela (dane w milach). Zweryfikować, czy wszystkie trzy
prototypy mają ten sam przeciętny zasięg. Jeżeli tak nie jest, to stosując test Tukeya
sprawdź, które prototypy różnią się istotnie zasięgiem:
Jednowymiarowa analiza wariancji ANOVA - przykład
Powyższa macierz definiuje jedynie odległość między obiektami. Gdy zaczynamy tworzyć skupienia
powstaje problem w jaki sposób na podstawie macierzy 𝐷 zdefiniować odległość między skupieniami,
z których przynajmniej jedno zawiera więcej niż jeden obiekt. Poszczególne metody analizy skupień
różnią się właśnie sposobem definiowania odległości między skupieniami.
Analiza skupień – przykładowe zastosowania
- Marketing – wykorzystywanie analizy skupień w celu podzielenia rynku na małe jednorodne grupy,
oferowanych produktów
ludzi
Etap II: Skupienia Ω𝑝 oraz Ω𝑞 łączy się w jedno skupienie, zachowując dla niego numer 𝑝
Etap III: Z macierzy 𝐷 usuwane są wiersz i kolumna 𝑞 (zmienia się wymiar na 𝑁 − 1)
Etap IV: Obliczane są odległości 𝑑𝑝𝑗 między „nowym” skupieniem Ω𝑝 a pozostałymi skupieniami i
wstawiane są do macierzy 𝐷 w miejsce kolumny/wiersza 𝑝.
Powrót do etapu I.
Koniec procedury: wszystkie obiekty = jedno skupienie
Metody aglomeracyjne
• Metoda środka ciężkości– odległość pomiędzy dwoma grupami obiektów jest równa odległości
między środkami ciężkości tych grup. .
Metoda Warda – łączenie dwóch grup w jedną w taki sposób by zminimalizować sumę kwadratów
odchyleń wewnątrz skupień (zagadnienie wyjaśniane przy okazji kolejnego tematu). W danym etapie
spośród wszystkich możliwych do połączenia par skupień wybrana zostaje ta para, która po połączeniu
da skupienie o minimalnym zróżnicowaniu.
Schemat metod aglomeracyjnych
Ogólne formuły wyznaczania odległości skupienia Ω𝑝 = Ω𝑝 ∪ Ω𝑞 od pozostałych skupień Ω𝑗 :
𝑑𝑝𝑗 = 𝑎𝑝 𝑑𝑝𝑗 + 𝑎𝑞 𝑑𝑞𝑗 + 𝑏𝑑𝑝𝑞 + 𝑐|𝑑𝑝𝑗 − 𝑑𝑞𝑗 |
Wartości parametrów 𝑎𝑝 , 𝑎𝑞 , 𝑏, 𝑐 dla różnych metod grupowania obiektów
Metoda 𝑎𝑝 𝑎𝑞 b c
Najbliższego sąsiedztwa 0.5 0.5 0 -0.5
Najdalszego sąsiedztwa 0.5 0.5 0 0.5
Mediany 0.5 0.5 -0.25 0
𝑛𝑝 𝑛𝑞
Średniej grupowej 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0 0
𝑛𝑝 𝑛𝑞 𝑛𝑝 𝑛𝑞
Środka ciężkości − 2
𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛 𝑞 0
𝑛𝑝 + 𝑛𝑗 𝑛𝑞 + 𝑛𝑗 𝑛𝑗
Warda −
𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 0
Przykład 1:
O1 O2 O3 O4 O5
O1 0 4 5 2 5,5
O2 4 0 6 7 2,5
O3 5 6 0 3,5 3
O4 2 7 3,5 0 1,5
O5 5,5 2,5 3 1,5 0
𝑛𝑝 𝑛𝑞
Średniej grupowej 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0 0
𝑛𝑝 𝑛𝑞 𝑛𝑝 𝑛𝑞
Środka ciężkości − 2
𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0
𝑛𝑝 + 𝑛𝑗 𝑛𝑞 + 𝑛𝑗 𝑛𝑗
Warda −
𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 0
𝑛𝑝 𝑛𝑞
Średniej grupowej 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0 0
𝑛𝑝 𝑛𝑞 𝑛𝑝 𝑛𝑞
Środka ciężkości − 2
𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0
𝑛𝑝 + 𝑛𝑗 𝑛𝑞 + 𝑛𝑗 𝑛𝑗
Warda −
𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 0
Diagram drzewa
Pojedyncze wiązanie
Odległ. euklidesowa
3,2
Przyrosty Przyrosty
3,0
𝑑𝑙 bezwzględne względne
2,8
𝑑𝑙 − 𝑑𝑙−1 𝑑𝑙 /𝑑𝑙−1
2,6
1,5
Odległość wiąz.
2,4
2,2
2 0,5 1,33
2,0
2,5 0,5 1,25
1,8
3 0,5 1,20
1,6
1,4
1,2
O3 O2 O5 O4 O1
Przykład 1
Diagram drzewa
Pojedyncze wiązanie
Odległ. euklidesowa
3,2
Przyrosty Przyrosty
3,0
𝑑𝑙 bezwzględne względne
2,8
𝑑𝑙 − 𝑑𝑙−1 𝑑𝑙 /𝑑𝑙−1
2,6
1,5
Odległość wiąz.
2,4
2,2
2 0,5 1,33
2,0
2,5 0,5 1,25
1,8
3 0,5 1,20
1,6
1,4
1,2
O3 O2 O5 O4 O1
Przykład 2:
Dana jest macierz odległości między obiektami. Pogrupuj obiekty z wykorzystaniem metody
średniej grupowej.
O1 O2 O3 O4 O5
O1 0 4 5 2 5,5
O2 4 0 6 7 2,5
O3 5 6 0 3,5 3
O4 2 7 3,5 0 1,5
O5 5,5 2,5 3 1,5 0
Podział dendogramu
Drzewo połączeń (dendogram) jest dopiero podstawą do wyodrębnienia skupień obiektów podobnych.
Możliwe są różne warianty postępowania, ale zawsze wyodrębnienie skupień następuje przez wykreślenie z
dendrogramu kolejnych gałęzi od najdłuższej rozpoczynając:
1. Ustalamy z góry liczbę skupień 𝑆 którą zamierzamy podzielić i usuwamy 𝑆 − 1 najdłuższych krawędzi
2. Ustalamy bezwzględne przyrosty 𝑑𝑖 − 𝑑𝑖−1 długości kolejnych krawędzi połączeń i usuwamy tą krawędź,
dla której nastąpił największy przyrost i wszystkie krawędzie od niej dłuższe
𝑑𝑖
3. Obliczamy wskaźnik względnego przyrostu długości krawędzi i usuwamy tę krawędź, gdzie ten
𝑑𝑖−1
Etap I: W każdym istniejącym skupieniu wyszukiwana jest najbardziej zróżnicowana para obiektów
(tyle par, ile na danym etapie jest skupień!). Ustalana jest ta para, której odległość jest największa.
Załóżmy, że jest to para 𝑂𝑝 oraz 𝑂𝑞 ze skupienia Ω
Etap II: Skupienie Ω ulega stopniowemu podziałowi na dwa mniejsze Ω𝑝 oraz Ω𝑞 „skupione” wokół
odpowiednio 𝑂𝑝 oraz 𝑂𝑞 .
Procedura powtarzana jest do rozpadnięcia zbioru Ω na 𝑁 skupień.
Schemat hierarchicznych procedur podziału
• Metoda optymalizacji iteracyjnej, której celem jest „poprawienie wstępnego” podziału (np. na k
skupień) badanego zbioru obiektów z punktu widzenia pewnej zdefiniowanej funkcji-kryterium (np.
odległość od centrów skupień, błąd grupowania czy stosunek zmienności międzygrupowej do
zmienności wewnątrzgrupowej),
• Ustalamy z góry liczbę grup k, maksymalną liczbę iteracji poprawiania dobroci grupowania oraz
wstępne centra skupień.
Metoda k-średnich
Każdy obiekt przyporządkowujemy do grupy, dla której jego odległość od centrum skupienia jest najmniejsza
Każdy obiekt przyporządkowujemy do grupy, dla której jego odległość od centrum skupienia jest najmniejsza
Przeprowadzamy kolejne iteracje aż do momentu gdy w danej iteracji nie nastąpiło przemieszczenie obiektu
lub osiągnięto założoną liczbę iteracji.
Przykład 4:
Obiekt X1 X2
A 1 1
B 2 1
C 4 3
D 5 4
EXCEL
Mierniki jakości grupowania
• Cel grupowania: obiekty należące do tej samej grupy powinny być jak najbardziej do siebie podobne
(jak najwyższa homogeniczność grup), a obiekty należące do różnych grup powinny być jak najbardziej
niepodobne (heterogeniczne)
• Mierniki homogeniczności – im mniejsze wartości tych miar tym większe podobieństwo obiektów
wewnątrz grup.
Przykładowy cząstkowy miernik homogeniczności oparty na odległości obiektów w skupieniu od
centrum skupienia:
σ𝑖∈Ω𝑠 𝑑(𝑂𝑖 , 𝑂𝑠 )
𝑑𝑠 =
𝑛𝑠
𝑑 𝑂𝑖 , 𝑂𝑠 − odległość każdego obiektu od centrum skupienia
𝑛𝑠 − liczebność danego skupienia
Przykładowy sumaryczny miernik homogeniczności bazujący na pomiarze odległości obiektów od
centrów skupień:
σ𝑆𝑠=1 𝑑𝑠
𝑑=
𝑆
𝑆 −liczba wyodrębnionych skupień
Mierniki jakości grupowania
• Mierniki heterogeniczności grup – im wyższe wartości tych miar tym mniejsze podobieństwo
utworzonych grup.
Przykładowy cząstkowy miernik heterogeniczności oparty na odległości między centrem skupenia
danej grupy od centrów pozostałych grup:
σ𝑆𝑠=1 𝐷𝑠
𝐷=
𝑆
Mierniki jakości grupowania
• Miernik poprawności grupowania:
𝑑
𝑀𝐽𝐺 =
𝐷
Miarą odległości między obiektem i-tym a obiektem j-tym nazywamy funkcję d spełniającą warunki:
• dodatniości 𝑑𝑖𝑗 > 0
• symetryczności 𝑑𝑖𝑗 = 𝑑𝑗𝑖
• zwrotności 𝑑𝑖𝑖 = 0
• nierówności trójkąta 𝑑𝑖𝑗 ≤ 𝑑𝑖𝑘 + 𝑑𝑗𝑘
Wzrost wartości miary odległości oznacza zmniejszenie stopnia podobieństwa obiektów ze względu na
charakteryzujące je własności.
Odległości dla wszystkich par badanych obiektów można przedstawić w postaci macierzy:
𝐷 = 𝑑𝑖𝑗
Podstawowe miary odległości
1. Odległość Euklidesa
𝐾
𝑇 −1
𝑑𝑖𝑗 = 𝒙𝑖 − 𝒙𝑗 𝑆 𝒙𝑖 − 𝒙𝑗
0,5
𝐾 𝐾
𝑆 −1 - macierz wariancji-kowariancji
𝑠 -element macierz odwrotnej do macierzy kowariancji
Podstawowe miary odległości - przykład
W tabeli przedstawiono dane dotyczące: liczby uczniów i studentów na 1000 ludności 𝑋1 , liczby
odbiorników radiofonicznych na 1000 ludności 𝑋2 oraz liczby odbiorników telewizyjnych na 1000
ludności 𝑋3 na 6 kontynentach świata w 1994 r.
Konstynent 𝑋1 𝑋2 𝑋3
Afryka 171 170 38
Ameryka Północna 231 2013 800
Ameryka Południowa 236 360 166
Azja 179 184 73
Europa 182 736 381
Australia i Oceania 198 990 375
Podstawowe miary odległości - przykład
171 170 38
231 2013 800
236 360 166
𝑋=
179 184 73
182 736 381
198 990 375
Wyznacz macierz odległości między badanymi kontynentami. Wykorzystaj w tym celu trzy miary:
euklidesową, miejską oraz Czybyszewa.
Podstawowe miary odległości - przykład
Ameryka Ameryka
Afryka Azja Europa Australia
Północna Południowa
Afryka
Ameryka
Północna
Ameryka
Południowa
Azja
Europa
Australia
Podstawowe miary odległości - przykład
Ameryka Ameryka
Afryka Azja Europa Australia
Północna Południowa
Afryka
Ameryka
Północna
Ameryka
Południowa
Azja
Europa
Australia
Podstawowe miary odległości - przykład
Ameryka Ameryka
Afryka Azja Europa Australia
Północna Południowa
Afryka
Ameryka
Północna
Ameryka
Południowa
Azja
Europa
Australia
Wykład 1 oraz 2. Zjawisko złożone i jego wielowymiarowy opis.
Skale pomiarowe. Metody porządkowania liniowego.
Złożone zjawisko gospodarcze
Zbiór obiektów Ω = 𝑂1 , 𝑂2 , 𝑂3 , … , 𝑂𝑁
Dopuszczalne operacje
Typ skali
arytmetyczne
2. Destymulanty (minimanty) 𝑋𝑘𝐷 – zmienne, których wysokie wartości dla badanych obiektów są
niepożądane z punktu widzenia rozpatrywanego zjawiska.
3. Nominanty – 𝑋𝑘𝑁 zmienne, których odchylenia wartości dla badanego obiektu od konkretnej
wartości (nominanta punktowa) lub od przedziału wartości (nominanta przedziałowa) są
niepożądane z punktu widzenia badanego zjawiska.
Etap I. Ujednolicenie charakteru zmiennych – czyli
doprowadzamy zmienne do postaci stymulant
a) przekształcenie ilorazowe
1
𝑋𝑘 =
𝑋𝑘𝐷 + 𝑐𝑘
𝑐𝑘 −pewna nieujemna stała
b) przekształcenie różnicowe
𝑋𝑘 = 1 − 𝑋𝑘𝐷
𝑋𝑘 = 100 − 𝑋𝑘𝐷
Etap I. Ujednolicenie charakteru zmiennych – czyli
doprowadzamy zmienne do postaci stymulant
1
𝑋𝑘 =
𝑋𝑘𝑁 − 𝑋𝑘0 + 𝑐𝑘
1
1 𝑁 𝑑𝑙𝑎 𝑋𝑘𝑁 < 𝑋𝑘1
𝑋𝑘 − 𝑋𝑘 + 𝑐𝑘
1
𝑋𝑘𝑠 = 𝑑𝑙𝑎 𝑋𝑘1 ≤ 𝑋𝑘𝑁 ≤ 𝑋𝑘2
𝑐𝑘
1
𝑁 2 𝑑𝑙𝑎 𝑋𝑘𝑁 > 𝑋𝑘2
𝑋𝑘 − 𝑋𝑘 + 𝑐𝑘
a) standaryzacja (klasyczna)
𝑋𝑘 − 𝑋𝑘
𝑍𝑘 =
𝑠𝑘
𝑋𝑘 − średnia dla zmiennej K
𝑠𝑘 − odchylenie standardowe dla zmiennej K
Etap II. Normalizacja zmiennych – czyli ujednolicenie
jednostek i zakresu wartości zmiennych
b) unitaryzacja
𝑋𝑘 − 𝑋𝑘𝑚𝑖𝑛
𝑍𝑘 = 𝑍𝑘 ∈< 0,1 >
𝑋𝑘𝑚𝑎𝑥 − 𝑋𝑘𝑚𝑖𝑛
c) przekształcenia ilorazowe
𝑋𝑘
𝑍𝑘 = 𝑚𝑎𝑥 𝑋𝑘 ≥ 0 𝑍𝑘 ∈ (0,1 >
𝑋𝑘
lub
𝑋𝑘
𝑍𝑘 = 𝑋𝑘 > 0 𝑍𝑘 ∈< 1,+∝)
𝑋𝑘𝑚𝑖𝑛
a) miernik bezwzorcowy:
𝑀𝑆𝑖 = 𝑤𝑘 ∙ 𝑧𝑖𝑘 0 ≤ 𝑤𝑘 ≤ 1 𝑤𝑘 = 1
𝑘=1
𝑢𝑗𝑒𝑑𝑛𝑜𝑙𝑖𝑐𝑒𝑛𝑖𝑒
𝑋1 𝑋2 𝑋𝐾 𝑐ℎ𝑎𝑟𝑎𝑘𝑡𝑒𝑟𝑢 𝑍1 𝑍2 𝑍𝐾 𝑀𝑆1
𝑂1 𝑂1 𝑎𝑔𝑟𝑒𝑔𝑜𝑤𝑎𝑛𝑖𝑒
𝑂2 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑎𝑐𝑗𝑎 𝑂2
− 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑦𝑧𝑎𝑐𝑗𝑎 𝑤𝑎𝑟𝑡𝑜ś𝑐𝑖 𝑧𝑚𝑖𝑒𝑛𝑛𝑦𝑐ℎ
−𝑢𝑛𝑖𝑡𝑎𝑟𝑦𝑧𝑎𝑐𝑗𝑎 𝑂𝑁 𝑀𝑆𝑁
𝑂𝑁
−𝑓𝑜𝑟𝑚𝑢ł𝑦 𝑖𝑙𝑜𝑟𝑎𝑧𝑜𝑒
Przykład – kondycja finansowa spółek giełdowych
Wskaźnik
Rotacja zapasów w Stopa zwrotu z
Spółka płynności
dniach aktywów
bieżącej
Nominanta c=0,5
Destymulanta Stymulanta
Charakter
<1,5 – 2>
Przykład – kondycja finansowa spółek giełdowych
1
1 𝑁 𝑑𝑙𝑎 𝑋𝑘𝑁 < 𝑋𝑘1
𝑋𝑘 − 𝑋𝑘 + 𝑐𝑘
1
𝑋𝑘𝑠 = 𝑑𝑙𝑎 𝑋𝑘1 ≤ 𝑋𝑘𝑁 ≤ 𝑋𝑘2
𝑐𝑘
1
𝑁 2 𝑑𝑙𝑎 𝑋𝑘𝑁 > 𝑋𝑘2
𝑋𝑘 − 𝑋𝑘 + 𝑐𝑘
1
𝑁 𝑑𝑙𝑎 𝑋𝑘𝑁 < 1,5
1,5 − 𝑋𝑘 + 0,5
1
𝑋𝑘𝑠 = 𝑑𝑙𝑎 1,5 ≤ 𝑋𝑘𝑁 ≤ 2,0
0,5
1
𝑁 𝑑𝑙𝑎 𝑋𝑘𝑁 > 2,0
𝑋𝑘 − 2,0 + 0,5
=JEŻELI(C27<1,5;1/(1,5-C27+0,5);JEŻELI(2<C27;1/(C27-2+0,5);1/0,5))
C27 – adres przekształcanej wartości nominanty
Przykład – kondycja finansowa spółek giełdowych
Spółka Wskaźnik płynności bieżącej Rotacja zapasów w dniach Stopa zwrotu z aktywów
Unitaryzacja
𝑋𝑘 − 𝑋𝑘𝑚𝑖𝑛
𝑍𝑘 = 𝑍𝑘 ∈< 0,1 >
𝑋𝑘𝑚𝑎𝑥 − 𝑋𝑘𝑚𝑖𝑛
Wskaźnik Rotacja
Stopa zwrotu z
Spółka płynności zapasów w
aktywów
bieżącej dniach
Miejsce Miejsce
Miernik bezwzorcowy Miernik bezwzorcowy rankingowe rankingowe
Spółka
(jednakowe wagi) (zróżnicowane wagi) (jednakowe (różnicowane
wagi) wagi)
b) miernik wzorcowy:
Wzorzec – obiekt opisany za pomocą najwyższych wartości poszczególnych zmiennych
Miernik wzorcowy:
𝑑𝑖0
𝑀𝑆𝑊𝑖 = 1 −
𝑑ҧ0 + 2𝑠𝑑
𝑑ҧ0 − średnia odległość od wzorca,
𝑠𝑑 − odchylenie standardowe odległości od wzorca
Przykład – kondycja finansowa spółek giełdowych
Miejsce
Wskaźnik Rotacja
Stopa zwrotu z Miernik rankingowe
Spółka płynności zapasów w di0
aktywów wzorcowy (miernik
bieżącej dniach
wzorcowy)
Procedura postępowania:
1) Normalizacja zmiennych
𝑥𝑖𝑘
𝑧𝑖𝑘 =
σ𝑁 2
𝑖=1 𝑥𝑖𝑘
a) antywzorca
𝐾
+ + 2
𝑑𝑖𝑜 = 𝑧𝑖𝑘 − 𝑧𝑜𝑘
𝑘=1
a) antywzorca
𝐾
− − 2
𝑑𝑖𝑜 = 𝑧𝑖𝑘 − 𝑧𝑜𝑘
𝑘=1
−
𝑑𝑖𝑜
𝑀𝑆𝑖 = + −
𝑑𝑖𝑜 + 𝑑𝑖𝑜
Miernik TOPSIS – modyfikacja
𝑥𝑖𝑘
𝑧𝑖𝑘 =
σ𝑁 2
𝑖=1 𝑥𝑖𝑘
𝐾
+ + 2
𝑑𝑖𝑜 = 𝑧𝑖𝑘 − 𝑧𝑜𝑘
𝑘=1
a) antywzorca
𝐾
− − 2
𝑑𝑖𝑜 = 𝑧𝑖𝑘 − 𝑧𝑜𝑘
𝑘=1
−
𝑑𝑖𝑜
𝑀𝑆𝑖 = + −
𝑑𝑖𝑜 + 𝑑𝑖𝑜
Przykład – kondycja finansowa spółek giełdowych
Wskaźnik Rotacja
Stopa zwrotu z
Spółka płynności zapasów w
aktywów
bieżącej dniach
Miejsce
rankingowe
Spółka di0+ di0- Miernik TOPSIS
(miernik
TOPSIS)
Porównanie rankingów
1 1 1 2
6 7 6 7
3 3 3 4
5 4 5 3
7 6 7 5
2 2 2 1
4 5 4 6
Przykład – kondycja finansowa spółek giełdowych
Bezworcowy Bezwzorcowy
Miernik Wzorcowy TOPSIS
(jednakowe wagi) (różne wagi)
• Wachowicz, T., Roszkowska, E., 2013, Metoda TOPSIS i jej rozszerzenia – studium metodologiczne, In book:
Analiza wielokryterialna. Wybrane zagadnienia, Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach,
red. Tadeusz Trzaskalik
Miernik syntetyczny – podział obiektów na grupy
Na podstawie wartości miernika syntetycznego oprócz ustalenia porządku (rankingu obiektów) ze względu na dane
zjawisko możemy także dokonać podziału na grupy o różnym poziomie danego zjawiska.
Podział na 3 grupy
• Bardzo dobre 𝑀𝑆𝑖 > 𝑀𝑆 + 𝑠𝑀𝑆
• Przeciętne 𝑀𝑆 − 𝑠𝑀𝑆 ≤ 𝑀𝑆𝑖 ≤ 𝑀𝑆 + 𝑠𝑀𝑆
• Słabe 𝑀𝑆𝑖 < 𝑀𝑆 − 𝑠𝑀𝑆
Podział na 4 grupy
• Bardzo dobre 𝑀𝑆𝑖 > 𝑀𝑆 + 𝑠𝑀𝑆
• Dobre 𝑀𝑆 < 𝑀𝑆𝑖 ≤ 𝑀𝑆 + 𝑠𝑀𝑆
• Przeciętne 𝑀𝑆 − 𝑠𝑀𝑆 < 𝑀𝑆𝑖 ≤ 𝑀𝑆
• Słabe 𝑀𝑆𝑖 ≤ 𝑀𝑆 − 𝑠𝑀𝑆