Wykład 13. Analiza Głównych Składowych

Wykład 13.
Analiza głównych składowych

Cel stosowania analizy głównych składowych
• redukcja pierwotnego zbioru zmiennych opisujących zjawisko

• odkrycie ewentualnych prawidłowości między cechami
Cel stosowania analizy głównych składowych
Źródło: https://www.datacamp.com/tutorial/pca-analysis-r
Etapy analizy głównych składowych
Normalizacja zmiennych
Test Barletta/KMO
Obliczenie macierzy wariancji-

kowariancji / korelacji
Wyznaczenie wektorów
własnych i wartości własnych
Wybór głównych składowych
Przekształcenie danych w nową

przestrzeń
Test Barletta i współczynnik Kaisera-Mayera-Olkina
Test Barletta
2∙𝑝+5
𝐵𝑇 = −𝑙𝑛 𝑑𝑒𝑡𝑅 ∗ (𝑁 − 1 − )
6
𝑅 − macierz korelacji
𝑁 – liczba obserwacji
𝑝 – liczba zmiennych
Hipoteza zerowa: macierz korelacji jest macierzą jednostkową
Hipoteza alternatywna: macierz korelacji nie jest macierzą jednostkową
Statystyka testowa ma rozkład ch-kwadrat o 𝑝(𝑝 − 1)/2 stopnia swobody
Współczynnik Kaisera-Mayera-Olkina
KMO reprezentuje stopień, w jakim każda obserwowana zmienna jest przewidywana przez inne
zmienne w zbiorze danych, co wskazuje na przydatność analizy czynnikowej. Współczynnik KMO
przyjmuje wartości z przedziału [0, 1]. Im wyższa jest wartość tego współczynnika, tym silniejsze są
podstawy do zastosowania analizy składowych głównych. Powszechnie przyjmuje się, że wartość tego
współczynnika powinna przekroczyć wartość 0,5.
Przykładowe zastosowanie PCA
Image processing
An image is made of multiple features. PCA is mainly applied in image compression to retain the essential details of a
given image while reducing the number of dimensions. In addition, PCA can be used for more complicated tasks such
as image recognition.
Healthcare
In the same logic of image compression. PCA is used in magnetic resonance imaging (MRI) scans to reduce the
dimensionality of the images for better visualization and medical analysis. It can also be integrated into medical
technologies used, for instance, to recognize a given disease from image scans.
Security
Biometric systems used for fingerprint recognition can integrate technologies leveraging principal component analysis
to extract the most relevant features, such as the texture of the fingerprint and additional information.
Źródło: https://www.datacamp.com/tutorial/pca-analysis-r
Idea analizy głównych składowych
• Przekształcenie układu badanych (obserwowalnych) zmiennych (cech) X w zbiór nowych

(nieobserwowanych i nieskorelowanych) zmiennych Y, które są liniowymi kombinacjami
zmiennych X
• Liczba głównych składowych Y jest równa liczbie badanych cech X
• Suma wariancji wszystkich zmiennych X jest równa sumie wariancji głównych składowych
• Nowe zmienne (główne składowe) są wyznaczane w taki sposób by charakteryzowały się coraz
mniejszą wariancją – miarą zasobów informacyjnych o badanym zjawisku.
• Interesujące są te składowe główne, które wyjaśniają największą część wariancji – stąd analiza
skupia się tylko na tych składowych głównych. Zatem należy dążyć do tego, aby mała liczba
składowych głównych odpowiadała możliwie jak największej części zmienności.
• Wymagania dotyczące: rozkładu normalnego liczebności próby, obserwacji odstających, braków w
danych
Model analizy głównych składowych
Wariancja zmiennej będącej kombinacją liniową innych zmiennych:

Załóżmy, że mamy
• wektor zmiennych 𝑋 o wymiarze 𝑛𝑥1 (kolumnowy wektor)
• wektor wag 𝑎 o wymiarze 𝑛𝑥1.
• zmienna 𝑌 będąca kombinacją liniową zmiennych 𝑋 może być zapisana jako 𝑌 = 𝑎𝑇 𝑋.
Wariancję zmiennej 𝑌 można wówczas zapisać w notacji macierzowej jako:

𝑆 2 𝑌 = 𝑎𝑇 ∙ 𝑆 ∙ 𝑎
gdzie:
𝑆 to macierz kowariancji zmiennych 𝑋.
Model analizy głównych składowych
Model analizy można zapisać w następujący sposób:

𝑌1 = 𝑤11 𝑋1 + 𝑤21 𝑋2 + ⋯ + 𝑤𝑝1 𝑋𝑝 = 𝒘′𝟏 𝒙
𝑌2 = 𝑤12 𝑋1 + 𝑤22 𝑋2 + ⋯ + 𝑤𝑝2 𝑋𝑝 = 𝒘′𝟐 𝒙
……
gdzie 𝒘′𝟏 = [𝑤11 , 𝑤21 , … . , 𝑤𝑝1 ] jest wierszowym wektorem ładunków składnikowych
pierwszej głównej składowej, której wariancja wynosi:
𝑝 𝑝
𝑆 2 𝑌1 = ෍ ෍ 𝑤𝑗1 𝑤𝑘1 𝑠𝑗𝑘 = 𝒘′𝟏 𝑺𝒘𝟏

𝑘=1 𝑗=1
gdzie 𝑺 jest macierzą kowariancji. Dodatkowo spełniony jest warunek 𝒘′𝟏 𝒘𝟏 = 𝟏

Te same oznaczenia dotyczą kolejnych głównych składowych.
Szacowanie ładunków czynnikowych pierwszej głównej
składowej na podstawie macierz kowariancji
• Wybór takich ładunków 𝑤11 , 𝑤21 , … . , 𝑤𝑝1 które pozwolą maksymalizować wariancję
pierwszej głównej składowej:
𝑝 𝑝
𝑆 2 𝑌1 = ෍ ෍ 𝑤𝑗1 𝑤𝑘1 𝑠𝑗𝑘 = 𝒘′𝟏 𝑺𝒘𝟏

𝑘=1 𝑗=1
przy warunku:
𝑝
𝒘′𝟏 𝒘𝟏 = σ𝑗=1 𝑤𝑗1
2
=𝟏
• Wykorzystanie metody Langrange’a

Szacowanie ładunków czynnikowych pierwszej głównej
składowej na podstawie macierz kowariancji
• Funkcja pomocnicza: 𝜙 = 1 − 𝒘′𝟏 𝒘𝟏 = 0

• Funkcja Langrange’a:
𝐿 𝒘𝟏 = 𝑆 2 𝑌1 + 𝜆1 1 − 𝒘′𝟏 𝒘𝟏 = 𝒘′𝟏 𝑺𝒘𝟏 + 𝜆1 1 − 𝒘′𝟏 𝒘𝟏
𝜕L
= 2𝑺𝒘𝟏 − 2𝜆1 𝒘𝟏 = 2 𝑺 − 𝜆1 𝑰 𝒘𝟏 = 0
𝜕𝒘𝟏
𝑺 − 𝜆1 𝑰 𝒘𝟏 = 0
𝑺𝒘𝟏 = 𝜆1 𝒘𝟏 | ∙ 𝒘′𝟏
𝒘′𝟏 𝑺𝒘𝟏 = 𝜆1 𝒘′𝟏 𝒘𝟏 → 𝑆 2 (𝑌1 ) = 𝜆1
Analogiczne obliczenia dla pozostałych głównych składowych
Interpretacje
• wariancję głównej składowej 𝑌𝑙 daną wyrażeniem 𝑆 2 𝑌𝑙 = 𝒘′𝒍 𝑺𝒘𝒍 możemy zapisać

jako:
𝑆 2 𝑌𝑙 = 𝒘′𝒍 𝑺𝒘𝒍 = 𝜆𝑙 𝒘′𝒍 𝒘𝒍 = 𝜆𝑙
• całkowita wariancja układu składowych 𝑌1 , 𝑌2 , … , 𝑌𝑝 jest równa:
𝑝 𝑝
෍ 𝑆 2 𝑌𝑙 = 𝑡𝑟𝑺 = ෍ 𝜆𝑙
𝑙=1 𝑙=1
gdzie 𝑡𝑟𝑺 jest śladem macierzy kowariancji (suma elementów diagonalnych macierzy
kwadratowej), a zatem jest równa całkowitej wariancji zmiennych wyjściowych 𝑋𝑗
(𝑗 = 1,2, … 𝑝).
Interpretacje
• ważność 𝑙 −tej głównej składowej mierzymy ilorazem:
𝜆𝑙
𝐼 𝑌𝑙 = ∙ 100% (𝑙 = 1,2, … , 𝑝)
𝑡𝑟𝑺
który informuje jaką część całkowitej wariancji jest wyjaśniana przez 𝑙 −tą główną
składową.
• można wykazać, że współczynnik korelacji 𝑗 − tej zmiennej z 𝑙 − tą składową jest

równy:
𝜆𝑙 𝑤𝑗𝑙 𝑤𝑗𝑙 𝜆𝑙
𝑟𝑗𝑙 = =
𝑠𝑗 𝜆𝑙 𝑠𝑗
Ustalenie liczby głównych składowych
• kryterium wystarczającej proporcji - bazuje na wartościach własnych macierzy S, które

informują o wariancji wyjaśnionej przez kolejne główne składowe. Na tej podstawie
można stwierdzić jaki % całkowitej zmienności jest przez nie wyjaśniony. Kryterium –
zazwyczaj bierze pod uwagę taką liczbę głównych składowych, którą łącznie wyjaśnia
przynajmniej 70-90% całkowitej zmienności.
• kryterium wyraźnej zmiany poziomu zmienności wyjaśnianej przez daną główną
składową. Kryterium to jest podstawą tzw. wykresu osypiska Cattella. Wybór ilości
głównych składowych sprowadza się do znalezienia takiego punktu, przy którym wykres
zaczyna się "spłaszczać".
Ustalenie liczby głównych składowych
• Kryterium Kaisera - metoda "wartości własnej (lambda) większej od jedności" - jest

najczęściej stosowana. Jej podstawą jest to, że każda główna składowa powinna
wyjaśniać przynajmniej tyle, ile jedna zmienna pierwotna. Metoda ta powinna być
stosowana gdy ilość zmiennych jest większa od 20. Gdy liczba zmiennych jest mniejsza
istnieje tendencja wyodrębniania zbyt małej ilości czynników
Przykład 1 - żółwie
Wykorzystaj dane dotyczące rozmiarów żółwi (plik xlsx), wykorzystywanych przy okazji
zajęć dotyczących analizy skupień. Stosując analizę głównych składowych spróbuj
zredukować liczbę zmiennych. Spróbuj nadać nazwę dla otrzymanych głównych
składowych.
Wykład 12. Metodyka analizy zdarzeń.
Założenia i przykładowe badania.
Rodzaje efektywności rynku finansowego
• efektywność alokacyjną - rynek jest efektywny w przypadku, gdy gwarantuje swobodny przepływ kapitału
między przedsiębiorstwami. W ten sposób podmioty zgłaszającego jego niedobór pozyskują środki, a w skali
gospodarki jako całości realizowane są najlepsze projekty inwestycyjne.
• efektywność techniczną - odnosi się do kosztów transakcji zawieranych na rynku. Konkurencja panująca między
pośrednikami na rynku efektywnym gwarantuje obniżkę kosztów zawierania transakcji między stronami oraz
możliwość ich zawierania bez zbędnej zwłoki,
• efektywność informacyjną - rynek efektywny to taki, na którym ceny instrumentów finansowych zawsze w pełni
odzwierciedlają wszelkie dostępne informacje.
Hipotezy o trzech formach efektywności rynku
• Hipoteza o słabej formie efektywności rynku zakłada iż ceny walorów w pełni odzwierciedlają wszystkie
historyczne informacje dotyczące notowań, obrotów oraz sekwencji wzrostów i spadków.
• Hipoteza o średniej (półsilnej) efektywności przyjmuje, że ceny rynkowe instrumentów finansowych

uwzględniają szerszy zakres informacji niż w przypadku słabej formy efektywności. Poza historycznymi danymi
wartość rynkowa walorów uwzględnia również wszystkie inne, publicznie dostępne informacje.
• Hipoteza o silnej efektywności rynku – rynkowe ceny walorów uwzględniają wszystkie, związane z nimi
informacje. Są to informacje zarówno o charakterze publicznie dostępnym, jak i poufne.
Idea i etapy metodyki analizy zdarzeń
Analiza zdarzeń polega na analizie zwyżkowych stóp zwrotu w okresie, w którym miało miejsce udostępnienie do
publicznej wiadomości informacji, istotnych z punktu widzenia emitenta instrumentów finansowych. .
1) Identyfikacja zdarzenia oraz zdefiniowanie jego okna,

2) Wskazanie kryteriów doboru spółek do próby badawczej,
3) Zdefiniowanie miar oczekiwanej (normalnej) i zwyżkowej (nadzwyczajnej) stopy zwrotu,
4) Określenie długości okna z którego pochodzą dane, określenie położenia okna estymacyjnego i okna zdarzenia,
szacowanie modelu oczekiwanej stopy zwrotu,
5) Zweryfikowanie postawionej hipotezy,
6) Przedstawienie wyników empirycznych,
7) Interpretacja rezultatów i sformułowanie wniosków.
Zdefiniowanie miar oczekiwanej i zwyżkowej stopy zwrotu,
I. Model wyceny aktywów i pasywów (ang. capital assets pricing model – CAPM)
𝑅෠𝑖,𝑡 = 𝛼𝑖 + 𝑅𝑓,𝑡 + 𝛽𝑖 𝑅𝑚,𝑡 − 𝑅𝑓,𝑡

gdzie:
𝑅෠𝑖,𝑡 − oczekiwana stopa zwrotu i-tej akcji w dniu t,
𝑅𝑓,𝑡 − stopa zwrotu wolna od ryzyka,
𝑅𝑚,𝑡 − stopa zwrotu z portfela rynkowego w dniu t.
II. Model rynkowy (ang. market model – MM)

𝑅෠𝑖,𝑡 = 𝛼𝑖 + 𝛽𝑖 𝑅𝑚,𝑡 (2.3.2)
Oznaczenia jak poprzednio.
III. Model średniej (ang. mean adjusted returns model – MAR)

𝑅෠𝑖,𝑡 = 𝑅ത𝑖
gdzie:
𝑅ത𝑖 − średnia stopa zwrotu i-tej akcji obliczana na podstawie obserwacji pochodzących z okna estymacyjnego.
IV. Model indeksowy (ang. Market adjusted lub index adjusted model – IM)
𝑅෠𝑖,𝑡 = 𝑅𝑚,𝑡
Przez zwyżkową stopę zwrotu (inaczej anormalne stopy zwrotu) należy rozumieć różnicę między rzeczywistą stopą
zwrotu z waloru a oczekiwaną stopą zwrotu oszacowaną na podstawie jednego z wcześniej przedstawionych modeli:
𝐴𝑅𝑖,𝑡 = 𝑅𝑖,𝑡 − 𝑅෠𝑖,𝑡
gdzie:
𝐴𝑅𝑖,𝑡 − anormalna stopa zwrotu z waloru i-tego w okresie t,
𝑅𝑖,𝑡 − rzeczywista, historyczna stopa zwrotu z waloru i-tego w okresie t.
Określenie długości okna z którego pochodzą dane, określenie
położenia okna estymacyjnego i zdarzenia, szacowanie modelu
oczekiwanej stopy zwrotu
Weryfikacja istotności wpływu zdarzenia
Hipoteza zerowa: zdarzenie nie ma wpływu na stopy zwrotu

Hipoteza alternatywna: zdarzenie ma wpływ na stopy zwrotu
Zweryfikowanie postawionej hipotezy - badania wpływu
określonego zdarzenia dla próby spółek
Test dla średnich zwyżkowych (anormalnych) stóp zwrotu
σ𝑁
𝑖=1 𝐴𝑅𝑖,𝑡
𝐴𝑅𝑡 =
𝑁
Odpowiednia statystyka wyrażona jest zależnością (Gurgul H., Analiza zdarzeń na rynkach akcji. Wpływ informacji
na ceny papierów wartościowych, Wydawnictwo Oficyna Ekonomiczna, Kraków 2006, s.51):
𝐴𝑅𝑡
𝑡𝑠𝑡𝑎𝑡 = 𝑁
𝜎ො𝐴𝑅𝑡
gdzie:
𝑁
1
𝜎ො𝐴𝑅𝑡 = ෍(𝐴𝑅𝑖,𝑡 −𝐴𝑅𝑡 )2
𝑁−1
𝑖=1
Przedstawiona statystyka ma rozkład t-Studenta o 𝑁 − 1 stopniach swobody (𝑁 -liczba zdarzeń). Hipotezę zerową należy odrzucić wtedy
gdy |𝑡𝑠𝑡𝑎𝑡 | > 𝑡𝑘𝑟𝑦𝑡 (𝛼, 𝑁 − 1).
określonego zdarzenia dla próby spółek
Test dla średnich zwyżkowych (anormalnych) stóp zwrotu
σ𝑁
𝑖=1 𝐴𝑅𝑖,𝑡
𝐴𝑅𝑡 =
𝑁
Odpowiednia statystyka wyrażona jest zależnością (Brown S.J., Warner J.B. Using Daily Stock Returns, The Case of
Event Studies. Journal of Financial Economics, 14:3-31, 1985) :
𝐴𝑅𝑡
𝑡𝑠𝑡𝑎𝑡 =
𝜎ො𝐴𝑅𝑡
gdzie:
𝑡0 +𝑇−1 𝑡0 +𝑇−1
1 1
𝜎ො𝐴𝑅𝑡 = ෍ (𝐴𝑅𝑖,𝑡 −𝐴𝑅)2 𝐴𝑅 = ෍ 𝐴𝑅𝑡
𝑇−1 𝑇
𝑡=𝑡0 𝑡=𝑡0
Przedstawiona statystyka ma rozkład t-Studenta o T − 1 stopniach swobody (𝑇 −długość okna estymacyjnego). Hipotezę zerową należy
odrzucić wtedy gdy |𝑡𝑠𝑡𝑎𝑡 | > 𝑡𝑘𝑟𝑦𝑡 (𝛼, 𝑇 − 1).
określonego zdarzenia dla próby spółek – test nieparametryczny (1)
Test znaków Gurgul H., (Wpływ informacji makroekonomicznych na transakcje na rynkach akcji, Wydawnictwo CH
Beck, Warszawa 2020, s. 193)
- Założenie o symetrii rozkładu anormalnych stóp zwrotu

- Statystyka testowa
𝑝Ƹ 𝑡0 − 0,5 𝑁
𝑍𝑠 = 𝑁 = (𝑝Ƹ − 0,5)
0,5(1 − 0,5) 0,5 𝑡0
𝑝ො𝑡0 −jest odsetkiem ponadprzeciętnych stóp zwrotu 𝐴𝑅𝑖,𝑡0 (dla i=1,2,…, N) odpowiadających momentowi 𝑡0 które są większe
od 0 tzn.:
𝑁
1
𝑝ො𝑡0 = ෍ 𝑠𝑖,𝑡0
𝑁
𝑖=1
gdzie:
1 𝐴𝑅𝑖,𝑡0 > 0
𝑠𝑖,𝑡0 = ൝
Uogólniony test znaków Cowana (Wpływ informacji makroekonomicznych na transakcje na rynkach akcji,
Wydawnictwo CH Beck, Warszawa 2020, s. 194)
- Hipoteza główna o braku wpływu zdarzenia na stopy zwrotu akcji = odsetek dodatnich ponadprzeciętnych stóp zwrotu w
danym momencie 𝑡0 z okna zdarzenia nie odbiega od odsetka pozytywnych ponadprzeciętnych stóp zwrotu
zaobserwowanych w oknie estymacyjnym, czyli w czasie normalnego zachowania stóp zwrotu
- Statystyka testowa
𝑝Ƹ 𝑡0 − 𝑝0
𝑍𝑠 = 𝑁
𝑝0 (1 − 𝑝0 )
gdzie:
𝑁 𝑇1
1
𝑝0 = ෍ ෍ 𝑠𝑖,𝑡
𝑁𝐿1
𝑖=1 𝑡=𝑇0
Jest oszacowaniem odsetka pozytywnych ponadprzeciętnych stóp zwrotu w oknie estymacyjnym.
Statystyka ma asymptotycznie rozkład N(0,1)

Uogólniony test znaków Corrado-Zivneya (Wpływ informacji makroekonomicznych na transakcje na rynkach akcji,
Wydawnictwo CH Beck, Warszawa 2020, s. 194)
- Brane pod uwagę jest położenie ponadprzeciętnych stóp zwrotu względem mediany
- Dla każdego zdarzenia niech 𝐴𝑅𝑖,𝑚𝑒 będzie medianą ponadprzeciętnych stóp zwrotu z okna estymacyjnego i z okna
zdarzenia. Niech ponadto 𝐺𝑖,𝑡 = 𝑠𝑖𝑔𝑛 𝐴𝑅𝑖,𝑡 − 𝐴𝑅𝑖,𝑚𝑒 będzie znakiem odchylenia, równym -1,0 lub 1.
- Statystyka testowa:
𝑁
1
𝑍𝐶𝑍 = ෍ 𝐺𝑖,𝑡0
𝑁𝑠𝐺 𝑖=1
gdzie:
2
𝑇2 𝑁
1 1
𝑠𝐺 = ෍ ෍ 𝐺𝑖,𝑡
𝐿1 + 𝐿2 − 1 𝑁 𝑖=1
𝑡=𝑇0
Jest oszacowaniem odchylenia standardowego na podstawie wszystkich danych (tzn. z okna estymacyjnego i z okna zdarzenia)
Statystyka ma asymptotycznie rozkład N(0,1)
Analiza zdarzeń – przykład zastosowania
Definicja zdarzenia
Terminy publikacji raportów kwartalnych:

I kwartał – nie później niż 45 dni po zakończeniu okresu,
II kwartał – brak obowiązku publikacji,
III kwartał – nie później niż 45 dni po zakończeniu okresu,
IV kwartał – nie później niż 60 dni po zakończeniu okresu lub brak publikacji (zastąpienie raportem rocznym)
Raport półroczny – nie później niż 2 miesiące po zakończeniu okresu

Raport roczny – nie później niż 4 miesiące po zakończeniu roku.
Okno zdarzenia i okno estymacji
Próba badawcza
• 30 spółek notowanych na GPW (po 10 z indeksów WIG20, mWIG40, sWIG80)

• Kryteria doboru: przynależność do indeksu, długość notowań, dostępność danych.
• Okres badania: I kwartał 2006r– IV kwartał 2010r.
• Próba badawcza: 5 lat x 4 kwartały x 30 spółek = 600 zdarzeń
Wyniki badania – cała próba
Dzień 𝑨𝑹 𝑪𝑨𝑹 statystyka t1 statystyka t2 statystyka t3 statystyka t4
-5 0,01% 0,01% 0,0403 0,0231 -0,7814 -0,7054

-4 -0,15% -0,14% -0,9541 -0,4855 -1,5912 -1,5105
-3 0,14% 0,00% 0,9234 0,0047 -0,8066 -0,6860
-2 0,15% 0,15% 0,9578 0,4533 0,1406 0,1165
-1 0,20% 0,35% 1,2760 0,9973 1,0556 0,8845
0 0,10% 0,45% 0,6099 1,2094 1,5003 1,2660
1 -0,29% 0,16% -1,8331 0,4140 0,4616 0,3656
2 -0,22% -0,06% -1,3855 -0,1425 0,0793 0,0593
3 -0,19% -0,24% -1,1972 -0,5871 -0,7967 -0,5578
4 0,03% -0,22% 0,1678 -0,5063 -1,0672 -0,7552
5 -0,17% -0,39% -1,0712 -0,8666 -1,4407 -1,0135
6 -0,15% -0,54% -0,9703 -1,1716 -1,9345 -1,3581
7 0,07% -0,47% 0,4576 -0,9870 -1,7194 -1,2077
8 0,13% -0,33% 0,8575 -0,6841 -1,1051 -0,7749
9 0,18% -0,15% 1,1528 -0,3044 -0,6637 -0,4739
10 0,11% -0,04% 0,7245 -0,0748 -0,5686 -0,4179
Wyniki badania – spółki z indeksu WIG20
-5 0,04% 0,04% 0,2518 0,1335 -0,4344 -0,4246

-4 -0,06% -0,02% -0,3512 -0,0488 -1,0756 -1,1406
-3 -0,02% -0,04% -0,1237 -0,1025 -0,9530 -0,9576
-2 0,24% 0,20% 1,3873 0,5041 -0,0193 -0,0179
-1 0,19% 0,39% 1,0978 0,9291 0,6998 0,7299
0 0,09% 0,49% 0,5360 1,0958 1,3007 1,3937
1 0,12% 0,61% 0,6809 1,3044 1,5036 1,5596
2 0,16% 0,77% 0,9308 1,5886 1,9541 1,9423
3 0,04% 0,81% 0,2571 1,6201 1,8044 1,7642
4 -0,07% 0,74% -0,4026 1,4301 1,4828 1,4213
5 0,12% 0,86% 0,6683 1,6017 1,6325 1,6306
6 -0,12% 0,74% -0,6837 1,3385 1,2110 1,1678
7 0,10% 0,85% 0,6020 1,4851 1,1761 1,1442
8 -0,10% 0,75% -0,5685 1,2761 1,4326 1,3557
9 0,12% 0,87% 0,7049 1,4485 1,6213 1,5169
10 0,03% 0,90% 0,1565 1,4580 1,3280 1,2894
Wyniki badania – spółki z indeksu mWIG40
-5 0,23% 0,23% 0,5744 0,4201 1,2706 1,1383

-4 0,17% 0,41% 0,4184 0,6722 1,1985 1,0033
-3 0,27% 0,67% 0,6491 1,0399 1,4795 1,2053
-2 0,00% 0,67% 0,0073 0,9848 1,0829 0,8793
-1 0,22% 0,89% 0,5312 1,2352 1,4909 1,2268
0 0,04% 0,93% 0,0872 1,2248 1,5355 1,2069
1 -0,73% 0,20% -1,7873 0,2484 0,3037 0,2282
2 -0,40% -0,20% -0,9747 -0,2456 -0,3931 -0,2902
3 -0,22% -0,42% -0,5457 -0,4979 -1,0864 -0,7340
4 0,02% -0,40% 0,0583 -0,4541 -1,3203 -0,9076
5 -0,36% -0,76% -0,8872 -0,8370 -1,5627 -1,0879
6 0,03% -0,73% 0,0844 -0,7754 -1,3941 -0,9574
7 0,16% -0,57% 0,3964 -0,5862 -1,0166 -0,6808
8 0,20% -0,36% 0,5005 -0,3648 -0,6569 -0,4404
9 0,43% 0,07% 1,0631 0,0703 -0,1095 -0,0750
10 0,08% 0,15% 0,1989 0,1463 -0,1706 -0,1171
Wyniki badania – spółki z indeksu sWIG80
-5 -0,26% -0,22% -1,6653 -0,4490 -2,1764 -1,8659

-4 -0,51% -0,73% -3,2624 -1,3711 -3,6015 -2,7252
-3 0,19% -0,53% 1,2419 -0,9423 -1,9163 -1,5108
-2 0,18% -0,35% 1,1851 -0,5824 -0,8141 -0,6266
-1 0,19% -0,16% 1,2046 -0,2574 -0,3544 -0,2602
0 0,15% -0,01% 0,9702 -0,0187 -0,2260 -0,1729
1 -0,47% -0,49% -3,0539 -0,7010 -0,9888 -0,6917
2 -0,38% -0,87% -2,4588 -1,2018 -1,3981 -0,8921
3 -0,39% -1,26% -2,5162 -1,6791 -2,0684 -1,2327
4 0,12% -1,14% 0,7742 -1,4673 -1,9846 -1,2010
5 -0,20% -1,34% -1,3077 -1,6740 -2,6012 -1,5418
6 -0,34% -1,68% -2,2168 -2,0406 -3,1345 -1,8671
7 -0,01% -1,69% -0,0607 -1,9942 -3,1049 -1,8811
8 0,05% -1,64% 0,3166 -1,8847 -2,6588 -1,6193
9 -0,02% -1,66% -0,1273 -1,8591 -2,6290 -1,6498
10 0,25% -1,41% 1,6160 -1,5410 -2,1161 -1,3895
Wyniki badania – wszystkie indeksy
Wyniki badania – WIG20 z uwzględnieniem charakteru wyniku
finansowego
Wyniki badania – mWIG40 z uwzględnieniem charakteru
wyniku finansowego
Wyniki badania – sWIG80 z uwzględnieniem charakteru
wyniku finansowego
Przykładowe badania, wykorzystujące omawianą metodykę:
• Wpływ zmian w składach indeksów WIG20 oraz mWIG40 na kursy akcji spółek notowanych na GPW w
Warszawie
• Wpływ publikacji wskaźników makroekonomicznych opisujących gospodarkę Stanów Zjednoczonych na stopy
zwrotu indeksu WIG/spółek notowanych na GPW
• Wpływ zapowiedzi dywidendy na ceny akcji
• Efekty zmian podstawowych stóp procentowych
• Opinie analityków, transakcje insiderów oraz rezygnacje członków zarządu z zajmowanych stanowisk
• Wpływ transakcji przejęć na cenę akcji spółek notowanych na Giełdzie Papierów Wartościowych w
Warszawie
• Wpływ ataków terrorystycznych na indeksy Giełdy Papierów Wartościowych w Warszawie
• Wpływ fake newsów na notowania kryptowalut
• Wpływ fake newsów na notowania akcji spółek notowanych w USA
• Wpływ ważnych wydarzeń sportowych na notowania akcji firm sponsorujących sport
Źródła:
• Gurgul H., Analiza zdarzeń na rynkach akcji. Wpływ informacji na ceny papierów wartościowych,
Wydawnictwo Oficyna Ekonomiczna, Kraków 2006.
• Gurgul H., Wpływ informacji makroekonomicznych na transakcje na rynkach akcji, Wydawnictwo CH
Beck, Warszawa 2020.
• Czekaj J., Woś M., Żarnowski J., Efektywność giełdowego rynku akcji w Polsce, Wydawnictwo Naukowe PWN,
Warszawa 2001.
• Szyszka A., Efektywność Giełdy Papierów Wartościowych w Warszawie na tle rynków dojrzałych, Wydawnictwo
Akademii Ekonomicznej w Poznaniu, Poznań 2003.
• Elton E.J., Gruber M.J., Nowoczesna teoria portfelowa i analiza papierów wartościowych, Wydawnictwo WIG-
Press, Warszawa 1998
• Campbell J.Y., Lo A.W., MacKinlay A.C., The Econometrics of Financial Markets, Princeton University Press,
Princeton, New Jersey 1997.
• Pynnönen S., On regression based event study, Acta Wasaensia, Nr 143. 2005
Wykład 11. Metoda quasi-eksperymentalne.
Założenia i przykładowe badania
Idea metody syntetycznej kontroli
Metodyka stosowana dla porównawczych studiów przypadków, dąży do oszacowania wartości wyniku dla jednostki
poddanej interwencji politycznej, gdyby jej nie było, z wykorzystaniem niewielkiej grupy podobnych jednostek, które
nie zostały poddane interwencji. Bazuje na założeniu, że kombinacja wielu jednostek z puli dawców może lepiej
odzwierciedlić cechy jednostki poddanej interwencji (Abadie i Gardeazabal 2003, Abadie i in 2010, Abadie i in 2015).
Pakiety w R: Synth, augsynth

Założenia omawianej metodyki
Załóżmy że:
• zgromadziliśmy dane o 𝐽+1 jednostkach: 𝑗 = 1,2, … , 𝐽 + 1
• pierwsza jednostka 𝑗 = 1 jest jednostka poddaną interwencji politycznej (ang. treated unit),
• pozostałe jednostki 𝑗 = 2, … . 𝐽 + 1 są obiektami z tzw. puli dawców (ang. donor pool) i stanowią zbór
potencjalnych jednostek porównawczych, które nie zostały poddane interwencji politycznej
• zebrane dane dotyczą 𝑇 okresów, z czego pierwsze 𝑇0 to okresy przed interwencją polityczną (okresy
1,2, … , 𝑇0 )
• dla każdej jednostki 𝑗 oraz okresu 𝑡 można zaobserwować wynik 𝑌𝑗𝑡
• dla każdej jednostki 𝑗 dysponujemy także zbiorem 𝑘 predyktorów wyniku 𝑋1𝑗, … , 𝑋𝑘𝑗 które mogą
obejmować wartości wyniku sprzed interwencji 𝑌𝑗𝑡

Założenia omawianej metodyki
Załóżmy że:
• wektory o wymiarach (𝑘𝑥1) 𝑿𝟏 , … . 𝑿𝑱+𝟏 zawierają wartości predyktorów dla jednostek 𝑗 = 1, … . 𝐽 + 1.
• macierz 𝑿0 = 𝑋2 … 𝑋𝐽+1 o wymiarach (𝑘𝑥𝐽) zawiera wartości predyktorów dla 𝐽 jednostek

niepoddanych interwencji politycznej
• dla każdej jednostki 𝑗 oraz okresu 𝑡 zdefiniować można 𝑌𝑗𝑡𝑁 jako potencjalny wynik gdyby nie było
interwencji politycznej, oraz przez 𝑌𝑗𝑡𝐼 wynik, gdyby taka interwencja miała miejsce
• dla jednostki poddanej interwencji politycznej (𝑗 = 1) oraz okresu po jej wystąpieniu 𝑡 > 𝑇0 zdefiniować
𝐼
można 𝑌1𝑡 jako potencjalny wynik po interwencji. Dzięki temu efektem samej interwencji dla dotkniętej
𝐼 𝑁
nią jednostki w okresie 𝑡 > 𝑇0 jest 𝜏1𝑡 = 𝑌1𝑡 − 𝑌1𝑡
𝑁
• problem zbadania wpływu interwencji sprowadza się zatem do oszacowania wielkości 𝑌1𝑡
Szacowanie
• Formalnie synthetic control może być zdefiniowana jako wektor (𝐽𝑥1) wag o postaci 𝑊 =
𝑁
(𝑤2 , … , 𝑤𝐽+1 )′. Znając wektor wag 𝑊 estymatorami 𝑌1𝑡 oraz 𝜏1𝑡 są odpowiednio:
𝐽+1
𝑌෠1𝑡
𝑁
= ෍ 𝑤𝑗 𝑌𝑗𝑡 (2)
𝑗=2
𝜏Ƹ1𝑡 = 𝑌1𝑡 − 𝑌෠1𝑡

𝑁
(3)
Przyjmuje się że wagi spełniają założenia 𝑤𝑗 ≥ 0 𝑗 = 2, , … 𝐽 oraz 𝑤2 + ⋯ + 𝑤𝐽+1 = 1.

Szacowanie
Dobór wag odbywa się w taki sposób by otrzymana synthetic control najlepiej odzwierciedlała wartości
predyktorów wyniku dla jednostki poddanej interwencji przed jej miejscem. Oznacza to, że biorąc pod uwagę
nieujemne wartości 𝑣1 , … 𝑣𝑘 autorzy proponują 𝑾∗ = 𝑤2∗, … , 𝑤𝐽+1
∗
który minimalizuje odległość między
jednostką poddaną interwencji oraz synthetic control:
𝑿𝟏 − 𝑿𝟎 𝑾 = 𝑿𝟏 − 𝑿𝟎 𝑾 ′ 𝑽 𝑿𝟏 − 𝑿𝟎 𝑾 (4)
w R: 𝑿𝟏 − 𝑿𝟎 𝑾 = 𝑿𝟏 − 𝑿𝟎 𝑾 ′ 𝑽 𝑿𝟏 − 𝑿𝟎 𝑾
𝑽 to macierz diagonalna, z elementami 𝑣1 , … 𝑣𝑘 , które odzwierciedlają ważność każdej ze zmiennych

predykcyjnych.
Szacowanie
Wybór macierzy 𝑽∗ wśród wszystkich diagonalnych macierzy jest dokonywany tak, aby średni kwadratowy
błąd predykcji (MSPE) zmiennej odpowiedzialnej za wynik był minimalizowany dla pewnego zbioru okresów
sprzed interwencji. Niech:
o 𝒁𝟏 (𝑇𝑃 𝑥1) będzie wektorem wartości wyniku dla jednostki poddanej interwencji dla pewnego zbioru
okresów sprzed interwencji
o 𝒁𝟎 (𝑇𝑃 𝑥𝐽) niech będzie macierzą analogicznych wartości dla jednostek z puli dawców, gdzie 𝑇𝑃 (1 ≤
𝑇𝑃 ≤ 𝑇0 ) jest liczba okresów sprzed interwencji,
dla których średni kwadratowy błąd predykcji (MSPE) jest minimalizowany. Wówczas 𝑽∗ jest dobrany w taki
sposób by minimalizować:
𝑎𝑟𝑔min 𝒁𝟏 − 𝒁𝟎 𝑾∗ (𝑽) ′ 𝒁𝟏 − 𝒁𝟎 𝑾∗(𝑽) (5)

𝑉∈𝛾
1 𝑇0 2
𝐽+1
w R: 𝑀𝑆𝑃𝐸 = σ 𝑌1𝑡 − σ𝑗=2 𝑤𝑗∗ 𝑌𝑗𝑡
𝑇0 𝑡=1
gdzie 𝛾 jest zbiorem wszystkich nieujemnych macierzy diagonalnych (𝐾𝑥𝐾) a wagi dla synthetic control są
dane przez 𝑾∗ . Pakiet synth() rozwiązuje zagnieżdżony problem optymalizacyjny który minimalizuje
powyższe równanie (5), dla 𝑾∗ (𝑽∗ ) określonego przez równanie (4).
Badania przeprowadzone przez autora metody
Autor/treated unit Predyktory Wynik Wnioski
Mitze i in. 2020 Niemcy, Jena Skumulowana liczba przypadków na dzień i na Skumulowana liczba przypadków Maseczki na twarz zmniejszyły
siedem dni przed maseczkami, średnia liczba infekcji/skumulowana liczba przypadków infekcji liczbę nowo zarejestrowanych
200 pkt
Przegląd literatury
nowych dziennych przypadków w ciągu ostatnich na 100 tys. ludności
7 dni, gęstość zaludnienia, udział ludności z
zakażeń z ciężkim ostrym
zespołem oddechowym od 15% do
wyższych wykształceniem, udział kobiet w 75% w okresie 20 dni po ich
populacji, średni wiek kobiet, średni wiek obowiązkowym wprowadzeniu.
mężczyzn, udział ludzi starszych, udział ludzi Maseczki na twarz zmniejszają
młodych, lekarze na 10 tys. ludności, apteki na dzienne tempo wzrostu
100 tys. ludności, rodzaj miejscowości, zgłaszanych infekcji o około 47%.
Tian i in 2021, Chiny, Wenzhou, Gęstość zaludnienia, udział ludności w wieku Liczba zachorowań na 100 tys. osób Gdyby nie lockdown liczba
Shanghai powyżej 65 lat, temperatura, PKB per capita, 3 zachorowań by wzrosła 2,18 razy
główne składowe z PCA dla Wenzhou oraz 7,69 razy dla
200 pkt
Shanghaju
Cho, 2020 Gęstość zaludnienia, udział ludności żyjących w Skumulowana liczba infekcji na 1mln ludności Lockdown spowodowałby spadek
miastach, wielkość gospodarstwa, średnia liczba infekcji o ok. 75%
Szwecja zgonów na 1 mln ludności w ciągu 20 dni, liczba
140 pkt zachorowań na 1 mln ludności w ciągu 3 dni
(oddalonych od siebie o tydzień każdy)
Born i in. 2020 Liczba ludności, wskaźnik urbanizacji, logarytm Logarytm ze skumulowanych Lockdown spowodowałby spadek
z przypadków infekcji w ciągu 13 dni zachorowań/skumulowana liczba zgonów infekcji o 75%, a zgonów o 50%
Szwecja poprzedzających wprowadzanie obostrzeń (13
100 pkt zmiennych)
Tian i in. 2020 Szerokość geograficzna, gęstość zaludnienia, 2 Liczba zachorowań na 100tys osób Lockdown wprowadzony w
główne składowe z PCA Shenzen spowodował duży spadek
Chiny, Shenzhen liczby zachorowań
40 pkt
Autor/treated unit Predyktory Wynik Wnioski
Bayat i in., 2020 Dzienna liczba zachorowań Dzienna liczba zachorowań Szybsze wprowadzenie
lockdowanu spowodowałoby
Nowy Jork Dzienna liczba zgonów Dzienna liczba zgonów redukcję zgonów o 80%
Przegląd literatury
Working paper
Alfano i in. 2020 Całkowita liczba zachorowań od początku Logarytmy skumulowanych pozytywnych W Bolzano, prowincji we
pandemii na dzień przed otwarciem szkoły, przypadków Włoszech w której jako pierwszej
Włochy, Bolzano dochód na osobę, liczba ludności, udział ludzi w otworzono szkoły po przerwie
wieku szkolnym, gęstość zaludnienia, udział ludzi wakacyjnej było dużo więcej
żyjących z miejscowościach mniejszych niż 30 zachorowań niż w okolicy
Working paper tys.
Cerqueti i in. 2021 Skumulowana liczba zachorowań na 1 mln Wskaźnik śmiertelności (skumulowana liczba Wprowadzenie lockdownu
ludności, liczba łóżek szpitalnych na 100 tys. zgonów na 1 mln ludności) uratowało 20400 żyć
Włochy ludności, mediana wieku ludności, wielkość
gospodarstwa, wskaźniki mobilności
Working paper
Neidhffofer I Neidhffofer, 2020, Liczba ludności, gęstość zaludnienia, mediana Skumulowana liczba zgonów Zamknięcie szkół i innych miejsc
Argentyna, Włochy, Korea wieku, udział ludności powyżej 65 roku życia, spowodowało spadek wskaźnika
Południowa PKB per capita, łóżka szpitalne na 100 tys. śmiertelności (o 84%,29% i 91% w
ludności, wydatki na opiekę zdrowotną, średnia Argentynie, Włoszech i Korei)
liczba zgonów przed interwencją, stopa wzrostu
Working paper liczby zakażonych, wskaźniki mobilności.
Rozwój pandemii w Polsce
Rozwój pandemii w Polsce
700
Skumulowana liczba /10tys mieszkańców
600
500
400
300
200
100
0
24 12 31 12 7 01 14 01 21 01 28 01 4 02 11 02 18 02 25 02 4 03 11 03 18 03 25 03 1 04 8 04 15 04 22 04 29 04 6 05
2020 2020 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021
Dolnośląskie Kujawsko-pomorskie Łódzkie Lubelskie

Lubuskie Małopolskie Mazowieckie Opolskie
Podkarpackie Podlaskie Pomorskie Śląskie
Świętokrzyskie Warmińsko-mazurskie Wielkopolskie Zachodniopomorskie
Przedmiot badania
• 27 luty – województwo warmińsko-mazurskie – zamknięcie hoteli, galerii handlowych, kin, teatrów,

muzeów, galerii sztuki, basenów i kortów tenisowych. Uczniowie klas I-III wracają do nauki zdalnej.
mazowiecki i lubuskie
warmińsko-mazurskie
Cała Polska
pomorskie
27. II 13.III 15.III 20.III

Założenia dotyczące przeprowadzonego badania
• Jednostka poddana interwencji: województwo warmińsko-mazurskie, pula dawców: pozostałe

województwa
• Zmienne predykcyjne: skumulowana liczba przypadków na dzień i na siedem dni przed
wprowadzeniem obostrzeń (27.02), średnia liczba nowych dziennych przypadków w ciągu
ostatnich 7 dni,, udział osób młodych, lekarze na 10 tys. ludności, apteki na 10 tys. ludności, udział
osób mieszkających w miastach, liczba zaszczepionych na 10 tys. mieszkańców na dzień 27.02.,
liczba ozdrowieńców na 10 tys. mieszkańców na dzień 27.02.
• Wynik: skumulowana liczba nowych przypadków

• Okres dla optymalizacji: 13.02.2021 – 26.02.2021
• Okres badania wpływ obostrzeń na rozwój pandemii: 27.02.2021 – 20.03.2021
Wyniki badania empirycznego
Województwo
Województwo syntetyczne
Zmienna predykcyjna warmińsko Pula dawców (KP 0,745, SL 0,196
mazurskie MZ 0,055, inne
0,004)
Skumulowana liczba przypadków dzień przed obostrzeniami 8944,0 6808,4 8908,2

Skumulowana liczba przypadków 7 dni przed obostrzeniami 4378,0 3306,9 4412,7
Średnia dzienna liczba nowych przypadków w ciągu 7 dni 704,3 562,1 720,8
Udział osób młodych 22,5 22,8 22,8
Liczba lekarzy na 10 tys ludności 42,4 55,7 58,5
Liczba aptek na 10 tys ludności 2,9 3,1 2,9
Udział osób mieszkających w miastach 59,2 58,5 63,1
Liczba zaszczepionych na 10 tys. mieszkańców na dzień 27.02 799,1 848,3 785,9
Liczba ozdrowieńców na 10 tys. mieszkańców na dzień 27.02 575,6 432,0 534,8
RMSPE 126,6
Zmienna Waga
Skumulowana liczba przypadków dzień przed obostrzeniami 0,624
Skumulowana liczba przypadków 7 dni przed obostrzeniami 0,195
Średnia dzienna liczba zachorowań w ciągu 7 dni 0,178
Udział osób młodych 0,004
Liczba lekarzy na 10 tys ludności 0,000
Liczba aptek na 10 tys ludności 0,000
Udział osób mieszkających w miastach 0,000
Liczba zaszczepionych na 10 tys. mieszkańców na dzień 27.02 0,000
Liczba ozdrowieńców na 10 tys. mieszkańców na dzień 27.02 0,000

10000
9000
8000
Accumulated number of cases
7000
6000
5000
4000
3000
2000
1000
0
13 02 14 02 15 02 16 02 17 02 18 02 19 02 20 02 21 02 22 02 23 02 24 02 25 02 26 02
2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021 2021
Day
warmińsko-mazurskie synthetic control unit

10000
15000
20000
25000
30000
35000
40000
0
5000
13 02 2021
14 02 2021
15 02 2021
16 02 2021
17 02 2021
18 02 2021
19 02 2021
20 02 2021
21 02 2021
22 02 2021
23 02 2021
24 02 2021
25 02 2021
26 02 2021
27 02 2021
28 02 2021
1 03 2021
2 03 2021
Day
3 03 2021
4 03 2021
5 03 2021
6 03 2021
7 03 2021
synthetic control unit
8 03 2021
9 03 2021
10 03 2021
11 03 2021
12 03 2021
13 03 2021
14 03 2021
15 03 2021
16 03 2021
17 03 2021
18 03 2021
19 03 2021
20 03 2021
Wyniki badania empirycznego - placebo w czasie (ograniczenia
od 22.01)
16000
14000
12000
10000
8000
6000
4000
2000
Day
warmińsko-mazurskie synthetic control unit

Gapin accumulated number of cases
-8000
-6000
-4000
-2000
-12000
-10000
0
2000
4000
6000
13 02 2021
14 02 2021
15 02 2021
16 02 2021
17 02 2021
18 02 2021
19 02 2021
20 02 2021
21 02 2021
22 02 2021
23 02 2021
24 02 2021
25 02 2021
26 02 2021
27 02 2021
28 02 2021
1 03 2021
2 03 2021
Day
3 03 2021
4 03 2021
5 03 2021
other regions 6 03 2021
7 03 2021
8 03 2021
9 03 2021
10 03 2021
11 03 2021
12 03 2021
13 03 2021
Wyniki badania empirycznego – placebo w przestrzeni
14 03 2021
15 03 2021
16 03 2021
17 03 2021
18 03 2021
19 03 2021
20 03 2021
10000
15000
20000
25000
30000
35000
40000
45000
0
5000
13 02 2021
14 02 2021
15 02 2021
16 02 2021
17 02 2021
18 02 2021
19 02 2021
20 02 2021
21 02 2021
22 02 2021
23 02 2021
24 02 2021
25 02 2021
26 02 2021
27 02 2021
28 02 2021
1 03 2021
2 03 2021

Day
3 03 2021
4 03 2021
5 03 2021
6 03 2021
7 03 2021
8 03 2021
Wyniki badania empirycznego – leave-one-out
9 03 2021
10 03 2021
11 03 2021
12 03 2021
13 03 2021
synthetic control unit (leave-one-out)
14 03 2021
15 03 2021
16 03 2021
17 03 2021
18 03 2021
19 03 2021
20 03 2021
10000
15000
20000
25000
30000
35000
40000
0
5000
13 02 2021
14 02 2021
15 02 2021
16 02 2021
17 02 2021
18 02 2021
19 02 2021
20 02 2021
21 02 2021
22 02 2021
23 02 2021
24 02 2021
25 02 2021

26 02 2021
27 02 2021
28 02 2021
1 03 2021
Day 2 03 2021
3 03 2021
4 03 2021
5 03 2021
6 03 2021
7 03 2021
8 03 2021
9 03 2021
10 03 2021
synthetic control unit (without variables on demographics and healthcare)
synthetic control unit (without variables on the dynamics of the pandemic)
Wyniki badania empirycznego – różne predyktory
11 03 2021
12 03 2021
13 03 2021
14 03 2021
15 03 2021
16 03 2021
17 03 2021
18 03 2021
19 03 2021
20 03 2021
Podsumowanie
• Gdyby nie wprowadzenie obostrzeń w badanym okresie w województwie warmińsko-mazurskim

byłoby o blisko 9500 przypadków (ponad 34%) więcej niż miało miejsce w rzeczywistości
• Efekty placebo potwierdziły wiarygodność uzyskanych wyników
• Uzyskane wyniki są odporne na zmianę próby wchodzącej w skład puli dawców oraz zmianę
zestawu zmiennych predykcyjnych
Założenia dotyczące przeprowadzonego badania nr 2
60
50
40
liczba obostrzeń
30
20
10
państwo
• Interwencja: brak restrykcyjnego lockdownu w Państwie
• Jednostka poddana interwencji: Szwecja, pula dawców: pozostałe 17 państw Europy
• Potencjalne zmienne predykcyjne: bilans handlowy, udział inwestycji w PKB, udziały w wartości
dodanej sektorów: rolnictwo, produkcyjnego, budownictwa, handlu, nieruchomości, sztuki i rozrywki,
stopa bezrobocia, wydatki na służbę zdrowia (% PKB), udział osób z podstawowym, średnim
i wyższym wykształceniem w sile roboczej
• Wynik: PKB per capita, deficyt/nadwyżka budżetowa jako % PKB, dług publiczny jako % PKB
• Okres dla optymalizacji: 2015Q1-2020Q1
• Okres badania wpływu obostrzeń na gospodarkę: 2020Q2-2021Q4

PKB per capita
0
10000
30000
40000
50000
60000
70000
20000
2015Q1
2015Q2
2015Q3
2015Q4
2016Q1
2016Q2
2016Q3
2016Q4
2017Q1
2017Q2
Szwecja (bez lockdownu)

2017Q3
2017Q4
2018Q1
2018Q2
2018Q3
Kwartał
Wyniki przeprowadzonego badania nr 2
2018Q4
2019Q1
2019Q2
2019Q3
2019Q4
2020Q1
2020Q2
Szwecja syntetyczna (z lockdownem)
2020Q3
2020Q4
2021Q1
2021Q2
2021Q3
2021Q4
Deficyt/nadwyżka (% PKB)
-8
-6
-4
-2
-10
0
2
4
2015Q1
2015Q2
2015Q3
2015Q4
2016Q1
2016Q2
2016Q3
2016Q4
2017Q1
2017Q2
2017Q3

2017Q4
2018Q1
2018Q2
2018Q3
Kwartał
2018Q4
2019Q1
2019Q2
2019Q3
2019Q4
2020Q1
2020Q2
2020Q3
2020Q4
2021Q1
2021Q2
2021Q3
2021Q4
dług publiczny (% PKB)
30
32
36
38
42
44
46
34
40
2015Q1
2015Q2
2015Q3
2015Q4
2016Q1
2016Q2
2016Q3
2016Q4
2017Q1
2017Q2

2017Q3
2017Q4
2018Q1
2018Q2
2018Q3
kwartał
2018Q4
2019Q1
2019Q2
2019Q3
2019Q4
2020Q1
2020Q2
2020Q3
2020Q4
2021Q1
2021Q2
2021Q3
2021Q4
Podsumowanie
Badanie potwierdza i pozwala zmierzyć negatywny wpływ wprowadzenie restrykcyjnego lockdownu na

kondycję gospodarczą państwa.
Taka strategia walki z pandemią powoduje:
o spadek produktu krajowego brutto
o wzrost deficytu (deficyt -3,6% zamiast nadwyżki 0,6%)
o wzrost długu publicznego (o około 7 p.p.)
Dodatkowe analizy efektów placebo (w czasie i przestrzeni) potwierdziły skuteczność metody
syntetycznej kontroli w przeprowadzonych badaniach.
Metodyka badawcza – metoda różnicy w różnicach
(ang. Differences-in-Differences)
Pakiet w R: did
• Szacowany model
𝑌𝑖𝑡 = 𝛽0 + 𝛽1 𝐷𝑖 + 𝛽2 𝑃𝑡 + 𝛽3 𝐷𝑖 ∙ 𝑃𝑡 + 𝛽4 𝑋𝑖𝑡 + 𝑒𝑖𝑡
𝑌𝑖𝑡 – wartość wyniku badania dla 𝑖 jednostki w okresie 𝑡

𝐷𝑖 − jest zmienną binarna wskazującą grupę badaną (=1) i kontrolną (=0).
𝑃𝑡 − jest zmienną binarną wskazującą okresy przed interwencją (=0) oraz po interwencji (=1)
𝐷𝑖 ∗ 𝑃𝑡 − zmienna binarna wskazująca czy obserwacja pochodzi z grupy poddanej badaniu oraz po
interwencji (=1) oraz z innego przypadku (=0)
Metoda różnicy w różnicach zakłada, że – w przypadku braku interwencji – grupa poddana badaniu i
grupa kontrolna mają podobny trend w czasie - założenie trendu równoległego.
𝑌𝑖𝑡 = 𝛽0 + 𝛽1 𝐷𝑖 + 𝛽2 𝑃𝑡 + 𝛽3 𝐷𝑖 ∙ 𝑃𝑡 + 𝛽4 𝑋𝑖𝑡 + 𝑒𝑖𝑡

𝛽0 – przeciętny poziom badanej zmiennej dla grupy kontrolnej przed interwencją
𝛽1 – różnica między poziomami badanej zmiennej dla grupy kontrolnej i badanej przed interwencją
𝛽2 – różnica między poziomami badanej zmiennej dla grupy kontrolnej przed i po interwencji
𝛽3 – estymator D&D. Czy interwencja miała wpływ na poziom badanej zmiennej?
Metodyka badawcza – analiza przerywanych szeregów
czasowych (ang. Interrupted Time Series)
• Szacowany model
𝑌𝑡 = 𝑏𝑜 + 𝑏1 𝑇 + 𝑏2 𝐷𝑡 + 𝑏3 𝑃 + 𝑒𝑡
𝑌𝑡 – zmienna odpowiedzialna za wynik badania
𝑇 − jest zmienną odpowiedzialną za czas, który minął od początku analizy
𝐷𝑡 − jest zmienną binarną wskazującą obserwacje zebrane przed (=0) oraz po (=1) interwencji
𝑃 − jest zmienną odpowiedzialną za czas który minął od momentu interwencji (przed interwencją 𝑃=0)
• Szacowany model
𝑌𝑡 = 𝑏𝑜 + 𝑏1 𝑇 + 𝑏2 𝐷𝑡 + 𝑏3 𝑃 + 𝑒𝑡
𝑌𝑡 – zmienna odpowiedzialna za wynik badania
𝑇 − jest zmienną odpowiedzialną za czas, który minął od początku analizy
𝐷𝑡 − jest zmienną binarną wskazującą obserwacje zebrane przed (=0) oraz po (=1) interwencji
𝑃 − jest zmienną odpowiedzialną za czas który minął od momentu interwencji (przed interwencją 𝑃=0)
• Szacowany model
𝑌𝑡 = 𝑏𝑜 + 𝑏1 𝑇 + 𝑏2 𝐷𝑡 + 𝑏3 𝑃 + 𝑒𝑡
• Interwencja: Uchwała Nr XVIII/243/16 Sejmiku Województwa Małopolskiego z dnia 15 stycznia 2016 r. –

wprowadziła z dniem 1. września 2019 całkowity zakaz spalania węgla i drewna na terenie miasta Krakowa.
• Efekt uchwały: likwidacja w latach 2016-2019 w Krakowie 18,4 tys. kotłów
• Obiekty badania: 12 miast wojewódzkich (bez Bydgoszczy, Opola, Zielonej Góry, Gdańska, Olsztyna i
Poznania)
• Zakres czasowy badania: 01.01.2010 – 31.12.2022
• Zmienna zależna: przeciętne miesięczne stężenie pyłu PM10
• Zmienne predykcyjne: temperatura powierza, siła wiatru, ciśnienie, wilgotność
• Źródła danych: bazy Głównego Inspektoratu Ochrony Środowiska oraz Instytutu Meteorologii i Gospodarki
Wodnej
Wyniki – metoda różnicy w różnicach DiD
140,00
120,00
Stężenie pyłu PM10
100,00
80,00
60,00
40,00
20,00
0,00
sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz
10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16 17 17 17 18 18 18 19 19 19 20 20 20 21 21 21 22 22 22
Miesiąc
Kraków z zakazem paliw stałych Kraków bez zakazu paliw stałych
Średnia zmiana w wyniku wprowadzenia uchwały: -21,71μg/m3 (-39,95%)

Wyniki – analiza przerywanych szeregów czasowych ITS
140
120
100
Stęzenie pyłu PM10
80
60
40
20
0
sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz sty maj wrz
10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16 17 17 17 18 18 18 19 19 19 20 20 20 21 21 21 22 22 22
Miesiąc
Kraków z zakazem Kraków bez zakazu
Model SARIMA (2,0,0)(2,1,0)[12]

Średnia zmiana w wyniku wprowadzenia uchwały: -12,46μg/m3 (-22,94%)
Podsumowanie
• Wykorzystane metody potwierdzają i pozwalają zmierzyć pozytywny wpływ wprowadzenie uchwały

antysmogowej w Krakowie
• Taka strategia walki ze smogiem powoduje:
o spadek przeciętnego miesięcznego stężenia pyłu PM10 o 21,71 μg/m3 w przypadku D&D
o spadek przeciętnego miesięcznego stężenia pyłu PM10 o 12,46 μg/m3 w przypadku ITS
Bibliografia
• Abadie, A., Gardeazabal, J., (2003), The Economic Costs of Conflict: A Case Study of the Basque Country , American Economic Review, 93 (1): 113-
132.
• Abadie, A., Diamond, A., Hainmueller, J., (2010), Synthetic Control Methods for Comparative Case Studies: Estimating the Effect of California’s
Tobacco Control Program, Journal of the American Statistical Association, 105 (490), 493-505,
• Abadie, A., Diamond, A., Hainmueller, J., (2015), Comparative politics and the synthetic control method, American Journal of Political Science, 59 (2),
495–510.
• Abadie, A. (2021), Using Synthetic Controls: Feasibility, Data Requirements, and Methodological Aspects, Journal of Economic Literature, 59 (2): 391-
425
• Mitze, T., Kosfeld, R., Rode, J., & Wälde, K. (2020), Face masks considerably reduce COVID-19 cases in Germany. Proceedings of the National
Academy of Sciences, 117(51), 32293 –32301. https://doi.org/10.1073/pnas.2015954117
• Tian, T., Tan, J., Luo, W., Jiang, Y., Chen, M., Yang, S., Wen, C., Pan, W., Wang, X., (2021): The Effects of Stringent and Mild Interventions for
Coronavirus Pandemic, Journal of the American Statistical Association, DOI: 10.1080/01621459.2021.1897015
• Cho, S. W., (2020). Quantifying the impact of nonpharmaceutical interventions during the COVID-19 outbreak: The case of Sweden. The Econometrics
Journal 23(3), 323-344.
• Born B, Dietrich AM, Müller GJ (2021), The lockdown effect: A counterfactual for Sweden. PLoS ONE 16(4): e0249732.
https://doi.org/10.1371/journal.pone.0249732
• Tian, T., Luo, W., Tan, J., Jiang, Y., Chen, M., Pan, W.,Yang, S., Zhao, J., Wang, X., Zhang, H., (2021), The timing and effectiveness of implementing
mild interventions of COVID-19 in large industrial regions via a synthetic control method. Statistics and Its Interface. 14. 3-12. 10.4310/20-SII634.
Bibliografia
• Huber, M., Langen, H., (2020), The impact of response measures on COVID-19-related hospitalization and death rates in Germany and
Switzerland. Swiss Journal of Economics and Statistics 156, 10.
• Bayat, N., Morrin, C., Wang, Y., Misra, V., (2020), Synthetic Control, synthetic Interventions, and COVID-19 spread: Exploring the impact
of lockdown measures and herd immunity. arXiv preprint arXiv:2009.09987.
• Alfano, V., Ercolano. S., Cicatiello, L., (2020), A Synthetic Control Method Analysis of Schools Opening and Covid-19 Outbreak in Italy,
CESifo Working Paper Series 8784, CESifo
• Cerqueti, R., Coppier, R., Girardi, A., Ventura, M., (2021), The sooner the better: lives saved by the lockdown during the COVID-19
outbreak. The case of Italy, Papers 2101.11901, arXiv.org.
• Neidhöfer, G., Neidhöfer, C., (2020), "The effectiveness of school closures and other pre-lockdown COVID-19 mitigation strategies in
Argentina, Italy, and South Korea," ZEW Discussion Papers 20-034, ZEW - Leibniz Centre for European Economic Research
• Ben-Michael, E., Feller, A., Rothstein, J., (2021), The Augmented Synthetic Control Method, Journal of the American Statistical
Association, 116:536, 1789-1803
• Schaffer, A.L., Dobbins, T.A., Pearson, SA. Interrupted time series analysis using autoregressive integrated moving average (ARIMA)
models: a guide for evaluating large-scale health interventions. BMC Med Res Methodol 21, 58 (2021)
• Callaway, B., Sant’Anna, P.H.C., (2021), Difference-in-Differences with multiple time periods, Journal of Econometrics, 225(2), 200-230.
Wykład 10.2. Drzewa decyzyjne i las losowy
Recepta na zaliczenie egzaminu z Ekonometrii
Wydział
Ekonomii WIGE
Czas
POPRAWKA
nauki
<=2 >2
Wykłady Wykłady
i ćwiczenia i ćwiczenia
Tak Nie Nie Tak
POPRAWKA WARUNEK
WARUNEK POPRAWKA ZALICZENIE
ZALICZENIE
Cel wykorzystania drzew decyzyjnych
Celem analizy przy użyciu drzew decyzyjnych jest wyjaśnianie lub przewidywanie odpowiedzi
zakodowanej w jakościowej lub ilościowej zmiennej zależnej na podstawie pomiarów jednej lub więcej
zmiennych predykcyjnych
Rodzaje drzew decyzyjnych
Klasyfikacyjne – jeżeli zmienna objaśniana jest wyrażona na skalach słabych (jakościowych)
Regresyjne – jeżeli zmienna objaśniana jest wyrażona na skalach mocnych (ilościowych)
Skala zmiennych objaśniających nie ma znaczenia!

Definicja i budowa drzewa decyzyjnego
Drzewem decyzyjnym (klasyfikacyjnym lub regresyjnym) określimy drzewo reprezentujące proces

podziału zbioru obiektów na jednorodne klasy.
W takim drzewie wewnętrzne węzły będą opisywać sposób dokonania podziału na jednorodne klasy
(dokonywany w oparciu o wartości cech obiektów), a liście będą odpowiadać klasom, do których
obiekty należą.
Z kolei krawędzie drzewa (gałęzie) reprezentują wartości cech, na podstawie których dokonano
podziału.
Definicja i budowa drzewa decyzyjnego
GAŁĄŹ WĘZEŁ
(krawędź drzewa, ŹRÓDŁOWY
wartość zmiennej wykorzystanej do GAŁĄŹ
podziału)
WĘZEŁ WEWNĘTRZNY
(zmienna w oparciu, o którą LIŚĆ
dokonano podziału)
GAŁĄŹ GAŁĄŹ
LIŚĆ
(węzeł końcowy LIŚĆ
- klasa do której należą obiekty)
Drzewa decyzyjne - definicje
Droga to skończony ciąg krawędzi. A długość drogi to liczba krawędzi tworzących drogę.
Głębokość drzewa to długość najdłuższej drogi między węzłem źródłowym a dowolnym liściem
drzewa
Wielkość drzewa to liczba liści (węzłów końcowych).

Drzewa decyzyjne - definicje
Drzewo binarne to drzewo, w którym z każdego węzła wewnętrznego wychodzą dwie gałęzie.
A, B, C
A B, C
B C
Drzewo niebinarne to drzewo, w którym z każdego węzła wewnętrznego wychodzi dowolna liczba
gałęzi.
A, B, C
A B C
Proces tworzenia drzewa
Rekurencyjny podział zbioru uczącego na podzbiory aż do uzyskania ich jednorodności ze względu na

przynależność obiektów do klas.
1. Mając zbiór obiektów 𝑆, sprawdź, czy należą one do tej samej klasy. Jeżeli tak, to zakończ pracę.
2. W przeciwnym przypadku rozważ wszystkie możliwe podziały zbioru 𝑆 na podzbiory 𝑆1 , 𝑆2 , … , 𝑆𝑛
tak, aby były one jak najbardziej jednorodne.
3. Dokonaj oceny jakości każdego z tych podziałów zgodnie z przyjętym kryterium i wybierz najlepszy
z nich.
4. Podziel zbiór 𝑆 w wybrany sposób.
5. Wykonaj kroki 1-4 rekurencyjnie dla każdego z podzbiorów.
Proces tworzenia drzewa
Algorytm tworzenia drzewa sprawdza wszystkie możliwe podziały dla każdej zmiennej predykcyjnej w
celu znalezienia podziału, przy którym następuje największa poprawa dobroci dopasowania
(zmniejszenie zanieczyszczenia).
W procesie tworzenia drzewa wyróżniamy dwa podstawowe etapy:

1. Określenie kryteriów trafności podziałów i dokonanie podziałów.
2. Wyznaczenie końca podziałów.
Celem jest zbudowanie drzewa jak najmniejszego. Wtedy uzyskane reguły są najprostsze.
Etap 1: Określenie kryteriów trafności podziałów i dokonanie
podziałów.
Do podziału zbioru obiektów można zastosować różnorodne kryteria np. indeks Giniego,
entropię itp.
Najpopularniejszą miarą, preferowaną przez twórców metody CART, jest indeks Giniego wyznaczany
według wzoru:
𝑛
2
𝐺𝑖𝑛𝑖 = 1 − ෍ 𝑝𝑖
𝑖=1
𝑝𝑖 − prawdopodobieństwo że obiekt zostanie zaklasyfikowany do klasy 𝑖
Opiera się on na iloczynach udziałów klas w węźle.
Etap 1: Określenie kryteriów trafności podziałów i dokonanie
podziałów.
Indeks Giniego osiąga wartość zero, gdy w danym węźle wystąpi tylko jedna klasa; osiąga on wartość
maksymalną, gdy wielkości klas w danym węźle są równe. Wybieramy do podziału zmienną, która
minimalizuje indeks.
Etap 2: Wyznaczenie końca podziałów.
Drugi etap budowy drzewa klasyfikacyjnego polega na rozstrzygnięciu, kiedy należy zakończyć podziały.
Jedną z własności drzew klasyfikacyjnych jest to, że brak ograniczenia na liczbę wykonywanych
podziałów, może doprowadzić ostatecznie do czystej klasyfikacji, w której każdy końcowy węzeł będzie
zawierał tylko jedną klasę obiektów!
W wyniku takiego działania uzyskamy drzewa „przeuczone”, nadmiernie dopasowane. Drzewo będzie
klasyfikowało (odtwarzało) obserwacje ze 100% poprawnością. Równocześnie uzyskany,
skomplikowany model, który nie będzie radził sobie z nowymi, nieznanymi obserwacjami.
L.P. Dochody Student Płeć Kupuje komputer

1 średnie tak mężczyzna tak
2 średnie nie kobieta nie
3 wysokie tak kobieta tak
4 niskie tak mężczyzna nie
5 niskie tak kobieta nie
6 średnie tak kobieta tak
7 niskie nie kobieta nie
8 średnie nie mężczyzna nie
tak Drzewo 1 dla KupujeKomputer
nie
Liczba węzłów dzielonych: 2, liczba węzłów końcowych: 3
ID=1 N=8
nie
Student
= nie ... = Inne

ID=2 N=3 ID=3 N=5
nie tak
Dochody
= niskie ... = Inne

ID=4 N=2 ID=5 N=3
nie tak
Może to jednak równocześnie doprowadzić do nadmiernego rozrostu drzewa. Będzie ono liczyło
wówczas zbyt wiele liści, co w efekcie spowoduje, że uzyskane reguły decyzyjne staną się niejasne.
Drzewo 5 dla Cena

Liczba węzłów dzielonych: 16, liczba węzłów końcowych: 17
ID=1 N=2401
Śr=321911,104444
Var=41937166418,829208
Pow
<= 68,38 > 68,38
ID=2 N=1982 ID=3 N=419
Śr=281555,494950 Śr=512805,658186
Var=10431234679,888241 Var=146825601940,247770
Pow CenaM2
<= 50,215 > 50,215 <= 9324,34 > 9324,34
ID=4 N=1308 ID=5 N=674 ID=32 N=408 ID=33 N=11
Śr=251102,247668 Śr=340654,675134 Śr=484057,183284 Śr=1579112,727273
Var=7850497950,313909 Var=10147073642,523365 Var=99798726383,763474 Var=723429700438,016480
CenaM2 CenaM2 Pow
<= 6595,655 > 6595,655 <= 6836,125 > 6836,125 <= 127,25 > 127,25
ID=6 N=855 ID=7 N=453 ID=24 N=569 ID=25 N=105 ID=34 N=375 ID=35 N=33
Śr=223682,187544 Śr=302855,341280 Śr=317863,995501 Śr=464158,453333 Śr=459685,762080 Śr=761005,151515
Var=3812843333,417729 Var=11373781159,879122 Var=6141998813,544087 Var=13782846586,611250 Var=36823349871,185913 Var=731978212243,158810
Pow Pow CenaM2 CenaM2
<= 40,105 > 40,105 <= 39,05 > 39,05 <= 5378,27 > 5378,27 <= 5489,97 > 5489,97
ID=8 N=392 ID=9 N=463 ID=18 N=265 ID=19 N=188 ID=26 N=288 ID=27 N=281 ID=36 N=253 ID=37 N=122
Śr=197457,918010 Śr=245885,024816 Śr=268207,588679 Śr=351693,928723 Śr=284750,120972 Śr=351802,770819 Śr=404240,082134 Śr=574667,377049
Var=3735520679,450059 Var=2803089561,754272 Var=11450094518,642132 Var=7188856879,245978 Var=7054793321,132725 Var=2930780835,157011 Var=34489740800,909081 Var=22066713896,398819
CenaM2 Pow Pow Pow
<= 5213,885 > 5213,885 <= 24,9 > 24,9 <= 54,925 > 54,925 <= 69,06 > 69,06
ID=14 N=180 ID=15 N=283 ID=20 N=21 ID=21 N=244 ID=30 N=98 ID=31 N=183 ID=38 N=2 ID=39 N=251
Śr=209361,008833 Śr=269115,847703 Śr=175285,714286 Śr=276204,963115 Śr=313925,316327 Śr=372086,872131 Śr=1465000,000000 Śr=395787,811873
Var=3819051946,788691 Var=768740326,782653 Var=849799319,727891 Var=11555325986,437166 Var=1548409932,563203 Var=2491312001,842011 Var=1404225000000,000000 Var=14538245246,661119
Pow Pow
<= 26,3 > 26,3 <= 89,45 > 89,45
ID=22 N=14 ID=23 N=230 ID=40 N=148 ID=41 N=103
Śr=384767,857143 Śr=269596,786957 Śr=345840,019595 Śr=467557,455146
Var=42478549145,408157 Var=8911972117,506786 Var=11308800031,929424 Var=10442996198,406191

W celu zakończenia podziału stosuje się najczęściej jedną z reguł:

• określa się minimalną liczebność węzła końcowego. Oznacza to kontynuowanie podziałów do
momentu, kiedy wszystkie węzły końcowe są czyste lub zawierają nie więcej niż określoną
minimalną liczbę obiektów;
• ustala się frakcje obiektów. Podziałów dokonuje się do czasu, gdy wszystkie węzły końcowe są
czyste lub zawierają nie więcej przypadków niż określona frakcja wielkości jednej lub więcej
klas.
• podaje się maksymalną głębokość drzewa lub maksymalną liczbę podziałów – węzłów.
Ocena jakości drzewa decyzyjnego
Jednym z kryteriów oceny jakości drzewa jest liczba błędnie sklasyfikowanych obiektów.
Służy do tego macierz klasyfikacji (z poprzednich wykładów)
Według wskazania funkcji
Liczebność grupy
1 2
testującej
Rzeczywista 1 𝑛11 𝑛12 𝑁1

przynależność
2 𝑛21 𝑛22 𝑁2
• Koszty Resubstytucji – proporcja przypadków błędnie sklasyfikowanych przez model

klasyfikujący zbudowany na bazie wszystkich przypadków.
• Koszty Sprawdzianu Krzyżowego SK – podstawowe narzędzie wyboru drzewa. Wybieramy

drzewo najmniej złożone o koszcie SK mniejszym od minimalnego
kosztu SK + błąd standardowy SK.
**Opis omówionych zagadnień, wykorzystywanych w Statistice:

https://www.statsoft.pl/textbook/stathome_stat.html?https%3A%2F%2Fwww.statsoft.pl%2Ftextbook%2Fstclatre.h
tml
Sekwencja kosztów
Zmienna zależna: KUP
0,42
0,41
0,40
0,39
0,38
0,37
Koszt
0,36
0,35
0,34
0,33
0,32
0,31
0 1 2 3 4 5 6 7 8 9 10 Koszt resubst.
Drzewo numer Koszt SK
Ranking zmiennych
Metoda CART pozwala na skonstruowanie rankingu ważności zmiennych predykcyjnych w oparciu o

znormalizowane podziały zastępcze (surrogate split).
Daną zmienną uznajemy za ważną w procesie klasyfikacji, czyli za niosącą informację o klasie, jeśli
zmienna ta często bierze udział w procesie klasyfikowania obiektów ze zbioru uczącego.
Najważniejsza zmienna uzyskuje w rankingu 100 punktów.

Najniższa potencjalnie istotność wynosi 0 punktów.
Ranking zmiennych
Wykres ważności
Zmienna zależna: Cena
1,1
1,0
0,9
0,8
0,7
Ważność
0,6
0,5
0,4
0,3
0,2
0,1
0,0
Pow CenaM2 Izby PowPrzy PomPrzy Miesiac Pietro
Rodzaje drzew
Różnice pomiędzy drzewami dotyczą:
1. Postaci funkcji oceniającej jakość podziału

2. Liczby krawędzi wychodzących z węzła
3. Rodzaju zmiennej objaśnianej.
Algorytmy budowy drzew
Ciągła
Rodzaj Kryterium
Nazwa Rok Autorzy zmienna
drzewa podziału
objaśniana
ID3 1983 Quinlan dowolne Entropia Nie
Brieman,
CART 1984 Friedman binarne Gini indeks Tak
Olshen, Stone
C4.5
1987 Quinlan dowolne Entropia Nie
(C5.0)
CHAID 1993 SPSS Inc. dowolne Chi kwadrat Tak
QUEST 1997 Loh, Shih binarne Statystyki Nie
Zalety drzew decyzyjnych
Szybka klasyfikacja
Zrozumiały proces decyzyjny.
Możliwość stosowania cech różnych typów (numerycznych i nominalnych).
Brak warunków nakładanych na rozkłady badanych zmiennych.
Brak wrażliwości na wartości skrajne.
Odporność na braki danych.
Wady drzew decyzyjnych
Wraz ze wzrostem liczby klas rośnie rozmiar drzewa

Jakość klasyfikacji nie sprzyja małemu rozmiarowi drzewa.
W węzłach testowany jest jeden atrybut (lokalność).
Drzewa decyzyjne - wzmacnianie
Niestabilność drzew:
Mała zmiana w danych powoduje dużą zmianę w podziałach.
Przyczyna leży w hierarchicznej naturze drzew – błąd na początku podziałów przyczynia się do błędów
w następnych podziałach.
Można niestabilność starać się usunąć zmieniając kryterium podziału, ale nie zostanie ona usunięta
całkowicie.
Niestabilność jest cena za prostotę drzew

Las losowy - idea
• konstrukcję wielu drzew klasyfikacyjnych w oparciu o losowo wybierane zmienne wykorzystywane

do budowy pojedynczego drzewa oraz losowy zbiór obiektów służący do jego nauki
• każde z utworzonych w ten sposób drzew klasyfikacyjnych służy klasyfikacji obiektów, które nie
brały udziału przy jego budowie
• każda obserwacja jest klasyfikowana przez wiele drzew, a ostateczna decyzja o klasie, do której
należy, ustalana jest z wykorzystaniem głosowania większościowego.
Oznacza to, że obiekt klasyfikowany jest do klasy (populacji), na którą wskazała największa liczba
drzew w lesie
Las losowy - algorytm
Oznaczenia:
𝑍= 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , (𝑥𝑁 , 𝑦𝑁 ) − próba
D - liczba drzew w lesie
K – liczba zmiennych objaśniających
Las losowy - algorytm
1. Dla każdego d = 1, 2, …, D:
a) Z próby Z losowane jest ze zwracaniem N obserwacji tworząc pseudopróbę Zd (ang. bootstraping).
b) Dla wylosowanej pseudopróby Zd budowane jest drzewo klasyfikacyjne Td. Dla każdego węzła budowanego
drzewa wykonywane są następujące kroki:
I) Spośród K zmiennych objaśniających losowane jest m << K zmiennych bez zwracania. Parametr m jest
ustalany przed rozpoczęciem działania algorytmu, a jego sugerowana wielkość to 𝐾.
II) Dla m zmiennych ustalany jest najlepszy możliwy podział obserwacji
w węźle (jak dla pojedynczego drzewa).
III) Węzeł zostaje podzielony zgodnie z najlepszym znalezionym podziałem
w kroku II.
Kroki I-III są wykonywane dopóki liczba obserwacji w węźle nie będzie równa 1 lub wszystkie obserwacje w
węźle nie będą należały do tej samej klasy.
2. Dla 𝑥𝑖 dokonywana jest predykcja klasy z wykorzystaniem wszystkich drzew 𝑇 𝑑 𝑥𝑖 , 𝑑 = 1, 2, … , 𝐷, przy
których budowie obserwacja 𝑥𝑖 nie brała udziału.
3. Obserwacja 𝑥𝑖 klasyfikowana jest ostatecznie do klasy, na którą wskazała największa liczba drzew w drugim
kroku algorytmu.
Las losowy – cechy charakterystyczne
1. Reguła działania lasu losowego polegająca na klasyfikacji obiektów jedynie przez drzewa
klasyfikacyjne, w których budowie dana obserwacja nie uczestniczyła powoduje, że metoda ta jest
bardziej stabilna z punktu widzenia jakości prognoz dla obiektów próby uczącej i testującej.
2. Ze względu na możliwość sterowania parametrami budowy lasu losowego (liczba drzew, liczba
losowanych zmiennych w budowie pojedynczego drzewa) metoda ta jest szczególnie zalecana w
sytuacji klasyfikacji obiektów opisanych za pomocą dużej liczby zmiennych
Warto obejrzeć:
https://www.youtube.com/watch?v=J4Wdy0Wc_xQ&t=3s
Literatura
• A comparision of Prediction Accuracy, Complexity, and Training Time of Thirty-three Old and New Classification Algorithms, L.,
Tjen-Sien, L. Wei-Yin, S. Yu-Shan, Machine Learning, 40, 2000.
• Classification and regression trees, L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone, Wadsworth & Brooks/Cole Advanced
Books & Software, Monterey 1984.
• Nieparametryczna metoda dyskryminacji i regresji, E. Gatnar, PWN, 2001.
• Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000.
• Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001.
• Odkrywanie asocjacji: Algorytmy i struktury danych, T. Morzy, OWN, 2004.
• Split Selection Methods for Classification Trees, Loh Wei-Yin, Shih Yu-Shan, Statistica Sinica 1997, Vol. 7.
• Systemy uczące się, P. Cichosz, WNT, 2000.
• Sztuczne sieci neuronowe i metody statystyczne, D. Witkowska, Beck, 2002.
Wykład 10.1. Metoda k-najbliższych sąsiadów
(k-nn ang. k nearest neighbours)
Założenia
• Dany jest zbiór uczący zawierający obserwacje z których każda ma przypisany wektor zmiennych
objaśniających oraz wartość zmiennej objaśnianej Y.
• Dana jest zbiór obserwacji z próby testowej, z przypisanymi wektorami zmiennych objaśniających
dla których chcemy prognozować wartość zmiennej objaśnianej Y.
• Zmienne wyrażone są tej samej jednostce, mają ten sam zakres wartości.
Idea metody
Idea metody
Idea metody
Schemat postępowania
Krok I: Ustal wartość parametru 𝑘
Krok II: Znormalizuj wartość badanych zmiennych (jeśli jest to potrzebne).
Krok III: Oblicz odległość każdego obiektu z próby uczącej od obiektu z próby testowej.
Krok IV: Poszukaj 𝑘 najbliższych obiektów (sąsiadów) dla obiektu z próby testowej
Krok V: Głosuj wśród 𝑘 najbliższych obiektów (sąsiadów) w celu wyznaczenia klasy, do której
przyporządkowujesz obiekt z próby testowej.
Walidacja krzyżowa jako metoda optymalizacji wartości parametru 𝑘

Walidacja krzyżowa - idea
• dostępna próba zostaje podzielona na v części
• v-krotnie klasyfikator jest konstruowany na podstawie v-1 części, oraz testowany na tej,
nieuwzględnionej w uczeniu.
• oszacowaniem błędu predykcji jest średnia z uzyskanych w ten sposób v wyników pośrednich.
Zaletą walidacji krzyżowej jest fakt, iż każda z obserwacji zostaje uwzględniona zarówno przy
szacowaniu modelu, jak i przy jego testowaniu. Wadą metody jest większy (w porównaniu
z np. prostym (jednokrotnym) podziałem próby na uczącą i testową) koszt obliczeniowy.

Walidacja krzyżowa – idea (v=10)
Cechy metody k-najbliższych sąsiadów
▪ Konieczność ustalenia liczby najbliższych sąsiadów.

▪ Wyznaczenie miary podobieństwa wśród obiektów (wiele miar podobieństwa).
▪ Jeśli k jest małe, algorytm nie jest odporny na szumy - jakość klasyfikacji jest niska. Jeśli k jest
duże, czas działania algorytmu rośnie - większa złożoność obliczeniowa. Należy wybrać k, które
daje najwyższą trafność klasyfikacji.
Przykład
W pliku xlsx znajdują się informacje o 24 obiektach opisanych za pomocą dwóch zmiennych X1 i X2,
należących do dwóch grup: A i B. Wykorzystując metodę k-najbliższych sąsiadów, gdzie k=5 oraz
miarę euklidesową sprawdź czy obiekt 25 został prawidłowo przyporządkowany do grupy A. Przyjmij,
że zmienne X1 i X2 mają jednakową jednostkę i zakres wartości.
Następnie z wykorzystaniem programu Statistica ustal optymalną wartość k.

Wykład 9. Analiza dyskryminacyjna - przypadek trzech grup.
Szacowanie funkcji dyskryminacyjnej dla trzech populacji –
etapy postępowania
1. Należy oszacować funkcje dyskryminacyjne dla par grup i następnie zastosować odpowiednią regułę
klasyfikacyjną. Zakładając, że liczba populacji to 3, wystarczy oszacować dwie spośród trzech
możliwych funkcji dyskryminacyjnych o postaci:
1
𝐷12 𝑥 = ഥ 𝒙𝟐 𝑇 𝑺−1 𝑥 −
𝒙𝟏 − ഥ ഥ 𝒙𝟐 𝑇 𝑺−1 ഥ
𝒙𝟏 − ഥ 𝒙𝟏 + ഥ
𝒙𝟐
2
1
𝐷13 𝑥 = ഥ 𝒙𝟑 𝑇 𝑺−1 𝑥 −
𝒙𝟏 − ഥ ഥ 𝒙𝟑 𝑇 𝑺−1 ഥ
𝒙𝟏 − ഥ 𝒙𝟏 + ഥ
𝒙𝟑
2
1
𝐷23 𝑥 = ഥ 𝒙𝟑 𝑇 𝑺−1 𝑥 −
𝒙𝟐 − ഥ ഥ 𝒙𝟑 𝑇 𝑺−1 ഥ
𝒙𝟐 − ഥ 𝒙𝟐 + ഥ
𝒙𝟑
2
gdzie 𝑺−1 to oszacowanie macierzy wariancji-kowariancji (wspólnej dla wszystkich populacji).
etapy postępowania
2. Każdą z r grup należy podzielić na dwie podgrupy – tzw. grupę uczącą oraz grupę testującą.
Parametry funkcji dyskryminacyjnych szacuje się w oparciu o dane z grup uczących (!!). Natomiast
jakość otrzymanej funkcji sprawdzamy na grupach testujących. Nie dokonujemy normalizacji ani
ujednolicania cech.
etapy postępowania
3. Oszacowanie parametrów funkcji dyskryminacyjnej:
𝑻 𝑻
𝒊𝒋𝒂 = ഥ
𝒙𝒊 − ഥ
𝒙𝒋 ∙ 𝑺−𝟏 𝑜𝑟𝑎𝑧
1 𝑇 1
𝑖𝑗 𝑎0 = − ഥ
𝒙 −ഥ
𝒙𝒋 ∙ 𝑺−𝟏 ഥ 𝒙𝒋 = − ∙ 𝒂𝑻 ∙ ഥ
𝒙𝒊 + ഥ 𝒙𝒊 + ഥ
𝒙𝒋
2 𝒊 2
gdzie:
𝑖, 𝑗 = 1,2 lub 3 oraz 𝑖 ≠ 𝑗
ഥ 𝒙𝒋 to wektory średnich poszczególnych cech odpowiednio w grupach i-tej oraz j-tej,
𝒙𝒊 oraz ഥ
𝑺 to oszacowanie macierzy wariancji-kowariancji, którą szacuje się w oparciu o macierz 𝑾𝒆 :
𝑺𝒆 𝑾𝒆 𝑻 𝑾𝒆
𝑺= =
𝑛 𝑛
𝑺𝒆 – macierz sum kwadratów i iloczynów mieszanych odchyleń wewnątrzgrupowych (a więc odpowiednik SSE w
ANOVA, wyrażający zmienność wewnątrzgrupową),
𝑛 – liczba stopni swobody równa: 𝑁1 + 𝑁2 + 𝑁3 − 3; 𝑁1 , 𝑁2 oraz 𝑁3 to liczebności grup uczących,
𝑾𝒆 – macierz odchyleń (wewnątrzgrupowych) wartości poszczególnych cech (we wszystkich trzech grupach
uczących) od ich średnich – uwaga: właściwych dla grupy 1,2 albo 3
etapy postępowania
4. Obliczenie wartości funkcji dyskryminacyjnych 𝐷𝑖𝑗 𝑥 dla obiektów z grup testujących i

przydzielenie badanych obiektów do właściwych im grup, zgodnie z regułą klasyfikacyjną, korzystając
z faktu iż 𝐷23 𝑥 = 𝐷13 𝑥 − 𝐷12 𝑥 . Nowy obiekt opisany wektorem x należy zatem do:
Populacji 1, jeżeli 𝐷12 𝑥 > 0 oraz 𝐷13 𝑥 > 0
Populacji 2, jeżeli 𝐷12 𝑥 < 0 oraz 𝐷13 𝑥 > 𝐷12 𝑥 →patrz 𝐷13 𝑥 − 𝐷12 𝑥 > 0֞ 𝐷23 𝑥 > 0
Populacji 3, jeżeli 𝐷13 𝑥 < 0 oraz 𝐷12 𝑥 > 𝐷13 𝑥 →patrz 𝐷13 𝑥 − 𝐷12 𝑥 < 0֞ 𝐷23 𝑥 < 0
etapy postępowania
5. Ocena jakości klasyfikacji – konstrukcja macierzy klasyfikacji dla trzech grup:

3 Liczebność grupy
1 2
testującej
Rzeczywista 1 𝑛11 𝑛12 𝑛13 𝑁1
przynależność 2 𝑛21 𝑛22 𝑛23 𝑁2
3 𝑛31 𝑛32 𝑛33 𝑁3
𝑛11
Wskaźnik trafnych klasyfikacji w grupie 1:
𝑁1
𝑛22
𝑁2
𝑛33
𝑁3
𝑛11 +𝑛22 +𝑛33

Globalny współczynnik trafnych klasyfikacji:
𝑁1 +𝑁2 +𝑁3
Analiza dyskryminacyjna - przykład
W tabeli w Excelu przedstawiono dane na temat 3 gatunków irysów. Każdy obiekt został opisany za
pomocą 4 zmiennych, charakteryzujących wymiary płatków kwiatowych.
1. Z każdego gatunku irysa wydziel grupę uczącą (30 obiektów) oraz grupę testującą
(20 obiektów).
2. Oszacuj funkcje dyskryminacyjne, które pozwolą na odróżnienie trzech gatunków kosaćca, biorąc
pod uwagę wymiary płatków "zewnętrznych" (ang. sepal)
i "wewnętrznych" (ang. petal) kwiatostanu.
3. Sprawdź trafność klasyfikacji na grupie testującej (macierz klasyfikacji).
4. Oceń moc dyskryminacyjną modelu oraz pierwszej zmiennej.
Wykład 8. Liniowa funkcja dyskryminacyjna i jej weryfikacja statystyczna.
Analiza dyskryminacyjna - założenia
Stosując analizę dyskryminacyjną (ang. discriminant analysis) przyjmuje się, iż:

• znamy liczbę klas (skupień, grup), problem do rozwiązania to przydzielenie badanych obiektów do jednej
z grup,
• próby zostały pobrane losowo, niezależnie od siebie z r populacji,
• każda populacja charakteryzuje się rozkładem normalnym o tej samej wariancji, średnie oczywiście mogą
się różnić,
• cechy opisujące obiekty (zmienne 𝑥𝑘 ) nie powinny być ze sobą skorelowane.
• znane jest prawdopodobieństwo a priori 𝑝𝑖 , że obiekt pochodzi z populacji 𝜋𝑖 oraz funkcje gęstości
wektora losowego 𝑓𝑖 (𝑥) w poszczególnych populacjach.
Analiza dyskryminacyjna - idea
Celem jest odgadnięcie z jakiej populacji (spośród dwóch znanych) pochodzi brany pod uwagę obiekt. Jeśli
wiemy, jakie parametry mają rozkłady badanych grup, możemy wyznaczyć ich funkcje gęstości i porównując
obie funkcje stwierdzić, czy bardziej prawdopodobne jest, że obiekt należy do jednej czy do drugiej populacji.
Wartość oszacowanej funkcji dyskryminacyjnej daje odpowiedź, z której populacji pochodzi dany obiekt.
Niech 𝛾𝑖 𝑥 oznacza prawdopodobieństwo a posteriori tego, że obiekt, opisany wektorem 𝑥 będący

realizacją wektora losowego 𝑋, należy do populacji 𝜋𝑖 . Korzystając z twierdzenia Bayesa
prawdopodobieństwo to można przedstawić za pomocą wzoru:
𝑝𝑖 𝑓𝑖 (𝑥)
𝛾𝑖 𝑥 = 𝑗 = 1 lub 𝑖 = 2
𝑝1 𝑓1 𝑥 + 𝑝2 𝑓2 (𝑥)
Reguła klasyfikacja: zakłada się, iż obiekt powinien być zaklasyfikowany do tej populacji, dla której
powyższe prawdopodobieństwo jest wyższe czyli:
• jeżeli dla danego wektora 𝑥 zachodzi 𝛾1 𝑥 > 𝛾2 𝑥 to obiekt zaliczany jest do populacji 𝜋1
• jeżeli dla danego wektora 𝑥 zachodzi 𝛾2 𝑥 > 𝛾1 𝑥 to obiekt zaliczany jest do populacji 𝜋2
By nadać tej regule postać analityczną zapisuje się ją w postaci ilorazu

prawdopodobieństw:
𝑝1 𝑓1 (𝑥)
𝛾1 𝑥 𝑝 𝑓 𝑥 + 𝑝2 𝑓2 (𝑥) 𝑝1 𝑓1 (𝑥)
𝑍 𝑥 = = 1 1 =
𝛾2 𝑥 𝑝2 𝑓2 (𝑥) 𝑝2 𝑓2 (𝑥)
𝑝1 𝑓1 𝑥 + 𝑝2 𝑓2 (𝑥)
Reguła klasyfikacja: zakłada się, iż obiekt powinien być zaklasyfikowany do:

• pierwszej populacji jeżeli 𝑍 𝑥 ? ?
• drugiej populacji jeżeli 𝑍 𝑥 ? ?
Przyjmijmy, że 𝑝1 = 𝑝2 . Wówczas:
𝑝1 𝑓1 (𝑥) 𝑓(𝑥, 𝜑1 ) 𝑁(𝜇1 , Σ) 2𝜋 −0,5𝐾 |Σ|−0,5 exp −0,5(𝑥 − 𝜇1 )𝑇 Σ−1 (𝑥 − 𝜇1 )

𝑍 𝑥 = = = =
𝑝2 𝑓2 (𝑥) 𝑓(𝑥, 𝜑2 ) 𝑁(𝜇1 , Σ) 2𝜋 −0,5𝐾 |Σ|−0,5 exp −0,5(𝑥 − 𝜇 )𝑇 Σ−1 (𝑥 − 𝜇 )
2 2
1
𝑍 𝑥 = 𝑒𝑥𝑝 𝜇1 − 𝜇2 𝑇 ∑−1 𝑥 − 𝜇1 − 𝜇2 𝑇 ∑−1 𝜇1 + 𝜇2
2
Iloraz funkcji gęstości jest większy niż 1, gdy wartość 𝐷 𝑥 > ? ? ? :
1
𝐷 𝑥 = 𝜇1 − 𝜇2 𝑇 𝛴−1 𝑥 − 𝜇1 − 𝜇2 𝑇 𝛴−1 𝜇1 + 𝜇2
2
𝐷 𝑥 to tzw. funkcja dyskryminacyjna. Jest to wielowymiarowa liniowa funkcja 𝑥, stąd analizę nazywa się
liniową analizą dyskryminacyjną – wystarczy przyjąć że:
1
𝜇1 − 𝜇2 𝑇 𝛴−1 = 𝛼 𝑇 𝑜𝑟𝑎𝑧 − 𝜇1 − 𝜇2 𝑇 𝛴−1 𝜇1 + 𝜇2 = 𝛼0
2
to funkcję dyskryminacyjną można zapisać następująco:
𝐷 𝑥 = 𝛼 𝑇 𝑥 + 𝛼0 = 𝛼1 𝑥1 + 𝛼2 𝑥2 + ⋯ . + 𝛼𝐾 𝑥𝐾 + 𝛼0
Szacowanie funkcji dyskryminacyjnej – etapy postępowania
1. Każdą z grup (1 oraz 2) należy podzielić na dwie podgrupy – tzw. grupę uczącą oraz grupę testującą
(walidacyjną). Parametry funkcji dyskryminacyjnej szacuje się w oparciu o dane z grup uczących (!!).
Natomiast jakość otrzymanej funkcji (jej sprawność w rozpoznawaniu przynależności obiektów) sprawdzamy
na grupach testujących. Nie dokonujemy normalizacji ani ujednolicania cech.
2. Oszacowanie parametrów funkcji dyskryminacyjnej:

𝒂𝑻 = ഥ
𝒙𝟏 − ഥ
𝒙𝟐 𝑻
∙ 𝑺−𝟏 𝑜𝑟𝑎𝑧
1 𝑇
1
𝑎0 = − ഥ
𝒙 −ഥ
𝒙𝟐 ∙ 𝑺−𝟏 ഥ 𝒙𝟐 = − ∙ 𝒂𝑻 ∙ ഥ
𝒙𝟏 + ഥ 𝒙𝟏 + ഥ
𝒙𝟐
2 𝟏 2
gdzie:
ഥ 𝒙𝟐 to wektory średnich poszczególnych cech odpowiednio w grupach 1 oraz 2,
𝒙𝟏 oraz ഥ
𝑺 to oszacowanie macierzy wariancji-kowariancji, którą szacuje się w oparciu o macierz 𝑾𝒆 :
𝑺𝒆 𝑾𝒆 𝑻 𝑾𝒆
𝑺= =
𝑛 𝑛
𝑺𝒆 – macierz sum kwadratów i iloczynów mieszanych odchyleń wewnątrzgrupowych (a więc odpowiednik SSE w
ANOVA, wyrażający zmienność wewnątrzgrupową),
𝑛 – liczba stopni swobody równa: 𝑛1 + 𝑛2 − 2; 𝑛1 oraz 𝑛2 to liczebności grup uczących,
𝑾𝒆 – macierz odchyleń (wewnątrzgrupowych) wartości poszczególnych cech (z obu podgrup uczących) od ich
średnich – uwaga: właściwych dla grupy 1 lub 2 (jeżeli wartość danej cechy pochodzi z grupy 1, to od niej
odejmujemy średnią tej cechy dla grupy 1).
.
3. Obliczenie wartości funkcji dyskryminacyjnej 𝐷 𝑥 dla obiektów z grup testujących i przydzielenie

badanych obiektów do właściwych im grup, zgodnie ze wskazaniami 𝐷 𝑥 . Jeżeli parametry funkcji
dyskryminacyjnej były szacowane w oparciu o równoliczne grupy uczące, to wartością 𝐷 𝑥 rozdzielającą
obiekty między obiema grupami jest 𝐷 𝑥 = 0, a dokładniej jeśli 𝐷 𝑥 > 0, to obiekt zaliczamy jest do grupy
1,a jeśli 𝐷 𝑥 ≤ 0, to do grupy 2.
.
4. Ocena jakości klasyfikacji – konstrukcja macierzy klasyfikacji:

Liczebność grupy
1 2
. testującej
Rzeczywista 1 𝑛11 𝑛12 𝑁1
przynależność 2 𝑛21 𝑛22 𝑁2
Globalny współczynnik trafnych klasyfikacji:
𝑛11 + 𝑛22
𝑁1 + 𝑁2

𝑛11
𝑁1
𝑛22
𝑁2
Zdolność dyskryminacyjna całego modelu
Badana poprzez statystykę 𝛌-Wilksa dla modelu, obliczaną jako:
det( 𝑊𝑒 𝑇 𝑊𝑒 )
λ=
det( 𝑊𝑡𝑜𝑡 𝑇 𝑊𝑡𝑜𝑡 )
gdzie:
𝑊𝑒 – macierz odchyleń wewnątrzgrupowych (od średnich grupowych); 𝑊𝑒 𝑇 𝑊𝑒 : odpowiednik SSE z ANOVA
𝑊𝑡𝑜𝑡 – macierz odchyleń całkowitych (od średniej ogólnej), 𝑊𝑡𝑜𝑡 𝑇 𝑊𝑡𝑜𝑡 to odpowiednik SST z ANOVA, przy
czym średnia ogólna to wektor, którego elementy to średnie poszczególnych cech
Populacje różnią się znacząco, jeżeli zmienność całkowita jest dużo większa, niż zmienność wewnątrz
grupowa. Wtedy statystyka λ -Wilksa dla modelu jest bliska zeru i wskazuje ona na dobrą zdolność
dyskryminacyjną modelu. λ ∈< 0,1 >
Testowanie hipotezy zerowej o braku różnic między populacjami (a więc o słabej zdolności
dyskryminującej modelu) polega na przekształceniu statystyki λ -Wilksa dla modelu w statystykę 𝐹.
Zakładając, że:
𝑟 – liczba populacji,
𝐾 – liczba cech (zmiennych) opisujących dany obiekt,
𝑁 – łączna liczebność wszystkich badanych grup
𝐾 = 1 oraz 𝑟 dowolne
1−λ 𝑁−𝑟
𝐹𝑟−1,𝑁−𝑟 = ∙
λ 𝑟−1
𝐾 = 2 oraz 𝑟 dowolne
1− λ 𝑁−𝑟−1
𝐹2 𝑟−1 ,2( 𝑁−𝑟−1) = ∙
λ 𝑟−1
𝐾 dowolne oraz 𝑟 = 2 (dwie populacje)
1−λ 𝑁−𝑟−𝐾+1
𝐹𝐾,𝑁−𝑟−𝐾+1 = ∙
λ 𝐾
𝐾 dowolne oraz 𝑟 = 3 (trzy populacje)

1− λ 𝑁−𝑟−𝐾+1
𝐹2𝐾,2(𝑁−𝑟−𝐾+1) = ∙
λ 𝐾
Jeżeli 𝑭 > 𝑭𝒌𝒓 odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 (populacje różnią się istotnie), model ma dobrą zdolność
dyskryminującą.
Zdolność dyskryminacyjna poszczególnych cech (zmiennych)
Badana poprzez współczynnik 𝛌𝒌-Wilksa dla k-tej zmiennej, która wskazuje ile wynosiłby współczynnik λ -
Wilksa dla modelu, gdyby usunąć k-tą zmienną (cechę) z modelu dyskryminacyjnego. λ𝑘 ∈< 0,1 >
Ponieważ każde wprowadzenie dodatkowej zmiennej do modelu poprawia jego zdolności dyskryminujące,
stąd też λ𝑘 jest zawsze nie mniejsza, niż λ dla modelu, a więc λ𝑘 ≥ λ.
Im większa jest różnica między λ𝑘 a λ, tym bardziej istotna jest k-ta zmienna (ma silniejszą zdolność
dyskryminującą i powinna pozostać w modelu).
Zdolność dyskryminacyjna poszczególnych cech (zmiennych)
Różnicę między nimi wskazuje cząstkowy współczynnik 𝛌𝒌 -Wilksa dla k-tej zmiennej, na podstawie
którego podejmuje się decyzję o tym, które zmienne można usunąć z modelu (gdyż ich zdolności
dyskryminacyjne są niewielkie):
λ
λ𝑐𝑧
𝑘 =
λ𝑘
Im cząstkowa λ𝑘 -Wilksa jest mniejsza (bliższa zeru), tym silniejsza zdolność dyskryminacyjna badanej cechy.
Λ𝑐𝑧
𝑘 ∈< 0,1 >
Istotność wpływu k-tej zmiennej bada się także w oparciu o statystykę F :
1 − λ𝑐𝑧𝑘
𝐹𝑟−1,𝑁−𝑟−𝐾+1 = 𝑟−1
λ𝑐𝑧
𝑘
𝑁−𝑟−𝐾+1
Jeżeli 𝑭 > 𝑭𝒌𝒓 odrzucamy 𝑯𝒐 na korzyść 𝑯𝟏 (zmienna jest istotna), k-ta zmienna ma dobrą zdolność
dyskryminującą, nie należy usuwać jej z modelu.
Współczynnik tolerancji dla zmiennych
Współczynnik tolerancji obliczany ze wzoru:

𝑇𝑘 = 1 − 𝑅𝑘2
przy czym 𝑅𝑘 to współczynnik korelacji wielorakiej między analizowaną k-tą zmienną a pozostałymi
zmiennymi występującymi już w modelu.
Współczynnik tolerancji 𝑇𝑘 wskazuje, jaki odsetek nowych informacji (nie wnoszonych przez zmienne
już uwzględnione w modelu) jest wnoszony przez k-tą zmienną. Wskazuje tę część wariancji, która nie
jest wyjaśniona przez pozostałe zmienne w modelu.
Jeśli k-ta zmienna jest zbędna w modelu (nie wnosi nowych informacji lub informacje przez nią
wnoszone są już wnoszone przez pozostałe zmienne w modelu), jej współczynnik tolerancji 𝑇𝑘 będzie
bliski zeru.
Przypadek nierównolicznych grup w próbie uczącej
Z nierównolicznych grup wynika, że 𝑝1 ≠ 𝑝2
Z przedstawionych na poprzednich slajdach wzorów wynika że:

𝑝1 𝑓1(𝑥) 𝑝1
𝑍 𝑥 = = ∙ exp 𝐷 𝑥 .
𝑝2 𝑓2 (𝑥) 𝑝2
𝑝1
Obiekt należy do grupy 1 gdy 𝑍 𝑥 > 1 czyli tym razem gdy ∙ exp 𝐷 𝑥 > 1, a więc gdy exp 𝐷 𝑥 >
𝑝2
𝑝2 𝑝
, co daje po przekształceniu 𝐷 𝑥 > ln( 2).
𝑝1 𝑝1
Wartością funkcji dyskryminacyjnej, na podstawie której dokonuje się klasyfikacji obiektu do danej grupy nie
𝑝
jest już zero, ale wartość ln( 2).
𝑝1
Metody krokowe doboru zmiennych
Metoda krokowa wprzód
Model jest budowany iteracyjnie. W każdym kolejnym kroku brane są pod uwagę wszystkie potencjalne
zmienne i sprawdzane jest, która z nich wniesie najwięcej w ramach dyskryminacji obiektów między
grupami. Ta zmienna zostaje wybrana do modelu i procedura się powaarza. Zmienne są tak długo
wprowadzane aż wartość statystyki F dla nich jest wyższa od zadeklarowanej przez badacza
Fwprowadzenia.
Metoda krokowa wstecz

Na początku budowany jest model ze wszystkimi potencjalnymi zmiennymi (cechami). W każdym
kolejnym kroku z modelu eliminowana jest ta zmienna, która wnosi najmniej do dyskryminacji,
przewidywania przynależności badanych obiektów. W ten sposób, po kolejnych iteracjach w modelu
zostają tylko „ważne” z punktu widzenia dyskryminacji zmienne. Zmienne są tak długo eliminowane z
modelu aż wartość statystyki F dla nich jest niższa od zadeklarowanej przez badacza Fusunięcia.
Analiza dyskryminacyjna - przykład
Poniższa tabela zawiera wartości 3 wybranych wskaźników finansowych dla 10 spółek giełdowych. Wykonaj
odpowiednie polecenia wskazane w arkuszu.
Wskaźnik Rotacja Rotacja Wartości

Spółka płynności należności w zapasów funkcji
bieżącej dniach w dniach
Elkop 0,79 97,3 11,5

Elektromontaż-Warszawa 0,995 121,1 20
Energomontaż-Północ 1,249 135,9 85,2
Mostostal-Zabrze 0,794 45,4 1,5
Resbud 0,825 69,5 4,5
Mostostal-Płock 4,235 101,1 8,6
Polnord 1,233 153,3 15,9
Mostostal-Export 0,917 224,4 26,4
Bauma 0,722 161,1 20,9
LPP 1,436 47,2 118,8
Wykład 7. MANOVA – wielowymiarowa analiza wariancji.
Łączna analiza 𝐾 zmiennych
𝑋1 , 𝑋2 , … , 𝑋𝐾
tworzą 𝐾 − wymiarową zmienną losową
Obserwacja – 𝐾- wymiarowy wektor
𝑥1
𝑥2
𝑥= … .
𝑥𝐾
(realizacja K-wymiarowej zmiennej losowej)

𝑥𝑖𝑘𝑡 − obserwacja 𝑡 zmiennej 𝑋𝑘 w populacji 𝑖
Macierz wszystkich obserwacji (𝐾 zmiennych, 𝑟 populacji)

X1 X2 ....... XK-1 XK
 x111 x121 ... x1( K −1)1 x1K 1  jedna obserwacja

x x122 ... x1( K −1) 2 x1K 2 
 112
 ... ... ... ... ... 
 
 x211 x221 ... x2 ( K −1)1 x2 K 1 
 x212 x222 ... x2( K −1) 2 x2 K 2 
 
 ... ... ... ... ... 
x x321 ... x3( K −1)1 x3 K 1 
 311 
 x312 x322 ... x3( K −1) 2 x3 K 2 
 ... ... ... ... ... 
 
 ... ... ... ... ... 
Niech
ni – oznacza liczebność próby z populacji i
N – oznacza łączną liczebność próby
r
N =  ni
i =1
Rozkład K-wymiarowej zmiennej losowej opisany jest przez:
- wektor wartości oczekiwanych, czyli centroid populacji (rozkładu)
𝜇1
𝜇 = ….
𝜇𝐾
- macierz wariancji–kowariancji
𝐷2 (𝑋1 ) 𝑐𝑜𝑣(𝑋1 , 𝑋2 ) … 𝑐𝑜𝑣(𝑋1 , 𝑋𝐾 )

෍ = 𝑐𝑜𝑣(𝑋 ,𝑋 ) 𝐷2 (𝑋2 ) … . 𝑐𝑜𝑣(𝑋2 , 𝑋𝐾 )
…1 2 …. … …
𝑐𝑜𝑣(𝑋1 , 𝑋𝐾 ) 𝑐𝑜𝑣(𝑋2 , 𝑋𝐾 ) … 𝐷2 (𝑋𝐾 )
Oszacowania z próby parametrów rozkładu:
ഥ𝒊 – wektor średnich „grupowych” / centroid populacji

𝒙
𝑥ҧ𝑖1
ഥ𝒊 = …
𝒙 𝑑𝑙𝑎 𝑖 = 1, … , 𝑟
𝑥ҧ𝑖𝐾
𝑥ҧ𝑖𝑘 - średnia zmiennej 𝑋𝑘 w populacji 𝑖 (na podstawie 𝑛𝑖 obserwacji)

Macierz obserwacji:
X1 X2 ....... XK-1 XK
 x111 x121 ... x1( K −1)1 x1K 1 
x x122 ... x1( K −1) 2 x1K 2 
 112
 ... ... ... ... ... 
 
 x211 x221 ... x2 ( K −1)1 x2 K 1 
 x212 x222 ... x2( K −1) 2 x2 K 2 
 
 ... ... ... ... ... 
x x321 ... x3( K −1)1 x3 K 1 
 311 
 x312 x322 ... x3( K −1) 2 x3 K 2 
 ... ... ... ... ... 
 
 ... ... ... ... ... 
Macierz odchyleń (błędów) „wewnątrz-grupowych”
 x111 − x11 ... x1K1 − x1K 

x − x ... x1K 2 − x1K 
 112 11
 ... ... ... 
 
 x211 − x21 ... x2 K1 − x2 K 
 x212 − x21 ... x2 K 2 − x2 K 
We =  
 ... ... ... 
x − x ... x3K1 − x3K 
 311 31 
 x312 − x31 ... x3K 2 − x3K 
 
 ... ... ... 
 ... ... ... 
Macierz sum kwadratów i iloczynów mieszanych odchyleń

(błędów) losowych:
𝑆𝑒 = 𝑊𝑒𝑇 𝑊𝑒 (odpowiednik SSE)

𝑥෤1
𝑥෤ = … – wektor średnich ogólnych wspólny dla wszystkich populacji
𝑥෤𝐾
𝑥෤𝑘 - średnia zmiennej 𝑋𝑘 w całej próbie (na podstawie 𝑁 obserwacji)
Macierz odchyleń „ogólnych”

 x111 − ~
x1 ... x1K 1 − ~xK 
x − ~ ... x1K 2 − ~x K 
 112 x1
 ... ... ... 
 ~ 
 x211 − x1 ... x2 K 1 − ~
xK 
 x212 − ~
x1 xK 
... x2 K 2 − ~
Wtot =  
 ... ... ... 
x − ~ x ... x3K1 − x K 
~
 311 1 
 x312 − ~
x1 ... x3K 2 − ~xK 
 
 ... ... ... 
 ... ... ... 
Macierz sum kwadratów i iloczynów mieszanych odchyleń (błędów) całkowitych:
𝑇
𝑆𝑇 = 𝑊𝑡𝑜𝑡 𝑊𝑡𝑜𝑡 (odpowiednik SST)
MANOVA (r populacji, K zmiennych)
Badanie różnic między centroidami r populacji
ANOVA to test równości wartości średnich
MANOVA to test równości centroidów r populacji
Układ testowanych (łącznie) hipotez:
𝐻0 : 𝜇1 = 𝜇2 = … = 𝜇𝑟
𝐻1 : nie wszystkie wektory 𝜇𝑖 𝑖 = 1, … , 𝑟 są sobie równe 𝑟 ≥ 2
ZAŁOŻENIA MANOVA
1. Każda z r badanych populacji ma wielowymiarowy rozkład normalny.
2. Wszystkie r populacji mają takie same macierze wariancji/ kowariancji Σ.
𝑛𝑖 − liczebność próby z populacji (zabiegu) 𝑖
𝑁 = σ𝑟𝑖=1 𝑛𝑖 łączna liczebność próby

ANOVA:
𝑆𝑆𝑇 = 𝑆𝑆𝑇𝑅 + 𝑆𝑆𝐸
czyli: całkowita suma kwadratów =zabiegowa suma kwadratów + suma

kwadratów błędów losowych
MANOVA:
𝑆𝑇 = 𝑆𝐴 + 𝑆𝑒
gdzie:
𝑆𝑇 - macierz sum kwadratów i iloczynów mieszanych odchyleń całkowitych
𝑆𝐴 - macierz sum kwadratów i iloczynów mieszanych odchyleń międzygrupowych
𝑆𝑒 - macierz sum kwadratów i iloczynów mieszanych odchyleń wewnątrzgrupowych
Wyznacznik każdej z macierzy mierzy odpowiednią zmienność:
𝑆𝑇 całkowitą
𝑆𝐴 międzygrupową
𝑆𝑒 wewnątrzgrupową
Stąd współczynnik lambda Wilksa
𝑆𝑒
Λ=
𝑆𝑇
Analizowane populacje różnią się między sobą, gdy
ST ≫ Se
czyli gdy lambda jest „bliskie” zera i wtedy odrzucamy H0

Przekształcenie współczynnika 𝜦 w statystkę 𝑭
𝒓 𝑲 Transformacja
1−𝛬𝑁 −𝑟
dowolne 1 = 𝐹(𝑟−1,𝑁−𝑟)
𝛬 𝑟−1
1− 𝛬𝑁 −𝑟 −1
dowolne 2 = 𝐹2(𝑟−1),2(𝑁−𝑟−1)
𝛬 𝑟 − 1
1−𝛬𝑁−𝐾−1
2 Dowolne = 𝐹(𝐾,𝑁−𝐾−1)
𝛬 𝐾
1− 𝛬𝑁 −𝐾 −2
3 dowolne = 𝐹(2𝐾,2[𝑁−𝐾−2])
𝛬 𝐾
Hipotezę zerową 𝐻0 : 𝜇1 = 𝜇2 = … = 𝜇𝑟 odrzucamy gdy 𝐹𝑒𝑚𝑝 > 𝐹𝑘𝑟𝑦𝑡

MANOVA - przykład
Szpitale w państwie XYZ zostały podzielone ze względu na formę własności. Badanie ma

na celu sprawdzenie wpływu formy własności na koszty ich funkcjonowania tj. koszty
opieki oraz koszty utrzymania. W tabeli przedstawiono odpowiednie dane empiryczne.
Forma
Obserwacja Koszty opieki X1 Koszty utrzymania X2
własności
1 9 3
Prywatna 2 6 2
3 9 7
1 2 2
Rządowa
2 2 2
1 3 8
Non-profit 2 1 9
3 2 7
Czy forma własności wpływa na koszty funkcjonowania tych placówek?

Wykład 6. Testy nieparametryczne jako narzędzia
porównywania populacji.
Metody porównywania populacji
Metody porównywania populacji
Rangi i sposób ich ustalania
Rangi odzwierciedlają uporządkowanie obserwacji wg wartości badanej zmiennej. Jeżeli niektóre

obserwacje charakteryzują się tym samym poziomem badanej zmiennej, należy wprowadzić rangi
wiązane (ang. tied ranks). Wtedy rangi nie muszą przyjmować wartości całkowitych.
Ranga wiązana to średnia z rang, które zostałyby przypisane tym samym wartościom obserwacji (2,5 to
średnia z 2+3; 6 to średnia z 5+6+7).
Przykład: Przypisana
Obserwacje
ranga
4
5
5
8
11
11
11
15
19
Rangi i sposób ich ustalania
Rangi odzwierciedlają uporządkowanie obserwacji wg wartości badanej zmiennej. Jeżeli niektóre

obserwacje charakteryzują się tym samym poziomem badanej zmiennej, należy wprowadzić rangi
wiązane (ang. tied ranks). Wtedy rangi nie muszą przyjmować wartości całkowitych.
Ranga wiązana to średnia z rang, które zostałyby przypisane tym samym wartościom obserwacji (2,5 to
średnia z 2+3; 6 to średnia z 5+6+7).
Przykład: Przypisana
Obserwacje
ranga
4 1
5 2,5
5 2,5
8 4
11 6
11 6
11 6
15 8
19 9
Test Kruskala Wallisa – alternatywa dla ANOVA
Test polega na porównaniu rozkładów populacji – jeżeli są one takie same, przyjmuje się, że
charakteryzują się podobnymi parametrami. Jedyne założenia w teście KW to założenie, że wszystkie
próby są losowe i pobrane niezależnie z r populacji.
Danym poddawanym analizie muszą zostać nadane rangi. Test KW bada, czy średnie rangi dla grup
różnią się istotnie:
• jeżeli wszystkie badane próby pochodzą z identycznych populacji, to zakłada się, iż średnie rangi
dla poszczególnych grup są rozrzucone wokół całkowitej średniej rangi obliczonej dla wszystkich
wyników, a więc nie różnią się znacząco między sobą,
• jeżeli próby pochodzą z różnych populacji, to oczekuje się, iż średnie rangi dla grup silnie różnią
się między sobą.
Test Kruskala Wallisa
Hipotezy i postać statystyki testującej

𝑯𝟎 : wszystkie r populacji ma taki sam rozkład
𝑯𝟏 : przynajmniej jedna populacja ma inny rozkład
Wartość empiryczna statystyki testującej w teście Kruskala-Wallisa:

𝑟
12 𝑅𝑖2
𝐻= ෍ − 3(𝑁 + 1)
𝑁(𝑁 + 1) 𝑛𝑖
𝑖=1
gdzie:
𝑛𝑖 – liczebność i-tej próby
𝑁 – łączna liczebność wszystkich grup, zatem: 𝑁 = σ𝑟𝑖=1 𝑛𝑖
𝑅𝑖 – suma rang w i-tej grupie
Uwaga!
W przypadku gdy dla analizowanych danych wystąpią rangi wiązane wartość empiryczną statystyki
należy skorygować w następujący sposób:
𝑟
1 12 𝑅𝑖2
𝐻′ = ෍ − 3(𝑁 + 1)
𝐶 𝑁(𝑁 + 1) 𝑛𝑖
𝑖=1
gdzie:
σ𝐾 3
𝑘=1(𝑡𝑘 − 𝑡𝑘 )
𝐶 =1−
𝑁3 − 𝑁
𝑡𝑘 − liczba obserwacji wchodzących w skład 𝑘 −tej rangi wiązanej.

𝐾 − ilość rang wiązanych w przypadku analizowanych danych
Dla nielicznych prób (każda grupa o 𝑛𝑖 < 5), istnieją dokładne tablice rozkładu H przy założeniu
prawdziwości 𝐻0 .
Przy liczebności poszczególnych prób nie mniejszej, niż 5 (tj.𝑛𝑖 ≥ 5), rozkład testu H, przy założeniu
prawdziwości 𝐻0, jest dobrze przybliżany przez rozkład 𝜒 2 o r-1 stopniach swobody.
2
Jeżeli 𝑯 > 𝜒𝑟−1 należy odrzucić 𝑯𝟎 na korzyść 𝑯𝟏, a więc nie wszystkie populacje mają ten sam
rozkład
Co dalej (jeśli nastąpi odrzucenie H0)?

Jeżeli stwierdzono, iż populacje różnią się, pojawia się (podobnie, jak w ANOVA) pytanie, które
konkretnie populacje się różnią. Odpowiedzi udziela test porównujący średnie rangi między parami
prób (analogiczny do testu HSD Tukey’a).
Weryfikowane hipotezy:
𝑯𝟎 : rozkłady populacji k oraz l są identyczne
𝑯𝟏 : rozkłady populacji k oraz l nie są identyczne
Statystyka empiryczna – porównywanie k-tej próby z l-tą próbą:
𝑅ത𝑘 − 𝑅ത𝑙 k≠l

𝐷= przy czym:
𝑁(𝑁 + 1) 1 1 k, l = 1,2, … , r
∙ +
12 𝑛𝑘 𝑛𝑙
gdzie: 𝑅ത𝑘 oraz 𝑅ത𝑙 oznaczają średnie rangi w poszczególnych próbach.

.
𝛼
Jeżeli 𝑫 > 𝒛𝒌𝒓 (1 − ), należy odrzucić 𝑯𝟎 na korzyść 𝑯𝟏 , a więc rozkłady dwóch badanych
2
populacji nie są identyczne.
𝛼
𝒛𝒌𝒓 1 − − wartością krytyczną, odczytaną ze standaryzowanej tablicy rozkładu normalnego
2
UWAGA: W Statistice przy wartościach p wykorzystywana jest poprawka Bonferroniego (pdf na

moodle***)
Etapy postępowania
1. Rangowanie obserwacji z całego zbioru (bez względu na to, z której próby pochodzą).
Porządkowanie w taki sposób, że najniższa ranga przypisywana jest najniższej wartości zmiennej.
2. Sumowanie rang w obrębie poszczególnych prób (wyznaczenie 𝑅𝑖 ).
3. Obliczenie wartości empirycznej statystyki testującej H.
4. Porównanie wartości empirycznej z wartością krytyczną (odczytaną z tablic rozkładu przy poziomie
istotności 𝛼 oraz 𝑟 − 1 liczbie stopni swobody) i podjęcie decyzji.
5. Jeżeli w 4. nastąpi odrzucenie 𝐻0, należy przeprowadzić porównanie populacji parami za pomocą
testu D (analogicznego do HSD Tukey’a).
Test Kruskala Wallisa - przykład
Analityk zatrudniony w branży wydawniczej chce sprawdzić, czy koszt reklamy prasowej danych
rozmiarów jest taki sam w czterech dużych grupach gazet. Pobrano losowo próby po 7 tytułów z każdej
grupy i zanotowano koszt reklamy w każdej z wylosowanych gazet. Dane (w $) zaprezentowano w
tabeli:
Grupa A Grupa B Grupa C Grupa D

57 72 35 73
65 81 42 85
50 64 58 92
45 55 59 68
70 90 46 82
62 38 60 94
48 75 61 66
Czy uważasz, że istnieją różnice w cenie reklamy między czterema wyróżnionymi grupami gazet?
EXCEL
Test U Manna-Whitneya (alternatywa testu t dla dwóch
średnich)
Jedyne założenie w teście U: obie próby są losowe i pobrane niezależnie od siebie z dwóch populacji.
Hipotezy w teście U Manna-Whitneya i etapy postępowania

𝑯𝟎 : obie populacje mają taki sam rozkład
𝑯𝟏 : populacje nie mają takiego samego rozkładu
Test U Manna-Whitneya
Etapy postępowania:
1. Uporządkować wszystkie obserwacje (rosnąco). Przypisać rangi (od najmniejszej).
2. Wartościom równym nadać rangi wiązane.
3. Obliczyć sumę rang obserwacji pochodzących z obu populacji 𝑅𝑖 .
4. Postawić hipotezy:
𝑯𝟎 : obie populacje mają taki sam rozkład
𝑯𝟏 : populacje nie mają takiego samego rozkładu
5. Obliczyć wartości statystyki U Manna-Whitneya:
𝑛1 (𝑛1 + 1)
𝑈 = 𝑛1 𝑛2 + − 𝑅1
2
gdzie: 𝑛1 – liczebność próby 1, 𝑛2 – liczebność próby 2.
6. Jeżeli próby są duże (𝑛1 , 𝑛2 ≥ 10) przejdź do pkt. 7, a jeżeli są małe (𝑛1 i/lub 𝑛2 < 10) to stosuje
się rozkład statystyki U podany w tablicach (patrz np. Aczel)
7. Jeżeli badane próby są duże (𝑛1 , 𝑛2 ≥ 10), za 𝑅1 przyjmuje się większą z dwóch sum rang oraz
stosuje się aproksymacje normalną. Należy obliczyć wartość oczekiwaną oraz odchylenie standardowe:
𝑛1 𝑛2 𝑛1 𝑛2 (𝑛1 + 𝑛2 + 1)
𝐸 𝑈 = 𝜎𝑈 =
2 12
A następnie obliczyć wartość empiryczną statystyki testu dla dużych prób:
𝑈 − 𝐸 𝑈 + 0,5
𝑧=
𝜎𝑈
Wartość empiryczną porównuje się z wartością krytyczną, odczytaną ze standaryzowanej tablicy
rozkładu normalnego (w Excelu „=rozkład.normalny.s.odw()”), przy czym dla testu dwustronnego
𝛼
odczytujemy wartość z tablicy przy poziomie (poziom istotności dla przeprowadzanego testu to 𝛼).
2
Jeżeli 𝒛 < 𝒛𝒌𝒓 , odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 , a więc rozkłady w populacjach różnią się
Najczęściej wykorzystywane wartości krytyczne:
Wartość krytyczna 𝑧𝑘𝑟 -1,64 -1,96 -2,58

Poziom istotności 𝛼 dla testu:
0,1 0,05 0,01
dwustronnego
Test U Manna-Whitneya - przykład
Badano dwie grupy zawodników pewnej dyscypliny sportu. Każda grupa poddana była
innemu programowi treningowemu. Następnie z każdej z grup wylosowano po 10
zawodników i poddano ich testowi. Wyniki testu zawiera tabela. Za pomocą testu U Manna-
Whitneya sprawdź czy obie grupy zawodników różnią się pod względem wyników
osiąganych w teście (sprawdź, czy rozkłady wyników testu w obu grupach różnią się).
EXCEL Grupa I Grupa II
27 6
33 9
37 14
52 16
53 29
57 43
69 45
70 47
71 50
77 55
Wykład 5. Dwuczynnikowa analiza wariancji.
Dwuczynnikowa analiza wariancji
Jest metodą badania, czy występują istotne różnice w średnich w r populacjach ze względu na dwa
czynniki (każdy może mieć inna liczbę poziomów).
Pytania, na jakie odpowiada dwuczynnikowa ANOVA:

1) Czy występują istotne różnice w średniej ze względu na czynnik A? (efekt swoisty czynnika A)
2) Czy występują istotne różnice w średniej ze względu na czynnik B? (efekt swoisty czynnika B)
3) Czy występuje wzajemne oddziaływanie (interakcja) między czynnikami A oraz B? (efekt interakcji)
Rozpatrywane są dwa czynniki (JAKOŚCIOWE) mające potencjalny wpływ na wartości zmiennej X

• czynnik A „przyjmuje” a poziomów
• czynnik B „przyjmuje” b poziomów
Oznaczenia w dwuczynnikowej ANOVA
Czynnik B
ma trzy poziomy,
k=1,2,3
Branża
I II III
(k=1) (k=2) (k=3)
54 48 71
61 50 76
Wschodni (j=1)
59 49 65
56 60 70
70 54 68
62 52 62
63 49 73
57 55 60
68 53 79
52 44 61
50 49 64
Czynnik A
Centralny (j=2)
58 54 69
ma trzy
59 53 58
Rejon
poziomy,
62 51 57
J=1,2,3
57 60 63
58 55 65
64 47 63
61 50 50
63 65 82
67 58 72
Zachodni (j=3)
68 62 79
72 70 77
68 57 80
75 61 69
62 68 84
65 65 83
70 73 76
Klatka – kombinacja j-tego wiersza oraz k-tej kolumny. Stąd liczba klatek to: a·b
a – liczba poziomów czynnika A ( j = 1, …, a)
b – liczba poziomów czynnika B (k = 1, …, b)
N – liczba wszystkich obiektów poddanych badaniu
𝑛𝑖 – liczebność (i-tej) klatki,
𝑛𝑗 − liczba wszystkich obiektów o j-tym poziomie czynnika A
𝑛𝑘 – liczba wszystkich obiektów o k-tym poziomie czynnika B
σ𝑖 σ𝑗 σ𝑘 𝑥𝑖𝑗𝑘
𝑥෤ = – średnia ogólna
𝑁
σ𝑗 σ𝑘 𝑥𝑖𝑗𝑘
𝑥ҧ𝑖 = − średnia w 𝑖 − tej klatce (a więc średnia obiektów o
𝑛𝑖
𝑗 − tym poziomie czynnika A i 𝑘 − tym poziomie czynnika B)
σ𝑗 𝑥𝑖𝑗𝑘
𝑥𝑗ҧ = − średnia obiektów o 𝑗 − tym poziomie czynika A
𝑛𝑗
(bez względu na poziom czynnika B)
σ𝑘 𝑥𝑖𝑗𝑘
𝑥ҧ𝑘 = − średnia obiektów o 𝑘 − tym poziomie czynika B
𝑛𝑘
(bez względu na poziom czynnika A)
Idea dwuczynnikowej ANOVA
SST = SSTR + SSE
෪2 = ෍ 𝑛𝑖 (𝑥ҧ𝑖 − 𝑥෥ )2
෍ ෍ ෍(𝑥𝑖𝑗𝑘 − 𝑥) + ෍ ෍ ෍(𝑥𝑖𝑗𝑘 − 𝑥ҧ𝑖 )2
𝑖 𝑗 𝑘 𝑖 𝑖 𝑗 𝑘
Idea dwuczynnikowej ANOVA
SST = SSTR + SSE
෪2 = ෍ 𝑛𝑖 (𝑥ҧ𝑖 − 𝑥෥ )2
෍ ෍ ෍(𝑥𝑖𝑗𝑘 − 𝑥) + ෍ ෍ ෍(𝑥𝑖𝑗𝑘 − 𝑥ҧ𝑖 )2
𝑖 𝑗 𝑘 𝑖 𝑖 𝑗 𝑘
SSTR = SS A + SS B + SS(AB)
෍ 𝑛𝑖 (𝑥ҧ𝑖 − 𝑥෥ )2 = ෍ 𝑛𝑗 (𝑥𝑗ҧ − 𝑥෥ )2 + ෍ 𝑛𝑘 (𝑥ҧ 𝑘 − 𝑥෥ )2 + ෍ ෍ ෍ 𝑛𝑖 ( 𝑥ҧ𝑖 − 𝑥𝑗ҧ − 𝑥ҧ𝑘 + 𝑥෥ )2
𝑖 𝑗 𝑘 𝑖 𝑗 𝑘
Testy przeprowadzane w ramach dwuczynnikowej ANOVA
1. Test na swoisty efekt czynnika A:
𝐻0 : 𝜇𝐴1 = 𝜇𝐴2 = ⋯ = 𝜇𝐴𝑎

𝐻1 : przynajmniej jedna średnia inna
𝑆𝑆(𝐴)/(𝑎 − 1) 𝑀𝑆(𝐴)
𝐹= =
𝑆𝑆𝐸/(𝑎𝑏 𝑛𝑖 − 1 ) 𝑀𝑆𝐸
Jeżeli 𝑭 > 𝑭𝒌𝒓 , odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 (nie wszystkie populacje charakteryzują się
jednakową średnią pod kątem czynnika A).
Wartość krytyczna – odczytana z tablic rozkładu F przy zadanym poziomie istotności 𝛼 oraz liczbie
stopni swobody licznika (𝑎 − 1) oraz liczbie stopni swobody mianownika 𝑎𝑏 𝑛𝑖 − 1
2. Test na swoisty efekt czynnika B:
𝐻0 : 𝜇𝐵1 = 𝜇𝐵2 = ⋯ = 𝜇𝐵𝑏

𝐻1 : przynajmniej jedna średnia inna
𝑆𝑆(𝐵)/(𝑏 − 1) 𝑀𝑆(𝐵)
𝐹= =
Jeżeli 𝑭 > 𝑭𝒌𝒓 , odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 (nie wszystkie populacje charakteryzują się
jednakową średnią pod kątem czynnika B).
stopni swobody licznika (𝑏 − 1) oraz liczbie stopni swobody mianownika 𝑎𝑏 𝑛𝑖 − 1
3. Test na interakcję czynników A oraz B:
𝐻0 : nie występuje interakcja czynników A oraz B

𝐻1 : występuje interakcja czynników A oraz B
𝑆𝑆(𝐴𝐵)/[ 𝑎 − 1 𝑏 − 1 ] 𝑀𝑆(𝐴𝐵)
𝐹= =
Jeżeli 𝑭 > 𝑭𝒌𝒓 , odrzucamy 𝑯𝟎 na korzyść 𝑯𝟏 (występuje interakcja).
stopni swobody licznika (𝑎 − 1)(𝑏 − 1) oraz liczbie stopni swobody mianownika 𝑎𝑏 𝑛𝑖 − 1
Test HSD w dwuczynnikowej ANOVA
Co dalej (jeżeli nastąpi odrzucenie 𝐻0 )?

Analogiczny do testu HSD dla analizy jednoczynnikowej – porównuje się średnie parami (ze względu
na dany poziom czynnika jednego, przy różnych poziomach czynnika drugiego)). Przy istotnej
interakcji, porównuje się parami średnie we wszystkich klatkach.
Uwaga: trzeba uważać przy interakcji.

Jeżeli występuje istotna interakcja między czynnikami, średnie w klatkach powinno się skorygować o interakcję:
średnia w klatce – (efekt w wierszu + efekt w kolumnie + średnia ogólna)
przy czym:
efekt w wierszu: średnia dla wiersza – średnia ogólna
efekt w kolumnie: średnia dla kolumny – średnia ogólna
Jeżeli nie ma interakcji, porównuje się średnie ze względu na poziomy jednego czynnika (bez względu na poziom
drugiego czynnika).
Test HSD w dwuczynnikowej ANOVA
Wartości krytyczne statystyki HSD to:

a) przy testowaniu różnic średnich ze względu na poziomy czynnika A – parami porównujemy średnie dla różnych
poziomów tego czynnika:
𝑀𝑆𝐸
𝐻𝑆𝐷𝑘𝑟 = 𝑞𝛼
𝑏𝑛𝑖
𝑞𝛼 − wartość z tablic studentyzowanego rozkładu rozstępu przy liczbie stopni swobody: 𝑎 oraz 𝑎𝑏(𝑛𝑖 − 1)
Jeżeli 𝐻𝑆𝐷𝑒𝑚𝑝 > 𝐻𝑆𝐷𝑘𝑟 odrzucamy 𝐻0 na korzyść 𝐻1 , badane dwie grupy (ze względu na dwa poziomy czynnika A)
różnią się pod względem średniej.
b) przy testowaniu różnic średnich ze względu na poziomy czynnika B – parami porównujemy średnie dla różnych
poziomów tego czynnika:
𝑀𝑆𝐸
𝐻𝑆𝐷𝑘𝑟 = 𝑞𝛼
𝑎𝑛𝑖
𝑞𝛼 − wartość z tablic studentyzowanego rozkładu rozstępu przy liczbie stopni swobody: 𝑏 oraz 𝑎𝑏(𝑛𝑖 − 1)
Jeżeli 𝐻𝑆𝐷𝑒𝑚𝑝 > 𝐻𝑆𝐷𝑘𝑟 odrzucamy 𝐻0 na korzyść 𝐻1 , badane dwie grupy (ze względu na dwa poziomy czynnika
B) różnią się pod względem średniej.
Dwuczynnikowa analiza wariancji ANOVA - przykład
Przykład 1.
Badano uposażenia dyrektorów (tys.$ rocznie) w trzech branżach i trzech rejonach kraju. Przeprowadź
podwójną ANOVA.
1. Zbuduj tablicę ANOVA i przeprowadź odpowiednie testy.
2. Jeżeli nastąpi odrzucenie H0, przeprowadź testy HSD Tukeya i porównaj średnie parami.
Dwuczynnikowa analiza wariancji ANOVA - przykład
Branża (czynnik B)
I II III
54 48 71
61 50 76
59 49 65
Wschodni
56 60 70
70 54 68
62 52 62
63 49 73
57 55 60
68 53 79
52 44 61
50 49 64
Rejon (czynnik A)
58 54 69
Centralny
59 53 58
62 51 57
57 60 63
58 55 65
64 47 63
61 50 50
63 65 82
67 58 72
68 62 79
Zachodni
72 70 77
68 57 80
75 61 69
62 68 84
65 65 83
70 73 76
Wykład 4. ANOVA – jednowymiarowa analiza wariancji i jej
zastosowania.
.
Jednowymiarowa analiza wariancji ANOVA
Jest metodą badania czy przeciętny poziom zmiennej opisującej obiekty w różnych populacjach jest
istotnie różny.
Założenia przyjmowane w analizie wariancji

1) Próby zostały pobrane losowo, niezależnie od siebie z r populacji
2) Każda populacja charakteryzuje się rozkładem normalnym o tej samej wariancji 𝜎 2 , średnie
oczywiście mogą się różnić (wystarczy jeżeli rozkłady są zbliżone do normalnego, analiza nadal
będzie dawała wiarygodne wyniki) .
Oznaczenia:
𝑟 − liczba analizowanych populacji 𝑖 = 1, … , 𝑟
𝑁 − łączna liczba obserwacji (liczebność wszystkich prób)
𝑛𝑖 − liczebność próby z populacji i-tej
Hipotezy badawcze:
𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑟
𝐻1 : 𝑝𝑟𝑧𝑦𝑛𝑎𝑗𝑚𝑛𝑖𝑒𝑗 𝑗𝑒𝑑𝑛𝑎 ś𝑟𝑒𝑑𝑛𝑖𝑎 𝑗𝑒𝑠𝑡 𝑖𝑛𝑛𝑎
Zasada leżąca u podstaw ANOVA

Jeśli średnie w populacjach są różne (co najmniej dwie z nich się różnią między sobą), to
prawdopodobne jest, że odchylenia wyników obserwacji od odpowiadających im średnim z prób 𝑥ҧ𝑖
będą małe w porównaniu z odchyleniami r średnich z prób od średniej ogólnej 𝑥.
෤
𝑥𝑖𝑗 − obserwacja j w populacji i

𝑥ҧ𝑖 − średnia wartość zmiennej w populacji i (grupowa średnia)
𝑛𝑖
σ𝑗=1 𝑥𝑖𝑗
𝑥ҧ𝑖 =
𝑛𝑖
𝑥෤ − ogólna średnia
𝑛
σ𝑟𝑖=1 σ𝑗=1
𝑖
𝑥𝑖𝑗
𝑥෤ =
𝑁
Trzy rodzaje odchyleń od średniej:

1) Odchylenie losowe, przypadkowe – odchylenie obserwacji od średniej grupowej:
𝑒𝑖𝑗 = 𝑥𝑖𝑗 − 𝑥ҧ𝑖
2) Odchylenie zabiegowe – odchylenie średniej dla danej grupy od ogólnej:

𝑡𝑖 = 𝑥ҧ𝑖 − 𝑥෤
3) Odchylenie ogólne – odchylenie obserwacji od średniej ogólnej

𝑡𝑜𝑡𝑖𝑗 = 𝑒𝑖𝑗 + 𝑡𝑖
𝑥𝑖𝑗 − 𝑥෤ = 𝑥𝑖𝑗 − 𝑥ҧ𝑖 + (𝑥ҧ𝑖 − 𝑥)

෤
Aby zweryfikować hipotezę o równości wartości oczekiwanej obliczamy sumę kwadratów odchyleń
obserwacji od średniej ogólnej po wszystkich obserwacjach
𝑟 𝑛𝑖 𝑟 𝑛𝑖
2 2
෍ ෍ 𝑥𝑖𝑗 − 𝑥෤ = ෍ ෍ 𝑥𝑖𝑗 − 𝑥ҧ𝑖 + (𝑥ҧ𝑖 − 𝑥)
෤
𝑖=1 𝑗=1 𝑖=1 𝑗=1
Zasada sumy kwadratów:
𝑟 𝑛𝑖 𝑟 𝑛𝑖 𝑟
2 2
෍ ෍ 𝑥𝑖𝑗 − 𝑥෤ = ෍ ෍ 𝑥𝑖𝑗 − 𝑥ҧ𝑖 ෤ 2
+ ෍ 𝑛𝑖 (𝑥ҧ𝑖 − 𝑥)
𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑖=1
𝑆𝑆𝑇 = 𝑆𝑆𝐸 + 𝑆𝑆𝑇𝑅
Stopnie swobody: N-1 𝑁−𝑟 𝑟−1

Statystyka służąca do weryfikacji hipotezy zerowej o równości wartości oczekiwanych ma postać:
𝑆𝑆𝑇𝑅
𝑀𝑆𝑇𝑅
𝐹𝑒𝑚𝑝 = 𝑟 − 1 =
𝑆𝑆𝐸 𝑀𝑆𝐸
𝑁−𝑟
Przy założeniu prawdziwości hipotezy zerowej statystyka F ma rozkład Snedecora-Fishera o 𝑟 − 1
stopniach swobody licznika i 𝑁 − 𝑟 stopniach swobody mianownika.
Jeżeli 𝐹𝑒𝑚𝑝 > 𝐹𝑘𝑟𝑦𝑡 to odrzucamy 𝐻0 na korzyść 𝐻1 (nie wszystkie populacje charakteryzują się
jednakową średnią)
Wartości krytyczne rozkładu F-Snedecora (poziom istotności 0,05) v1-stopni

swobody licznika, v2-stopni swobody mianownika
v1
v2 1 2 3 4 5 6
1 161,448 199,500 215,707 224,583 230,162 233,986
2 18,513 19,000 19,164 19,247 19,296 19,330
3 10,128 9,552 9,277 9,117 9,013 8,941
4 7,709 6,944 6,591 6,388 6,256 6,163
5 6,608 5,786 5,409 5,192 5,050 4,950

Co dalej (jeżeli nastąpi odrzucenie 𝐻0 )?

Jedną z metod jest porównanie średnich parami metodą Tukeya – test HSD Tukeya (ang. Honestly
Significant Difference).
Test HSD Tukeya pozwala na porównanie dowolnie wybranej pary średnich przy jednym, ustalonym
dla wszystkich porównań, poziomie istotności. Jeżeli porównuje się wszystkie średnie między sobą
𝑟
(parami), należy dokonać porównań.
2
Hipotezy w pojedynczym (dla jednej pary) teście HSD Tukeya:

𝐻0 : 𝜇𝑘 = 𝜇𝑙
𝐻1 : 𝜇𝑘 ≠ 𝜇𝑙
Statystyką testującą jest moduł różnicy między średnimi z dwóch prób:
𝑘≠𝑙
𝐻𝑆𝐷𝑒𝑚𝑝 = 𝑥ҧ𝑘 − 𝑥ҧ𝑙 przy czym:
𝑘, 𝑙 = 1, … , 𝑟
Wartość krytyczną trzeba obliczyć ze wzoru:
𝑀𝑆𝐸
𝐻𝑆𝐷𝑘𝑟 = 𝑞𝛼 gdzie:
𝑛𝑖
𝑞𝛼 − wartość odczytana z tablic studentyzowanego rozkładu rozstępu (liczba stopni swobody r oraz N-
r)
𝑛𝑖 − liczebność grup (w przypadku gdy grupy są równoliczne); jeżeli liczebności poszczególnych prób
nie są równe, zamiast 𝑛𝑖 wstawia się np. liczebność najmniejszej próby
Jeżeli 𝐻𝑆𝐷𝑒𝑚𝑝 > 𝐻𝑆𝐷𝑘𝑟 to odrzucamy 𝐻0 na korzyść 𝐻1 (badane dwie populacje różnią się pod
względem średniej)
Test Shapiro-Wilka/test Kołmogorowa Smirnowa na normalność rozkładu:

𝐻0 : próba pochodzi z populacji o rozkładzie normalnym
𝐻0 : próba pochodzi z populacji o innym rozkładzie
Test Levene'a jednorodności wariancji

𝐻0 : wariancje zmiennej w grupach są równe
𝐻0 : wariancje zmiennej w grupach są różne
Idea testu: przeprowadzamy jednoczynnikową analizę wariancji dla zmiennej 𝑦𝑖𝑗 = 𝑥𝑖𝑗 − 𝑥ҧ𝑖
Obliczona w ten sposób statystyka F ma rozkład Fishera o o 𝑟 − 1 stopniach swobody licznika i 𝑁 − 𝑟
stopniach swobody mianownika.
Jednowymiarowa analiza wariancji ANOVA - przykład
Przykład 1.
Spółka Gulfstream Aerospace wyprodukowała trzy różne prototypy samolotu, który mógłby
być masowo produkowany jako najnowszy wielki odrzutowiec. Każdy z trzech prototypów
miał nieco odmienne cechy, które mogłyby mieć pewne konsekwencje dla sprawności
samolotu. W toku procesu decyzyjnego, który miał doprowadzić do ustalenia, jaki rodzaj
samolotu będzie ostatecznie produkowany, zatrudnieni w spółce inżynierowie
zainteresowali się tym, czy trzy produkowane prototypy mają mniej więcej ten sam
przeciętny zasięg lotu. Każdemu z prototypów wyznaczono losowo trasę 10 przelotów i
godzinę odlotu. Mierzono zasięg lotu przy pełnych zbiornikach paliwa. Dane o zasięgu
trzech prototypów podaje tabela (dane w milach). Zweryfikować, czy wszystkie trzy
prototypy mają ten sam przeciętny zasięg. Jeżeli tak nie jest, to stosując test Tukeya
sprawdź, które prototypy różnią się istotnie zasięgiem:
Jednowymiarowa analiza wariancji ANOVA - przykład
Prototyp A Prototyp B Prototyp C

4420 4230 4110
4540 4220 4090
4380 4100 4070
4550 4300 4160
4210 4420 4230
4330 4110 4120
4400 4230 4000
4340 4280 4200
4390 4090 4150
4510 4320 4220
Wykład 3.2 Analiza skupień jako narzędzie wyodrębniania
jednorodnych grup obiektów.
Metody grupowania
Metody grupowania obiektów
Metody hierarchiczne Metody niehierarchiczne

- procedury aglomeracyjne - metoda k-średnich
- procedury deglomeracyjne (podziału) - metoda Hartigana
- metoda taksonomii wrocławskiej - metoda kul
- metoda kostek
- metoda podziału przestrzennego
- taksonomii stochastycznej
Analiza skupień
Wyodrębnienie w zbiorze obiektów Ω = O1 , O2 , … , ON pewnych podzbiorów Ω𝑠 𝑠 = 1, … , 𝑆 . o

następujących własnościach:
• Ω𝑠 ≠ ø 𝑠 = 1,2, … 𝑆
• Ω𝑠 ∩ Ω𝑝 ≠ ø 𝑠 ≠ 𝑝, 𝑠 = 1,2, … 𝑆
• Ω1 ∪ … .∪ Ω𝑆 = 𝛺
• Obiekty zaliczone do jednego podzbioru były do siebie bardziej podobne niż to obiektów
zaliczonych do innych podzbiorów,
• Nie powinno być zbyt wiele podzbiorów jednoelementowych ani też zbioru mającego wszystkie
elementy.
Analiza skupień
Podstawą do przeprowadzenia analizy skupień jest ustalenie miary niepodobieństwa obiektów

opisanych za pomocą k-zmiennych. Zakładać będziemy, że zmienne te zostały znormalizowane.
Charakter zmiennych nie musi być ujednolicony.
Miarą podobieństwa jest odległość zmiennych, której wartości będą tworzyć macierz symetryczną 𝐷.
𝐷 = [𝑑𝑖𝑗 ]
Powyższa macierz definiuje jedynie odległość między obiektami. Gdy zaczynamy tworzyć skupienia
powstaje problem w jaki sposób na podstawie macierzy 𝐷 zdefiniować odległość między skupieniami,
z których przynajmniej jedno zawiera więcej niż jeden obiekt. Poszczególne metody analizy skupień
różnią się właśnie sposobem definiowania odległości między skupieniami.
Analiza skupień – przykładowe zastosowania
- Marketing – wykorzystywanie analizy skupień w celu podzielenia rynku na małe jednorodne grupy,
w celu poprawienia efektywności kampanii promocyjnych
- Rynek ubezpieczeniowy – grupowanie klientów w celu określenia optymalnego poziomu cen
oferowanych produktów
- Psychologia – ustalanie rodzaju osobowości na podstawie przeprowadzonych kwestionariuszy
- Sieci społecznościowe – grupowanie w celu rozpoznawania społeczności w ramach dużych grup
ludzi
- Medycyna – grupowanie genów odpowiadających za zdiagnozowane u pacjentów choroby;
rozpoznawanie w badaniu PET rodzajów tkanek.

Schemat metod aglomeracyjnych
Założenie: dana jest macierz 𝐷 = 𝑑𝑖𝑗 𝑖, 𝑗 = 1, … , 𝑁 odległości między klasyfikowanymi obiektami
𝑂1 , 𝑂2 , … , 𝑂𝑁 .
Każdy obiekt stanowi odrębne skupienie, czyli 𝑁 skupień jednoelementowych.
Etap I: Poszukuje się pary skupień najmniej odległych tzn.:
𝑑𝑝𝑞 = min 𝑑𝑖𝑗 = 𝑑 Ω𝑖 , Ω𝑗 , 𝑖, 𝑗 = 1, … , 𝑁 , 𝑝 < 𝑞

𝑖,𝑗
Etap II: Skupienia Ω𝑝 oraz Ω𝑞 łączy się w jedno skupienie, zachowując dla niego numer 𝑝
Etap III: Z macierzy 𝐷 usuwane są wiersz i kolumna 𝑞 (zmienia się wymiar na 𝑁 − 1)
Etap IV: Obliczane są odległości 𝑑𝑝𝑗 między „nowym” skupieniem Ω𝑝 a pozostałymi skupieniami i
wstawiane są do macierzy 𝐷 w miejsce kolumny/wiersza 𝑝.
Powrót do etapu I.
Koniec procedury: wszystkie obiekty = jedno skupienie
Metody aglomeracyjne
Różnią się sposobem wyznaczania odległości nowo utworzonego skupienia p od

wszystkich pozostałych skupień
• Metoda najbliższego sąsiedztwa (pojedynczego wiązania) – odległość pomiędzy dwoma grupami
obiektów jest równa odległości pomiędzy najbliższymi obiektami (sąsiadami) należącymi do
dwóch różnych grup obiektów.
• Metoda najdalszego sąsiedztwa sąsiedztwa (pełnego wiązania) – odległość pomiędzy dwoma

grupami obiektów jest równa odległości pomiędzy najdalszymi obiektami (sąsiadami) należącymi
do dwóch różnych grup obiektów.
• Metoda średniej międzygrupowej (średnich połączeń) – odległość pomiędzy dwoma grupami
obiektów jest równa średniej arytmetycznej odległości między wszystkimi parami obiektów
należących do dwóch różnych grup.
• Metoda środka ciężkości– odległość pomiędzy dwoma grupami obiektów jest równa odległości
między środkami ciężkości tych grup. .
• Analogiczne są metody średnich połączeń ważonych/ważonych środków ciężkości - w obliczeniach

uwzględnia się jednak wielkość odpowiednich skupień (tzn. liczbę zawartych w nich obiektów)
jako wagę. Powinny być stosowana wtedy, gdy podejrzewamy, że liczności skupień są wyraźnie
nierówne.
Metoda Warda – łączenie dwóch grup w jedną w taki sposób by zminimalizować sumę kwadratów
odchyleń wewnątrz skupień (zagadnienie wyjaśniane przy okazji kolejnego tematu). W danym etapie
spośród wszystkich możliwych do połączenia par skupień wybrana zostaje ta para, która po połączeniu
da skupienie o minimalnym zróżnicowaniu.
Schemat metod aglomeracyjnych
Ogólne formuły wyznaczania odległości skupienia Ω𝑝 = Ω𝑝 ∪ Ω𝑞 od pozostałych skupień Ω𝑗 :
𝑑𝑝𝑗 = 𝑎𝑝 𝑑𝑝𝑗 + 𝑎𝑞 𝑑𝑞𝑗 + 𝑏𝑑𝑝𝑞 + 𝑐|𝑑𝑝𝑗 − 𝑑𝑞𝑗 |
Wartości parametrów 𝑎𝑝 , 𝑎𝑞 , 𝑏, 𝑐 dla różnych metod grupowania obiektów
Metoda 𝑎𝑝 𝑎𝑞 b c
Najbliższego sąsiedztwa 0.5 0.5 0 -0.5
Najdalszego sąsiedztwa 0.5 0.5 0 0.5
Mediany 0.5 0.5 -0.25 0
𝑛𝑝 𝑛𝑞
Średniej grupowej 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0 0
𝑛𝑝 𝑛𝑞 𝑛𝑝 𝑛𝑞
Środka ciężkości − 2
𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛 𝑞 0
𝑛𝑝 + 𝑛𝑗 𝑛𝑞 + 𝑛𝑗 𝑛𝑗
Warda −
𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 𝑛𝑝 + 𝑛𝑞 + 𝑛𝑗 0
Przykład 1:
Dana jest macierz odległości między obiektami:
O1 O2 O3 O4 O5
O1 0 4 5 2 5,5
O2 4 0 6 7 2,5
O3 5 6 0 3,5 3
O4 2 7 3,5 0 1,5
O5 5,5 2,5 3 1,5 0
Pogrupuj obiekty z wykorzystaniem metody najbliższego sąsiedztwa.

Przykład 1
Mediany 0.5 0.5 -0.25 0
𝑛𝑝 𝑛𝑞
𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0
Warda −
𝑑𝑝𝑗 = 0,5 ∙ 𝑑𝑝𝑗 + 0,5 ∙ 𝑑𝑞𝑗 + 0 ∙ 𝑑𝑝𝑞 − 0,5 ∙ |𝑑𝑝𝑗 − 𝑑𝑞𝑗 |

Przykład 1
Mediany 0.5 0.5 -0.25 0
𝑛𝑝 𝑛𝑞
𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 𝑛𝑝 + 𝑛𝑞 0
Warda −
𝑑𝑝𝑗 = 0,5 ∙ 𝑑𝑝𝑗 + 0,5 ∙ 𝑑𝑞𝑗 − 0,5 ∙ |𝑑𝑝𝑗 − 𝑑𝑞𝑗 |

Przykład 1
Diagram drzewa
Pojedyncze wiązanie
Odległ. euklidesowa
3,2
Przyrosty Przyrosty
3,0
𝑑𝑙 bezwzględne względne
2,8
𝑑𝑙 − 𝑑𝑙−1 𝑑𝑙 /𝑑𝑙−1
2,6
1,5
Odległość wiąz.
2,4
2,2
2 0,5 1,33
2,0
2,5 0,5 1,25
1,8
3 0,5 1,20
1,6
1,4
1,2
O3 O2 O5 O4 O1
Przykład 1
Diagram drzewa
Pojedyncze wiązanie
Odległ. euklidesowa
3,2
Przyrosty Przyrosty
3,0
𝑑𝑙 bezwzględne względne
2,8
𝑑𝑙 − 𝑑𝑙−1 𝑑𝑙 /𝑑𝑙−1
2,6
1,5
Odległość wiąz.
2,4
2,2
2 0,5 1,33
2,0
2,5 0,5 1,25
1,8
3 0,5 1,20
1,6
1,4
1,2
O3 O2 O5 O4 O1
Przykład 2:
Dana jest macierz odległości między obiektami. Pogrupuj obiekty z wykorzystaniem metody
średniej grupowej.
O1 O2 O3 O4 O5
O1 0 4 5 2 5,5
O2 4 0 6 7 2,5
O3 5 6 0 3,5 3
O4 2 7 3,5 0 1,5
O5 5,5 2,5 3 1,5 0
Podział dendogramu
Drzewo połączeń (dendogram) jest dopiero podstawą do wyodrębnienia skupień obiektów podobnych.
Możliwe są różne warianty postępowania, ale zawsze wyodrębnienie skupień następuje przez wykreślenie z
dendrogramu kolejnych gałęzi od najdłuższej rozpoczynając:
1. Ustalamy z góry liczbę skupień 𝑆 którą zamierzamy podzielić i usuwamy 𝑆 − 1 najdłuższych krawędzi
2. Ustalamy bezwzględne przyrosty 𝑑𝑖 − 𝑑𝑖−1 długości kolejnych krawędzi połączeń i usuwamy tą krawędź,
dla której nastąpił największy przyrost i wszystkie krawędzie od niej dłuższe
𝑑𝑖
3. Obliczamy wskaźnik względnego przyrostu długości krawędzi i usuwamy tę krawędź, gdzie ten
𝑑𝑖−1
iloraz był największy i wszystkie krawędzie od nich większe

4. Ustalamy pierwszą krytyczną wartość długości krawędzi na podstawie macierzy odległości 𝐷. Po
ustaleniu wartości granicznej, odrzucamy wszystko co jest od niej większe
5. Inne metody**:
Islam, M.A., Alizadeh, B., Heuvel, E.R., Bruggeman, R., Cahn, W., Haan, L.D., Kahn, R., Meijer, C., Myin-Germeys, I.,
Os, J.V., & Wiersma, D. (2015). A comparison of indices for identifying the number of clusters in hierarchical
clustering: A study on cognition in schizophrenia patients. Communications in Statistics: Case Studies, Data Analysis
and Applications, 1, 113 - 98.
Schemat hierarchicznych procedur podziału
Założenie: dana jest macierz 𝐷 = 𝑑𝑖𝑗 𝑖, 𝑗 = 1, … , 𝑁 odległości między klasyfikowanymi obiektami
𝑂1 , 𝑂2 , … , 𝑂𝑁 .
Wszystkie obiekty stanowią jedno skupienie Ω = {𝑂1 , 𝑂2 , … , 𝑂𝑁 }
Etap I: W każdym istniejącym skupieniu wyszukiwana jest najbardziej zróżnicowana para obiektów
(tyle par, ile na danym etapie jest skupień!). Ustalana jest ta para, której odległość jest największa.
Załóżmy, że jest to para 𝑂𝑝 oraz 𝑂𝑞 ze skupienia Ω
Etap II: Skupienie Ω ulega stopniowemu podziałowi na dwa mniejsze Ω𝑝 oraz Ω𝑞 „skupione” wokół
odpowiednio 𝑂𝑝 oraz 𝑂𝑞 .
Procedura powtarzana jest do rozpadnięcia zbioru Ω na 𝑁 skupień.
Schemat hierarchicznych procedur podziału
Zasady przydziału obiektów ze skupienia 𝛺 do tworzonych, mniejszych skupień:
Wariant I. Metoda najbliższej grupy.

Dla każdego obiektu pozostałego w 𝛺 szukamy obiektu najbardziej odległego od wszystkich obiektów
już przyporządkowanych do dwóch grup na bezpośrednio niższym szczeblu agregacji. Jeżeli obiekt ten
jest najbardziej odległy od obiektu z pierwszej grupy to przydzielamy go do drugiej z grup i usuwamy
z grupy na danym szczeblu agregacji. W sytuacji gdy obiekt jest najbardziej odległy od obiektu z
drugiej grupy, przydzielamy go do pierwszej z grup i usuwamy z grupy na danym szczeblu agregacji
Wariant II. Metoda najbliższego obiektu.

Dla każdego obiektu pozostałego w 𝛺 szukamy obiektu najmniej odległego od wszystkich obiektów
już przydzielonych do grup na bezpośrednio niższych szczeblach agregacji. Obiekt ten przydzielamy
do tej grupy obiektów na bezpośrednio niższym szczeblu agregacji, od której jest najmniej odległy i
usuwamy go z grupy obiektów na danym szczeblu agregacji (metoda najbliższego obiektu).
Przykład 3:
Dana jest macierz odległości między obiektami:

O1 O2 O3 O4 O5 O6 O7 O8
O1 0 1,414 2,693 5,831 6,557 7,517 9,95 11,576
O2 1,414 0 1,803 4,69 5,385 6,442 8,775 10,488
O3 2,693 1,803 0 3,202 4,387 5,025 7,566 9,069
O4 5,831 4,69 3,202 0 2,236 2,121 4,583 6
O5 6,557 5,385 4,387 2,236 0 1,871 3,464 5,385
O6 7,517 6,442 5,025 2,121 1,871 0 2,739 4,062
O7 9,95 8,775 7,566 4,583 3,464 2,739 0 2,236
O8 11,576 10,488 9,069 6 5,385 4,062 2,236 0
Dokonaj podziału obiektów z wykorzystaniem metody podziałowej (metodą najbliższego obiektu).

Metoda k-średnich
• Metoda optymalizacji iteracyjnej, której celem jest „poprawienie wstępnego” podziału (np. na k
skupień) badanego zbioru obiektów z punktu widzenia pewnej zdefiniowanej funkcji-kryterium (np.
odległość od centrów skupień, błąd grupowania czy stosunek zmienności międzygrupowej do
zmienności wewnątrzgrupowej),
• Ustalamy z góry liczbę grup k, maksymalną liczbę iteracji poprawiania dobroci grupowania oraz
wstępne centra skupień.
Metoda k-średnich
Wstępne centra skupień w Statistice:

• Wybierz obserwacje tak, aby zmaksymalizować odległości skupień. Po wybraniu tej opcji, jako wstępne
centra skupień zostaną wzięte obserwacje lub obiekty zgodnie z zasadami maksymalizacji wstępnych
odległości między skupieniami. Procedura ta może jednak prowadzić do utworzenia skupień
składających się z pojedynczych obserwacji, jeśli w danych występują wyraźne przypadki odstające.
• Sortuj odległości i weź obserwacje przy stałym interwale. W przypadku tej opcji w pierwszej kolejności
wszystkie odległości między obiektami zostaną posortowane, a następnie na początkowe centra skupień
zostaną wybrane obiekty przy stałych interwałach.
• Wybierz pierwszych N (N równe liczbie skupień) obserwacji. Jeśli wybierzemy tą opcję, na wstępne
centra skupień zostanie wziętych N (liczba skupień) pierwszych obserwacji. W ten sposób opcja ta
umożliwia pełną kontrolę nad wyborem wstępnej konfiguracji. Jest ona przydatna zwłaszcza wtedy, gdy
mamy pewne oczekiwania a priori co do natury analizowanych skupień. W takim przypadku przypadki,
które mają stać się wyjściowymi centrami skupień, musimy przenieść na początek pliku.
Schemat metody k-średnich (kryterium-odległość od środka
ciężkości)
Ustalamy liczbę skupień k, liczbę iteracji oraz wstępne centra skupień
Obliczamy odległość każdego obiektu od centrów skupień
Każdy obiekt przyporządkowujemy do grupy, dla której jego odległość od centrum skupienia jest najmniejsza
Obliczamy centra skupień nowych grup
Obliczamy odległość każdego obiektu od „nowych” centrów skupień
Każdy obiekt przyporządkowujemy do grupy, dla której jego odległość od centrum skupienia jest najmniejsza
Przeprowadzamy kolejne iteracje aż do momentu gdy w danej iteracji nie nastąpiło przemieszczenie obiektu
lub osiągnięto założoną liczbę iteracji.
Przykład 4:
W poniższej tabeli przedstawiono 4 obiekty, opisane za pomocą dwóch zmiennych
Obiekt X1 X2
A 1 1
B 2 1
C 4 3
D 5 4
Dokonaj podziału obiektów na 2 skupienia wykorzystując metodę k-średnich. Przyjmij, że wstępnymi

centrami skupień są dwa pierwsze obiekty.
EXCEL
Mierniki jakości grupowania
• Cel grupowania: obiekty należące do tej samej grupy powinny być jak najbardziej do siebie podobne
(jak najwyższa homogeniczność grup), a obiekty należące do różnych grup powinny być jak najbardziej
niepodobne (heterogeniczne)
• Mierniki homogeniczności – im mniejsze wartości tych miar tym większe podobieństwo obiektów
wewnątrz grup.
Przykładowy cząstkowy miernik homogeniczności oparty na odległości obiektów w skupieniu od
centrum skupienia:
σ𝑖∈Ω𝑠 𝑑(𝑂𝑖 , 𝑂𝑠 )
𝑑𝑠 =
𝑛𝑠
𝑑 𝑂𝑖 , 𝑂𝑠 − odległość każdego obiektu od centrum skupienia
𝑛𝑠 − liczebność danego skupienia
Przykładowy sumaryczny miernik homogeniczności bazujący na pomiarze odległości obiektów od
centrów skupień:
σ𝑆𝑠=1 𝑑𝑠
𝑑=
𝑆
𝑆 −liczba wyodrębnionych skupień
• Mierniki heterogeniczności grup – im wyższe wartości tych miar tym mniejsze podobieństwo
utworzonych grup.
Przykładowy cząstkowy miernik heterogeniczności oparty na odległości między centrem skupenia
danej grupy od centrów pozostałych grup:
σ𝑆𝑠 ′=1 𝑑(𝑂𝑠 , 𝑂𝑠 ′ )

𝑠 ′ ≠𝑠
𝐷𝑠 =
𝑆−1
𝑑(𝑂𝑠 , 𝑂𝑠 ′ ) − odległość między centrami dwóch wyodrębnionych skupień
Przykładowy sumaryczny miernik heterogeniczności bazujący na pomiarze odległości pomiędzy

centrami skupień obiektów:
σ𝑆𝑠=1 𝐷𝑠
𝐷=
𝑆
• Miernik poprawności grupowania:
𝑑
𝑀𝐽𝐺 =
𝐷
Im niższa wartość tego miernika, tym większa poprawność grupowania

Wykład 3.1. Odległość obiektów jako miara ich zróżnicowania.
Miara odległości między obiektami
Stopień podobieństwa obiektów mierzony jest za pomocą miar odległości.
Miarą odległości między obiektem i-tym a obiektem j-tym nazywamy funkcję d spełniającą warunki:
• dodatniości 𝑑𝑖𝑗 > 0
• symetryczności 𝑑𝑖𝑗 = 𝑑𝑗𝑖
• zwrotności 𝑑𝑖𝑖 = 0
• nierówności trójkąta 𝑑𝑖𝑗 ≤ 𝑑𝑖𝑘 + 𝑑𝑗𝑘
Wzrost wartości miary odległości oznacza zmniejszenie stopnia podobieństwa obiektów ze względu na
charakteryzujące je własności.
Odległości dla wszystkich par badanych obiektów można przedstawić w postaci macierzy:
𝐷 = 𝑑𝑖𝑗
Podstawowe miary odległości
1. Odległość Euklidesa
𝐾
𝑑𝑖𝑗 = ෍ (𝑧𝑖𝑘 − 𝑧𝑗𝑘 )2

𝑘=1
2. Odległość miejska (Manhattan)

𝐾
𝑑𝑖𝑗 = ෍ |𝑧𝑖𝑘 − 𝑧𝑗𝑘 |

𝑘=1
3. Odległość Czybyszewa
𝑑𝑖𝑗 = max |𝑧𝑖𝑘 − 𝑧𝑗𝑘 |

𝑘
4. Odległość Mahalanobisa
𝑇 −1
𝑑𝑖𝑗 = 𝒙𝑖 − 𝒙𝑗 𝑆 𝒙𝑖 − 𝒙𝑗
0,5
𝐾 𝐾
𝑑𝑖𝑗 = ෍ ෍ 𝑠𝑚𝑙 (𝑥𝑖𝑚 − 𝑥𝑗𝑚 )(𝑥𝑖𝑙 − 𝑥𝑗𝑙 )

𝑚=1 𝑙=1
𝑆 −1 - macierz wariancji-kowariancji
𝑠 -element macierz odwrotnej do macierzy kowariancji
Podstawowe miary odległości - przykład
W tabeli przedstawiono dane dotyczące: liczby uczniów i studentów na 1000 ludności 𝑋1 , liczby
odbiorników radiofonicznych na 1000 ludności 𝑋2 oraz liczby odbiorników telewizyjnych na 1000
ludności 𝑋3 na 6 kontynentach świata w 1994 r.
Konstynent 𝑋1 𝑋2 𝑋3
Afryka 171 170 38
Ameryka Północna 231 2013 800
Ameryka Południowa 236 360 166
Azja 179 184 73
Europa 182 736 381
Australia i Oceania 198 990 375
Dane te tworzą macierz:
171 170 38
231 2013 800
236 360 166
𝑋=
179 184 73
182 736 381
198 990 375
Wyznacz macierz odległości między badanymi kontynentami. Wykorzystaj w tym celu trzy miary:
euklidesową, miejską oraz Czybyszewa.
II krok: macierz odległości – miara euklidesowa
Ameryka Ameryka
Afryka Azja Europa Australia
Północna Południowa
Afryka
Ameryka
Północna
Ameryka
Południowa
Azja
Europa
Australia
II krok: macierz odległości – miara miejska
Ameryka Ameryka
Afryka
Ameryka
Północna
Ameryka
Południowa
Azja
Europa
Australia
II krok: macierz odległości – miara Czybyszewa
Ameryka Ameryka
Afryka
Ameryka
Północna
Ameryka
Południowa
Azja
Europa
Australia
Wykład 1 oraz 2. Zjawisko złożone i jego wielowymiarowy opis.
Skale pomiarowe. Metody porządkowania liniowego.
Złożone zjawisko gospodarcze
Zbiór obiektów Ω = 𝑂1 , 𝑂2 , 𝑂3 , … , 𝑂𝑁
Zmienne opisujące te obiekty 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝐾
Poszczególne zmienne mogą być:

• mierzone w różnych skalach
• różnić się charakterem
• wyrażone w różnych jednostkach
• mają różny zakres wartości
Złożone zjawisko gospodarcze - przykłady
Poziom życia mieszkańców Kondycja finansowa przedsiębiorstwa
• Liczba samochodów • Rentowność aktywów

• Sieć wodociągowa • Rentowność sprzedaży
• Wskaźnik bezrobocia • Cykl (zapasów) w dniach

• Liczba osób na izbę
• Wskaźnik płynności
• Spożycie mięsa na osobę • Wskaźnik ogólnego zadłużenia
Skale pomiaru zmiennych
1. Skala nominalna – przyporządkowuje poszczególnym wariantom zmiennej wyłącznie nazwy.

Pozwala na stwierdzenie identyczności/różnic porównywanych obiektów oraz zliczanie obiektów
identycznych/różnych. Przykład: płeć (kobieta, mężczyzna)
2. Skala porządkowa – pozwala dodatkowo na porównywanie wartości zmiennych zaobserwowanych
w obiektach (liniowe porządkowanie obiektów). Nie pozwala na określenie odległości między
obiektami. Umożliwia zliczanie obiektów uporządkowanych Przykład: poziom wykształcenia.
3. Skala przedziałowa – pozwala dodatkowo obliczyć odległości między obiektami, dokonując
pomiaru za pomocą liczb rzeczywistych. Przykład: temperatura ciała.
4. Skala ilorazowa – ma podobny charakter jak skala przedziałowa, z tym że występuje na mniej zero
bezwzględne (zero ogranicza lewostronnie zakres tej skali). Dowolną wartość danego obiektu
można przedstawić jako krotność wartości dla innego obiektu Przykład: wiek czy waga.
Skale pomiaru zmiennych a wykonalność działań
Dopuszczalne operacje
Typ skali
arytmetyczne
Zliczanie zdarzeń (liczba relacji

Nominalna
równości, różności)
Zliczanie zdarzeń (liczba relacji

Porządkowa (rangowa) równości, różności, większości,
mniejszości)
Powyższe oraz dodawanie i

Przedziałowa (interwałowa)
odejmowanie
Powyższe oraz mnożenie i

Ilorazowa (stosunkowa)
dzielenie
Wskazówki dotyczące zmiennych diagnostycznych:
1. Ich wartości nie powinny zależeć od wielkości badanych obiektów – wykorzystywanie

wskaźników natężenia lub struktury.
2. Zmienne powinny silnie różnicować badane obiekty.
3. Zmienne nie powinny być ze sobą silnie skorelowane.

Podział zmiennych ze względu na ich charakter (kierunek
powiązania z poziomem badanego zjawiska)
1. Stymulanty (maksymanty) 𝑋𝑘 – zmienne, których wysokie wartości dla badanych obiektów są

pożądane z punktu widzenia rozpatrywanego zjawiska.
2. Destymulanty (minimanty) 𝑋𝑘𝐷 – zmienne, których wysokie wartości dla badanych obiektów są
niepożądane z punktu widzenia rozpatrywanego zjawiska.
3. Nominanty – 𝑋𝑘𝑁 zmienne, których odchylenia wartości dla badanego obiektu od konkretnej
wartości (nominanta punktowa) lub od przedziału wartości (nominanta przedziałowa) są
niepożądane z punktu widzenia badanego zjawiska.
Etap I. Ujednolicenie charakteru zmiennych – czyli
doprowadzamy zmienne do postaci stymulant
1. Doprowadzenie destymulant do postaci stymulant
a) przekształcenie ilorazowe
1
𝑋𝑘 =
𝑋𝑘𝐷 + 𝑐𝑘
𝑐𝑘 −pewna nieujemna stała
b) przekształcenie różnicowe
𝑋𝑘 = 1 − 𝑋𝑘𝐷
𝑋𝑘 = 100 − 𝑋𝑘𝐷
2. Doprowadzenie nomiananty punktowej do stymulant
1
𝑋𝑘 =
𝑋𝑘𝑁 − 𝑋𝑘0 + 𝑐𝑘
𝑋𝑘𝑁 − zmienna o charakterze nominanty punktowej

𝑋𝑘0 − punktowy poziom normalny
3. Doprowadzenie nomiananty przedziałowej do stymulant
1
1 𝑁 𝑑𝑙𝑎 𝑋𝑘𝑁 < 𝑋𝑘1
𝑋𝑘 − 𝑋𝑘 + 𝑐𝑘
1
𝑋𝑘𝑠 = 𝑑𝑙𝑎 𝑋𝑘1 ≤ 𝑋𝑘𝑁 ≤ 𝑋𝑘2
𝑐𝑘
1
𝑁 2 𝑑𝑙𝑎 𝑋𝑘𝑁 > 𝑋𝑘2
𝑋𝑘1 − dolna wartość przedziału normalnego

𝑋𝑘2 − górna wartość przedziału normalnego
Etap II. Normalizacja zmiennych – czyli ujednolicenie skal,
jednostek i zakresu wartości zmiennych
Polega na wyrażeniu wszystkich zmiennych na jednej umownej jednolitej skali.

Ogólna forma normalizacyjna ma postać:
𝑝
𝑋𝑘 − 𝑎𝑘
𝑍𝑘 =
𝑏𝑘
gdzie:
𝑋𝑘 − zmienna w postaci stymulanty
𝑍𝑘 − zmienna po normalizacji
𝑎𝑘 , 𝑏𝑘 , 𝑝 − parametry normlizacyjne
Etap II. Normalizacja zmiennych – czyli ujednolicenie
Wybrane formuły normalizacyjne:
a) standaryzacja (klasyczna)
𝑋𝑘 − 𝑋𝑘
𝑍𝑘 =
𝑠𝑘
𝑋𝑘 − średnia dla zmiennej K
𝑠𝑘 − odchylenie standardowe dla zmiennej K
b) unitaryzacja
𝑋𝑘 − 𝑋𝑘𝑚𝑖𝑛
𝑍𝑘 = 𝑍𝑘 ∈< 0,1 >
𝑋𝑘𝑚𝑎𝑥 − 𝑋𝑘𝑚𝑖𝑛
𝑋𝑘𝑚𝑎𝑥 , 𝑋𝑘𝑚𝑖𝑛 − wartość maksymalna/minimalna dla zmiennej K

c) przekształcenia ilorazowe
𝑋𝑘
𝑍𝑘 = 𝑚𝑎𝑥 𝑋𝑘 ≥ 0 𝑍𝑘 ∈ (0,1 >
𝑋𝑘
lub
𝑋𝑘
𝑍𝑘 = 𝑋𝑘 > 0 𝑍𝑘 ∈< 1,+∝)
𝑋𝑘𝑚𝑖𝑛

Etap III. Konstrukcja miernika syntetycznego – zmiennej
agregatowej
Miernik syntetyczny – konstruowany jest w celu scharakteryzowania zjawiska złożonego w obiekcie

𝑂𝑖 opisanego z wykorzystaniem 𝐾 oryginalnych zmiennych, za pomocą jednej zmiennej syntetycznej.
Wyróżniamy dwa rodzaje mierników:

a) mierniki bezwzorcowe
b) mierniki wzorcowe
agregatowej
a) miernik bezwzorcowy:
𝑀𝑆𝑖 = ෍ 𝑤𝑘 ∙ 𝑧𝑖𝑘 0 ≤ 𝑤𝑘 ≤ 1 ෍ 𝑤𝑘 = 1
𝑘=1
𝑧𝑖𝑘 − wartość znormalizowanej zmiennej 𝑍𝑘 w i-tym obiekcie

𝑤𝑘 − waga zmiennej 𝑍𝑘
Sposób ustalania wag:

1
• wagi są równe 𝑤𝑘 =
𝐾
• ekspercko
• w oparciu o zróżnicowanie wartości zmiennych (kolejny slajd)
agregatowej
• w oparciu o zróżnicowanie wartości zmiennych - premiowane wysokimi wagami powinny być te

zmienne, które wykazują dużą zmienność
𝑉𝑘 𝑠𝑘
𝑤𝑘 = 𝑉𝑘 =
σ𝑘 𝑉𝑘 𝑋ത𝑘
𝑉𝑘 − współczynnik zmienności dla zmiennej K,

𝑠𝑘 − odchylenie standardowe dla zmiennej K,
𝑋ത𝑘 − średnia dla zmiennej K
Pamiętać: warunek nieujemnych zmiennych diagnostycznych!

agregatowej - podsumowanie
𝑢𝑗𝑒𝑑𝑛𝑜𝑙𝑖𝑐𝑒𝑛𝑖𝑒
𝑋1 𝑋2 𝑋𝐾 𝑐ℎ𝑎𝑟𝑎𝑘𝑡𝑒𝑟𝑢 𝑍1 𝑍2 𝑍𝐾 𝑀𝑆1
𝑂1 𝑂1 𝑎𝑔𝑟𝑒𝑔𝑜𝑤𝑎𝑛𝑖𝑒
𝑂2 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑎𝑐𝑗𝑎 𝑂2
− 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑦𝑧𝑎𝑐𝑗𝑎 𝑤𝑎𝑟𝑡𝑜ś𝑐𝑖 𝑧𝑚𝑖𝑒𝑛𝑛𝑦𝑐ℎ
−𝑢𝑛𝑖𝑡𝑎𝑟𝑦𝑧𝑎𝑐𝑗𝑎 𝑂𝑁 𝑀𝑆𝑁
𝑂𝑁
−𝑓𝑜𝑟𝑚𝑢ł𝑦 𝑖𝑙𝑜𝑟𝑎𝑧𝑜𝑒
Przykład – kondycja finansowa spółek giełdowych
Poniższe dane przedstawiają wartości trzech wskaźników finansowych dla 7 spółek

giełdowych z IV kwartału 2010 r.:
1. Ustal charakter poszczególnych wskaźników (zmiennych) i sprowadź je
wszystkie do postaci stymulant.
2. Znormalizuj wartości poszczególnych zmiennych stosując unitaryzację.
3. Skonstruuj bezwzorcowy miernik syntetyczny. Wykorzystaj dwa warianty wag:
jednakowe oraz ustalone w oparciu o zróżnicowanie wartości zmiennych. Utwórz
na podstawie wartości tych mierników odpowiednie rankingi spółek ze względu
na ich kondycję finansową. Skomentuj uzyskane wyniki.
Wskaźnik
Rotacja zapasów w Stopa zwrotu z
Spółka płynności
dniach aktywów
bieżącej
1,269 3,685 0,042

Ambra SA
0,998 20,376 0,041
Polski Koncern Mięsny Duda SA
2,05 16,881 0,012
Indykpol SA
1,009 6,737 0,008
Graal SA
0,819 9,272 0,023
Kofola SA
2,679 13,099 0,177
WAWEL SA
1,319 54,162 0,041
Mostostal W-wa
Nominanta c=0,5
Destymulanta Stymulanta
Charakter
<1,5 – 2>
Doprowadzenie nomiananty przedziałowej do stymulant
1
1 𝑁 𝑑𝑙𝑎 𝑋𝑘𝑁 < 𝑋𝑘1
1
𝑋𝑘𝑠 = 𝑑𝑙𝑎 𝑋𝑘1 ≤ 𝑋𝑘𝑁 ≤ 𝑋𝑘2
𝑐𝑘
1
𝑁 2 𝑑𝑙𝑎 𝑋𝑘𝑁 > 𝑋𝑘2
𝑋𝑘1 − dolna wartość przedziału normalnego

𝑋𝑘2 − górna wartość przedziału normalnego
Doprowadzenie nomiananty przedziałowej do stymulant
1
𝑁 𝑑𝑙𝑎 𝑋𝑘𝑁 < 1,5
1,5 − 𝑋𝑘 + 0,5
1
𝑋𝑘𝑠 = 𝑑𝑙𝑎 1,5 ≤ 𝑋𝑘𝑁 ≤ 2,0
0,5
1
𝑁 𝑑𝑙𝑎 𝑋𝑘𝑁 > 2,0
𝑋𝑘 − 2,0 + 0,5
𝑋𝑘1 = 1,5 − dolna wartość przedziału normalnego

𝑋𝑘2 = 2,0 − górna wartość przedziału normalnego
=JEŻELI(C27<1,5;1/(1,5-C27+0,5);JEŻELI(2<C27;1/(C27-2+0,5);1/0,5))
=JEŻELI(C27<1,5;1/(1,5-C27+0,5);JEŻELI(2<C27;1/(C27-2+0,5);1/0,5))
C27 – adres przekształcanej wartości nominanty
Etap I: Ujednolicenie charakteru zmiennych do stymulant
Spółka Wskaźnik płynności bieżącej Rotacja zapasów w dniach Stopa zwrotu z aktywów
Ambra SA 1,368 0,271 0,042

Polski Koncern Mięsny Duda SA 0,998 0,049 0,041
Indykpol SA 1,818 0,059 0,012
Graal SA 1,009 0,148 0,008
Kofola SA 0,847 0,108 0,023
WAWEL SA 0,848 0,076 0,177
Mostostal W-wa 1,468 0,018 0,041
Etap II: Dokonaj normalizacji zmiennych za pomocą formuły unitaryzacji
Unitaryzacja
𝑋𝑘 − 𝑋𝑘𝑚𝑖𝑛
𝑍𝑘 = 𝑍𝑘 ∈< 0,1 >
𝑋𝑘𝑚𝑎𝑥 − 𝑋𝑘𝑚𝑖𝑛

Etap II: Dokonaj normalizacji zmiennych za pomocą formuły unitaryzacji
Wskaźnik Rotacja
Stopa zwrotu z
Spółka płynności zapasów w
aktywów
bieżącej dniach
Ambra SA 0,537 1,000 0,201

Indykpol SA 1,000 0,161 0,024
Graal SA 0,167 0,514 0,000
Kofola SA 0,000 0,353 0,089
WAWEL SA 0,001 0,229 1,000
Mostostal W-wa 0,640 0,000 0,195
Etap III: Oblicz wartość miernika bezwzorcowego
Miejsce Miejsce
Miernik bezwzorcowy Miernik bezwzorcowy rankingowe rankingowe
Spółka
(jednakowe wagi) (zróżnicowane wagi) (jednakowe (różnicowane
wagi) wagi)
Ambra SA 0,579 0,555 1 1

Polski Koncern Mięsny Duda SA 0,157 0,161 6 7
Indykpol SA 0,395 0,248 3 3
Graal SA 0,227 0,219 5 4
Kofola SA 0,147 0,170 7 6
WAWEL SA 0,41 0,538 2 2
Mostostal W-wa 0,278 0,202 4 5
agregatowej
b) miernik wzorcowy:
Wzorzec – obiekt opisany za pomocą najwyższych wartości poszczególnych zmiennych
𝑧0 = 𝑧01 , 𝑧02 , … , 𝑧0𝐾 𝑧0𝑘 = max(𝑧𝑖𝑘 )

𝑖
Odległość każdego obiektu od wzorca:
𝐾
1
𝑑𝑖0 = ෍ ( 𝑧𝑖𝑘 − 𝑧0𝑘 )2
𝐾
𝑘=1
Miernik wzorcowy:
𝑑𝑖0
𝑀𝑆𝑊𝑖 = 1 −
𝑑ҧ0 + 2𝑠𝑑
𝑑ҧ0 − średnia odległość od wzorca,
𝑠𝑑 − odchylenie standardowe odległości od wzorca
Poniżej znajdują się zmienne po unitaryzacji z poprzedniego przykładu.

Skonstruuj miernik wzorcowy opisujący kondycję finansową spółek. Utwórz na
podstawie wartości tego miernika odpowiedni ranking spółek ze względu na ich
kondycję finansową. Skomentuj uzyskane wyniki.
Wskaźnik płynności Stopa zwrotu z

Spółka Rotacja zapasów w dniach
bieżącej aktywów
Ambra SA 0,537 1,000 0,201

Indykpol SA 1,000 0,161 0,024
Graal SA 0,167 0,514 0,000
Kofola SA 0,000 0,353 0,089
WAWEL SA 0,001 0,229 1,000
Mostostal W-wa 0,640 0,000 0,195
Oblicz wartość miernika wzorcowego dla badanych spółek
Miejsce
Wskaźnik Rotacja
Stopa zwrotu z Miernik rankingowe
Spółka płynności zapasów w di0
aktywów wzorcowy (miernik
bieżącej dniach
wzorcowy)
Ambra SA 0,215 0 0,638 0,533 0,453 1

Polski Koncern Mięsny Duda SA 0,713 0,773 0,648 0,843 0,135 6
Indykpol SA 0 0,704 0,953 0,743 0,238 3
Graal SA 0,694 0,236 1 0,802 0,178 5
Kofola SA 1 0,418 0,83 0,866 0,112 7
WAWEL SA 0,997 0,595 0 0,728 0,253 2
Mostostal W-wa 0,13 1 0,648 0,77 0,21 4
Miernik TOPSIS – oryginalna koncepcja
Procedura postępowania:
1) Normalizacja zmiennych
𝑥𝑖𝑘
𝑧𝑖𝑘 =
σ𝑁 2
𝑖=1 𝑥𝑖𝑘
𝑥𝑖𝑘 – obserwacja k-tej zmiennej dla obiektu

2) Wyznaczenie współrzędnych
a) wzorca
+ 𝑚𝑎𝑥𝑖 𝑧𝑖𝑘 dla zmiennych stymulant

𝑧𝑜𝑘 =ቊ
𝑚𝑖𝑛𝑖 𝑧𝑖𝑘 dla zmiennych destymulant
a) antywzorca
− 𝑚𝑖𝑛𝑖 𝑧𝑖𝑘 dla zmiennych stymulant

𝑧𝑜𝑘 =ቊ
𝑚𝑎𝑥𝑖 𝑧𝑖𝑘 dla zmiennych destymulant
Miernik TOPSIS – oryginalna koncepcja
3) Wyznaczenie odległości każdego obiektu od:

a) wzorca
𝐾
+ + 2
𝑑𝑖𝑜 = ෍ 𝑧𝑖𝑘 − 𝑧𝑜𝑘
𝑘=1
a) antywzorca
𝐾
− − 2
𝑘=1
4) Wyznaczenie wartości miernika syntetycznego:
−
𝑑𝑖𝑜
𝑀𝑆𝑖 = + −
𝑑𝑖𝑜 + 𝑑𝑖𝑜
Miernik TOPSIS – modyfikacja
1) Doprowadzamy wszystkie zmienne do postaci stymulant

2) „Normujemy” wartości zmiennych
𝑥𝑖𝑘
𝑧𝑖𝑘 =
σ𝑁 2
𝑖=1 𝑥𝑖𝑘
𝑥𝑖𝑘 – obserwacja k-tej zmiennej dla obiektu i
3) Wyznaczamy wzorzec i antywzorzec:

+
𝑧𝑜𝑘 = 𝑚𝑎𝑥𝑖 (𝑧𝑖𝑘 ) wzorzec
oraz
−
𝑧𝑜𝑘 = 𝑚𝑖𝑛𝑖 (𝑧𝑖𝑘 ) antywzorzec
Miernik TOPSIS – modyfikacja
4) Wyznaczenie odległości każdego obiektu od:

a) wzorca
𝐾
+ + 2
𝑘=1
a) antywzorca
𝐾
− − 2
𝑘=1
5) Wyznaczenie wartości miernika syntetycznego:
−
𝑑𝑖𝑜
𝑀𝑆𝑖 = + −
𝑑𝑖𝑜 + 𝑑𝑖𝑜
Poniżej znajdują się zmienne po ujednoliceniu charakteru z poprzedniego przykładu.

Skonstruuj miernik TOPSIS opisujący kondycję finansową spółek. Utwórz na
podstawie wartości tego miernika odpowiedni ranking spółek ze względu na ich
kondycję finansową. Skomentuj uzyskane wyniki
Wskaźnik płynności Stopa zwrotu z

Spółka Rotacja zapasów w dniach
bieżącej aktywów
Ambra SA 1,368 0,271 0,042

Indykpol SA 1,818 0,059 0,012
Graal SA 1,009 0,148 0,008
Kofola SA 0,847 0,108 0,023
WAWEL SA 0,848 0,076 0,177
Mostostal W-wa 1,468 0,018 0,041
Dane po normalizacji (za pomocą formuły przeznaczonej dla TOPSIS)
Wskaźnik Rotacja
Stopa zwrotu z
Spółka płynności zapasów w
aktywów
bieżącej dniach
Ambra SA 0,417 0,785 0,218

Indykpol SA 0,554 0,171 0,062
Graal SA 0,307 0,430 0,041
Kofola SA 0,258 0,312 0,119
WAWEL SA 0,258 0,221 0,918
Mostostal W-wa 0,447 0,053 0,213
Oblicz wartość miernika TOPSIS dla badanych spółek
Miejsce
rankingowe
Spółka di0+ di0- Miernik TOPSIS
(miernik
TOPSIS)
Ambra SA 0,713 0,769 0,519 2

Polski Koncern Mięsny Duda SA 0,987 0,198 0,167 7
Indykpol SA 1,053 0,319 0,233 4
Graal SA 0,977 0,379 0,280 3
Kofola SA 0,974 0,270 0,217 5
WAWEL SA 0,637 0,892 0,583 1
Mostostal W-wa 1,022 0,255 0,200 6
Porównanie rankingów
Miejsce rankingowe Miejsce rankingowe Miejsce rankingowe Miejsce rankingowe

(jednakowe wagi) (różnicowane wagi) (miernik wzorcowy) (miernik TOPSIS)
1 1 1 2
6 7 6 7
3 3 3 4
5 4 5 3
7 6 7 5
2 2 2 1
4 5 4 6
Porównanie rankingów (współczynniki korelacji Spearmana)
Bezworcowy Bezwzorcowy
Miernik Wzorcowy TOPSIS
(jednakowe wagi) (różne wagi)
Bezworcowy (jednakowe wagi) 1,000000 0,928571 1,000000 0,714286
Bezwzorcowy (różne wagi) 0,928571 1,000000 0,928571 0,892857
Wzorcowy 1,000000 0,928571 1,000000 0,714286
TOPSIS 0,714286 0,892857 0,714286 1,000000

TOPSIS – modyfikacje i zastosowania
• Wachowicz, T., Roszkowska, E., 2013, Metoda TOPSIS i jej rozszerzenia – studium metodologiczne, In book:
Analiza wielokryterialna. Wybrane zagadnienia, Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach,
red. Tadeusz Trzaskalik
Miernik syntetyczny – podział obiektów na grupy
Na podstawie wartości miernika syntetycznego oprócz ustalenia porządku (rankingu obiektów) ze względu na dane
zjawisko możemy także dokonać podziału na grupy o różnym poziomie danego zjawiska.
Podział na 3 grupy
• Bardzo dobre 𝑀𝑆𝑖 > 𝑀𝑆 + 𝑠𝑀𝑆
• Przeciętne 𝑀𝑆 − 𝑠𝑀𝑆 ≤ 𝑀𝑆𝑖 ≤ 𝑀𝑆 + 𝑠𝑀𝑆
• Słabe 𝑀𝑆𝑖 < 𝑀𝑆 − 𝑠𝑀𝑆
Podział na 4 grupy
• Bardzo dobre 𝑀𝑆𝑖 > 𝑀𝑆 + 𝑠𝑀𝑆
• Dobre 𝑀𝑆 < 𝑀𝑆𝑖 ≤ 𝑀𝑆 + 𝑠𝑀𝑆
• Przeciętne 𝑀𝑆 − 𝑠𝑀𝑆 < 𝑀𝑆𝑖 ≤ 𝑀𝑆
• Słabe 𝑀𝑆𝑖 ≤ 𝑀𝑆 − 𝑠𝑀𝑆

Wykład 13. Analiza Głównych Składowych

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Wykład 13. Analiza Głównych Składowych

Uploaded by

Copyright:

Available Formats

Wykład 13.

Analiza głównych składowych

• redukcja pierwotnego zbioru zmiennych opisujących zjawisko

Obliczenie macierzy wariancji-

Wybór głównych składowych

Przekształcenie danych w nową

• Przekształcenie układu badanych (obserwowalnych) zmiennych (cech) X w zbiór nowych

Wariancja zmiennej będącej kombinacją liniową innych zmiennych:

Wariancję zmiennej 𝑌 można wówczas zapisać w notacji macierzowej jako:

Model analizy można zapisać w następujący sposób:

𝑆 2 𝑌1 = ෍ ෍ 𝑤𝑗1 𝑤𝑘1 𝑠𝑗𝑘 = 𝒘′𝟏 𝑺𝒘𝟏

gdzie 𝑺 jest macierzą kowariancji. Dodatkowo spełniony jest warunek 𝒘′𝟏 𝒘𝟏 = 𝟏

𝑆 2 𝑌1 = ෍ ෍ 𝑤𝑗1 𝑤𝑘1 𝑠𝑗𝑘 = 𝒘′𝟏 𝑺𝒘𝟏

• Wykorzystanie metody Langrange’a

• Funkcja pomocnicza: 𝜙 = 1 − 𝒘′𝟏 𝒘𝟏 = 0

• wariancję głównej składowej 𝑌𝑙 daną wyrażeniem 𝑆 2 𝑌𝑙 = 𝒘′𝒍 𝑺𝒘𝒍 możemy zapisać

• całkowita wariancja układu składowych 𝑌1 , 𝑌2 , … , 𝑌𝑝 jest równa:

• ważność 𝑙 −tej głównej składowej mierzymy ilorazem:

• można wykazać, że współczynnik korelacji 𝑗 − tej zmiennej z 𝑙 − tą składową jest

• kryterium wystarczającej proporcji - bazuje na wartościach własnych macierzy S, które

• Kryterium Kaisera - metoda "wartości własnej (lambda) większej od jedności" - jest

• Hipoteza o średniej (półsilnej) efektywności przyjmuje, że ceny rynkowe instrumentów finansowych

1) Identyfikacja zdarzenia oraz zdefiniowanie jego okna,

𝑅෠𝑖,𝑡 = 𝛼𝑖 + 𝑅𝑓,𝑡 + 𝛽𝑖 𝑅𝑚,𝑡 − 𝑅𝑓,𝑡

II. Model rynkowy (ang. market model – MM)

III. Model średniej (ang. mean adjusted returns model – MAR)

Hipoteza zerowa: zdarzenie nie ma wpływu na stopy zwrotu

Test dla średnich zwyżkowych (anormalnych) stóp zwrotu

Test dla średnich zwyżkowych (anormalnych) stóp zwrotu

- Założenie o symetrii rozkładu anormalnych stóp zwrotu

Jest oszacowaniem odsetka pozytywnych ponadprzeciętnych stóp zwrotu w oknie estymacyjnym.

Statystyka ma asymptotycznie rozkład N(0,1)

Terminy publikacji raportów kwartalnych:

Raport półroczny – nie później niż 2 miesiące po zakończeniu okresu

• 30 spółek notowanych na GPW (po 10 z indeksów WIG20, mWIG40, sWIG80)

Dzień 𝑨𝑹 𝑪𝑨𝑹 statystyka t1 statystyka t2 statystyka t3 statystyka t4

-5 0,01% 0,01% 0,0403 0,0231 -0,7814 -0,7054

Dzień 𝑨𝑹 𝑪𝑨𝑹 statystyka t1 statystyka t2 statystyka t3 statystyka t4

-5 0,04% 0,04% 0,2518 0,1335 -0,4344 -0,4246

Dzień 𝑨𝑹 𝑪𝑨𝑹 statystyka t1 statystyka t2 statystyka t3 statystyka t4

-5 0,23% 0,23% 0,5744 0,4201 1,2706 1,1383

Dzień 𝑨𝑹 𝑪𝑨𝑹 statystyka t1 statystyka t2 statystyka t3 statystyka t4

-5 -0,26% -0,22% -1,6653 -0,4490 -2,1764 -1,8659

Pakiety w R: Synth, augsynth

• dla każdej jednostki 𝑗 oraz okresu 𝑡 można zaobserwować wynik 𝑌𝑗𝑡

obejmować wartości wyniku sprzed interwencji 𝑌𝑗𝑡

• macierz 𝑿0 = 𝑋2 … 𝑋𝐽+1 o wymiarach (𝑘𝑥𝐽) zawiera wartości predyktorów dla 𝐽 jednostek

𝜏Ƹ1𝑡 = 𝑌1𝑡 − 𝑌෠1𝑡

Przyjmuje się że wagi spełniają założenia 𝑤𝑗 ≥ 0 𝑗 = 2, , … 𝐽 oraz 𝑤2 + ⋯ + 𝑤𝐽+1 = 1.

𝑽 to macierz diagonalna, z elementami 𝑣1 , … 𝑣𝑘 , które odzwierciedlają ważność każdej ze zmiennych

𝑎𝑟𝑔min 𝒁𝟏 − 𝒁𝟎 𝑾∗ (𝑽) ′ 𝒁𝟏 − 𝒁𝟎 𝑾∗(𝑽) (5)

Dolnośląskie Kujawsko-pomorskie Łódzkie Lubelskie

• 27 luty – województwo warmińsko-mazurskie – zamknięcie hoteli, galerii handlowych, kin, teatrów,

27. II 13.III 15.III 20.III

• Jednostka poddana interwencji: województwo warmińsko-mazurskie, pula dawców: pozostałe

• Wynik: skumulowana liczba nowych przypadków

Skumulowana liczba przypadków dzień przed obostrzeniami 8944,0 6808,4 8908,2

Skumulowana liczba przypadków dzień przed obostrzeniami 0,624

Skumulowana liczba przypadków 7 dni przed obostrzeniami 0,195

Średnia dzienna liczba zachorowań w ciągu 7 dni 0,178

Udział osób młodych 0,004

Liczba lekarzy na 10 tys ludności 0,000

Liczba aptek na 10 tys ludności 0,000