You are on page 1of 401

Statistická analýza dat: Přednáška 2

Jindřich Špička

Příprava statistického šetření, techniky stanovení


minimálního potřebného rozsahu výběrových souborů.
Úvod do explorační analýzy.

1
Program přednášky 2
1. Připomenutí principů testování statistických hypotéz. Chyba I.
a II. druhu.
2. Techniky stanovení minimálního potřebného rozsahu
výběrových souborů.
a. Design kvantitativního výzkumu.
b. Určení minimální velikosti vzorku.
c. Reprezentativnost vzorku z hlediska struktury populace.
3. (Explorační analýza - program 1. cvičení).
a. Explorační versus deskriptivní a konfirmační statistické metody.
b. Základy práce se SAS Studio budou probrány na 1. cvičení.

2
Doporučené zdroje k této přednášce
› Skripta Statistické metody II – kap. 2 (Dotazníkové průzkumy a
jejich zpracování).
› Hypotheses & Hypothesis tests – YouTube
› p-Value (Statistics made simple) - YouTube
› Type I error vs Type II error – YouTube
› Statistical Power, Clearly Explained!!! - YouTube

3
1. Testování statistických hypotéz
› Hypotézu je vhodné formulovat, pokud:
– Pro výzkumnou otázku je možná predikce, co se stane (hypotéza je
předpokládaná odpověď na výzkumnou otázku).
– Pro predikci by mělo existovat její zdůvodnění (vysvětlení podle teorie).

› Každá hypotéza musí být operacionalizovaná, tj. musíme vědět,


co a jak budeme měřit a testovat.
– Volba vhodných ukazatelů a způsobu, jak je změřit (kvantifikovat).

4
1. Testování statistických hypotéz – úvod
› Pracujeme s náhodným výběrem.
› Zajímá nás, zda je možné věřit tomu, že velikost efektu je
prokazatelná v základním souboru.
› Nulová hypotéza = testovaná statistická hypotéza (H0), nulový efekt
– Předpokládáme, že platí, pokud nemáme k dispozici dostatečný statistický
důkaz její neplatnosti.
– Př: H0: μ = 7
› Alternativní hypotéza = popírá platnost nulové hypotézy (HA)
– Oboustranná alternativa – př.: HA: μ ≠ 7
– Pravostranná alternativa – př.: HA: μ > 7
– Levostranná alternativa – př.: HA: μ < 7

5
1. Testování statistických hypotéz – princip
Obdobou testování statistických hypotéz je použití testu na Covid-19.
Nulová hypotéza H0: Nejsem infikovaný virem SARS-CoV-2.
Alternativní hypotéza HA: Jsem infikovaný virem SARS-CoV-2.

Získání vzorku Testování

Pozitivní = zamítám H0

Negativní = nezamítám H0

6
1. Testování statistických hypotéz – chyby v testu
› Test není 100% spolehlivý, protože nemáme k dispozici úplnou
informaci o celém základním souboru (máme jen vzorek).
› Proto rozhodnutí doporučené testem může být v rozporu s realitou.
› Test tedy může:
– doporučit zamítnutí nulové hypotézy, zatímco tato hypotéza v reálu platí (chyba
I. druhu) – test je falešně pozitivní (a zbytečně jste zůstali doma☺)

– může doporučit nezamítnutí nulové hypotézy, která ve skutečnosti neplatí


(chyba II. druhu) – test je falešně negativní (a můžete na veřejnosti
nevědomky nakazit další lidi )

7
1. Testování statistických hypotéz – chyby v testu
› Nulová hypotéza H0: Nejste v jiném stavu.

8
http://flowingdata.com/wp-content/uploads/2014/05/Type-I-and-II-errors1-625x468.jpg
1. Testování statistických hypotéz – chyby v testu
H0 ve skutečnosti
Platí Neplatí

Platí Činíme správné rozhodnutí Chyba II. druhu


(s pravděpodobností 1 – α). (s pravděpodobností β)
HLADINA VÝZNAMNOSTI
H0 podle testu

Test chybně nezamítne H0.


(Falešná negativita)
Neplatí Chyba I. druhu Činíme správné rozhodnutí
(s pravděpodobností α) (s pravděpodobností 1 – β).
SÍLA TESTU
Test chybně zamítne H0.
(Falešná pozitivita)

Nastavení přípustných chyb I. a II. druhu je nezbytný krok při návrhu výzkum (apriori). 9
2a. Design kvantitativního výzkumu
› Výzkumníka obvykle nezajímá nulová hypotéza. Zajímavější je
najít rozdíl nebo závislost (alternativní hypotéza).
› Studie, která nevede k dostatečně přesným odhadům nebo
nemá sílu zamítnout nulovou hypotézu je ztrátou času a peněz.
› Snažíme se navrhnout takový rozsah studie (vzorku), který by
minimalizoval chyby I. druhu (α) a II. druhu (β).

› Při analýze získaných dat již rozsah výběru nemůžeme měnit a


nemáme chyby I. a II. druhu pod kontrolou.

10
2a. Design kvantitativního výzkumu

Hladina
Velikost vzorku (n)
významnosti (α)

Velikost a směr
Síla testu (1 - β)
účinku

Pro pravděpodobnostní výběry obecně platí, že čím větší je výběr, tím nižší je pravděpodobnost statistické
chyby II. druhu (β) a vyšší síla testu (1-β).

Při větší velikosti vzorku je dosažení statistické významnosti (p versus α) pravděpodobnější. To znamená,
že s rostoucí velikostí vzorku se zvyšuje schopnost detekovat i menší efekty jako statisticky významné.
11
2a. Design kvantitativního výzkumu

(Soukup, Kočvarová, 2016)

Doporučené míry návratnosti (měřené poměrem jednotek v našem datovém souboru ku počtu
původně vybraných jednotek) se v literatuře liší, nicméně běžně se pohybují okolo 60 %.

12
2a. Design kvantitativního výzkumu – příklady
náhodných výběrových postupů
PROSTÝ NÁHODNÝ VÝBĚR
Každému jedinci přiřadíme číslo. Z těchto
čísel pak náhodně "losujeme" potřebný
počet respondentů.
Lze použít generátor náhodných čísel (v
Excelu).
Výhody:
› Plně náhodné, každý má stejnou šanci se
do výběru dostat.
Nevýhody:
› Je-li výběrový soubor malý, je možné, že
se zástupci některých skupin zaměstnanců
do výběru vůbec nedostanou.

13
2a. Design kvantitativního výzkumu – příklady
náhodných výběrových postupů
STRATIFIKOVANÝ NÁHODNÝ VÝBĚR
Strata = homogenní skupiny dle určitého kritéria,
např. oddělení, typ školy (ale též počet let ve
firmě, pohlaví, manažerská pozice atd.)
› V rámci strat vybíráme respondenty náhodně.

Výhody:
› Máme větší jistotu, že výběr bude odpovídat
rozložení základního souboru dle stanovených
kritérií.
› Vhodné při velké heterogenitě základního
souboru.
Nevýhody:
› Potřebujeme navíc znát spolehlivé údaje, dle
kterých do strat vybíráme.

14
2a. Design kvantitativního výzkumu – příklady
náhodných výběrových postupů
SKUPINOVÝ VÝBĚR (CLUSTER SAMPLING)
› Místo toho, abychom volili jednotlivce,
vybereme určitou skupinu (cluster, trs
jedinců).
› Z výběrového rámce (populace)
nebudeme vybírat náhodným
způsobem jednotlivce, ale určitá
seskupení (clustery).
› Vybíráme všechny jedince v clusteru.
› Výhodné, pokud nemáme úplné
informace o populaci.

15
2a. Design kvantitativního výzkumu – příklady
NEnáhodných výběrových postupů
› Tazatel dostane úkol nalézt respondenty, kteří ve svém souhrnu odpovídají
určeným kvótám.
– např. z 10 respondentů: 5 mužů a 5 žen; 3 základní vzdělání, 5 maturita, 2 VŠ; 4 do 30
let, 4 do 55 let, 2 nad 55 let.
› Není vědecky podložená metoda.
› Má dobrý smysl, jsou-li výzkumné otázky silně korelované se zvolenými
sociodemografickými znaky.
› Chyby lze odhadovat pouze empiricky a zkušenostně.
› Používá se ve výzkumu veřejného mínění a ve výzkumu trhu.
› Nepoužívá se pro výzkum ve vědě a ve vládních projektech.

16
VELIKOST VZORKU

17
2b. Určení minimální velikosti vzorku
› V zásadě existují dva rozšířenější přístupy pro stanovení velikosti
výzkumného souboru:

a) Přístup založený na maximální požadované šířce intervalu


spolehlivosti.
b) Přístup založený na minimální požadované síle testu.
c) Přístup založený na doporučeních (rules of thumb).

18
Stanovení velikosti výběru s
ohledem interval spolehlivosti

19
2b. Určení minimální velikosti vzorku – interval
spolehlivosti
› Přístup vychází z toho, že analytik dopředu opět ví, jakou použije
analytickou techniku a zároveň si stanoví maximální
akceptovanou šíři intervalu spolehlivosti.
ZOPAKUJTE SI INTERVALOVÉ
Confidence Interval [Simply explained] - YouTube
ODHADY

𝑃∙𝑄 50∙50
› Prostý náhodný výběr: 𝑛 = 1,96 2 … 1,962 = 384.
𝑆𝐸 2 52

P = procentuální proporce, ve které se sledovaný znak v populaci vyskytuje.


Q = procentuální proporce, ve které se sledovaný znak nevyskytuje (Q = 100 – P).
SE = tolerovaná výběrová chyba odhadu (uvádí se v %, standardně se počítá s hodnotou 5 nebo
nižší).
Pro stejnou přesnost výsledků potřebujeme stejně velký výběr bez ohledu na velikost cílové
20
populace.
2b. Určení minimální velikosti vzorku – interval
spolehlivosti
› Online kalkulačky

http://www.raosoft.com/samplesize.html

https://www.qualtrics.com/blog/calculating-sample-size/

21
Stanovení velikosti výběru s
ohledem na sílu testu

22
2b. Určení minimální velikosti vzorku – síla testu

› Chyba II. druhu (β) = pravděpodobnost nezamítnutí nulové


hypotézy, která ve skutečnosti neplatí (test je falešně negativní)
› Síla testu (1 – β) = pravděpodobnost, že přijmu alternativní
hypotézu, za předpokladu, že tato hypotéza v populaci platí
(činím správné rozhodnutí)
SÍLA TESTU JE TEDY SCHOPNOST
TESTU DETEKOVAT ROZDÍLY ČI
SOUVISLOSTI

POWER ANALÝZA
SAMPLE SIZE ANALÝZA
23
2b. Určení minimální velikosti vzorku – síla testu

› Jacob Cohen doporučil, aby síla testu byla min. 0,8 (tj. při
opakováních výzkumu a neplatnosti nulové hypotézy by došlo v
80 % replikací k zamítnutí nulové hypotézy a nalezení
očekávaných rozdílů).

› Jde o jistý kompromis, někdy se hovoří o pravidlu 1:4 (pro α =


0,05 je β = 4*α = 0,2 a síla testu je 0,8=1-0,2).

Cohen, J. 1988. Statistical Power Analysis for the Behavioral Sciences (2nd Edition). Routledge.

24
2b. Určení minimální velikosti vzorku – síla testu
1. Stanovíme si minimální
velikost pro sílu
statistického testu[1]
(Cohen doporučoval
0,8)
2. Odhadneme, jaké
výsledky získáme.
3. Z těchto veličin buď
skrze speciální tabulky
(grafy) nebo skrze
software zjistíme
minimální velikost
Pokud očekávám korelaci o hodnotě cca 0,2, pak pro dosažení síly
výzkumného souboru. testu o hodnotě 0,8 a vyšší potřebuji zhruba 200 výzkumných
jednotek. Pokud očekávám korelaci vyšší (v našem grafu o hodnotě
0,4) je potřeba výrazně méně výzkumných jednotek (cca 45).

25
2b. Určení minimální velikosti vzorku – síla testu

› Záleží na:
– velikosti souboru - větší velikost, větší síla
– velikosti efektu (rozdíl, souvislost) - větší velikost, větší síla
– požadovaném α – nižší Alfa znamená nižší sílu testu (typicky volíme
0,05)

› KLÍČOVÉ SDĚLENÍ: Pro stanovení velikosti souboru


potřebuji znát požadované α, požadovanou sílu testu (1-
β) a potřebuji odhad efektu.

26
2b. Určení minimální velikosti vzorku – síla testu

› Míry věcné významnosti (výběr)


– T-testy: Cohenovo d
› 0,2-0,5 malý efekt, 0,5-0,8 střední efekt, 0,8 a vyšší znamená velký efekt
› malý (0,2), střední (0,5) a velký efekt (0,8)
– Korelace: korelační koeficient
› malý (0,1), střední (0,3) a velký efekt (0,5)
– Regresní analýza: odvozená z indexu determinace R2 a označovaná jako
f2
› malý (0,02), střední (0,15) a velký efekt (0,35)
– ANOVA: odvozená z Eta2 a označovaná jako f2
› malý (0,02), střední (0,15) a velký efekt (0,35)

27
2b. Určení minimální velikosti vzorku – síla testu
(ukázky v SAS Studio)

28
2b. Určení minimální velikosti vzorku – síla testu

› Online kalkulačka

https://select-statistics.co.uk/calculators/

29
Stanovení velikosti výběru podle
doporučení

30
2b. Určení minimální velikosti vzorku – doporučení
› Za minimální velikost výběru vhodného pro kvantitativně orientovaný
výzkum bývá považováno 30 jednotek, avšak pouze v případě, že tento
soubor neplánujeme dělit pro účely vztahové analýzy na podskupiny (Gay
et al., 2014, s. 139).
› Soukup a Rabušic (2007, s. 380, 385) uvádějí jako minimum 30–50
jednotek, pro větší kvalitu však 80–100.
› Pro regresní analýzu se užívá pravidlo, které vychází z počtu použitých
proměnných, resp. počtu odhadovaných koeficientů. Počet jednotek
výzkumu (respondentů) = 10násobek počtu odhadovaných parametrů (+
konstanta)
– Příklad: odhadujeme devět regresních koeficientů a jednu konstantu, výběr by tedy měl mít
minimálně (9 + 1) * 10 = 100 jednotek.

Gay, L., Mills, G. E., & Airasian, P. (2014). Educational research: Competencies for analysis and applications. Harlow: Pearson Education.
Soukup, P., & Rabušic, L. (2007). Několik poznámek k jedné obsesi českých sociálních věd – statistické významnosti. Sociologický časopis/Czech Sociological
Review, 43(2), 379–395. 31
STRUKTURA VZORKU

32
2c. Reprezentativnost vzorku z hlediska struktury
populace
› Chí-kvadrát test dobré shody

› Výsledek porovnáme s tabulkami chí-kvadrát rozdělení (df =


počet kategorií – 1; α).

33
2c. Reprezentativnost vzorku z hlediska struktury
populace

Χ2 = (9-21)2 / 9 + (25-32) 2 / 25 + (34-27) 2 / 34 + (32-20) 2 / 32 = 23,9

Χ2 (df = 3; p = 0,05) = 7,81 => VS není reprezentativní


Vhodným řešením je například stanovení post-stratifikačních vah pro každou kategorii
34
(ale to už je jiná kapitola).
Statistická analýza dat: Přednáška 3
Jindřich Špička

Analýza kontingenčních tabulek

1
Program přednášky 3
1. Rozdíl mezi parametrickými a neparametrickými testy.
2. Úkoly analýzy kategorizovaných dat.
3. Základní pojmy analýzy kategorizovaných dat.
4. Rozdíl mezi komparačními a asociačními tabulkami.
5. Analýza čtyřpolní tabulky (2x2).
6. Chí-kvadrát test.
7. Speciální testy.

2
Doporučené zdroje pro tuto přednášku
› Statistické metody II – kap. 1 Analýza závislosti kvalitativních
znaků.
› Chi-Square Test [Simply explained] - YouTube

3
Parametrické a neparametrické testy
PARAMETRICKÉ TESTY NEPARAMETRICKÉ TESTY
› Založeny na určitých předpokladech › Robustní testy, které nepředpokládají
týkajících se rozdělení dat, nejčastěji žádné specifické rozdělení dat nebo
předpokladu, že data pocházejí z jsou méně náročné na předpoklady
určitého známého ohledně rozdělení. Jsou proto vhodné
pravděpodobnostního rozdělení, jako pro data, která nemají normální
je normální rozdělení. rozdělení nebo mají jiné narušení
parametrických předpokladů.
› Testy jsou citlivější a mohou
poskytnout větší sílu detekce rozdílů › Mají obecně nižší sílu než
nebo efektů, pokud jsou splněny parametrické testy - je méně
předpoklady. pravděpodobné, že odhalí statisticky
významné rozdíly, zejména pokud jsou
› Příklady: t-testy, analýza rozptylu tyto rozdíly menší.
(ANOVA), regresní analýza
› Příklady: Mann-Whitneyho test,
Wilcoxonův test, Kruskal-Wallisův test,
Spearmanův korelační koeficient, Chí-
kvadrát test
4
Kategorizovaná data
› Proměnné, jejichž obměny představují kategorie v podobě
nominálních nebo ordinálních proměnných.
– Proměnné alternativní – právě 2 obměny znaku (ANO – NE)
– Proměnné množné – více než 2 obměny znaku

› Řešíme 2 základní úkoly:


– Zjistit, zda mezi proměnnými existuje závislost. (H0: Mezi sledovanými
proměnnými neexistuje závislost).
– V případě, že závislost existuje (zamítáme H0), určit její sílu.

5
Příklad
› Dvě kategorizované proměnné jsou nezávislé, pokud jsou populační podmíněná rozdělení
jedné z nich shodná napříč kategoriemi druhé proměnné.

› Dvě kategorizované proměnné jsou závislé, pokud jejich podmíněná rozdělení nejsou
totožná.

6
Základní pojmy

7
Kontingenční tabulka
› Kontingenční tabulka je zápis o výskytu jevů v křížové kombinaci dvou kategorizací:
řádkové A = (A1, A2, … AR) a sloupcové B = (B1, B2, … BS)

Tabulka absolutních četností

Marginální četnosti

Celkový počet

› Zaměníme-li písmena f místo n, dostaneme analogický záznam o relativních


četnostech, součet hodnot v tabulce je 1 (místo n) – viz následující slide.
8
Kontingenční tabulka – relativní četnosti

Marginální
procenta

Marginální
procenta
9
Typy kontingenčních tabulek
› Komparační tabulka (porovnáváme skupiny mezi sebou v rámci jedné
proměnné)
– Porovnáváme četnostní/procentní distribuce různých souborů nebo částí
jednoho souboru
– Sloupce – závisle proměnná (cílová)
– Řádky – podsoubory
› Asociační tabulka (neporovnáváme skupiny, ale hledáme vztahy mezi
dvěma proměnnými)
– Hledáme souvislosti mezi kategoriemi řádků a sloupců.
– Nezáleží na rozmístění proměnných do řádků a sloupců.
› Čtvercová tabulka (v řádcích i ve sloupcích stejné kategorie)
– Párové srovnání kategorií, které jsou posunuté v čase nebo o různé proměnné
se stejnými kategoriemi.
10
Komparační tabulka – základní otázka

Zdroj: Acrea 11
Komparační tabulka ŘÁDKY → SLOUPCE

Porovnáme (komparujeme) rozdělení priorit podle vzdělání.

Řádková procenta
Cílová proměnná (sloupce) = priority
Vstupní proměnná (řádky) = podskupiny podle vzdělání
Hledáme, jak vzdělání mění distribuci priorit. Hledáme, jak řádky ovlivňují sloupce.
12
Základní otázky kontingenční komparační analýzy
› Existují rozdíly mezi řádkovými procenty pro jednotlivé kategorie?
› Kde se vyskytují a jaké jsou tyto rozdíly (existují-li)?
› Jak silná je celková diferenciace řádkových distribucí?
› Jak zobrazit tyto rozdíly graficky v souhrnném obrázku?
› Které řádky jsou stejné a které se liší?

13
Asociační tabulka ŘÁDKY  SLOUPCE

Není rozhodující, zda dáme značku kávy do řádků nebo do sloupců. Řádky a
sloupce jsou vzájemně zaměnitelné.
Hledáme, zda mezi řádky a sloupci existuje vztah (asociace).

14
Asociační tabulka – postup analýzy vztahů
› 1. krok: popis četností: procenta v řádcích, ve sloupcích, celková
procenta, graf.
› 2. krok: existence vztahu: test nulové hypotézy nezávislosti
– HO : závislost se v tabulce nevyskytuje
– HA : závislost se v tabulce vyskytuje
› Výsledek testování
– Zamítáme H0: odchylky od nezávislosti nejsou náhodné, nelze vysvětlit
náhodou, situace vyjadřuje statisticky prověřenou závislost. Následně se
hodnotí stupeň závislosti/rozdílnosti (3. krok).
– Nezamítáme H0: odchylky od nezávislosti jsou náhodné.

15
Základní otázky kontingenční asociační analýzy
› Existuje vztah mezi řádkovými a sloupcovými kategoriemi?
› Jaký je to vztah (existuje-li)?
› Jak silný je to vztah?
› Jak zobrazit tyto rozdíly graficky v souhrnném obrázku?
› Jak shrnout veškerou informaci z tabulky?

16
Příprava dat

17
Chí kvadrát testy má smysl použít pouze, pokud je
vzorek přiměřené velikosti

18
Příprava dat – problémy a řešení
› Jedna kategorie obsahuje více než 85% pozorování - celková analýza
bude nestabilní.
› Málo četné kategorie – detailní analýza tabulky bude nespolehlivá.
› Tabulka je rozsáhlá (počet řádků a sloupců) a řídká – použijte speciální
metody (Monte Carlo).
› Malý počet případů v tabulce (méně než 40) - použijte přesné testy
založené na kombinatorických vlastnostech (např. Fisherův test pro
tabulky 2x2).
› Malé četnosti ve sloupcích a v řádcích - řešení:
– Spojování málo obsazených sloupců do reziduální kategorie 'ostatní‘.
– Spojování málo četných kategorií podle příbuznosti obsahu.
– U ordinálních proměnných: spojování sousedních kategorií.
19
Začneme se čtyřpolními
tabulkami
Tabulky 2x2

20
Čtyřpolní tabulka
› Čtyřpolní tabulka: křížené třídění dvou dichotomických
proměnných A = (A1, A2), B = (B1, B2)

22

› Typy:
– Komparační tabulka: komparace dvou skupin podle procenta výskytu
jevu (B → A)
– Asociační tabulka: souvislost dvou jevů (B  A, A  B)
21
Čtyřpolní komparační tabulka

Zdroj: European Values Study


22
Čtyřpolní komparační tabulka – koeficient regrese

f(B) = f(DPřSp) = 0.688 pro celý soubor (odhad pro populaci)


f(B/A) = f(DPřSp/ženy) = 0.701 pro ženy
f(B/nonA) = f(DPřSp/muži) = 0.673 pro muže

koeficient regrese = f(B/A) - f(B/nonA) = f(DPřSp/ženy) – f(DPřSp/muži) = 0.701 -


0.673 = 0.028 (přírůstek relativních četností jevu mezi dvěma třídami; obdoba
regresního koeficientu v jednoduché lineární regresi) 23
Čtyřpolní asociační tabulka – korelační koeficient

Nevychází tak vysoký jako


u metrických (číselných) proměnných.

24
Test pro asociační i komparační
tabulky (chí-kvadrát test)
Karl Pearson (1900), vylepšení později provedl Sir Ronald Fisher (1922)

25
Předpoklady chí-kvadrát testu
› Očekávané četnosti jsou dostatečně velké (chí-kvadrát rozdělení
je spojité).
– Rozsah souboru by měl být alespoň 30 pozorování.
– Všechny očekávané četnosti jsou větší než přibližně 5, i když u větších
tabulek by pravděpodobně nevadilo, kdyby alespoň 80 % očekávaných
četností bylo nad 5 a žádná z nich nebyla pod 1.
– Řešení, když jsou očekávané počty buněk příliš malé: Fisherův přesný
test.
› Data jsou na sobě nezávislá.
– Nezávislé vzorky.
– Řešení pro párové vzorky: McNemarův test.

26
Chí-kvadrát rozdělení
Je asymetrické.

Je spojité.

S rostoucím n se blíží normálnímu


rozdělení.
0

Graf hustoty pravděpodobnosti


začíná hodnotou 0.

27
Dva základní cíle použití chí-kvadrát testu
› Porovnat dvě proměnné a zkoumat jejich vztah (kontingenční tabulky
s R řádky a S sloupci - TEST ASOCIACE)
– H0: Proměnné jsou statisticky nezávislé.
– Porovnáme výsledky pomocí chí-kvadrát rozdělení se (R - 1)(S - 1) stupni
volnosti nebo použijeme p-hodnotu.
› Porovnat pozorovanou a očekávanou četnost (GOODNESS-OF-FIT
TEST, test dobré shody, komparace)
– H0: Pozorované četnosti (Oi) se statisticky neliší od očekávaných četností (Ei).

k = počet kategorií

– Porovnáme výsledky s chí-kvadrát rozdělením s k - 1 stupni volnosti nebo


použijeme p-hodnotu.

28
Goodness-of-fit (komparace)

Χ2 = (9-21)2 / 9 + (25-32) 2 / 25 + (34-27) 2 / 34 + (32-20) 2 / 32 = 23,9

Χ2 (df = 3; p = 0,05) = 7,81 => VS není reprezentativní


Vhodným řešením je například stanovení post-stratifikačních vah pro každou kategorii
29
(ale to už je jiná kapitola).
Asociace

Jak vypočítat očekávané četnosti?


Vynásobte celkový řádkový součet celkovým sloupcovým součtem a poté vydělte celkovým počtem
pozorování. Např. 293,6 = (937 * 559)/1784).

30
Speciální testy

31
Párová srovnání – McNemarův test
› Porušení předpokladu nezávislých výběrů.
› Předpokládáme, že očekávané četnosti v polích (viz dále) jsou
alespoň 5 a N ≥ 30.
› Porovnáváme u stejných případů situace „před“ a „po“.
Po
Před + -
+ a b
- c d

› H0: V základní souboru se podíl jednotek se zjištěným


sledovaným znakem nezměnil (není rozdíl mezi „před“ a „po“).
(𝑏 − 𝑐)2
2 =
(𝑏 + 𝑐)
32
Párová srovnání – McNemarův test - příklad
› Hodnotíme efekt požití alkoholu na test řidičských schopností.
Porovnáváme u stejných případů situace „před“ a „po“.
Po požití alkoholu
Před požitím alkoholu Bez chyby Chybně
Bez chyby 45 35
Chybně 15 5

› H0: V základním souboru se podíl jednotek se zjištěným


sledovaným znakem nezměnil (efekt alkoholu nebyl prokázán).
2 2
(𝑏 − 𝑐) (35 − 15)
2 = = =8 Porovnáme s kritickou hodnotou 20,05(1) = 3,84
(𝑏 + 𝑐) (35 + 15)
Zamítáme nulovou hypotézu.
33
Fisherův přesný test
› Porušen předpoklad dostatečně velkého počtu pozorování:
– Malý rozsah souboru (n < 30).
– Některá z teoretických četností je menší než 5.
ANO NE Celkem
ANO a b a+b
NE c d c+d
Celkem a+c b+d n

34
Fisherův přesný test – příklad
› Vzorek studentů lze rozdělit na muže a ženy na jedné straně a na ty, kteří se v současné
době připravují a nepřipravují na zkoušku ze statistiky, na straně druhé.
› Například předpokládáme, že podíl studujících studentů je vyšší mezi ženami než mezi
muži, a chceme otestovat, zda případný rozdíl v podílech, který pozorujeme, je
signifikantní.

p < 0,05 …Zamítáme nulovou hypotézu.

35
Křížový poměr (Odds Ratio)
› Vyjadřuje podíl šancí či sázkový poměr (šance na ohrožení).
› Odpovídá na otázku „Kolikrát je vyšší šance na ohrožení“.
Ohrožení
Expozice ANO (case) NE (control)
ANO a b
NE c d

› OR = a*d/b*c

𝑝 𝑎 𝑏
š𝑎𝑛𝑐𝑒 = = 𝑛𝑒𝑏𝑜
(1 − 𝑝) 𝑐 𝑑
𝑎/𝑐 𝑎𝑑
𝑜𝑑𝑑𝑠 𝑟𝑎𝑡𝑖𝑜 (𝑝𝑜𝑚ě𝑟 š𝑎𝑛𝑐í) = =
𝑏/𝑑 𝑏𝑐
36
Křížový poměr (Odds Ratio) – příklad
Alergie (ohrožení)
Bydlení v silně znečištěném ovzduší (expozice) ANO NE
ANO 28 16
NE 11 35

Křížový poměr = 28*35 / 16*11 = 980 / 176 = 5,57

Děti žijící v silně znečištěném ovzduší mají 5,57x vyšší šanci na alergická onemocnění než
děti žijící ve zdravém prostředí.

37
Příští přednáška
1. Podrobnější analýza diferencí v kontingenční tabulce
2. Metody stanovení síly závislosti v kontingenční tabulce
a. Nominální znaky
b. Ordinální znaky

38
Statistická analýza dat: Přednáška 4
Jindřich Špička

Analýza nominálních a ordinálních znaků

1
Program přednášky 4
1. Připomenutí chí-kvadrát testu.
2. Podrobnější analýza diferencí v kontingenční tabulce.
3. Metody stanovení síly závislosti v kontingenční tabulce pro:
a. Nominální znaky
b. Ordinální znaky

2
Doporučené zdroje pro tuto přednášku
› Statistické metody II – kap. 1 Analýza závislosti kvalitativních
znaků.
› Statistické nástroje ekonomického výzkumu – kap. 8 Závislost
kvalitativních znaků.

3
Připomenutí Pearsonova chí-kvadrát
testu
vizte Přednáška 2

4
Chí-kvadrát test
› Chí-kvadrát shrnuje, jak blízko jsou pozorované četnosti (O)
očekávaným četnostem (E), pokud by proměnné byly nezávislé.
› Ukazuje však pouze přítomnost významné asociace mezi
proměnnými, nikoli jak silná je tato asociace.
› Chí-kvadrát závisí na velikosti vzorku (čím větší vzorek, tím větší
chí-kvadrát hodnota, tím menší p-hodnota, ceteris paribus).
TEST ASOCIACE: pracujeme s (R - 1)(S - 1) stupni volnosti

GOODNESS-OF-FIT TEST (komparace): pracujeme s k - 1 stupni volnosti


k = počet kategorií

5
Chí-kvadrát test – očekávané četnosti

Nulová hypotéza

6
Chí-kvadrát test – očekávané četnosti a rezidua

Rez = O – E
12,7 = 201 – 188,3

12,72

12,72 / 188,3

7
Chí-kvadrát test - výsledky
hodnota d.f. p-hodnota

Pearsonův chí-kvadrát test: čím vyšší je hodnota, tím spíše platí alternativní hypotéza a nulová hypotéza
je zamítnuta;
– signifikance (p-hodnota) je spočítaná z rozloženi chí-kvadrát
– Předpoklady: všechny očekávané četnosti jsou větší nebo rovny 1, alespoň u 80% buněk jsou očekávané
četnosti jsou větší než 5, n ≥ 30.

Likelihood Ratio (věrohodnostní test homogenity) řádkových distribucí: čím vyšší je hodnota, tím
spíše platí alternativní hypotéza a nulová hypotéza je zamítnuta; vychází z poměrového
porovnávání skutečných a očekavanych četnosti -2 ln(E(r,s)/O(r,s))
– Signifikance (p-hodnota) je spočítaná z rozloženi chí-kvadrát s daným počtem stupňů volnosti;
– Předpoklady: všechny očekávané četnosti jsou větší nebo rovny 1 a ne vice než 20% poli má očekávané
četnosti < 5, n ≥ 30.
8
Chí-kvadrát test – dodatek

Zdroj: Acrea 9
Podrobnější analýza diferencí v
kontingenční tabulce
Znaménkové schéma odchylek

10
Adjustovaná rezidua

Pro každé
pole

Zdroj: Acrea 11
Adjustovaná rezidua – příklad

5706∗1258−2078∗3116
Pro buňku (1,1) …𝑍 = 𝑂𝐷𝑀𝑂𝐶𝑁𝐼𝑁𝐴 5703 ∗ = 6,8
𝑂𝐷𝑀𝑂𝐶𝑁𝐼𝑁𝐴 2078∗ 5706−2078 ∗3116∗ 5706−3116
5706∗356−2078∗1296
Pro buňku (1,2) …𝑍 = 𝑂𝐷𝑀𝑂𝐶𝑁𝐼𝑁𝐴 5703 ∗ = −7,6
𝑂𝐷𝑀𝑂𝐶𝑁𝐼𝑁𝐴 2078∗ 5706−2078 ∗1296∗ 5706−1296

…a tak dále 12
Adjustovaná rezidua – interpretace

Znaménka uvádějí velikost


a rozdílů.

V pozdějších kolech EVS vzrostla


významnost možnosti ovlivňovat
vládní rozhodnutí. V roce 2008
lidé vnímali jako důležitý boj proti
růstu cen.
Zdroj: Acrea 13
Síla závislosti v kontingenční
tabulce
Nominální znaky

14
Pravidlo volby testu míry asociace
Pravidlo: volba kategorie testu (nominální versus ordinální) se řídí
podle toho, jaký typ proměnných hodnotíme:
– Obě proměnné nominální: testy pro nominální znaky.
– Jedna proměnná nominální, druhá ordinální: testy pro
nominální znaky.
– Obě proměnné ordinální: testy pro ordinální znaky.

15
(Pearsonův) koeficient kontingence
(Contingency Coefficient)
2
𝐶=
𝑁 + 2

› Míra symetrické závislosti dvou proměnných (X  Y).


› Nabývá hodnot v intervalu 0; (𝑞 − 1)/𝑞 , kde 𝑞 = 𝑚𝑖𝑛 𝑅, 𝑆 .
› Maximum tedy závisí na velikosti tabulky: pro 2x2 => 0.707, pro 4x4 =>
0.870, pro 5x5 => 0.894
› Hodnota 0 vyjadřuje nezávislost.
› Čím vyšší hodnota, tím vyšší závislost.

16
Koeficient  (fí)
(Phi Coefficient)
2
=
𝑁

› Míra symetrické závislosti dvou proměnných (X  Y).


› Min = 0 (nezávislost).
› Maximum závisí na velikosti tabulky: obecně: (𝑘 − 1), kde 𝑘 = 𝑚𝑖𝑛 𝑅, 𝑆
› Hodnota 0 vyjadřuje nezávislost.
› Čím vyšší hodnota, tím vyšší závislost.

17
Cramerovo V
(Cramer’s V)
2
𝑉= 𝑞 = 𝑚𝑖𝑛 𝑅, 𝑆
𝑁(𝑞 − 1)

› Míra symetrické závislosti dvou proměnných (X  Y).


› Nabývá hodnot v intervalu 0; 1 . Je to normalizovaná hodnota.
› Hodnota 0 vyjadřuje nezávislost. Hodnota 1 vyjadřuje plnou jednoznačnou
závislost.
› Čím vyšší hodnota, tím vyšší závislost.

18
Goodman-Kruskalovo  (lambda)
𝜀1 − 𝜀2 𝜀1 je celková nemodální frekvence a
= 𝜀2 je součet nemodálních frekvencí pro každou hodnotu nezávislé proměnné.
𝜀1
Nezávisle proměnná (X)
› Míra asymetrické závislosti
dvou proměnných (X → Y). Důležité je řazení
› Existuje i symetrizovaná řádků a sloupců.
varianta.
› Nabývá hodnot v intervalu Závisle proměnná (Y)
0; 1 .
› Hodnota 0 = kategorie Lze lépe předpovědět krevní tlak, pokud je znám stav příbuzenského
řádkové proměnné vztahu?
nepřispívají k predikci
kategorií sloupcové
proměnné. Důvodem je, že předpokládaný nominální krevní tlak je v obou sloupcích ve skutečnosti "Normální" (obě horní čísla
jsou vyšší než odpovídající dolní číslo). Zohlednění příbuzenského stavu tedy nezmění předpověď, že lidé mají normální
› Vyjadřuje míru redukce krevní tlak, i když z údajů vyplývá, že být ženatý či vdaná zvyšuje pravděpodobnost vysokého krevního tlaku.
chyby pro predikci, jestliže Pokud se otázka změní, např. dotazem „Jak je stav ovlivněn krevním tlakem?“, bude mít
známe hodnotu vysvětlující
proměnné. lambda nenulovou hodnotu.

19
Další ukazatele
› Goodman-Kruskalovo  (tau)
– Nabývá hodnot v intervalu 0; 1 . Hodnota 0 vyjadřuje nezávislost.
› Koeficient nejistoty (neurčitosti).
– Míra asociace, která udává poměrné snížení chyby při použití hodnot
jedné proměnné k předpovědi hodnot druhé proměnné. Například
hodnota 0,83 znamená, že znalost jedné proměnné snižuje chybu při
předpovídání hodnot druhé proměnné o 83 %. Program počítá jak
symetrickou, tak asymetrickou verzi koeficientu nejistoty.

20
Síla závislosti v kontingenční
tabulce
Ordinální znaky

21
Mantel-Haenszel chí-kvadrát test
› Obdoba Pearsonova chí-kvadrát testu pro ordinální proměnné.
› Testuje alternativní hypotézu, že mezi řádkovou a sloupcovou
proměnnou existuje lineární souvislost. Obě proměnné musí ležet na
ordinální stupnici.

› r je Pearsonův korelační koeficient mezi řádkovou proměnnou a


sloupcovou proměnnou.
› Při nulové hypotéze o neexistenci asociace má M-H chí-kvadrát
asymptotické rozdělení s 1 stupněm volnosti.
› ALE, stejně jako Pearsonův chí-kvadrát test, nic neříká o síle a směru
asociace.
22
Konkordantní a diskondantní páry
› Konkordantní pár = jsou-li ve sledované dvojici u jednoho objektu hodnoty u obou
proměnných menší (resp. větší) než u druhého objektu (jeden respondent hodnotí obě
otázky lépe nebo hůře než druhý respondent).
› Diskondantní pár = je-li u jedné proměnné hodnota menší a u druhé proměnné větší
(jeden respondent hodnotí jednu otázku lépe a druhou hůře než druhý respondent).
› Vázané páry = hodnota u jedné proměnné nebo hodnoty u obou proměnných jsou shodné
(odpovědi obou respondentů na obě otázky se shodují).

Objekt 001 vůči


objektu 009

Objekt 008 vůči


objektu 009

Objekt 008 vůči


objektu 001
23
Goodman-Kruskalovo  (gamma)
𝐶−𝐷 C = počet konkordantních párů
=
𝐶+𝐷 D = počet diskordantních párů

› Symetrická míra.
› Nabývá hodnot v intervalu −1; 1 .
› Hodnota 0 vyjadřuje nezávislost. Hodnota -1 nebo +1 vyjadřuje
plnou jednoznačnou závislost (nepřímo úměrná, přímo úměrná).
› Čím vyšší hodnota, tím vyšší závislost.

24
Kendallovo b (tau-b)
𝐶−𝐷
𝑏 =
(𝐶 + 𝐷 + 𝑇𝑋 )(𝐶 + 𝐷 + 𝑇𝑌 )

C = počet konkordantních párů


D = počet diskordantních párů
Tx = počet párů, které obsahují stejnou hodnotu proměnné X, ale různou hodnotu proměnné Y.
Ty = počet párů, které obsahují stejnou hodnotu proměnné Y, ale různou hodnotu proměnné X.

› Symetrická míra.
› Nabývá hodnot v intervalu −1; 1 . Hodnota 0 vyjadřuje nezávislost.
› Hodnota -1 nebo +1 vyjadřuje plnou jednoznačnou závislost (nepřímo
úměrná, přímo úměrná).

25
Stuartovo c (tau-c)
𝑞(𝐶 − 𝐷)
𝑐 =
𝑁 2 (𝑞 − 1)

C = počet konkordantních párů


D = počet diskordantních párů
q = minR, S

› Symetrická míra.
› Nabývá hodnot v intervalu −1; 1 . Hodnota 0 vyjadřuje nezávislost.
› Hodnota -1 nebo +1 vyjadřuje plnou jednoznačnou závislost (nepřímo
úměrná, přímo úměrná).

26
Sommersovo d
𝐶−𝐷 𝐶−𝐷 2(𝐶 − 𝐷)
𝑑𝑌𝑋 = 𝑑𝑋𝑌 = 𝑑𝑠𝑦𝑚 =
𝐶 + 𝐷 + 𝑇𝑌 𝐶 + 𝐷 + 𝑇𝑋 2 𝐶 + 𝐷 + 𝑇𝑋 + 𝑇𝑌

C = počet konkordantních párů


D = počet diskordantních párů
Tx = počet párů, které obsahují stejnou hodnotu proměnné X, ale různou hodnotu proměnné Y.
Ty = počet párů, které obsahují stejnou hodnotu proměnné Y, ale různou hodnotu proměnné X.

› Asymetrická i symetrická míra.


› Nabývá hodnot v intervalu −1; 1 . Hodnota 0 vyjadřuje nezávislost.
› Hodnota -1 nebo 1 vyjadřuje plnou jednoznačnou závislost (nepřímo
úměrná, přímo úměrná).

27
Spearmanův koeficient pořadové korelace
N = počet případů

1. krok: Pro každou proměnnou z původních hodnot vypočítáme pořadí (rank xi, rank yi) 1, 2, 3, … , n.
2. krok: Spočítáme rozdíly mezi sloupci pořadí (di) a umocníme je na druhou.
3. krok: dosadíme do vzorce

−0.175757575

Nabývá hodnot v intervalu −1; 1 .

Spearman's rank correlation coefficient - Wikipedia

28
Statistická analýza dat: Přednáška 5
Jindřich Špička

Jednoduchá lineární regrese a korelace

1
Program přednášky 5
1. Motivační příklad.
2. Význam chyby odhadu v regresní analýze.
3. Odhad parametrů regresní přímky – metoda nejmenších
čtverců.
4. Odhad rozptylu náhodných chyb a koeficientu determinace.
5. Význam analýzy rozptylu (ANOVA) v lineární regresi.

2
Doporučené zdroje pro tuto přednášku
› Statistické metody I – kap. 6.1 Úvodní poznámky, 6.2
Jednoduchá lineární regrese, 6.3 Testy hypotéz o parametrech
lineární regrese a intervalový odhad.
› Simple and Multiple Linear Regression – YouTube
› Causality [Simply explained] - YouTube

3
Jak souvisí spotřeba elektromobilu s teplotou
vzduchu?

Zdroj: vlastní zpracování 4


Jak souvisí spotřeba elektromobilu s teplotou
vzduchu? Lineární vztah.

Zdroj: vlastní zpracování 5


Jak souvisí spotřeba elektromobilu s teplotou
vzduchu? Nelineární vztah.

Zdroj: vlastní zpracování 6


Otázky a úkoly pro regresní analýzu
› Lze vyjádřit vztah proměnné X (nebo množiny proměnných X1 , … , Xk)
a proměnné Y pomocí vhodně volené rovnice?
› Má tento vztah EXPLANAČNÍ charakter?

› Je hodnota Y důsledkem hodnoty X (hodnot X1 , … , Xk)?


› Reprezentují proměnné Xk PŘÍČINY pro důsledek Y?

› Obsahuje X (nebo množina proměnných X1 , … , Xk) nějakou informaci


o Y a jak vyjádřit přenos takové informace?
› Můžeme tuto informaci použít pro PREDIKCI?
7
Ukázka nesmyslné interpretace: „Internet
prodlužuje život“

› Jevy spolu nesouvisí


odvozeným způsobem.

› společná příčina –
obecný rozvoj země

› nesmyslnost odhalena
jen na základě logické
úvahy

8
Regresní analýza – definice
› V klasickém pojetí vztah dvou nebo více ČÍSELNÝCH proměnných.
– V současnosti i nominální a ordinální regrese jinými přístupy.
› Vztah
– Kauzální – regrese je odraz příčinného procesu, existuje proces příčina ->
následek, vztah je obvykle dán teorií.
– Empirický – regrese je zachycení vztahu mezi vzniklými čísly, statistickými
řadami, bez ohledu na to co znamenají, vztah konstruujeme zkusmo.
› Může odrážet i nepravé (zprostředkované) vztahy.
› Vztah je odrazem složité a neznámé struktury vztahů.

› Totéž můžeme uvést o korelaci, která však nerozlišuje příčinu a


následek.
9
Regrese – definice
Směr vztahu je uživatelská volba, ale musí být řízen logikou.

X Y E
nezávisle proměnná –> závisle proměnná <– chyba

› Nejednotná terminologie proměnných:


– nezávisle proměnná – závisle proměnná
– vysvětlující – vysvětlovaná
– vstupní – výstupní (cílová)
– prediktor – predikant
– určující – určená
– regresor – regresand
– exogenní – endogenní (termíny z ekonometrie)
10
Typy asociace mezi X a Y

moderace

mediace

11
deterministická náhodná
složka složka

Popis vztahu rovnicí 𝒚 = 𝜷𝟎 + 𝜷𝟏 𝒙 + 𝜺

Velký význam chyby odhadu

Zdroj: Acrea 12
Přítomnost náhodné složky činí z deterministického modelu
Chyba odhadu () pravděpodobností model.

regresní přímka

konstanta
𝛽0

13
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.
Čím mohou být způsobeny chyby odhadu u
spotřeby elektromobilu?

Zdroj: vlastní zpracování 14


Chyba odhadu ()
› Chování Y nevysvětlené modelem.
› Náhodné vlivy:
– při měření, zjišťování
– při chování
– ze své podstaty nelze v modelu odstranit
› Tvar funkce:
– závislost je tvořena jinou funkcí (se stejnými proměnnými)
– např. logaritmická nebo kvadratická funkce místo přímky
– špatný tvar lze teoreticky zjistit a opravit
› Neznámé vlivy:
– všechny další veličiny, které mají vliv na Y
– nemáme v datech
– teoreticky lze odstranit zjištěním chybějících proměnných a jejich doplněním do modelu
› Mezi náhodnými a neznámými vlivy nelze v praxi rozhodnout => v regresní teorii
se vše zahrnuje pod náhodnou odchylku.
15
Chyba odhadu ()
Náhodná chyba

• Její rozdělení je normální a má nulový průměr pro každou hodnotu X


– zajistí vhodná funkce odpovídající skutečnému modelu – obvykle neznámý
– nulový průměr odhadu chyb na celém souboru zajistí vždy konstantní člen v modelu b0

• Její rozdělení má stejný rozptyl (směrodatnou odchylku) pro každou


hodnotu X – kontroluje se v datech.

• Náhodné chyby spojené s různými pozorováními jsou na sobě nezávislé.

› OLS (Ordinary Least Squares) = metoda nejmenších čtverců


(MNČ), která hledá takový model, při kterém jsou čtverce
odchylek od regresní funkce minimální. 16
Chyba odhadu ()

𝛽0 + 𝛽1 𝑥

𝛽0 + 𝛽1 𝑥3
𝛽0 + 𝛽1 𝑥3

𝛽0 + 𝛽1 𝑥2
𝛽0 + 𝛽1 𝑥2

𝛽0 + 𝛽1 𝑥1
𝛽0 + 𝛽1 𝑥1

17
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.
Důležitá pravidla týkající se chyby odhadu
› Protože β0 a β1 jsou pro každý bod pevná čísla, je β0 + β1x také
pevné číslo. Součet pevných čísel a normálně rozdělené náhodné
chyby () je také normálně rozdělená proměnná. To znamená, že
samotné y má normální rozdělení.
› Protože neexistuje žádná variabilita v pevném čísle β0 + β1x, je
směrodatná odchylka hodnoty y stejná jako směrodatná
odchylka hodnoty náhodné chyby ().
› Chyba odhadu nezávisí na x.
› Chyby odhadu vypočítané z různých vzorků ze stejného
základního souboru jsou vzájemně nezávislé.
18
Odhad parametrů regresní
přímky
Jednoduchá lineární regrese

19
Význam koeficientů přímky
› b1 = regresní koeficient – koeficient úměry vlivy X na Y u každého jednoho
případu (o kolik se průměrně změní Y, pokud se X změní o jednotku)
– b1 > 0 – přímka má růstový/stoupavý trend
› kladný trend
› s rostoucím X roste Y
– b1 < 0 – přímka má ztrátový/klesavý trend
› záporný trend
› s rostoucím X klesá Y
– b1 = 0 – přímka je rovnoběžná s osou X, absence trendu
› s rostoucím X se Y nemění: nulový trend
› hodnota Y na X nezávisí

› b0 = konstantní člen (posunutí) – hodnota Y pro nulové X nebo koeficient


rovnoměrné změny pro každý případ bez ohledu na jeho X hodnotu
20
Metoda nejmenších čtverců

Zdroj: Acrea 21
22
Zdroj: Acrea
Proč se používá metoda nejmenších čtverců?
› Lineární odhad
– Výpočetně a interpretačně výhodné.
› Nevychýlený a konzistentní odhad parametrů rovnice
– odhad je rozptýlen kolem skutečných parametrů – ani
nenadhodnocuje, ani nepodhodnocuje skutečná data
– s růstem parametrů se odhad blíží ke skutečným hodnotám
› Nejlepší odhad
– MNČ dává odhad s nejmenším rozptylem
– pro daný výběr a model nelze odhad spočítat lépe
– velikost rozptylu je úměrná s/ n – je závislá na schopnosti uživatele
najít dobrý model a získat dostatek případů pro odhad
23
Metoda nejmenších čtverců
› Odhadnuté parametry a vše z nich vyplývající
jsou jen odhadem skutečných parametrů.
Skutečné parametry se týkají základního
souboru (často hypotetický a nedosažitelný).
› Výběr jiného vzorku ze základního souboru by
vedl jinému odhadu. Odhad chyby se nazývá
residuum.

Y = b0 + b1 X +  => Y = b0 + b1 X + e
skutečný ale neznámý vztah odhad vztahu na základě výběru
v základním souboru

24
Bodové a intervalové odhady parametrů
› Rozptýlení odhadu lze spočítat skutečný vztah: Y = 2 + 3 X + e e  N (0,4)
pro každý výběr.
› Skutečné s neznáme, jen
odhadujeme.
› Míra rozptýlení závisí na velikosti
výběru a směrodatné odchylce
náh. chyb
 s/ n
› Pro každý odhad lze zkonstruovat
oblast, kde se skutečné
parametry nacházejí s danou
pravděpodobností (95%)
– INTERVALOVÉ ODHADY
PARAMETRŮ (vizte Bc studium).
25
Dekompozice variability závislé proměnné Y
› Celkový rozptyl závislé proměnné lze rozložit na dvě části:
– část rozptylu odhadnutých hodnot
– část rozptylu náhodných chyb 

› Při odhadu je lepší pracovat se součtem čtverců odchylek


od průměru. Skutečný rozptyl vynásobený počtem případů.
› Rozklad je základní kámen úsudků o přesnosti odhadů.


෡=𝐘

𝐘 sY2 = sŶ2 + s2
odhad: Y = b0 + b1 X + e
SStotal = (Yi – 𝒀)2
SSmodel = (Ŷi - 𝒀 )2 = (b0 + b1 Xi – 𝒀 )2 SStotal = SSmodel + SSresid
SSresid = (Yi - Ŷi)2 = (Yi – (b0 + b1 Xi))2 (Yi – 𝑌)2 = (Ŷi - 𝑌 )2 + (Yi - Ŷi)2
26
Odhad parametrů
(zjednodušený matematický zápis)
(σ 𝑥)(σ 𝑦)
𝑆𝑥𝑦 𝑆𝑥𝑦 = ෍ 𝑥𝑦 −
𝑏1 … 𝑏𝑜𝑑𝑜𝑣ý 𝑜𝑑ℎ𝑎𝑑 𝛽1 = 𝑛
𝑆𝑥𝑥

( σ 𝑥) 2
𝑆𝑥𝑥 = ෍ 𝑥2 −
𝑏0 … 𝑏𝑜𝑑𝑜𝑣ý 𝑜𝑑ℎ𝑎𝑑 𝛽0 = 𝑦ത − 𝑏1 𝑥ҧ 𝑛

Příklad: Studií zkoumala vztah mezi porodní hmotností dítěte (y,


gramy) a věkem matky (x) u dětí narozených mladým matkám.

PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7. 27
Kovariance X a Y = 490,3

Rozptyl X = 2

𝐶𝑜𝑣(𝑋, 𝑌)
𝛽𝑖 =
průměry 𝑉𝑎𝑟(𝑋)

𝑆𝑥𝑦 4903.0 𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ = 3004.1 − 245.1 ∙ 17.0 =


𝑏1 = = = 𝟐𝟒𝟓. 𝟏𝟓
𝑆𝑥𝑥 20.0 − 𝟏𝟏𝟔𝟑. 𝟒𝟓
ෝ = −𝟏𝟏𝟔𝟑. 𝟒𝟓 + 𝟐𝟒𝟓. 𝟏𝟓𝒙
𝒚 28
Výpočet sklonu regresní přímky
𝐶𝑜𝑣(𝑋, 𝑌) Kovariance mezi X a Y
𝛽𝑖 =
𝑉𝑎𝑟(𝑋)
Rozptyl X

Pearsonův korelační koeficient mezi X a Y

Směrodatná odchylka Y
𝜎𝑌
𝛽𝑖 = 𝑅𝑋𝑌 ∙
𝜎𝑋
Směrodatná odchylka X

Oba přístupy vedou ke stejnému výsledku.


29
Jak dobře regresní přímka vystihuje skutečné
hodnoty?
ො 2
𝑆𝑆𝑟𝑒𝑠𝑖𝑑 = ෍(𝑦 − 𝑦)
1) Výpočet součtu druhých mocnin (čtverců)
Snažíme se ho minimalizovat,
skutečných y podle dat od odchylek odhadů 𝒚 ෝ Protože to je část modelu, kterou
podle modelu (= reziduální součet čtverců). neumíme vysvětlit.

2) Výpočet součtu druhých mocnin (čtverců)


skutečných y podle dat od průměru y (= celkový
součet čtverců). σ𝑦 2
𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = ෍(𝑦 − 𝑦)2 2
ത = ෍𝑦 − = 𝑆𝑦𝑦
𝑛

3) Výpočet koeficientu determinace.

𝑆𝑆𝑟𝑒𝑠𝑖𝑑 𝑆𝑆𝑚𝑜𝑑𝑒𝑙 Druhá mocnina Pearsonova


𝑅2 =1− = korelačního koeficientu mezi x a y.
𝑆𝑆𝑡𝑜𝑡𝑎𝑙 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 30
Koeficient determinace (R2) – shrnutí
› Vychází se z rozkladu rozptylu Y.
› Ukazuje, jakou část rozptylu Y vysvětluje rozptyl Ŷ neboli model.
– Čím vyšší hodnota, tím lépe.
– Zbytek rozptylu Y je rozptyl residuí (modelem nevysvětlená část variability Y).
› Popisuje sílu vztahu modelu a závislé proměnné Ŷ a Y.
– je-li vysvětlujících proměnných X více, popisuje jejich společné působení na Y
› R2 = čtverec korelačního koeficientu r(Y, Ŷ) => R2 = r(Y, Ŷ)2
– v modelu s jednou proměnnou X platí také R2 = r(Y, X)2
› Často se vyjadřuje v procentech.
› Nezávisí na počtu případů, ale na kvalitě vztahu v základním souboru.

31
Odhad rozptylu náhodných chyb (𝑠𝑒2 )
› Nevychýlený odhad – záleží na něm úsudky o přesnosti odhadu
– nevychýlenost závisí na splnění předpokladu o s2
𝑆𝑆𝑟𝑒𝑠𝑖𝑑
› Vychází se z rozkladu čtverců – residuální rozptyl. 𝑠𝑒2 =
𝑛−2
› Dosahuje minimální možné hodnoty pro lineární model – je to
také kritérium pro odhad modelu.
› Nezávisí na počtu případů, ale na kvalitě vztahu v základním
souboru.
› Směrodatná odchylka residuí se
– odmocnina z odhadnutého residuálního rozptylu

32
Pokračování příkladu

ො 2 = 337,212.45
𝑆𝑆𝑟𝑒𝑠𝑖𝑑 = ෍(𝑦 − 𝑦)

ത 2 = 1,539,182.90
𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = ෍(𝑦 − 𝑦)

𝑆𝑆𝑟𝑒𝑠𝑖𝑑 337,212.45
𝑅2 =1− =1− = 0.781 = 78.1%
𝑆𝑆𝑡𝑜𝑡𝑎𝑙 1,539,182.90
𝑆𝑆𝑟𝑒𝑠𝑖𝑑 337,212.45
Odhad rozptylu náhodných chyb 𝑠𝑒2 = = = 42,151.56
𝑛−2 10 − 2

Odhad směrodatné odchylky náhodných chyb 𝑠𝑒 = 𝑠𝑒2 = 205.3 𝑔𝑟𝑎𝑚ů 33


Chyba odhadu parametru b
› Pracujeme jen se vzorkem. Každý další vzorek ze stejné populace
bude mít jiný odhad parametru b.
› Střední hodnota b je β (b je nezkreslená hodnota populační
statistiky β).
› Směrodatná odchylka b je (standardní chyba odhadu koeficientu
𝑠𝑒
b – Standard Error): 𝑠𝑏 = .
𝑆𝑥𝑥
› Statistika b má normální rozdělení (důsledek modelového
předpokladu, že náhodná odchylka e je normálně rozdělena).
𝑏−𝛽
› Testové kritérium 𝑡 = s (n-2) stupni volnosti.
𝑠𝑏
34
Interval spolehlivosti pro β1
b  (kritická hodnota t rozdělení)  sb
Kritická hodnota t rozdělení se hledá v tabulkách Studentova t-
rozdělení s (n-2) stupni volnosti.
95% interval spolehlivosti říká, že 95 % bodových odhadů
parametru b (při opakovaném výpočtu z různých vzorků) se bude
nacházet právě v tomto intervalu, 5 % bude mimo interval.

35
ො 2 = 337,212.45
𝑆𝑆𝑟𝑒𝑠𝑖𝑑 = ෍(𝑦 − 𝑦)

𝑆𝑆𝑟𝑒𝑠𝑖𝑑 337,212.45
𝑠𝑒2 = = = 42,151.56 𝑠𝑒 = 𝑠𝑒2 = 42,151.56 = 205.3
𝑛−2 10 − 2
𝑠𝑒 205.3
𝑠𝑏 = = = 45.91 𝑔𝑟𝑎𝑚ů ෝ = −𝟏𝟏𝟔𝟑. 𝟒𝟓 + 𝟐𝟒𝟓. 𝟏𝟓𝒙
𝒚
𝑆𝑥𝑥 20
𝑡𝑘𝑟𝑖𝑡 = 𝑡0.05(10−2) = 2.306 standardní chyba odhadu koeficientu b

𝑏 ± 𝑡𝑘𝑟𝑖𝑡 ∙ 𝑠𝑏 = 245.15 ± 2.306 ∙ 45.91 (139.28; 351.02) 36


Určení statistické významnosti parametru b
› H0: β1 = 0
› HA: β1 ≠ 0
𝑏 − 𝛽 245.15 − 0
𝑡= = = 5.34
𝑠𝑏 45.91
𝑡𝑘𝑟𝑖𝑡 = 𝑡0.05(10−2) = 2.306

𝑡 > 𝑡𝑘𝑟𝑖𝑡

Zamítáme nulovou hypotézu a považujeme parametr za statisticky významný.

37
Porovnání modelů β1 = 0 a β1 ≠ 0
β1 = 0 (nulová hypotéza) β1 ≠ 0 (alt. hypotéza)

Test užitečnosti modelu pro jednoduchou lineární regresi


𝑏
𝑡 = , 𝑝𝑟𝑜𝑡𝑜ž𝑒 β = 0
𝑠𝑏
38
Význam analýzy rozptylu (ANOVA) v lineární regresi
› ANOVA je jeden z typů obecných lineárních modelů. Používá se pro
testování významnosti celého regresního modelu.
› Vychází se z rozkladu rozptylu Y.
› F - test – kritérium pro zjištění existence vztahu
› Testuje existenci vztahu modelu a závislé proměnné – Ŷ a Y
– je-li vysvětlujících proměnných X více, testuje jejich společné působení na Y
› Závisí na počtu případů a na kvalitě vztahu v základním souboru.
– čím více případů tím spíše se H0 zamítne.
› Velmi mírný – H0 zamítnuta takřka vždy.
– např. pro přímku a 50 případů je významný vztah s R2=7,8%

H0: bi = 0 pro všechna X pro rovnici s jedním prediktorem


H1: bi ≠ 0 alespoň pro jedno X t2 = F 39
n = počet případů
Shrnutí k = počet regresních koeficientů (bez konstanty)

𝑅2 /𝑘 0.258/1
𝐹= = = 5,21
1 − 𝑅2 1 − 0.258
𝑛− 𝑘+1 17 − 1 + 1

𝑑𝑓 = (𝑘; 𝑛 − 𝑘 + 1 ) = (1; 17 − 1 + 1 )
𝛽0 𝛽1

40
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.
Statistická analýza dat: Přednáška 6
Jindřich Špička

Vícenásobná lineární regrese – předpoklady použití

1
Program přednášky 6
1. Princip vícenásobné lineární regrese.
2. Předpoklady lineární regrese (vlastnosti odhadu metodou
nejmenších čtverců).
3. Analýza reziduí.
4. Práce s kvalitativními nezávisle proměnnými.
5. Odhad modelu vícenásobné lineární regrese.
a) Srovnání koeficientů – standardizace regresních koeficientů.
b) R2 a adjustované R2.
c) F test celého modelu.
d) Metoda nejmenších čtverců.
2
Doporučené zdroje pro tuto přednášku
› Statistické metody I – celá kapitola 6.
› Simple and Multiple Linear Regression – YouTube
› Assumptions of Linear Regression – YouTube

3
Princip vícenásobné lineární regrese
› Přímé zobecnění jednoduché regrese.
› Další členy jsou přidány prostým přičtením, každý člen má svůj
koeficient bk.
› Mohou se přidávat i libovolné pevně dané funkce proměnných X
– X2, X3, 1/X, ln(X), X1X2, atd.
– modelem je křivka obecnější než přímka (rovina)
– speciální variantou jsou proměnné typu 0 - 1
› Linearita – model je součtem jednotlivých komponent bkf(Xk).
› Interpretace analogická jako u jednoduché regrese.
4
Princip vícenásobné lineární regrese

5
Princip vícenásobné lineární regrese
Nejméně jeden

6
Princip vícenásobné lineární regrese

7
Princip vícenásobné lineární regrese – význam
koeficientů
› bk je převodní koeficient Xk na Y
– nazývá se parciální regresní koeficient
› Lze modelovat dílčí vlivy jednotlivých Xk na Y i vliv interakce mezi Xk
na Y

› bk = přírůstek Y při jednotkové změně Xk, jsou-li ostatní X beze změny.


› b0 (konstanta) je hodnota rovnice pro všechna X rovné 0.
– kombinace nemusí být prakticky dosažitelná
– necháváme v rovnici vždy – zajišťuje nulový součet residuí
8
Předpoklady lineární regrese (odhadu MNČ)
1) Vzorek je vybrán náhodným výběrem ze základního souboru.
2) Y je číselná (metrická) proměnná.
3) Průměr y je lineární funkcí x.

9
Předpoklady lineární regrese (odhadu MNČ)
4) Chyba odhadu () má normální rozdělení se střední hodnotou 0.
• nesplnění => odhad není nevychýlený a úsudky o kvalitě odhadu jsou chybné

5) Rozptyl chyby odhadu má konstantní rozptyl pro všechny případy


(homoskedasticita). Chyby odhadu () jsou nezávislé na x.
• nesplnění => odhad není nejlepší a úsudky o kvalitě odhadu jsou chybné

ZE 4 A 5 VYPLÝVÁ, ŽE NÁHODNÁ CHYBA ODHADU () MÁ NORMÁLNÍ ROZDĚLENÍ. 10


Chyba odhadu ()

𝛽0 + 𝛽1 𝑥

𝛽0 + 𝛽1 𝑥3
𝛽0 + 𝛽1 𝑥3

𝛽0 + 𝛽1 𝑥2
𝛽0 + 𝛽1 𝑥2

𝛽0 + 𝛽1 𝑥1
𝛽0 + 𝛽1 𝑥1

11
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.
Předpoklady lineární regrese (odhadu MNČ)
6) Chyby odhadu () jsou na sobě nezávislé (jsou náhodné)
- problém autokorelace (spíše u časových řad)
- nesplnění => odhady MNČ parametrů β nemají optimální vlastnosti. Odhady
MNČ sice zůstávají nestranné, ale jejich rozptyl již není minimální.

7) Proměnné X spolu lineárně nesouvisejí.


– např. X2 ≠ a0 + a1 X1 obecně SaiXi ≠ 0
– nesplnění => odhady jsou nepřesné (vznikají velké standardní chyby odhadu),
odhady jsou málo stabilní
– Nesplnění může vést i k rozporu mezi významným celkovým F testem a
nevýznamnými jednotlivými t testy.
12
Analýza reziduí

13
Rezidua
› Residua (odchylky) modelu
jsou charakteristikou shody
pozorování a regresního
odhadu.
› Odhad skutečných residuí 
na základním souboru.
› Velké odchylky indikují:
– případ/pozorování nepatří
do souboru
– případ/pozorování je chybně
zaznamenáno
– případ je vychýlen specifickým
faktorem/příčinou 14
Typy reziduí (výběr)
› e – reziduum = rozdíl mezi hodnotou Y a predikcí
– residua e = (Y – Ŷ)
– nepříliš vhodné (odlišné škály proměnných), rozptyl není jednotkový a závisí na X
› estr – standardizované reziduum: převedení na z-skóry
– estr = (Y – Ŷ)/se
– nevhodné, celkově jednotkový rozptyl, ale stále závisí na X
› estud – studentizovaná rezidua: standardizace odhadem směrodatné
chyby podmíněné hodnotami X, také se nazývají vnitřně studentizovaná
– estud = (Y – Ŷ)/se|X = (Y – Ŷ)/se√(1-h)
– h = míra, která identifikuje odlehlé pozorování (leverage)
– jednotkový rozptyl, nezávisí na X
– závislost residuí je potlačena
– velikost lze testovat t-testem s df = n – p, orientační hranice  2
› n – velikost souboru, p – počet nezávisle proměnných v modelu včetně konstanty
15
Analýza reziduí
› Pokud jsou splněny všechny předpoklady modelu, je střední
hodnota reziduí při jakékoli konkrétní hodnotě x rovna 0.
› Každé pozorování, které dává velkou kladnou nebo zápornou
reziduální hodnotu, by mělo být pečlivě prozkoumáno, zda se
nejedná o neobvyklé okolnosti, jako je chyba záznamu nebo
výjimečné experimentální podmínky.

16
Normalita reziduí
› Je podstatná jen pro testování a intervaly spolehlivosti.
› Není kritická, pro větší soubory (>50) je normalita odhadu b
zaručena na základě centrálního limitního teorému
– testy a intervaly pro parametry jsou v pořádku, i když residua nejsou
normálně rozložena
– intervaly pro individuální hodnoty jsou ale zkreslené
› Možnost zjistit vizuálně nebo výpočetně
– histogram
– Q-Q, graf standardizovaných (studentizovaných) reziduí
– testy normality – ALE s rostoucím počtem případů zamítají i nepatrné
odchylky

17
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.

Analýza reziduí
› Graf standardizovaných reziduí

18
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.

Analýza reziduí
› Graf standardizovaných reziduí

19
Práce s kvalitativními
nezávisle proměnnými

20
Práce s kvalitativními nezávisle proměnnými
› Převod nominálních a ordinálních proměnných na dummy proměnné,
někdy nazývané indikátorové proměnné (0-1).
› Nutno určit referenční úroveň.
› Příklad: proměnná X1 vzdělání se třemi úrovněmi (L1 = základní, L2 =
středoškolské, L3 = vysokoškolské).
– Zvolím referenční úroveň L1.
– Ostatní dvě úrovně převedu na dvě nové dummy proměnné: X11 =
středoškolské, X12 = vysokoškolské.
– X11 … Pokud má respondent nejvyšší dosažené vzdělání L2 (středoškolské),
označím ho 1. Pokud ne, označím ho 0.
– X12 … Pokud má respondent nejvyšší dosažené vzdělání L3 (vysoškolské),
označím ho 1. Pokud ne, označím ho 0.
– Úroveň L1 (referenční úroveň) se samostatně nevykazuje, protože je obsažena
v konstantě modelu (L2 a L3 jsou totiž nulové).
21
Práce s kvalitativními nezávisle proměnnými
› Indikátorové proměnné pro nominální kategorizovanou proměnnou
s kategoriemi (A,B,C,D).
proměnná: X1 X2 X3
A 1 0 0
B 0 1 0
C 0 0 1
D 0 0 0 (referenční kategorie)

› Y = a + b 1 X1 + b 2 X2 + b 3 X3

› pro A: Y = a + b1 b1 = přírůstek A oproti D


› pro B: Y = a + b2 b2 = přírůstek B oproti D
› pro C: Y = a + b3 b3 = přírůstek C oproti D
› pro D: Y=a a = efekt referenční kategorie D 22
Práce s kvalitativními nezávisle proměnnými
model: Y = b0 + b1 X1 + b2 X2 + e

číselná proměnná kvalitativní (dichotomická) proměnná

X2 = 0: Y = b0 + b1 X1 + e
X2 = 1: Y = (b0 + b2 ) + b1 X1 + e

› stejná směrnice přímek


› rozdílná konstanta

23
Odhad modelu vícenásobné
lineární regrese

24
Odhad rozptylu náhodných chyb (𝑠𝑒2 )
› Nevychýlený odhad – záleží na něm úsudky o přesnosti odhadu
– nevychýlenost závisí na splnění předpokladu o s2
𝑆𝑆𝑟𝑒𝑠𝑖𝑑
› Vychází se z rozkladu čtverců – residuální rozptyl. 𝑠𝑒2 =
𝑛 − (𝑘 + 1)
› Dosahuje minimální možné hodnoty pro lineární model – je to
také kritérium pro odhad modelu.
› Nezávisí na počtu případů, ale na kvalitě vztahu v základním
souboru.
› Směrodatná odchylka residuí se
– odmocnina z odhadnutého residuálního rozptylu

n = počet případů
k = počet nezávisle proměnných v modelu (bez konstanty) 25
R2 a modifikovaný koeficient determinace R2
R2 ukazuje, jakou část rozptylu Y vysvětluje rozptyl Ŷ neboli model
- zbytek rozptylu Y je rozptyl residuí
Koeficient vícenásobné korelace R – korelační koeficient mezi Y a Ŷ (lineární kombinace
nezávislých proměnných X)
- lineární kombinace (odhadnutá rovnice) získaná MNČ maximalizuje korelační koeficient s Y
R2 – čtverec vícenásobného korelačního koeficientu R2 = R(Y, Ŷ)2
R2 vždy roste s přidáním nové proměnné nebo další funkce existujících proměnných (zvětšení
modelu)
- řídit se pouze R2 by vedlo k nesmyslně velkým modelům

R2adj – modifikované R2
- samotné přidání proměnné je penalizováno snížením koeficientu
- penalizace je slabá, R2adj po přidání proměnné téměř vždy vroste

n = počet pozorování
k = počet nezávisle proměnných v modelu (bez zahrnutí konstanty)

26
Standardizace regresních koeficientů
› Velikost koeficientů závisí na měrných jednotkách X a Y.
– pro jiné jednotky lze koeficienty snadno přepočítat
› Pro srovnání vlivu proměnných X vadí různé jednotky těchto
proměnných => bezrozměrné beta koeficienty.
– pozor na terminologii – nesouvisí se skutečnými hodnotami koeficientů
značenými b
› Spočteny na standardizovaných proměnných Y a X.
– opět lze snadno spočítat z původních koeficientů
– u regrese s jedním prediktorem odpovídá beta korelačnímu koeficientu

27
Standardizace regresních koeficientů
› Standardizované koeficienty jsou koeficienty, které bychom
získali, kdybychom před provedením regrese převedli všechny
proměnné na z-skóre.

› Interpretace: Hodnota b = 1 znamená, že zvýšení prediktoru o 1


směrodatnou odchylku vyvolá odpovídající zvýšení výsledné
proměnné o 1 směrodatnou odchylku.

28
Analýza rozptylu (ANOVA) ve vícenásobné regresi

› 𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑘 = 0
› 𝐻𝐴 : 𝐴𝑙𝑒𝑠𝑝𝑜ň 𝑗𝑒𝑑𝑛𝑜 𝛽1 , … , 𝛽𝑘 𝑗𝑒 𝑛𝑒𝑛𝑢𝑙𝑜𝑣é.

𝑆𝑆𝑀𝑜𝑑𝑒𝑙 = 𝑆𝑆𝑇𝑜𝑡𝑎𝑙 − 𝑆𝑆𝑅𝑒𝑠𝑖𝑑 Množství celkové variability, která byla


vysvětlena pomocí modelu.

𝑆𝑆𝑀𝑜𝑑𝑒𝑙 /𝑘 𝑅 2 /𝑘
𝐹= =
𝑆𝑆𝑅𝑒𝑠𝑖𝑑 /(𝑛− 𝑘+1 ) (1−𝑅 2 )/(𝑛− 𝑘+1 )

𝑑𝑓 = (𝑘; 𝑛 − 𝑘 + 1 )
n = počet případů
k = počet nezávisle proměnných v modelu (bez konstanty) 29
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.

Metoda nejmenších čtverců


› σ 𝑦 − (𝑎 + 𝑏1 𝑥1 + ⋯ + 𝑏𝑘 𝑥𝑘 ) = 𝑚𝑖𝑛

𝑅2 /𝑘 0.861/3
𝐹= = = 37,16
1 − 𝑅2 1 − 0.861
𝑛− 𝑘+1 22 − 3 + 1

𝑑𝑓 = (3; 22 − 3 + 1 )

30
Statistická analýza dat: Přednáška 7
Jindřich Špička

Vícenásobná lineární regrese – výstavba modelu a


regresní diagnostika

1
Program přednášky 7
1. Výstavba regresního modelu.
2. Diagnostika regresního modelu (ověřování předpokladů).
a) Kontrola linearity.
b) Vliv odlehlých pozorování.
c) Nezávislost náhodných chyb () na prediktorech (X).
d) Vzájemná nezávislost prediktorů (X) – testování (multi)kolinearity.
e) Rozptyl náhodných chyb () je konstantní vzhledem k hodnotám X
– testování heteroskedasticity.
f) Nezávislost náhodných chyb () mezi sebou – testování
autokorelace.
g) Normalita náhodných chyb ().
2
Doporučené zdroje pro tuto přednášku
› Simple and Multiple Linear Regression - YouTube
› Assumptions of Linear Regression – YouTube
› Normality test [Simply Explained] – YouTube
› Dummy Variables in Multiple Regression - YouTube
› Statistické nástroje ekonomického výzkumu – kap. 6.7 Vybrané
postupy regresní diagnostiky.

3
Výstavba regresního modelu

4
Připomenutí principu vícenásobné lineární regrese
Nejméně jeden

5
Vliv přítomnosti proměnné v modelu
› Vliv přítomnosti a nepřítomnosti proměnné Xk v rovnici závisí na
hodnotě koeficientu bk (skutečný koeficient v základním
souboru).
› Proměnné do rovnice je třeba zařazovat s rozmyslem.
– je třeba získat do dat všechny relevantní proměnné, které na základě
teoretické znalosti problému mají vztah k závislé proměnné,
– z rovnice se vylučují statisticky nevýznamné proměnné (t-test).

Závisle proměnná (Y)


Hlavní efekty nezávisle proměnných (X) – testujeme hypotézy
Kontrolní proměnné (X) – neuvádějí se v hypotézách, kontrola vlivu
zejména demografických a socioekonomických proměnných
6
Vliv přítomnosti proměnné v modelu
› bk ≠ 0
– proměnná Xk do rovnice patří
– její opomenutí vede vychýlení odhadů ostatních koeficientů v rovnici
– vychýlení nenastává, pokud Xk není korelováno s ostatními nezávisle
proměnnými v rovnici

› bk = 0
– proměnná Xk do rovnice nepatří
– při jejím zahrnutí do rovnice zůstává odhad ostatních koeficientů
nevychýlený, ale je méně přesný (odhady mají větší rozptyl)
– snížení přesnosti nenastává, pokud Xk není korelováno s ostatními
proměnnými v rovnici
7
Výběr proměnných
› Obvykle ne všechny proměnné X v datech lze použít v modelu.
› Proměnné X mohou být korelovány – nelze je obě použít v jednom
modelu, jejich vliv se vzájemně oslabuje (vysoká hodnota
signifikance).
› Často lze vytvořit více podobně kvalitních modelů.
› Existují metody pro automatické budování modelů (FORWARD,
BACKWARD, STEPWISE)
– Vhodné při velkém počtu nezávisle proměnných X.
– Obecně se nedoporučují kvůli ztrátě kontroly nad procesem výběru.
– Při automatickém budování modelu vyzkoušejte více metod a vždy zhodnoťte
věcnou smysluplnost modelu, nalezené modely případně upravte.
8
Metody automatického výběru proměnných
› FORWARD – postupné zařazování prediktorů
– začíná s modelem obsahujícím jen konstantu
– postupné zařazování prediktorů podle schopnosti snížit residuální rozptyl
modelu – je požadována určitá míra snížení (volba uživatele)
› BACKWARD – postupné vyřazování prediktorů
– začíná s plným modelem (není vhodná, pokud je výchozí model příliš veliký)
– postupně jsou odstraňovány proměnné, jejichž odstranění zvýší residuální
rozptyl nejméně – je stanovena mez, kterou nesmí zvýšení překročit (volba
uživatele)
› STEPWISE – kombinace obou
– začíná s modelem obsahujícím jen konstantu
– přidává proměnné metodou FORWARD, po každém přidání zkouší metodou
BACKWARD odstranit dříve přidané proměnné 9
Porovnávání modelů s různou sadou proměnných
› Existuje kompromis mezi jednoduchostí modelu a dobrou shodu
modelu s daty - s přidáváním dalších prediktorů do modelu se dobrá
shoda (např. R2) stále zvyšuje, ale model je složitější.

› Mallowsova statistika – měla by odpovídat počtu parametrů modelu.


› Informační kritéria: statistické charakteristiky zahrnující věrohodnost
modelu i jeho složitost
– AIC (Akaikeho informační kritérium) – čím nižší hodnota, tím vhodnější model
– BIC (Bayesovo informační kritérium) – oproti AIC intenzivněji penalizuje složité
modely (doporučené)

10
Ověřování předpokladů

11
Ověřování předpokladů
› Předpoklady pro odhad metodou nejmenších čtverců:
– předpoklad tvaru – linearita a aditivita chyby
– nezávislost náhodných chyb () na prediktorech (X)
– nezávislost prediktorů (X) – nepřítomnost multikolinearity

› Předpoklady pro testování hypotéz:


– homoskedasticita – rozptyl náhodných chyb () je konstantní vzhledem
k hodnotám X
– nezávislost náhodných chyb () mezi sebou – nepřítomnost autokorelace
– normalita náhodných chyb ()

12
Kontrola linearity

13
Kontrola linearity – vizuálně
› Bodový graf Y vůči X.
› Grafy residuí (svislá osa) proti odhadnuté závisle proměnné Y a proti každé z nezávisle
proměnných X (vodorovná osa)
› Porušení paralelního pásu bodů s vodorovnou osu a určitá struktura bodů indikují
nelinearitu.

14
Vliv odlehlých pozorování

15
Vychýlené hodnoty
› Odlehlé hodnoty, které spadají vodorovně od středu
mraku, ale nemají vliv na sklon regresní přímky, se
nazývají pákové body (neobvyklé v x a y).
– Není potřeba se jimi zabývat, neovlivňují sklon
regresní přímky.

› Odlehlé hodnoty, které skutečně ovlivňují sklon


regresní přímky, se nazývají vlivné body, influential
points (neobvyklé v y).
– Lze je odhalit například pomocí Cookovy
vzdálenosti nebo DfBeta.
– Problematické.
16
Cookova vzdálenost
› Cookova vzdálenost je míra změny všech koeficientů v regresní
rovnici, která nastane, když se případ vyloučí z výpočtů.
– Charakterizuje celkový vliv případu na rovnici.
– Vysoké hodnoty míry naznačují problémy, vliv jednotlivého bodu je příliš
velký.

• Cookovu distanci můžeme testovat na významnost tak, že ji porovnáme


s rozdělením F(p, n-p)
– p je počet nezávislých proměnných v rovnici
• Podezřelé hodnoty jsou ty, kde Cookova vzdálenost přesáhne 4/𝒏.
• Některé zdroje uvádějí kritickou mez Cookovy distance = 1.

17
DfFit
› DfFit - pokud pozorování z modelu vyloučíte a znovu jej
přepočítáte, předpovídané hodnoty se změní. Statistika DFFITS
je mírou toho, jak se změní předpovídaná hodnota u i-tého
pozorování, když je i-té pozorování vyřazeno.
› Aby byly hodnoty DfFit nezávislé na měřítku dat, změna
předpovídaných hodnot se škáluje vydělením standardní chybou
předpovídané hodnoty v daném bodě.
› Pozorování je vlivné, pokud velikost jeho hodnoty DfFit
přesahuje 2* 𝒑/𝒏, kde p je počet efektů v modelu včetně
konstanty a n je velikost vzorku.
› Na rozdíl od Cookovy vzdálenosti zohledňují i směr vlivu.
18
DfBeta
› DfBetak – rozdíl mezi regresním koeficientem bk spočteným
ze všech dat a koeficientem spočteným při vynechání případu.
– Charakteristika případu – ukazuje na to, jak případ ovlivní koeficient.
– Spočítáno pro každý případ a každý koeficient.
– Hodnoty vzdálené od nuly indikují vlivný případ.

› Standardizované DfBetak – standardizovaná verze DfBeta


– Je vhodné kontrolovat případy relativně.
– Doporučuje se zkontrolovat všechny případy, u nichž je jedna z těchto
veličin v absolutní hodnotě vyšší než 2/√n (n je počet případů).

19
Odlehlé pozorování – vizuální detekce
› Graf studentizovaných residuí
(svislá osa) proti predikované
hodnotě (vodorovná osa).

› Seznam případů pro něž jsou


hodnoty vyšší než zvolený
práh, typicky ±2 nebo ± 3
(pro n > 50).

20
Nezávislost náhodných chyb
() na prediktorech (X)

21
Nezávislost náhodných chyb () na prediktorech (X)
› Korelace X a e.
› Vizuálně – požadovány
chaoticky rozložené body
(bez tvaru).

› Řešením může být


například dvoustupňová
regresní analýza: Two-
Stage Least Squares (2SLS)
Regression Analysis
22
Nepřítomnost multikolinearity
Vzájemná nezávislost prediktorů (X)

23
Nezávislost prediktorů (X)
› Vysoká korelace mezi Xi a Xj (obecně mezi nezávisle
proměnnými) vede k nestabilitě odhadu koeficientů.
– Vysoká korelovanost v množině proměnných, je obtížné
separovat vlivy vysoce korelovaných proměnných.

› Vysoká korelace: přelévání dat mezi Xi a Xj pro nová


pozorování a pro jiné datové soubory k témuž problému
a z toho plynoucí změny v b1 a v b2.

24
Nezávislost prediktorů (X)
› Kolinearita (multikolinearita)
– datová – korelace v datech
– podstatová – věcná a plynoucí z významu prediktorů
– modelová – chybně stanovený model

Podezření na multikolinearitu: regresní koeficienty jsou


opačné, než plyne z logiky vztahů

› Singularita – kompletní korelovanost mezi skupinou prediktorů,


jeden lze plně vyjádřit ostatními.
– Krajní případ kolinearity – regresi nemůžeme počítat, jednu proměnnou
je nutno vynechat.

25
Multikolinearita – korelační matice a scatterplot

26
Multikolinearita – tolerance
› Tolerance = 1 – Rk2
› Rk2 je koeficient determinace proměnné Xk na všechny ostatní
nezávislé proměnné.
› Je-li tolerance blízká k nule, znamená to, že proměnná je
lineárně silně svázaná s ostatními a je to kandidát na vyloučení.
› Je-li tolerance menší než 0,0001, proměnná je vyloučena,
protože mohou nastat výpočetní problémy.
› Naopak tolerance blízká k 1 ukazuje na to, že proměnná není
korelovaná se zbytkem.

27
Multikolinearita – Variance Inflation Factor (VIF)

› Variance-inflation factor (VIFk ) 𝟐


𝒔𝒆 𝟏
– udává, kolikrát je rozptyl 𝑽 𝒃𝒋 = 𝟐
𝟏 − 𝑹𝒋 𝟐
𝒏 − 𝟏 𝒔𝒋
odhadnutého koeficientu bk se2 = rozptyl residuí
větší, než jeho rozptyl v regresi sj 2 = rozptyl Xj
pouze s prediktorem Xk Rj2 = koeficient determinace Xj na ostatních X
v rovnici
› Rovná se převrácené hodnotě
tolerance. 𝟏
𝐕𝐈𝐅𝒋 =
𝟏 − 𝑹𝒋 𝟐

28
Multikolinearita – Variance Inflation Factor (VIF)
› Hodnota 1 znamená, že prediktor není korelován s ostatními
proměnnými.
› Čím vyšší je hodnota, tím větší je korelace proměnné s ostatními
proměnnými.
› Hodnoty vyšší než 4 nebo 5 (někdy i 2) jsou někdy považovány za
středně vysoké až vysoké, přičemž hodnoty 10 a více jsou považovány
za velmi vysoké.
› Pokud je VIF vysoká, ztěžuje to rozklíčování relativní důležitosti
prediktorů v modelu, zejména pokud jsou standardní chyby odhadu
považovány za velké.
› Čím vyšší je VIF, tím více je standardní chyba nadsazená a tím větší je
interval spolehlivosti a tím menší je šance, že koeficient bude určen
jako statisticky významný.
29
Opatření proti multikolinearitě
a) Sběr nových dat, tak, aby proměnné Xk nebyly korelované
(experimentální plánování při sběru) – málokdy je možné.
b) Nový přístup k modelu – určení jiné sestavy nezávislých proměnných.
c) Forward nebo stepwise metoda výběru částečně pomůže (ale malá
porce dalších dat může dát jiný výsledek).
d) Vynechání jedné z korelovaných proměnných.
e) Vytvoření indexu (např. součtového) z korelovaných proměnných.
f) Proměnné Xk (nebo jejich podmnožina) se nejprve transformují
na hlavní komponenty nebo na nezávislé faktory, které vstupují jako
regresory (Faktorová analýza, Analýza hlavních komponent).
g) Hřebenová regrese (ridge regression).
30
Homoskedasticita
Rozptyl náhodných chyb () je konstantní vzhledem
k hodnotám X.

31
Homoskedasticita
Odhad rozptylu residuí je stejný pro všechny případy.

Porušení předpokladu (= heteroskedasticita) – odhad koeficientů je sice


nevychýlený, ale odhad reziduálního rozptylu je vychýlený → testy v
modelu a intervaly spolehlivosti jsou chybné.

32
Heteroskedasticita – diagnostické grafy

› Graf studentizovaných residuí


(svislá osa) proti predikované
hodnotě Ŷ (vodorovná osa)
nebo oproti každé nezávislé
proměnné X.
› Pás bodů je při neměnné
varianci zhruba stejně široký
po celém rozpětí hodnot X
kolem hodnoty 0 na ose Y.

33
Heteroskedasticita - testování
› Několik testů
– Whiteův, Pakrův, Leveneho test, Bartletův test, Breuscheův-
Paganův test

› H0: residua mají konstantní rozptyl (homoskedasticita)


› HA: residua NEmají konstantní rozptyl
(heteroskedasticita)

34
Heteroskedasticita – některá řešení
› Existuje lepší odhad – řešením může být vážená metoda
nejmenších čtverců.
Malá váha 1
𝑤𝑖 =
𝜎𝑒

Váha = převrácená hodnota


Velká váha směrodatné odchylky
studentizovaných residuí.

35
Heteroskedasticita – některá řešení
› Speciální regresní algoritmy penalizující
heteroskedasticitu.
– Nepoužívají metodu nejmenších čtverců, ale například
metodu maximální věrohodnosti (maximum likelihood).

36
Nepřítomnost autokorelace
Musí platit nezávislost náhodných chyb ()
mezi sebou

37
Autokorelace
› Korelace mezi residui  není nulová.
› Má smysl jen u přirozeně uspořádaných dat, např. časové řady.
› Příznakem autokorelace je nepřirozeně vysoké R2 (zdánlivě skvělý
model).
› Odhad koeficientů je stále nevychýlený.
› Odhad rozptylu je vychýlený => testy modelu jsou chybné.
› Existuje lepší odhad – vážená metoda nejmenších čtverců.
› Autokorelace prvního řádu: korelované jsou po sobě jdoucí chyby.
› Autokorelace druhého řádu (a vyššího): korelovány jsou chybové
členy vzdálené od sebe dvě (a více) období.
38
Autokorelace – diagnostika
› Durbin – Watsonův test
– jen autokorelace prvního řádu
– signifikanci nelze obecně spočítat, srovnání hodnot podle tabulek
› statistika má hodnoty mezi 0 a 4
› nezávislost – statistika je blízko 2
› statistika < 2 => pozitivní autokorelace
› statistika > 2 => negativní autokorelace

› Breusch-Godfrey test řádu p


– odhad residuí obecného modelu

39
Autokorelace – řešení
› Vážená metoda nejmenších čtverců - problém odhadu
vah.
› Pro časové řady
– Cochrane-Orcutt
› iterativní metoda
› jen pro autokorelační model prvního stupně
– ARIMA (Box–Jenkinsova metodologie)

40
Normalita náhodných chyb ()
Normalita reziduí ()

41
Normalita reziduí
› Je podstatná jen pro testování a intervaly spolehlivosti.
› Není kritická, pro větší soubory (>50) je normalita odhadu b
zaručena na základě centrálního limitního teorému.
› Porušení předpokladu:
– testy a intervaly pro parametry jsou v pořádku, i když residua
nejsou normálně rozložena,
– intervaly pro individuální hodnoty jsou ale zkreslené.
› Řešení: transformace dat (Box-Coxova transformace,
dekadický logaritmus), odstranění odlehlých hodnot.
42
Vizuální posouzení normality reziduí
(používejte studentizovaná rezidua)

Q-Q graf Histogram 43


Statistická analýza dat: Přednáška 8
Jindřich Špička

Metody vícerozměrné analýzy – přehled, předpoklady


a použití

1
Program přednášky 8
1. Podstata vícerozměrných metod
2. Metody externální analýzy
3. Metody internální analýzy

2
Zdroje pro přednášku 8
› Hendl, J. (2015). Přehled statistických metod. 736 s. Portál. ISBN
978-80-262-0981-2
– Kap. 13.1 Charakteristiky vícerozměrných metod.

3
Podstata vícerozměrných metod
› Tyto metody zkoumají:
– vztahy mezi skupinami proměnných (externální analýza),
– vztahy uvnitř skupin proměnných (internální analýza),
– rozdíly v chování proměnných v různých subpopulacích
(strukturální analýza).

𝑥11 ⋯ 𝑥1𝑝
𝐗= ⋮ ⋱ ⋮ n pozorování
𝑥𝑛1 ⋯ 𝑥𝑛𝑝

p proměnných

4
Úloha vícerozměrných metod
› Zkoumání vztahů, souvislostí a závislostí proměnných.
› Redukce rozměru úlohy vzhledem k počtu proměnných
(seskupujeme proměnné).

› Redukce rozměru úlohy vzhledem k počtu jednotek


(seskupujeme jednotky).

5
Metody externální analýzy

6
Metody externální analýzy
› Zkoumají vztahy mezi skupinami proměnných.
› Převažují konfirmační metody, které testují předem formulované hypotézy.

Příklady externálních metod:


1. Vícenásobná regresní analýza (přednášky 5, 6 a 7) včetně logistické regrese.
2. Kanonická korelační analýza.
3. Víceúrovňové modelování.
4. Vícerozměrná analýza rozptylu (ANOVA) a kovariance (bakalářské studium).
5. Diskriminační analýza.
6. Regresní a klasifikační stromy.
7. Analýza historie událostí.

7
1. Vícenásobná regresní analýza
› Kritériální (závisle) proměnná:
– Číselná (metrická) – vícenásobná lineární regrese (metoda nejmenších
čtverců).

– Kategoriální (binární) – binární logistická regrese (metoda maximální


věrohodnosti).

– Kategoriální (ordinální) – ordinální logistická regrese

– Kategoriální (nominální) – multinomiální logistická regrese

› Nezávisle proměnné by měly být většinou číselné (metrické). 8


2. Kanonická korelační analýza – princip
› Zkoumá povahu vztahů mezi dvěma množinami (sadami) proměnných.
› Cíl: nalezení lineárních kombinací proměnných z obou sad, které maximalizují korelaci
mezi těmito kombinacemi.
› Data jsou často standardizována (centrována a škálována), aby byla připravena pro
analýzu. To zajišťuje, že jednotlivé proměnné mají srovnatelné váhy ve výpočtech.
› V průběhu kanonické korelační analýzy se postupně hledají lineární kombinace
proměnných z každé skupiny, tedy vytváří se nové proměnné, tzv. kanonické
proměnné (canonical variables), které vedou k maximálním vzájemným korelacím
mezi skupinami.
› Nerozlišujeme mezi závisle a nezávisle proměnnými.
› Výsledkem kanonické korelační analýzy jsou kanonické korelační koeficienty, které
popisují sílu vztahu mezi lineárními kombinacemi proměnných z obou sad.
9
2. Kanonická korelační analýza - použití
› Když jsou proměnné uvnitř skupin korelované, takže nemá smysl
vyhodnocovat korelace jednotlivých proměnných odděleně, protože
by se zanedbala jejich vzájemná vnitřní korelace.
› Při snižování dimenze dat, pokud jsou skupiny původních
proměnných velké a účelem je nalézt malý počet nových kanonických
proměnných, které postihují v maximální míře korelace mezi
původními skupinami proměnných.
› Příklad: hledáme závislost mezi dvěma sadami odevzdaných testů z
anglického jazyka.
› Příliš často se nepoužívá, protože analytici raději volí specifické
metody modifikované pro určité situace (např. diskriminační analýza,
MANOVA, vícenásobná lineární regrese).

10
3. Víceúrovňové modelování
› Zohledňuje různé úrovně agregace pozorování.

Kraj

Školy Parametry na nižší úrovni


jsou funkcí kontextových
Třídy proměnných (na vyšší
úrovni).
Žáci

› Nevýhoda: výpočetně velmi náročné, v praxi použitelné s jedním až dvěma


prediktory (x) a maximálně třemi úrovněmi, náročná interpretace výsledků.

11
3. Víceúrovňové modelování
› Příklad: Hodnotíme vliv socioekonomického statusu žáků (X) na
úroveň počítačové gramotnosti (Y).
› Tradiční regresní model odhadu pro žáka (i): 𝑦𝑖 = 𝑎 + 𝑏𝑖 𝑥𝑖 + 𝑒𝑖
› U každé školy (j) může být efekt jiný: 𝑦𝑖𝑗 = 𝑎𝑗 + 𝑏𝑥𝑖𝑗 + 𝑒𝑖𝑗

Vliv j-té školy na úrovňovou konstantu modelu

Vliv i-tého žáka v j-té škole na


sklon regresní přímky

12
3. Víceúrovňové modelování – ukázka postupu
› Y = čas potřebný k zaběhnutí jedné míle (indikátor tělesné
zdatnosti).
› X1 = věk žáka
› X2 = pohlaví žáka
› Sledované objekty: žáci v různých třídách, které byly v různých
školách.
› Otázka: Liší se odhady regresních koeficientů mezi třídami a
školami? Pokud ano, jak?

13
3. Víceúrovňové modelování – ukázka postupu
1. Hodnocení rozdílnosti mezi školami.
𝑦𝑖𝑗 = 𝑏0𝑗 + 𝑒𝑖𝑗

čas u i-tého žáka ze školy j průměrný čas na škole j náhodná odchylka na úrovni jedince

𝑏0𝑗 = 𝑐00 + 𝛼0𝑗

průměrný čas všech škol náhodná odchylka na úrovni školy

Víceúrovňové modelování se uplatní tam, kde se prokážou rozdíly mezi skupinami (školami).

14
3. Víceúrovňové modelování – ukázka postupu
2. Hledání průměrných regresních rovnic pro závislost výkonu na
pohlaví a věku.
𝑦𝑖𝑗 = 𝑏0𝑗 + 𝑏1𝑗 𝑝𝑜ℎ𝑙𝑎𝑣í + 𝑏2𝑗 𝑣ě𝑘𝑖𝑗 − 𝑣ě𝑘.𝑗 + 𝑒𝑖𝑗

průměr věku na škole j

𝑏𝑘𝑗 = 𝑐𝑘𝑗 + 𝛼𝑘𝑗

celkový průměr náhodná chyba

15
3. Víceúrovňové modelování – ukázka postupu
3. Posouzení, jaký vliv na tělesnou zdatnost žáka mají proměnné z
makroúrovně (liší se mezi školami), například:
- Kvalifikace učitele tělesné výchovy.
- Testování sportovní zdatnosti.
- Minuty tělesné výchovy za týden.
- Tělesná výchova na pozemku blízko školy.
- Klimatizace tělocvičny.
- Minuty odpočinku denně.

16
4. Vícerozměrná analýza rozptylu (ANOVA, MANOVA)
› Stejně jako lineární regresní analýza patří do skupiny obecných
lineárních modelů (General Linear Models).
› Kritériální (závisle) proměnná:
– Číselná (metrická) – ANOVA (jedno- nebo vícefaktorová podle toho, kolik
máme nezávisle proměnných).
– V případě více než jedné závisle proměnné volíme metodu MANOVA
(Multivariate Analysis Of VAriance).
› Nezávisle proměnné:
– Kategoriální s více než dvěma úrovněmi (nominální).
– Kategoriální s více než dvěma úrovněmi (ordinální).

17
5. Diskriminační analýza
› Optimální identifikace příslušnosti objektu k jedné z několika
kategorií, o kterých máme nějaké statistické informace.
› Cílem je odhad diskriminační funkce, tedy nalezení lineární
kombinace (nejlepší sady) prediktorů (X), které nejlépe oddělují
jednotlivé skupiny vyjádřené kategoriální závisle proměnnou (Y) a
zároveň minimalizují variabilitu uvnitř každé skupiny.
– Soustředíme se na vnitřně co nejvíce podobné skupiny, které se od sebe
maximálně odlišují.
› Prediktory (nezávisle proměnné) jsou číselné (metrické) proměnné.
› Diskriminační analýza je často využívána v oblastech, jako je biologie
(k rozlišení mezi různými druhy), medicína (diagnóza nemocí),
marketing (segmentace zákazníků), a dalších, kde je důležité
klasifikovat nebo rozlišit mezi různými skupinami na základě více
proměnných. 18
6. Regresní a klasifikační stromy (rozhodovací stromy)
› Metody, které vyhledávají
posloupnost proměnných a
jejich štěpení.
› Dochází k rozkladu prostoru
hodnot nezávisle proměnných Závisle
proměnná
Příjem
do jemnějšího detailu.
1. úroveň
› Explorační metoda vhodná pro
Muži Ženy
prediktorů

– Číselné (metrické) závisle 2. úroveň


prediktorů
VŠ zbytek vdané svobodné
proměnné (regresní strom) –
základem je F-test (podobně jako v
ANOVA).
– Kategoriální závisle proměnné Nevyžaduje předpoklady o rozdělení závisle proměnné.
(klasifikační strom) – základem je Snadná intepretace.
chí-kvadrát test.
Nutno mít velký soubor dat (kvůli štěpení na podskupiny).
19
7. Analýza historie událostí (survival analysis)
› Zabývá se pohybem subjektů v čase mezi určitými stavy.
› Hlavní proměnná je čas (sada okamžiků, událostí nebo doba do
určité události).
– Lékařství: smrt, nové propuknutí choroby, objevení symptomů, začátek
nemoci.
– Sociologie: rozvod, změna zaměstnání, zanechání kouření, první použití
drogy.
– Ekonomie: bankrot, délka stávky, žádost o pomoc v nezaměstnanosti.
› Příklad: u dvou skupin pacientů se zkoumá vliv léčby na dobu
trvání klinického stavu nebo přežití.
› Hlavní metoda: Coxův regresní model

20
Doporučené zdroje pro vybrané metody externální
analýzy
› Diskriminační analýza – ACREA
› Rozhodovací stromy – pomocník při hledání předpovědi – ACREA
› Analýza rozptylu (ANOVA) - ACREA

21
Metody internální analýzy

22
Metody internální analýzy
› Zkoumají vztahy mezi proměnnými uvnitř jedné množiny
proměnných.
› Explorační techniky, které slouží k objevování nových vztahů a
proměnných spíše než k jejich konfirmaci.

1. Analýza hlavních komponent (přednáška 11).


2. Faktorová analýza (přednáška 12).
3. Shluková analýza (přednášky 9-10).
4. Korespondenční analýza.
5. Analýza latentních tříd.
6. Mnohorozměrné škálování. 23
Systematizace metod
A. Hledání podobných případů (objektů)
1. Neznáme příslušnost případů do skupin: shluková analýza, analýza
latentních tříd, mnohorozměrné škálování.
2. Známe příslušnost případů do skupin: diskriminační analýza,
neuronové sítě.

B. Hledání podobných proměnných


• Faktorová analýza, analýza hlavních komponent, méně často shluková
analýza proměnných.

24
1. Analýza hlavních komponent
(Principal Component Analysis)
› Redukce počtu proměnných pomocí tzv. hlavních komponent,
kterými popisuje variabilitu všech proměnných a vztahy mezi
nimi.
› Hlavní komponenty jsou „nové proměnné“, které vznikají lineární
kombinací původních proměnných. Komponenty nejsou
vzájemně korelované a není cílem je interpretovat.
› Počet komponent závisí na párové korelaci mezi původními
proměnnými.
– Nízká vzájemná korelace – velký počet komponent.
– Vysoká vzájemná korelace – malý počet komponent.
› Neexistuje rozdělení na závisle a nezávisle proměnné.
25
1. Analýza hlavních komponent – příklad
Kumulativní
› Původně 66 strukturálních a Komponenta procento (%)

ekonomických proměnných z
podniků v českém
potravinářském a nápojovém
průmyslu (CZ NACE 10 a 11)

PCA

Špička, J. (2017). What determines propensity to get public investment subsidies? A case study of the Czech food industry. Proceedings
26 of
the 8th International Scientific Conference Rural Development 2017. http://doi.org/10.15544/RD.2017.052
2. Explorační faktorová analýza
(Exploratory Factor Analysis)
› Podobné cíle jako PCA – popsat chování množiny původních
proměnných pomocí menšího počtu nových proměnných (faktorů).
› Rozdíl od PCA – důraz na interpretaci nových proměnných, u
některých algoritmů EFA mohou nové faktory vzájemně korelovat.
› Úkoly EFA:
– Analyzovat korelace většího množství proměnných tím, že většina
proměnných v jednom shluku spolu silně korelují a proměnné z různých
shluků mezi sebou korelovat nemusejí (ale mohou).
– Interpretovat faktory podle toho, jako proměnné obsahuje příslušný shluk.
– Shrnout variabilitu proměnných pomocí několika málo faktorů.
– Návazně lze použít výsledky EFA v dalších analýzách (např. regresní
analýze).
27
2. Explorační faktorová analýza – příklad
4 nové faktory
› Původně 20 otázek na lidské
hodnoty z šetření European
Social Survey 2018.

EFA

› Následně 4 nové komponenty


použity jako nezávisle
proměnné v regresní analýze.
Špička, J., Berg, S. (2022). The impact of human values on the chance of farming continuity. International Journal of
28
Agricultural Sustainability [online]. 2022, 21 s. https://doi.org/10.1080/14735903.2022.2047469
Rozdíly mezi PCA a EFA (dle Hendla, 2015)
› Faktorové zátěže v EFA vychází z modelu dat. PCA model nevyžaduje.
› EFA se snaží vysvětlit kovarianční/korelační matici pozorovaných proměnných
(mimo diagonálu), PCA vysvětluje pouze jejich rozptyly (diagonálu).
› Jestliže zvýšíme počet hlavních komponent (PCA), dříve uvažované
komponenty se nezmění. U EFA se se změnou počtu faktorů mění tvar všech
uvažovaných faktorů.
› Výpočet skórů hlavních komponent (PCA) je přímočarý, v EFA jsou výpočty
složitější a používá se pro tento účel mnoho metod rotace faktorových zátěží.
› Analýza hlavních komponent (PCA) nekonkuruje faktorové analýze (EFA), ale
doplňuje ji a vychází z ní.

Faktorová analýza a jak se liší explorační a konfirmační přístup? – ACREA


29
3. Shluková analýza (Cluster Analysis)
› Redukuje sledované objekty do kategorií (shluků), uvnitř nichž jsou
si objekty maximálně podobné, zatímco mezi shluky je hledána
maximální nepodobnost.
› Cílem je:
– Nalezení předem definovaného množství shluků.
– Nalezení množiny shluků, přičemž předem nevíme jejich počet.
– Vytvořit hierarchický strom (dendrogram).
– Použít výsledky pro navazující konfirmační metody (testování hypotéz).
› Založena na různých metodách výpočtu vzdálenosti mezi objekty
(např. euklidovská vzdálenost).
› Může být aplikována i na proměnné (méně často).
› Je dobré porovnat různé metody výpočtu.
30
3. Shluková analýza – příklad
› Shlukování původního Výsledky pro dva ze čtyř identifikovaných clusterů
souboru 49 národních
společností Červeného
kříže a Červeného
půlměsíce podle dvou
kritérií:
– Finanční efektivnost =
průměrné roční výdaje na
zapojenou osobu
(zaměstnanci + dobrovolníci).
– Efektivnost pomoci = počet
příjemců pomoci / počet
zapojených osob
(zaměstnanci + dobrovolníci).
Špička, J., Koblížková, K. (2017). Efficiency of Humanitarian Nonprofit Organizations – A Case of the Red Cross in the Europe
and Central Asia. Proceedings of the 14th International Scientific Conference, Part 2. Brno: Masarykova univerzita, 2017, s.
31
312–319. ISBN 978-80-210-8609-8
4. Korespondenční analýza (Correspondence Analysis)
› Grafické znázornění vztahů v kontingenční tabulce (týká se
metod probíraných v přednáškách 2 a 3).
› Cíl: výpočet dimenzí, jimiž zobrazujeme řádkové a sloupcové
kategorie kontingenční tabulky.
› Souřadnice jsou podobné hlavním komponentám (PCA) s tím, že
nedochází k rozkladu rozptylu ale k rozklad testovací statistiky
chí-kvadrát.

32
4. Korespondenční analýza – příklad

Vztah mezi kraji a tematickými pilíři.

Microsoft Word - Sbornik2014 (researchgate.net) 33


5. Analýza latentních tříd (Latent Class Analysis)
› Statistická metoda používaná ke studiu skrytých (latentních) struktur
nebo skupin v datech.
› Umožňuje kategorizovat jednotky (např. osoby, objekty) do různých
skupin na základě podobnosti v jejich odpovědích na různé proměnné
(= hledá skryté, tj. latentní třídy / shluky jednotek).
› Analýza latentních tříd se opírá o pravděpodobnostní modelování.
Každá jednotka (např. osoba) je přiřazena do jedné z latentních tříd na
základě pravděpodobnosti, že patří do této třídy podle odpovědí.
› Model LCA pracuje s pozorovanými kategoriálními nebo binárními
proměnnými (např. odpovědi na otázky ve škále ano/ne). Cílem je
odhalit, jaká kombinace odpovědí má největší pravděpodobnost pro
každou latentní třídu.
› Použití například v marketingu pro segmentaci zákazníků.
34
5. Analýza latentních tříd – příklad
› Syrová, L., Špička, J. (2022). The Impact of Foreign Capital on the
Level of ERM Implementation in Czech SMEs. Journal of Risk and
Financial Management, 15(2), 17 s.
https://doi.org/10.3390/jrfm15020083
› Klasifikace 296 nefinančních malých a středních podniků podle
14 parametrů standardů řízení podnikatelských rizik (Enterprise
Risk Management).
› Výsledek: 3 skupiny firem
– Bez systému řízení rizik (31,8 % vzorku)
– S předstíraným systémem řízení rizik (38,8 % vzorku)
– S rozvinutým systémem řízení rizik (29,4 % vzorku)
35
6. Mnohorozměrné škálování
(Multidimensional Scaling)
› Cílem je nalézt vztahy v množině objektů pomocí vhodně
zvoleného souřadnicového systému.
› Objekty jsou popsány množinou podobností nebo
nepodobností, charakterizující vztah každého páru objektů.
› Základem je tabulka podobností nebo nepodobností
(vzdáleností) mezi objekty. Výsledkem je graf.
› MDS hledá počet dimenzí tím, že redukuje počet původních
proměnných (zpravidla vzniknou nové 2 dimenze, které je
potřeba interpretovat) a souřadnice objektu na mapě.
› Čím jsou si body (objekty) na mapě bližší, tím jsou si podobnější.

36
6. Mnohorozměrné škálování – ukázka mapy

37
Metody strukturální analýzy

38
Metody strukturální analýzy
› Zkoumají vztahy mezi několika skupinami proměnných.

› Analýza korelačních cest (path analysis).


› Lineární strukturální relační analýza (LISREL).

39
Metody strukturální analýzy – příklad

Applied Sciences | Free Full-Text | Structural Equation Model of Work Situation and Work–Family Conflict on Depression and Work
40
Engagement in Commercial Motor Vehicle (CMV) Drivers (mdpi.com)
Statistická analýza dat: Přednáška 9
Jindřich Špička

Shluková (seskupovací) analýza – úvod, vzdálenosti

1
Program přednášky 9
1. Účel shlukové analýzy.
2. Princip shlukové analýzy.
3. Vybrané míry vzdáleností
ve shlukové analýze.
4. Vstupní proměnné.
5. Výstavba modelu.
6. Aplikace modelu.

2
1. Úvod do shlukové analýzy
› Shluková analýza není synonymum pro segmentaci – je to jedna
z metod.
› Případy (zákazníci, výrobky, respondenti, státy …) se dají sloučit do
relativně homogenních skupin.
› Případy v jedné skupině (klastru) jsou si podobné, případy z různých
skupin se odlišují.
› K případům v klastru lze přistupovat jednotně.

3
1. Typy shluků (clusterů, klastrů)
› Definitorické
• určené vnějšími kritérii
• ke stanovení se nepoužívají data (vlastní definice)
• např. lidi z větších měst, menších měst, pohlaví, věkové kategorie
(znalost věci) – expertní pravidla
› Typologické – není ve vztahu k cílové proměnné, SHLUKOVÁ ANALÝZA
• vychází z podobnosti zkoumaných jednotek na základě dat (jednotky
mají profil, jsou popsány na základě skupiny proměnných)
• Např. hierarchické seskupování
› Vztahové – nevhodné pro shlukovou analýzu (vhodné pro klasifikační
stromy)
• určeny vztahem k cílové proměnné – například řeším, zda někdo má
problémy se splácením úvěru, zda někdo podvádí a čím je typický apod.
4
→ Klastry typologické
› Zařazení případu do klastru vychází z jeho
datového profilu
– Případ = řádek datové matice
– Profil = n-tice hodnot všech proměnných v
řádku datové matice (vektor atributů)
› Klastry se určují na základě podobnosti
profilů
– Záleží na způsobu měření podobnosti
(homogenity)
– Stanovení dvojic podobných profilů (sousedů)
– Seskupení do klastrů
– Výběr počtu klastrů
› Model nevysvětluje a nepredikuje cílové
proměnné
– Ale jedná se o predikční model (predikce
klastru)
– Neexistují příklady řešení (závislá proměnná)
– Model vzniká strojovým nesupervizovaným
učením
– Kvalitu modelu nelze spolehlivě ověřit
Profily v datové matici
Jak viděli lidé cestu k bohatství v roce 1993: profily zemí
Stupnice závažnosti: 1= není vůbec podstatné, 7= velmi podstatné
Mean

ABILITY UNFAIR DISHONESTY CONNECT HARD GOOD


REGION OPPORTUNITY
ZEME CHANCES WORK LUCK
BU 2 3.29 4.27 4.08 4.10 4.46 3.54 3.09
CZ 2 3.51 3.52 3.73 4.01 4.06 3.01 2.87
DU 1 3.83 3.83 3.24 3.10 3.91 3.69 3.15
EG 1 3.75 3.76 3.08 3.05 3.86 3.45 2.90
ES 2 3.48 3.76 4.42 4.16 4.16 2.72 2.95
GB 1 3.58 3.87 3.50 3.23 4.12 3.67 3.17
HU 2 3.62 3.81 3.57 3.91 3.90 3.07 3.30
JA 1 3.89 3.65 3.69 2.85 3.49 3.48 3.73
PO 2 3.37 3.68 3.70 3.86 4.02 2.98 3.20
RUS 2 3.28 3.43 4.18 4.19 4.31 2.75 3.00
SLOV 2 3.55 3.74 3.77 3.76 3.83 2.97 2.86
USA 1 3.72 3.79 3.30 3.42 4.05 3.82 2.93
WG 1 3.72 3.82 2.87 3.11 3.99 3.52 3.28
6
2. Shluková analýza
› Při budovní modelu neexistuje cílová proměnná, v průběhu se vytvoří
proměnná pro označení klastru (název klastru až po jejich určení).
› Vstupní proměnné charakterizují profil případů.
› Je třeba změřit podobnost profilů.
• stanovení podobných profilů (sousedů)
• seskupení do klastrů
› výběr počtu klastrů

7
2. Použití seskupování
› Segmentace
– Marketingová úloha
– Zákazníci, produkty
› Kategorizace strukturovaných objektů
– Vozidla, úrazy, knihy, nemovitosti, transakce
› Kategorizace nestrukturovaných objektů
– Textové dokumenty, obrázky, videa, zvuky
› Redukce dimenzionality
– Snížení počtu kombinací kategorií nebo hodnot
– Změna detailu datové matice
› Detekce podvodů
– Vzdálené málo četné klastry
– Pozorování vzdálená od klastrů
2. Využití shlukové analýzy
› Příprava dat pro analýzu
• identifikace chybných
hodnot
› vzdálené málo
četné klastry
› Identifikace výjimečných
případů
• VIP zákazníci, Fraud,
AML
› vzdálené málo
četné klastry
› Segmentace
• rozdělení trhu do
skupin s podobným
chováním

9
3. Podobnost případů – vzdálenosti
› Případy jsou charakterizované mnoha proměnnými.
› Je třeba zavést míru, charakterizující podobnost v mnoha dimenzích.
› Vhodnou mírou je vzdálenost
• nezáporná – vzdálenost nenabývá záporných hodnot
• pro totožné případy nulová
• symetrická – z bodu X do Y je stejná jako z Y do X
• d(X,Y) = d(Y,X)
• splňuje trojúhelníkovou nerovnost

10
3. Euklidovská vzdálenost
B
› Příklad pro 2 dimenze (X, Y) 𝑦2

dab
y svislá osa

𝑦1
A
𝑥1 𝑥2
x
vodorovná osa

d AB = (x1 − x2 )2 + ( y1 − y2 )2
3. Eukleidovská vzdálenost
› vzdálenost představuje délka úsečky spojující body
› počítá se podle Pythagorovy věty
› snadné zobecnění do vícerozměrného prostoru
B
› nejpoužívanější typ vzdálenosti

Souřadnice
dab
𝐴 = (𝑋1 , 𝑋2 , 𝑋3 , …, 𝑋𝑖 ) y

𝐵 = (𝑌1 , 𝑌2 , 𝑌3 , …, 𝑌𝑖 )

𝑑 𝐴, 𝐵 = ෍(𝑋𝑖 − 𝑌𝑖 )2 A
x

12
3. Eukleidovská vzdálenost – příklad výpočtu (2D)

přepona trojúhelníku

vodorovná odvěsna trojúhelníku

svislá odvěsna trojúhelníku 13


3. Další příklady měr vzdálenosti

Minkowského metrika – zobecnění Euklidovské vzdálenosti:

d ( X ,Y ) = A
 i i
( X − Y ) A
A 0
Manhattanská metrika, metrika městských bloků:
d ( X , Y ) =  X i − Yi A =1
Supremální metrika, Čebyševova metrika:
d ( X , Y ) = max( X i − Yi ) A=
Čtverec euklidovské vzdálenosti - není splněna trojúhelníková
podmínka a není to matematicky vzdálenost:

d ( X , Y ) =  ( X i − Yi ) 2
3. Manhattanská metrika (Hammingova vzdálenost)
bloky domů jako na Manhattanu

Takto by šel Eukleides

Takto chodí Newyorčan

15
3. Supremální metrika, Čebyševova metrika

kratší úsečka

A
delší úsečka
= Čebyševova vzdálenost

16
3. Minkowského metrika – zobecňuje vzdálenosti

d ( X , Y ) = A  ( X i − Yi ) A A 0

Pro A = 1 dostaneme Manhattanskou metriku

Pro A = 2 dostaneme Euklidovskou vzdálenost

17
3. Mahalanobisova vzdálenost
• respektuje různá měřítka
proměnných
• respektuje vztah (korelaci)
proměnných
• odpovídá Eucleidovské
vzdálenosti spočítané ze všech
hlavních komponent
(standardizovaných)
• používá se také pro identifikaci
odlehlých pozorování

d ( X , Y ) = ( X − Y )T S −1 ( X − Y )

S – kovarianční matice
X, Y – profily případů (proměnných)

18
Centroid – důležité pro vysvětlení Mahalanobisovy
vzdálenosti
› Průměrná pozice všech datových bodů ve všech směrech.

19
3. Mahalanobisova vzdálenost

Euklidovská vzdálenost bodů od centroidu

stejná vzdálenost obou bodů od centroidu

20
ALE
› Pokud proložíme data chybovou elipsou (95%), bude bod 1 blíže
a bod 2 daleko.

souřadnice
bodů centroidy inverzní kovarianční
matice

21
3. Mahalanobisova vzdálenost

původní kovarianční matice

inverzní kovarianční matice

22
4. Matice vzdáleností
Proximity Matrix

Euclidean Distance
10: 11: 12: 13:
1:BU 2:CZ 3:DU 4:EG 5:ES 6:GB 7:HU 8:JA 9:PO RUS SLOV USA WG
1:BU ,000 1,107 1,588 1,726 1,092 1,215 1,089 1,957 1,033 1,177 1,158 1,324 1,759
2:CZ 1,107 ,000 1,351 1,298 ,814 1,150 ,588 1,673 ,424 ,672 ,409 1,137 1,454
3:DU 1,588 1,351 ,000 ,400 1,919 ,443 1,101 ,927 1,245 1,901 1,188 ,458 ,450
4:EG 1,726 1,298 ,400 ,000 1,929 ,668 1,139 1,129 1,239 1,885 1,118 ,601 ,468
5:ES 1,092 ,814 1,919 1,929 ,000 1,638 1,060 2,019 ,879 ,484 ,880 1,750 2,085
6:GB 1,215 1,150 ,443 ,668 1,638 ,000 ,950 1,039 1,007 1,611 1,026 ,435 ,703
7:HU 1,089 ,588 1,101 1,139 1,060 ,950 ,000 1,329 ,369 1,041 ,530 1,018 1,162
8:JA 1,957 1,673 ,927 1,129 2,019 1,039 1,329 ,000 1,457 2,054 1,449 1,262 1,123
9:PO 1,033 ,424 1,245 1,239 ,879 1,007 ,369 1,457 ,000 ,767 ,454 1,124 1,306
10:RUS 1,177 ,672 1,901 1,885 ,484 1,611 1,041 2,054 ,767 ,000 ,913 1,703 2,005
11:SLOV 1,158 ,409 1,188 1,118 ,880 1,026 ,530 1,449 ,454 ,913 ,000 1,065 1,333
12:USA 1,324 1,137 ,458 ,601 1,750 ,435 1,018 1,262 1,124 1,703 1,065 ,000 ,711
13:WG 1,759 1,454 ,450 ,468 2,085 ,703 1,162 1,123 1,306 2,005 1,333 ,711 ,000

23
4. Škály vstupních proměnných

› Pokud máte všechny proměnné ve stejných jednotkách – OK.


› Pokud některá vstupní proměnná je měřena na řádově vyšší škále,
dominuje při měření vzdáleností:
• vzdálenost je měřena především v této dimenzi,
• odlišnosti v proměnných měřených na malých škálách jsou
zastíněny.
› Před zpracováním je vhodné proměnné převést na jednotnou
škálu.
4. Příklady metod standardizace
› Z-skóry (průměr=0, rozptyl=1) – nejčastější
𝑿−𝑿ഥ
– 𝐙=
𝒔𝑿

› rozpětí <0;1>
𝑿−𝑿𝒎𝒊𝒏
– 𝑿𝒔 =
𝑿𝒎𝒂𝒙 −𝑿𝒎𝒊𝒏

› rozpětí <-1;1>
𝟐𝑿−(𝑿𝒎𝒂𝒙 +𝑿𝒎𝒊𝒏 )
– 𝑿𝒔 =
𝑿𝒎𝒂𝒙 −𝑿𝒎𝒊𝒏

› logistická funkce
𝟏
– 𝑿𝒔 =
𝟏+𝒆−𝒙
› arcus tangent
› jiné speciální transformace

25
4. Problém s korelovanými proměnnými (dimenzemi)
› Míry vzdálenosti jsou dobře použitelné při nezávisle proměnných.
• V praxi se vyskytují velmi zřídka.
› Korelované proměnné zkreslují vzdálenost.
• Lze přirovnat k váhám nezávisle proměnných.
› V praxi řeší metoda hlavních komponent (PCA – vizte přednáška 11) nebo
analýza korelační matice.
• Nejprve zredukuji dimenzionalitu problému (na menší počet
proměnných) a pak seskupím podle nových faktorů.
• Plný počet hlavních komponent odpovídá použití Mahalanobisovy
vzdálenosti.

26
5. Výstavba modelu
› Seskupování blízkých profilů
› Určení počtu klastrů
• definitoricky
• interpretačně
• dle využití dalšími procesy
• statistickými metodami
› Záznam řešení
• klastry popsány typickými profily – středy klastrů (centroidy, průměry
vstupních proměnných).
› Interpretace a analýza

27
6. Aplikace modelu
› Predikce příslušnosti nových případů ke klastrům
• nová data mají stejnou strukturu jako data pro utváření modelu
› Klastry jsou identifikovány umělými kategoriemi
• nominální
• klastry jsou v prostoru uspořádány, ale jejich vzájemnou polohu je obtížné zaznamenat
› Nové proměnné
• označení klastru
• vzdálenost od centra klastru
• někdy se připojují i profily center klastrů

28
Statistická analýza dat: Přednáška 10
Jindřich Špička

Shluková (seskupovací) analýza – metody, grafické


výstupy

1
Program přednášky 10
1. Metody shlukové analýzy.
a) Hierarchické seskupování.
b) Metoda K-means.
c) Dvoustupňové seskupování (TwoStep Cluster).
2. Grafické výstupy shlukové analýzy.
3. Příklady.

2
Doporučené zdroje pro tuto přednášku
› Hierarchical Cluster Analysis [Simply explained] - YouTube
› k-Means Cluster Analysis - YouTube

3
Hierarchické seskupování

4
Hierarchické seskupování
• Hierarchické
– případy a později skupiny se slučují
postupně
– případ zařazený do určité skupiny
skupinu již skupinu neopustí
a následuje její osud
• Nejčastěji pro číselné proměnné, lze
i pro 0-1 proměnné.
• Pracuje s maticí vzdáleností mezi
případy.
• Vhodné pro menší soubory
(maximálně nižší desítky případů)
• Není nutné předem stanovit počet
skupin
– v jednom běhu lze získat řešení pro
různý počet skupin
• Transparentní
– postup seskupování lze dobře znázornit

5
Obecný postup
1. Nalezení dvojice případů nebo skupin s nejmenší vzdáleností.
2. Spojení dvojice případů nebo skupin do nové skupiny.
3. Přepočítání vzdáleností ostatních případů nebo skupin k nové skupině.
4. Kroky 1 až 3 se opakují, dokud nevznikne jedna skupina.

6
Počet klastrů
› Algoritmus poskytuje po skončení řešení pro různé počty klastrů.
› Vybereme řešení:
– s předem zvoleným počtem klastrů,
– s menším počtem klastrů tím, že provedeme další spojování klastrů,
– s ohledem na smysluplnou interpretaci výsledků.
› Po přiřazení nových případů je třeba model přepočítat.

7
Výpočet vzdálenosti
› Pro číselné proměnné:
– eukleidovská vzdálenost
– čtverec eukleidovské vzdálenosti
– Manhattanská, metrika městských bloků
– Čebyševova, supremální metrika
– Minkovského a uvolitelné metriky
– cosinus a korelační koeficient

› Pro četnosti:
– vzdálenosti založené na chí-kvadrátu

› Pro binární data:


– eukleidovská, čtverec eukleidovské vzdálenosti a speciální míry pro binární
proměnné (závisí na nabídce statistického softwaru)

8
Hledání klastrů (seskupování bodů) – krokový postup
1. Vypočítáme matici vzdáleností body mezi sebou.
2. Hledáme nejbližší sousední body.
3. Tyto dva body seskupíme a nahradíme těžištěm skupiny
(centroid). Nadále již nepracujeme s původními body ale s
těžištěm skupiny.
4. Přepočítáme matici vzdáleností (každá další matice je vždy o
jeden řádek a jeden sloupec menší) a znovu hledáme nejbližší
sousedy, které nahradím těžištěm (bod 3).
5. Celý postup opakujeme.

9
Metoda seskupování – hledání vzdálenosti klastrů
Určení vzdáleností mezi skupinami.
› nejbližší soused (jednoduché spojení)
– nearest neighbor/simple linkage
– vzdálenost bodů, které jsou si nejblíže
› nejvzdálenější soused (úplné spojení)
– furthest neighbor/complete linkage
– vzdálenost bodů, které jsou si nejdále
› meziskupinové propojení (průměrové spojení) -
nejčastěji
– between-groups linkage/average linkage
– vzdálenost skupiny je určena průměrem vzdáleností mezi
všemi dvojicemi případů, kdy každý případ je z jiné skupiny
› vnitroskupinové propojení
– within-group linkage
– vzdálenost skupiny je určena průměrem vzdáleností mezi
všemi dvojicemi případů, bez ohledu z jaké jsou skupiny
(počítá i vzdálenosti mezi případy ze stejné skupiny)

10
Metoda seskupování – vzdálenost skupin
› Centroidová metoda
– vzdálenost skupin je dána váženou vzdáleností jejich
středů (centroid), váha je dána počtem případů ve
skupině
› Mediánová metoda
– vzdálenost skupin je dána prostou vzdáleností jejich
středů (centroid)
– uvažuje úsečku, která spojuje dvě těžiště, ale bere bod,
který je ve středu úsečky
› Wardova metoda – často používaná
– vzdálenost skupin je dána nárůstem vnitroskupinového
součtu čtverců sloučené skupiny oproti součtu čtverců
ve skupinách
– oblíbená v sociálních vědách – snaha minimalizovat
celkovou variabilitu uvnitř clusteru

11
Alternativní znázornění

12
Výhody a nevýhody metod shlukování
› Metoda nejbližšího souseda - problém s řetězením: spojují se
dva shluky, kde vzdálenost mezi dvěma objekty je nejmenší, ale
nemusí se jednat o nejbližší shluky.
– Tento problém řeší metoda nejvzdálenějšího souseda.
› Centroidová metoda – výhodou je menší náchylnost k ovlivnění
výsledných shluků extrémními či odlehlými objekty.
› Wardova metoda – výhodou je, že klade větší důraz na
minimalizaci heterogenity shluků.

13
Dendrogram
› Na svislé ose zcela nahoře jsou
objekty, které se spojovaly jako
první.
– například nejprve se spojovalo HU a PL

› Na vodorovné ose je přeškálovaná


míra vzdálenosti.

14
Vzdálenosti. Z tohoto sloupce vytvořím sloupcový
graf. Až do 7. kroku se vzdálenosti moc neliší a pak
Tabulka spojování už to začne narůstat více. Přerušíme to při prvním
velkém skoku, tj. zde v 9. nebo v 10. kroku.

Agglomeration Schedule V jakém kroku clustery vznikly.


Stage Cluster First
Cluster Combined Appears
Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage
1 7 9 ,136 0 0 7
2 3 4 ,160 0 0 5
3 2 11 ,167 0 0 7
4 6 12 ,189 0 0 8
5 3 13 ,211 2 0 8
6 5 10 ,234 0 0 9
7 2 7 ,253 3 1 9
8 3 6 ,369 5 4 10
9 2 5 ,786 7 6 11
10 3 8 1,214 8 0 12
11 1 2 1,233 0 9 12
12 1 3 2,254 11 10 0

Poslední řádek odpovídá seskupení do jedné skupiny.


15
Rampouchový graf
• Dokumentuje průběh
spojování.
• Grafický záznam
příslušnosti ke skupinám.
• Mezery grafu oddělují
skupiny.
• Volba konečného počtu
skupin.
• Přehled hierarchie skupin
Celé modré sloupce = země
Čteme odspodu – spodní řádek = 1. krok spojování – PO
a HU
- 2. krok spojování – EG a DU
- 3. krok spojování – CZ a SLOV
- …
Dobré, abychom viděli, jak bude vypadat výsledek při
různém počtu clusterů.
16
Problémy
› Nutno uvážit potřebu standardizace případně transformace proměnných.
– jinak převládnou číselně velké proměnné
– sešikmené rozdělení zkreslí seskupení – zkusit seskupovat podle logaritmovaných
proměnných

› Extrémní případy.
– extrémní případy posouvají centra skupin nebo vytvářejí své mikro skupiny
– nutno zvětšit počet skupin nebo vyřadit extrémy se seskupování

› Model lze obtížně aplikovat na nové případy.


– vychází ze vzdáleností původních případů
– model je třeba přepočítat
– nepoužívá se

› Potřeba identifikovat skupiny.


– podle případů ve skupině
– podle průměrů proměnných ve skupině

› Odstranění korelovaných proměnných z modelu


– korelovaná proměnná nenese novou informaci ale ovlivňuje seskupení => nežádoucí
posílení vlivu
– seskupení podle hlavních komponent (všechny nebo nejdůležitější)

17
Problémy - pokračování
› Volba důležitých proměnných a vhodných pro interpretaci.
– důležitost proměnných - test rozdílu proměnné mezi skupinami (ANOVA)
– skupiny konstruujeme, volíme proměnné, které vedou k srozumitelným
skupinám

› Kontrola jednotlivých případů.


– na základě siluety – přeřazení

› Seskupování podle kategorizovaných proměnných.


– nutno vytvořit indikátory kategorií typu 0 – 1
– indikátor pro jednou kategorii je třeba vynechat
– nutná standardizace

18
Metoda K-means
relokační seskupování

19
Relokační seskupování – K-means
• Vychází ze čtverce
euklidovských vzdáleností.
• Hledáme určitý počet středů
klastrů, centroidů (k-means).
• Není hierarchické – případy
přecházejí mezi skupinami.
• Nutno dopředu stanovit počet
skupin.
• Vhodné pro větší soubory,
číselné i 0-1 proměnné.
• Skupiny jsou
charakterizovány:
– velikostí
– profilem – průměrnými
hodnotami proměnných ve
skupině (centroidy)
– rozložením proměnných ve
skupinách
• Zvolené řešení je nová
proměnná v datech. 20
K-means – přehled algoritmu

1. Definice počátečních center skupin.


– pozor – záleží na pořadí případů v datové
matici, vhodné spustit s různým seřazením
nebo definovat uživatelsky
2. Případy se přiřadí do skupiny s
nejbližším centrem.
3. Z přiřazených případů se vypočítá nové
centrum.
4. Postup se opakuje, dokud se centra
mění (dosáhneme předem určených k
center).

21
Iterativní metoda

22
Volba počtu klastrů
› Pseudo F (max)
› CCC (cubic clustering criterion, max)
› Vždy nutno kombinovat s vlastním úsudkem a
interpretovatelností výsledků!
VÝSTUP ALGORITMU Iteration Historya

A INTERPRETACE Change in Cluster Centers

Iteration 1 2 3 4
Přehled kroků metody.
1 1,958 2,544 2,072 1,846

2 ,000 ,442 ,941 ,457


V prvním kroku docházelo
3 ,193 ,271 ,408 ,187
k největším změnám umístění
center. 4 ,269 ,363 ,357 ,219

5 ,321 ,336 ,000 ,114

V 9. kroku se proces zastavil, 6 ,000 ,084 ,337 ,000


protože již nedocházelo ke
7 ,000 ,184 ,501 ,000
změnám v umístění center a
centra se stabilizovala. 8 ,000 ,182 ,397 ,044

9 ,000 ,000 ,000 ,000

a. Convergence achieved due to no or small change in cluster centers. The


maximum absolute coordinate change for any center is ,000. The current
iteration is 9. The minimum distance between initial centers is 5,381.
24
Final Cluster Centers

Cluster
VÝSTUP ALGORITMU
1 2 3 4
A INTERPRETACE
Zscore: Procento lidí žijících ve -1,31 -,25 ,57 ,69
městech
Cluster 1 – rozvojové země.
Zscore: Průměrná délka života žen -1,80 -,08 ,22 ,77
Cluster 4 – inverzní ke clusteru 1
(rozvinuté země). Zscore: Procento lidí, kteří umí číst -1,62 -,05 -,23 ,80
Cluster 2 – lidnaté země. Zscore: Nárůst populace (% ročně) ,91 ,31 1,52 -,95
Cluster 3 – země s vysokým nárůst
populace. Zscore: Dětská úmrtnost (na tisíc 1,72 ,17 -,18 -,80
živých porodů)

Zscore: Porodnost na 1000 lidí 1,50 ,18 ,77 -,95


Kladné hodnoty = nadprůměrný
Záporné hodnoty = podprůměrný Zscore: Úmrtnost na 1000 lidí 1,54 -,55 -1,08 -,03

Zscore: Log10 z HDP na hlavu -1,38 -,49 ,24 ,87

Zscore: Poměr narozených a zemřelých -,13 ,41 2,15 -,74


Vhodné najít reprezentanty pro
každý klastr. Zscore: Plodnost - průměrný počet 1,49 -,01 ,86 -,88
dětí

Zscore: Log10 z populace v tisících ,04 ,41 -,67 -,11 25


VÝSTUP ALGORITMU
A INTERPRETACE
Vzdálenosti mezi klastry.

Nejvzdálenější jsou klastry 1 a


4 (vzájemně inverzní).
Nejbližší jsou klastry 2 a 3.

26
VÝSTUP ALGORITMU
A INTERPRETACE
Grafický výstup

Doplněno o průměry obou


proměnných (vertikální a
horizontální osa).

27
Dvoustupňové seskupování
(TwoStep Cluster).

28
Obecné vlastnosti
› Vhodné pro velmi velké soubory.
› Není nutné předem stanovit počet klastrů.
• v jednom běhu získáme řešení pro různý počet klastrů
• algoritmus může doporučit vhodný počet klastrů
› Zpracovává spojité i kategorizované proměnné.
• vzdálenost založena na věrohodnostní funkci
› Efektivně využívá paměť, výpočetně náročné.
› Dvě separovatelné fáze:
• pre-clustering – výpočetně efektivní seskupení případů do mnoha
malých skupin
• hierarchické klastrování – skupiny z předchozího kroku jsou
hierarchicky seskupeny
Dvě fáze seskupování

1. Předběžné seskupení pomocí CF stromu


• rozsáhlý soubor je nahrazen stromem, jehož listy reprezentují
klastry
• větší (~102) počet malých klastrů

2. Hierarchické seskupování
• centroidy klastrů z prvního kroku vstupují jako jednotlivé
případy
• postupné slučování malých klastrů až vznikne jeden
Ukázka prvního kroku seskupení

31
Ukázka prvního kroku seskupení

32
Silueta 𝐵−𝐴
max(𝐴, 𝐵)
› Ukazatel kvality zařazení konkrétního případu.
A – vzdálenost případu od středu vlastního
› Průměrná silueta – celková kvalita modelu. clusteru
B – vzdálenost případu od středu nejbližšího
› Vyjadřuje o kolik je relativně případ blíž centru
jiného clusteru
své skupiny než nejbližší cizí.
– záporné hodnoty značí, že případ je blíž cizímu
Celé se to zprůměruje přes všechna
centru než vlastnímu pozorování.

B A

Ideální je, kdy jsou klastry vnitřně soudržné, ale vzájemně velmi33
odlišné.
Ukazatele stanovení
optimálního počtu shluků

34
Ukazatele pomáhající k nalezení optimálního počtu
shluků
› Daviesův-Bouldinův index
› RS (též R-kvadrát, RSQ index)
› RMSSTD (root-mean-square standard deviation index)
› CHF (pseudo F index)
› PTS (pseudo T-kvadrát index)
› Dunnův index

35
Implementované koeficienty v SW

36
Ukázka – 4 dobře separované shluky

37
Ukázka – 5 překrývajících se shluků

38
Poznámky ke shlukové analýze

39
Poznámky je shlukové analýze
› Každá metoda může odrážet jiné aspekty dat – vhodné je
porovnat více metod.
› Shluková analýza může být metodou navrhování hypotéz (např.
pro následnou ANOVA).
› Množina získaných klastrů není konečným výsledkem, ale pouze
možným návrhem struktury. Důležitá je zkušenost analytika.
› Nejprve je vhodné se podívat, zda jsou data vhodná pro
shlukovou analýzu:
– problém je žádný klastr (rovnoměrné rozložení bodů)
– problém je jeden velký klastr (vzájemná příbuznost údajů)
40
Statistická analýza dat: Přednáška 11
Jindřich Špička

Analýza hlavních komponent


(Principal Component Analysis)

1
Program přednášky 11
1. Zopakování kovariance a korelace.
2. Účel analýzy hlavních komponent.
3. Princip analýzy hlavních komponent.
4. Počáteční analýza.
5. Výpočet hlavních komponent.
6. Určení vhodného počtu hlavních komponent.
7. Výpočet komponentních zátěží a jejich vlastnosti.
8. Analýza výsledků – komponentní skóre.
9. Příklad.
2
Doporučené zdroje pro tuto přednášku
› Principal Component Analysis (PCA) - easy and practical
explanation – YouTube
› Principal Component Analysis Explained - YouTube

3
Účel analýzy hlavních komponent
› Redukce počtu proměnných pomocí tzv. hlavních komponent,
kterými popisuje variabilitu všech proměnných a vztahy mezi
nimi.
› Hlavní komponenty jsou „nové proměnné“, které vznikají lineární
kombinací původních proměnných. Komponenty nejsou
vzájemně korelované a není cílem je interpretovat.
› Počet komponent závisí na párové korelaci mezi původními
proměnnými.
– Nízká vzájemná korelace – velký počet komponent.
– Vysoká vzájemná korelace – malý počet komponent.
› Neexistuje rozdělení na závisle a nezávisle proměnné.
4
Autoři metody PCA
1901 30. léta 20. století

Karl Pearson (1857 – 1936) Harold Hotelling (1895 – 1973)

5
Princip PCA
› Cílem je z p proměnných Xi (manifestní proměnné) vytvořit nové
proměnné Zj (hlavní komponenty) které nejsou korelované.
› Každá z nových proměnných Zj má jinou vlastnost (dimenzi).
› Hlavní komponenty jsou uspořádány podle svého rozptylu:

𝑉𝑎𝑟 𝑍1 > 𝑉𝑎𝑟 𝑍2 > ⋯ > 𝑉𝑎𝑟 𝑍𝑝

› Snížení počtu dimenzí zjednodušuje následné analýzy (např.


regresní model).

6
Vztah proměnných – kovariance

- +

ഥ ∗ 𝒀𝒊 − 𝒀
σ 𝑿𝒊 − 𝑿 ഥ průměr
𝒄𝒐𝒗 𝒀, 𝒀 = Y
𝑵−𝟏

+ -

průměr
X
Korelační koeficient (Pearsonův)
› r je vypočten jako kovariance v poměru ke geometrickému průměru
rozptylů.
› Jmenovatel je také součin směrodatných odchylek sX*sY .
› r vyjadřuje míru lineární (podle přímky) závislosti dvou proměnných.
› r definován pro nenulové variability; nesmí platit sX = 0 nebo sY = 0
› r se nezmění, když se
– posune škála jedné nebo obou proměnných o libovolnou konstantu (změna
počátku)
– změní škála jedné nebo obou proměnných násobkem libovolnými činiteli (změna
měřítka
𝑐𝑜𝑣(𝑋, 𝑌) 𝑐𝑜𝑣(𝑋, 𝑌)
𝒓= 𝒓=
𝑣𝑎𝑟𝑋𝑣𝑎𝑟𝑌 𝒔𝒙 𝒔𝒚
Krok 1: Počáteční analýza
Proměnné
Jedinci x1 x2 … xp
1 x11 x12 … x1p
2 x21 x22 … x2p
… … … … …
n xn1 xn2 … xnp

PCA předpokládá proměnné, u nichž má smysl počítat průměr, rozptyl a


kovarianci (číselné proměnné nebo ordinální, které lze za číselné proměnné
považovat a má smysl pro ně počítat Pearsonův korelační koeficient).
𝑥𝑖𝑗 − 𝑥𝑗
Normalizace původních proměnných: 𝑧𝑖𝑗 =
𝑠(𝑥𝑗 ) 9
Krok 1: Počáteční analýza – chybějící hodnoty
› Chybějící hodnoty lze řešit:
– ignorováním řádků s chybějícími hodnotami,
– odhadem chybějící hodnoty pomocí průměru proměnné nebo
– odhadem chybějící hodnoty pomocí regrese na proměnné,
jejichž hodnoty nechybí.
› Většina statistických programů nabízí několik možností,
jak problém chybějících hodnot překonat.

10
Krok 2: Průzkum kovarianční nebo korelační matice
› Výběrová kovarianční matice
𝒙𝟏 𝒙𝟐 𝒙𝒑
𝒙𝟏 𝒔𝟐 (𝒙𝟏 ) 𝑐𝑜𝑣(𝑥1 𝑥2 ) … 𝑐𝑜𝑣(𝑥1 𝑥𝑝 )
𝒙𝟐 𝑐𝑜𝑣(𝑥1 𝑥2 ) 𝒔𝟐 (𝒙𝟐 ) … 𝑐𝑜𝑣(𝑥2 𝑥𝑝 )

… … … … …
𝒙𝒑 𝑐𝑜𝑣(𝑥1 𝑥𝑝 ) 𝑐𝑜𝑣(𝑥2 𝑥𝑝 ) … 𝒔𝟐 (𝒙𝒑 )

Diagonála: výběrové rozptyly proměnných X.


Mimo diagnonálu: kovariance původních proměnných X.
11
Krok 2: Průzkum kovarianční nebo korelační matice
› Výběrová korelační matice – proměnné v datové matici musí být
sledovány ve stejných jednotkách → normalizace původních
proměnných 𝑥𝑖𝑗 − 𝑥𝑗 i = 1, 2, …, n
𝑧𝑖𝑗 = j = 1, 2, …, p
𝑠(𝑥𝑗 )

𝒙𝟏 𝒙𝟐 𝒙𝒑
𝒙𝟏 𝟏 𝑟(𝑥1 𝑥2 ) … 𝑟(𝑥1 𝑥𝑝 )
𝒙𝟐 𝑟(𝑥1 𝑥2 ) 𝟏 … 𝑟(𝑥2 𝑥𝑝 )

… … … … …
𝒙𝒑 𝑟(𝑥1 𝑥𝑝 ) 𝑟(𝑥2 𝑥𝑝 ) … 𝟏
12
Krok 2: Průzkum kovarianční nebo korelační matice
› Řešení získaná na základě výběrové korelační matice a
výběrové kovarianční matice se liší!

› Nutno již před analýzou vědět, zda budete PCA počítat z


korelační nebo kovarianční matice.

13
Krok 3: Výpočet hlavních komponent
› Hlavní komponenty = lineární kombinace původních
proměnných X
První komponenta – vysvětluje největší část z celkové variability (součtu
všech rozptylů původních proměnných).

Parametry první hlavní


𝑌1 = 𝑣11 𝑋1 + 𝑣12 𝑋2 + ⋯ + 𝑣1𝑝 𝑋𝑝 komponenty
2 2 2
𝑣11 + 𝑣12 + ⋯ + 𝑣1𝑝 =1

Celkovou variabilitu p původních proměnných beze zbytku vysvětlí stejný


počet hlavních komponent. 14
Krok 3: Výpočet hlavních komponent
› Druhá komponenta – vysvětluje oproti první komponentě menší
díl ze zbývající variability.

𝑌2 = 𝑣21 𝑋1 + 𝑣22 𝑋2 + ⋯ + 𝑣2𝑝 𝑋𝑝


2 2 2
𝑣21 + 𝑣22 + ⋯ + 𝑣2𝑝 =1 Parametry druhé hlavní komponenty

› Součet rozptylů původních proměnných odpovídá součtu všech


charakteristických čísel součtu rozptylů všech hlavních
komponent.
𝑝
Charakteristická čísla hlavních komponent
෍ 𝑠2 𝑥𝑗 = 𝑙1 + 𝑙2 + ⋯ + 𝑙𝑝 (eigenvalues) = rozptyly příslušných hlavních
𝑗 komponent 15
Krok 3: Výpočet hlavních komponent – srozumitelně

Principal Component Analysis


(PCA) Explained | Built In

První komponenta je přibližně přímka, která odpovídá fialovým značkám, protože prochází počátkem a je
to přímka, ve které je projekce bodů (červených teček) nejvíce rozprostřena.
Druhá hlavní komponenta se vypočítá stejným způsobem s podmínkou, že není korelovaná s první hlavní
komponentou a že představuje další nejvyšší rozptyl.
Takto se pokračuje, dokud se nevypočítá celkem p hlavních komponent, což se rovná původnímu počtu
proměnných.
16
Krok 3: Výpočet hlavních komponent
› Význam jednotlivých komponent je dán tím, jakou část celkové
variability (rozptylu) původních proměnných se jimi daří
vysvětlit.
– Jaká část ze součtu všech charakteristických čísel připadá na tu či onu
komponentu.

› Uspokojivý výsledek, pokud několik hlavních komponent


vysvětluje alespoň 70 % variability původních proměnných
(hraniční hodnota 50 %).

17
Krok 3: Určení vhodného počtu hlavních komponent
› Scree plot = sutinový graf (Cattell, 1966)

Charakteristická
čísla

4 komponenty

Počet hlavních komponent 18


Krok 3: Určení vhodného počtu hlavních komponent
› Kaiserovo kritérium - Kaiser (1960) navrhl vyřadit komponenty,
jejichž charakteristická čísla jsou menší než 1, protože ty
poskytují méně informací než jedna proměnná.
› Jolliffe (1972) se domnívá, že Kaiserovo kritérium je příliš velké.
Navrhuje, aby se při analýze korelačních matic používala mezní
hodnota charakteristických čísel 0,7.
› Počet komponent: schopnost hlavních komponent vysvětlit
alespoň 50-70 % variability původních proměnných.
› Paralelní analýza – založena na simulaci hraniční hodnoty
charakteristických čísel pro různé počty hlavních komponent.
19
Krok 3: výpočet charakteristických čísel a jejich
vektorů
› Vektor charakteristických čísel (eigenvector) = vektory
charakteristických čísel kovarianční matice jsou vlastně směry os,
kde je největší rozptyl (nejvíce informací) a které nazýváme
hlavní komponenty.
› Charakteristické číslo (eigenvalue) = koeficienty připojené k
vektorům, které udávají množství rozptylu neseného v každé
hlavní komponentě.
› Seřazením vektorů podle jejich charakteristických čísel od
nejvyšší po nejnižší získáte hlavní komponenty v pořadí podle
významnosti.
› Výpočetně složité (práce s vektory a maticemi) – použití PC.

20
Krok 3: Výpočet komponentních zátěží
› Komponentní zátěž = korelace mezi původní proměnnou a
hlavní komponentou
– Čím vyšší, tím lépe komponenta vysvětluje původní proměnnou.
› Nutný krok, protože parametry různých hlavních komponent
nelze přímo porovnávat.
𝑣𝑗𝑘 𝑙𝑘 𝑣𝑗𝑘 𝑙𝑘
𝑤𝑗𝑘 = =
𝑠(𝑥𝑗 ) 𝑙𝑘 𝑠(𝑥𝑗 )

j = 1, 2, …, p původní proměnné

k = 1, 2, …, R
21
Krok 4: Analýza výsledků PCA - komunality
› Komunalita (communality) je poměrná část variability proměnné
Xi, která je vysvětlená identifikovanými hlavními komponentami.
– Hledáme proměnné s nejvyšší komunalitou.

› Jedinečnost (uniqueness) = 1 – komunalita


– Snažíme se vyhýbat se proměnným s vysokou jedinečností. Tyto
proměnné nejsou v nalezené sadě hlavních komponent relevantní.

22
Krok 4: Analýza výsledků PCA
› Komponentní skóre – výpočet skóre pro každou jednotku
(případ) ve výběrovém souboru
› Skóre první hlavní komponenty pro i-tou jednotku: dosadíme do

𝑌1 = 𝑣11 𝑋1 + 𝑣12 𝑋2 + ⋯ + 𝑣1𝑝 𝑋𝑝

odhadnuté parametry (v) a zjištěné hodnoty původních


proměnných u této jednotky (x)
› A stejně tak dále…

23
Příklad
Analýza hlavních komponent

24
Příklad
› Míry úmrtnosti na různé příčiny úmrtí v jednotlivých státech USA v
roce 2016. Soubor dat byl získán z Národního centra pro zdravotní
statistiku.
› 10 proměnných: Alzheimers, Chronic Lower Respiratory Diseases,
Cancer, Diabetes, HeartDis, FluPneum, Kidney, Stroke, Suicide,
Accidents.
› Pro každou proměnnou 52 pozorování (států USA). Nemáme
chybějící hodnoty.
› Cíl: redukce počtu příčin úmrtí do menšího počtu nových
proměnných (hlavních komponent).
› Počítáno z korelační matice.
25
Počáteční analýza – popisná statistika

u každé proměnné vstupuje do analýzy 100% variability

26
Počáteční analýza – korelační matice

Mezi určitými příčinami úmrtí existují vyšší korelační koeficienty:


- Mrtvice (Stroke) a Alzheimer = 0,65
- Rakovina (Cancer) a chronický zánět dolních cest dýchacích (LowResDis) = 0,66
- Cukrovka (Diabetes) a chronický zánět dolních cest dýchacích (LowResDis) = 0,66
- Rakovina (Cancer) a srdeční choroby (HeartDis) = 0,73
- Problémy s ledvinami (Kidney) a mrtvice (Stroke) = 0,69
27
Výpočet hlavních komponent a charakteristických
čísel (eigenvalues)

Součet = 10

Počet hlavních komponent = počet proměnných.


Eigenvalue = charakteristické číslo (došlo k převážení původních proměnných)
Součet charakteristických čísel = počet proměnných. Průměr vlastních čísel = 1.
28
Výpočet hlavních komponent a charakteristických
čísel (eigenvalues)

Součet = 10

Individual percent = schopnost každé hlavní komponenty vysvětlit variabilitu


určitého počtu proměnných.
Cumulative percent = kumulativní schopnost komponent vysvětlit variabilitu.
29
Odbočka: Výpočet při použití kovarianční matice

Rozptyly proměnných jsou na diagonále kovarianční matice.

30
Odbočka: Výpočet při použití kovarianční matice

Součet = 1421,12
Odpovídá součtu rozptylů původních proměnných (hodnot na diagonále
předchozím slidu).
Individual percent = schopnost každé hlavní komponenty vysvětlit variabilitu v
datech 31
Určení počtu hlavních komponent
› Kaiserovo kritérium = hlavní komponenty s charakteristickými
čísly většími než 1 (poskytují více informací než 1 proměnná)

32
Výpočet vektoru charakteristických čísel
Vektory vlastních čísel (eigenvectors) = váhy, které vztahují původní proměnné v
normované podobě ke komponentům.
- Tyto koeficienty lze použít k určení relativního významu každé proměnné při tvorbě komponenty.

33
Výpočet komponentních zátěží
› Komponentní zátěže (component loadings) = korelace mezi
původními proměnnými a hlavními komponentami

34
Výpočet komunalit
Komunalita je podíl variability proměnné, který připadá na zachované hlavní komponenty.

Pokud bychom znázornili všechny hlavní komponenty (v tomto případě 10), byla by u každé proměnné
komunalita rovna 1.

Součty hodnot 85 % variability proměnné


v řádcích „Alzheimers“ je vysvětlena
komponentami PC1, PC2 a
PC3. = KOMUNALITA
Chceme, aby byla co nejvyšší.

(1-0,85) = 15 % variability
proměnné „Alzheimers“ má
vztah k ostatním hlavním
komponentám (PC4 až PC10).
= JEDINEČNOST
Chceme, aby byla co nejnižší.
35
Výpočet komponentních skórů
› Skóre je dostupné pro každé pozorování a každou hlavní
komponentu. Generovány jako nové proměnné softwarem.
› Lze je použít jako hodnoty nových proměnných (hlavních
komponent) pro navazující analýzu (např. vícenásobnou lineární
regresi).
𝑦1 = 𝛽0 + 𝛽1 𝑃𝐶𝑠𝑐𝑜𝑟𝑒11 + 𝛽2 𝑃𝐶𝑠𝑐𝑜𝑟𝑒12 + ⋯ + 𝛽𝑘 𝑃𝐶𝑠𝑐𝑜𝑟𝑒1𝑘 + 𝜀1

𝑦2 = 𝛽0 + 𝛽1 𝑃𝐶𝑠𝑐𝑜𝑟𝑒21 + 𝛽2 𝑃𝐶𝑠𝑐𝑜𝑟𝑒22 + ⋯ + 𝛽𝑘 𝑃𝐶𝑠𝑐𝑜𝑟𝑒2𝑘 + 𝜀2

… … … …
𝑦𝑛 = 𝛽0 + 𝛽1 𝑃𝐶𝑠𝑐𝑜𝑟𝑒𝑛1 + 𝛽2 𝑃𝐶𝑠𝑐𝑜𝑟𝑒𝑛2 + ⋯ + 𝛽𝑘 𝑃𝐶𝑠𝑐𝑜𝑟𝑒𝑛𝑘 + 𝜀𝑛

36
Statistická analýza dat: Přednáška 12
Jindřich Špička

Explorační faktorová analýza


(Exploratory Factor Analysis, EFA)

1
Program přednášky 12
1. Účel explorační faktorové analýzy.
2. Princip explorační faktorové analýzy.
3. Postup explorační faktorové analýzy.
4. Příklad – porovnání výsledků PCA a EFA.

2
Doporučené zdroje pro tuto přednášku
› Exploratory Factor Analysis - YouTube

3
Motivační příklad 1
› Testy znalostí, schopností, inteligence.

› Na znalosti a schopnosti se můžeme ptát „atomárně“ – klást jednotlivé dílčí


otázky: 10, 30, 100 otázek v testech.
› Každá otázka indikuje celkovou znalost či schopnost.
› Jak ale spojit všechny tyto informace k měření toho co měřit chceme? Jak
sumarizovat?
› Jak zavést váhy těžších a lehčích otázek (těch, které diferencují více a které méně)?
› Jak měřit přímo neměřitelné?

4
Motivační příklad 2
› Hodnocení konkurenčních značek v kategorii zboží
› Lidé posuzují značky A, B, C, … , F
› Které značky jsou hodnoceny podobně (jsou tedy silně konkurenční)
a které se v hodnocení odlišují (mohou být komplementární k různým
potřebám)?
› Jak jsou nákupy typů spolu korelovány?

› Jak lidé značky vnímají?


› Můžeme vytvořit percepční mapu?

5
Účel explorační faktorové analýzy
› Redukce počtu proměnných pomocí tzv. faktorů.
› Neexistuje rozdělení na závisle a nezávisle proměnné.
› Východiskem je výběrová korelační matice.
› Rozdíly od analýzy hlavních komponent:
– Faktory zpravidla nejsou vzájemně korelované, ale mohou být.
– Cílem je interpretovat faktory.
– Analýza hlavních komponent se soustředí na variabilitu původních proměnných
(diagonála kovarianční matice), faktorová analýza usiluje o vysvětlení závislostí
(korelační koeficienty nad a pod diagonálou).
– U faktorové analýzy hraje důležitou roli chybová složka (nevysvětlená část
modelu).
– Vychází ze statistického modelu s určitými předpoklady.

6
Cíle explorační faktorové analýzy
› Analyzovat korelace většího počtu proměnných tím, že se více
proměnných shlukuje tak, že většina proměnných v jednom
shluku spolu silně koreluje. Proměnné z různých shluků mezi
sebou zpravidla nekorelují (ale mohou, dle metody).
– Kolik různých faktorů je zapotřebí k vysvětlení vztahů mezi proměnnými?
› Interpretovat faktory podle toho, jaké proměnné obsahuje
příslušných shluk.
– V jakém vztahu jsou faktory k jednotlivým proměnným?
› Shrnout variabilitu proměnných pomocí několika málo faktorů.

7
Autoři metody PCA
1904
1947

Charles Spearman (1863 – 1945) Louis Leon Thurstone (1887 – 1955)


Dvoufaktorová teorie
Rotace faktorových zátěží
Latentní proměnné 8
Model
vlastnosti indikátory

Y1 e1

Y2 e2
F1
Y3 e3

Y4 e4
F2 Y5 e5

Y6 e6

latentní manifestní nevysvětlená


proměnné proměnné část
Zdroj: Acrea 9
Princip explorační faktorové analýzy
› Model FA vyjadřuje každou normovanou pozorovanou (manifestní)
proměnnou Yj (j = 1, 2, …, p) jako lineární kombinaci R společných
(latentních) faktorů F1, F2, …, FR a faktoru pro ni specifického
(chybového) j

𝑌𝑗 = 𝛾𝑗1 𝐹1 + 𝛾𝑗2 𝐹2 + ⋯ + 𝛾𝑗𝑅 𝐹𝑅 + 𝜀𝑗

› Společné (latentní) faktory (F) – nezávislé, normované náhodné


veličiny se stejným rozdělením.
› Specifické (chybové) faktory () – nezávislé, nulová střední hodnota a
specifický rozptyl. Jsou nezávislé na latentních faktorech.
› Faktorové zátěže () – korelační koeficienty mezi původními
proměnnými a latentními faktory. 10
Modelové rovnice
› Model FA vyjadřuje vztah mezi latentními (neměřitelnými)
faktory F a explicitně zjišťovanými (manifestními) proměnnými Y
– explicitní proměnné jsou důsledkem společných příčin (faktorů)
– tyto příčiny nejsou známy
– neznáme jejich vazby ani strukturu
› Počet faktorů F nepřevyšuje počet položek Y
– teoreticky je mu roven (při pozitivní definitnosti korelační matice)
› V modelu se neuvažuje konstanta proměnné Y mají průměr 0
– centrování

𝒀1 = 11 𝑭1 + 12 𝑭2 +. . . +1𝑹 𝑭𝑹 + 𝜺1


𝒀2 = 21 𝑭1 + 22 𝑭2 +. . . +2𝑹 𝑭𝑹 + 𝜺2
....
𝒀𝒋 = 𝐣1 𝑭1 + 𝐣2 𝑭2 +. . . +𝐣𝑹 𝑭𝑹 + 𝜺𝒋

Y = 𝚲𝐅 + 𝚬
11
Význam chybové složky ()
j = chyba rovnice, která obsahuje:
a) specifickou část položky Yj
b) chybu měření proměnné Yj
c) další vlivy nezahrnuté ve faktorech FR
d) odchylky modelu (linearita, aditivita, předpoklady)
Chyby rovnice jsou nekorelované mezi sebou i s faktory.

12
Vlastnosti faktorů
› Faktory mají nulový průměr a jednotkový rozptyl.
› Faktory jsou nezávislé (ortogonální)
– Korelace mezi faktory je nula.
– V praxi může být omezující např. typy inteligence spolu mohou souviset
– Lze odstranit speciální rotací (vizte dále).
› Faktory jsou nejednoznačné.
– Jednu korelační matici lze vysvětlit různými faktory a jim odpovídajícími
různými faktorovými zátěžemi.
– Vzájemně zaměnitelné faktory se získají rotací, která odpovídá geometricky
rotaci souřadnic. Výhodná vlastnost, která umožňuje faktory rotovat tak, aby
se daly snáze interpretovat.
› Více faktorů lépe vysvětlí korelační (kovarianční) matici, ale hůře
se interpretuje.
𝐅𝐅 𝑇 = 𝐈
13
Data
Předpoklady o datech:
a) data jsou číselná (metrická)
b) rozhodnutí: vstupem je odhadnutá korelační nebo kovarianční matice (doporučuje
se pracovat s korelační maticí)
c) korelační/kovarianční matice je pozitivně definitní

Chybějící data:
1. vynecháváme případy
2. nahrazujeme průměrem proměnné
3. nahrazujeme speciálními algoritmy
14
Postup EFA
1. Připravíme data.
2. Ověříme vhodnost dat pro analýzu.
3. Extrahujeme řešení (jedno z mnoha).
4. Najdeme první řešení.
5. Rotace faktorů (hledání optimálního řešení).
6. Interpretujeme faktory.
7. Odhadujeme hodnoty faktorů pro jednotlivé případy.
8. (… využijeme faktory pro další analýzu).
15
1. Příprava dat
› Vlastním vstupem je korelační matice.
– standardně se pracuje s Pearsonovou korelací
› Je třeba se vyvarovat zkreslení
koeficientu.
– sešikmené hodnoty
– extrémních hodnoty
– ordinální proměnné
› Transformace (sešikmení, extrém).
– logaritmus, Coxova transformace
– robustní odhad korelace – Spermanovo r,
Kendalovo t

16
2. Vhodnost dat
› Proměnné musejí být korelované
– Bartlettův test sféricity
› H0: R je jednotková (singulární) korelační matice
› Pro smysluplnou faktorovu analýzu je nutné H0 zamítnout.
› Korelace proměnných by měla být způsobena společnými faktory
(ostatními proměnnými) – parciální korelace by měly být nízké,
parciální korelační matice by měla být téměř diagonální.
– (KMO) MSA – measure sampling adequacy – čím více je korelace dané
proměnné s druhou zprostředkována jinými proměnnými, tím blíže k 1
› hodnoty do 0,5 se považují za nepřijatelné, hodnoty nad 0,8 za velmi dobré (Kaiser).
› proměnné s nepřijatelným MSA je vhodné z analýzy vyloučit.
– Celkové MSA – ukazatel za všechny proměnné, měl by být nad 0,8.
› Proměnná navázaná na jeden faktor, který se neváže s jinými
proměnnými, by měla být vyloučena.
17
3. Extrakce řešení – předpoklady a metody
Předpoklady modelu:
a) orthogonalita faktorů
b) standardizace faktorů
c) nezávislost chyb
d) pro metodu maximální věrohodnosti též nezávislost měření mezi případy,
nezávislost chyb mezi rovnicemi a normalita rozložení chyb

Metody:
› Analýza hlavních faktorů – princip PCA (nejčastěji používané, více než 50 % článků
ve společenskovědních odborných časopisech)
› Hlavní osy (faktory) – PAF (principal axis factoring)
› Maximální věrohodnost – Maximum likelihood estimation (MLE)
› Kombinace PCA a PAF.
18
3. Stanovení vhodného počtu latentních faktorů R
› Scree plot (stejně jako u analýzy hlavních komponent).
› Kaiserovo kritérium - Kaiser navrhl vyřadit faktory, jejichž
charakteristická čísla jsou menší než 1, protože ty nedosahují ani
variability původních proměnných.
› Počet faktorů: schopnost latentních faktorů vysvětlit alespoň 50-
70 % variability původních proměnných.
› Paralelní analýza – založena na simulaci hraniční hodnoty
charakteristických čísel pro různé počty hlavních komponent.
› Doporučuje se kombinace Scree plot a Kaiserova kritéria.

19
3. Odhad faktorových zátěží
› Počet odhadovaných parametrů modelu neodpovídá počtu
různých známých prvků korelační matice. Nutné zavést
dodatečnou podmínku.

› Podmínka postupného vyčerpávání variability původních


proměnných (= analýza hlavních komponent PCA).
– ALE dochází k aplikaci PCA na redukovanou korelační matici (ne plnou
jako u PCA) → ANALÝZA HLAVNÍCH FAKTORŮ
20
3. Redukovaní korelační (kovarianční) matice
› Mimo diagonální prvky jsou vysvětleny faktory.
› Diagonální prvky (1 resp. s2) jsou doplněny o další parametr.
– Část replikovaná faktory se nazývá komunalita hi2
› vyjadřuje část rozptylu vysvětlenou společným působením faktorů
– Zbývající část je specifický rozptyl (unicita, jedinečnost) yi, odpovídá rozptylu chyby
rovnice.
› Při konstrukci faktorů se hledají charakteristická čísla matice (eigenvalues)
– Pro R je součet charakteristických čísel roven počtu proměnných.
– Součet čtverců faktor. zátěží lik2 pro faktor Fk vydělený počtem proměnných ukazuje,
jakou část rozptylu původních proměnných vysvětluje daný faktor Fk

𝐑 = 𝚲𝚲𝑇 + 𝚿

𝟏 = 𝝍𝒊 + 𝒉𝟐𝒊 = 𝝍𝒊 + 𝟐𝒊𝟏 + 𝟐𝒊𝟏 +. . . +𝟐𝒊𝑹

𝚺 = 𝚲𝚲𝑇 + 𝚿

𝝈𝟐𝒊 = 𝝍𝒊 + 𝒉𝟐𝒊 = 𝝍𝒊 + 𝟐𝒊𝟏 + 𝟐𝒊𝟏 +. . . +𝟐𝒊𝑹


21
Opakování: Komunalita a jedinečnost
› Komunalita (communality) je poměrná část variability proměnné
Xi, která je vysvětlená identifikovanými faktory.
– Hledáme proměnné s nejvyšší komunalitou.

› Jedinečnost (uniqueness) = 1 – komunalita


– Snažíme se vyhýbat se proměnným s vysokou jedinečností. Tyto
proměnné nejsou v nalezené sadě faktorů relevantní.

22
3. Redukovaná korelační matice
› Korelační matici lze rozložit na dvě části:
– Redukovaná korelační matice pro latentní faktory – na diagonále jsou
komunality, nad a pod diagonálou jsou souvislosti mezi pozorovanými
proměnnými.
– Korelační matice chybových faktorů – na diagonále jsou chybové
rozptyly a ostatní prvky jsou rovny nule.
› Odhad redukované korelační matice pomocí:
– Vícenásobné korelační koeficienty pro normované pozorované
proměnné Zj (j = 1, 2, …, p) – na hlavní diagonále, a
– Lineární kombinace všech ostatních p-1 proměnných – párové korelační
koeficienty jsou mimo diagonálu.

23
3. Výpočet charakteristických čísel (eigenvalues)
› Metodou hlavních komponent určíme R největších charakteristických
čísel (eigenvalues) l1, l2, …, lR s odpovídajícími vektory
charakteristických čísel (eigenvectors) v1, v2, …, vR
› Odhad faktorových zátěží: 𝛾ො𝑗𝑘 = 𝑣𝑗𝑘 𝑙𝑘
– j = 1, 2, …, p (proměnné)
– R = 1, 2, …, R (latentní faktory)
› Faktorové zátěže uvádějí, jakou část variability proměnné X
vyjadřuje faktor F.
› Součet čtverců odhadnutých faktorových zátěží σ𝑅𝑘 𝛾ො𝑗𝑘
2 2
= σ𝑅𝑘 𝑣𝑗𝑘 𝑙𝑘 je
zpřesněním j-té komunality.
› Dosazením těchto hodnot na diagonálu matice R se zpřesní
redukovaná korelační matice.
24
4. Metoda hlavních faktorů
› Maximalizuje komunalitu faktoru u všech Y.
› Pracuje se se přímo s korelační (R) nebo kovarianční maticí (S), unicita yi je rovna 0
a výchozí komunalita je pro R rovna 1, pro S rozptylu
– Nejprve extrahuje první hlavní faktor, určený tak, že součet hi2 pro jeden společný faktor F1 je
maximálně možný.
– Po extrakci prvního faktoru se postupuje stejně pro druhý faktor F2 a takto sekvenčně až
do vyčerpání variability Y.
– V praxi je výpočet založen na extrakci vlastních čísel matice R nebo S.
+ výpočetně jednoduchá, vždy lze dosáhnout výsledku
– přínos faktoru k celkové variabilitě je roven jeho vlastnímu číslu (Kaiserovo pravidlo)
– odhady faktorů jsou ortogonální (faktory nekorelují)
- faktory replikují celou matici, včetně diagonály
– důležitější jsou ale mimodiagonální prvky (korelace)
– vynechání jedinečnosti omezuje možnost zachytit korelace
Existuje související ale samostatná analýza hlavních komponent (PCA). Slouží pro výpočet
ortogonálních transformací původních proměnných. Nezaměňovat (přednáška 8).
25
4. Alternativní metody odhadu faktorových zátěží
(kromě metody hlavních faktorů)
› Metoda maximální věrohodnosti (MLE)
– Pro odhadované parametry (faktorové zátěže a specifické rozptyly) je
stanovena věrohodnostní funkce a je maximalizován její logaritmus.
– Výhoda: komplexní odhad faktorových zátěží i komunalit a jedinečností
– Nevýhody: celkovou variabilitu nevysvětlí ani plný počet faktorů (metoda
pracuje hlavně s diagonálními prvky), odhady faktorů nemusejí být ortogonální
› Metoda hlavních os (PAF)
– Pracuje se se s redukovanou korelační nebo kovarianční maticí, která má
na diagonále komunalitu.
– Výhoda: komplexní odhad faktorových zátěží i komunalit a jedinečností
– Nevýhody: celkovou variabilitu nevysvětlí ani plný počet faktorů (metoda
pracuje hlavně s diagonálními prvky), odhady faktorů nemusejí být ortogonální

26
5. Rotace faktorových zátěží
› Problém faktorového modelu je skutečnost, že nevede k
jednoznačnému řešení.

› Rotace – transformace prvního řešení (například nalezeného


metodou hlavních faktorů)
– Aby co nejvíce zátěží bylo blízkých nule a co nejvíce zbývajících blízkých k
jedné (umožňuje lepší interpretaci hledáním souvislostí mezi faktorem a
proměnnými).

27
5. Metody rotace faktorových zátěží

ORTOGONÁLNÍ ŠIKMÉ (NEORTOGONÁLNÍ)


› Výsledné faktory jsou nekorelované. › Výsledné faktory jsou korelované.

› VARIMAX – minimalizuje počet


proměnných, jež mají vysoké zátěže s
každým společným faktorem. › OBLIMIN, OBLIMAX – generují jednodušší
– Zjednodušuje sloupce faktorové matice tím, struktury faktorů
že minimalizuje počet položek, na které faktor
působí. › U korelovaných faktorů můžeme dále
provést faktorovou analýzu jejich korelační
› QUARTIMAX – minimalizuje počet faktorů, matice - faktory druhého řádu (aplikace
jichž je potřeba pro vysvětlení jednotlivých v psychologii).
proměnných.
– Zjednodušuje řádky faktorové matice tím, že
položky jsou vysvětlovány co nejmenším počtem
nalezených faktorů
› EQUAMAX – kombinace Varimax a
Quartimax
28
6. Interpretace faktorových zátěží
› Faktorové zátěže
– při analýze R a ortogonálních faktorech korelace mezi faktorem a proměnnou.
– při analýze S a ortogonálních faktorech kovariance mezi faktorem a proměnnou.
› Podle těchto korelací odvozujeme význam faktorů, jejich interpretaci
– podle působení faktorů na proměnné
› Faktorové zátěže vyjadřují závislost mezi původními proměnnými a
novými faktory (míru vysvětlitelnosti).
› Faktory lze interpretovat jako osy (ortogonálního) prostoru, do něhož
se proměnné (původně n-rozměrné) projektují
– Proměnné Y lze vyjádřit jako body v prostoru faktorů – pro dva faktory je to
rovina.
– Loading plot.

29
6. Interpretace faktorových zátěží
› Zvykové pravidlo (jedno z různých – nesmí být dogma!)
– koeficienty menší než .30 (minimální hodnota)
– koeficienty .30 až .40 slabě důležité
– koeficienty nad .50 jsou prakticky důležité
› Pásma: .30 až .50; .50 až .70; .70 až .90, a více než .90
(odpovídá 10%, 25%, 50%, 80% determinace)
› Pozor: přesto, že faktorové zátěže mají interpretaci korelačních
koeficientů, mají podstatně větší std. chybu odhadu
› Pozor: faktorové zátěže mají interpretaci korelačních koeficientů
pouze v případě, že faktory jsou vzájemně nekorelované
30
6. Interpretace faktorů
› Interpretace faktorů nebývá jednoznačná - je to nalezení jména
nové proměnné, nový pojem.
› Faktory jsou nové proměnné - vstupují do další analýzy
(korelace, regrese, ANOVA, seskupování).
› Často jsou základem profilů pro seskupování/segmentaci

důležitá vlastnost:
faktory syntetizují shodnou informaci do jedné proměnné
pro seskupování tak vyrovnávají nevyváženost
informačního rozložení u množiny proměnných
31
7. Odhadujeme hodnoty faktorů pro jednotlivé případy.
(faktorové skóre)
› Faktorové skóre – výpočet skóre pro každou jednotku (případ)
ve výběrovém souboru
› Při odhadu faktorových zátěží metodou hlavních faktorů, lze
použít Bartlettovu metodu

𝑝
𝑣𝑗𝑘 𝑧𝑖𝑗
𝑓𝑖𝑘 = ෍ k = 1, 2, …, R

𝑗
𝑙𝑘
› Získaná skóre lze použít pro navazující analýzu (např. lineární
regresní analýzu).

32
Příklad
Explorační faktorová analýza

33
Příklad
› Míry úmrtnosti na různé příčiny úmrtí v jednotlivých státech USA v
roce 2016. Soubor dat byl získán z Národního centra pro zdravotní
statistiku.
› 10 proměnných: Alzheimers, Chronic Lower Respiratory Diseases,
Cancer, Diabetes, HeartDis, FluPneum, Kidney, Stroke, Suicide,
Accidents.
› Pro každou proměnnou 52 pozorování (států USA). Nemáme
chybějící hodnoty.
› Cíl: redukce počtu příčin úmrtí do menšího počtu nových
proměnných (faktorů) a jejich interpretace.
› Počítáno z korelační matice. Rotace VARIMAX.
34
Počáteční analýza – popisná statistika

Komunality původních
se již nerovnají 1 (na
rozdíl od PCA).

V PCA jsou komunality vždy rovny 1 pro každou proměnnou, což znamená, že veškerá variabilita
původní proměnné je zahrnuta v hlavních komponentách.

V EFA může být variabilita každé proměnné vysvětlena jak společnými faktory (které jsou sdílené s
jinými proměnnými), tak také unikátními faktory (které jsou specifické pro danou proměnnou).
Proto komunality v EFA nemusí být vždy rovny 1, protože některá část variability původní
proměnné může být vysvětlena unikátními faktory.
35
Rozdílný přístup práce PCA a EFA s komunalitami
› Rozdíl mezi komunalitami v PCA a EFA odráží rozdílný cíl a
přístup těchto dvou metod k redukci dimenzionality dat. PCA
se zaměřuje na zachycení celkové variability, zatímco EFA se
snaží identifikovat skryté faktory, které by mohly vysvětlit
vzory korelací mezi proměnnými.

36
Počáteční analýza – korelační matice

Mezi určitými příčinami úmrtí existují vyšší korelační koeficienty:


- Mrtvice (Stroke) a Alzheimer = 0,65
- Rakovina (Cancer) a chronický zánět dolních cest dýchacích (LowResDis) = 0,66
- Cukrovka (Diabetes) a chronický zánět dolních cest dýchacích (LowResDis) = 0,66
- Rakovina (Cancer) a srdeční choroby (HeartDis) = 0,73
- Problémy s ledvinami (Kidney) a mrtvice (Stroke) = 0,69
37
Výpočet faktorů a charakteristických čísel
(eigenvalues) – nerotované a rotované řešení
NEROTOVANÉ ŘEŠENÍ

ROTOVANÉ ŘEŠENÍ

Součet = 10

Součet = 6,477
Analýza hlavních komponent (nerotované řešení) = počet komponent je roven součtu charakteristických
čísel (vysvětlena celá variabilita)
Faktorová analýza (rotované řešení) = počet faktorů není roven součtu charakteristických čísel (vysvětlená
38
variabilita + nevysvětlená část modelu)
Určení počtu faktorů
› Kaiserovo kritérium = faktory s charakteristickými čísly většími
než 1 (poskytují více informací než 1 proměnná)

39
Výpočet vektoru charakteristických čísel
Vektory vlastních čísel (eigenvectors) = váhy, které vztahují původní proměnné v
normované podobě k faktorům.
- Tyto koeficienty lze použít k určení relativního významu každé proměnné při tvorbě komponenty.

Výsledek PCA (nerotované řešení) Výsledek EFA (rotované řešení)

40
Výpočet faktorových zátěží
› Faktorové zátěže (factor loadings) = korelace mezi původními
proměnnými a faktory
Výsledek PCA (nerotované řešení) Výsledek EFA (rotované řešení)

41
Porovnání výsledků PCA a EFA
ANALÝZA HLAVNÍCH KOMPONENT EXPLORAČNÍ FAKTOROVÁ ANALÝZA
(PCA) (EFA)

?
?
? ?

42
Výpočet komunalit
Komunalita je podíl variability proměnné, který připadá na identifikované
faktory.

Součty hodnot 52,7 % variability proměnné


v řádcích „Alzheimers“ je vysvětlena
faktory F1, F2 a F3 =
KOMUNALITA
Chceme, aby byla co nejvyšší.

(1-0,527) = 47,3 % variability


proměnné „Alzheimers“ má
vztah k ostatním faktorům =
JEDINEČNOST
Chceme, aby byla co nejnižší.

43
Výpočet faktorových skórů
› Skóre je dostupné pro každé pozorování a každý faktor.
Generovány jako nové proměnné softwarem.
› Lze je použít jako hodnoty nových proměnných (hlavních
komponent) pro navazující analýzu (např. vícenásobnou lineární
regresi).
𝑦1 = 𝛽0 + 𝛽1 𝐹𝑠𝑐𝑜𝑟𝑒11 + 𝛽2 𝐹𝑠𝑐𝑜𝑟𝑒12 + ⋯ + 𝛽𝑘 𝐹𝑠𝑐𝑜𝑟𝑒1𝑘 + 𝜀1
Pozor
𝑦2 = 𝛽0 + 𝛽1 𝐹𝑠𝑐𝑜𝑟𝑒21 + 𝛽2 𝐹𝑠𝑐𝑜𝑟𝑒22 + ⋯ + 𝛽𝑘 𝐹𝑠𝑐𝑜𝑟𝑒2𝑘 + 𝜀2 odhady faktorů
nemusejí být
… … … … ortogonální
𝑦𝑛 = 𝛽0 + 𝛽1 𝐹𝑠𝑐𝑜𝑟𝑒𝑛1 + 𝛽2 𝐹𝑠𝑐𝑜𝑟𝑒𝑛2 + ⋯ + 𝛽𝑘 𝐹𝑠𝑐𝑜𝑟𝑒𝑛𝑘 + 𝜀𝑛

β = strukturní koeficienty
44

You might also like