Sss Vypisky Z Prednasek Info

Průzkumová analýza dat
➢ Nejdůležitějším krokem celé přípravy dat pro následné statistické zpracování je jejich
kontrola.
➢ Zajímá nás zda v datech nejsou chyby, hodnoty mimo přijatelný rozsah či chybějící
hodnoty.
➢ Tento postup se nazývá průzkumová analýza dat, která umožňuje předběžné zpracování
a tolik potřebnou kontrolu dat. Jedná se o velmi efektivní nástroj. Ve svých výsledcích je
srozumitelná a snadno interpretovatelná.
➢ Průzkumová analýza vychází z tradičních postupů deskriptivní analýzy, ale přesahuje její
rámec.
➢ Cílem je postižení zvláštností a nedostatků ve zpracovávaných datech, a také posouzení

platnosti předpokladů nutných pro jejich další statistické zpracování.
➢ Po stránce numerických výpočtů může být poměrně náročná, proto se doporučuje

využití statistického softwaru.
Postup statistické analýzy jednorozměrných dat

1. EDA (průzkumová analýza dat)
➢ posouzení stupně zešikmení a špičatosti dat
➢ nalezení „podezřelých“ (odlehlých/extrémních) hodnot v datech
➢ ověření normality rozdělení
➢ ověření nezávislosti prvků výběru (autokorelace)
2. Odhady parametrů základního souboru
➢ výpočet výběrových charakteristik (momentových nebo robustních)
➢ výpočet bodových odhadů parametrů ZS
➢ výpočet intervalových odhadů parametrů ZS
3. Testování statistických hypotéz
➢ formulace hypotéz
➢ rozhodnutí o nezamítnutí/zamítnutí dané hypotézy
➢ v případě potřeby - analýza síly testu
Aby bylo možné aplikovat na data „klasickou“ metodu odhadu parametrů, tedy vypočítat
základní charakteristiky z analyzovaných dat (aritmetický průměr, směrodatnou odchylku atd.),
musí data splňovat následující předpoklady:
➢ data musí být vzájemně nezávislá
➢ musí pocházet ze základního souboru s normálním rozdělením
➢ neměla by obsahovat extrémní pozorování
➢ potřebná velikost výběru
Pro zvolení vhodné metody odhadu parametrů je nutné nejprve tyto podmínky/předpoklady
ověřit a k tomu slouží průzkumová analýza dat.
Nezávislost v datech
➢ Nezávislost znamená, že se v získaných/naměřených datech neobjevuje žádný trend
(rostoucí, klesající, atd.)
➢ V případě, že data vykazují trend, znamená to nesplnění podmínek náhodného výběru,

což je jedna ze základních podmínek matematické statistiky
➢ Závislá data by se neměla používat k další analýze a měla by být naměřena jiná data
➢ Vzhledem k faktu, že data jsou opravdu vzácná a často „drahá“, se i tato data obvykle v
praxi nakonec použijí, ale je nutné tuto skutečnost zohlednit při interpretaci výsledků
analýzy
➢ Měla by se odhalit příčina závislosti/trendu v datech
Normalita
➢ Základní momentové statistické charakteristiky jsou konstruovány na základě
předpokladu normálního rozdělení dat
➢ Pokud není splněna podmínka normálního rozdělení dat je nejprve nutné zjistit příčinu
nenormality
➢ Nejčastější jsou dvě:
asymetrické rozložení dat (levostranné nebo pravostranné rozdělení/zešikmení nebo špičaté

nebo ploché rozdělení)
extrémní hodnoty
Extrémní pozorování v datovém souboru

Extrémní hodnoty je nutné posuzovat v kontextu jejich vypovídací hodnoty a správnosti jejich
stanovení. Okamžitě se vylučují z datové matice pouze tzv. zjevné hrubé chyby (způsobené např.
chybným měřením, zápisem apod.).
Pokud byly hodnoty naměřené správně/spolehlivě (není známa žádná příčina hrubé chyby a
daná hodnota je „možná“), není možné je z datového souboru vyloučit, naopak – mohou mít
vysokou vypovídací schopnost, mohou být dokonce v některých případech cennější než ostatní
data. Pozorování je nutné v souboru ponechat.
K odhadu parametrů souboru je potom však nutné použít jinou metodu – robustní metody
(například kvantily) nebo transformace.
Pokud jsou extrémní hodnoty vyloučené jako hrubé chyby, je nutné znovu otestovat, zda „zbylý“
soubor pochází z normálního rozdělení.
Ke zjištění důležitých vlastností analyzovaných souborů se využívá metod průzkumové analýzy

dat. Na základě jejích výsledků se rozhoduje, zda se použijí momentové odhady (v případě
splnění podmínek) nebo kvantilové (resp. transformační) odhady (v případě jejich nedodržení).
Grafické metody průzkumové analýzy dat

➢ Grafické zobrazení je velice důležité pro předběžnou analýzou dat, může pomoci k
výběru lepšího modelu například při analýze časových řad, nebo k přesnějším výpočtům
i k většímu porozumění vztahů mezi daty.
➢ Graf základním prostředkem prezentace dat.
➢ graf rozptýlení hodnot (prosté vynesení bodů na číselnou osu)
➢ krabicový graf (box plot/ box and whisker plot – krabice s vousy) – informace o tom, jak
jsou data v souboru rozložena (každá část krabicového grafu ukazuje, v jakém intervalu
číselné osy se nachází 25 % dat – tedy čím je příslušná část užší, tím jsou data v daném
úseku více koncentrována)
➢ vrubový krabicový graf (Notched box plot) – navíc intervalový odhad mediánu
➢ kvantil-kvantilový graf (qq plot) - nejlepší grafická metoda pro posouzení shody
empirických hodnot s daným rozdělením (nejčastěji s normálním rozdělením)
na osu x v grafu jsou vynášeny kvantily uvažovaného pravděpodobnostního rozdělení (teoretické

kvantily) a pozorované/měřené kvantily jsou vynášeny na osu y
➢ histogram – grafické zobrazení intervalového rozdělení četností, použitelný zejména v

případě posuzování vlastností rozdělení četností (variabilita, poloha, případně špičatost
a šikmost)
➢ případně graf hustoty pravděpodobnosti
Početní metody průzkumové analýzy dat/testy

➢ testy shody (normality)
➢ test nezávislosti dat
➢ testy extrémních hodnot
➢ stanovení minimální velikosti výběru

Testy shody (normality)
➢ Kolmogorov-Smirnovův test (KS test)
➢ Shapiro-Wilkův test
➢ d’Agostinův test
➢ Lillieforsův test a další
Tyto testy testují nulovou hypotézu, že výběr pochází ze základního souboru s normálním
rozdělením.
Testy závislosti/nezávislosti v datech

➢ Vzájemná závislost prvků jednoho souboru se nazývá AUTOKORELACE.
➢ Testy nezávislosti testují nulovou hypotézu, že všechny prvky výběru jsou NAVZÁJEM
nezávislé, ve výběru není autokorelace.
➢ Používají se testy autokorelace určitého řádu, např. pro autokorelaci I. řádu von
Neumannův test.
Testy odlehlých/extrémních hodnot

➢ Testují nulovou hypotézu, že odchylka (testované hodnoty) extrémní hodnoty je náhodná.
➢ GRUBBSŮV TEST (předpokládá normální rozdělení)
➢ Dixonův test extrémních odchylek (nepředpokládá normální rozdělení)
Co dělat, když…?
➢ Není splněn požadavek nezávislosti prvků?
Je třeba hlubší analýza logických příčin, kontrola celého řetězce měření, provedení
nového/nových měření.
➢ Není splněn požadavek normálního rozdělení dat?
Rozdělení dat je buď jiného typu než normálního (zešikmení, špičatost), v datech mohou
být odlehlá/extrémní pozorování.
Využití robustních postupů, kterými je možné eliminovat ovlivnění odlehlými/chybnými

hodnotami (robustní charakteristiky a metody výpočtu).
Využití transformace dat, která slouží především ke snížení rozptylu dat, či právě
dosažení vyššího stupně symetrie (nejlépe normality).
➢ Není splněn dostatečný rozsah výběru?
Nejjednodušší je provést dodatečná měření.

Normalita a transformace dat
➢ Požadavky na transformační funkci - nelineární funkce (jinak by došlo pouze k posunu
dat a změně měřítka), monotónnost průběhu (aby se nezměnilo pořadí velikosti dat) a fce
musí směřovat k maximální symetrii.
➢ Logaritmická transformace dat – (používá se s zpravidla pro veličiny s výrazně

levostranným rozdělením), spočívá v zlogaritmování dat.
➢ Box-Coxova transformace - v současné době nejčastěji používaná transformace dat.
Modifikace dat
využití robustních postupů pro eliminaci vlivu odlehlých hodnot
➢ Winsorizace
spočívá v nahrazení určitého počtu nejmenších a největších hodnot hodnotami sousedními –

tzv. winsorizovaný výběr
➢ Censorizace
vyoučení určitého procenta nejvyšších a nejnižších hodnot ze souboru – censorovaný průměr
Metody průzkumové analýzy dat

Grafické a testové metody by se měly používat společně, odpovídají na různé otázky/ vhodně se
doplňují
➢ testové metody odpovídají na otázku ZDA je splněn daný předpoklad, např. zda pochází
nebo nepochází daný výběr ze základního souboru s normálním rozdělením
➢ grafické metody odpovídají na otázku PROČ daný předpoklad není splněn, proč data
nemají normální rozdělení, co je toho příčinou
Zešikmení negativní
➢ zešikmený soubor (v tomto případě pravostranný), většina hodnot je koncentrována
napravo, žádný bod ale není výrazně vzdálený od ostatních, žádný bod není možné
vypustit), koeficient šikmosti je záporný
Zešikmení pozitivní
➢ zešikmený soubor (v tomto případě levostranný), většina hodnot je koncentrována
nalevo, žádný bod ale není výrazně vzdálený od ostatních, žádný bod není možné
vypustit), koeficient šikmosti je kladný
Nulové zešikmení
➢ není zešikmený soubor, jedná se o symetrické rozložení dat v souboru kolem střední
hodnoty, většina hodnot je koncentrována právě kolem střední hodnoty, koeficient
šikmosti je roven nule
Průzkumová analýza v systému SAS
➢ Statistický systém SAS (modul SAS STAT) nabízí dvě základní procedury
• Univariate a
• Means.
➢ Procedura Univariate je velmi užitečná a hojně využívaná pro vyčištění dat spojitých
proměnných. Poskytuje informace o rozdělení hodnot proměnné, včetně její střední
hodnoty, míry rozptylu a špičatosti rozdělení neboli stupně nevyváženosti rozdělení dat.
Statistická indukce
• Na základě zkoumání náhodného výběru činíme závěry o základním souboru
• Souhrn metod - statistická indukce
• 1. Teorie odhadu
• 2. Testování statistických hypotéz
Odhad
• Bodový - vypočteme jedno číslo, které považujeme za odhad parametru základního
souboru
• Intervalový- uvedeme interval, který s předem danou pravděpodobností obsahuje danou

hodnotu parametru základního souboru - interval spolehlivosti
Bodový odhad
• Požadavky na kvalitní odhad :
• Nestrannost
• Konzistence
• Vydatnost
• Postačující statistika
Nestrannost
Statistika T dává nestranný odhad

charakteristiky , jestliže E(T) = 
Požadavek, aby použití statistiky T

nevedlo k systematickým chybám.
Chceme, aby se odchylky
v průměru eliminovaly :
E(T -  ) = 0
Konzistence
• Konzistentní odhad je takový odhad, který zaručuje při dostatečně velkém rozsahu
výběru malou pravděpodobnost velkých chyb při odhadu parametrů
• S rostoucím rozsahem výběru poroste i pravděpodobnost, že hodnota odhadu populační

charakteristiky se liší od skutečné hodnoty populační charakteristiky nepatrně
Vydatnost
• Statistika T dává vydatný (též nejlepší nestranný) odhad populační charakteristiky,

jestliže má ze všech nestranných odhadů odhadů charakteristiky  nejmenší rozptyl.
Postačující odhad
• Statistika T je postačující, jestliže obsahuje všechny informace o populační

charakteristice .
Bodové odhady
• Průměr základního souboru  - bodovým odhadem je výběrový průměr x
• Rozptyl základního souboru 2- bodovým odhadem je rozptyl s2
Intervalový odhad
• Interval spolehlivosti
• Meze spolehlivosti
• Koeficient spolehlivosti
• Hladina významnosti
• Přesnost odhadu
• Interval jednostranný levo- ,pravostranný
• Interval oboustranný
Interval spolehlivosti pro průměr – oboustranný

P( x -    x +  ) = 1 - 
 - přípustná chyba odhadu
Testování statistických hypotéz

• Statistická hypotéza - každé tvrzení o tvaru nebo charakteristikách rozdělení jednoho či
několika statistických znaků.
• Test statistické hypotézy - postup, jímž na základě náhodného výběru ověřujeme, zda
tato hypotéza platí či nikoliv.
• Parametrické hypotézy - týkají se hodnot parametrů rozdělení
• Neparametrické hypotézy - týkají se tvrzení o rozdělení (bez precizování parametrů)
Obecný postup testování

• Stanovení nulové hypotézy H0
• Stanovení alternativní hypotézy H1
• Určení (volba) hladiny významnosti
• Volba a výpočet testového kritéria
• Nalezení kritické hodnoty v tabulkách
• S využitím statistického softwaru – stanovení p-value
• Vyhodnocení testu
• Interpretace výsledku
chyby při testování
• Chyba prvního druhu - zamítnutí správné Ho
• Pravděpodobnost chyby 1. druhu - 
• Chyba druhého druhu - přijetí nesprávné Ho
• Pravděpodobnost chyby 2. druhu - 
 1-
Pravdpěpodobnost chyby 1. druhu spolehlivost testu

Hladina významnosti
 1- 
Pravdpěpodobnost chyby 2. druhu Síla testu
Obecný postup testování – formulace H0 a H1

• Formulace nulové hypotézy H0: =0
mezi testovanými charakteristikami neexistují statisticky významné rozdíly
• alternativní hypotéza H1 :
• 1) H1:   0 - tzv. oboustranná alternativa
• 2) H1:   0 - pravostranná alternativa
• 3) H1:   0 - levostranná alternativa
Obecný postup testování – testové kritérium

• Stanovení hladiny významnosti
• Volba testového kritéria
• Výpočet hodnoty testového kritéria

Obecný postup testování – kritické hodnoty
• Určení kritických hodnot a vymezení kritického oboru
--------------------------  -----------------------------
Obor nezamítnuti Ho  Obor zamítnutí Ho=
 = kritický obor
kritická hodnota
(nalezneme v tabulkách)
Parametrické testy
• Testy hypotéz o hodnotě parametru jednoho rozdělení- průměr, rozptyl, relativní četnost
• Testy hypotéz o parametrech dvou rozdělení - průměr, rozptyl, relativní četnost
• Testy hypotéz o parametrech více než dvou rozdělení - průměr, rozptyl
Test o hodnotě průměru - jednovýběrový t-test
• Zjišťujeme, zda výběrový soubor patří do základního souboru se známým průměrem
• H : μ = μo
• Nulová hypotéza : průměr základního souboru, z něhož pochází výběr, se neliší od

známého průměru základního souboru
Dvouvýběrové testy
➢ Testy hypotéz o parametrech dvou rozdělení - průměr, rozptyl, relativní četnost
Testy shody průměrů dvou normálních rozdělení
• Test při stejných rozptylech (nezávislé výběry) : dvouvýběrový t-test
• Test při nestejných rozptylech (nezávislé výběry) : Welchův test
• Pro závislé výběry ( na jednom souboru se provádí dvojí měření) použijeme

párový t-test
Dvouvýběrový T- test
Máme dva nezávislé výběrové soubory
První soubor : známe rozsah m,

průměr x , rozptyl s12
Druhý soubor : známe rozsah n,
průměr y , rozptyl s22
Výsledek F- testu : rozptyly v základních
souborech jsou shodné
Nulová hypotéza : 1 = 2
Průměry základních souborů se neliší –

jedná se o jeden základní soubor
Welchův test
Máme dva nezávislé výběrové soubory
1.soubor : známe rozsah m, průměr x ,

rozptyl s12
2. soubor : známe rozsah n, průměr y ,
rozptyl s22
Výsledek F- testu : rozptyly v základních
souborech nejsou shodné
Nulová hypotéza : 1 = 2
Průměry základních souborů se neliší – jedná se o

jeden základní soubor
Párový t-test
Máme jeden výběrový soubor a na každé
jednotce dvě měření - hodnoty xi a yi.
Vycházíme z rozdílů (diferencí) hodnot xi a

yi : di = xi - yi.
Párový test - testové kritérium
Místo hypotézy H0: 1 =  2 budeme testovat hypotézu H0:  d =0.
d
t= n
sd .
Neparametrické testy
• Nepředpokládají specifikované rozdělení základního souboru
• Použitelné jak pro studium kvantitativních tak kvalitativních znaků
• Výpočetní jednoduchost
Vybrané neparametrické testy (2 výběry)

• Dvouvýběrový Willcoxonův (obdoba t-testu)
• Willcoxonův (obdoba párového testu)
• Znaménkový test (obdoba párového testu)
Dvouvýběrový Wilcoxonův test

Všechny výběrové hodnoty x1, ...xm, y1, ...yn (tzv. sdružený
výběr) uspořádáme podle velikosti a přiřadíme jim pořadová
čísla R x1 , .....R x m , R y1 , .....R y n (tzn. hodnoty očíslujeme od nejmenší
k největší přirozenými čísly 1, 2, ...N=m+n, přičemž stejně
velkým hodnotám přiřadíme stejné průměrné pořadí).
Zjistíme součty
Tx = R x + .....R x , Ty = R y + .....R y
1 m 1 n
Vypočteme veličiny
Ux = mn + m(m +1) − Tx , U y = mn + n(n +1) − Ty .

2 2
Nulovou hypotézu zamítneme na hladině významnosti , jestliže

U=min(Ux, Uy)U(m,n), kde U je tabelovaná kritická hodnota.
Wilcoxonův test
Ověřujeme, zda dva párové (závislé) výběry se významně liší svou

polohou.
Pro každou dvojici závislých pozorování (xi, yi) vypočteme
diferenci di = xi - yi
(i=1, 2, ...., n) a absolutním hodnotám diferencí přiřadíme pořadová
čísla R( d i ) , nulové diference vynecháváme. Sečteme zvlášť pořadová
čísla kladných diferencí a pořadová čísla záporných diferencí.
Dostaneme tak součet W+ pro kladné diference a W- pro záporné
diference.
Znaménkový test
• Neparametrická analogie párového t-testu
• po vyjádření diferencí se soustředíme pouze na znaménka diferencí
• Z+ - počet kladných diferencí
• Z- - počet záporných diferencí
• Z = min Z+,Z-
• Je-li Z<Z potom nulovou hypotézu zamítáme

Analýza rozptylu - ANOVA
Analýza rozptylu představuje zobecnění
dvouvýběrového t-testu na případ více než
dvou výběrů. Užívá se jí tehdy, sledujeme-li
vliv jednoho nebo několika faktorů na
zkoumaný kvantitativní statistický znak X.
Analýza rozptylu
Úrovně sledovaných faktorů mohou představovat obměny určitého kvalitativního faktoru nebo
různé hodnoty určitého kvantitativního faktoru.
Jsou-li úrovně faktoru přesně fixovány, nazýváme odpovídající model analýzy rozptylu model s
pevnými efekty.
Model s náhodnými efekty – úrovně faktoru mohou být náhodně vybrány z velkého počtu
možných úrovní. Při náhodně vybraných úrovních (tzn. má-li výběr úrovní náhodný charakter) je
efekt úrovně náhodnou veličinou.
Získané hodnoty uspořádáme podle úrovní sledovaného faktoru do tolika tříd, na kolika úrovních
tento faktor sledujeme (pokusný plán).
Model, kdy sledujeme úroveň jednoho faktoru, se potom nazývá analýza rozptylu při
jednoduchém třídění/jednoduchá/jednofaktorová analýza rozptylu.
Jednofaktorová analýza rozptylu
Princip analýzy rozptylu :
Rozkládá celkový rozptyl na dvě složky –
rozptyl mezi skupinami a

rozptyl uvnitř skupin (reziduální)
Z porovnání těchto dvou rozptylů vychází pak

testové kritérium
s2
F= 1
2
sr
ANOVA
Vyvážený model ANOVA - v každé skupině je stejný počet pozorování (ortogonální model)
Nevyvážený (neortogonální ) model ANOVA - ve skupinách může být různý počet pozorování
Jednofaktorová/jednoduchá analýza rozptylu

Testuje shodu více než dvou průměrů při vlivu jednoho faktoru A
H0 : 1 = 2 = 3 = …..k nebo
H0 : a1 = a2 = a3 = …..ak = 0
Alternativně vyjádřeno - efekty jednotlivých úrovní sledovaného faktoru A jsou

zanedbatelné.
H1 : alespoň jeden průměr/jedna dvojice průměrů se významně liší od ostatních
Analýza rozptylu
Pokud dojde k zamítnutí nulové hypotézy,
činíme závěr, že alespoň jeden průměr se
významně liší.
Je tedy třeba provést podrobnější
vyhodnocení pomocí tzv. metod
mnohonásobného porovnání.
Metody mnohonásobného porovnávání
• Duncanova metoda
• Kramerova metoda
• Scheffe metoda (S – metoda)
• Tukey metoda (T – metoda)
• Newmann – Kelsův test
• Dunnettův test
• Fisherův LSD test apod.
Princip všech metod vychází z porovnání průměrů

jednotlivých skupin :
x −x
i• j•
Jednofaktorová analýza rozptylu

Předpoklad použití analýzy rozptylu :
1. Nezávislost VS
2. Normalita rozdělení
3. Shodné rozptyly/homoskedasticita
(zásadnější vliv)
Porušení předpokladů
Předpoklad normálního rozdělení dat
• nesplněná normalita při splnění rovnosti rozptylů má na signifikanci jen malý vliv
• symetrické (nezešikmené) rozdělení se prakticky neliší od normálního (s růstem počtu

případů)
• v případě nesymetrických/zešikmených rozdělení se doporučuje využití KW testu (testuje

shodu celých rozdělení)
Předpoklad homoskedasticity
• rozdílné rozptyly (heteroskedasticita) mají na signifikanci větší dopad
• situaci neovlivní ani růst počtu případů.

• heteroskedasticita je ještě přijatelná při normálním, resp. symetrickém rozdělení, a
zároveň stejném počtu případů ve skupinách
• Při nestejných rozptylech je nejjednodušší variantou využití robustních testů, které

shodu rozptylu nepředpokládají – jako je Welchův test (testují se poté dvojice souborů),
nebo Brownův-Forsytheův test
• Ovšem tyto testy, které nepředpokládají shodu rozptylů/tedy si dokáží poradit s

heteroskedasticitou, jsou více citlivé na splnění předpokladu normality.
Ověření shody rozptylů jeden z předpokladů parametrické ANOVY

Test shody rozptylů více než dvou normálních rozdělení
Ověření hypotézy H :  2 = 2 = ...... m

2
0 1 2
H1: alespoň jeden z rozptylů porovnávaných

skupin se liší od ostatních
• Hartleyův test
• Bartlettův test (velmi citlivý na dodržení předpokladu normality)
• Levenův test (implementovaný v systému SAS)
Neparametrická forma jednofaktorové ANOVY

Kruskal – Wallisův test
H0: výběrové soubory pocházejí ze stejného rozdělení (ze

stejného základního souboru)
H1: Alespoň jeden nepochází ze stejného rozdělení (ze

stejného základního souboru)
Kruskalův - Wallisův test představuje neparametrickou
obdobu jednoduché analýzy rozptylu. Umožňuje test hypotézy,
že m nezávislých výběrů s rozsahy n1, n2, ......nm pochází
z téhož rozdělení.
Všechny hodnoty z m výběrů seřadíme do jedné rostoucí
posloupnosti a určí se pořadí každého prvku.
Metody mnohonásobného porovnávání – neparametrické formy

Neményiho metoda – použitelná pro vyvážený model
Dunnova metoda – použitelná pro nevyvážený model
Analýza rozptylu při dvojném třídění (Dvoufaktorová ANOVA)

Uvažujme dva faktory A a B, které současně působí na určitý statistický znak X.
Faktor A má m úrovní A1, A2, …, Am (podle tohoto faktoru se tedy dají všechna pozorování roztřídit
do m skupin),
faktor B má n úrovní B1, B2, …, Bn (podle faktoru B lze roztřídit všechny pozorované hodnoty do n
skupin).
Pokud má každá kombinace úrovní faktoru A a faktoru B pouze jedinou naměřenou hodnotu x ij,
hovoříme o modelu dvojného třídění s jedním pozorováním v každé podtřídě.
V uvedeném modelu je možno testovat dvě nulové hypotézy:
H0(a) : a1= a2= a3=...am= 0
H0(b) : b1= b2= b3=bn= 0
Dvoufaktorový model s pevnými efekty – úrovně obou
faktorů jsou fixované

Dvoufaktorový model s náhodnými efekty – úrovně obou
faktorů jsou náhodné
Smíšený dvoufaktorový model – úrovně jednoho faktoru
jsou pevné a úrovně druhého faktoru jsou náhodně vybrány
Analýza při dvojném třídění se stejným počtem pozorování (p >1) v

podtřídách při existenci interakce
Při tomto modelu je uvažována i možnost vzájemného vztahu (společné působení) faktoru A a
faktoru B na závisle proměnnou.
Interakcí se rozumí jev, při kterém kombinace úrovní faktorů může mít na výslednou hodnotu
sledovaného znaku rozdílný účinek než činí „prostý součet účinku každého faktoru uvažovaného
zvlášť“.
Používá se v případech, kdy nelze objasnit variabilitu xij pouze aditivním působením jednotlivých
faktorů.
Analýza při dvojném třídění s interakcí

V tomto případě se formulují 3 hypotézy:
H0(a) : a1= a2= a3=…am= 0
H0(b) : b1= b2= b3=…bn= 0
H0(ab) : (ab)ij=0
Tzn. že interakce má svoji nulovou hypotézu, která uvádí, že mezi faktory A a B není žádný vztah.
Nulová hypotéza o interakci se testuje jako první.

Regresní a korelační analýza
Závislost
Závislost pevná (funkční)
dané hodnotě jednoho znaku odpovídá jediná hodnota druhého znaku
Závislost volná (stochastická/statistická)
dané hodnotě jednoho znaku odpovídá více hodnot druhého znaku - působí zde náhodná
složka
Statistická závislost
• korelace – popisuje vliv změny úrovně jednoho znaku na změnu úrovně jiných znaků a
platí pro kvantitativní (měřené) znaky;
• kontingence – popisuje závislost kvalitativních (slovních, popisných) znaků, které mají

více než dvě alternativy, tzv. množných znaků (např. druh dřeviny, národnost, apod.);
• asociace - popisuje závislost kvalitativních (slovních, popisných) znaků, které mají pouze
dvě alternativy, tzv. alternativních znaků (např. pohlaví, odpovědi typu ano/ne, …).
Analýza vícerozměrných souborů, kdy lze sledovat vzájemné vztahy mezi proměnnými.
Dva základní úkoly :
1. regresní analýza
• zabývá se vytvořením vhodného matematického modelu závislosti,
• tvorba regresních odhadů/predikcí
• stanoví parametry tohoto modelu,
• ověřuje hypotézy o vhodnosti a důležitých vlastnostech modelu
2. korelační analýza
• zjišťuje existenci závislosti a její typy,
• měří těsnost závislosti,
• ověřuje hypotézy o statistické významnosti závislosti

Typy závislosti v regresní a korelační analýze
• typy podle počtu sledovaných znaků
jednoduchá – popisuje vztah dvou znaků,
mnohonásobná – popisuje vztahy více než dvou znaků,
parciální – popisuje závislost dvou znaků ve vícerozměrném statistickém

souboru při vyloučení vlivu ostatních znaků na tuto závislost
• typy podle smyslu změny hodnot
přímá (kladná) – se zvyšováním hodnot jednoho znaku se zvyšují i hodnoty

druhého znaku
nepřímá (záporná) - se zvyšováním hodnot jednoho znaku se zmenšují hodnoty

druhého znaku
• typy podle tvaru závislosti
přímková (lineární) – grafickým obrazem závislosti je přímka (lineární trend)
křivková (nelineární) – grafickým obrazem závislosti je křivka (nelineární trend)
TVAR závislosti je možné orientačně posoudit grafem korelačního pole.
• typy dle směru působení
jednostranná
oboustranná
Jednoduchá lineární regrese a korelace závislost Y na X
yi =  + xi
Hodnoty  a  představují neznámé parametry základního souboru
Obvykle pracujeme s výběrovým souborem . Potom lineární rovnice má tvar :
yí = a + b xi
kde a je absolutní člen a b je tzv. regresní koeficient
Bodové odhady a, b parametrù  ,  regresní přímky se
z pozorovaných dat nejčastěji získávají metodou nejmenších čtverců. Tato
metoda vychází z požadavku, aby součet čtverců odchylek pozorovaných
hodnot y1, y2, y3, ........yn veličiny Y od odhadované regresní funkce byl
minimální. Vycházíme tedy z podmínky:
n
 (yi − + xi )2 = min .
i=1
Jednoduchá lineární regrese a korelace
Závislost jednostranná :
yí = ayx + byx xi
Závislost oboustranná - sdružené regresní přímky
yí = ayx + byx xi
x´ i = axy + bxy yi
byx – koeficient regrese (směrnice přímky) , nabývá libovolných hodnot
Udává průměrnou změnu závisle proměnné při jednotkové změně nezávisle proměnné.
Kladný regresní koeficient – přímá lineární závislost
Záporný regresní koeficient – nepřímá lineární závislost
síla závislosti
Pro lineární regresi – koeficient korelace (korelační koeficient)
ryx = rxy
Vlastnosti korelačního koeficientu :
−1  r yx  1
1)
2) Jestliže mezi veličinami X a Y existuje lineární funkční závislost, je |ryx| = 1
3) Jestliže veličiny X a Y jsou lineárně nezávislé, pak je ryx = 0

Orientační stupnice pro hodnocení těsnosti/síly lineární závislosti mezi X a Y :
0 < |ryx| <= 0,3 - slabá lineární závislost
0,3 < |ryx| <= 0,5 - mírná lineární závislost
0,5 < |ryx| <= 0,8 - střední lineární závislost
0,8 < |ryx| <= 1 - silná lineární závislost
kvalita regresního modelu

Koeficient determinace
r2yx
Udává, z kolika % jsou změny závisle proměnné vyvolány změnami nezávisle proměnné. Jinak
řečeno – jakou procento variability v proměnné Y je schopen model/prediktor vysvětlit.
Testy významnosti v regresní a korelační analýze
Test významnosti koeficientu regrese
Testovaná hypotéza
H0: β=0 (regresní koeficient je statisticky nevýznamný, regresní model je nevýznamný)
Test významnosti koeficientu korelace
Testovaná hypotéza
H0: ρ=0 (korelační koeficient je statisticky nevýznamný/ veličiny X a Y jsou nezávislé)
Spearmanův koeficient - síla závislosti neparametricky

Spearmanův koeficient závislosti – měří sílu libovolné statistické závislosti, která je
monotónní.
Jde o neparametrickou formu závislosti, výpočet vychází z pořadových čísel. Splňuje podmínky
použitelnosti neparametrických testů – není citlivý na nenormální rozdělení dat, je vhodnější pro
soubory malých rozsahů.
Nelineární regrese
Parametry nelineární regresní funkce
Parametry nelineárních funkcí řešíme stejně jako

v lineární regresi pomocí metody nemenších čtverců.
Metoda nejmenších čtverců je přímo použitelná pro

funkce, které jsou lineární v parametrech.
Ostatní je nutno na tvar lineární v parametrech převést –

obvykle logaritmováním.
Nelineární funkce
Nejužívanější nelineární funkce :
kvadratická yí = a + b.xi + c.xi2
hyperbolická (lomená) yí = a + b. 1

xi
logaritmická yí = a + b. log xi
odmocninná yí = a + b.xi + c. xi
x
exponenciální yí = a . b i
mocninná yí = a . xi b
Síla závislosti a hodnocení kvality modelu v nelineární regresní analýze

Index korelace
Iyx
Iyx ≠ Ixy
Index determinace
I2yx
Mnohonásobná lineární regrese
Mnohonásobná regresní analýza je metoda, pro modelování závislostí vysvětlovaných
náhodných veličin (závisle proměnných/cílových proměnných) Y1, Y2, ... YG na několika
vysvětlujících veličinách (nezávisle proměnných/prediktorech) X1, X2, … XK.
Cíle mnohonásobné regresní a korelační analýzy jsou stejné jako u jednoduché:
• popsat vztah pomocí regresního modelu, odhadnout jeho parametry, otestovat

důležité vlastnosti a kvalitu modelu
• vysvětlit rozptyl v závisle proměnné Y (pomocí R2),
• odhadnout (vypočítat) vliv každé z nezávisle proměnných X na proměnnou

závislou Y (pomocí parciálních regresních koeficientů b),
• predikovat, pomocí sestavené regresní rovnice, pro jednotlivé případy hodnoty

závisle proměnné.
Lineární vícenásobný regresní model

Y = 0 + 1x1 + 2x2 + … + kxk,
0, 1, 2, …, k ….. jsou obecně neznámé parametry, které je třeba z výběru odhadnout
pomocí MNČ.
Odhadnutou regresní funkci lze zapsat ve tvaru
y` = b0 + b1x1 + b2x2 + …. + bkxk

b0 …….. je absolutní člen,
b1,..,bk... jsou dílčí/parciální regresní koeficienty, které udávají změnu závisle proměnné y
odpovídající jednotkové změně jedné nezávisle proměnné x, za předpokladu, že hodnoty
zbývající nezávisle proměnných v modelu jsou konstantní.
(vyjadřují pouze část z vlivu působícího na vysvětlovanou proměnnou y)

Síla závislosti a hodnocení kvality mnohonásobného lineárního modelu
Koeficient mnohonásobné korelace, nabývá hodnot od 0 do 1
R y . x1x2…xk
Koeficient mnohonásobné determinace
R2 y . x1x2…xk
Koeficienty parciální (dílčí) korelace (př. uvažování 3 proměnných v modelu)
r xy.z
r xz.y
r zy.x
Regresní analýza – lineární mnohonásobná regrese

Testy významnosti v mnohonásobném regresním modelu
• Test významnosti dílčích výběrových regresních koeficientů (parametrů b) – provádí

se pomocí t – testů.
• Test významnosti celého regresního modelu se provádí pomocí upravené
jednoduché ANOVY  F – testů
REGRESNÍ DIAGNOSTIKA
Multikolinearita (týká se mnohonásobného modelu)
• Nezávisle proměnné by neměly být mezi sebou příliš vysoce korelovány, neboť to je
porušením požadavku na absenci multikolinearity. Pokud v datech existuje
multikolinearita, výsledky regrese jsou nespolehlivé. Vysoká multikolinearita zvyšuje
pravděpodobnost, že i dobrý prediktor (nezávisle proměnná) bude shledán statisticky
nevýznamný a bude vyřazen z modelu.
Vybočující/extrémní hodnoty, vlivné hodnoty
• V datech nesmějí být vybočující/extrémní/vlivné hodnoty, neboť na ty je regresní analýza

citlivá. Takové hodnoty mohou vážně narušit odhady parametrů rovnice.
Normální rozdělení dat
• Při nesplnění podmínky normálního rozdělení dat v jednotlivých proměnných hrozí

nepřesnost výsledků/nepřesnost regresních odhadů. Vzhledem k náročnosti průzkumu
vícenásobného rozložení dat je nejlepším řešením prozkoumat rozložení každé
proměnné, která vstupuje do analýzy, zvlášť .
• Máme-li dostatečně velký vzorek, tento předpoklad nás nemusí příliš trápit z důvodů
platnosti centrálního limitního teorému, který zaručuje, že porušení normality ve velkých
výběrových souborech nemá příliš vážné následky.
Rezidua (náhodné chyby)

K ověřování těchto, a dalších, předpokladů se používá souboru metod, kterému se říká regresní
diagnostika, a zahrnuje:
• Metody pro průzkumovou analýzu jednotlivých proměnných
• Metody pro analýzu vybočujících/extrémních a vlivných bodů
• Metody pro odhalení porušení předpokladu metody nejmenších čtverců pro výpočet
parametrů modelu
Posouzení kvality dat

Při posuzování kvality dat se sleduje především výskyt vlivných bodů, které jsou hlavním zdrojem
řady problémů, zejména způsobují zkreslení regresních odhadů.
Ve zvláštních případech však vlivné body zlepšují predikční schopnosti modelů (golden points).
Vlivné body lze je rozdělit do tří základních skupin:
▪ Hrubé chyby, které jsou způsobeny měřenou veličinou (vybočující pozorování)

nebo nevhodným nastavením vysvětlujících proměnných (extrémy). Jsou
obyčejně důsledkem chyb při manipulaci s daty.
▪ Body s vysokým vlivem (tzv. golden points) jsou speciálně vybrané body, které
byly přesně změřeny, a které obvykle rozšiřují predikční schopnosti modelu.
▪ Zdánlivě vlivné body vznikají jako důsledek nesprávně navrženého regresního

modelu.
Podle složky dat, ve které se vyskytují hrubé chyby, lze provést dělení na:
• vybočující (odlehlá) pozorování (outliers), které se na ose y výrazně liší od ostatních

• extrémy (high leverage points), které se liší v hodnotách na ose x, nebo v jejich
kombinaci (v případě multikolinearity) od ostatních bodů.
Detekce extrémních pozorování v množině vysvětlujících proměnné (x)
• metrika „leverage“
• hodnoty „leverage“ hii (i = 1, 2, …, n) představují diagonální prvky projekční

matice H
• pokud hii > 2p/n (p představuje počet parametrů lineární regresního modelu), tak
je to pokládáno za signál, že příslušné pozorování je extrémní (vzhledem k
hodnotám vysvětlujících proměnných).
V programu SAS je tato metrika ve výstupech označena jako Hat Diag H.

Detekce odlehlých pozorování v množině vysvětlované proměnné (y)
• studentizovaná rezidua SR
• SR jsou definována jako podíly reziduálních hodnot a jejich směrodatných

odchylek
• pokud je SR větší než 2 (|SR|> 2), lze příslušné pozorování považovat za odlehlé
(vzhledem k hodnotám vysvětlované proměnné)
V programu SAS je označena jako Student Residual.
Identifikovaná odlehlá/extrémní pozorování je nutné podrobit dalšímu zkoumání a zjistit, zda se

jedná o pozorování vlivná.
Míry vlivnosti pozorování:
Cookova vzdálenost D – Cookova vzdálenost i-tého pozorování měří simultánní vliv tohoto
pozorování na všechny vyrovnané (predikované) hodnoty; za vlivné lze pozorování považovat
pokud Di > 4/n.
DFFITS – měří vliv daného pozorování na odpovídající predikovanou hodnotu; za vlivné lze
pozorování považovat pokud |DFFITSi|> 2√(p/n).
MNČ předpoklady
Předpoklady, za kterých má metoda nejmenších čtverců (MNČ) optimální vlastnosti jsou
následující:
• Regresní model je lineární v parametrech.
• Náhodné chyby /rezidua mají nulovou střední hodnotu, konstantní rozptyl,

normální rozdělení, a jsou nezávislé.
Přičemž
• Regresní parametry β mohou nabývat libovolných hodnot.
V praxi však často existují omezení parametrů, která vycházejí z jejich fyzikálního smyslu.
Pokud jsou splněny výše uvedené předpoklady, jsou odhady b, získané minimalizací kritéria
nejmenších čtverců, nejlepší nevychýlené lineární odhady regresních parametrů β (jejich lineární
kombinace má nejmenší rozptyl).
analýza reziduí
Pro ověření korektnosti navrženého regresního modelu je důležitá statistická analýza reziduí.
Klasický lineární regresní model vychází z předpokladů, že reziduální hodnoty (diference

skutečných a vyrovnaných hodnot vysvětlované proměnné Y) jsou/mají:
a. nezávislé náhodné veličiny;
b. nulou střední hodnotou;
c. konstantní rozptyl (homoskedasticita reziduí);
d. normální rozdělení.
Verifikace těchto požadavků může být provedena pomocí reziduálního grafu, který zobrazuje
rezidua proti hodnotám predikované proměnné, resp. proti pořadí měření.
Selekční procedury v regresní analýze

V mnohonásobné lineární regresi existují tři možnosti, jak do výpočtu vkládat proměnné:
1. Metoda standardní, tzv. metoda Enter.
Všechny proměnné jsou do výpočtu vloženy najednou.
2. Metoda hierarchická (Blocks). Pořadí, v němž proměnné vstupují do výpočtu

řídí výzkumník (odvíjí se od jeho kauzálního modelu, který testuje).
3. Metody postupného vkládání - proměnné jsou vkládány do výpočtu regrese

postupně podle předem zadaných matematických kritérií (Stepwise, Forward,
Backward).
V této metodě výzkumník nekontroluje pořadí proměnných, jak postupně vstupují do

analýzy, o pořadí rozhoduje software − vychází to z algoritmu výpočtu.
Využití jednotlivých metod

Metoda ENTER (SAS - R-Square)
• Použijeme ji tehdy, když chceme popsat, jak velký podíl variance závisle proměnné je
vysvětlen nezávisle proměnnými (R2), dále jak velký vliv má každá z nezávisle
proměnných na proměnnou závislou při kontrole vlivu působení ostatních proměnných.
Metoda STEPWISE (Forward, Backward)
• Metoda stepwise je metodou k nalezení „nejlepšího“ modelu. Do výpočtu a do modelu

vstupují pouze ty proměnné, které jsou statisticky významně vztaženy s proměnnou
závislou. Je vhodné ji použít, když je naším cílem je maximalizovat regresní
odhady/predikci, s pokud možno co nejmenším počtem relevantních proměnných.
Selekční metody
Metody postupného vkládání prediktorů
• metoda FORWARD – postupné zařazování prediktorů (zařazuje prediktory postupně dle

významnosti, zařadí všechny vstupy)
• metoda BACKWARD – postupné vyřazování prediktorů (vyřazuje postupně do doby, než
zůstanou v modelu pouze ty významné prediktory)
• metoda STEPWISE – kombinace obou, je založena na postupném vstupu významných
proměnných
Analýza závislosti kvalitativních znaků

Statistické znaky
1. Kvantitativní
2. Kvalitativní (kategoriální)
3.
• Dle možnosti uspořádání kategorií

▪ Nominální (barva vlasů, kraje ČR)
▪ Ordinální (dosažené vzdělání, výsledek zkoušky)
• Dle počtu kategorií

▪ Alternativní (pohlaví, ano/ne)
▪ Množné (dosažené vzdělání, barva vlasů)
Frekvenční tabulky
▪ Kontingenční tabulky - zkoumáme vztah mezi dvěma znaky, kdy alespoň jeden je
znakem množným (rozměr r x s)
▪ Asociační tabulky - zkoumáme vztah mezi dvěma alternativními znaky
KONTINGENČNÍ TABULKY R x S
Úlohy v kontingenční tabulce
• Ověřit/zjistit (otestovat) závislost mezi znaky

• Změřit sílu závislosti
Testování v kontingenční tabulce
2 test (chí kvadrát test nezávislosti)
➢ H0: znaky A a B jsou nezávislé
➢ H1: znaky A a B jsou závislé
▪ testové kritérium je založeno na rozdílu empirických a očekávaných četností
Předpoklady použití 2 testu v kontingenční tabulce

2 test pro kontingenční tabulku r x s předpoklady použití
• max 20 % očekávaných četností menších než 5
• všechny očekávané četnosti větší než 1
➢ řešení: sloučení sousedících kategorií
Kontingenční tabulka rxs

Testování v tabulce rxs:
testové kritérium
χ = 
2
r s (n ij − o ij )
2
,
i =1 j=1 o ij
kde oij je očekávaná četnost v i-tém řádku a j-tém sloupci tabulky
n i.  n .j
o ij =
n
hodnotu 2 porovnáváme s kritickou hodnotou 2 – rozdělení se stupněm volnosti [(r-1)·(s-1)]
K : χ 2  χ α2 [(r − 1)(s − 1)]

 zamítáme H0 o nezávislosti znaků
Měření těsnosti závislosti v kontingenční tabulce

Pearsonův koeficient kontingence
2
C= .
n+ 2
Jsou-li zkoumané znaky nezávislé, je hodnota tohoto koeficientu nula.
Maximální hodnota (při úplné závislosti) závisí na velikosti tabulky. Značí se C max a její hodnoty
jsou tabelovány.
Pro porovnání síly závislosti mezi několika kontingenčními tabulkami různého rozměru lze použít
normalizovaný koeficient kontingence Cn.
Další míry těsnosti závislosti

Cramerův koeficient V (Cramerovo V)
χ2
V= ,
pro h = min (r, s)
n (h − 1)
Čuprovův koeficient kontingence
2
K=
n (r − 1)(s − 1)
Oba koeficienty nabývají hodnoty 0 při úplné nezávislosti znaků.
ASOCIAČNÍ TABULKY 2 x 2
Asociace zkoumá vztah mezi dvěma alternativními znaky
Testování v asociační tabulce
2 test (chí kvadrát test nezávislosti)
➢ H0: znaky A a B jsou nezávislé
➢ H1: znaky A a B jsou závislé
▪ testové kritérium je založeno na rozdílu empirických a očekávaných četností
▪ je požadován dostatečný rozsah souboru
Předpoklady použití 2 testu v asociační tabulce

• dostatečně velký rozsah souboru
▪ <20
▪ 20-40
▪ >40
• všechny oij > 5
v případě, že nejsou splněny podmínky pro použití 2 – testu se použije Fisherův faktoriálový
test
Testování v asociační tabulce
výpočet očekávaných četností
(a + b)(a + c) (a + b)(b + d)
a0 = b0 =
n n
(c + d)(a + c) (c + d)(b + d)
c0 = d0 =
n n
Výpočet testového kritéria pro tab. 2x2 lze uvést ve tvaru
n (ad − bc )
2
χ = 2
(a + b )(a + c)(b + d )(c + d )

za platnosti H0 má toto testovací kritérium rozdělení 2 o 1 stupni volnosti (f=1)
pokud 2 > 2(1)  H0 se zamítá na α a závislost mezi znaky je prokázána
Měření těsnosti závislosti v asociační tabulce

Koeficient asociace
a d − bc
V=
(a + b )(c + d )(a + c )(b + d )
V  − 1; +1
V softwaru SAS – Phi Coefficient
Fisherův faktoriálový test
Test je založen na přímém výpočtu pravděpodobnosti, s níž se může ve výběru
o rozsahu n vyskytnou seskupení četností (a), (b), (c), (d) v dané tabulce.
Pro ověření platnosti H0 je nutno vypočítat součet všech dílčích pravděpodobností pi .
p =  pi
pi …pravděpodobnosti výskytu jednotlivých seskupení četností (a), (b), (c), (d) ve výběru o n
prvcích, v nichž se nejmenší četnost mění od 0 až do skutečně napozorované hodnoty při
zachování velikosti všech okrajových četností
pi =
(a + b) ! (c + d ) ! (a + c) ! (b + d ) !
n !  a !  b!  c!  d !
p =  pi
jestliže p <, zamítáme H0 o nezávislosti znaků, kde
Časové řady
Základní pojmy
• Časová řada - posloupnost věcně a prostorově srovnatelných pozorování, která jsou

jednoznačně uspořádána z hlediska času ve směru minulost - přítomnost.
Rozlišujeme:
Dle periodicity ukazatele
• Krátkodobé
• dlouhodobé a
• roční časové řady
Dle rozhodného časového hlediska
• Intervalové (tokové) a
• okamžikové (stavové) časové řady

Intervalové časové řady
• velikost ukazatele závisí na délce intervalu, za který je sledován
• pro ukazatele je možné tvořit součty a tento součet má reálný význam
• mají se vztahovat ke stejně dlouhým intervalům, jinak jde o srovnání zkreslené
Okamžikové časové řady
• jsou sestavovány z ukazatelů, které se vztahují k určitému okamžiku
• součet za několik po sobě jdoucích hodnot nedává reálný smysl, proto se neprovádí
• shrnování ukazatelů se provádí pomocí chronologického průměru
Dle druhu sledovaných ukazatelů
• Časová řada původních hodnot
• Časová řada odvozených ukazatelů
Dle způsobu vyjádření údajů
• Časová řada naturálních ukazatelů a
• Časová řada peněžních ukazatelů
Srovnatelnost údajů v časové řadě

Věcné hledisko
• údaje by měly být stejně obsahově vymezené(typické pro naturální ukazatele)
Prostorové hledisko
• používat údaje vztahující se ke stejným geografickým územím
Časové hledisko
• tento problém se objevuje zejména u intervalových časových řad, kdy se údaje mají
vztahovat ke stejně dlouhým intervalům
Cenové hledisko
• použití běžných nebo stálých cen (dává se jim přednost)

Hlavní cíl analýzy časových řad
Interpolace (vyrovnání časové řady) – pochopení minulého vývoje tj. nalezení matematické
funkce, která dokáže časový vývoj popsat
• pochopení mechanismu, který generuje hodnoty dané časové řady
• Pochopení podmínek a vazeb, které působí na vznik těchto hodnot
Extrapolace (prodloužení časové řady) – především nás zajímá další vývoj –

prognózování/predikce budoucího vývoje
Elementární charakteristiky časových řad

Elementární charakteristiky slouží zejména k popisu dynamiky vývoje sledovaných ukazatelů. K
elementárním charakteristikám řadíme diference různého řádu, tempa růstu, průměrné tempo
růstu, průměrné hodnoty časových řad.
Základní charakteristiky časových řad se, spolu s grafy, používají pro získání rychlé orientační
představy o chování sledovaného ukazatele shromážděného v časové řadě.
Základní charakteristiky je možné využít v jejich absolutním nebo relativním vyjádření.
• ABSOLUTNÍ charakteristiky – první absolutní diference (absolutní přírůstky), druhé

absolutní diference, atd.
• RELATIVNÍ charakteristiky – tempa růstu, atd.
ABSOLUTNÍ charakteristiky
• první absolutní diference – přírůstek hodnoty ukazatele v určitém období oproti období
bezprostředně předcházejícímu
• druhá absolutní diference – udává absolutní zrychlení/zpomalení vývoje v analyzované
časové řadě
• průměrný absolutní přírůstek (aritmetický průměr z prvních diferencí)
RELATIVNÍ charakteristiky
tempo přírůstku, neboli relativní diference - pro charakterizování dynamiky absolutního
přírůstku, může být vyjádřen také v procentech a pak podává informaci o procentuální změně
hodnoty časové řady v čase t ve srovnání s časem t-1
• koeficient růstu – relativní postupná rychlost změn hodnot v časové řadě

• tempo růstu – koeficient růstu vyjádřený v procentech
• průměrný koeficient růstu (pro monotónní vývoj časové řady)
RELATIVNÍ charakteristiky/indexní analýza
• bazický index - změny v jednotlivých obdobích sledované časové řady vzhledem k
období základnímu (bázi)
• řetězový index (koeficient růstu)
Bazické a řetězové indexy

y
Koeficient růstu kt = t lze rovněž nazvat jako řetězový index –
y
t −1
hodnota ukazatele je porovnávána k hodnotě předchozího období
Bazické indexy - hodnota ukazatele je porovnávána k základu ( bázi)
y
kt = t
y
0
Vzorce pro výpočet potřebných charakteristik k popisu dynamiky

vývoje
• První absolutní diference
• Druhá absolutní diference
• Průměrná absolutní diference
• Relativní diference/přírůstek
• Řetězový index/koeficient růstu

• Průměrný koeficient růstu
• Bazický index
Úroveň ukazatelů se charakterizuje nejčastěji pomocí průměrů
• Intervalová řada – prostý nebo vážený aritmetický průměr

• Okamžiková řada – prostý nebo vážený chronologický průměr
Základní principy v modelování časových řad

Cíl analýzy časových řad
• interpolace(vyrovnání časové řady) – pochopení minulého vývoje tj. nalezení

matematické funkce, která dokáže časový vývoj popsat
• extrapolace(prodloužení časové řady) – především nás zajímá další vývoj – prognózování

budoucího vývoje
Analýza časové řady umožňuje ”odhalit” důsledky působení časového faktoru na utváření
časové řady sledovaného statistického ukazatele. Základní myšlenka tohoto pojetí spočívá v
představě, že každé pozorování časové řady yt lze vyjádřit ve tvaru
Kde Yt, t=1,2,…,n, značí posloupnost teoretických hodnot časové řady, která vznikla jako
důsledek jistých vývojových pravidelností a εt , t=1,2,…n, představují posloupnost hodnot mající
charakter vývojových nepravidelností. Vývojové pravidelnosti jsou často nazývány teoretickou
(systematickou) složkou časové řady, vývojové nepravidelnosti nesystematickou/náhodnou
složkou časové řady.
Základní metody a postupy pro analýzu časových řad
Průzkumová analýza časových řad
- cílem průzkumové analýzy časových řad je postižení zvláštností a nedostatků ve

zpracovávaných statistických datech a posouzení platnosti předpokladů nutných pro jejich
následné statistické zpracování.
Dekompozice časových řad
- kladou důraz především na práci se systematickými složkami časové řady (tj. s trendovou,
sezónní a cyklickou složkou) a jednotlivá pozorování jsou obvykle považována za navzájem
nekorelovaná. Často používaným matematickým nástrojem v dekompozičních metodách je
regresní analýza.
Box-Jenkinsovo metodologie
- Boxův - Jenkinsův přístup naproti tomu bere za základní prvek konstrukce modelu časové řady
reziduální složku, která může být tvořena korelovanými (závislými) náhodnými veličinami.
Boxova - Jenkinsova metodologie tedy může nejen zpracovávat časové řady s navzájem závislými
pozorováními, ale dokonce těžiště jejich postupů spočívá právě ve vyšetřování těchto závislostí
neboli v tzv. korelační analýze.
Lineární dynamické modely
- Data, která se používají v ekonometrii, mají obvykle tvar časových řad. Odpovídající
ekonometrické modely jsou však většinou konstruovány tak, že hodnoty určité časové řady jsou
vysvětlovány pomocí hodnot dalších (tzv. vysvětlujících nebo faktorových) časových řad, které
vysvětlovanou řadu ovlivňují (např. výdaje obyvatelstva na nákup spotřebního zboží v roce t jsou
vysvětlovány pomocí své minulé hodnoty a navíc pomocí disponibilních peněžních příjmů
obyvatelstva a cenového indexu spotřebního zboží).
Spektrální analýza časových řad
- Předchozí přístupy by bylo možné shrnout pod označení analýza časových řad v časové
doméně. Odlišný přístup, který považuje zkoumanou časovou řadu za (nekonečnou) směs
sinusových a kosinusových křivek s různými amplitudami a frekvencemi, nese označení analýza
časových řad ve spektrální doméně nebo spektrální analýza časových řad (někdy též
fourierovská analýza).
Dekompozice časových řad - jednorozměrná analýza časových řad
Při jednorozměrné analýze časových řad (jediným faktorem dynamiky ukazatele shromážděného
v časové řadě je čas) se vychází z empiricky odpozorované zkušenosti, že každá časová řada
může obsahovat následující čtyři složky, které vyjadřují různé druhy pohybu:
• trend
• sezónní složku (periodicita kratší nebo rovna 1 roku)
• cyklickou složku (délka vlny delší než 1 rok) a
• náhodnou složku, přičemž současná existence všech těchto forem však není nutná
Na základě přítomnosti/nepřítomnosti periodické složky (Ct, St) v časové řadě členíme řady na
neperiodické a periodické.
Hlavním úkolem analýzy neperiodických ČŘ je vystižení základní tendence jejich vývoje – trendu.
Popis trendu v časových řadách je možný:
• Graficky
• Mechanicky (pomocí klouzavých průměrů)
• Analyticky (pomocí trendových funkcí).
Využití elementárních charakteristik při hledání trendu

Při hledání nejvhodnějšího typu trendu vycházíme především z předpokládaných vlastností
trendové funkce, vyplývajících z teoretického rozboru.
Výběr ale může usnadnit grafické znázornění časové řady, nebo lze využít testů založených na
jednoduchých charakteristikách časové řady, respektive na jejich grafickém zobrazení.
➢ první diference přibližně konstantní – signalizují lineární trend
➢ druhé diference přibližně konstantní – kvadratický trend
➢ koeficienty růstu přibližně konstantní – exponenciální trend a
➢ křivka prvních diferencí se podobá křivce hustoty normálního rozdělení –

logistický trend.
Metody vyrovnávání časových řad – mechanické vyrovnávání

Vyrovnání pomocí klouzavých průměrů spočívá v nahrazení skutečných hodnot ČŘ průměrem z
určitého počtu hodnot. Trend v krátkých časových úsecích odhadujeme průměrem několika
sousedních pozorování.
Nejpřesnější je tato metoda tehdy, když pro výpočet klouzavého průměru volíme počet hodnot
časové řady, který se rovná délce daného cyklu. Např. při ročních údajích se bude volit 3-letý
klouzavý průměr pro vyloučení tříletých pravidelností nebo 5-letý pro vyloučení pětiletých
pravidelností, v případě sezónních výkyvů při měsíčních údajích se volí dvanáctiměsíční
klouzavé průměry, v případě čtvrtletních časových řad se budou volit klouzavé průměry délky 4
(počet čtvrtletí), atd.
analytické vyrovnávání
Metoda vyrovnávání časových řad, spočívající v tom, že trend popíšeme pomocí
vhodné matematické funkce, se nazývá tzv. analytické vyrovnávání. Analytické
vyrovnávání časových řad trendovými funkcemi je tradiční způsob popisu trendu
časové řady. Aplikace analytických metod bývá většinou bez větších problémů a
následná interpretace výsledků je jednoduchá. Nabídka trendových funkcí je rozmanitá.
Analytické vyrovnávání – klasické trendové modely

Od trendových funkcí se především vyžaduje, aby byly z matematického hlediska jednoduché,
tzn.
•minimální počet členů v rovnici,
•minimální možná mocnina argumentu,
•linearita v parametrech,
•spojitost a
•minimální počet extrémů a inflexních bodů.
Klasické trendové funkce
Lineární Tt = a + b· t
Kvadratická Tt = a + b· t + c· t2
Logaritmická Tt = a + b· log t
Exponenciální Tt = a · bt
Mocninná Tt = a · tb
Tt = a + b  t
Odmocninná
Posouzení/ověřování vhodnosti trendové funkce
➢ Výběr trendové funkce se zpravidla provádí na základě:
grafického zobrazení vývoje sledovaného ukazatele, nebo absolutních či relativních

charakteristik
interpolačních kritérií (jako je například směrodatná odchylka reziduí, koeficient determinace,

koeficient autokorelace reziduí, případně testy významnosti parametrů)
extrapolačních kritérií (grafickým zobrazením předpověď-skutečnost, nebo posouzením hodnot

průměrných chyb odhadu, případně chyb předpovědí “ex post”)
Interpolační kritéria
po odhadu parametrů trendové funkce/modelu trendu je nutné zjistit, jak přesně daný model
vystihuje skutečnost, což spočívá ve zkoumání charakteru odchylek skutečných hodnot
sledovaného ukazatele a hodnot vyrovnaných, respektive vypočítaných daným modelem trendu.
Rozdíly mezi skutečnou a odhadnutou hodnotou jsou nazývány „rezidua“ a představují odhad
nesystematické složky v časové řadě.
Přesnost vyrovnávání časové řady je pak měřena pomocí průměrných reziduálních

charakteristik.
Klasické trendové funkce – posouzení vhodnosti/kvality modelu pro popis uplynulého vývoje
Index determinace
2
 ( yi − yi )2
/
I yt = 1 -
 ( yi − y)2
Index korelace Iyt
Koeficient korelace r ( v případě lineární trendové funkce)
Nedostatkem koeficientu determinace je fakt, že závisí na počtu parametrů modelu/trendové

funkce. Tomuto nedostatku je možné se vyhnout, a to využitím modifikovaného indexu
determinace (ve statistických softwarech je označovaný jako R2Adj.
Moderní statistická metodologie standardně implementovaná v statistických programech:
- M.E. – střední chyba odhadu
- M.S.E. – střední kvadratická chyba odhadu
- M.A.E. střední absolutní chyba odhadu
- M.P.E. – střední procentuální chyba odhadu
- M.A.P.E. – střední absolutní procentuální chyba odhadu – nejvyužívanější
Obecně za velmi vhodně použitý model je hodnota MAPE 10%, ale můžeme se setkat i se
situacemi, kdy je požadována hodnota 5% či naopak větší např. 15%. Hodnota MAPE (respektive
její výše) se pohybuje v závislosti na dané situaci.
100 y t − y
MAPE =
n
 y
t
Extrapolační kritéria
spočívají v rozdělení analyzované časové řady na dvě časti.
První část řady, nazývaná jako testovací část, má určitý počet pozorování (např. T1 pozorovaní) a
slouží k výběru modelu trendu, odhadu jeho parametrů a ověření vhodnosti pomocí
interpolačních kritérií.
Druhá část řady, má délku T2 pozorování, a platí, že T1 + T2 = T (délka analyzované časové řady).
Tato druhá část se používá pro určování předpovědí již známé skutečnosti (prognózy "ex post„
respektive pseudoprognózy), a dále pro ověření jejich přesnosti.
• Přesnost předpovědí "ex post„ - tedy přesnost pseudoprognózy je možné zhodnotit

pomocí průměrných chyb (ME, MSE, … či nejpoužívanější MAPE).
Relativní chyba prognózy
r= P − S .100 (%)
S
P – prognóza S - skutečnost
Theilův koeficient nesouladu
T2 =  (S − P)2
S2
Relativní chyba extrapolace
T= T 2 . 100 (%)
Sezónnost v časových řadách

Periodická složka je důsledkem působení periodicky se opakujících
faktorů na sledovaný jev, projevuje se periodickými výkyvy ukazatelů
časové řady okolo trendu (hodnoty v časové řadě mohou střídavě růst
nebo klesat). Podle délky jedné periody pak rozlišujeme:
- cyklické kolísání – perioda pravidelně se opakujících výkyvů

ukazatelů přesahuje období delší než jeden rok,
- sezónní kolísání – je charakteristické roční periodou,
- krátkodobé kolísání – periodické výkyvy časové řady se opakují
v rámci období kratšího než jeden rok.
POPIS sezónní složky

Při zpracování časové řady, jejíž periodicita je kratší než 1 rok, je možné velice často pozorovat
existenci sezónních vlivů, které na daný ukazatel působí v rámci jednoho roku, a toto působení je
v modelu časové řady prezentováno právě sezónní složkou.
Pokud je předmětem analýzy časová řada krátkodobá, kde lze předpokládat existenci sezónní
složky, je nutné vždy jako první identifikovat, zda jsou dané sezónní výkyvy opravdu statisticky
významné.
Po identifikaci / prokázání existence významné sezónní složky v časové řadě, je nutné dané
sezónní výkyvy kvantifikovat, přičemž se nesmí zapomínat na výběr vhodného modelu
sezónnosti.
• Odhalení existence sezónnosti je možné v určitých jednodušších případech

intuitivně.
Test významnost sezónní složky:

• Nulová hypotéza zní:
H0: ßj=0, tedy slovně – sezónní parametr je nulový
• kde j je počet sezón, j=1,2,…,r
• Proti ní stojí alternativní hypotéza:
H1: ßj ≠0, sezónní parametr je alespoň pro některou sezónu j=1,2,…,r-1 nenulový, tedy statisticky
významný a jeho zařazení do modelu je oprávněné
Pokud je sezónní složka významná, je nutné ji kvantifikovat.
Intenzita sezónních kolísání se nejčastěji měří pomocí absolutních sezónních odchylek, nebo
pomocí sezónních indexů/sezónních faktorů.
Periodické (v tomto případě sezónní) kolísání do nemalé míry maskuje dlouhodobé vývojově
tendence sledovaného ukazatele shromážděného v časových řadách.
A právě to je důvodem pro provedení tzv. sezónního očišťování, což je proces, při kterém je
sledovaná krátkodobá časová řada očištěna od sezónní složky, tedy sezónní složka je po
provedení sezónního očištění ze sledované časové řady vyloučena a v časové řadě pak zbývá
složka trendu a složka náhodná.
Proces sezónního očišťování

Finální očištění údajů časové řady probíhá ve dvou možných variantách:
V případě, že pracujeme s modelem v aditivní formě
➢ od hodnot původní časové řady se odčítají sezónní odchylky
V případě, že pracujeme s modelem v multiplikativní formě
➢ hodnoty původní časové řady se dělí sezónním indexem

Adaptivní modely - Modely exponenciálního vyrovnávání
Modely analytického vyrovnávání (pomocí trendových funkcí) přiřazují všem hodnotám časové
řady stejné váhy a jsou tak vhodné zejména pro časové řady, které vykazují určitou permanentní
deterministickou složku a náhodnými fluktuacemi nejsou výrazně ovlivňovány (ceteris paribus –
princip stabilních vnějších podmínek).
V případě mnoha reálných ekonomických časových řad velmi často nereálný, může vést k
selhání analytických modelů (není možné k popisu použít jednu matematickou funkci s
konstantními parametry).
Pak se úspěchem uplatňují modely adaptivní, které předpokládají, že pro konstrukci

extrapolační prognózy budoucího vývoje jsou nejcennější nejnovější pozorování časové řady.
Proto jsou těmto nejnovějším pozorováním časové řady přiřazeny největší váhy a starší
pozorování se buď úplně vyřazují ze zkoumání, nebo se jim přiřazují menší váhy ve srovnání s
později pozorovanými hodnotami. Adaptivní modely tedy berou v úvahu stárnutí informací.
Systém vah je tvořen pomocí tzv. vyrovnávacích konstant, které nabývají hodnot z intervalu < 0, 1
> a pro nalezení optimální hodnoty vyrovnávací konstanty se v praxi využívá „metody pokusů a
omylů“. Za optimální hodnotu je považována ta hodnota, která minimalizuje vhodně zvolenou
chybu odhadu (nejčastěji MSE). Statistický systém SAS provádí odhad hodnoty vyrovnávací
konstanty automaticky.
Adaptivní modely časových řad/modely exponenciálního vyrovnávání

Důležitou podtřídou adaptivních modelů jsou tzv. Brownovy modely exponenciálního
vyrovnávání. S využitím těchto modelů je odhad trendu získáván ve formě lineární kombinace
všech dosavadních pozorování časové řady s tím, že je uvažováno stárnutí informací, tzn. váhy
dřívějších pozorování exponenciálně klesají.
V rámci této techniky je (z hlediska použité vyrovnávací křivky) možné rozlišit 3 základní varianty,
a to jednoduché exponenciální vyrovnávání (krátká období/úseky čas. Řady, v nichž je trend
konstantní), dvojité (trend lineární) a trojité exponenciální vyrovnávání (trend kvadratický).
• Zmíněné Brownovy modely přináší v praktických aplikacích dobré výsledky.
• Mezi další významné představitele exponenciálního vyrovnávání patří Holtův model

exponenciálního vyrovnávání, model exponenciálního vyrovnávání s tlumeným lineárním
trendem a Wintersův model exponenciálního vyrovnávání sezónních časových řad.

Sss Vypisky Z Prednasek Info

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sss Vypisky Z Prednasek Info

Uploaded by

Copyright:

Available Formats

Průzkumová analýza dat

➢ Cílem je postižení zvláštností a nedostatků ve zpracovávaných datech, a také posouzení

➢ Po stránce numerických výpočtů může být poměrně náročná, proto se doporučuje

Postup statistické analýzy jednorozměrných dat

➢ posouzení stupně zešikmení a špičatosti dat

➢ nalezení „podezřelých“ (odlehlých/extrémních) hodnot v datech

➢ ověření normality rozdělení

➢ ověření nezávislosti prvků výběru (autokorelace)

2. Odhady parametrů základního souboru

➢ výpočet výběrových charakteristik (momentových nebo robustních)

➢ výpočet bodových odhadů parametrů ZS

➢ výpočet intervalových odhadů parametrů ZS

3. Testování statistických hypotéz

➢ rozhodnutí o nezamítnutí/zamítnutí dané hypotézy

➢ v případě potřeby - analýza síly testu

➢ musí pocházet ze základního souboru s normálním rozdělením

➢ neměla by obsahovat extrémní pozorování

➢ potřebná velikost výběru

➢ V případě, že data vykazují trend, znamená to nesplnění podmínek náhodného výběru,

➢ Měla by se odhalit příčina závislosti/trendu v datech

➢ Nejčastější jsou dvě:

asymetrické rozložení dat (levostranné nebo pravostranné rozdělení/zešikmení nebo špičaté

Extrémní pozorování v datovém souboru

Ke zjištění důležitých vlastností analyzovaných souborů se využívá metod průzkumové analýzy

Grafické metody průzkumové analýzy dat

➢ Graf základním prostředkem prezentace dat.

➢ graf rozptýlení hodnot (prosté vynesení bodů na číselnou osu)

na osu x v grafu jsou vynášeny kvantily uvažovaného pravděpodobnostního rozdělení (teoretické

➢ histogram – grafické zobrazení intervalového rozdělení četností, použitelný zejména v

➢ případně graf hustoty pravděpodobnosti

Početní metody průzkumové analýzy dat/testy

➢ test nezávislosti dat

➢ testy extrémních hodnot

➢ stanovení minimální velikosti výběru

➢ Lillieforsův test a další

Testy závislosti/nezávislosti v datech

Testy odlehlých/extrémních hodnot

➢ GRUBBSŮV TEST (předpokládá normální rozdělení)

➢ Dixonův test extrémních odchylek (nepředpokládá normální rozdělení)

➢ Není splněn požadavek normálního rozdělení dat?

Využití robustních postupů, kterými je možné eliminovat ovlivnění odlehlými/chybnými

➢ Není splněn dostatečný rozsah výběru?

Nejjednodušší je provést dodatečná měření.

➢ Logaritmická transformace dat – (používá se s zpravidla pro veličiny s výrazně

➢ Box-Coxova transformace - v současné době nejčastěji používaná transformace dat.

spočívá v nahrazení určitého počtu nejmenších a největších hodnot hodnotami sousedními –

vyoučení určitého procenta nejvyšších a nejnižších hodnot ze souboru – censorovaný průměr

Metody průzkumové analýzy dat

• Souhrn metod - statistická indukce

• 2. Testování statistických hypotéz

• Intervalový- uvedeme interval, který s předem danou pravděpodobností obsahuje danou

Statistika T dává nestranný odhad

Požadavek, aby použití statistiky T

• S rostoucím rozsahem výběru poroste i pravděpodobnost, že hodnota odhadu populační

• Statistika T dává vydatný (též nejlepší nestranný) odhad populační charakteristiky,

• Statistika T je postačující, jestliže obsahuje všechny informace o populační

• Rozptyl základního souboru 2- bodovým odhadem je rozptyl s2

• Interval jednostranný levo- ,pravostranný

Interval spolehlivosti pro průměr – oboustranný

 - přípustná chyba odhadu

Testování statistických hypotéz

• Parametrické hypotézy - týkají se hodnot parametrů rozdělení

• Neparametrické hypotézy - týkají se tvrzení o rozdělení (bez precizování parametrů)