You are on page 1of 51

Průzkumová analýza dat

➢ Nejdůležitějším krokem celé přípravy dat pro následné statistické zpracování je jejich
kontrola.

➢ Zajímá nás zda v datech nejsou chyby, hodnoty mimo přijatelný rozsah či chybějící
hodnoty.

➢ Tento postup se nazývá průzkumová analýza dat, která umožňuje předběžné zpracování
a tolik potřebnou kontrolu dat. Jedná se o velmi efektivní nástroj. Ve svých výsledcích je
srozumitelná a snadno interpretovatelná.

➢ Průzkumová analýza vychází z tradičních postupů deskriptivní analýzy, ale přesahuje její
rámec.

➢ Cílem je postižení zvláštností a nedostatků ve zpracovávaných datech, a také posouzení


platnosti předpokladů nutných pro jejich další statistické zpracování.

➢ Po stránce numerických výpočtů může být poměrně náročná, proto se doporučuje


využití statistického softwaru.

Postup statistické analýzy jednorozměrných dat


1. EDA (průzkumová analýza dat)

➢ posouzení stupně zešikmení a špičatosti dat

➢ nalezení „podezřelých“ (odlehlých/extrémních) hodnot v datech

➢ ověření normality rozdělení

➢ ověření nezávislosti prvků výběru (autokorelace)

2. Odhady parametrů základního souboru

➢ výpočet výběrových charakteristik (momentových nebo robustních)

➢ výpočet bodových odhadů parametrů ZS

➢ výpočet intervalových odhadů parametrů ZS

3. Testování statistických hypotéz

➢ formulace hypotéz

➢ rozhodnutí o nezamítnutí/zamítnutí dané hypotézy

➢ v případě potřeby - analýza síly testu

Aby bylo možné aplikovat na data „klasickou“ metodu odhadu parametrů, tedy vypočítat
základní charakteristiky z analyzovaných dat (aritmetický průměr, směrodatnou odchylku atd.),
musí data splňovat následující předpoklady:
➢ data musí být vzájemně nezávislá

➢ musí pocházet ze základního souboru s normálním rozdělením

➢ neměla by obsahovat extrémní pozorování

➢ potřebná velikost výběru

Pro zvolení vhodné metody odhadu parametrů je nutné nejprve tyto podmínky/předpoklady
ověřit a k tomu slouží průzkumová analýza dat.

Nezávislost v datech
➢ Nezávislost znamená, že se v získaných/naměřených datech neobjevuje žádný trend
(rostoucí, klesající, atd.)

➢ V případě, že data vykazují trend, znamená to nesplnění podmínek náhodného výběru,


což je jedna ze základních podmínek matematické statistiky

➢ Závislá data by se neměla používat k další analýze a měla by být naměřena jiná data

➢ Vzhledem k faktu, že data jsou opravdu vzácná a často „drahá“, se i tato data obvykle v
praxi nakonec použijí, ale je nutné tuto skutečnost zohlednit při interpretaci výsledků
analýzy

➢ Měla by se odhalit příčina závislosti/trendu v datech

Normalita
➢ Základní momentové statistické charakteristiky jsou konstruovány na základě
předpokladu normálního rozdělení dat

➢ Pokud není splněna podmínka normálního rozdělení dat je nejprve nutné zjistit příčinu
nenormality

➢ Nejčastější jsou dvě:

asymetrické rozložení dat (levostranné nebo pravostranné rozdělení/zešikmení nebo špičaté


nebo ploché rozdělení)

extrémní hodnoty

Extrémní pozorování v datovém souboru


Extrémní hodnoty je nutné posuzovat v kontextu jejich vypovídací hodnoty a správnosti jejich
stanovení. Okamžitě se vylučují z datové matice pouze tzv. zjevné hrubé chyby (způsobené např.
chybným měřením, zápisem apod.).

Pokud byly hodnoty naměřené správně/spolehlivě (není známa žádná příčina hrubé chyby a
daná hodnota je „možná“), není možné je z datového souboru vyloučit, naopak – mohou mít
vysokou vypovídací schopnost, mohou být dokonce v některých případech cennější než ostatní
data. Pozorování je nutné v souboru ponechat.

K odhadu parametrů souboru je potom však nutné použít jinou metodu – robustní metody
(například kvantily) nebo transformace.

Pokud jsou extrémní hodnoty vyloučené jako hrubé chyby, je nutné znovu otestovat, zda „zbylý“
soubor pochází z normálního rozdělení.

Ke zjištění důležitých vlastností analyzovaných souborů se využívá metod průzkumové analýzy


dat. Na základě jejích výsledků se rozhoduje, zda se použijí momentové odhady (v případě
splnění podmínek) nebo kvantilové (resp. transformační) odhady (v případě jejich nedodržení).

Grafické metody průzkumové analýzy dat


➢ Grafické zobrazení je velice důležité pro předběžnou analýzou dat, může pomoci k
výběru lepšího modelu například při analýze časových řad, nebo k přesnějším výpočtům
i k většímu porozumění vztahů mezi daty.

➢ Graf základním prostředkem prezentace dat.

➢ graf rozptýlení hodnot (prosté vynesení bodů na číselnou osu)

➢ krabicový graf (box plot/ box and whisker plot – krabice s vousy) – informace o tom, jak
jsou data v souboru rozložena (každá část krabicového grafu ukazuje, v jakém intervalu
číselné osy se nachází 25 % dat – tedy čím je příslušná část užší, tím jsou data v daném
úseku více koncentrována)

➢ vrubový krabicový graf (Notched box plot) – navíc intervalový odhad mediánu

➢ kvantil-kvantilový graf (qq plot) - nejlepší grafická metoda pro posouzení shody
empirických hodnot s daným rozdělením (nejčastěji s normálním rozdělením)

na osu x v grafu jsou vynášeny kvantily uvažovaného pravděpodobnostního rozdělení (teoretické


kvantily) a pozorované/měřené kvantily jsou vynášeny na osu y

➢ histogram – grafické zobrazení intervalového rozdělení četností, použitelný zejména v


případě posuzování vlastností rozdělení četností (variabilita, poloha, případně špičatost
a šikmost)

➢ případně graf hustoty pravděpodobnosti

Početní metody průzkumové analýzy dat/testy


➢ testy shody (normality)

➢ test nezávislosti dat

➢ testy extrémních hodnot

➢ stanovení minimální velikosti výběru


Testy shody (normality)
➢ Kolmogorov-Smirnovův test (KS test)

➢ Shapiro-Wilkův test

➢ d’Agostinův test

➢ Lillieforsův test a další

Tyto testy testují nulovou hypotézu, že výběr pochází ze základního souboru s normálním
rozdělením.

Testy závislosti/nezávislosti v datech


➢ Vzájemná závislost prvků jednoho souboru se nazývá AUTOKORELACE.

➢ Testy nezávislosti testují nulovou hypotézu, že všechny prvky výběru jsou NAVZÁJEM
nezávislé, ve výběru není autokorelace.

➢ Používají se testy autokorelace určitého řádu, např. pro autokorelaci I. řádu von
Neumannův test.

Testy odlehlých/extrémních hodnot


➢ Testují nulovou hypotézu, že odchylka (testované hodnoty) extrémní hodnoty je náhodná.

➢ GRUBBSŮV TEST (předpokládá normální rozdělení)

➢ Dixonův test extrémních odchylek (nepředpokládá normální rozdělení)

Co dělat, když…?
➢ Není splněn požadavek nezávislosti prvků?

Je třeba hlubší analýza logických příčin, kontrola celého řetězce měření, provedení
nového/nových měření.

➢ Není splněn požadavek normálního rozdělení dat?

Rozdělení dat je buď jiného typu než normálního (zešikmení, špičatost), v datech mohou
být odlehlá/extrémní pozorování.

Využití robustních postupů, kterými je možné eliminovat ovlivnění odlehlými/chybnými


hodnotami (robustní charakteristiky a metody výpočtu).

Využití transformace dat, která slouží především ke snížení rozptylu dat, či právě
dosažení vyššího stupně symetrie (nejlépe normality).

➢ Není splněn dostatečný rozsah výběru?

Nejjednodušší je provést dodatečná měření.


Normalita a transformace dat
➢ Požadavky na transformační funkci - nelineární funkce (jinak by došlo pouze k posunu
dat a změně měřítka), monotónnost průběhu (aby se nezměnilo pořadí velikosti dat) a fce
musí směřovat k maximální symetrii.

➢ Logaritmická transformace dat – (používá se s zpravidla pro veličiny s výrazně


levostranným rozdělením), spočívá v zlogaritmování dat.

➢ Box-Coxova transformace - v současné době nejčastěji používaná transformace dat.

Modifikace dat
využití robustních postupů pro eliminaci vlivu odlehlých hodnot

➢ Winsorizace

spočívá v nahrazení určitého počtu nejmenších a největších hodnot hodnotami sousedními –


tzv. winsorizovaný výběr

➢ Censorizace

vyoučení určitého procenta nejvyšších a nejnižších hodnot ze souboru – censorovaný průměr

Metody průzkumové analýzy dat


Grafické a testové metody by se měly používat společně, odpovídají na různé otázky/ vhodně se
doplňují

➢ testové metody odpovídají na otázku ZDA je splněn daný předpoklad, např. zda pochází
nebo nepochází daný výběr ze základního souboru s normálním rozdělením

➢ grafické metody odpovídají na otázku PROČ daný předpoklad není splněn, proč data
nemají normální rozdělení, co je toho příčinou
Zešikmení negativní
➢ zešikmený soubor (v tomto případě pravostranný), většina hodnot je koncentrována
napravo, žádný bod ale není výrazně vzdálený od ostatních, žádný bod není možné
vypustit), koeficient šikmosti je záporný

Zešikmení pozitivní
➢ zešikmený soubor (v tomto případě levostranný), většina hodnot je koncentrována
nalevo, žádný bod ale není výrazně vzdálený od ostatních, žádný bod není možné
vypustit), koeficient šikmosti je kladný
Nulové zešikmení
➢ není zešikmený soubor, jedná se o symetrické rozložení dat v souboru kolem střední
hodnoty, většina hodnot je koncentrována právě kolem střední hodnoty, koeficient
šikmosti je roven nule
Průzkumová analýza v systému SAS
➢ Statistický systém SAS (modul SAS STAT) nabízí dvě základní procedury

• Univariate a

• Means.

➢ Procedura Univariate je velmi užitečná a hojně využívaná pro vyčištění dat spojitých
proměnných. Poskytuje informace o rozdělení hodnot proměnné, včetně její střední
hodnoty, míry rozptylu a špičatosti rozdělení neboli stupně nevyváženosti rozdělení dat.
Statistická indukce
• Na základě zkoumání náhodného výběru činíme závěry o základním souboru

• Souhrn metod - statistická indukce

• 1. Teorie odhadu

• 2. Testování statistických hypotéz

Odhad
• Bodový - vypočteme jedno číslo, které považujeme za odhad parametru základního
souboru

• Intervalový- uvedeme interval, který s předem danou pravděpodobností obsahuje danou


hodnotu parametru základního souboru - interval spolehlivosti

Bodový odhad
• Požadavky na kvalitní odhad :

• Nestrannost

• Konzistence

• Vydatnost

• Postačující statistika
Nestrannost

Statistika T dává nestranný odhad


charakteristiky , jestliže E(T) = 

Požadavek, aby použití statistiky T


nevedlo k systematickým chybám.
Chceme, aby se odchylky
v průměru eliminovaly :
E(T -  ) = 0
Konzistence

• Konzistentní odhad je takový odhad, který zaručuje při dostatečně velkém rozsahu
výběru malou pravděpodobnost velkých chyb při odhadu parametrů

• S rostoucím rozsahem výběru poroste i pravděpodobnost, že hodnota odhadu populační


charakteristiky se liší od skutečné hodnoty populační charakteristiky nepatrně

Vydatnost

• Statistika T dává vydatný (též nejlepší nestranný) odhad populační charakteristiky,


jestliže má ze všech nestranných odhadů odhadů charakteristiky  nejmenší rozptyl.

Postačující odhad

• Statistika T je postačující, jestliže obsahuje všechny informace o populační


charakteristice .

Bodové odhady
• Průměr základního souboru  - bodovým odhadem je výběrový průměr x

• Rozptyl základního souboru 2- bodovým odhadem je rozptyl s2

Intervalový odhad
• Interval spolehlivosti

• Meze spolehlivosti
• Koeficient spolehlivosti

• Hladina významnosti

• Přesnost odhadu

• Interval jednostranný levo- ,pravostranný

• Interval oboustranný

Interval spolehlivosti pro průměr – oboustranný


P( x -    x +  ) = 1 - 

 - přípustná chyba odhadu

Testování statistických hypotéz


• Statistická hypotéza - každé tvrzení o tvaru nebo charakteristikách rozdělení jednoho či
několika statistických znaků.

• Test statistické hypotézy - postup, jímž na základě náhodného výběru ověřujeme, zda
tato hypotéza platí či nikoliv.

• Parametrické hypotézy - týkají se hodnot parametrů rozdělení

• Neparametrické hypotézy - týkají se tvrzení o rozdělení (bez precizování parametrů)

Obecný postup testování


• Stanovení nulové hypotézy H0

• Stanovení alternativní hypotézy H1

• Určení (volba) hladiny významnosti

• Volba a výpočet testového kritéria

• Nalezení kritické hodnoty v tabulkách

• S využitím statistického softwaru – stanovení p-value

• Vyhodnocení testu

• Interpretace výsledku
chyby při testování
• Chyba prvního druhu - zamítnutí správné Ho

• Pravděpodobnost chyby 1. druhu - 

• Chyba druhého druhu - přijetí nesprávné Ho

• Pravděpodobnost chyby 2. druhu - 

 1-

Pravdpěpodobnost chyby 1. druhu spolehlivost testu


Hladina významnosti

 1- 

Pravdpěpodobnost chyby 2. druhu Síla testu

Obecný postup testování – formulace H0 a H1


• Formulace nulové hypotézy H0: =0

mezi testovanými charakteristikami neexistují statisticky významné rozdíly

• alternativní hypotéza H1 :

• 1) H1:   0 - tzv. oboustranná alternativa

• 2) H1:   0 - pravostranná alternativa

• 3) H1:   0 - levostranná alternativa

Obecný postup testování – testové kritérium


• Stanovení hladiny významnosti

• Volba testového kritéria

• Výpočet hodnoty testového kritéria


Obecný postup testování – kritické hodnoty
• Určení kritických hodnot a vymezení kritického oboru

--------------------------  -----------------------------

Obor nezamítnuti Ho  Obor zamítnutí Ho=

 = kritický obor

kritická hodnota

(nalezneme v tabulkách)

Parametrické testy
• Testy hypotéz o hodnotě parametru jednoho rozdělení- průměr, rozptyl, relativní četnost

• Testy hypotéz o parametrech dvou rozdělení - průměr, rozptyl, relativní četnost

• Testy hypotéz o parametrech více než dvou rozdělení - průměr, rozptyl

Test o hodnotě průměru - jednovýběrový t-test

• Zjišťujeme, zda výběrový soubor patří do základního souboru se známým průměrem

• H : μ = μo

• Nulová hypotéza : průměr základního souboru, z něhož pochází výběr, se neliší od


známého průměru základního souboru

Dvouvýběrové testy
➢ Testy hypotéz o parametrech dvou rozdělení - průměr, rozptyl, relativní četnost
Testy shody průměrů dvou normálních rozdělení
• Test při stejných rozptylech (nezávislé výběry) : dvouvýběrový t-test

• Test při nestejných rozptylech (nezávislé výběry) : Welchův test

• Pro závislé výběry ( na jednom souboru se provádí dvojí měření) použijeme


párový t-test

Dvouvýběrový T- test
Máme dva nezávislé výběrové soubory

První soubor : známe rozsah m,


průměr x , rozptyl s12
Druhý soubor : známe rozsah n,
průměr y , rozptyl s22
Výsledek F- testu : rozptyly v základních
souborech jsou shodné

Nulová hypotéza : 1 = 2

Průměry základních souborů se neliší –


jedná se o jeden základní soubor

Welchův test
Máme dva nezávislé výběrové soubory

1.soubor : známe rozsah m, průměr x ,


rozptyl s12
2. soubor : známe rozsah n, průměr y ,
rozptyl s22
Výsledek F- testu : rozptyly v základních
souborech nejsou shodné
Nulová hypotéza : 1 = 2

Průměry základních souborů se neliší – jedná se o


jeden základní soubor

Párový t-test
Máme jeden výběrový soubor a na každé
jednotce dvě měření - hodnoty xi a yi.

Vycházíme z rozdílů (diferencí) hodnot xi a


yi : di = xi - yi.
Párový test - testové kritérium

Místo hypotézy H0: 1 =  2 budeme testovat hypotézu H0:  d =0.

d
t= n
sd .

Neparametrické testy
• Nepředpokládají specifikované rozdělení základního souboru

• Použitelné jak pro studium kvantitativních tak kvalitativních znaků

• Výpočetní jednoduchost

Vybrané neparametrické testy (2 výběry)


• Dvouvýběrový Willcoxonův (obdoba t-testu)

• Willcoxonův (obdoba párového testu)

• Znaménkový test (obdoba párového testu)

Dvouvýběrový Wilcoxonův test


Všechny výběrové hodnoty x1, ...xm, y1, ...yn (tzv. sdružený
výběr) uspořádáme podle velikosti a přiřadíme jim pořadová
čísla R x1 , .....R x m , R y1 , .....R y n (tzn. hodnoty očíslujeme od nejmenší
k největší přirozenými čísly 1, 2, ...N=m+n, přičemž stejně
velkým hodnotám přiřadíme stejné průměrné pořadí).
Zjistíme součty
Tx = R x + .....R x , Ty = R y + .....R y
1 m 1 n
Vypočteme veličiny

Ux = mn + m(m +1) − Tx , U y = mn + n(n +1) − Ty .


2 2

Nulovou hypotézu zamítneme na hladině významnosti , jestliže


U=min(Ux, Uy)U(m,n), kde U je tabelovaná kritická hodnota.

Wilcoxonův test

Ověřujeme, zda dva párové (závislé) výběry se významně liší svou


polohou.
Pro každou dvojici závislých pozorování (xi, yi) vypočteme
diferenci di = xi - yi
(i=1, 2, ...., n) a absolutním hodnotám diferencí přiřadíme pořadová
čísla R( d i ) , nulové diference vynecháváme. Sečteme zvlášť pořadová
čísla kladných diferencí a pořadová čísla záporných diferencí.
Dostaneme tak součet W+ pro kladné diference a W- pro záporné
diference.

Znaménkový test
• Neparametrická analogie párového t-testu

• po vyjádření diferencí se soustředíme pouze na znaménka diferencí

• Z+ - počet kladných diferencí

• Z- - počet záporných diferencí

• Z = min Z+,Z-

• Je-li Z<Z potom nulovou hypotézu zamítáme


Analýza rozptylu - ANOVA
Analýza rozptylu představuje zobecnění
dvouvýběrového t-testu na případ více než
dvou výběrů. Užívá se jí tehdy, sledujeme-li
vliv jednoho nebo několika faktorů na
zkoumaný kvantitativní statistický znak X.

Analýza rozptylu
Úrovně sledovaných faktorů mohou představovat obměny určitého kvalitativního faktoru nebo
různé hodnoty určitého kvantitativního faktoru.

Jsou-li úrovně faktoru přesně fixovány, nazýváme odpovídající model analýzy rozptylu model s
pevnými efekty.

Model s náhodnými efekty – úrovně faktoru mohou být náhodně vybrány z velkého počtu
možných úrovní. Při náhodně vybraných úrovních (tzn. má-li výběr úrovní náhodný charakter) je
efekt úrovně náhodnou veličinou.

Získané hodnoty uspořádáme podle úrovní sledovaného faktoru do tolika tříd, na kolika úrovních
tento faktor sledujeme (pokusný plán).

Model, kdy sledujeme úroveň jednoho faktoru, se potom nazývá analýza rozptylu při
jednoduchém třídění/jednoduchá/jednofaktorová analýza rozptylu.
Jednofaktorová analýza rozptylu
Princip analýzy rozptylu :

Rozkládá celkový rozptyl na dvě složky –

rozptyl mezi skupinami a


rozptyl uvnitř skupin (reziduální)

Z porovnání těchto dvou rozptylů vychází pak


testové kritérium

s2
F= 1
2
sr

ANOVA
Vyvážený model ANOVA - v každé skupině je stejný počet pozorování (ortogonální model)

Nevyvážený (neortogonální ) model ANOVA - ve skupinách může být různý počet pozorování

Jednofaktorová/jednoduchá analýza rozptylu


Testuje shodu více než dvou průměrů při vlivu jednoho faktoru A

H0 : 1 = 2 = 3 = …..k nebo

H0 : a1 = a2 = a3 = …..ak = 0

Alternativně vyjádřeno - efekty jednotlivých úrovní sledovaného faktoru A jsou


zanedbatelné.

H1 : alespoň jeden průměr/jedna dvojice průměrů se významně liší od ostatních

Analýza rozptylu
Pokud dojde k zamítnutí nulové hypotézy,
činíme závěr, že alespoň jeden průměr se
významně liší.
Je tedy třeba provést podrobnější
vyhodnocení pomocí tzv. metod
mnohonásobného porovnání.
Metody mnohonásobného porovnávání
• Duncanova metoda
• Kramerova metoda
• Scheffe metoda (S – metoda)
• Tukey metoda (T – metoda)
• Newmann – Kelsův test
• Dunnettův test
• Fisherův LSD test apod.

Princip všech metod vychází z porovnání průměrů


jednotlivých skupin :
x −x
i• j•

Jednofaktorová analýza rozptylu


Předpoklad použití analýzy rozptylu :

1. Nezávislost VS
2. Normalita rozdělení
3. Shodné rozptyly/homoskedasticita
(zásadnější vliv)

Porušení předpokladů
Předpoklad normálního rozdělení dat

• nesplněná normalita při splnění rovnosti rozptylů má na signifikanci jen malý vliv

• symetrické (nezešikmené) rozdělení se prakticky neliší od normálního (s růstem počtu


případů)

• v případě nesymetrických/zešikmených rozdělení se doporučuje využití KW testu (testuje


shodu celých rozdělení)

Předpoklad homoskedasticity

• rozdílné rozptyly (heteroskedasticita) mají na signifikanci větší dopad

• situaci neovlivní ani růst počtu případů.


• heteroskedasticita je ještě přijatelná při normálním, resp. symetrickém rozdělení, a
zároveň stejném počtu případů ve skupinách

• Při nestejných rozptylech je nejjednodušší variantou využití robustních testů, které


shodu rozptylu nepředpokládají – jako je Welchův test (testují se poté dvojice souborů),
nebo Brownův-Forsytheův test

• Ovšem tyto testy, které nepředpokládají shodu rozptylů/tedy si dokáží poradit s


heteroskedasticitou, jsou více citlivé na splnění předpokladu normality.

Ověření shody rozptylů jeden z předpokladů parametrické ANOVY


Test shody rozptylů více než dvou normálních rozdělení

Ověření hypotézy H :  2 = 2 = ...... m


2
0 1 2

H1: alespoň jeden z rozptylů porovnávaných


skupin se liší od ostatních
• Hartleyův test

• Bartlettův test (velmi citlivý na dodržení předpokladu normality)

• Levenův test (implementovaný v systému SAS)

Neparametrická forma jednofaktorové ANOVY


Kruskal – Wallisův test

H0: výběrové soubory pocházejí ze stejného rozdělení (ze


stejného základního souboru)

H1: Alespoň jeden nepochází ze stejného rozdělení (ze


stejného základního souboru)
Kruskalův - Wallisův test představuje neparametrickou
obdobu jednoduché analýzy rozptylu. Umožňuje test hypotézy,
že m nezávislých výběrů s rozsahy n1, n2, ......nm pochází
z téhož rozdělení.
Všechny hodnoty z m výběrů seřadíme do jedné rostoucí
posloupnosti a určí se pořadí každého prvku.

Metody mnohonásobného porovnávání – neparametrické formy


Neményiho metoda – použitelná pro vyvážený model

Dunnova metoda – použitelná pro nevyvážený model

Analýza rozptylu při dvojném třídění (Dvoufaktorová ANOVA)


Uvažujme dva faktory A a B, které současně působí na určitý statistický znak X.

Faktor A má m úrovní A1, A2, …, Am (podle tohoto faktoru se tedy dají všechna pozorování roztřídit
do m skupin),

faktor B má n úrovní B1, B2, …, Bn (podle faktoru B lze roztřídit všechny pozorované hodnoty do n
skupin).

Pokud má každá kombinace úrovní faktoru A a faktoru B pouze jedinou naměřenou hodnotu x ij,
hovoříme o modelu dvojného třídění s jedním pozorováním v každé podtřídě.

V uvedeném modelu je možno testovat dvě nulové hypotézy:

H0(a) : a1= a2= a3=...am= 0

H0(b) : b1= b2= b3=bn= 0

Dvoufaktorový model s pevnými efekty – úrovně obou

faktorů jsou fixované


Dvoufaktorový model s náhodnými efekty – úrovně obou

faktorů jsou náhodné

Smíšený dvoufaktorový model – úrovně jednoho faktoru

jsou pevné a úrovně druhého faktoru jsou náhodně vybrány

Analýza při dvojném třídění se stejným počtem pozorování (p >1) v


podtřídách při existenci interakce
Při tomto modelu je uvažována i možnost vzájemného vztahu (společné působení) faktoru A a
faktoru B na závisle proměnnou.

Interakcí se rozumí jev, při kterém kombinace úrovní faktorů může mít na výslednou hodnotu
sledovaného znaku rozdílný účinek než činí „prostý součet účinku každého faktoru uvažovaného
zvlášť“.

Používá se v případech, kdy nelze objasnit variabilitu xij pouze aditivním působením jednotlivých
faktorů.

Analýza při dvojném třídění s interakcí


V tomto případě se formulují 3 hypotézy:

H0(a) : a1= a2= a3=…am= 0

H0(b) : b1= b2= b3=…bn= 0

H0(ab) : (ab)ij=0

Tzn. že interakce má svoji nulovou hypotézu, která uvádí, že mezi faktory A a B není žádný vztah.

Nulová hypotéza o interakci se testuje jako první.


Regresní a korelační analýza

Závislost
Závislost pevná (funkční)

dané hodnotě jednoho znaku odpovídá jediná hodnota druhého znaku

Závislost volná (stochastická/statistická)

dané hodnotě jednoho znaku odpovídá více hodnot druhého znaku - působí zde náhodná
složka

Statistická závislost
• korelace – popisuje vliv změny úrovně jednoho znaku na změnu úrovně jiných znaků a
platí pro kvantitativní (měřené) znaky;

• kontingence – popisuje závislost kvalitativních (slovních, popisných) znaků, které mají


více než dvě alternativy, tzv. množných znaků (např. druh dřeviny, národnost, apod.);

• asociace - popisuje závislost kvalitativních (slovních, popisných) znaků, které mají pouze
dvě alternativy, tzv. alternativních znaků (např. pohlaví, odpovědi typu ano/ne, …).

Analýza vícerozměrných souborů, kdy lze sledovat vzájemné vztahy mezi proměnnými.

Dva základní úkoly :

1. regresní analýza

• zabývá se vytvořením vhodného matematického modelu závislosti,

• tvorba regresních odhadů/predikcí

• stanoví parametry tohoto modelu,

• ověřuje hypotézy o vhodnosti a důležitých vlastnostech modelu

2. korelační analýza

• zjišťuje existenci závislosti a její typy,

• měří těsnost závislosti,

• ověřuje hypotézy o statistické významnosti závislosti


Typy závislosti v regresní a korelační analýze
• typy podle počtu sledovaných znaků

jednoduchá – popisuje vztah dvou znaků,

mnohonásobná – popisuje vztahy více než dvou znaků,

parciální – popisuje závislost dvou znaků ve vícerozměrném statistickém


souboru při vyloučení vlivu ostatních znaků na tuto závislost

• typy podle smyslu změny hodnot

přímá (kladná) – se zvyšováním hodnot jednoho znaku se zvyšují i hodnoty


druhého znaku

nepřímá (záporná) - se zvyšováním hodnot jednoho znaku se zmenšují hodnoty


druhého znaku

• typy podle tvaru závislosti

přímková (lineární) – grafickým obrazem závislosti je přímka (lineární trend)

křivková (nelineární) – grafickým obrazem závislosti je křivka (nelineární trend)

TVAR závislosti je možné orientačně posoudit grafem korelačního pole.

• typy dle směru působení

jednostranná

oboustranná

Jednoduchá lineární regrese a korelace závislost Y na X

yi =  + xi

Hodnoty  a  představují neznámé parametry základního souboru

Obvykle pracujeme s výběrovým souborem . Potom lineární rovnice má tvar :

y´i = a + b xi
kde a je absolutní člen a b je tzv. regresní koeficient
Bodové odhady a, b parametrù  ,  regresní přímky se
z pozorovaných dat nejčastěji získávají metodou nejmenších čtverců. Tato
metoda vychází z požadavku, aby součet čtverců odchylek pozorovaných
hodnot y1, y2, y3, ........yn veličiny Y od odhadované regresní funkce byl
minimální. Vycházíme tedy z podmínky:
n
 (yi − + xi )2 = min .
i=1

Jednoduchá lineární regrese a korelace

Závislost jednostranná :

y´i = ayx + byx xi

Závislost oboustranná - sdružené regresní přímky

y´i = ayx + byx xi

x´ i = axy + bxy yi

byx – koeficient regrese (směrnice přímky) , nabývá libovolných hodnot

Udává průměrnou změnu závisle proměnné při jednotkové změně nezávisle proměnné.

Kladný regresní koeficient – přímá lineární závislost

Záporný regresní koeficient – nepřímá lineární závislost

síla závislosti
Pro lineární regresi – koeficient korelace (korelační koeficient)

ryx = rxy

Vlastnosti korelačního koeficientu :

−1  r yx  1
1)

2) Jestliže mezi veličinami X a Y existuje lineární funkční závislost, je |ryx| = 1

3) Jestliže veličiny X a Y jsou lineárně nezávislé, pak je ryx = 0


Orientační stupnice pro hodnocení těsnosti/síly lineární závislosti mezi X a Y :

0 < |ryx| <= 0,3 - slabá lineární závislost

0,3 < |ryx| <= 0,5 - mírná lineární závislost

0,5 < |ryx| <= 0,8 - střední lineární závislost

0,8 < |ryx| <= 1 - silná lineární závislost

kvalita regresního modelu


Koeficient determinace

r2yx
Udává, z kolika % jsou změny závisle proměnné vyvolány změnami nezávisle proměnné. Jinak
řečeno – jakou procento variability v proměnné Y je schopen model/prediktor vysvětlit.

Testy významnosti v regresní a korelační analýze

Test významnosti koeficientu regrese

Testovaná hypotéza

H0: β=0 (regresní koeficient je statisticky nevýznamný, regresní model je nevýznamný)

Test významnosti koeficientu korelace

Testovaná hypotéza

H0: ρ=0 (korelační koeficient je statisticky nevýznamný/ veličiny X a Y jsou nezávislé)

Spearmanův koeficient - síla závislosti neparametricky


Spearmanův koeficient závislosti – měří sílu libovolné statistické závislosti, která je
monotónní.

Jde o neparametrickou formu závislosti, výpočet vychází z pořadových čísel. Splňuje podmínky
použitelnosti neparametrických testů – není citlivý na nenormální rozdělení dat, je vhodnější pro
soubory malých rozsahů.
Nelineární regrese
Parametry nelineární regresní funkce

Parametry nelineárních funkcí řešíme stejně jako


v lineární regresi pomocí metody nemenších čtverců.

Metoda nejmenších čtverců je přímo použitelná pro


funkce, které jsou lineární v parametrech.

Ostatní je nutno na tvar lineární v parametrech převést –


obvykle logaritmováním.

Nelineární funkce

Nejužívanější nelineární funkce :

kvadratická y´i = a + b.xi + c.xi2

hyperbolická (lomená) y´i = a + b. 1


xi

logaritmická y´i = a + b. log xi

odmocninná y´i = a + b.xi + c. xi

x
exponenciální y´i = a . b i

mocninná y´i = a . xi b

Síla závislosti a hodnocení kvality modelu v nelineární regresní analýze


Index korelace

Iyx

Iyx ≠ Ixy

Index determinace

I2yx
Mnohonásobná lineární regrese
Mnohonásobná regresní analýza je metoda, pro modelování závislostí vysvětlovaných
náhodných veličin (závisle proměnných/cílových proměnných) Y1, Y2, ... YG na několika
vysvětlujících veličinách (nezávisle proměnných/prediktorech) X1, X2, … XK.

Cíle mnohonásobné regresní a korelační analýzy jsou stejné jako u jednoduché:

• popsat vztah pomocí regresního modelu, odhadnout jeho parametry, otestovat


důležité vlastnosti a kvalitu modelu

• vysvětlit rozptyl v závisle proměnné Y (pomocí R2),

• odhadnout (vypočítat) vliv každé z nezávisle proměnných X na proměnnou


závislou Y (pomocí parciálních regresních koeficientů b),

• predikovat, pomocí sestavené regresní rovnice, pro jednotlivé případy hodnoty


závisle proměnné.

Lineární vícenásobný regresní model


Y = 0 + 1x1 + 2x2 + … + kxk,

0, 1, 2, …, k ….. jsou obecně neznámé parametry, které je třeba z výběru odhadnout
pomocí MNČ.

Odhadnutou regresní funkci lze zapsat ve tvaru

y` = b0 + b1x1 + b2x2 + …. + bkxk


b0 …….. je absolutní člen,

b1,..,bk... jsou dílčí/parciální regresní koeficienty, které udávají změnu závisle proměnné y
odpovídající jednotkové změně jedné nezávisle proměnné x, za předpokladu, že hodnoty
zbývající nezávisle proměnných v modelu jsou konstantní.

(vyjadřují pouze část z vlivu působícího na vysvětlovanou proměnnou y)


Síla závislosti a hodnocení kvality mnohonásobného lineárního modelu
Koeficient mnohonásobné korelace, nabývá hodnot od 0 do 1

R y . x1x2…xk

Koeficient mnohonásobné determinace

R2 y . x1x2…xk

Koeficienty parciální (dílčí) korelace (př. uvažování 3 proměnných v modelu)

r xy.z

r xz.y

r zy.x

Regresní analýza – lineární mnohonásobná regrese


Testy významnosti v mnohonásobném regresním modelu

• Test významnosti dílčích výběrových regresních koeficientů (parametrů b) – provádí


se pomocí t – testů.
• Test významnosti celého regresního modelu se provádí pomocí upravené
jednoduché ANOVY  F – testů

REGRESNÍ DIAGNOSTIKA
Multikolinearita (týká se mnohonásobného modelu)

• Nezávisle proměnné by neměly být mezi sebou příliš vysoce korelovány, neboť to je
porušením požadavku na absenci multikolinearity. Pokud v datech existuje
multikolinearita, výsledky regrese jsou nespolehlivé. Vysoká multikolinearita zvyšuje
pravděpodobnost, že i dobrý prediktor (nezávisle proměnná) bude shledán statisticky
nevýznamný a bude vyřazen z modelu.

Vybočující/extrémní hodnoty, vlivné hodnoty

• V datech nesmějí být vybočující/extrémní/vlivné hodnoty, neboť na ty je regresní analýza


citlivá. Takové hodnoty mohou vážně narušit odhady parametrů rovnice.

Normální rozdělení dat

• Při nesplnění podmínky normálního rozdělení dat v jednotlivých proměnných hrozí


nepřesnost výsledků/nepřesnost regresních odhadů. Vzhledem k náročnosti průzkumu
vícenásobného rozložení dat je nejlepším řešením prozkoumat rozložení každé
proměnné, která vstupuje do analýzy, zvlášť .
• Máme-li dostatečně velký vzorek, tento předpoklad nás nemusí příliš trápit z důvodů
platnosti centrálního limitního teorému, který zaručuje, že porušení normality ve velkých
výběrových souborech nemá příliš vážné následky.

Rezidua (náhodné chyby)


K ověřování těchto, a dalších, předpokladů se používá souboru metod, kterému se říká regresní
diagnostika, a zahrnuje:

• Metody pro průzkumovou analýzu jednotlivých proměnných

• Metody pro analýzu vybočujících/extrémních a vlivných bodů

• Metody pro odhalení porušení předpokladu metody nejmenších čtverců pro výpočet
parametrů modelu

Posouzení kvality dat


Při posuzování kvality dat se sleduje především výskyt vlivných bodů, které jsou hlavním zdrojem
řady problémů, zejména způsobují zkreslení regresních odhadů.

Ve zvláštních případech však vlivné body zlepšují predikční schopnosti modelů (golden points).

Vlivné body lze je rozdělit do tří základních skupin:

▪ Hrubé chyby, které jsou způsobeny měřenou veličinou (vybočující pozorování)


nebo nevhodným nastavením vysvětlujících proměnných (extrémy). Jsou
obyčejně důsledkem chyb při manipulaci s daty.

▪ Body s vysokým vlivem (tzv. golden points) jsou speciálně vybrané body, které
byly přesně změřeny, a které obvykle rozšiřují predikční schopnosti modelu.

▪ Zdánlivě vlivné body vznikají jako důsledek nesprávně navrženého regresního


modelu.

Podle složky dat, ve které se vyskytují hrubé chyby, lze provést dělení na:

• vybočující (odlehlá) pozorování (outliers), které se na ose y výrazně liší od ostatních


• extrémy (high leverage points), které se liší v hodnotách na ose x, nebo v jejich
kombinaci (v případě multikolinearity) od ostatních bodů.

Detekce extrémních pozorování v množině vysvětlujících proměnné (x)

• metrika „leverage“

• hodnoty „leverage“ hii (i = 1, 2, …, n) představují diagonální prvky projekční


matice H

• pokud hii > 2p/n (p představuje počet parametrů lineární regresního modelu), tak
je to pokládáno za signál, že příslušné pozorování je extrémní (vzhledem k
hodnotám vysvětlujících proměnných).

V programu SAS je tato metrika ve výstupech označena jako Hat Diag H.


Detekce odlehlých pozorování v množině vysvětlované proměnné (y)

• studentizovaná rezidua SR

• SR jsou definována jako podíly reziduálních hodnot a jejich směrodatných


odchylek

• pokud je SR větší než 2 (|SR|> 2), lze příslušné pozorování považovat za odlehlé
(vzhledem k hodnotám vysvětlované proměnné)

V programu SAS je označena jako Student Residual.

Identifikovaná odlehlá/extrémní pozorování je nutné podrobit dalšímu zkoumání a zjistit, zda se


jedná o pozorování vlivná.

Míry vlivnosti pozorování:

Cookova vzdálenost D – Cookova vzdálenost i-tého pozorování měří simultánní vliv tohoto
pozorování na všechny vyrovnané (predikované) hodnoty; za vlivné lze pozorování považovat
pokud Di > 4/n.

DFFITS – měří vliv daného pozorování na odpovídající predikovanou hodnotu; za vlivné lze
pozorování považovat pokud |DFFITSi|> 2√(p/n).

MNČ předpoklady
Předpoklady, za kterých má metoda nejmenších čtverců (MNČ) optimální vlastnosti jsou
následující:

• Regresní model je lineární v parametrech.

• Náhodné chyby /rezidua mají nulovou střední hodnotu, konstantní rozptyl,


normální rozdělení, a jsou nezávislé.

Přičemž

• Regresní parametry β mohou nabývat libovolných hodnot.

V praxi však často existují omezení parametrů, která vycházejí z jejich fyzikálního smyslu.

Pokud jsou splněny výše uvedené předpoklady, jsou odhady b, získané minimalizací kritéria
nejmenších čtverců, nejlepší nevychýlené lineární odhady regresních parametrů β (jejich lineární
kombinace má nejmenší rozptyl).
analýza reziduí
Pro ověření korektnosti navrženého regresního modelu je důležitá statistická analýza reziduí.

Klasický lineární regresní model vychází z předpokladů, že reziduální hodnoty (diference


skutečných a vyrovnaných hodnot vysvětlované proměnné Y) jsou/mají:

a. nezávislé náhodné veličiny;

b. nulou střední hodnotou;

c. konstantní rozptyl (homoskedasticita reziduí);

d. normální rozdělení.

Verifikace těchto požadavků může být provedena pomocí reziduálního grafu, který zobrazuje
rezidua proti hodnotám predikované proměnné, resp. proti pořadí měření.

Selekční procedury v regresní analýze


V mnohonásobné lineární regresi existují tři možnosti, jak do výpočtu vkládat proměnné:

1. Metoda standardní, tzv. metoda Enter.

Všechny proměnné jsou do výpočtu vloženy najednou.

2. Metoda hierarchická (Blocks). Pořadí, v němž proměnné vstupují do výpočtu


řídí výzkumník (odvíjí se od jeho kauzálního modelu, který testuje).

3. Metody postupného vkládání - proměnné jsou vkládány do výpočtu regrese


postupně podle předem zadaných matematických kritérií (Stepwise, Forward,
Backward).

V této metodě výzkumník nekontroluje pořadí proměnných, jak postupně vstupují do


analýzy, o pořadí rozhoduje software − vychází to z algoritmu výpočtu.

Využití jednotlivých metod


Metoda ENTER (SAS - R-Square)

• Použijeme ji tehdy, když chceme popsat, jak velký podíl variance závisle proměnné je
vysvětlen nezávisle proměnnými (R2), dále jak velký vliv má každá z nezávisle
proměnných na proměnnou závislou při kontrole vlivu působení ostatních proměnných.

Metoda STEPWISE (Forward, Backward)

• Metoda stepwise je metodou k nalezení „nejlepšího“ modelu. Do výpočtu a do modelu


vstupují pouze ty proměnné, které jsou statisticky významně vztaženy s proměnnou
závislou. Je vhodné ji použít, když je naším cílem je maximalizovat regresní
odhady/predikci, s pokud možno co nejmenším počtem relevantních proměnných.
Selekční metody
Metody postupného vkládání prediktorů

• metoda FORWARD – postupné zařazování prediktorů (zařazuje prediktory postupně dle


významnosti, zařadí všechny vstupy)
• metoda BACKWARD – postupné vyřazování prediktorů (vyřazuje postupně do doby, než
zůstanou v modelu pouze ty významné prediktory)
• metoda STEPWISE – kombinace obou, je založena na postupném vstupu významných
proměnných

Analýza závislosti kvalitativních znaků


Statistické znaky
1. Kvantitativní

2. Kvalitativní (kategoriální)

3.

• Dle možnosti uspořádání kategorií


▪ Nominální (barva vlasů, kraje ČR)
▪ Ordinální (dosažené vzdělání, výsledek zkoušky)

• Dle počtu kategorií


▪ Alternativní (pohlaví, ano/ne)
▪ Množné (dosažené vzdělání, barva vlasů)
Frekvenční tabulky
▪ Kontingenční tabulky - zkoumáme vztah mezi dvěma znaky, kdy alespoň jeden je
znakem množným (rozměr r x s)
▪ Asociační tabulky - zkoumáme vztah mezi dvěma alternativními znaky

KONTINGENČNÍ TABULKY R x S

Úlohy v kontingenční tabulce

• Ověřit/zjistit (otestovat) závislost mezi znaky


• Změřit sílu závislosti
Testování v kontingenční tabulce

2 test (chí kvadrát test nezávislosti)

➢ H0: znaky A a B jsou nezávislé

➢ H1: znaky A a B jsou závislé

▪ testové kritérium je založeno na rozdílu empirických a očekávaných četností

Předpoklady použití 2 testu v kontingenční tabulce


2 test pro kontingenční tabulku r x s předpoklady použití

• max 20 % očekávaných četností menších než 5

• všechny očekávané četnosti větší než 1

➢ řešení: sloučení sousedících kategorií

Kontingenční tabulka rxs


Testování v tabulce rxs:

testové kritérium

χ = 
2
r s (n ij − o ij )
2

,
i =1 j=1 o ij
kde oij je očekávaná četnost v i-tém řádku a j-tém sloupci tabulky

n i.  n .j
o ij =
n
hodnotu 2 porovnáváme s kritickou hodnotou 2 – rozdělení se stupněm volnosti [(r-1)·(s-1)]

K : χ 2  χ α2 [(r − 1)(s − 1)]


 zamítáme H0 o nezávislosti znaků

Měření těsnosti závislosti v kontingenční tabulce


Pearsonův koeficient kontingence

2
C= .
n+ 2

Jsou-li zkoumané znaky nezávislé, je hodnota tohoto koeficientu nula.

Maximální hodnota (při úplné závislosti) závisí na velikosti tabulky. Značí se C max a její hodnoty
jsou tabelovány.

Pro porovnání síly závislosti mezi několika kontingenčními tabulkami různého rozměru lze použít
normalizovaný koeficient kontingence Cn.

Další míry těsnosti závislosti


Cramerův koeficient V (Cramerovo V)

χ2
V= ,
pro h = min (r, s)
n (h − 1)

Čuprovův koeficient kontingence

2
K=
n (r − 1)(s − 1)
Oba koeficienty nabývají hodnoty 0 při úplné nezávislosti znaků.
ASOCIAČNÍ TABULKY 2 x 2
Asociace zkoumá vztah mezi dvěma alternativními znaky

Testování v asociační tabulce

2 test (chí kvadrát test nezávislosti)

➢ H0: znaky A a B jsou nezávislé

➢ H1: znaky A a B jsou závislé

▪ testové kritérium je založeno na rozdílu empirických a očekávaných četností

▪ je požadován dostatečný rozsah souboru

Předpoklady použití 2 testu v asociační tabulce


• dostatečně velký rozsah souboru

▪ <20

▪ 20-40

▪ >40

• všechny oij > 5

v případě, že nejsou splněny podmínky pro použití 2 – testu se použije Fisherův faktoriálový
test
Testování v asociační tabulce
výpočet očekávaných četností

(a + b)(a + c) (a + b)(b + d)
a0 = b0 =
n n
(c + d)(a + c) (c + d)(b + d)
c0 = d0 =
n n
Výpočet testového kritéria pro tab. 2x2 lze uvést ve tvaru

n (ad − bc )
2
χ = 2

(a + b )(a + c)(b + d )(c + d )


za platnosti H0 má toto testovací kritérium rozdělení 2 o 1 stupni volnosti (f=1)

pokud 2 > 2(1)  H0 se zamítá na α a závislost mezi znaky je prokázána

Měření těsnosti závislosti v asociační tabulce


Koeficient asociace

a d − bc
V=
(a + b )(c + d )(a + c )(b + d )

V  − 1; +1
V softwaru SAS – Phi Coefficient
Fisherův faktoriálový test
Test je založen na přímém výpočtu pravděpodobnosti, s níž se může ve výběru
o rozsahu n vyskytnou seskupení četností (a), (b), (c), (d) v dané tabulce.

Pro ověření platnosti H0 je nutno vypočítat součet všech dílčích pravděpodobností pi .

p =  pi
pi …pravděpodobnosti výskytu jednotlivých seskupení četností (a), (b), (c), (d) ve výběru o n
prvcích, v nichž se nejmenší četnost mění od 0 až do skutečně napozorované hodnoty při
zachování velikosti všech okrajových četností

pi =
(a + b) ! (c + d ) ! (a + c) ! (b + d ) !
n !  a !  b!  c!  d !
p =  pi
jestliže p <, zamítáme H0 o nezávislosti znaků, kde

Časové řady
Základní pojmy

• Časová řada - posloupnost věcně a prostorově srovnatelných pozorování, která jsou


jednoznačně uspořádána z hlediska času ve směru minulost - přítomnost.

Rozlišujeme:

Dle periodicity ukazatele

• Krátkodobé

• dlouhodobé a

• roční časové řady

Dle rozhodného časového hlediska

• Intervalové (tokové) a

• okamžikové (stavové) časové řady


Intervalové časové řady

• velikost ukazatele závisí na délce intervalu, za který je sledován

• pro ukazatele je možné tvořit součty a tento součet má reálný význam

• mají se vztahovat ke stejně dlouhým intervalům, jinak jde o srovnání zkreslené

Okamžikové časové řady

• jsou sestavovány z ukazatelů, které se vztahují k určitému okamžiku

• součet za několik po sobě jdoucích hodnot nedává reálný smysl, proto se neprovádí

• shrnování ukazatelů se provádí pomocí chronologického průměru

Dle druhu sledovaných ukazatelů

• Časová řada původních hodnot

• Časová řada odvozených ukazatelů

Dle způsobu vyjádření údajů

• Časová řada naturálních ukazatelů a

• Časová řada peněžních ukazatelů

Srovnatelnost údajů v časové řadě


Věcné hledisko

• údaje by měly být stejně obsahově vymezené(typické pro naturální ukazatele)

Prostorové hledisko

• používat údaje vztahující se ke stejným geografickým územím

Časové hledisko

• tento problém se objevuje zejména u intervalových časových řad, kdy se údaje mají
vztahovat ke stejně dlouhým intervalům

Cenové hledisko

• použití běžných nebo stálých cen (dává se jim přednost)


Hlavní cíl analýzy časových řad
Interpolace (vyrovnání časové řady) – pochopení minulého vývoje tj. nalezení matematické
funkce, která dokáže časový vývoj popsat

• pochopení mechanismu, který generuje hodnoty dané časové řady

• Pochopení podmínek a vazeb, které působí na vznik těchto hodnot

Extrapolace (prodloužení časové řady) – především nás zajímá další vývoj –


prognózování/predikce budoucího vývoje

Elementární charakteristiky časových řad


Elementární charakteristiky slouží zejména k popisu dynamiky vývoje sledovaných ukazatelů. K
elementárním charakteristikám řadíme diference různého řádu, tempa růstu, průměrné tempo
růstu, průměrné hodnoty časových řad.

Základní charakteristiky časových řad se, spolu s grafy, používají pro získání rychlé orientační
představy o chování sledovaného ukazatele shromážděného v časové řadě.

Základní charakteristiky je možné využít v jejich absolutním nebo relativním vyjádření.

• ABSOLUTNÍ charakteristiky – první absolutní diference (absolutní přírůstky), druhé


absolutní diference, atd.

• RELATIVNÍ charakteristiky – tempa růstu, atd.

ABSOLUTNÍ charakteristiky
• první absolutní diference – přírůstek hodnoty ukazatele v určitém období oproti období
bezprostředně předcházejícímu
• druhá absolutní diference – udává absolutní zrychlení/zpomalení vývoje v analyzované
časové řadě
• průměrný absolutní přírůstek (aritmetický průměr z prvních diferencí)

RELATIVNÍ charakteristiky
tempo přírůstku, neboli relativní diference - pro charakterizování dynamiky absolutního
přírůstku, může být vyjádřen také v procentech a pak podává informaci o procentuální změně
hodnoty časové řady v čase t ve srovnání s časem t-1

• koeficient růstu – relativní postupná rychlost změn hodnot v časové řadě


• tempo růstu – koeficient růstu vyjádřený v procentech
• průměrný koeficient růstu (pro monotónní vývoj časové řady)
RELATIVNÍ charakteristiky/indexní analýza
• bazický index - změny v jednotlivých obdobích sledované časové řady vzhledem k
období základnímu (bázi)
• řetězový index (koeficient růstu)

Bazické a řetězové indexy


y
Koeficient růstu kt = t lze rovněž nazvat jako řetězový index –
y
t −1
hodnota ukazatele je porovnávána k hodnotě předchozího období

Bazické indexy - hodnota ukazatele je porovnávána k základu ( bázi)

y
kt = t
y
0

Vzorce pro výpočet potřebných charakteristik k popisu dynamiky


vývoje
• První absolutní diference

• Druhá absolutní diference

• Průměrná absolutní diference

• Relativní diference/přírůstek

• Řetězový index/koeficient růstu


• Průměrný koeficient růstu

• Bazický index

Úroveň ukazatelů se charakterizuje nejčastěji pomocí průměrů

• Intervalová řada – prostý nebo vážený aritmetický průměr


• Okamžiková řada – prostý nebo vážený chronologický průměr

Základní principy v modelování časových řad


Cíl analýzy časových řad

• interpolace(vyrovnání časové řady) – pochopení minulého vývoje tj. nalezení


matematické funkce, která dokáže časový vývoj popsat

• extrapolace(prodloužení časové řady) – především nás zajímá další vývoj – prognózování


budoucího vývoje

Analýza časové řady umožňuje ”odhalit” důsledky působení časového faktoru na utváření
časové řady sledovaného statistického ukazatele. Základní myšlenka tohoto pojetí spočívá v
představě, že každé pozorování časové řady yt lze vyjádřit ve tvaru

Kde Yt, t=1,2,…,n, značí posloupnost teoretických hodnot časové řady, která vznikla jako
důsledek jistých vývojových pravidelností a εt , t=1,2,…n, představují posloupnost hodnot mající
charakter vývojových nepravidelností. Vývojové pravidelnosti jsou často nazývány teoretickou
(systematickou) složkou časové řady, vývojové nepravidelnosti nesystematickou/náhodnou
složkou časové řady.
Základní metody a postupy pro analýzu časových řad
Průzkumová analýza časových řad

- cílem průzkumové analýzy časových řad je postižení zvláštností a nedostatků ve


zpracovávaných statistických datech a posouzení platnosti předpokladů nutných pro jejich
následné statistické zpracování.

Dekompozice časových řad

- kladou důraz především na práci se systematickými složkami časové řady (tj. s trendovou,
sezónní a cyklickou složkou) a jednotlivá pozorování jsou obvykle považována za navzájem
nekorelovaná. Často používaným matematickým nástrojem v dekompozičních metodách je
regresní analýza.

Box-Jenkinsovo metodologie

- Boxův - Jenkinsův přístup naproti tomu bere za základní prvek konstrukce modelu časové řady
reziduální složku, která může být tvořena korelovanými (závislými) náhodnými veličinami.
Boxova - Jenkinsova metodologie tedy může nejen zpracovávat časové řady s navzájem závislými
pozorováními, ale dokonce těžiště jejich postupů spočívá právě ve vyšetřování těchto závislostí
neboli v tzv. korelační analýze.

Lineární dynamické modely

- Data, která se používají v ekonometrii, mají obvykle tvar časových řad. Odpovídající
ekonometrické modely jsou však většinou konstruovány tak, že hodnoty určité časové řady jsou
vysvětlovány pomocí hodnot dalších (tzv. vysvětlujících nebo faktorových) časových řad, které
vysvětlovanou řadu ovlivňují (např. výdaje obyvatelstva na nákup spotřebního zboží v roce t jsou
vysvětlovány pomocí své minulé hodnoty a navíc pomocí disponibilních peněžních příjmů
obyvatelstva a cenového indexu spotřebního zboží).

Spektrální analýza časových řad

- Předchozí přístupy by bylo možné shrnout pod označení analýza časových řad v časové
doméně. Odlišný přístup, který považuje zkoumanou časovou řadu za (nekonečnou) směs
sinusových a kosinusových křivek s různými amplitudami a frekvencemi, nese označení analýza
časových řad ve spektrální doméně nebo spektrální analýza časových řad (někdy též
fourierovská analýza).
Dekompozice časových řad - jednorozměrná analýza časových řad
Při jednorozměrné analýze časových řad (jediným faktorem dynamiky ukazatele shromážděného
v časové řadě je čas) se vychází z empiricky odpozorované zkušenosti, že každá časová řada
může obsahovat následující čtyři složky, které vyjadřují různé druhy pohybu:

• trend

• sezónní složku (periodicita kratší nebo rovna 1 roku)

• cyklickou složku (délka vlny delší než 1 rok) a

• náhodnou složku, přičemž současná existence všech těchto forem však není nutná

Na základě přítomnosti/nepřítomnosti periodické složky (Ct, St) v časové řadě členíme řady na
neperiodické a periodické.

Hlavním úkolem analýzy neperiodických ČŘ je vystižení základní tendence jejich vývoje – trendu.

Popis trendu v časových řadách je možný:

• Graficky

• Mechanicky (pomocí klouzavých průměrů)

• Analyticky (pomocí trendových funkcí).

Využití elementárních charakteristik při hledání trendu


Při hledání nejvhodnějšího typu trendu vycházíme především z předpokládaných vlastností
trendové funkce, vyplývajících z teoretického rozboru.

Výběr ale může usnadnit grafické znázornění časové řady, nebo lze využít testů založených na
jednoduchých charakteristikách časové řady, respektive na jejich grafickém zobrazení.

➢ první diference přibližně konstantní – signalizují lineární trend

➢ druhé diference přibližně konstantní – kvadratický trend

➢ koeficienty růstu přibližně konstantní – exponenciální trend a

➢ křivka prvních diferencí se podobá křivce hustoty normálního rozdělení –


logistický trend.

Metody vyrovnávání časových řad – mechanické vyrovnávání


Vyrovnání pomocí klouzavých průměrů spočívá v nahrazení skutečných hodnot ČŘ průměrem z
určitého počtu hodnot. Trend v krátkých časových úsecích odhadujeme průměrem několika
sousedních pozorování.

Nejpřesnější je tato metoda tehdy, když pro výpočet klouzavého průměru volíme počet hodnot
časové řady, který se rovná délce daného cyklu. Např. při ročních údajích se bude volit 3-letý
klouzavý průměr pro vyloučení tříletých pravidelností nebo 5-letý pro vyloučení pětiletých
pravidelností, v případě sezónních výkyvů při měsíčních údajích se volí dvanáctiměsíční
klouzavé průměry, v případě čtvrtletních časových řad se budou volit klouzavé průměry délky 4
(počet čtvrtletí), atd.

analytické vyrovnávání
Metoda vyrovnávání časových řad, spočívající v tom, že trend popíšeme pomocí
vhodné matematické funkce, se nazývá tzv. analytické vyrovnávání. Analytické
vyrovnávání časových řad trendovými funkcemi je tradiční způsob popisu trendu
časové řady. Aplikace analytických metod bývá většinou bez větších problémů a
následná interpretace výsledků je jednoduchá. Nabídka trendových funkcí je rozmanitá.

Analytické vyrovnávání – klasické trendové modely


Od trendových funkcí se především vyžaduje, aby byly z matematického hlediska jednoduché,
tzn.

•minimální počet členů v rovnici,

•minimální možná mocnina argumentu,

•linearita v parametrech,

•spojitost a

•minimální počet extrémů a inflexních bodů.

Klasické trendové funkce

Lineární Tt = a + b· t

Kvadratická Tt = a + b· t + c· t2

Logaritmická Tt = a + b· log t

Exponenciální Tt = a · bt

Mocninná Tt = a · tb

Tt = a + b  t
Odmocninná
Posouzení/ověřování vhodnosti trendové funkce
➢ Výběr trendové funkce se zpravidla provádí na základě:

grafického zobrazení vývoje sledovaného ukazatele, nebo absolutních či relativních


charakteristik

interpolačních kritérií (jako je například směrodatná odchylka reziduí, koeficient determinace,


koeficient autokorelace reziduí, případně testy významnosti parametrů)

extrapolačních kritérií (grafickým zobrazením předpověď-skutečnost, nebo posouzením hodnot


průměrných chyb odhadu, případně chyb předpovědí “ex post”)

Interpolační kritéria
po odhadu parametrů trendové funkce/modelu trendu je nutné zjistit, jak přesně daný model
vystihuje skutečnost, což spočívá ve zkoumání charakteru odchylek skutečných hodnot
sledovaného ukazatele a hodnot vyrovnaných, respektive vypočítaných daným modelem trendu.

Rozdíly mezi skutečnou a odhadnutou hodnotou jsou nazývány „rezidua“ a představují odhad
nesystematické složky v časové řadě.

Přesnost vyrovnávání časové řady je pak měřena pomocí průměrných reziduálních


charakteristik.

Klasické trendové funkce – posouzení vhodnosti/kvality modelu pro popis uplynulého vývoje

Index determinace

2
 ( yi − yi )2
/

I yt = 1 -
 ( yi − y)2
Index korelace Iyt

Koeficient korelace r ( v případě lineární trendové funkce)

Nedostatkem koeficientu determinace je fakt, že závisí na počtu parametrů modelu/trendové


funkce. Tomuto nedostatku je možné se vyhnout, a to využitím modifikovaného indexu
determinace (ve statistických softwarech je označovaný jako R2Adj.
Moderní statistická metodologie standardně implementovaná v statistických programech:

- M.E. – střední chyba odhadu

- M.S.E. – střední kvadratická chyba odhadu

- M.A.E. střední absolutní chyba odhadu

- M.P.E. – střední procentuální chyba odhadu

- M.A.P.E. – střední absolutní procentuální chyba odhadu – nejvyužívanější

Obecně za velmi vhodně použitý model je hodnota MAPE 10%, ale můžeme se setkat i se
situacemi, kdy je požadována hodnota 5% či naopak větší např. 15%. Hodnota MAPE (respektive
její výše) se pohybuje v závislosti na dané situaci.

100 y t − y
MAPE =
n
 y
t

Extrapolační kritéria
spočívají v rozdělení analyzované časové řady na dvě časti.

První část řady, nazývaná jako testovací část, má určitý počet pozorování (např. T1 pozorovaní) a
slouží k výběru modelu trendu, odhadu jeho parametrů a ověření vhodnosti pomocí
interpolačních kritérií.

Druhá část řady, má délku T2 pozorování, a platí, že T1 + T2 = T (délka analyzované časové řady).
Tato druhá část se používá pro určování předpovědí již známé skutečnosti (prognózy "ex post„
respektive pseudoprognózy), a dále pro ověření jejich přesnosti.

• Přesnost předpovědí "ex post„ - tedy přesnost pseudoprognózy je možné zhodnotit


pomocí průměrných chyb (ME, MSE, … či nejpoužívanější MAPE).
Relativní chyba prognózy

r= P − S .100 (%)
S
P – prognóza S - skutečnost

Theilův koeficient nesouladu

T2 =  (S − P)2
S2
Relativní chyba extrapolace

T= T 2 . 100 (%)

Sezónnost v časových řadách


Periodická složka je důsledkem působení periodicky se opakujících
faktorů na sledovaný jev, projevuje se periodickými výkyvy ukazatelů
časové řady okolo trendu (hodnoty v časové řadě mohou střídavě růst
nebo klesat). Podle délky jedné periody pak rozlišujeme:

- cyklické kolísání – perioda pravidelně se opakujících výkyvů


ukazatelů přesahuje období delší než jeden rok,
- sezónní kolísání – je charakteristické roční periodou,
- krátkodobé kolísání – periodické výkyvy časové řady se opakují
v rámci období kratšího než jeden rok.

POPIS sezónní složky


Při zpracování časové řady, jejíž periodicita je kratší než 1 rok, je možné velice často pozorovat
existenci sezónních vlivů, které na daný ukazatel působí v rámci jednoho roku, a toto působení je
v modelu časové řady prezentováno právě sezónní složkou.

Pokud je předmětem analýzy časová řada krátkodobá, kde lze předpokládat existenci sezónní
složky, je nutné vždy jako první identifikovat, zda jsou dané sezónní výkyvy opravdu statisticky
významné.
Po identifikaci / prokázání existence významné sezónní složky v časové řadě, je nutné dané
sezónní výkyvy kvantifikovat, přičemž se nesmí zapomínat na výběr vhodného modelu
sezónnosti.

• Odhalení existence sezónnosti je možné v určitých jednodušších případech


intuitivně.

Test významnost sezónní složky:


• Nulová hypotéza zní:

H0: ßj=0, tedy slovně – sezónní parametr je nulový

• kde j je počet sezón, j=1,2,…,r

• Proti ní stojí alternativní hypotéza:

H1: ßj ≠0, sezónní parametr je alespoň pro některou sezónu j=1,2,…,r-1 nenulový, tedy statisticky
významný a jeho zařazení do modelu je oprávněné

Pokud je sezónní složka významná, je nutné ji kvantifikovat.

Intenzita sezónních kolísání se nejčastěji měří pomocí absolutních sezónních odchylek, nebo
pomocí sezónních indexů/sezónních faktorů.

Periodické (v tomto případě sezónní) kolísání do nemalé míry maskuje dlouhodobé vývojově
tendence sledovaného ukazatele shromážděného v časových řadách.

A právě to je důvodem pro provedení tzv. sezónního očišťování, což je proces, při kterém je
sledovaná krátkodobá časová řada očištěna od sezónní složky, tedy sezónní složka je po
provedení sezónního očištění ze sledované časové řady vyloučena a v časové řadě pak zbývá
složka trendu a složka náhodná.

Proces sezónního očišťování


Finální očištění údajů časové řady probíhá ve dvou možných variantách:

V případě, že pracujeme s modelem v aditivní formě

➢ od hodnot původní časové řady se odčítají sezónní odchylky

V případě, že pracujeme s modelem v multiplikativní formě

➢ hodnoty původní časové řady se dělí sezónním indexem


Adaptivní modely - Modely exponenciálního vyrovnávání
Modely analytického vyrovnávání (pomocí trendových funkcí) přiřazují všem hodnotám časové
řady stejné váhy a jsou tak vhodné zejména pro časové řady, které vykazují určitou permanentní
deterministickou složku a náhodnými fluktuacemi nejsou výrazně ovlivňovány (ceteris paribus –
princip stabilních vnějších podmínek).

V případě mnoha reálných ekonomických časových řad velmi často nereálný, může vést k
selhání analytických modelů (není možné k popisu použít jednu matematickou funkci s
konstantními parametry).

Pak se úspěchem uplatňují modely adaptivní, které předpokládají, že pro konstrukci


extrapolační prognózy budoucího vývoje jsou nejcennější nejnovější pozorování časové řady.
Proto jsou těmto nejnovějším pozorováním časové řady přiřazeny největší váhy a starší
pozorování se buď úplně vyřazují ze zkoumání, nebo se jim přiřazují menší váhy ve srovnání s
později pozorovanými hodnotami. Adaptivní modely tedy berou v úvahu stárnutí informací.
Systém vah je tvořen pomocí tzv. vyrovnávacích konstant, které nabývají hodnot z intervalu < 0, 1
> a pro nalezení optimální hodnoty vyrovnávací konstanty se v praxi využívá „metody pokusů a
omylů“. Za optimální hodnotu je považována ta hodnota, která minimalizuje vhodně zvolenou
chybu odhadu (nejčastěji MSE). Statistický systém SAS provádí odhad hodnoty vyrovnávací
konstanty automaticky.

Adaptivní modely časových řad/modely exponenciálního vyrovnávání


Důležitou podtřídou adaptivních modelů jsou tzv. Brownovy modely exponenciálního
vyrovnávání. S využitím těchto modelů je odhad trendu získáván ve formě lineární kombinace
všech dosavadních pozorování časové řady s tím, že je uvažováno stárnutí informací, tzn. váhy
dřívějších pozorování exponenciálně klesají.

V rámci této techniky je (z hlediska použité vyrovnávací křivky) možné rozlišit 3 základní varianty,
a to jednoduché exponenciální vyrovnávání (krátká období/úseky čas. Řady, v nichž je trend
konstantní), dvojité (trend lineární) a trojité exponenciální vyrovnávání (trend kvadratický).

• Zmíněné Brownovy modely přináší v praktických aplikacích dobré výsledky.

• Mezi další významné představitele exponenciálního vyrovnávání patří Holtův model


exponenciálního vyrovnávání, model exponenciálního vyrovnávání s tlumeným lineárním
trendem a Wintersův model exponenciálního vyrovnávání sezónních časových řad.

You might also like