Professional Documents
Culture Documents
Sss Vypisky Z Prednasek Info
Sss Vypisky Z Prednasek Info
➢ Nejdůležitějším krokem celé přípravy dat pro následné statistické zpracování je jejich
kontrola.
➢ Zajímá nás zda v datech nejsou chyby, hodnoty mimo přijatelný rozsah či chybějící
hodnoty.
➢ Tento postup se nazývá průzkumová analýza dat, která umožňuje předběžné zpracování
a tolik potřebnou kontrolu dat. Jedná se o velmi efektivní nástroj. Ve svých výsledcích je
srozumitelná a snadno interpretovatelná.
➢ Průzkumová analýza vychází z tradičních postupů deskriptivní analýzy, ale přesahuje její
rámec.
➢ formulace hypotéz
Aby bylo možné aplikovat na data „klasickou“ metodu odhadu parametrů, tedy vypočítat
základní charakteristiky z analyzovaných dat (aritmetický průměr, směrodatnou odchylku atd.),
musí data splňovat následující předpoklady:
➢ data musí být vzájemně nezávislá
Pro zvolení vhodné metody odhadu parametrů je nutné nejprve tyto podmínky/předpoklady
ověřit a k tomu slouží průzkumová analýza dat.
Nezávislost v datech
➢ Nezávislost znamená, že se v získaných/naměřených datech neobjevuje žádný trend
(rostoucí, klesající, atd.)
➢ Závislá data by se neměla používat k další analýze a měla by být naměřena jiná data
➢ Vzhledem k faktu, že data jsou opravdu vzácná a často „drahá“, se i tato data obvykle v
praxi nakonec použijí, ale je nutné tuto skutečnost zohlednit při interpretaci výsledků
analýzy
Normalita
➢ Základní momentové statistické charakteristiky jsou konstruovány na základě
předpokladu normálního rozdělení dat
➢ Pokud není splněna podmínka normálního rozdělení dat je nejprve nutné zjistit příčinu
nenormality
extrémní hodnoty
Pokud byly hodnoty naměřené správně/spolehlivě (není známa žádná příčina hrubé chyby a
daná hodnota je „možná“), není možné je z datového souboru vyloučit, naopak – mohou mít
vysokou vypovídací schopnost, mohou být dokonce v některých případech cennější než ostatní
data. Pozorování je nutné v souboru ponechat.
K odhadu parametrů souboru je potom však nutné použít jinou metodu – robustní metody
(například kvantily) nebo transformace.
Pokud jsou extrémní hodnoty vyloučené jako hrubé chyby, je nutné znovu otestovat, zda „zbylý“
soubor pochází z normálního rozdělení.
➢ krabicový graf (box plot/ box and whisker plot – krabice s vousy) – informace o tom, jak
jsou data v souboru rozložena (každá část krabicového grafu ukazuje, v jakém intervalu
číselné osy se nachází 25 % dat – tedy čím je příslušná část užší, tím jsou data v daném
úseku více koncentrována)
➢ vrubový krabicový graf (Notched box plot) – navíc intervalový odhad mediánu
➢ kvantil-kvantilový graf (qq plot) - nejlepší grafická metoda pro posouzení shody
empirických hodnot s daným rozdělením (nejčastěji s normálním rozdělením)
➢ Shapiro-Wilkův test
➢ d’Agostinův test
Tyto testy testují nulovou hypotézu, že výběr pochází ze základního souboru s normálním
rozdělením.
➢ Testy nezávislosti testují nulovou hypotézu, že všechny prvky výběru jsou NAVZÁJEM
nezávislé, ve výběru není autokorelace.
➢ Používají se testy autokorelace určitého řádu, např. pro autokorelaci I. řádu von
Neumannův test.
Co dělat, když…?
➢ Není splněn požadavek nezávislosti prvků?
Je třeba hlubší analýza logických příčin, kontrola celého řetězce měření, provedení
nového/nových měření.
Rozdělení dat je buď jiného typu než normálního (zešikmení, špičatost), v datech mohou
být odlehlá/extrémní pozorování.
Využití transformace dat, která slouží především ke snížení rozptylu dat, či právě
dosažení vyššího stupně symetrie (nejlépe normality).
Modifikace dat
využití robustních postupů pro eliminaci vlivu odlehlých hodnot
➢ Winsorizace
➢ Censorizace
➢ testové metody odpovídají na otázku ZDA je splněn daný předpoklad, např. zda pochází
nebo nepochází daný výběr ze základního souboru s normálním rozdělením
➢ grafické metody odpovídají na otázku PROČ daný předpoklad není splněn, proč data
nemají normální rozdělení, co je toho příčinou
Zešikmení negativní
➢ zešikmený soubor (v tomto případě pravostranný), většina hodnot je koncentrována
napravo, žádný bod ale není výrazně vzdálený od ostatních, žádný bod není možné
vypustit), koeficient šikmosti je záporný
Zešikmení pozitivní
➢ zešikmený soubor (v tomto případě levostranný), většina hodnot je koncentrována
nalevo, žádný bod ale není výrazně vzdálený od ostatních, žádný bod není možné
vypustit), koeficient šikmosti je kladný
Nulové zešikmení
➢ není zešikmený soubor, jedná se o symetrické rozložení dat v souboru kolem střední
hodnoty, většina hodnot je koncentrována právě kolem střední hodnoty, koeficient
šikmosti je roven nule
Průzkumová analýza v systému SAS
➢ Statistický systém SAS (modul SAS STAT) nabízí dvě základní procedury
• Univariate a
• Means.
➢ Procedura Univariate je velmi užitečná a hojně využívaná pro vyčištění dat spojitých
proměnných. Poskytuje informace o rozdělení hodnot proměnné, včetně její střední
hodnoty, míry rozptylu a špičatosti rozdělení neboli stupně nevyváženosti rozdělení dat.
Statistická indukce
• Na základě zkoumání náhodného výběru činíme závěry o základním souboru
• 1. Teorie odhadu
Odhad
• Bodový - vypočteme jedno číslo, které považujeme za odhad parametru základního
souboru
Bodový odhad
• Požadavky na kvalitní odhad :
• Nestrannost
• Konzistence
• Vydatnost
• Postačující statistika
Nestrannost
• Konzistentní odhad je takový odhad, který zaručuje při dostatečně velkém rozsahu
výběru malou pravděpodobnost velkých chyb při odhadu parametrů
Vydatnost
Postačující odhad
Bodové odhady
• Průměr základního souboru - bodovým odhadem je výběrový průměr x
Intervalový odhad
• Interval spolehlivosti
• Meze spolehlivosti
• Koeficient spolehlivosti
• Hladina významnosti
• Přesnost odhadu
• Interval oboustranný
• Test statistické hypotézy - postup, jímž na základě náhodného výběru ověřujeme, zda
tato hypotéza platí či nikoliv.
• Vyhodnocení testu
• Interpretace výsledku
chyby při testování
• Chyba prvního druhu - zamítnutí správné Ho
1-
1-
• alternativní hypotéza H1 :
-------------------------- -----------------------------
= kritický obor
kritická hodnota
(nalezneme v tabulkách)
Parametrické testy
• Testy hypotéz o hodnotě parametru jednoho rozdělení- průměr, rozptyl, relativní četnost
• H : μ = μo
Dvouvýběrové testy
➢ Testy hypotéz o parametrech dvou rozdělení - průměr, rozptyl, relativní četnost
Testy shody průměrů dvou normálních rozdělení
• Test při stejných rozptylech (nezávislé výběry) : dvouvýběrový t-test
Dvouvýběrový T- test
Máme dva nezávislé výběrové soubory
Nulová hypotéza : 1 = 2
Welchův test
Máme dva nezávislé výběrové soubory
Párový t-test
Máme jeden výběrový soubor a na každé
jednotce dvě měření - hodnoty xi a yi.
d
t= n
sd .
Neparametrické testy
• Nepředpokládají specifikované rozdělení základního souboru
• Výpočetní jednoduchost
Wilcoxonův test
Znaménkový test
• Neparametrická analogie párového t-testu
• Z = min Z+,Z-
Analýza rozptylu
Úrovně sledovaných faktorů mohou představovat obměny určitého kvalitativního faktoru nebo
různé hodnoty určitého kvantitativního faktoru.
Jsou-li úrovně faktoru přesně fixovány, nazýváme odpovídající model analýzy rozptylu model s
pevnými efekty.
Model s náhodnými efekty – úrovně faktoru mohou být náhodně vybrány z velkého počtu
možných úrovní. Při náhodně vybraných úrovních (tzn. má-li výběr úrovní náhodný charakter) je
efekt úrovně náhodnou veličinou.
Získané hodnoty uspořádáme podle úrovní sledovaného faktoru do tolika tříd, na kolika úrovních
tento faktor sledujeme (pokusný plán).
Model, kdy sledujeme úroveň jednoho faktoru, se potom nazývá analýza rozptylu při
jednoduchém třídění/jednoduchá/jednofaktorová analýza rozptylu.
Jednofaktorová analýza rozptylu
Princip analýzy rozptylu :
s2
F= 1
2
sr
ANOVA
Vyvážený model ANOVA - v každé skupině je stejný počet pozorování (ortogonální model)
Nevyvážený (neortogonální ) model ANOVA - ve skupinách může být různý počet pozorování
H0 : 1 = 2 = 3 = …..k nebo
H0 : a1 = a2 = a3 = …..ak = 0
Analýza rozptylu
Pokud dojde k zamítnutí nulové hypotézy,
činíme závěr, že alespoň jeden průměr se
významně liší.
Je tedy třeba provést podrobnější
vyhodnocení pomocí tzv. metod
mnohonásobného porovnání.
Metody mnohonásobného porovnávání
• Duncanova metoda
• Kramerova metoda
• Scheffe metoda (S – metoda)
• Tukey metoda (T – metoda)
• Newmann – Kelsův test
• Dunnettův test
• Fisherův LSD test apod.
1. Nezávislost VS
2. Normalita rozdělení
3. Shodné rozptyly/homoskedasticita
(zásadnější vliv)
Porušení předpokladů
Předpoklad normálního rozdělení dat
• nesplněná normalita při splnění rovnosti rozptylů má na signifikanci jen malý vliv
Předpoklad homoskedasticity
Faktor A má m úrovní A1, A2, …, Am (podle tohoto faktoru se tedy dají všechna pozorování roztřídit
do m skupin),
faktor B má n úrovní B1, B2, …, Bn (podle faktoru B lze roztřídit všechny pozorované hodnoty do n
skupin).
Pokud má každá kombinace úrovní faktoru A a faktoru B pouze jedinou naměřenou hodnotu x ij,
hovoříme o modelu dvojného třídění s jedním pozorováním v každé podtřídě.
Interakcí se rozumí jev, při kterém kombinace úrovní faktorů může mít na výslednou hodnotu
sledovaného znaku rozdílný účinek než činí „prostý součet účinku každého faktoru uvažovaného
zvlášť“.
Používá se v případech, kdy nelze objasnit variabilitu xij pouze aditivním působením jednotlivých
faktorů.
H0(ab) : (ab)ij=0
Tzn. že interakce má svoji nulovou hypotézu, která uvádí, že mezi faktory A a B není žádný vztah.
Závislost
Závislost pevná (funkční)
dané hodnotě jednoho znaku odpovídá více hodnot druhého znaku - působí zde náhodná
složka
Statistická závislost
• korelace – popisuje vliv změny úrovně jednoho znaku na změnu úrovně jiných znaků a
platí pro kvantitativní (měřené) znaky;
• asociace - popisuje závislost kvalitativních (slovních, popisných) znaků, které mají pouze
dvě alternativy, tzv. alternativních znaků (např. pohlaví, odpovědi typu ano/ne, …).
Analýza vícerozměrných souborů, kdy lze sledovat vzájemné vztahy mezi proměnnými.
1. regresní analýza
2. korelační analýza
jednostranná
oboustranná
yi = + xi
y´i = a + b xi
kde a je absolutní člen a b je tzv. regresní koeficient
Bodové odhady a, b parametrù , regresní přímky se
z pozorovaných dat nejčastěji získávají metodou nejmenších čtverců. Tato
metoda vychází z požadavku, aby součet čtverců odchylek pozorovaných
hodnot y1, y2, y3, ........yn veličiny Y od odhadované regresní funkce byl
minimální. Vycházíme tedy z podmínky:
n
(yi − + xi )2 = min .
i=1
Závislost jednostranná :
x´ i = axy + bxy yi
Udává průměrnou změnu závisle proměnné při jednotkové změně nezávisle proměnné.
síla závislosti
Pro lineární regresi – koeficient korelace (korelační koeficient)
ryx = rxy
−1 r yx 1
1)
r2yx
Udává, z kolika % jsou změny závisle proměnné vyvolány změnami nezávisle proměnné. Jinak
řečeno – jakou procento variability v proměnné Y je schopen model/prediktor vysvětlit.
Testovaná hypotéza
Testovaná hypotéza
Jde o neparametrickou formu závislosti, výpočet vychází z pořadových čísel. Splňuje podmínky
použitelnosti neparametrických testů – není citlivý na nenormální rozdělení dat, je vhodnější pro
soubory malých rozsahů.
Nelineární regrese
Parametry nelineární regresní funkce
Nelineární funkce
x
exponenciální y´i = a . b i
mocninná y´i = a . xi b
Iyx
Iyx ≠ Ixy
Index determinace
I2yx
Mnohonásobná lineární regrese
Mnohonásobná regresní analýza je metoda, pro modelování závislostí vysvětlovaných
náhodných veličin (závisle proměnných/cílových proměnných) Y1, Y2, ... YG na několika
vysvětlujících veličinách (nezávisle proměnných/prediktorech) X1, X2, … XK.
0, 1, 2, …, k ….. jsou obecně neznámé parametry, které je třeba z výběru odhadnout
pomocí MNČ.
b1,..,bk... jsou dílčí/parciální regresní koeficienty, které udávají změnu závisle proměnné y
odpovídající jednotkové změně jedné nezávisle proměnné x, za předpokladu, že hodnoty
zbývající nezávisle proměnných v modelu jsou konstantní.
R y . x1x2…xk
R2 y . x1x2…xk
r xy.z
r xz.y
r zy.x
REGRESNÍ DIAGNOSTIKA
Multikolinearita (týká se mnohonásobného modelu)
• Nezávisle proměnné by neměly být mezi sebou příliš vysoce korelovány, neboť to je
porušením požadavku na absenci multikolinearity. Pokud v datech existuje
multikolinearita, výsledky regrese jsou nespolehlivé. Vysoká multikolinearita zvyšuje
pravděpodobnost, že i dobrý prediktor (nezávisle proměnná) bude shledán statisticky
nevýznamný a bude vyřazen z modelu.
• Metody pro odhalení porušení předpokladu metody nejmenších čtverců pro výpočet
parametrů modelu
Ve zvláštních případech však vlivné body zlepšují predikční schopnosti modelů (golden points).
▪ Body s vysokým vlivem (tzv. golden points) jsou speciálně vybrané body, které
byly přesně změřeny, a které obvykle rozšiřují predikční schopnosti modelu.
Podle složky dat, ve které se vyskytují hrubé chyby, lze provést dělení na:
• metrika „leverage“
• pokud hii > 2p/n (p představuje počet parametrů lineární regresního modelu), tak
je to pokládáno za signál, že příslušné pozorování je extrémní (vzhledem k
hodnotám vysvětlujících proměnných).
• studentizovaná rezidua SR
• pokud je SR větší než 2 (|SR|> 2), lze příslušné pozorování považovat za odlehlé
(vzhledem k hodnotám vysvětlované proměnné)
Cookova vzdálenost D – Cookova vzdálenost i-tého pozorování měří simultánní vliv tohoto
pozorování na všechny vyrovnané (predikované) hodnoty; za vlivné lze pozorování považovat
pokud Di > 4/n.
DFFITS – měří vliv daného pozorování na odpovídající predikovanou hodnotu; za vlivné lze
pozorování považovat pokud |DFFITSi|> 2√(p/n).
MNČ předpoklady
Předpoklady, za kterých má metoda nejmenších čtverců (MNČ) optimální vlastnosti jsou
následující:
Přičemž
V praxi však často existují omezení parametrů, která vycházejí z jejich fyzikálního smyslu.
Pokud jsou splněny výše uvedené předpoklady, jsou odhady b, získané minimalizací kritéria
nejmenších čtverců, nejlepší nevychýlené lineární odhady regresních parametrů β (jejich lineární
kombinace má nejmenší rozptyl).
analýza reziduí
Pro ověření korektnosti navrženého regresního modelu je důležitá statistická analýza reziduí.
d. normální rozdělení.
Verifikace těchto požadavků může být provedena pomocí reziduálního grafu, který zobrazuje
rezidua proti hodnotám predikované proměnné, resp. proti pořadí měření.
• Použijeme ji tehdy, když chceme popsat, jak velký podíl variance závisle proměnné je
vysvětlen nezávisle proměnnými (R2), dále jak velký vliv má každá z nezávisle
proměnných na proměnnou závislou při kontrole vlivu působení ostatních proměnných.
2. Kvalitativní (kategoriální)
3.
KONTINGENČNÍ TABULKY R x S
testové kritérium
χ =
2
r s (n ij − o ij )
2
,
i =1 j=1 o ij
kde oij je očekávaná četnost v i-tém řádku a j-tém sloupci tabulky
n i. n .j
o ij =
n
hodnotu 2 porovnáváme s kritickou hodnotou 2 – rozdělení se stupněm volnosti [(r-1)·(s-1)]
2
C= .
n+ 2
Maximální hodnota (při úplné závislosti) závisí na velikosti tabulky. Značí se C max a její hodnoty
jsou tabelovány.
Pro porovnání síly závislosti mezi několika kontingenčními tabulkami různého rozměru lze použít
normalizovaný koeficient kontingence Cn.
χ2
V= ,
pro h = min (r, s)
n (h − 1)
2
K=
n (r − 1)(s − 1)
Oba koeficienty nabývají hodnoty 0 při úplné nezávislosti znaků.
ASOCIAČNÍ TABULKY 2 x 2
Asociace zkoumá vztah mezi dvěma alternativními znaky
▪ <20
▪ 20-40
▪ >40
v případě, že nejsou splněny podmínky pro použití 2 – testu se použije Fisherův faktoriálový
test
Testování v asociační tabulce
výpočet očekávaných četností
(a + b)(a + c) (a + b)(b + d)
a0 = b0 =
n n
(c + d)(a + c) (c + d)(b + d)
c0 = d0 =
n n
Výpočet testového kritéria pro tab. 2x2 lze uvést ve tvaru
n (ad − bc )
2
χ = 2
a d − bc
V=
(a + b )(c + d )(a + c )(b + d )
V − 1; +1
V softwaru SAS – Phi Coefficient
Fisherův faktoriálový test
Test je založen na přímém výpočtu pravděpodobnosti, s níž se může ve výběru
o rozsahu n vyskytnou seskupení četností (a), (b), (c), (d) v dané tabulce.
p = pi
pi …pravděpodobnosti výskytu jednotlivých seskupení četností (a), (b), (c), (d) ve výběru o n
prvcích, v nichž se nejmenší četnost mění od 0 až do skutečně napozorované hodnoty při
zachování velikosti všech okrajových četností
pi =
(a + b) ! (c + d ) ! (a + c) ! (b + d ) !
n ! a ! b! c! d !
p = pi
jestliže p <, zamítáme H0 o nezávislosti znaků, kde
Časové řady
Základní pojmy
Rozlišujeme:
• Krátkodobé
• dlouhodobé a
• Intervalové (tokové) a
• součet za několik po sobě jdoucích hodnot nedává reálný smysl, proto se neprovádí
Prostorové hledisko
Časové hledisko
• tento problém se objevuje zejména u intervalových časových řad, kdy se údaje mají
vztahovat ke stejně dlouhým intervalům
Cenové hledisko
Základní charakteristiky časových řad se, spolu s grafy, používají pro získání rychlé orientační
představy o chování sledovaného ukazatele shromážděného v časové řadě.
ABSOLUTNÍ charakteristiky
• první absolutní diference – přírůstek hodnoty ukazatele v určitém období oproti období
bezprostředně předcházejícímu
• druhá absolutní diference – udává absolutní zrychlení/zpomalení vývoje v analyzované
časové řadě
• průměrný absolutní přírůstek (aritmetický průměr z prvních diferencí)
RELATIVNÍ charakteristiky
tempo přírůstku, neboli relativní diference - pro charakterizování dynamiky absolutního
přírůstku, může být vyjádřen také v procentech a pak podává informaci o procentuální změně
hodnoty časové řady v čase t ve srovnání s časem t-1
y
kt = t
y
0
• Relativní diference/přírůstek
• Bazický index
Analýza časové řady umožňuje ”odhalit” důsledky působení časového faktoru na utváření
časové řady sledovaného statistického ukazatele. Základní myšlenka tohoto pojetí spočívá v
představě, že každé pozorování časové řady yt lze vyjádřit ve tvaru
Kde Yt, t=1,2,…,n, značí posloupnost teoretických hodnot časové řady, která vznikla jako
důsledek jistých vývojových pravidelností a εt , t=1,2,…n, představují posloupnost hodnot mající
charakter vývojových nepravidelností. Vývojové pravidelnosti jsou často nazývány teoretickou
(systematickou) složkou časové řady, vývojové nepravidelnosti nesystematickou/náhodnou
složkou časové řady.
Základní metody a postupy pro analýzu časových řad
Průzkumová analýza časových řad
- kladou důraz především na práci se systematickými složkami časové řady (tj. s trendovou,
sezónní a cyklickou složkou) a jednotlivá pozorování jsou obvykle považována za navzájem
nekorelovaná. Často používaným matematickým nástrojem v dekompozičních metodách je
regresní analýza.
Box-Jenkinsovo metodologie
- Boxův - Jenkinsův přístup naproti tomu bere za základní prvek konstrukce modelu časové řady
reziduální složku, která může být tvořena korelovanými (závislými) náhodnými veličinami.
Boxova - Jenkinsova metodologie tedy může nejen zpracovávat časové řady s navzájem závislými
pozorováními, ale dokonce těžiště jejich postupů spočívá právě ve vyšetřování těchto závislostí
neboli v tzv. korelační analýze.
- Data, která se používají v ekonometrii, mají obvykle tvar časových řad. Odpovídající
ekonometrické modely jsou však většinou konstruovány tak, že hodnoty určité časové řady jsou
vysvětlovány pomocí hodnot dalších (tzv. vysvětlujících nebo faktorových) časových řad, které
vysvětlovanou řadu ovlivňují (např. výdaje obyvatelstva na nákup spotřebního zboží v roce t jsou
vysvětlovány pomocí své minulé hodnoty a navíc pomocí disponibilních peněžních příjmů
obyvatelstva a cenového indexu spotřebního zboží).
- Předchozí přístupy by bylo možné shrnout pod označení analýza časových řad v časové
doméně. Odlišný přístup, který považuje zkoumanou časovou řadu za (nekonečnou) směs
sinusových a kosinusových křivek s různými amplitudami a frekvencemi, nese označení analýza
časových řad ve spektrální doméně nebo spektrální analýza časových řad (někdy též
fourierovská analýza).
Dekompozice časových řad - jednorozměrná analýza časových řad
Při jednorozměrné analýze časových řad (jediným faktorem dynamiky ukazatele shromážděného
v časové řadě je čas) se vychází z empiricky odpozorované zkušenosti, že každá časová řada
může obsahovat následující čtyři složky, které vyjadřují různé druhy pohybu:
• trend
• náhodnou složku, přičemž současná existence všech těchto forem však není nutná
Na základě přítomnosti/nepřítomnosti periodické složky (Ct, St) v časové řadě členíme řady na
neperiodické a periodické.
Hlavním úkolem analýzy neperiodických ČŘ je vystižení základní tendence jejich vývoje – trendu.
• Graficky
Výběr ale může usnadnit grafické znázornění časové řady, nebo lze využít testů založených na
jednoduchých charakteristikách časové řady, respektive na jejich grafickém zobrazení.
Nejpřesnější je tato metoda tehdy, když pro výpočet klouzavého průměru volíme počet hodnot
časové řady, který se rovná délce daného cyklu. Např. při ročních údajích se bude volit 3-letý
klouzavý průměr pro vyloučení tříletých pravidelností nebo 5-letý pro vyloučení pětiletých
pravidelností, v případě sezónních výkyvů při měsíčních údajích se volí dvanáctiměsíční
klouzavé průměry, v případě čtvrtletních časových řad se budou volit klouzavé průměry délky 4
(počet čtvrtletí), atd.
analytické vyrovnávání
Metoda vyrovnávání časových řad, spočívající v tom, že trend popíšeme pomocí
vhodné matematické funkce, se nazývá tzv. analytické vyrovnávání. Analytické
vyrovnávání časových řad trendovými funkcemi je tradiční způsob popisu trendu
časové řady. Aplikace analytických metod bývá většinou bez větších problémů a
následná interpretace výsledků je jednoduchá. Nabídka trendových funkcí je rozmanitá.
•linearita v parametrech,
•spojitost a
Lineární Tt = a + b· t
Kvadratická Tt = a + b· t + c· t2
Logaritmická Tt = a + b· log t
Exponenciální Tt = a · bt
Mocninná Tt = a · tb
Tt = a + b t
Odmocninná
Posouzení/ověřování vhodnosti trendové funkce
➢ Výběr trendové funkce se zpravidla provádí na základě:
Interpolační kritéria
po odhadu parametrů trendové funkce/modelu trendu je nutné zjistit, jak přesně daný model
vystihuje skutečnost, což spočívá ve zkoumání charakteru odchylek skutečných hodnot
sledovaného ukazatele a hodnot vyrovnaných, respektive vypočítaných daným modelem trendu.
Rozdíly mezi skutečnou a odhadnutou hodnotou jsou nazývány „rezidua“ a představují odhad
nesystematické složky v časové řadě.
Klasické trendové funkce – posouzení vhodnosti/kvality modelu pro popis uplynulého vývoje
Index determinace
2
( yi − yi )2
/
I yt = 1 -
( yi − y)2
Index korelace Iyt
Obecně za velmi vhodně použitý model je hodnota MAPE 10%, ale můžeme se setkat i se
situacemi, kdy je požadována hodnota 5% či naopak větší např. 15%. Hodnota MAPE (respektive
její výše) se pohybuje v závislosti na dané situaci.
100 y t − y
MAPE =
n
y
t
Extrapolační kritéria
spočívají v rozdělení analyzované časové řady na dvě časti.
První část řady, nazývaná jako testovací část, má určitý počet pozorování (např. T1 pozorovaní) a
slouží k výběru modelu trendu, odhadu jeho parametrů a ověření vhodnosti pomocí
interpolačních kritérií.
Druhá část řady, má délku T2 pozorování, a platí, že T1 + T2 = T (délka analyzované časové řady).
Tato druhá část se používá pro určování předpovědí již známé skutečnosti (prognózy "ex post„
respektive pseudoprognózy), a dále pro ověření jejich přesnosti.
r= P − S .100 (%)
S
P – prognóza S - skutečnost
T2 = (S − P)2
S2
Relativní chyba extrapolace
T= T 2 . 100 (%)
Pokud je předmětem analýzy časová řada krátkodobá, kde lze předpokládat existenci sezónní
složky, je nutné vždy jako první identifikovat, zda jsou dané sezónní výkyvy opravdu statisticky
významné.
Po identifikaci / prokázání existence významné sezónní složky v časové řadě, je nutné dané
sezónní výkyvy kvantifikovat, přičemž se nesmí zapomínat na výběr vhodného modelu
sezónnosti.
H1: ßj ≠0, sezónní parametr je alespoň pro některou sezónu j=1,2,…,r-1 nenulový, tedy statisticky
významný a jeho zařazení do modelu je oprávněné
Intenzita sezónních kolísání se nejčastěji měří pomocí absolutních sezónních odchylek, nebo
pomocí sezónních indexů/sezónních faktorů.
Periodické (v tomto případě sezónní) kolísání do nemalé míry maskuje dlouhodobé vývojově
tendence sledovaného ukazatele shromážděného v časových řadách.
A právě to je důvodem pro provedení tzv. sezónního očišťování, což je proces, při kterém je
sledovaná krátkodobá časová řada očištěna od sezónní složky, tedy sezónní složka je po
provedení sezónního očištění ze sledované časové řady vyloučena a v časové řadě pak zbývá
složka trendu a složka náhodná.
V případě mnoha reálných ekonomických časových řad velmi často nereálný, může vést k
selhání analytických modelů (není možné k popisu použít jednu matematickou funkci s
konstantními parametry).
V rámci této techniky je (z hlediska použité vyrovnávací křivky) možné rozlišit 3 základní varianty,
a to jednoduché exponenciální vyrovnávání (krátká období/úseky čas. Řady, v nichž je trend
konstantní), dvojité (trend lineární) a trojité exponenciální vyrovnávání (trend kvadratický).