Professional Documents
Culture Documents
Statistika 2
Statistika 2
Deskriptivní metody:
1. přehledné vyjádření výsledků pomocí četnostních tabulek a
Statistické metody a zpracování dat grafů
2. Výpočty a grafické znázornění základních popisných
statistických charakteristik
četnost 4 6 5 4 1
m≈ n m ≤ 5⋅ logn
Sturgesovo pravidlo m = 1 + 3,3 log10(n)
1
Četnosti Vícerozměrné rozdělení četností
• absolutní
• třídění se realizuje podle dvou či více znaků
• relativní
• tzv. kombinační tabulka
• kumulované
• slouží ke zkoumání závislostí studovaných znaků
(korelační tabulka)
• pokud znaky nabývají pouze dvou hodnot - asociační
Interval hodnot Četnost Kumulovaná
dolní mez horní mez střed absolutní relativní absolutní relativní
tabulka
7,01 7,50 7,25 6 0,027 6 0,027
7,51 8,00 7,75 7 0,032 13 0,059
8,01 8,50 8,25 22 0,100 35 0,158
8,51 9,00 8,75 33 0,149 68 0,308
9,01 9,50 9,25 41 0,186 109 0,493
9,51 10,00 9,75 49 0,222 158 0,715
10,01 10,50 10,25 40 0,181 198 0,896
10,51 11,00 10,75 15 0,068 213 0,964
11,01 11,50 11,25 8 0,036 221 1,000
Suma 221 1
50 100,00%
K čemu je to dobré?
20 40,00%
10 20,00%
Jednoduchý příklad: Vystihnout průměrnou teplotu vzduchu lokality
0 ,00%
za určité období
50
00
50
00
50
10 0
11 0
11 0
0
v určitém supermarketu
Třídy
Četnost Kumul. %
2
Základní statistické charakteristiky Charakteristiky úrovně
(střední hodnoty, míry polohy, míry centrální tendence)
• Charakteristiky úrovně
Jedná se o čísla, která reprezentují jednotlivé hodnoty
• Charakteristiky variability statistického znaku, udávají polohu, charakterizují obecnou
velikost jevu.
• Charakteristiky asymetrie
• Charakteristiky špičatosti Aritmetický průměr – úhrn hodnot kvantitativního
statistického znaku dělený rozsahem souboru. Statistický znak
X nabývá hodnot x1, x2, …xn. Aritmetický průměr bude:
• z reálných hodnot
∑x i
x= i =1
• ze skupinového rozdělení četností (reálné hodnoty seskupené n
do intervalů)
• suma čtverců odchylek od průměru je vždy menší než • Průměr musí být typický (většina
suma čtverců odchylek od jakékoliv jiné hodnoty hodnot je blízká průměru).
x n + x 2 n 2 + x3 n3 + ...x k n k ∑x n i i
50
40
x= 1 1 = i =1
30
n1 + n2 + n3 + ...n k k
∑n
i =1
i
20
10
0
1961 1966 1971 1976 1981 1986
3
Geometrický průměr Geometrický průměr - příklad
Růst cen určitého zboží byl postupně 20 %, 10 %, poté 15 % pokles a
n-tá odmocnina součinu z řady hodnot znaku. Používá se u 10 % růst.
souborů, jejichž hodnoty tvoří geometrickou posloupnost.
Potom průměrný růst je roven (1,20 · 1,10 · 0,85 · 1,10)1/4 ≅ 1,054, tzn.
průměrný růst je přibližně 5,4 %.
Prostý geometrický průměr xg = n x1 ⋅ x2 ⋅ x3 ⋅ ...xn Koeficienty růstu produkce závodu pro jednotlivá období:
Dostupnost místa:
• z bodu A…….. 30 min.
• z bodu B…….. 20 min.
• z bodu C…….. 6 min.
n 3 3 1
xh = = = = = 12 min
1 1 1 1 1 1 1 15 5
+ + + ... + +
x1 x 2 x3 xn 3 2 10
4
Kvadratický průměr Modus x̂
n
x12 n1 + x22 n2 + x32 n3 + ...xn2 nk ∑ xi2ni (subjektivní vliv – modus je nestabilní hodnota).
Vážený kvadratický průměr xkv = = i =1
• V grafu frekvenční funkce je modus hodnota, ve které tato
n1 + n2 + ...nk k
∑n
i =1
i dosahuje vrcholu.
• Má velký význam u nespojitých veličin a u kvalitativních
Nahrazuje individuální hodnoty řady tak, že se nemění součet jejich čtverců znaků. Umožňuje popisovat nominální data (Auto je nejčastěji
využívaným dopravním prostředkem).
n2
xˆ = L + h
n1 + n2
Aritmetický průměr: 4
kde L je dolní hranice modálního intervalu, h je šířka modálního
Modus: 3 intervalu n1 je četnost intervalu předcházejícího před modálním
intervalem a n2 četnost intervalu následujícího za modálním
Kvantily
Medián
~
x • Medián dělí statistický soubor na
poloviny.
• Analogickým dělením souboru na více
částí získáme kvantily ( kvartily, decily
• Medián je prvek řady, uspořádané v neklesajícím pořadí, který ji percentily)
dělí tak, že polovina prvků má hodnotu větší, druhá polovina
~
x25
větší, než je hodnota mediánu. Dolní kvartil
Horní kvartil
~
x75
• Medián není ovlivněn extrémními hodnotami, ale jejich počtem.
• Porovnáním mediánu dvou souborů lze získat informaci o Medián i kvantity lze snadno určit z čáry
kumulovaných četností
tendenci k vyššímu (nižšímu) výskytu extrémních hodnot.
• Někdy lépe charakterizuje úroveň souboru než průměr. Geografický medián – linie rozdělující
• Lze ho stanovit z řady uspořádaných hodnot a nebo ho určit plochu, na níž se vyskytuje studovaný
jev na dvě části, tak aby hodnota jevu
z rozdělení četností. byla v obou částech stejná.
5
Aritmetický střed Použití měr centrální tendence
Aritmetický průměr použijeme:
• Aritmetický průměr min. a max. hodnoty znaku. • pro data intervalová a poměrová, ne pro data kategoriální
• je-li rozdělení symetrické
• Extrémy se často značně liší od ostatních hodnot – jsou netypické,
• hodláme-li použít statistických testů
často nahodilé, mají však význam samy o sobě.
Medián použijeme v případech, kdy:
x + xmin • data jsou získána minimálně v ordinálním měřítku
xst = max • chceme znát střed rozdělení dat
2 • data mohou obsahovat odlehlé hodnoty
• je-li rozdělení silně zešikmené
∑n
i =1
i
6
Střední diference Rozptyl s2
Je definován jako průměr ze čtverců odchylek jednotlivých
• Aritmetický průměr absolutních hodnot všech možných hodnot znaku od jejich aritmetického průměru:
vzájemných rozdílů n jednotlivých hodnot studovaného znaku x. n
∑(x s − x ) 2 ⋅ ni
s =2 i =1
k
∑n i
Nejpoužívanější míry variability jsou i =1
založeny na všech hodnotách souboru kde xs jsou středy intervalů a k je počet intervalů.
Směrodatná odchylka n
Vlastnosti rozptylu a směrodatné odchylky
∑ (x i − x )2
s= i =1
• Druhá odmocnina z rozptylu. n • Rozptyl hodnot znaku v celém souboru se rovná součtu
• Je vyjádřením proměnlivosti v jednotkách původních dat. Je aritmetického průměru skupinových rozptylů a rozptylu
absolutní mírou variability. skupinových průměrů.
• Má největší použití pro porovnání proměnlivosti více souborů. • Přidáním konstanty k jednotlivým znakům se jejich rozptyl
• Má velký význam pro vymezení třídních intervalů za ani směrodatná odchylka nemění.
předpokladu normálního rozdělení.
• Násobíme-li jednotlivé znaky konstantou, jejich rozptyl je
násoben čtvercem této konstanty a směrodatná odchylka je
Výpočet směrodatné odchylky ze skupinového rozdělení četností: násobena touto konstantou.
k • Násobíme-li váhy konstantou, rozptyl ani směrodatná
∑(x s − x ) 2 ⋅ ni
odchylka se nemění.
s= i =1
k
∑n
i =1
i
(Modifikace výpočtu rozptylu a směrodatné odchylky pro základní soubor – viz.
odhady parametrů)
7
Charakteristiky asymetrie - šikmosti Koeficient asymetrie α
(SKEWNESS) Aritmetický průměr z třetích mocnin odchylek jednotlivých hodnot
znaku od aritmetického průměru vyjádřených v jednotkách
Charakterizují nesouměrnost rozdělení četností. Dávají představu směrodatné odchylky.
o tvaru rozdělení. Pro ideálně symetrické rozdělení nabývá hodnoty 0.
Míry šikmosti založené na variačním rozpětí Ze skupinového rozdělení četností se koeficient asymetrie vypočte:
k k
∑ n ⋅ (x − x ) ∑ n ⋅ (x − x )
3 3
i i i i
α= i =1
= i =1
k
n⋅s 3
Míry šikmosti založené na rozpětí kvantilů s 3 ∑ ni
i =1
x −x
K = ~max ~min
x75 − x25
∑ (x − x ) ⋅ ni
4
i
ε= i =1
−3
n ⋅ s4
8
Průzkumová analýza dat Průzkumová analýza dat
(EDA - Exploratory Data Analysis) (EDA - Exploratory Data Analysis)
• Souhrn metod popisné statistiky, které předchází vlastnímu EDA zahrnuje především:
statistickému zpracování.
• Cílem je ověřit některé vlastnosti vstupního datového souboru, které • výpočet charakteristik úrovně a variability
jsou nezbytnými předpoklady pro vlastní statistické metody
zpracování. • analýzu odlehlých hodnot
• EDA se zaměřuje na grafické a tabelační znázorňování dat • studium histogramu s cílem ověření normality rozdělení
• Každá analýza by měla začínat pečlivým zkoumáním struktury dat • konstrukci grafů
• ověření homogenity vstupních dat
• ověření stacionarity vstupních dat
• funkční transformace
• standardizace
• transformace do pořadí
• transformace na percentily, …