You are on page 1of 29

Elementární popis závislostí

doc. Ing. Michal Dorda, Ph.D.


Statistický výzkum
• Mějme soubor určitých jednotek (domácnosti, dopravní firmy, apod.),
u kterých sledujeme údaje o určitých proměnných (průměrné měsíční
výdaje domácnosti, průměrné měsíční tržby dopravní firmy apod.).
• Hodnoty, kterých může daná proměnná nabývat, nazýváme varianty
proměnné.

doc. Ing. Michal Dorda, Ph.D. 2


Statistický výzkum
• Rozlišujeme následující typy proměnných:
• Kvalitativní (zpravidla slovní vyjádření variant proměnné):
• Nominální (např. bydliště, barva apod.) – varianty nominální proměnné nelze vzájemně
porovnávat – nelze obecně říci, že zelená barva je lepší než červená.
• Ordinální (např. dosažené vzdělání apod.) – varianty ordinální proměnné je možno
uspořádat – je možno tvrdit, že vysokoškolské vzdělání je víc než úplné středoškolské.
• Kvantitativní – varianty proměnné jsou vyjádřeny číselně (např. hmotnost,
měsíční výdaje apod.). Kvantitativní proměnné mohou být:
• Diskrétní (např. počet zaměstnanců dopravní firmy, počet provozovaných linek apod.) –
varianty proměnné nabývají diskrétních (izolovaných) hodnot.
• Spojitá (např. kilometrický proběh vozidla apod.) - varianty proměnné nabývají hodnot z
intervalu.

doc. Ing. Michal Dorda, Ph.D. 3


Typy závislostí
• Je známo, že např. hmotnost m homogenního tělesa je dána jeho
objemem V. V tomto případě hovoříme o funkční či pevné závislosti,
tedy:
𝑚 = 𝑓(𝑉).
• Konkrétně v tomto případě, budeme-li mít několik homogenních těles
ze stejného materiálu (konstantní hustota) o různých objemech,
potom bude pro hmotnost tělesa platit:
𝑚 = 𝜌 ( 𝑉.

doc. Ing. Michal Dorda, Ph.D. 4


Typy závislostí
Závislost hmotnosti na objemu
Objem [m3] Hmotnost [kg]
1600

0,05 50 1400

1200
0,1 100 y = 1000x
R² = 1
1000

1,2 1200 800

600
1,5 1500
400

0,45 450 200

0
0,27 270 0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6

doc. Ing. Michal Dorda, Ph.D. 5


Typy závislostí
• Řada závislostí vyskytujících se v reálném životě však nemá podobný
pevný vztah. V tomto případě hovoříme o statistické závislosti (někdy
se též hovoří o volné závislosti).
• Vysvětlovaná (závisle) proměnná Y – proměnná, jejíž chování se
snažíme vysvětlit, snažíme se najít její závislost na vysvětlující
proměnné (vysvětlujících proměnných).
• Vysvětlující (nezávisle) proměnná X – proměnná, jejíž chování
vysvětluje chování závisle proměnné Y. Tato proměnná je příčinnou
proměnnou, v důsledku její změny se mění vysvětlovaná proměnná.

doc. Ing. Michal Dorda, Ph.D. 6


Typy závislostí
• Rozdělení četností jedné proměnné, které odpovídá určité hodnotě
druhé proměnné, se nazývá podmíněné rozdělení četností:
• Pokud změny hodnot jedné proměnné mění podmíněné rozdělení četností
druhé proměnné, jedná se o statisticky závislé proměnné.
• Pokud se při různých hodnotách jedné proměnné nemění podmíněné
rozdělení četností druhé proměnné, pak jsou proměnné statisticky nezávislé.
Závislost výdajů na počet členů domácnosti
35000
30000
25000
20000
15000
10000
5000
0
0 1 2 3 4 5

doc. Ing. Michal Dorda, Ph.D. 7


Typy závislostí
• Proč neexistuje v tomto případě pevná závislost?

doc. Ing. Michal Dorda, Ph.D. 8


Typy závislostí
• Proč neexistuje v tomto případě pevná závislost?
• Je to dáno tím, že průměrné měsíční výdaje závisí i na dalších
faktorech, např. měsíčních příjmech domácností, složení domácnosti
apod.
• Avšak i kdybychom zahrnuli tyto faktory do modelu závislosti
(vysvětlovaná proměnná by závisela na více vysvětlujících
proměnných), pořád bychom měli statistickou závislost.
• Je to z toho důvodu, že hodnoty vysvětlované proměnné ovlivňuje i
řada nekontrolovatelných vlivů, které v souhrnu nazýváme náhodné
vlivy – např. nemoc apod.
doc. Ing. Michal Dorda, Ph.D. 9
Typy závislostí
• Mějme data o počtech členů domácnosti a průměrných měsíčních
výdajích jednotlivých domácností.
• Je zřejmé, že v tomto případě má smysl se zabývat závislostí
průměrných měsíčních výdajů (vysvětlovaná proměnná) na počtu
členů domácnosti (vysvětlující proměnná), nikoliv naopak – jedná se o
závislost jednostrannou.
• Vizuální pohled na případnou závislost může nabídnout bodový graf –
na vodorovné ose zakreslujeme zpravidla nezávisle proměnnou a na
svislé ose závisle proměnnou.

doc. Ing. Michal Dorda, Ph.D. 10


Typy závislostí
Počet členů Měsíční výdaje
domácnosti [-] [Kč/měsíc] Závislost výdajů na počet členů domácnosti
1 20 000 35000

1 12 000 30000

1 15 000 25000
y = 4785,7x + 12071
2 26 000 20000
R² = 0,7186

2 21 000
15000
3 23 000
3 29 000 10000

3 26 000 5000

3 31 000 0
0 1 2 3 4 5
4 27 000
4 32 000

doc. Ing. Michal Dorda, Ph.D. 11


Elementární popis závislostí
• Omezíme se pouze na závislost dvou proměnných. Označme tyto
proměnné X a Y, nechť proměnná X nabývá hodnot z k variant a
proměnná Y z m variant.
• První představu o závislosti si lze udělat na základě dvourozměrné
tabulky, do které zapisujeme sdružené četnosti 𝑛!" a marginální
(okrajové) četnosti 𝑛!⦁ a 𝑛⦁" .

doc. Ing. Michal Dorda, Ph.D. 12


Elementární popis závislostí
• Marginální četnosti jsou definovány následujícími vztahy:
&

𝑛!⦁ = * 𝑛!" pro 𝑖 = 1, … , 𝑘,


"$%

'

𝑛⦁" = * 𝑛!" pro 𝑗 = 1, … , 𝑚.


!$%

doc. Ing. Michal Dorda, Ph.D. 13


Elementární popis závislostí

X/Y y1 y2 . . . ym ∑
x1 n11 n12 n1m n1•
x2 n21 n22 n2m n2•
.
.
.

xk nk1 nk2 nkm nk•


∑ n•1 n•2 n•m n
doc. Ing. Michal Dorda, Ph.D. 14
Elementární popis závislostí
• Dvourozměrná tabulka s kvalitativními proměnnými se nazývá
kontingenční tabulka.
• Dvourozměrná tabulka s kvantitativními proměnnými se označuje jako
korelační tabulka.

doc. Ing. Michal Dorda, Ph.D. 15


Elementární popis závislostí
• Příklad: V rámci průzkumu byla 500 respondentům položena otázka,
zda očekávají, že se jejich životní úroveň v příštím roce zlepší,
nezmění, či zhorší. Výsledky průzkumu jsou shrnuty v podobě
kontingenční tabulce.
• V tomto případě zkoumáme jednostrannou závislost – prognóza
životní úrovně je vysvětlovaná (závisle) proměnná a nejvyšší dosažené
vzdělání je vysvětlující (nezávisle) proměnná.

doc. Ing. Michal Dorda, Ph.D. 16


Elementární popis závislostí
Nejvyšší dosažené Očekávaná změna životní úrovně Součet
vzdělání Zlepší se Nezmění se Zhorší se
Základní 6 24 30 60
Vyučení 48 82 70 200
Úplné středoškolské 42 63 35 140
Vysokoškolské 34 31 35 100
Součet 130 200 170 500

doc. Ing. Michal Dorda, Ph.D. 17


Elementární popis závislostí
• Z tabulky je zřejmé, že existuje závislost mezi prognózou životní
úrovně a dosaženým vzděláním – srovnejte např. výsledky
respondentů se základním vzděláním a s vysokoškolským vzděláním.
• Jelikož jsou počty respondentů v jednotlivých kategoriích dosaženého
vzdělání různé, je vhodnější vyjádřit dosažené výsledky formou
podmíněných relativních četností 𝑝"/! , které definujeme vztahem:

𝑛!"
𝑝"/! = pro 𝑖 = 1, … , 𝑘 a 𝑗 = 1, … 𝑚.
𝑛!⦁

doc. Ing. Michal Dorda, Ph.D. 18


Elementární popis závislostí
Nejvyšší dosažené Očekávaná změna životní úrovně Součet
vzdělání Zlepší se Nezmění se Zhorší se
Základní 6/60 = 0,10 24/60 = 0,40 30/60 = 0,50 1,00
Vyučení 48/200 = 0,24 82/200 = 0,41 70/200 = 0,35 1,00
Úplné středoškolské 42/140 = 0,30 63/140 = 0,45 35/140 = 0,25 1,00
Vysokoškolské 34/100 = 0,34 31/100 = 0,31 35/100 = 0,35 1,00
Respondenti celkem 130/500 = 0,26 200/500 = 0,40 170/500 = 0,34 1,00

pozn. Hodnoty 𝑝⦁" v posledním řádku tabulky spočítáme s využitím marginálních četností podle vztahu:
𝑛⦁"
𝑝⦁" = pro 𝑗 = 1, … , 𝑚.
𝑛
Nazýváme je marginální relativní četnosti.

doc. Ing. Michal Dorda, Ph.D. 19


Elementární popis závislostí
• Na základě tabulky vidíme, že např. 50 % respondentů se základním
vzděláním očekává zhoršení, zatímco v případě úplného
středoškolského vzdělání očekává zhoršení pouze 25 % respondentů.
• Je tedy zřejmé, že existuje „nějaká“ závislost mezi prognózou životní
úrovně a stupněm dosaženého vzdělání.
• Otázkou zůstává, jak je tato závislost silná.

doc. Ing. Michal Dorda, Ph.D. 20


Elementární popis závislostí
• Abychom mohli hovořit o nezávislosti proměnných, tak by muselo
platit:
𝑝"/! = 𝑝⦁" pro 𝑖 = 1, … , 𝑘 a 𝑗 = 1, … , 𝑚.
Nejvyšší dosažené Očekávaná změna životní úrovně Součet
vzdělání Zlepší se Nezmění se Zhorší se
Základní 0,26 0,40 0,34 1,00
Vyučení 0,26 0,40 0,34 1,00
Úplné středoškolské 0,26 0,40 0,34 1,00
Vysokoškolské 0,26 0,40 0,34 1,00
Respondenti celkem 130/500 = 0,26 200/500 = 0,40 170/500 = 0,34 1,00

doc. Ing. Michal Dorda, Ph.D. 21


Elementární popis závislostí
• V případě nezávislosti by mezi sdruženými četnostmi 𝑛!" a
marginálními četnostmi 𝑛!⦁ a 𝑛⦁" muselo také platit:

𝑛!⦁ ( 𝑛⦁"
𝑛!" = pro 𝑖 = 1, … 𝑘 a 𝑗 = 1, … , 𝑚.
𝑛

doc. Ing. Michal Dorda, Ph.D. 22


Elementární popis závislostí
Nejvyšší dosažené Očekávaná změna životní úrovně Součet
vzdělání Zlepší se Nezmění se Zhorší se
Základní 60·130/500 = 15,6 60·200/500 = 24,0 60·170/500 = 20,4 60
Vyučení 200·130/500 = 52,0 200·200/500 = 80,0 200·170/500 = 60,0 200
Úplné středoškolské 140·130/500 = 36,4 140·200/500 = 56,0 140·170/500 = 47,6 140
Vysokoškolské 100·130/500 = 26,0 100·200/500 = 40,0 100·170/500 = 34,0 100
Součet 130 200 170 500

V tabulce vidíme, jakých hodnot by musely v případě tohoto průzkumu nabývat jednotlivé sdružené četnosti,
abychom mohli hovořit o nezávislosti prognózy životní úrovně na stupni dosaženého vzdělání.

doc. Ing. Michal Dorda, Ph.D. 23


Elementární popis závislostí
• Nyní se budeme zabývat otázkou, jak posoudit sílu závislosti
proměnných.
• K tomuto se používají tzv. kontingenční koeficienty.
• Často se porovnávají sdružené četnosti 𝑛!" s teoretickými četnostmi
π!" , které spočítáme na základě předpokladu nezávislosti obou
proměnných podle vztahu:

𝑛!⦁ ( 𝑛⦁"
π!" = pro 𝑖 = 1, … 𝑘 a 𝑗 = 1, … , 𝑚.
𝑛

doc. Ing. Michal Dorda, Ph.D. 24


Elementární popis závislostí
• Pro srovnání se nejčastěji používá součet relativních kvadrátů
odchylek definovaný vztahem:
' & )
𝑛!" − 𝜋!"
𝐺 = ** .
𝜋!"
!$% "$%
• Tento součet nabývá hodnot z intervalu:
0; 𝑛 ( ℎ .
• Hodnotu h stanovíme jako minimum z hodnot 𝑘 − 1 a 𝑚 − 1.
• Je zřejmé, že čím je vyšší hodnota součtu G, tím je vyšší závislost
proměnných.
doc. Ing. Michal Dorda, Ph.D. 25
Elementární popis závislostí
Nejvyšší dosažené Očekávaná změna životní úrovně Součet
vzdělání Zlepší se Nezmění se Zhorší se
Základní 5,91 0,00 4,52 10,43
Vyučení 0,31 0,05 0,06 0,42
Úplné středoškolské 0,86 0,88 3,34 5,07
Vysokoškolské 2,46 2,03 0,03 4,52
Součet 9,54 2,95 7,94 G = 20,43

doc. Ing. Michal Dorda, Ph.D. 26


Elementární popis závislostí
• Nevýhodou uvedeného součtu je, že jeho maximální hodnota závisí
na hodnotách k a m (nemožnost přímého srovnání mezi různými
soubory dat).
• Proto se zavádí Cramérův kontingenční koeficient definovaný
vztahem:
𝐺
𝐶*+ = .
𝑛(ℎ
• Tento již nabývá hodnot z intervalu 0; 1 . Čím je hodnota koeficientu
bližší 1, tím je závislost silnější.

doc. Ing. Michal Dorda, Ph.D. 27


Elementární popis závislostí
Nejvyšší dosažené Očekávaná změna životní úrovně Součet
vzdělání Zlepší se Nezmění se Zhorší se
Základní 5,91 0,00 4,52 10,43
Vyučení 0,31 0,05 0,06 0,42
Úplné středoškolské 0,86 0,88 3,34 5,07
Vysokoškolské 2,46 2,03 0,03 4,52
Součet 9,54 2,95 7,94 G = 20,43

𝐺 20,43
𝐶#$ = = = 0,14.
𝑛/ℎ 500 / 𝑚𝑖𝑛 4 − 1; 3 − 1

doc. Ing. Michal Dorda, Ph.D. 28


Elementární popis závislostí
• Vypočítaná hodnota kontingenčního koeficientu je blízká nule, z čehož
můžeme usoudit, že závislost je velmi slabá.

doc. Ing. Michal Dorda, Ph.D. 29

You might also like