Professional Documents
Culture Documents
8.regresná A Korelačná Analýza
8.regresná A Korelačná Analýza
Rozlišujeme dva typy závislostí, tzv. pevnú a voľnú závislosť. Ak výskytu jedného javu je
jednoznačne priradený výskyt iného javu, hovoríme o pevnej, resp. funkčnej závislosti.
Z pravdepodobnostného hľadiska ide o vzťah, ktorý nastane s určitosťou, teda
s pravdepodobnosťou 1. Inak povedané každej hodnote jednej premennej je priradená jedna
hodnota inej premennej. V reálnom živote sa viac stretávame s druhým typom závislosti, tzv.
voľnou závislosťou. Ak sa táto závislosť týka kvantitatívnych štatistických znakov,
označujeme ju tiež štatistická závislosť. Jedná sa o prípady, keď jednotková zmena jednej
premennej vyvolá zmenu druhej premennej. K poznaniu a matematickému popisu štatistickej
závislosti medzi kvantitatívnymi štatistickými znakmi slúži metóda regresnej a korelačnej
analýzy, alebo korelačný počet.
POJMY
Lokujúca konštanta
n n n n
xi2 yi xi xi yi
i 1 i 1 i 1 i 1
b0 2
n
n
n xi2 xi
i 1 i 1
Ak poznáme regresný koeficient, tak
n n
y i b1 xi
b0 i 1 i 1
y b1 x
n
Regresný koeficient
n n n
n xi y i xi y i
b1 i 1 i 1 i 1
2
n
n
n x xi 2
i
i 1 i 1
Index korelácie
y
n
´
i y
i yx i 1
n
(y
i 1
i y)
Index determinácie
y
n
2
i y i´
i2 1 i 1
n
y
i 1
i y
2
FUNKCIE V EXCELI
Výpočet korelačného koeficienta
= CORREL (oblasť buniek jednej premennej, oblasť buniek druhej premennej)
Výpočet kovariancie
RIEŠENÝ PRÍKLAD
Úloha:
Zistiť, či v analyzovaných podnikoch existuje závislosť medzi tržbami z predaja vlastných
výrobkov a služieb a výrobou.
Zadanie:
Analyzujte vhodnou štatistickou metódou, či existuje závislosť medzi tržbami z predaja
vlastných výrobkov a služieb a výrobou vo vybraných poľnohospodárskych subjektoch ( =
0,05). Časť databázy je uvedená v tabuľke.
Riešenie:
Pri riešení vychádzame z pôvodnej databázy podnikov. Boli z nej vybrané podniky, v ktorých
sa nachádzajú párové údaje pre štatistické znaky tržby z predaja vlastných výrobkov a služieb
a výroba. Oba štatistické znaky sú kvantitatívne. Podniky, v ktorých sa párové údaje
nenachádzali, boli z riešenia vylúčené. Bolo analyzovaných 79 podnikov (53 podnikov bolo
vylúčených). Aby sme zistili ako vplýva výroba na tržby z predaja vlastných výrobkov
a služieb, inak povedané, ako sa menia tržby z predaja pri jednotkových zmenách výroby
v tisícoch Sk, použijeme metódu regresnej a korelačnej analýzy.
Tabuľka 8.1 vybraná časť databázy podnikov
Regression Statistics
Multiple R 0,7857296
R Square 0,617371
Adjusted R Square 0,6124018
Standard Error 29010,274
Observations 79
ANOVA
df SS MS F Significance F
Regression 1 1,00E+11 1,00E+11 124,239344 9,90E-18
Residual 77 6,50E+10 8,00E+08
Total 78 1,70E+11
350000
300000
250000
Tržby z predaja
200000
150000
100000
50000
0
0 50000 100000 150000 200000 250000 300000 350000
Výroba
Poznámka: tento postup má nevýhodu, pomocou neho nemôžeme otestovať nulové hypotézy
o vhodnosti modelu a o významnosti regresných koeficientov.
Výroba a tržby z predaja vlastných výrobkov a služieb
350000
300000
250000
Tržby z predaja
200000
y = 0,8504x + 6168,6
150000
R2 = 0,6174
100000
50000
0
0 50000 100000 150000 200000 250000 300000 350000
Výroba
Interpretácia výsledkov
Aké informácie môžeme získať z údajov v tabuľke?
Zisťujeme, či existuje závislosť medzi výrobou a tržbami z predaja vlastných výrobkov
a služieb. Závisle premenná Y (vysvetľovaná) sú tržby a nezávisle premenná X
(vysvetľujúca) je výroba. V našom príklade predpokladáme, čím viac výrobkov podniky
vyrobia a poskytnú viac služieb, tým vyššie tržby dosiahnu.
Výstup regresnej a korelačnej analýzy sa skladá z troch častí: prvou časťou je výstup
korelačnej analýzy, druhú časť tvorí výstup ANOVA, kde testujeme vhodnosť použitého
modelu. Tretia časť je výstup regresnej analýzy. Touto časťou výstupu začneme interpretácie
výsledkov.
Regresná funkcia má tvar y = 8 097,399 + 0,726 x. Hodnota Intercept - b0 = 8097,399 hovorí
nasledovné. Keby bola výroba nulová, tržby z predaja vlastných výrobkov a služieb by boli
8097,4 tis Sk. Hodnota X Variable 1, t.j. b1 = 0,726 hovorí, ak sa výroba zvýši o jednu mernú
jednotku (o korunu), tak tržby z predaja vlastných výrobkov a služieb vzrastú o 0,73 Sk.
Nulové hypotézy, ktoré sú v rámci tejto analýzy testované, sa týkajú významnosti lokujúcej
konštanty a regresného koeficienta, pričom nulová hypotéza tvrdí nevýznamnosť príslušného
koeficienta a alternatívna hypotéza jeho významnosť. K vyhodnoteniu týchto tvrdení poslúžia
P-value (P-hodnoty). P-value pre lokujúcu konštantu je 0,044 0,05. To nasvedčuje tomu, že
lokujúca konštanta je štatisticky významná. P-value pre regresný koeficient je 9,9.10-18 0,05,
čo tiež potvrdzuje významnosť tohto koeficienta. Okrem spomínaných informácií táto časť
výstupnej tabuľky ponúka aj 95% - ný interval spoľahlivosti pre b0 a b1. Ak sa výroba zvýši
o korunu, tak s 95 % - nou pravdepodobnosťou sa tržby zvýšia od 0,596 do 0,856 Sk.
Prvá časť výstupu Regresion Statistics sú výsledky týkajúce sa korelačnej analýzy. Hodnota
Multiple R (korelačný koeficient) je rovná 0,786. Táto hodnota čím je bližšie k 1, tým je
závislosť silnejšia. V našom príklade sa jedná o vysoký stupeň tesnosti vzťahu medzi tržbami
z predaja vlastných výrobkov a služieb a výrobou. Hodnota R Square je hodnota koeficientu
determinácie, je to hodnota 0,617. Táto hodnota po prenásobení 100 informuje o tom, že
zvolená regresná priamka vysvetľuje variabilitu tržieb na približne 62 %, ostatná časť
predstavuje nevysvetlenú variabilitu, vplyv náhodných činiteľov a iných nešpecifikovaných
vplyvov. Adjusted R-square (upravený koeficient determinácie) zohľadňuje aj počet
odhadovaných parametrov a počet meraní. Standard Error (chyba strednej hodnoty) by mala
byť čo najmenšia. Analýza závislosti medzi výrobou a tržbami z predaja vlastných výrobkov
a služieb bola realizovaná na 79 podnikoch - Observations (počet meraní).
V časti ANOVA testujeme nulovú hypotézu, ktorá tvrdí, že model, ktorý sme zvolili na
vysvetlenie závislosti (v našom prípade lineárna regresná priamka) nie je vhodný (alternatívna
hypotéza tvrdí opak). Na vyhodnotenie tohto tvrdenia slúži F test. Signifikance F = 9,9.10-18
0,05 ( - hladina významnosti), t.j. H0 zamietame, čo znamená, že model bol zvolený
správne.
VZORCE
Niektoré nelineárne funkcie:
- parabola - exponenciálna
y j ´ b0 b1 .x j b2 .x 2j
x
y j ´ b0 .b1 j
- hyperbola - hyperbola 2. stupňa
b1 b1 b2
y j ´ b0 y j ´ b0
xj x j x 2j
- logaritmická - mocninová
y ´j b0 b1 ln x j y j ´ b0 .x bj1
- index determinácie - index korelácie
n
(y ´
j y) 2
I2
j 1 I I2
n
(y
j 1
j y) 2
RIEŠENÝ PRÍKLAD
Úloha:
Zistite závislosť medzi tržbami z predaja vlastných výrobkov a služieb a výrobou
v poľnohospodárskych podnikoch.
Zadanie:
Analyzujte, či existuje závislosť medzi tržbami z predaja vlastných výrobkov a služieb
a výrobou vo vybraných poľnohospodárskych subjektoch ( = 0,05). Použite nelineárne
funkcie.
Riešenie:
Použijeme metódu regresnej a korelačnej analýzy, pričom postupne spracujeme niekoľko
nelineárnych modelov. Analyzujeme tie isté poľnohospodárske podniky ako v prípade
lineárnej závislosti.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,7920363
R Square 0,6273215
Adjusted R Square 0,6175141 Regresní sta
Standard Error 28818,321
Observations 79
ANOVA
df SS MS F Significance F
Regression 2 1,06245E+11 5E+10 63,9645561 5,13696E-17
Residual 76 63117665876 8E+08
Total 78 1,69362E+11
Hyperbola
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,1489815
R Square 0,0221955
Adjusted R Square 0,0094967
Standard Error 46375,536
Observations 79
ANOVA
df SS MS F Significance F
Regression 1 3759077946 4E+09 1,747847165 0,190061635
Residual 77 1,65603E+11 2E+09
Total 78 1,69362E+11
Tento model vhodný nie je, pretože Significance F (0,19 0,05). P-value pri regresnom
koeficiente b1 (0,19 0,05), regresný koeficient je štatisticky nevýznamný. Model je
nevhodný.
Logaritmická funkcia
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,5357709
R Square 0,2870505
Adjusted R Square 0,2777914
Standard Error 39599,738
Observations 79
ANOVA
df SS MS F Significance F
Regression 1 48615510461 5E+10 31,00203703 3,61683E-07
Residual 77 1,20747E+11 2E+09
Total 78 1,69362E+11
Exponenciálna funkcia
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,5120623
R Square 0,2622078
Adjusted R Square 0,2526261
Standard Error 0,5522062
Observations 79
ANOVA
df SS MS F Significance F
Regression 1 8,344587826 8,3446 27,36542905 1,40965E-06
Residual 77 23,47974379 0,3049
Total 78 31,82433161
Regression Statistics
Multiple R 0,6852512
R Square 0,4695692
Adjusted R Square 0,4626805
Standard Error 0,4682186
Observations 79
ANOVA
df SS MS F Significance F
Regression 1 14,94372475 14,944 68,16501418 3,26313E-12
Residual 77 16,88060686 0,2192
Total 78 31,82433161
VZORCE
- lineárna závislosť
Y f ( X 1 , X 2 ,..., X k , 0 , 1 , 2 ,..., k )
ktorú odhadneme rovnicou:
e j y j y ´j
RIEŠENÝ PRÍKLAD
Úloha:
Zistite, či v analyzovaných podnikoch existuje závislosť medzi tržbami z predaja vlastných
výrobkov a služieb, výrobou a štátnymi dotáciami.
Zadanie:
Analyzujte vhodnou štatistickou metódou, či existuje závislosť medzi tržbami z predaja
vlastných výrobkov a služieb, výrobou a štátnymi dotáciami vo vybraných
poľnohospodárskych subjektoch ( = 0,05). Časť databázy je v tabuľke.
Riešenie:
Z pôvodnej databázy podnikov boli vybrané podniky, v ktorých sa nachádzajú údaje pre
štatistické znaky výroba, tržby z predaja výrobkov a služieb a dotácie. Všetky štatistické
znaky sú kvantitatívne. Podniky, v ktorých sa údaje o všetkých štatistických znakoch
nenachádzali, boli z riešenia vylúčené. Analyzovaných bolo 79 podnikov. Závisle premenná
sú tržby (Y), tieto môžu byť závislé od množstva vyrobených výrobkov a poskytnutých
služieb (X1) a tiež od výšky štátnych dotácií (X2), - nezávisle premenné.
Regression Statistics
Multiple R 0,786006418
R Square 0,617806089
Adjusted R Square 0,607748355
Standard Error 29183,9027
Observations 79
ANOVA
df SS MS F Significance F
Regression 2 1,04633E+11 5,2317E+10 61,42596924 1,33901E-16
Residual 76 64729213424 851700177
Total 78 1,69362E+11
CVIČENIA
Príklad 8.1
Boli sledované príjmy a výdavky štátneho rozpočtu v roku 2006 v mil. Sk. Zistite, či existuje
závislosť medzi príjmami a výdavkami, aká je veľkosť tejto závislosti, intenzita závislosti,
popíšte významnosť regresných koeficientov a napíšte rovnicu modelu ( = 0,05).
Príklad 8.2
Zistite, aká je závislosť medzi vývozom a dovozom v Slovenskej republike v roku 2006
(hladina významnosti je 0,05).
Tabuľka 8.2 Vývoz a dovoz (v mil. Sk)
Príklad 8.3
Rektorát VŠP chce zistiť, či existuje rozdiel v priemerných mesačných platoch absolventov
troch fakúlt VŠP. Náhodne boli vybraní 4 absolventi každej z fakúlt a ich mesačné platy v
tisícoch Sk boli zaznamenané v nasledujúcej tabuľke. Je možné na základe týchto údajov
tvrdiť, že existuje rozdiel v priemerných platoch absolventov jednotlivých fakúlt VŠP ( =
0,05) ?
Príklad 8.4
Zistite, vzťah medzi príjmami vo vybraných domácnostiach (v tis. Sk za rok) a výdavkami na
jedlo ( = 0,05).
príjem 718,36 543,9 1587,35 4957,81 969,68 420,3 562,4 689,6 1398,52 820,82
výdavky na jedlo 436,81 374,8 726,39 1827,2 523,49 335,2 473,2 581,2 929,75 591,2
Príklad 8.5
Tukeyho testom zistite, ktoré z nasledujúcich priemerov sú rôzne:
a) x1 = 28 x2 = 25 x3 = 36
n1 = n2 = n3 = 11 MSE = 63 a = 0.05
Výška (cm) 189 191 186 185 182 180 189 191 186 177 187 188
Hmotnosť (kg) 85 79 76 69 63 81 71 76 76 68 77 78
Príklad 8.7
Skompletizujte nasledujúcu tabuľku analýzy rozptylu. Formulujte nulovú hypotézu a otestujte ju
na 5% hladine významnosti.
Tabuľka 8.7
medzi 5
blokmi
reziduálna 28
celková 1510 29
Príklad 8.8
Manažment súkromného nitrianskeho rádia zamýšľa uviesť nové pravidelné celodenné
vysielanie pre vysokoškolákov. Zaujíma sa preto, ktorý deň v týždni vysokoškoláci najčastejšie
počúvajú rádio. Počas jedného týždňa sledovali náhodnú vzorku deviatich vysokoškolákov a
zaznamenali ich čas strávený počúvaním rádia. Sú signifikantné rozdiely medzi jednotlivými
dňami ?
vysokoškoláci
Deň A B C D E F G H I
Pondelok 0 75 60 30 25 50 20 10 15
Utorok 30 100 85 45 65 60 50 20 25
Streda 50 105 100 60 75 85 60 30 45
Štvrtok 45 130 90 30 80 65 85 25 40
Piatok 35 120 105 65 100 100 75 40 60
Sobota 120 140 120 80 120 110 100 60 75
Nedeľa 130 125 130 75 115 95 110 35 60
Príklad 8.9
Rozhodnite, ktorá premenná je závislá a ktorá nezávislá, resp. ktorá je vysvetľovaná a ktorá
vysvetľujúca. Zostrojte niekoľko modelov závislosti a rozhodnite, ktorý je najvhodnejší. Na
základe čoho usudzujete o najvhodnejšom modeli ( = 0,05). Určite, akú hrúbku slaniny
môžeme očakávať, ak dĺžka trupu ošípanej bude 98 cm.
hrúbka slaniny (cm) 3,8 3,7 3,8 3,6 3,8 3,7 3,7 3,7 3,6 3,7 3,6 3,7
Príklad 8.10
K dispozícii sú údaje o produktivite práce (ks.hod-1) v pekárňach pri výrobe pečiva, údaje
o stupni automatizácie linky (%) a priemernom veku pracovníkov (roky). Zistite, či existuje
závislosť medzi sledovanými znakmi a aká je veľkosť tejto závislosti ( = 0,05).
Produktivita práce 78 85 92 81 68 84 90 85 81 94
Stupeň mechanizácie 87 91 93 76 70 80 85 86 78 90
Priemerný vek 45 39 44 50 47 38 35 40 42 44