You are on page 1of 20

8 REGRESNÁ A KORELAČNÁ ANALÝZA

V tejto kapitole bude venovaná pozornosť problémom týkajúcim sa skúmania a hodnotenia


závislostí medzi dvoma a viac kvantitatívnymi štatistickými znakmi. Podstatou tohto
skúmania je hlbšie vniknúť do problémov sledovaných javov a procesov v určitej oblasti. O
príčinnú (kauzálnu) závislosť ide v prípade, keď nastúpenie určitého javu vyvolá existenciu
iného javu. V ekonomickej praxi ide o problémy omnoho komplikovanejšie, keď výskyt
nejakého javu súvisí s výskytom iného, resp. existencia skupiny javov má za následok
nastúpenie iného javu a pod.

Rozlišujeme dva typy závislostí, tzv. pevnú a voľnú závislosť. Ak výskytu jedného javu je
jednoznačne priradený výskyt iného javu, hovoríme o pevnej, resp. funkčnej závislosti.
Z pravdepodobnostného hľadiska ide o vzťah, ktorý nastane s určitosťou, teda
s pravdepodobnosťou 1. Inak povedané každej hodnote jednej premennej je priradená jedna
hodnota inej premennej. V reálnom živote sa viac stretávame s druhým typom závislosti, tzv.
voľnou závislosťou. Ak sa táto závislosť týka kvantitatívnych štatistických znakov,
označujeme ju tiež štatistická závislosť. Jedná sa o prípady, keď jednotková zmena jednej
premennej vyvolá zmenu druhej premennej. K poznaniu a matematickému popisu štatistickej
závislosti medzi kvantitatívnymi štatistickými znakmi slúži metóda regresnej a korelačnej
analýzy, alebo korelačný počet.

8.1 Jednoduchá (párová) závislosť


8.1.1 Lineárna závislosť

POJMY

 Regresná úloha  Regresný koeficient


 Korelačná úloha  Lokujúca konštanta
 Regresný model  Reziduálna odchýlka
 Regresná priamka  Jednoduchá (párová) závislosť
 Závisle premenná (vysvetľovaná)  Koeficient (index) korelácie
 Nezávisle premenná(vysvetľujúca)  Koeficient (index) determinácie
VZORCE
lineárna regresná priamka

Y ´  0  1 X kde: b0 – lokujúca konštanta


b1 – regresný koeficient
jej bodovým odhadom je funkcia
yj´ – teoretické hodnoty závisle premennej
y j ´ b0  b1 x j xj – hodnoty nezávisle premennej

Lokujúca konštanta
n n n n

 xi2  yi   xi  xi yi
i 1 i 1 i 1 i 1
b0 2
n
  n
n xi2    xi 
i 1  i 1 
Ak poznáme regresný koeficient, tak
n n

y i  b1  xi
b0  i 1 i 1
 y  b1 x
n
Regresný koeficient
n n n
n xi y i   xi  y i
b1  i 1 i 1 i 1
2
 n 
n
n x    xi  2
i
i 1  i 1 
Index korelácie

 y 
n
´
i y
i yx  i 1
n

(y
i 1
i  y)

Index determinácie

 y 
n
2
i  y i´
i2  1 i 1
n

 y
i 1
i  y
2

FUNKCIE V EXCELI
Výpočet korelačného koeficienta
= CORREL (oblasť buniek jednej premennej, oblasť buniek druhej premennej)

Výpočet kovariancie

= COVAR (oblasť buniek jednej premennej, oblasť buniek druhej premennej).

Výpočet lokujúcej konštanty regresnej priamky

= INTERCEPT (oblasť závisle premennej, oblasť nezávisle premennej).

Výpočet Pearsonovho korelačného koeficientu r, ktorého hodnoty sa pohybujú


v intervale od -1 po 1 v prípade lineárnej závislosti

= PEARSON (oblasť nezávisle premennej, oblasť závisle premennej).

Výpočet koeficientu determinácie, pričom pri výpočte sa vychádza z Pearsonovho


koeficientu korelácie (funkcia PEARSON)

= RSQ (oblasť závisle premennej, oblasť nezávisle premennej).

Výpočet regresného koeficientu regresnej priamy

= SLOPE (oblasť závisle premennej, oblasť nezávisle premennej).

RIEŠENÝ PRÍKLAD

Úloha:
Zistiť, či v analyzovaných podnikoch existuje závislosť medzi tržbami z predaja vlastných
výrobkov a služieb a výrobou.
Zadanie:
Analyzujte vhodnou štatistickou metódou, či existuje závislosť medzi tržbami z predaja
vlastných výrobkov a služieb a výrobou vo vybraných poľnohospodárskych subjektoch ( =
0,05). Časť databázy je uvedená v tabuľke.

Riešenie:
Pri riešení vychádzame z pôvodnej databázy podnikov. Boli z nej vybrané podniky, v ktorých
sa nachádzajú párové údaje pre štatistické znaky tržby z predaja vlastných výrobkov a služieb
a výroba. Oba štatistické znaky sú kvantitatívne. Podniky, v ktorých sa párové údaje
nenachádzali, boli z riešenia vylúčené. Bolo analyzovaných 79 podnikov (53 podnikov bolo
vylúčených). Aby sme zistili ako vplýva výroba na tržby z predaja vlastných výrobkov
a služieb, inak povedané, ako sa menia tržby z predaja pri jednotkových zmenách výroby
v tisícoch Sk, použijeme metódu regresnej a korelačnej analýzy.
Tabuľka 8.1 vybraná časť databázy podnikov

Postup riešenia v Exceli:


 Regresná a korelačná analýza sa v Exceli realizuje prostredníctvom voľby
Data Analysis, ktorú nájdeme v ponuke Tools,

 po potvrdení OK, sa dostaneme do ďalšieho okna, v ktorom sa definujú


vstupné údaje:
 do políčka Input Y Range zadávame oblasť závisle premennej (vysvetľovanej
– hodnoty Y), do políčka Input X Range zadávame oblasť nezávisle
premennej (vysvetľujúcej – hodnoty X). Ak údaje zadávame aj s názvami
(popiskami) premenných, označíme Labels (popisky). V tomto okne máme
možnosť meniť koeficient spoľahlivosti , Excel štandardne ponúka 95 %.
Okrem už spomínaného je dôležité označiť Output Range (výstupnú oblasť).
Ak chceme vypočítať hodnoty reziduí a grafy, označíme aj tieto kolonky.
Popisované okno ponúka ešte ďalšiu voľbu, ktorá sa využíva vtedy, ak sme
v predchádzajúcom výpočte zistili, že lokujúca konštanta je štatisticky
nevýznamná. Táto voľba je Constant is Zero. V prípade štatistickej
nevýznamnosti lokujúcej konštanty toto políčko označíme.
 Po zadaní a označení všetkých potrebných políčok potvrdíme spracovanie
tlačítkom OK a dostávame nasledovný výstup.

Poznámka: je dôležité si uvedomiť, že výpočet regresnej a korelačnej analýzy v Exceli vychádza


z použitia metódy najmenších štvorcov (MNŠ), preto musia byť splnené podmienky pre použitie
tejto metódy.
SUMMARY OUTPUT

Regression Statistics
Multiple R 0,7857296
R Square 0,617371
Adjusted R Square 0,6124018
Standard Error 29010,274
Observations 79

ANOVA
df SS MS F Significance F
Regression 1 1,00E+11 1,00E+11 124,239344 9,90E-18
Residual 77 6,50E+10 8,00E+08
Total 78 1,70E+11

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 8097,3985 3948,54 2,051 0,04369542 234,8431657 15959,95
X Variable 1 0,7259353 0,06513 11,15 9,90E-18 0,596248523 0,855622

 Čiastočné spracovanie regresnej a korelačnej analýzy v Exceli je možné


spracovať aj pomocou grafickej analýzy. Najskôr vytvoríme graf závislosti
XY.

 V grafe na ktoromkoľvek bode klikneme myšou pravým tlačítkom. V ponuke


vyberieme Add Trendline (Pridať trendovú čiaru). Z ponúkaných trendových
funkcií vyberieme Linear (lineárnu funkciu),
Výroba a tržby z predaja vlastných výrobkov a služieb

350000

300000

250000
Tržby z predaja

200000

150000

100000

50000

0
0 50000 100000 150000 200000 250000 300000 350000
Výroba

V ponuke Options označíme Display equation on chart (rovnica priamky)


a Display R-squared value on chart (R2 – koeficient determinácie).

Poznámka: tento postup má nevýhodu, pomocou neho nemôžeme otestovať nulové hypotézy
o vhodnosti modelu a o významnosti regresných koeficientov.
Výroba a tržby z predaja vlastných výrobkov a služieb

350000

300000

250000
Tržby z predaja

200000
y = 0,8504x + 6168,6
150000
R2 = 0,6174
100000

50000

0
0 50000 100000 150000 200000 250000 300000 350000
Výroba

Interpretácia výsledkov
Aké informácie môžeme získať z údajov v tabuľke?
Zisťujeme, či existuje závislosť medzi výrobou a tržbami z predaja vlastných výrobkov
a služieb. Závisle premenná Y (vysvetľovaná) sú tržby a nezávisle premenná X
(vysvetľujúca) je výroba. V našom príklade predpokladáme, čím viac výrobkov podniky
vyrobia a poskytnú viac služieb, tým vyššie tržby dosiahnu.
Výstup regresnej a korelačnej analýzy sa skladá z troch častí: prvou časťou je výstup
korelačnej analýzy, druhú časť tvorí výstup ANOVA, kde testujeme vhodnosť použitého
modelu. Tretia časť je výstup regresnej analýzy. Touto časťou výstupu začneme interpretácie
výsledkov.
Regresná funkcia má tvar y = 8 097,399 + 0,726 x. Hodnota Intercept - b0 = 8097,399 hovorí
nasledovné. Keby bola výroba nulová, tržby z predaja vlastných výrobkov a služieb by boli
8097,4 tis Sk. Hodnota X Variable 1, t.j. b1 = 0,726 hovorí, ak sa výroba zvýši o jednu mernú
jednotku (o korunu), tak tržby z predaja vlastných výrobkov a služieb vzrastú o 0,73 Sk.
Nulové hypotézy, ktoré sú v rámci tejto analýzy testované, sa týkajú významnosti lokujúcej
konštanty a regresného koeficienta, pričom nulová hypotéza tvrdí nevýznamnosť príslušného
koeficienta a alternatívna hypotéza jeho významnosť. K vyhodnoteniu týchto tvrdení poslúžia
P-value (P-hodnoty). P-value pre lokujúcu konštantu je 0,044  0,05. To nasvedčuje tomu, že
lokujúca konštanta je štatisticky významná. P-value pre regresný koeficient je 9,9.10-18 0,05,
čo tiež potvrdzuje významnosť tohto koeficienta. Okrem spomínaných informácií táto časť
výstupnej tabuľky ponúka aj 95% - ný interval spoľahlivosti pre b0 a b1. Ak sa výroba zvýši
o korunu, tak s 95 % - nou pravdepodobnosťou sa tržby zvýšia od 0,596 do 0,856 Sk.
Prvá časť výstupu Regresion Statistics sú výsledky týkajúce sa korelačnej analýzy. Hodnota
Multiple R (korelačný koeficient) je rovná 0,786. Táto hodnota čím je bližšie k 1, tým je
závislosť silnejšia. V našom príklade sa jedná o vysoký stupeň tesnosti vzťahu medzi tržbami
z predaja vlastných výrobkov a služieb a výrobou. Hodnota R Square je hodnota koeficientu
determinácie, je to hodnota 0,617. Táto hodnota po prenásobení 100 informuje o tom, že
zvolená regresná priamka vysvetľuje variabilitu tržieb na približne 62 %, ostatná časť
predstavuje nevysvetlenú variabilitu, vplyv náhodných činiteľov a iných nešpecifikovaných
vplyvov. Adjusted R-square (upravený koeficient determinácie) zohľadňuje aj počet
odhadovaných parametrov a počet meraní. Standard Error (chyba strednej hodnoty) by mala
byť čo najmenšia. Analýza závislosti medzi výrobou a tržbami z predaja vlastných výrobkov
a služieb bola realizovaná na 79 podnikoch - Observations (počet meraní).
V časti ANOVA testujeme nulovú hypotézu, ktorá tvrdí, že model, ktorý sme zvolili na
vysvetlenie závislosti (v našom prípade lineárna regresná priamka) nie je vhodný (alternatívna
hypotéza tvrdí opak). Na vyhodnotenie tohto tvrdenia slúži F test. Signifikance F = 9,9.10-18
0,05 ( - hladina významnosti), t.j. H0 zamietame, čo znamená, že model bol zvolený
správne.

8.1.2 Nelineárna závislosť

VZORCE
Niektoré nelineárne funkcie:
- parabola - exponenciálna

y j ´ b0  b1 .x j  b2 .x 2j
x
y j ´ b0 .b1 j
- hyperbola - hyperbola 2. stupňa

b1 b1 b2
y j ´ b0  y j ´ b0  
xj x j x 2j
- logaritmická - mocninová

y ´j  b0  b1 ln x j y j ´ b0 .x bj1
- index determinácie - index korelácie
n

(y ´
j  y) 2
I2 
j 1 I  I2
n

(y
j 1
j  y) 2

RIEŠENÝ PRÍKLAD

Úloha:
Zistite závislosť medzi tržbami z predaja vlastných výrobkov a služieb a výrobou
v poľnohospodárskych podnikoch.
Zadanie:
Analyzujte, či existuje závislosť medzi tržbami z predaja vlastných výrobkov a služieb
a výrobou vo vybraných poľnohospodárskych subjektoch ( = 0,05). Použite nelineárne
funkcie.

Riešenie:
Použijeme metódu regresnej a korelačnej analýzy, pričom postupne spracujeme niekoľko
nelineárnych modelov. Analyzujeme tie isté poľnohospodárske podniky ako v prípade
lineárnej závislosti.

Postup riešenia v Exceli:


Vo vybranej databáze podnikov (79) sú údaje o tržbách (stĺpec Y – závisle premenná) a údaje
o výrobe (stĺpec X – nezávisle premenná). V prvom kroku dopočítame stĺpce X2 (pre výpočet
paraboly), 1/ X (pre výpočet hyperboly), lnX (pre výpočet logaritmickej funkcie), logY (pre
výpočet exponenciálnej funkcie) a logX (pre výpočet mocninovej funkcie). Potom je postup
nasledovný:
 Regresná a korelačná analýza sa v Exceli realizuje prostredníctvom voľby
Data Analysis, ktorú nájdeme v ponuke Tools, postup je zhodný s postupom
pri lineárnej závislosti.
Parabola:

 do vstupnej oblasti Input Y Range zadávame oblasť závisle premennej tržby


z predaja výrobkov a služieb,
 do vstupnej oblasti Input X Range zadávame oblasť stĺpcov X (výroba) aj
dopočítaný stĺpec hodnôt X2
 ďalší postup je analogický ako v prípade lineárnej závislosti.
Interpretácia výsledkov:
Parabola

SUMMARY OUTPUT

Regression Statistics
Multiple R 0,7920363
R Square 0,6273215
Adjusted R Square 0,6175141 Regresní sta
Standard Error 28818,321
Observations 79

ANOVA
df SS MS F Significance F
Regression 2 1,06245E+11 5E+10 63,9645561 5,13696E-17
Residual 76 63117665876 8E+08
Total 78 1,69362E+11

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 11840,558 4721,248831 2,5079 0,014276673 2437,376396 21243,74006
Výroba x 0,5215478 0,157392664 3,3137 0,00141228 0,208073134 0,835022441
x^2 8,789E-07 6,16964E-07 1,4245 0,158396916 -3,49929E-07 2,10765E-06
Interpretácie sú analogické ako v lineárnom modeli. Ak z testovania hypotéz o vhodnosti
modelu a významnosti regresných koeficientov zistíme, že model je vhodný a koeficienty sú
významné, výber najvhodnejšieho modelu potom urobíme tak, že porovnávame hodnoty R
Square (mala by byť čo najvyššia). V prípade paraboly je hodnota R Square síce vyššia ako
v prípade lineárnej regresnej priamky, ale P-value (P hodnota) pre regresný koeficient b2 je
vyššia ako hladina významnosti (0,158  0,05), to znamená, že tento regresný koeficient je
štatisticky nevýznamný a z riešenia ho vylúčime. Týmto krokom sa vlastne vrátime
k lineárnej regresnej priamke.

Hyperbola
SUMMARY OUTPUT

Regression Statistics
Multiple R 0,1489815
R Square 0,0221955
Adjusted R Square 0,0094967
Standard Error 46375,536
Observations 79

ANOVA
df SS MS F Significance F
Regression 1 3759077946 4E+09 1,747847165 0,190061635
Residual 77 1,65603E+11 2E+09
Total 78 1,69362E+11

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 34794,051 5417,670423 6,4223 1,00886E-08 24006,09114 45582,01088
1/x -4733654,2 3580509,23 -1,3221 0,190061635 -11863358,78 2396050,472

Tento model vhodný nie je, pretože Significance F   (0,19  0,05). P-value pri regresnom
koeficiente b1   (0,19  0,05), regresný koeficient je štatisticky nevýznamný. Model je
nevhodný.
Logaritmická funkcia
SUMMARY OUTPUT

Regression Statistics
Multiple R 0,5357709
R Square 0,2870505
Adjusted R Square 0,2777914
Standard Error 39599,738
Observations 79

ANOVA
df SS MS F Significance F
Regression 1 48615510461 5E+10 31,00203703 3,61683E-07
Residual 77 1,20747E+11 2E+09
Total 78 1,69362E+11

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept -121344,06 28052,06641 -4,3257 4,51032E-05 -177202,8601 -65485,2608
lnx 16107,541 2892,904684 5,5679 3,61683E-07 10347,03172 21868,04987

Vyhodnotením nulových hypotéz o vhodnosti modelu a významnosti regresných koeficientov


sme zistli, že model je vhodný a koeficienty sú významné. Hodnota R Square je ale omnoho
nižšia ako v prípade lineárnej regresnej priamky (0,29), preto priamka je vhodnejšia na
vysvetlenie závislosti medzi výrobou a tržbami z predaja výrobkov a služieb.

Exponenciálna funkcia
SUMMARY OUTPUT

Regression Statistics
Multiple R 0,5120623
R Square 0,2622078
Adjusted R Square 0,2526261
Standard Error 0,5522062
Observations 79

ANOVA
df SS MS F Significance F
Regression 1 8,344587826 8,3446 27,36542905 1,40965E-06
Residual 77 23,47974379 0,3049
Total 78 31,82433161

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 3,9507428 0,075159853 52,565 4,36573E-62 3,801080462 4,100405231
Výroba x 6,485E-06 1,2397E-06 5,2312 1,40965E-06 4,01657E-06 8,9537E-06

V prípade exponenciálnej funkcie je vyhodnotenie také isté ako v predchádzajúcej –


logaritmickej funkcie.
Mocninová
SUMMARY OUTPUT

Regression Statistics
Multiple R 0,6852512
R Square 0,4695692
Adjusted R Square 0,4626805
Standard Error 0,4682186
Observations 79

ANOVA
df SS MS F Significance F
Regression 1 14,94372475 14,944 68,16501418 3,26313E-12
Residual 77 16,88060686 0,2192
Total 78 31,82433161

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 1,4683379 0,331681473 4,427 3,1106E-05 0,807875768 2,12880013
logx 0,6502598 0,078760084 8,2562 3,26313E-12 0,493428481 0,807091201

V prípade exponenciálnej funkcie je vyhodnotenie také isté ako v predchádzajúcej –


logaritmickej funkcie.
Porovnaním všetkých vypočítaných modelov (hodnoty R 2, významnosť modelu
a významnosť koeficientov) môžeme skonštatovať, že vhodnejší model je lineárna regresná
priamka.

8.2 Viacnásobná závislosť

VZORCE
- lineárna závislosť

Y   f ( X 1 , X 2 ,..., X k ,  0 , 1 ,  2 ,...,  k )  
ktorú odhadneme rovnicou:

y j ´ f ( x1 j , x2 j ,..., xkj , b0 , b1 , b2 ,..., bk )


- reziduálna odchýlka

e j  y j  y ´j

RIEŠENÝ PRÍKLAD
Úloha:
Zistite, či v analyzovaných podnikoch existuje závislosť medzi tržbami z predaja vlastných
výrobkov a služieb, výrobou a štátnymi dotáciami.

Zadanie:
Analyzujte vhodnou štatistickou metódou, či existuje závislosť medzi tržbami z predaja
vlastných výrobkov a služieb, výrobou a štátnymi dotáciami vo vybraných
poľnohospodárskych subjektoch ( = 0,05). Časť databázy je v tabuľke.

Riešenie:
Z pôvodnej databázy podnikov boli vybrané podniky, v ktorých sa nachádzajú údaje pre
štatistické znaky výroba, tržby z predaja výrobkov a služieb a dotácie. Všetky štatistické
znaky sú kvantitatívne. Podniky, v ktorých sa údaje o všetkých štatistických znakoch
nenachádzali, boli z riešenia vylúčené. Analyzovaných bolo 79 podnikov. Závisle premenná
sú tržby (Y), tieto môžu byť závislé od množstva vyrobených výrobkov a poskytnutých
služieb (X1) a tiež od výšky štátnych dotácií (X2), - nezávisle premenné.

Tabuľka 8.2 vybraná časť databázy podnikov

Postup riešenia v Exceli:


Spracujeme lineárny model popísaný v časti vzorce. Postup riešenia je analogický
predchádzajúcim postupom. Jeden rozdiel je v tom, že v obrazovke, kde zadávame vstupné
údaje, do políčka Input X Range zadávame oblasť oboch nezávisle premenných (tieto stĺpce
musia byť vedľa seba).
Interpretácia výsledkov:
SUMMARY OUTPUT

Regression Statistics
Multiple R 0,786006418
R Square 0,617806089
Adjusted R Square 0,607748355
Standard Error 29183,9027
Observations 79

ANOVA
df SS MS F Significance F
Regression 2 1,04633E+11 5,2317E+10 61,42596924 1,33901E-16
Residual 76 64729213424 851700177
Total 78 1,69362E+11

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 7328,54925 4755,130632 1,54118779 0,127424745 -2142,114038 16799,2125
Výroba 0,72482741 0,065626065 11,0448098 1,82186E-17 0,594121775 0,85553304
dotácie 0,099709657 0,339004641 0,29412475 0,769464386 -0,575476591 0,7748959

Aké informácie môžeme získať z údajov v tabuľke?


Zisťujeme, či existuje závislosť medzi výrobou, dotáciami a tržbami z predaja vlastných
výrobkov a služieb. Závisle premenná Y (vysvetľovaná) sú tržby, nezávisle premenná X1
(vysvetľujúca) je výroba, nezávisle premenná X2 sú štátne dotácie.. V našom príklade
predpokladáme, čím vyššie budú štátne dotácie a čím viac výrobkov podniky vyrobia
a poskytnú viac služieb, tým vyššie tržby dosiahnu.
Výstup regresnej a korelačnej analýzy sa skladá z troch častí: prvou časťou je výstup
korelačnej analýzy, druhú časť tvorí výstup ANOVA, kde testujeme vhodnosť použitého
modelu. Tretia časť je výstup regresnej analýzy. Touto časťou výstupu začneme interpretácie
výsledkov.
Regresná funkcia má tvar y = 7328,55 + 0,73 x1 + 0,0997 x2. Hodnota Intercept - b0 =
7328,55 hovorí nasledovné. Pri nulovej výrobe a nulových dotáciách tržby z predaja
vlastných výrobkov a služieb budú 7328,55 tis Sk. Hodnota X Variable 1, t.j. b1 = 0,73
hovorí, ak sa výroba zvýši o jednu mernú jednotku (o korunu) za predpokladu, že dotácie
budú nezmenené, tak tržby z predaja vlastných výrobkov a služieb vzrastú o 0,73 Sk. Hodnota
X Variable 2, t.j. b2 = 0,0997 hovorí, ak sa dotácie zvýšia o jednu mernú jednotku (o korunu),
tak tržby z predaja vlastných výrobkov a služieb vzrastú o 0,0997 Sk. Nulové hypotézy, ktoré
sú v rámci tejto analýzy testované, sa týkajú významnosti lokujúcej konštanty a regresných
koeficientov, pričom nulová hypotéza tvrdí nevýznamnosť príslušného koeficienta
a alternatívna hypotéza jeho významnosť. K vyhodnoteniu týchto tvrdení poslúžia P-value (P-
hodnoty). P-value pre Intercept (lokujúca konštanta) je 0,127  0,05. To nasvedčuje tomu, že
lokujúca konštanta je štatisticky nevýznamná. P-value pre regresný koeficient b1 je 9,9.10-18
0,05, čo potvrdzuje významnosť tohto koeficienta. P-value pre regresný koeficient b2 je 0,77
0,05, čo potvrdzuje nevýznamnosť tohto koeficienta. Nakoľko lokujúca konštanta aj nezávisle
premenná dotácie sú štatisticky nevýznamné, z ďalšieho riešenia by sme ich mali vylúčiť.
Okrem spomínaných informácií táto časť výstupnej tabuľky ponúka aj 95% - ný interval
spoľahlivosti pre b0, b1, a b2. Ak sa výroba zvýši o korunu, tak s 95 % - nou
pravdepodobnosťou sa tržby zvýšia od 0,59 do 0,86 Sk.
Prvá časť výstupu Regresion Statistics sú výsledky týkajúce sa korelačnej analýzy. Hodnota
Multiple R (korelačný koeficient) je rovná 0,786. Táto hodnota čím je bližšie k 1, tým je
závislosť silnejšia. V našom príklade sa jedná o vysoký stupeň tesnosti vzťahu medzi tržbami
z predaja vlastných výrobkov a služieb a výrobou. Hodnota R Square je hodnota koeficientu
determinácie, je to hodnota 0,618. Táto hodnota po prenásobení 100 informuje o tom, že
zvolená regresná funkcia vysvetľuje variabilitu tržieb na približne 62 %, ostatná časť
predstavuje nevysvetlenú variabilitu, vplyv náhodných činiteľov a iných nešpecifikovaných
vplyvov.
V časti ANOVA testujeme nulovú hypotézu, ktorá tvrdí, že model, ktorý sme zvolili na
vysvetlenie závislosti (v našom prípade lineárny model) nie je vhodný (alternatívna hypotéza
tvrdí opak). Na vyhodnotenie tohto tvrdenia slúži F test. Signifikance F = 1,34.10-16 0,05 ( -
hladina významnosti), t.j. H0 zamietame, čo znamená, že model bol zvolený správne.

CVIČENIA

Príklad 8.1
Boli sledované príjmy a výdavky štátneho rozpočtu v roku 2006 v mil. Sk. Zistite, či existuje
závislosť medzi príjmami a výdavkami, aká je veľkosť tejto závislosti, intenzita závislosti,
popíšte významnosť regresných koeficientov a napíšte rovnicu modelu ( = 0,05).

Tabuľka 8.1 Príjmy a výdavky ŠR (v mil.)


Príjmy (mil. Sk) 24644 39789 65046 90627 105459 126480 154181 170526 188639 214420 233706 258694
Výdavky(mil. Sk) 20334 40897 62247 84239 109317 127629 152259 175591 196746 219535 241259 292580

Príklad 8.2
Zistite, aká je závislosť medzi vývozom a dovozom v Slovenskej republike v roku 2006
(hladina významnosti je 0,05).
Tabuľka 8.2 Vývoz a dovoz (v mil. Sk)

66507 137024 214021 293787 374820 461260


Vývoz (v mil. Sk)
539510 620666 713795 810522 911278 993516
68338 143216 227383 315131 402677 492762
Dovoz (v mil.Sk)
575678 657294 752978 856352 960948 1069517

Príklad 8.3
Rektorát VŠP chce zistiť, či existuje rozdiel v priemerných mesačných platoch absolventov
troch fakúlt VŠP. Náhodne boli vybraní 4 absolventi každej z fakúlt a ich mesačné platy v
tisícoch Sk boli zaznamenané v nasledujúcej tabuľke. Je možné na základe týchto údajov
tvrdiť, že existuje rozdiel v priemerných platoch absolventov jednotlivých fakúlt VŠP ( =
0,05) ?

Tabuľka 8.3 priemerné mesačné mzdy

Fakulta Priemerná mzda


Prevádzkovo-ekonomická 20,4 19,5 23,9 32,4
Biotechnológií a potravinárstva 15,3 17,6 19,2 15,7
Mechanizačná 15,9 17,7 16,5 15,6

Príklad 8.4
Zistite, vzťah medzi príjmami vo vybraných domácnostiach (v tis. Sk za rok) a výdavkami na
jedlo ( = 0,05).

Tabuľka 8.4 príjmy a výdavky v na potraviny

príjem 718,36 543,9 1587,35 4957,81 969,68 420,3 562,4 689,6 1398,52 820,82

výdavky na jedlo 436,81 374,8 726,39 1827,2 523,49 335,2 473,2 581,2 929,75 591,2

Príklad 8.5
Tukeyho testom zistite, ktoré z nasledujúcich priemerov sú rôzne:
a) x1 = 28 x2 = 25 x3 = 36
n1 = n2 = n3 = 11 MSE = 63 a = 0.05

b) x1 = 227 x2 = 205 x3 = 219 x4 = 248


n1 = n2 = n3 = n4 = 5 MSE = 125  = 0.01
Príklad 8.6
Zisťovali sme výšku a hmotnosť náhodne vybraných športovcov. Údaje sú v tabuľke.
Analyzujte závislosť a zistite, ktorý model túto závislosť najlepšie popisuje ( = 0,05).

Tabuľka 8.6 Výška a hmotnosť športovcov

Výška (cm) 189 191 186 185 182 180 189 191 186 177 187 188

Hmotnosť (kg) 85 79 76 69 63 81 71 76 76 68 77 78

Príklad 8.7
Skompletizujte nasledujúcu tabuľku analýzy rozptylu. Formulujte nulovú hypotézu a otestujte ju
na 5% hladine významnosti.

Tabuľka 8.7

Variabilita Súčet štvorcov Stupne voľnosti Rozptyly Testovacia charakteristika


medzi ošetreniami 460

medzi 5
blokmi

reziduálna 28
celková 1510 29

Príklad 8.8
Manažment súkromného nitrianskeho rádia zamýšľa uviesť nové pravidelné celodenné
vysielanie pre vysokoškolákov. Zaujíma sa preto, ktorý deň v týždni vysokoškoláci najčastejšie
počúvajú rádio. Počas jedného týždňa sledovali náhodnú vzorku deviatich vysokoškolákov a
zaznamenali ich čas strávený počúvaním rádia. Sú signifikantné rozdiely medzi jednotlivými
dňami ?

Tabuľka 8.8 Sledovanosť rádia

vysokoškoláci
Deň A B C D E F G H I
Pondelok 0 75 60 30 25 50 20 10 15
Utorok 30 100 85 45 65 60 50 20 25
Streda 50 105 100 60 75 85 60 30 45
Štvrtok 45 130 90 30 80 65 85 25 40
Piatok 35 120 105 65 100 100 75 40 60
Sobota 120 140 120 80 120 110 100 60 75
Nedeľa 130 125 130 75 115 95 110 35 60
Príklad 8.9
Rozhodnite, ktorá premenná je závislá a ktorá nezávislá, resp. ktorá je vysvetľovaná a ktorá
vysvetľujúca. Zostrojte niekoľko modelov závislosti a rozhodnite, ktorý je najvhodnejší. Na
základe čoho usudzujete o najvhodnejšom modeli ( = 0,05). Určite, akú hrúbku slaniny
môžeme očakávať, ak dĺžka trupu ošípanej bude 98 cm.

Tabuľka 8.9 dĺžka trupu a hrúbka slaniny (v cm)

dĺžka trupu ošípanej


(cm) 92,7 93,6 94,1 95,2 93,2 95,6 95,5 92,8 92,3 95,7 95,2 95,3

hrúbka slaniny (cm) 3,8 3,7 3,8 3,6 3,8 3,7 3,7 3,7 3,6 3,7 3,6 3,7

Príklad 8.10
K dispozícii sú údaje o produktivite práce (ks.hod-1) v pekárňach pri výrobe pečiva, údaje
o stupni automatizácie linky (%) a priemernom veku pracovníkov (roky). Zistite, či existuje
závislosť medzi sledovanými znakmi a aká je veľkosť tejto závislosti ( = 0,05).

Tabuľka 8.10 Produktivita práce

Produktivita práce 78 85 92 81 68 84 90 85 81 94
Stupeň mechanizácie 87 91 93 76 70 80 85 86 78 90

Priemerný vek 45 39 44 50 47 38 35 40 42 44

You might also like