8.regresná A Korelačná Analýza

8 REGRESNÁ A KORELAČNÁ ANALÝZA
V tejto kapitole bude venovaná pozornosť problémom týkajúcim sa skúmania a hodnotenia

závislostí medzi dvoma a viac kvantitatívnymi štatistickými znakmi. Podstatou tohto
skúmania je hlbšie vniknúť do problémov sledovaných javov a procesov v určitej oblasti. O
príčinnú (kauzálnu) závislosť ide v prípade, keď nastúpenie určitého javu vyvolá existenciu
iného javu. V ekonomickej praxi ide o problémy omnoho komplikovanejšie, keď výskyt
nejakého javu súvisí s výskytom iného, resp. existencia skupiny javov má za následok
nastúpenie iného javu a pod.
Rozlišujeme dva typy závislostí, tzv. pevnú a voľnú závislosť. Ak výskytu jedného javu je
jednoznačne priradený výskyt iného javu, hovoríme o pevnej, resp. funkčnej závislosti.
Z pravdepodobnostného hľadiska ide o vzťah, ktorý nastane s určitosťou, teda
s pravdepodobnosťou 1. Inak povedané každej hodnote jednej premennej je priradená jedna
hodnota inej premennej. V reálnom živote sa viac stretávame s druhým typom závislosti, tzv.
voľnou závislosťou. Ak sa táto závislosť týka kvantitatívnych štatistických znakov,
označujeme ju tiež štatistická závislosť. Jedná sa o prípady, keď jednotková zmena jednej
premennej vyvolá zmenu druhej premennej. K poznaniu a matematickému popisu štatistickej
závislosti medzi kvantitatívnymi štatistickými znakmi slúži metóda regresnej a korelačnej
analýzy, alebo korelačný počet.
8.1 Jednoduchá (párová) závislosť

8.1.1 Lineárna závislosť
POJMY
 Regresná úloha  Regresný koeficient

 Korelačná úloha  Lokujúca konštanta
 Regresný model  Reziduálna odchýlka
 Regresná priamka  Jednoduchá (párová) závislosť
 Závisle premenná (vysvetľovaná)  Koeficient (index) korelácie
 Nezávisle premenná(vysvetľujúca)  Koeficient (index) determinácie
VZORCE
lineárna regresná priamka
Y ´  0  1 X kde: b0 – lokujúca konštanta

b1 – regresný koeficient
jej bodovým odhadom je funkcia
yj´ – teoretické hodnoty závisle premennej
y j ´ b0  b1 x j xj – hodnoty nezávisle premennej
Lokujúca konštanta
n n n n
 xi2  yi   xi  xi yi
i 1 i 1 i 1 i 1
b0 2
n
  n
n xi2    xi 
i 1  i 1 
Ak poznáme regresný koeficient, tak
n n
y i  b1  xi
b0  i 1 i 1
 y  b1 x
n
Regresný koeficient
n n n
n xi y i   xi  y i
b1  i 1 i 1 i 1
2
 n 
n
n x    xi  2
i
i 1  i 1 
Index korelácie
 y 
n
´
i y
i yx  i 1
n
(y
i 1
i  y)
Index determinácie
 y 
n
2
i  y i´
i2  1 i 1
n
 y
i 1
i  y
2
FUNKCIE V EXCELI
Výpočet korelačného koeficienta
= CORREL (oblasť buniek jednej premennej, oblasť buniek druhej premennej)
Výpočet kovariancie
= COVAR (oblasť buniek jednej premennej, oblasť buniek druhej premennej).
Výpočet lokujúcej konštanty regresnej priamky
= INTERCEPT (oblasť závisle premennej, oblasť nezávisle premennej).
Výpočet Pearsonovho korelačného koeficientu r, ktorého hodnoty sa pohybujú

v intervale od -1 po 1 v prípade lineárnej závislosti
= PEARSON (oblasť nezávisle premennej, oblasť závisle premennej).
Výpočet koeficientu determinácie, pričom pri výpočte sa vychádza z Pearsonovho

koeficientu korelácie (funkcia PEARSON)
= RSQ (oblasť závisle premennej, oblasť nezávisle premennej).
Výpočet regresného koeficientu regresnej priamy
= SLOPE (oblasť závisle premennej, oblasť nezávisle premennej).
RIEŠENÝ PRÍKLAD
Úloha:
Zistiť, či v analyzovaných podnikoch existuje závislosť medzi tržbami z predaja vlastných
výrobkov a služieb a výrobou.
Zadanie:
Analyzujte vhodnou štatistickou metódou, či existuje závislosť medzi tržbami z predaja
vlastných výrobkov a služieb a výrobou vo vybraných poľnohospodárskych subjektoch ( =
0,05). Časť databázy je uvedená v tabuľke.
Riešenie:
Pri riešení vychádzame z pôvodnej databázy podnikov. Boli z nej vybrané podniky, v ktorých
sa nachádzajú párové údaje pre štatistické znaky tržby z predaja vlastných výrobkov a služieb
a výroba. Oba štatistické znaky sú kvantitatívne. Podniky, v ktorých sa párové údaje
nenachádzali, boli z riešenia vylúčené. Bolo analyzovaných 79 podnikov (53 podnikov bolo
vylúčených). Aby sme zistili ako vplýva výroba na tržby z predaja vlastných výrobkov
a služieb, inak povedané, ako sa menia tržby z predaja pri jednotkových zmenách výroby
v tisícoch Sk, použijeme metódu regresnej a korelačnej analýzy.
Tabuľka 8.1 vybraná časť databázy podnikov
Postup riešenia v Exceli:

 Regresná a korelačná analýza sa v Exceli realizuje prostredníctvom voľby
Data Analysis, ktorú nájdeme v ponuke Tools,
 po potvrdení OK, sa dostaneme do ďalšieho okna, v ktorom sa definujú

vstupné údaje:
 do políčka Input Y Range zadávame oblasť závisle premennej (vysvetľovanej
– hodnoty Y), do políčka Input X Range zadávame oblasť nezávisle
premennej (vysvetľujúcej – hodnoty X). Ak údaje zadávame aj s názvami
(popiskami) premenných, označíme Labels (popisky). V tomto okne máme
možnosť meniť koeficient spoľahlivosti , Excel štandardne ponúka 95 %.
Okrem už spomínaného je dôležité označiť Output Range (výstupnú oblasť).
Ak chceme vypočítať hodnoty reziduí a grafy, označíme aj tieto kolonky.
Popisované okno ponúka ešte ďalšiu voľbu, ktorá sa využíva vtedy, ak sme
v predchádzajúcom výpočte zistili, že lokujúca konštanta je štatisticky
nevýznamná. Táto voľba je Constant is Zero. V prípade štatistickej
nevýznamnosti lokujúcej konštanty toto políčko označíme.
 Po zadaní a označení všetkých potrebných políčok potvrdíme spracovanie
tlačítkom OK a dostávame nasledovný výstup.
Poznámka: je dôležité si uvedomiť, že výpočet regresnej a korelačnej analýzy v Exceli vychádza

z použitia metódy najmenších štvorcov (MNŠ), preto musia byť splnené podmienky pre použitie
tejto metódy.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,7857296
R Square 0,617371
Adjusted R Square 0,6124018
Standard Error 29010,274
Observations 79
ANOVA
df SS MS F Significance F
Regression 1 1,00E+11 1,00E+11 124,239344 9,90E-18
Residual 77 6,50E+10 8,00E+08
Total 78 1,70E+11
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 8097,3985 3948,54 2,051 0,04369542 234,8431657 15959,95
X Variable 1 0,7259353 0,06513 11,15 9,90E-18 0,596248523 0,855622
 Čiastočné spracovanie regresnej a korelačnej analýzy v Exceli je možné

spracovať aj pomocou grafickej analýzy. Najskôr vytvoríme graf závislosti
XY.
 V grafe na ktoromkoľvek bode klikneme myšou pravým tlačítkom. V ponuke

vyberieme Add Trendline (Pridať trendovú čiaru). Z ponúkaných trendových
funkcií vyberieme Linear (lineárnu funkciu),
Výroba a tržby z predaja vlastných výrobkov a služieb
350000
300000
250000
Tržby z predaja
200000
150000
100000
50000
0
0 50000 100000 150000 200000 250000 300000 350000
Výroba
V ponuke Options označíme Display equation on chart (rovnica priamky)

a Display R-squared value on chart (R2 – koeficient determinácie).
Poznámka: tento postup má nevýhodu, pomocou neho nemôžeme otestovať nulové hypotézy
o vhodnosti modelu a o významnosti regresných koeficientov.
Výroba a tržby z predaja vlastných výrobkov a služieb
350000
300000
250000
Tržby z predaja
200000
y = 0,8504x + 6168,6
150000
R2 = 0,6174
100000
50000
0
0 50000 100000 150000 200000 250000 300000 350000
Výroba
Interpretácia výsledkov
Aké informácie môžeme získať z údajov v tabuľke?
Zisťujeme, či existuje závislosť medzi výrobou a tržbami z predaja vlastných výrobkov
a služieb. Závisle premenná Y (vysvetľovaná) sú tržby a nezávisle premenná X
(vysvetľujúca) je výroba. V našom príklade predpokladáme, čím viac výrobkov podniky
vyrobia a poskytnú viac služieb, tým vyššie tržby dosiahnu.
Výstup regresnej a korelačnej analýzy sa skladá z troch častí: prvou časťou je výstup
korelačnej analýzy, druhú časť tvorí výstup ANOVA, kde testujeme vhodnosť použitého
modelu. Tretia časť je výstup regresnej analýzy. Touto časťou výstupu začneme interpretácie
výsledkov.
Regresná funkcia má tvar y = 8 097,399 + 0,726 x. Hodnota Intercept - b0 = 8097,399 hovorí
nasledovné. Keby bola výroba nulová, tržby z predaja vlastných výrobkov a služieb by boli
8097,4 tis Sk. Hodnota X Variable 1, t.j. b1 = 0,726 hovorí, ak sa výroba zvýši o jednu mernú
jednotku (o korunu), tak tržby z predaja vlastných výrobkov a služieb vzrastú o 0,73 Sk.
Nulové hypotézy, ktoré sú v rámci tejto analýzy testované, sa týkajú významnosti lokujúcej
konštanty a regresného koeficienta, pričom nulová hypotéza tvrdí nevýznamnosť príslušného
koeficienta a alternatívna hypotéza jeho významnosť. K vyhodnoteniu týchto tvrdení poslúžia
P-value (P-hodnoty). P-value pre lokujúcu konštantu je 0,044  0,05. To nasvedčuje tomu, že
lokujúca konštanta je štatisticky významná. P-value pre regresný koeficient je 9,9.10-18 0,05,
čo tiež potvrdzuje významnosť tohto koeficienta. Okrem spomínaných informácií táto časť
výstupnej tabuľky ponúka aj 95% - ný interval spoľahlivosti pre b0 a b1. Ak sa výroba zvýši
o korunu, tak s 95 % - nou pravdepodobnosťou sa tržby zvýšia od 0,596 do 0,856 Sk.
Prvá časť výstupu Regresion Statistics sú výsledky týkajúce sa korelačnej analýzy. Hodnota
Multiple R (korelačný koeficient) je rovná 0,786. Táto hodnota čím je bližšie k 1, tým je
závislosť silnejšia. V našom príklade sa jedná o vysoký stupeň tesnosti vzťahu medzi tržbami
z predaja vlastných výrobkov a služieb a výrobou. Hodnota R Square je hodnota koeficientu
determinácie, je to hodnota 0,617. Táto hodnota po prenásobení 100 informuje o tom, že
zvolená regresná priamka vysvetľuje variabilitu tržieb na približne 62 %, ostatná časť
predstavuje nevysvetlenú variabilitu, vplyv náhodných činiteľov a iných nešpecifikovaných
vplyvov. Adjusted R-square (upravený koeficient determinácie) zohľadňuje aj počet
odhadovaných parametrov a počet meraní. Standard Error (chyba strednej hodnoty) by mala
byť čo najmenšia. Analýza závislosti medzi výrobou a tržbami z predaja vlastných výrobkov
a služieb bola realizovaná na 79 podnikoch - Observations (počet meraní).
V časti ANOVA testujeme nulovú hypotézu, ktorá tvrdí, že model, ktorý sme zvolili na
vysvetlenie závislosti (v našom prípade lineárna regresná priamka) nie je vhodný (alternatívna
hypotéza tvrdí opak). Na vyhodnotenie tohto tvrdenia slúži F test. Signifikance F = 9,9.10-18
0,05 ( - hladina významnosti), t.j. H0 zamietame, čo znamená, že model bol zvolený
správne.
8.1.2 Nelineárna závislosť
VZORCE
Niektoré nelineárne funkcie:
- parabola - exponenciálna
y j ´ b0  b1 .x j  b2 .x 2j
x
y j ´ b0 .b1 j
- hyperbola - hyperbola 2. stupňa
b1 b1 b2
y j ´ b0  y j ´ b0  
xj x j x 2j
- logaritmická - mocninová
y ´j  b0  b1 ln x j y j ´ b0 .x bj1
- index determinácie - index korelácie
n
(y ´
j  y) 2
I2 
j 1 I  I2
n
(y
j 1
j  y) 2
RIEŠENÝ PRÍKLAD
Úloha:
Zistite závislosť medzi tržbami z predaja vlastných výrobkov a služieb a výrobou
v poľnohospodárskych podnikoch.
Zadanie:
Analyzujte, či existuje závislosť medzi tržbami z predaja vlastných výrobkov a služieb
a výrobou vo vybraných poľnohospodárskych subjektoch ( = 0,05). Použite nelineárne
funkcie.
Riešenie:
Použijeme metódu regresnej a korelačnej analýzy, pričom postupne spracujeme niekoľko
nelineárnych modelov. Analyzujeme tie isté poľnohospodárske podniky ako v prípade
lineárnej závislosti.

Vo vybranej databáze podnikov (79) sú údaje o tržbách (stĺpec Y – závisle premenná) a údaje
o výrobe (stĺpec X – nezávisle premenná). V prvom kroku dopočítame stĺpce X2 (pre výpočet
paraboly), 1/ X (pre výpočet hyperboly), lnX (pre výpočet logaritmickej funkcie), logY (pre
výpočet exponenciálnej funkcie) a logX (pre výpočet mocninovej funkcie). Potom je postup
nasledovný:
 Regresná a korelačná analýza sa v Exceli realizuje prostredníctvom voľby
Data Analysis, ktorú nájdeme v ponuke Tools, postup je zhodný s postupom
pri lineárnej závislosti.
Parabola:
 do vstupnej oblasti Input Y Range zadávame oblasť závisle premennej tržby

z predaja výrobkov a služieb,
 do vstupnej oblasti Input X Range zadávame oblasť stĺpcov X (výroba) aj
dopočítaný stĺpec hodnôt X2
 ďalší postup je analogický ako v prípade lineárnej závislosti.
Interpretácia výsledkov:
Parabola
SUMMARY OUTPUT
R Square 0,6273215
Adjusted R Square 0,6175141 Regresní sta
Observations 79
ANOVA
Regression 2 1,06245E+11 5E+10 63,9645561 5,13696E-17
Residual 76 63117665876 8E+08
Total 78 1,69362E+11

Intercept 11840,558 4721,248831 2,5079 0,014276673 2437,376396 21243,74006
Výroba x 0,5215478 0,157392664 3,3137 0,00141228 0,208073134 0,835022441
x^2 8,789E-07 6,16964E-07 1,4245 0,158396916 -3,49929E-07 2,10765E-06
Interpretácie sú analogické ako v lineárnom modeli. Ak z testovania hypotéz o vhodnosti
modelu a významnosti regresných koeficientov zistíme, že model je vhodný a koeficienty sú
významné, výber najvhodnejšieho modelu potom urobíme tak, že porovnávame hodnoty R
Square (mala by byť čo najvyššia). V prípade paraboly je hodnota R Square síce vyššia ako
v prípade lineárnej regresnej priamky, ale P-value (P hodnota) pre regresný koeficient b2 je
vyššia ako hladina významnosti (0,158  0,05), to znamená, že tento regresný koeficient je
štatisticky nevýznamný a z riešenia ho vylúčime. Týmto krokom sa vlastne vrátime
k lineárnej regresnej priamke.
Hyperbola
SUMMARY OUTPUT
R Square 0,0221955
Observations 79
ANOVA
Regression 1 3759077946 4E+09 1,747847165 0,190061635
Residual 77 1,65603E+11 2E+09
Total 78 1,69362E+11

Intercept 34794,051 5417,670423 6,4223 1,00886E-08 24006,09114 45582,01088
1/x -4733654,2 3580509,23 -1,3221 0,190061635 -11863358,78 2396050,472
Tento model vhodný nie je, pretože Significance F   (0,19  0,05). P-value pri regresnom
koeficiente b1   (0,19  0,05), regresný koeficient je štatisticky nevýznamný. Model je
nevhodný.
Logaritmická funkcia
SUMMARY OUTPUT
R Square 0,2870505
Observations 79
ANOVA
Regression 1 48615510461 5E+10 31,00203703 3,61683E-07
Residual 77 1,20747E+11 2E+09
Total 78 1,69362E+11

Intercept -121344,06 28052,06641 -4,3257 4,51032E-05 -177202,8601 -65485,2608
lnx 16107,541 2892,904684 5,5679 3,61683E-07 10347,03172 21868,04987
Vyhodnotením nulových hypotéz o vhodnosti modelu a významnosti regresných koeficientov

sme zistli, že model je vhodný a koeficienty sú významné. Hodnota R Square je ale omnoho
nižšia ako v prípade lineárnej regresnej priamky (0,29), preto priamka je vhodnejšia na
vysvetlenie závislosti medzi výrobou a tržbami z predaja výrobkov a služieb.
Exponenciálna funkcia
SUMMARY OUTPUT
R Square 0,2622078
Observations 79
ANOVA
Regression 1 8,344587826 8,3446 27,36542905 1,40965E-06
Residual 77 23,47974379 0,3049
Total 78 31,82433161

Intercept 3,9507428 0,075159853 52,565 4,36573E-62 3,801080462 4,100405231
Výroba x 6,485E-06 1,2397E-06 5,2312 1,40965E-06 4,01657E-06 8,9537E-06
V prípade exponenciálnej funkcie je vyhodnotenie také isté ako v predchádzajúcej –

logaritmickej funkcie.
Mocninová
SUMMARY OUTPUT
R Square 0,4695692
Observations 79
ANOVA
Regression 1 14,94372475 14,944 68,16501418 3,26313E-12
Residual 77 16,88060686 0,2192
Total 78 31,82433161

Intercept 1,4683379 0,331681473 4,427 3,1106E-05 0,807875768 2,12880013
logx 0,6502598 0,078760084 8,2562 3,26313E-12 0,493428481 0,807091201
V prípade exponenciálnej funkcie je vyhodnotenie také isté ako v predchádzajúcej –

logaritmickej funkcie.
Porovnaním všetkých vypočítaných modelov (hodnoty R 2, významnosť modelu
a významnosť koeficientov) môžeme skonštatovať, že vhodnejší model je lineárna regresná
priamka.
8.2 Viacnásobná závislosť
VZORCE
- lineárna závislosť
Y   f ( X 1 , X 2 ,..., X k ,  0 , 1 ,  2 ,...,  k )  
ktorú odhadneme rovnicou:
y j ´ f ( x1 j , x2 j ,..., xkj , b0 , b1 , b2 ,..., bk )

- reziduálna odchýlka
e j  y j  y ´j
RIEŠENÝ PRÍKLAD
Úloha:
Zistite, či v analyzovaných podnikoch existuje závislosť medzi tržbami z predaja vlastných
výrobkov a služieb, výrobou a štátnymi dotáciami.
Zadanie:
Analyzujte vhodnou štatistickou metódou, či existuje závislosť medzi tržbami z predaja
vlastných výrobkov a služieb, výrobou a štátnymi dotáciami vo vybraných
poľnohospodárskych subjektoch ( = 0,05). Časť databázy je v tabuľke.
Riešenie:
Z pôvodnej databázy podnikov boli vybrané podniky, v ktorých sa nachádzajú údaje pre
štatistické znaky výroba, tržby z predaja výrobkov a služieb a dotácie. Všetky štatistické
znaky sú kvantitatívne. Podniky, v ktorých sa údaje o všetkých štatistických znakoch
nenachádzali, boli z riešenia vylúčené. Analyzovaných bolo 79 podnikov. Závisle premenná
sú tržby (Y), tieto môžu byť závislé od množstva vyrobených výrobkov a poskytnutých
služieb (X1) a tiež od výšky štátnych dotácií (X2), - nezávisle premenné.
Tabuľka 8.2 vybraná časť databázy podnikov

Spracujeme lineárny model popísaný v časti vzorce. Postup riešenia je analogický
predchádzajúcim postupom. Jeden rozdiel je v tom, že v obrazovke, kde zadávame vstupné
údaje, do políčka Input X Range zadávame oblasť oboch nezávisle premenných (tieto stĺpce
musia byť vedľa seba).
Interpretácia výsledkov:
SUMMARY OUTPUT
R Square 0,617806089
Observations 79
ANOVA
Regression 2 1,04633E+11 5,2317E+10 61,42596924 1,33901E-16
Residual 76 64729213424 851700177
Total 78 1,69362E+11

Intercept 7328,54925 4755,130632 1,54118779 0,127424745 -2142,114038 16799,2125
Výroba 0,72482741 0,065626065 11,0448098 1,82186E-17 0,594121775 0,85553304
dotácie 0,099709657 0,339004641 0,29412475 0,769464386 -0,575476591 0,7748959
Aké informácie môžeme získať z údajov v tabuľke?

Zisťujeme, či existuje závislosť medzi výrobou, dotáciami a tržbami z predaja vlastných
výrobkov a služieb. Závisle premenná Y (vysvetľovaná) sú tržby, nezávisle premenná X1
(vysvetľujúca) je výroba, nezávisle premenná X2 sú štátne dotácie.. V našom príklade
predpokladáme, čím vyššie budú štátne dotácie a čím viac výrobkov podniky vyrobia
a poskytnú viac služieb, tým vyššie tržby dosiahnu.
Výstup regresnej a korelačnej analýzy sa skladá z troch častí: prvou časťou je výstup
korelačnej analýzy, druhú časť tvorí výstup ANOVA, kde testujeme vhodnosť použitého
modelu. Tretia časť je výstup regresnej analýzy. Touto časťou výstupu začneme interpretácie
výsledkov.
Regresná funkcia má tvar y = 7328,55 + 0,73 x1 + 0,0997 x2. Hodnota Intercept - b0 =
7328,55 hovorí nasledovné. Pri nulovej výrobe a nulových dotáciách tržby z predaja
vlastných výrobkov a služieb budú 7328,55 tis Sk. Hodnota X Variable 1, t.j. b1 = 0,73
hovorí, ak sa výroba zvýši o jednu mernú jednotku (o korunu) za predpokladu, že dotácie
budú nezmenené, tak tržby z predaja vlastných výrobkov a služieb vzrastú o 0,73 Sk. Hodnota
X Variable 2, t.j. b2 = 0,0997 hovorí, ak sa dotácie zvýšia o jednu mernú jednotku (o korunu),
tak tržby z predaja vlastných výrobkov a služieb vzrastú o 0,0997 Sk. Nulové hypotézy, ktoré
sú v rámci tejto analýzy testované, sa týkajú významnosti lokujúcej konštanty a regresných
koeficientov, pričom nulová hypotéza tvrdí nevýznamnosť príslušného koeficienta
a alternatívna hypotéza jeho významnosť. K vyhodnoteniu týchto tvrdení poslúžia P-value (P-
hodnoty). P-value pre Intercept (lokujúca konštanta) je 0,127  0,05. To nasvedčuje tomu, že
lokujúca konštanta je štatisticky nevýznamná. P-value pre regresný koeficient b1 je 9,9.10-18
0,05, čo potvrdzuje významnosť tohto koeficienta. P-value pre regresný koeficient b2 je 0,77
0,05, čo potvrdzuje nevýznamnosť tohto koeficienta. Nakoľko lokujúca konštanta aj nezávisle
premenná dotácie sú štatisticky nevýznamné, z ďalšieho riešenia by sme ich mali vylúčiť.
Okrem spomínaných informácií táto časť výstupnej tabuľky ponúka aj 95% - ný interval
spoľahlivosti pre b0, b1, a b2. Ak sa výroba zvýši o korunu, tak s 95 % - nou
pravdepodobnosťou sa tržby zvýšia od 0,59 do 0,86 Sk.
Prvá časť výstupu Regresion Statistics sú výsledky týkajúce sa korelačnej analýzy. Hodnota
Multiple R (korelačný koeficient) je rovná 0,786. Táto hodnota čím je bližšie k 1, tým je
závislosť silnejšia. V našom príklade sa jedná o vysoký stupeň tesnosti vzťahu medzi tržbami
z predaja vlastných výrobkov a služieb a výrobou. Hodnota R Square je hodnota koeficientu
determinácie, je to hodnota 0,618. Táto hodnota po prenásobení 100 informuje o tom, že
zvolená regresná funkcia vysvetľuje variabilitu tržieb na približne 62 %, ostatná časť
predstavuje nevysvetlenú variabilitu, vplyv náhodných činiteľov a iných nešpecifikovaných
vplyvov.
V časti ANOVA testujeme nulovú hypotézu, ktorá tvrdí, že model, ktorý sme zvolili na
vysvetlenie závislosti (v našom prípade lineárny model) nie je vhodný (alternatívna hypotéza
tvrdí opak). Na vyhodnotenie tohto tvrdenia slúži F test. Signifikance F = 1,34.10-16 0,05 ( -
hladina významnosti), t.j. H0 zamietame, čo znamená, že model bol zvolený správne.
CVIČENIA
Príklad 8.1
Boli sledované príjmy a výdavky štátneho rozpočtu v roku 2006 v mil. Sk. Zistite, či existuje
závislosť medzi príjmami a výdavkami, aká je veľkosť tejto závislosti, intenzita závislosti,
popíšte významnosť regresných koeficientov a napíšte rovnicu modelu ( = 0,05).
Tabuľka 8.1 Príjmy a výdavky ŠR (v mil.)

Príjmy (mil. Sk) 24644 39789 65046 90627 105459 126480 154181 170526 188639 214420 233706 258694
Výdavky(mil. Sk) 20334 40897 62247 84239 109317 127629 152259 175591 196746 219535 241259 292580
Príklad 8.2
Zistite, aká je závislosť medzi vývozom a dovozom v Slovenskej republike v roku 2006
(hladina významnosti je 0,05).
Tabuľka 8.2 Vývoz a dovoz (v mil. Sk)
66507 137024 214021 293787 374820 461260

Vývoz (v mil. Sk)
539510 620666 713795 810522 911278 993516
68338 143216 227383 315131 402677 492762
Dovoz (v mil.Sk)
575678 657294 752978 856352 960948 1069517
Príklad 8.3
Rektorát VŠP chce zistiť, či existuje rozdiel v priemerných mesačných platoch absolventov
troch fakúlt VŠP. Náhodne boli vybraní 4 absolventi každej z fakúlt a ich mesačné platy v
tisícoch Sk boli zaznamenané v nasledujúcej tabuľke. Je možné na základe týchto údajov
tvrdiť, že existuje rozdiel v priemerných platoch absolventov jednotlivých fakúlt VŠP ( =
0,05) ?
Tabuľka 8.3 priemerné mesačné mzdy
Fakulta Priemerná mzda

Prevádzkovo-ekonomická 20,4 19,5 23,9 32,4
Biotechnológií a potravinárstva 15,3 17,6 19,2 15,7
Mechanizačná 15,9 17,7 16,5 15,6
Príklad 8.4
Zistite, vzťah medzi príjmami vo vybraných domácnostiach (v tis. Sk za rok) a výdavkami na
jedlo ( = 0,05).
Tabuľka 8.4 príjmy a výdavky v na potraviny
príjem 718,36 543,9 1587,35 4957,81 969,68 420,3 562,4 689,6 1398,52 820,82
výdavky na jedlo 436,81 374,8 726,39 1827,2 523,49 335,2 473,2 581,2 929,75 591,2
Príklad 8.5
Tukeyho testom zistite, ktoré z nasledujúcich priemerov sú rôzne:
a) x1 = 28 x2 = 25 x3 = 36
n1 = n2 = n3 = 11 MSE = 63 a = 0.05
b) x1 = 227 x2 = 205 x3 = 219 x4 = 248

n1 = n2 = n3 = n4 = 5 MSE = 125  = 0.01
Príklad 8.6
Zisťovali sme výšku a hmotnosť náhodne vybraných športovcov. Údaje sú v tabuľke.
Analyzujte závislosť a zistite, ktorý model túto závislosť najlepšie popisuje ( = 0,05).
Tabuľka 8.6 Výška a hmotnosť športovcov
Výška (cm) 189 191 186 185 182 180 189 191 186 177 187 188
Hmotnosť (kg) 85 79 76 69 63 81 71 76 76 68 77 78
Príklad 8.7
Skompletizujte nasledujúcu tabuľku analýzy rozptylu. Formulujte nulovú hypotézu a otestujte ju
na 5% hladine významnosti.
Tabuľka 8.7
Variabilita Súčet štvorcov Stupne voľnosti Rozptyly Testovacia charakteristika

medzi ošetreniami 460
medzi 5
blokmi
reziduálna 28
celková 1510 29
Príklad 8.8
Manažment súkromného nitrianskeho rádia zamýšľa uviesť nové pravidelné celodenné
vysielanie pre vysokoškolákov. Zaujíma sa preto, ktorý deň v týždni vysokoškoláci najčastejšie
počúvajú rádio. Počas jedného týždňa sledovali náhodnú vzorku deviatich vysokoškolákov a
zaznamenali ich čas strávený počúvaním rádia. Sú signifikantné rozdiely medzi jednotlivými
dňami ?
Tabuľka 8.8 Sledovanosť rádia
vysokoškoláci
Deň A B C D E F G H I
Pondelok 0 75 60 30 25 50 20 10 15
Utorok 30 100 85 45 65 60 50 20 25
Streda 50 105 100 60 75 85 60 30 45
Štvrtok 45 130 90 30 80 65 85 25 40
Piatok 35 120 105 65 100 100 75 40 60
Sobota 120 140 120 80 120 110 100 60 75
Nedeľa 130 125 130 75 115 95 110 35 60
Príklad 8.9
Rozhodnite, ktorá premenná je závislá a ktorá nezávislá, resp. ktorá je vysvetľovaná a ktorá
vysvetľujúca. Zostrojte niekoľko modelov závislosti a rozhodnite, ktorý je najvhodnejší. Na
základe čoho usudzujete o najvhodnejšom modeli ( = 0,05). Určite, akú hrúbku slaniny
môžeme očakávať, ak dĺžka trupu ošípanej bude 98 cm.
Tabuľka 8.9 dĺžka trupu a hrúbka slaniny (v cm)
dĺžka trupu ošípanej

(cm) 92,7 93,6 94,1 95,2 93,2 95,6 95,5 92,8 92,3 95,7 95,2 95,3
hrúbka slaniny (cm) 3,8 3,7 3,8 3,6 3,8 3,7 3,7 3,7 3,6 3,7 3,6 3,7
Príklad 8.10
K dispozícii sú údaje o produktivite práce (ks.hod-1) v pekárňach pri výrobe pečiva, údaje
o stupni automatizácie linky (%) a priemernom veku pracovníkov (roky). Zistite, či existuje
závislosť medzi sledovanými znakmi a aká je veľkosť tejto závislosti ( = 0,05).
Tabuľka 8.10 Produktivita práce
Produktivita práce 78 85 92 81 68 84 90 85 81 94
Stupeň mechanizácie 87 91 93 76 70 80 85 86 78 90
Priemerný vek 45 39 44 50 47 38 35 40 42 44

8.regresná A Korelačná Analýza

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

8.regresná A Korelačná Analýza

Uploaded by

Copyright:

Available Formats

8 REGRESNÁ A KORELAČNÁ ANALÝZA

V tejto kapitole bude venovaná pozornosť problémom týkajúcim sa skúmania a hodnotenia

8.1 Jednoduchá (párová) závislosť

 Regresná úloha  Regresný koeficient

Y ´  0  1 X kde: b0 – lokujúca konštanta

= COVAR (oblasť buniek jednej premennej, oblasť buniek druhej premennej).

Výpočet lokujúcej konštanty regresnej priamky

= INTERCEPT (oblasť závisle premennej, oblasť nezávisle premennej).

Výpočet Pearsonovho korelačného koeficientu r, ktorého hodnoty sa pohybujú

= PEARSON (oblasť nezávisle premennej, oblasť závisle premennej).

Výpočet koeficientu determinácie, pričom pri výpočte sa vychádza z Pearsonovho

= RSQ (oblasť závisle premennej, oblasť nezávisle premennej).

Výpočet regresného koeficientu regresnej priamy

= SLOPE (oblasť závisle premennej, oblasť nezávisle premennej).

Postup riešenia v Exceli:

 po potvrdení OK, sa dostaneme do ďalšieho okna, v ktorom sa definujú

Poznámka: je dôležité si uvedomiť, že výpočet regresnej a korelačnej analýzy v Exceli vychádza

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

 Čiastočné spracovanie regresnej a korelačnej analýzy v Exceli je možné

 V grafe na ktoromkoľvek bode klikneme myšou pravým tlačítkom. V ponuke

V ponuke Options označíme Display equation on chart (rovnica priamky)

8.1.2 Nelineárna závislosť

Postup riešenia v Exceli:

 do vstupnej oblasti Input Y Range zadávame oblasť závisle premennej tržby

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Vyhodnotením nulových hypotéz o vhodnosti modelu a významnosti regresných koeficientov

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

V prípade exponenciálnej funkcie je vyhodnotenie také isté ako v predchádzajúcej –

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

V prípade exponenciálnej funkcie je vyhodnotenie také isté ako v predchádzajúcej –

8.2 Viacnásobná závislosť

y j ´ f ( x1 j , x2 j ,..., xkj , b0 , b1 , b2 ,..., bk )

Tabuľka 8.2 vybraná časť databázy podnikov

Postup riešenia v Exceli:

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Aké informácie môžeme získať z údajov v tabuľke?

Tabuľka 8.1 Príjmy a výdavky ŠR (v mil.)

66507 137024 214021 293787 374820 461260

Tabuľka 8.3 priemerné mesačné mzdy

Fakulta Priemerná mzda

Tabuľka 8.4 príjmy a výdavky v na potraviny

b) x1 = 227 x2 = 205 x3 = 219 x4 = 248

Tabuľka 8.6 Výška a hmotnosť športovcov

Variabilita Súčet štvorcov Stupne voľnosti Rozptyly Testovacia charakteristika

Tabuľka 8.8 Sledovanosť rádia

Tabuľka 8.9 dĺžka trupu a hrúbka slaniny (v cm)

dĺžka trupu ošípanej

Tabuľka 8.10 Produktivita práce

You might also like