You are on page 1of 67

Integrirani preddiplomski i diplomski sveučilišni studij Poslovna ekonomija

POSLOVNA STATISTIKA
BILJEŠKE 6A: Korelacija i jednostavna linearna regresija
prof. dr. sc. Mirjana Čižmešija
Kompetencije i ishodi učenja:
K1. Matematičke, statističke i IT (digitalne) vještine
Ishodi učenja:
IU11. Generirati kvalitetna istraživanja i analize: Pripremiti i integrirati poslovne i ekonomske
podatke. Izabrati odgovarajuće metode grafičke i numeričke statističke analize, koja u
kontinuiranom praćenju procesa dovodi do sintetiziranih rezultata i novih informacija potrebnih za
donošenje poslovnih odluka. Ispravno interpretirati rezultate i usporednom analizom ocijeniti
reprezentativnost pojedinih modela.

K5. Sinteza znanja i savjetodavne vještine i kompetencije


Ishodi učenja:
IU10: Sintetizirati znanja i njihovu multidisciplinarnu primjenu u raznim područjima
Sintetizirati znanja iz statističkih metoda i razumijevanje podataka iz različitih područja poslovne
ekonomije (vezano za proizvodnju, nabavu, prodaju, financije, računovodstvo, za potrebe
marketinga, upravljanja kvalitetom i informatičko-komunikacijskim sustavima, i dr.) u odabiru i
primjeni odgovarajućih metoda koje rezultiraju grafičkim prikazima i statističko-analitičkim
pokazateljima koji su podloga za informacije neophodne u poslovnom odlučivanju i
prognoziranju.
Kompetencije i ishodi učenja:
K3. Temeljna znanja
Ishodi učenja:
IU1 – razviti napredna stručna znanja: Identificirati i kategorizirati područja poslovne ekonomije i
povezati ih s odabranim statističkim metodama analize i modelima prikladnim za odabrano
područje primjene.
IU9: Razviti globalnu poslovnu perspektivu: Kombinirati različite statističke metode i modele u
analizi poslovnih podataka, rezultata i informacija potrebnih u odlučivanju i prognoziranju u
poslovnoj ekonomiji ovisno o situaciji u širem globalnom okruženju.

K4. Teoretski okviri, metode i njihova primjena


Ishodi učenja:
IU3. Primijeniti znanja i metode Kategorizirati podatke iz poslovne ekonomije, izabrati
odgovarajuće statističke metode i modele za njihovu analizu te interpretirati dobivene rezultate
analize.
Kompetencije i ishodi učenja:
K6. Refleksija
Ishodi učenja:
IU8. Demonstrirati kreativno razmišljanje: Izabrati postupke etičkog pristupa u prikupljanju i
statističkoj analizi poslovnih podataka sukladno etičkom kodeksu istraživača glede kvalitete
statističkih podataka u poslovnoj ekonomiji, poštujući zadane kriterije: relevantnosti statističkog
istraživanja, točnosti i pouzdanosti rezultata, dostupnosti i jasnoće, usklađenost te usporedivost
podataka i rezultata statističkih istraživanja (Eurostat, UN Statistical Division).
6. Korelacija i jednostavna linearna
regresija

(Autor: prof. dr. sc. Nataša Kurnoga)

6.1. Korelacijska analiza


6.2. Model jednostavne linearne regresije

5
Korelacijska analiza
• sastoji se u primjeni postupaka utvrđivanja brojčanog
pokazatelja jakosti i smjera povezanosti između pojava
predočenih varijablama x i y
• veza između pojava može biti
• funkcionalna ili deterministička
• statistička ili stohastička

(1) (2)
y y

x x
funkcionalna veza statistička veza

6
Korelacijska analiza
• Funkcionalna povezanost je egzaktna povezanost među
varijablama gdje je vrijednost jedne varijable jednoznačno
određena za danu vrijednost druge varijable.
• Povezanost između pojava u pravilu nije jednoznačno
određena, odnosno nije funkcionalna.
• Odstupanje od funkcionalne povezanosti posljedica je statističke
promjenljivosti.
• Takva su odstupanja u praksi češća te se stoga koncentriramo na
statističku povezanost.

7
Korelacijska analiza

• Kod statističke povezanosti vrijednost jedne varijable nije


jednoznačno određena za danu vrijednost druge varijable.
• Primjerice, zaposlenici jednake stručne spreme imaju različitu
visinu plaće ili kućanstva s jednakom razinom prihoda imaju
različitu razinu potrošnje.

8
Korelacijska analiza
rang varijabli
• Koeficijentom korelacije ranga mjeri se stupanj povezanosti
između pojava izraženih modalitetima redoslijednog obilježja.
• Analiza se svodi na dodjeljivanje rangova gdje se rang 1 dodjeljuje
elementu s najmanjim stupnjem svojstva, rang 2 sljedećem, a
posljednjemu rang N.
• Dvije su vrste koeficijenata korelacije ranga:
• Spearmanov koeficijent korelacije ranga i
• Kendallov koeficijent korelacije ranga.

9
Korelacijska analiza
Dijagram rasipanja
• Dijagram rasipanja je grafički prikaz pomoću kojeg se
uočava priroda odnosa između promatranih pojava.
• Konstruira se u pravokutnom koordinatnom sustavu
s aritmetičkim mjerilima na osima i točkama (xi , y)i
koje su određene parovima vrijednosti dviju
promatranih numeričkih varijabli:

x1 , y1 , x2 , y2 ,..., xi , yi ,..., xn , yn .


10
Korelacijska analiza
Dijagram rasipanja
• Iz rasporeda točaka u dijagramu rasipanja zaključuje se o:

• postojanju, odnosno nepostojanju povezanosti pojave,


• o obliku,
• o smjeru i
• jakosti povezanosti.

11
Korelacijska analiza
Dijagram rasipanja
(1) (2)
y y

x x
funkcionalna pozitivna veza funkcionalna negativna veza

12
Korelacijska analiza
Dijagram rasipanja
(4)
(3)
y y

x x
statistička pozitivna veza statistička negativna veza

13
Korelacijska analiza
Dijagram rasipanja
(5) (6)
y y

x x
krivolinijska veza odsutnost veze

14
Korelacijska analiza
Pearsonov koeficijent korelacije
• Pearsonov koeficijent korelacije ili koeficijent jednostavne
linearne korelacije primjenjuje se u slučaju linearne
povezanosti te u analizi samo dviju pojava predočenih
varijablama x i y
• Polazna veličina mjerenja jakosti i smjera linearne povezanosti
između varijabli x i y je kovarijanca.

 x i  x  yi  y 
Cov( x, y )  i 1

n 1
15
Korelacijska analiza
Pearsonov koeficijent korelacije
• Pearsonov koeficijent korelacije definiran je sljedećim izrazom:

Cov( x, y )
r
 x y
n

x y i i  nx y
r i 1
n n

 xi  nx  i 
2 2 2
2
y ny
i 1 i 1

1  r  1
16
Primjer: plus
Analizira se prosječan broj zaposlenih i ukupan promet u tisućama kuna za 14
prodavaonica trgovačkog lanca Plus 2009. godine.

17
Primjer: plus
Scatter Diagram
335

330
promet u tisućama kuna

325

320

315

310
32 33 34 35 36 37 38 39 40 41 42
broj zaposlenih

18
Primjer: plus

19
Primjer: plus

20
Regresijska analiza
• Regresijska se analiza bavi ispitivanjem ovisnosti jedne zavisne
varijable o jednoj ili više nezavisnih varijabli s ciljem utvrđivanja
analitičkog izraza, odnosno utvrđivanja regresijskog modela koji
služi u analitičke i prognostičke svrhe.

• Model jednostavne linearne regresije


• Model višestruke linearne regresije

21
Regresijska analiza
Dijagram toka regresijske analize

Definiranje problema istraživanja

Specifikacija regresijskog modela

Procjene parametara i drugih


statističko-analitičkih pokazatelja

Regresijska dijagnostika
(provjera statističko-teorijskih pretpostavki
nisu ostvarene primjene modela)
ostvarene

Interpretacija i primjena modela

22
Regresijska analiza
• Regresijski se model analizira polazeći od stvarnih, odnosno
empirijskih vrijednosti pojava predočenih statističkim numeričkim
varijablama x i y:
x : x1 , x2 ,... xi ,... xn
y : y1 , y2 ,... yi ,... yn
• Moguća je i analiza kvalitativnih varijabli – primjenjuje se
regresijski model s binarnim varijablama (engl. binary, dummy
variables) koje poprimaju vrijednosti 0 i 1
• 0 – nepostojanje nekog svojstva
• 1 – njegovo postojanje.

23
Regresijska analiza
• Deterministički model
• egzaktna veza između varijabli gdje je vrijednost zavisne
varijable y jednoznačno određena zadanom vrijednošću
nezavisne varijable x

y  f (x)
• Statistički model
• „slabija“ veza između varijabli gdje vrijednost zavisne
varijable y nije jednoznačno određena zadanom
vrijednošću nezavisne varijable x

y  f x   e

24
Model jednostavne linearne regresije
• Model jednostavne linearne regresije je statistički
model

yi   0  1 x i ei i  1,2, ... n.


ei ~ N 0,  2 , Covei , e j   E ei , e j   0, i  j.

25
Procjena parametara metodom najmanjih kvadrata

• Metoda najmanjih kvadrata sastoji se u određivanju onih procjena


nepoznatih parametara koji minimiziraju zbroj kvadrata odstupanja
stvarnih vrijednosti zavisne varijable od procijenjenih vrijednosti.
• Model uzorka s procijenjenim parametrima je:

yi  ˆ0  ˆ1xi eˆi , i  1,2,..., n

26
Procjena parametara metodom najmanjih kvadrata

yi  yˆ i  eˆi

eˆi  yi  yˆ i 
ili eˆi  yi  ˆ0  ˆ1 xi 

 
n n 2

 i   yi  ˆ0  ˆ1xi
ˆ 2
e
i 1 i 1

27
Procjena parametara metodom najmanjih kvadrata
n n
nˆ0  ˆ1  xi   yi
i 1 i 1
n n n
ˆ0  xi  ˆ1  xi2   xi yi
i 1 i 1 i 1

x y i i  nx y
ˆ1  i 1
n
ˆ0  y  ˆ1 x
 i
x 2

i 1
 n x 2

yˆ  ˆ0  ˆ1x
28
Primjer: plus

29
Primjer: plus

yˆ  230,49  2,49x
30
Regresijska analiza
• regresijske vrijednosti

yˆ i  ˆ0  ˆ1 x i , i  1,2,..., n


• rezidualna odstupanja
eˆi  yi  yˆi , i  1,2,..., n

• relativna rezidualna odstupanja


eˆi
eˆi , rel  100
yi
• standardizirana rezidualna odstupanja
eˆi
eˆi ,sta  .
ˆ

31
Primjer: plus

32
Intervalne procjene parametara
• Ako su ispunjene sve pretpostavke o modelu jednostavne linearne
regresije, sampling distribucija procjenitelja parametra 1 ima
oblik normalne distribucije s očekivanom vrijednosti jednakoj
parametru 1 i standardnom devijacijom jednakoj standardnoj
pogrešci procjene regresijskog koeficijenta  ˆ. Ukoliko nije poznata
standardna devijacija sampling-distribucija procjenitelja 1
1

parametra je oblika t distribucije s n-2 stupnja slobode.

33
Intervalne procjene parametara
• Intervalna procjena parametra 1

P ˆ1  t / 2 ˆ  1  ˆ1  t / 2 ˆ  1   
1 1

ˆ
 ˆ  n
 
1

 i 
2
x x
i 1

• Intervalna procjena parametra  0



P ˆ0  t / 2 ˆ   0  ˆ0  t / 2 ˆ  1   
0 0

n

 i
x 2

 ˆ  ˆ n
i 1

n  xi  x 
0
2

i 1

34
Primjer: plus

35
Analiza varijance u modelu jednostavne
linearne regresije

• polazi od raščlambe zbroja kvadrata odstupanja vrijednosti zavisne


varijable od njezina prosjeka na komponentu protumačenu
modelom i neprotumačenu ili rezidualnu komponentu
• odstupanje stvarne vrijednosti yi od prosjeka y može se raščlaniti
na:
• protumačeno odstupanje – odstupanje odgovarajuće regresijske
vrijednosti od prosjeka
• neprotumačeno ili rezidualno odstupanje - odstupanje stvarne
vrijednosti zavisne varijable od regresijske vrijednosti

 yi  y    yˆi  y    yi  yˆi 
36
Analiza varijance u modelu jednostavne
linearne regresije

37
Analiza varijance u modelu jednostavne
linearne regresije
n

 y  y  0
i 1
i

n n n

 iy  y 2
 
 iˆ
y  y 2
 
 i i .
y  ˆ
y 2

i 1 i 1 i 1

n n
ST    yi  y    yi2  ny 2 ,
2

i 1 i 1

n n n
SP    yˆ i  y   ˆ0  yi  ˆ1  xi yi  ny 2 ,
2

i 1 i 1 i 1

n n n n
SR    yi  yˆ i    y ˆ0  yi  ˆ1  xi yi .
2 2
i
i 1 i 1 i 1 i 1

ST  SP  SR.
38
Primjer: plus

zbroj regresijskih vrijednosti jednak zbroj rezidualnih odstupanja


je zbroju stvarnih vrijednosti jednak je nuli
39
Tablica analize varijance

Stupnjevi Sredina
Izvor varijacije Zbroj kvadrata F-omjer Prob>F
slobode kvadrata
Protumačen modelom
n
SP
1 SP   ( yˆ i  y ) 2 SP
linearne regresije i 1 1 1
Neprotumačen modelom
n SR
SR   ( yi  yˆ i ) 2
SR
n2
linearne regresije i 1 n2 n2
n
Ukupno n 1 ST   ( yi  y ) 2
i 1

40
Primjer: plus

SP

SR
ST
41
Regresijska dijagnostika
• procjena varijance regresije
n

 i i
y  ˆ
y 2

SR
ˆ 
2 i 1

n2 n2

• procjena standardne devijacije regresije


n

 i i
y  ˆ
y 2

SR
ˆ  ˆ 2 i 1

n2 n2
• procjena koeficijenta varijacije regresije
ˆ ˆ
V  100%
y
42
Regresijska dijagnostika
• koeficijent determinacije
N

 iˆ
y  y 2

SP SR 0  R2  1
R 
2 i 1
N
 1 ,
 y  y
2 ST ST
i
i 1

• korigirani koeficijent determinacije

n 1
R  1
2
(1  R ),
2
R 2  R2
n2

43
Koeficijent determinacije i koeficijent
jednostavne linearne korelacije

r   R2

sign (r )  sign ( ˆ1 ).


1  r  1

44
Dijagrami rasipanja i vrijednosti
koeficijenta linearne korelacije
(1) (2)

r 1 r  0,85
y y

(5)
r 0
y

x x
(3) (4)

r  1 r  0,85
y y x

x x
45
Primjer: plus

ˆ 1,822424653
Vˆ  100%  100%  0,5662%
y 322,42857
ˆ  1,822424653
ˆ 2  3,321232

46
Primjer: plus

r   R 2   0,923858  0,961175

Koeficijent linearne korelacije


Koeficijent determinacije
Korigirani koeficijent determinacije

SP 483,573792
R 
2
  0,923858
ST 523,4285714

47
Testovi značajnosti u modelu jednostavne
linearne regresije

• test značajnosti regresorske varijable


• F-test
• t-test

• test značajnosti koeficijenta linearne korelacije

• test značajnosti koeficijenta determinacije

48
F-test
• polazi od elemenata tablice ANOVA
• hipoteze H ... y    e
0 i 0 i

H1... yi   0  1 xi  ei
• test veličina SP
F 1
SR
• odluka n2

F  F ,1, n  2 

• p-vrijednost
p  vrijednost P( F1;n2  F ),
49
F-test

50
Primjer: plus

H 0 ... yi   0  ei
H1... yi   0  1 xi  ei

F-omjer i pripadajuća p-vrijednost;


p-vrijednost <0,05 nulta hipoteza se odbacuje

51
t-test – dvosmjerni
• hipoteze H 0 ...1  0
H1...1  0

• test veličina
ˆ1 ˆ
t ,  ˆ 
 ˆ n
 
1

 i 
2
1
x x
i 1
• odluka
t  t / 2 .

• p-vrijednost
p  vrijednost 2 Ptn2  t 

52
t-test – dvosmjerni

odbacivanje odbacivanje
nulte hipoteze nulte hipoteze

 t / 2 0 t / 2
 /2  /2

53
t-test – jednosmjerni
Jednosmjerni test na gornju granicu Jednosmjerni test na donju granicu

H 0 ...1  0 H 0 ...1  0
H 1...1  0 H1...1  0

ˆ1
• test veličina t
 ˆ
1

• odluka
t  tili
 t  t .

• p-vrijednost
p  vrijednost Ptn2  t 

54
t-test – jednosmjerni

odbacivanje
nulte hipoteze

t
0 

55
Primjer: plus

H 0 ...1  0
H 1...1  0

test veličina i pripadajuća p-vrijednost;


p-vrijednost <0,05, nulta hipoteza se odbacuje

standardna pogreška procjene parametra 1


56
Test hipoteze o pretpostavljenoj vrijednosti
parametra
• hipoteze
Jednosmjerni test na gornju Jednosmjerni test na donju
Dvosmjerni test
granicu granicu

H 0 ...1  1 H 0 ...1  1 H 0 ...1  1


* * *

H1...1  1 H1...1  1 H1...1  1


* * *

• test veličina
ˆ1  1*
t
 ˆ 1

57
Test značajnosti koeficijenta linearne korelacije
• hipoteze H 0 ...  0
H1...  0

r
• test veličina t
1 r 2
n2

58
H 0 ...  0 (ne postoji korelacija)
H1...  0 (postoji korelacija).
r 0,96117544
t   12,06651325,
1 r 2
1  0,961175442

n2 14  2

59
Test značajnosti koeficijenta determinacije
• hipoteze H 0 ... 2  0
H1... 2  0

• test veličina
SP
R 2 n  2
F  1 , tj. F .
SR 1 R 2

n2

60
Primjer: plus
• u modelu jednostavne linearne regresije test
značajnosti koeficijenta determinacije ekvivalentan
je testu značajnosti koeficijenta linearne korelacije
• kvadrirana t vrijednost jednaka je vrijednosti
empirijskog F-omjera:

t 2  12,066513252  145,6007  F  145,6007

61
Regresijska analiza za predviđanje
• procjena očekivane vrijednosti zavisne varijable

yˆ 0  ˆ0  ˆ1 x 0
• intervalna procjena očekivane vrijednosti zavisne
varijable

 
P yˆ0  t / 2 yˆ0  y0  yˆ0  t / 2 yˆ0  1   

 yˆ  ˆ
1

x0  x 2
n
n

 i 
0


2
x x
i 1

62
Regresijska analiza za predviđanje
• prognostička vrijednost zavisne varijable
yˆ f  ˆ0  ˆ1 x f

• intervalna procjena prognostičke vrijednosti zavisne


varijable
 
P yˆ f  t / 2 yˆ f  y f  yˆ f  t / 2 yˆ f  1   

 yˆ
1
 ̂ 1  
x  x 
f
2

 x  x 
f
n 2
i
i 1

63
Primjer: plus

64
Primjer: plus

65
Ponovimo (provjerimo ishode učenja):

1. Navedite nekoliko primjera varijabli koje su međusobno


korelirane.
2. Može li koeficijent determinacije poprimiti negativnu
vrijednost?
3. Navedite mjere reprezentativnosti regresijskog modela.
4. Kada ćete procijenjeni regresijski model koristiti u prognostičke
svrhe?
Domaća zadaća:

1. Na internetskim stranicama Državnog zavoda za statistiku


odaberite dvije varijable od kojih je jedna zavisna, a jedna
nezavisna. Za najmanje 10 parova vrijednosti varijabli
provedite korelacijsku i regresijsku analizu. Protumačite sve
dobivene rezultate analize.
2. Ako je procijenjeni regresijski model reprezentativan,
upotrijebite ga u prognostičke svrhe.

You might also like