Professional Documents
Culture Documents
Korelacija
Korelacijska analiza utvr uje i opisuje smjer i
snagu linearne povezanosti dviju varijabla. Koristi se kod donošenja odgovora na pitanja
slična sljedećima: 34
34
Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 472.
34
5.2.2. Dijagram rasipanja
Kako bi se jednostavno vizualno uočile povezanosti dviju varijabli, prethodno spomenutih,
zavisne i nezavisne, koristi se dijagram rasipanja. Poželjno je dijagram konstruirati prije
postupaka koji koriste računske operacije, a kojima se izračunava ista povezanost koja se
prikazuje dijagramom. Kako bi se grafikon kreirao, potrebno je, prije svega, u prvom
kvadrantu koordinatnog sustava definirati dvije varijable, nezavisnu, koja se označava slovom
X te zavisnu, koja se označava slovom Y. Nakon označavanja ordinate s Y i apscise s X,
granične vrijednosti definiraju se prema najvećim i najmanjim vrijednostima varijabla
prikazanim u Tablici 5. Zatim slijedi ucrtavanje vrijednosti varijabla koje čine tzv. oblak
točaka, kako je i prikazano Grafikonom 5.
Tablica 6.: Mjesečni prihodi zaposlenika poduzeća i njihovi mjesečni izdaci za aktivnosti
vezane uz kulturne sadržaje
35
Grafikon 6.: Mjesečni prihodi zaposlenika poduzeća i njihovi mjesečni izdaci za aktivnosti
vezane uz kulturne sadržaje – dijagram rasipanja
36
barem jedne varijable te dovoljno velik uzorak (n≥30).35 Simbol r predstavlja Pearsonov
koeficijent korelacije, izračunava se na temelju podataka iz uzorka, a prikazan je slijedećim
izrazom:
(5.23.)
gdje je:
Ono što treba naglasiti jesu vrijednosti koje koeficijent može poprimiti, a koje se kreću
izme u -1 i 1. Ovisno radi li se o pozitivnom (negativnom) predznaku, predstavlja se smjer
veze izme u dviju promatranih varijabli. S obzirom da predznak govori o smjeru veze,
vrijednosti koeficijenta govore o intenzitetu povezanosti pojava. Slikom 1.36 prikazan je odnos
varijabli izražen prema Pearsonovom koeficijentu korelacije.
-1 0 1
Izvor 13: Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 476.
U slučaju kada je dijagramom rasipanja prikazan niz isključivo pozitivnih korelacija koje se
mogu predstaviti zamišljenom linijom odnosno pravcem, riječ je o strogo funkcionalnoj vezi.
Kako je i vidljivo iz Slike 1. vrijednost koeficijenta koja se kreće izme u 0 i +1 predstavlja
pozitivnu korelaciju varijabla što znači da rast varijable X uzrokuje rast varijable Y odnosno
pad varijable X uzrokuje pad varijable Y. Dijagramom rasipanja, to se prikazuje upravo kao
rastući pravac. Ipak, u praksi često dolazi do odstupanja, kako pozitivnih tako i negativnih, od
zamišljene linije pravca te se takva veza više ne naziva funkcionalna već statistička37. Ipak,
ako je u prosjeku riječ o praćenju porasta jedne varijable porastom druge odnosno pada jedne
35
Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 476.
36
Ibidem, str. 476.
37
U literaturi je moguće pronaći i naziv stohastička ili slučajna veza.
37
varijable padom druge, veza se dalje naziva pozitivnom (Primjer: Grafikon 5.). Moguć je i
obrnuti slučaj kada porast jedne varijable može biti uzrokovan padom druge varijable na što
upućuje kretanje Pearsonovog koeficijenta izme u -1 i 0. Takva se veza na dijagramu
rasipanja prikazuje nizom točaka koje je moguće prikazati kao sastavne dijelove padajućeg
pravca, a koji se, matematički, izražavaju jednadžbom tog pravca. Tako er, i kod negativne
veze razlikuju se negativna funkcionalna i negativna statistička veza koje razlikuju odstupanja
od zamišljenog pravca, ali u prosjeku predstavljaju negativnu vezu. Osim navedenoga, valja
spomenuti kako se veza izme u varijabli ne mora uvijek prikazivati jednadžbom pravca.
Točnije, moguće je vezu izme u varijabla prikazati i eksponencijalnom jednadžbom u čijem
slučaju tako er postoje odstupanja pa je tako moguće razlikovati funkcionalnu i statističku
vezu. 38
Ono što je bitno naglasiti vezano uz Pearsonov koeficijent korelacije jest činjenica da isti
mjeri samo linearnu povezanost dviju varijabla te da smjer povezanosti determinira predznak
koeficijenta.
38
Više o prikazu pozitivne i negativne veze pomoću dijagrama rasipanja te o nemogućnosti definiranja prati li
pad jedne varijable pad ili rast druge u: Biljan-August, M.;Pivac, S.; Štambuk, A.: Uporaba statistike u
ekonomiji, 2. Izdanje, Ekonomski fakultet Sveučilišta u Rijeci, Rijeka, 2009., str. 77. - 80.
38
5.2.4. Spearmanov koeficijent korelacije ranga
(5.24.)
gdje je:
(5.25.)
39
Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 482.
40
Pozitivan predznak označava porast jedne varijable uvjetovan porastom druge, a negativan označava pad jedne
varijable uvjetovan porastom druge.
41
Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 482.
39
5.2.4.1. Primjer izračuna Spearmanovog koeficijenta korelacije ranga
Tablica 8.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća
Mjesečni prihodi zaposlenika Mjesečni izdaci za hranu
Zaposlenici r(X) r(Y)
(X) (Y)
Zaposlenik A 2.200 330 7 4
Zaposlenik B 8.600 450 1 6
Zaposlenik C 3.500 280 6 2
Zaposlenik D 4.300 260 4 1
Zaposlenik E 5.800 410 3 5
Zaposlenik F 7.200 600 2 7
Zaposlenik G 4.000 300 5 3
Izvor 15.: Izrada autora
Tablica 9.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća -
izračunavanje razlike rangova
Zaposlenici r(X) r(Y) d d2
Zaposlenik A 7 4 3 9
Zaposlenik B 1 6 -5 25
Zaposlenik C 6 2 4 16
Zaposlenik D 4 1 3 9
Zaposlenik E 3 5 -2 4
Zaposlenik F 2 7 -5 25
Zaposlenik G 5 3 2 4
Ukupno 0 92
Izvor 16.: Izrada autora
40
Kako Spearmanov koeficijent iznosi -0,64 dolazi se do zaključka da je riječ o umjerenoj
negativnoj korelaciji odnosno da postoji umjerena veza izme u mjesečnih prihoda
zaposlenika i njihovih mjesečnih izdataka za hranu. Točnije, zaposlenici koji imaju manje
prihode više sredstava izdvajaju za hranu. Grafikonom 6. prikazan je dijagram rasipanja čiji
podaci su prikazani u Tablici 8.
Grafikon 7.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća –
dijagram rasipanja
5.3. Regresija
Za razliku od korelacijske analize zadaća regresijske analize je da prona e analitičko-
matematički oblik veze izme u jedne ovisne ili regresand varijable i jedne ili više neovisnih
ili regresorskih varijabli.42 Regresijska analiza najviše je zastupljena u internoj reviziji iako
nije isključiva njezina primjena i u eksternoj reviziji. U odnosu na eksternu koja se najviše
bazira na ocjenjivanje objektivnosti financijskih izvještaja, interna je usmjerena na
ocjenjivanje učinka operativnog poslovanja pojedinog subjekta. 43 Razliku izme u korelacije i
regresije najbolje je opisati slijedećom izjavom: (...) Razlikuju se u tome što regresijska
analiza na temelju utvr ene povezanosti i poznavanja vrijednosti nezavisne varijable (X)
42
Biljan-August, M.;Pivac, S.; Štambuk, A.: Uporaba statistike u ekonomiji, 2. Izdanje, Ekonomski fakultet
Sveučilišta u Rijeci, Rijeka, 2009., str. 80.
43
Više o tome dostupno na:
https://www.google.hr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CDMQFjAA&url=http
%3A%2F%2Fwww.singipedia.com%2Fattachment.php%3Fattachmentid%3D167%26d%3D1269960272&ei=Z
I7RUp_ROuSyyAOLn4GQAg&usg=AFQjCNFW7ELNursZs6XuNx19ac6pNjecGQ&bvm=bv.59026428,d.bG
Q (11.01.2014.)
41
nastoji kreirati predvi anja vrijednosti zavisne varijable (Y).44 Regresijska se analiza dijeli na
jednostavnu (u kojoj se promatra utjecaj promjene jedne varijable na promjenu druge) te
višestruku (koja podrazumijeva odnos više nezavisnih varijabla s jednom zavisnom).
(5.26.)
gdje je:
e – slučajna komponenta
Ono što je karakteristično za deterministički model regresije jest to da isti opisuje točnu
povezanost zavisne i nezavisne varijable. Dakle, modelom se dokazuje da je zavisna varijabla
(Y) odre ena točnom vrijednosti nezavisne (X) te da za vrijednost nezavisne varijable postoji
samo jedna vrijednost zavisne. Tako er, terba istaknuti kako je ovaj model odnosno
determinitička povezanost varijabli izrazito rijedak slučaj. Razlog tome je činjenica da na
pojedinu varijablu najčešće utječe više drugih, nezavisnih varijabli te je stoga gotovo
nemoguće pronaći egzaktnu povezanost izme u varijabla. U poglavlju koje govori o korelaciji
kao primjer je dan odnos izme u visine prihoda i izdataka za hranu. Ipak, visina prihoda nije
44
Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 494.
42
jedina varijabla koja može utjecati na visinu izdataka za hranu. Osim prihoda, u obzir treba
uzeti i broj osoba s kojima zaposlenik čini kućanstvo, različite preferencije u ishrani pa čak i
preferencije vezane uz odabir mjesta kupovine (cijene proizvoda variraju ovisno o mjestu
kupnje). Zbog toga se u statistici češće koristi statistički regresijski model čiji je izraz:
(5.27.)
gdje je:
– zavisna varijabla
– nezavisna varijabla
, – parametri populacije
– slučajna pogreška
(5.28.)
gdje je:
45
Prikaz dijagrama vidljiv je: Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str.
498.
43
Regresijska se jednadžba temelji na podacima iz uzorka budući da je u praksi gotovo
nemoguće prikupiti sve podatke iz populacije koji su relevantni za istraživanje i analizu.
Linija regresije naziva se još i linija najmanjih kvadrata budući da se u dijagram rasipanja
ucrtava ona linija (pravac) gdje je ukupna kvadratna udaljenost svih točaka X i Y od ucrtane
regresijske linije minimalna 46. Kako bi se pronašla linija regresije koja najbolje odgovara
zadanim podacima potrebno je minimizirati sumu kvadrata pogreške.
(5.29.)
gdje je:
– slučajna pogreška
Bitno je napomenuti da se regresijski model koristi za predvi anja vrijednosti varijable pri
različitim vrijednostima nezavisne varijable. U kreiranju predvi anja regresijskim modelom
upitna je točnost istraživača jer je prisutna odre ena pogreška ( ). Što je povezanost varijabla
veća (npr. veći koeficijent korelacije), pogreška modela će biti manja. Drugim riječima,
regresijskim modelom ne računaju se stvarne vrijednosti varijable Y nego njihova predvi anja
na temelju postavljenog modela u kojima je zastupljena pogreška modela (predvi ene i
stvarne vrijednosti u većini slučajeva nisu jednake). 47 Kako bi se linija regresije mogla ucrtati
u dijagram rasipanja potrebno je izračunati parametre a i b čiji su izrazi:
(5.30.)
gdje je:
– konstantni član
– regresijski koeficijent
– prosjek varijable Y
46
Isključivo u slučaju potpune pozitivne ili potpune negativne povezanosti svi se parovi vrijednosti zavisne i
nezavisne varijable u dijagramu rasipanja nalaze na liniji regresije.
47
Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 499.
44
– prosjek varijable X
(5.31.)
(5.32.)
(5.33.)
Tablica 10.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća48
Mjesečni izdaci za hranu
Mjesečni prihodi zaposlenika (X) X2 XY
(Y)
22 3,3 484 72,6
86 4,5 7.396 387
35 2,8 1.225 98
43 2,6 1.849 111,8
58 4,1 3.364 237,8
72 6 5.184 432
40 3 1.600 120
356 26,3 21.102 1.459,2
Izvor 18.: Izrada autora
48
Iznosi prihoda i izdataka uvećani su deset puta u odnosu na podatke iz Tablice 7. i izraženi u tisućama radi
lakšeg izračuna i prikaza modela regresije.
45
Model regresije:
Kako bi se u dijagram rasipanja ucrtala linija regresije, potrebno je odrediti dvije rubne točke.
Prije svega, potrebno je izraditi dijagram rasipanja te unijeti parove točaka odnosno parove
vrijednosti varijabla X i Y.
Grafikon 8.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća –
dijagram rasipanja
46
Grafikon 9.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća –
dijagram rasipanja s linijom regresije
Budući da se uočava razlika izme u regresijom predvi enih vrijednosti zavisne varijable i
podataka iz uzorka predočenih u tablici, potrebno je izračunati rezidualna odstupanja. Izraz
koji se pritom koristi je slijedeći:
(5.34.)
Prema predvi anju regresijskim modelom, procjenjuje se kako mjesečni prihodi zaposlenika
koji iznose 4.000 kn rezultiraju izdacima za hranu u iznosu od 331,20 kn, dok prihodi u
iznosu od 8.600 kn za posljedicu imaju izdatke za hranu u iznosu od 519,80 kn. Kako su
stvarni izdaci temeljeni na uzorku iz Tablice 9. niži odnosno iznose 300 kn i 450 kn
respektivno, zaključuje se kako su modelom regresije predvi eni veći izdaci od ostvarenih
(zbog toga je rezultat rezidualnog odstupanja u oba slučaja negativnog predznaka).
47
5.3.3. Koeficijent determinacije
Kako bi se izmjerila reprezentativnost regresijskog modela koristi se koeficijent
determinacije. Njime se tumači omjer u kojem vrijednosti nezavisne varijable objašnjavaju
vrijednosti zavisne varijable odnosno u kojoj je mjeri prihvatljivo donositi predvi anja na
temelju regresijskog modela. Veća vrijednost koeficijenta determinacije predstavlja veću
reprezentativnost regresijskog modela. 49 Koeficijent se računa slijedećim izrazom:
(5.35.)
gdje je:
(5.36.)
(5.37.)
Tablica 11.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća –
izračun koeficijenta determinacije
Mjesečni
Mjesečni prihodi izdaci za
zaposlenika (X) hranu
(Y)
22 3,3 2,574 1,399489 0,20885
86 4,5 5,198 2,076481 0,55205
35 2,8 3,107 0,4225 0,91585
43 2,6 3,435 0,103684 1,33865
58 4,1 4,05 0,085849 0,11765
49
Više o tome u: Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 508. – 512.
48
72 6 4,624 0,751689 5,03105
40 3 3,312 0,198025 0,57305
Ukupno 356 26,3 26,3 5,037717 8,73714
Izvor 21.: Izrada autora
0,576586
49
IV Regresiono-korelaciona analiza - Linearna regresija
Primjer 1:
Rješenje:
x y x y x2 y2
4 100 400 16 10000
6 146 876 36 21316
8 178 1424 64 31684
10 220 2200 100 48400
12 256 3072 144 65536
13 280 3640 169 78400
suma: 53 1180 11612 529 255336
18
300
troškovi proizvodnje
250
200
150
100
50
0
0 5 10 15
obim proizvodnje
a) Oblak rasipanja
C XY
198,74
b) r 0,9996
X Y 10, 2 3876,91
Obzirom da je koeficijent korelacije pozitivan, veza izmeñu obima i troškova proizvodnje je
direktna. Kako je pomenuti koeficijent blizak 1, radi se o veoma jakoj vezi.
2 ∑x 2
i
X2
529
8,83 2 10,2
X
N 6
2 ∑ yi2 Y2
255336
196,67 2 3876 ,91
Y
N 6
C XY
∑x i yi
X Y
11612
8, 83 196, 67 198, 74
N 6
c) yˆ i a b xi 24,6 19,49 xi
C XY 198,74
b 2
19, 49 a Y b X 196, 67 19, 49 8,83 24, 6
X 10, 2
Ako obim proizvodnje iznosi 0 komada trošak je 24600 KM (fiksni trošak).
Ako obim proizvodnje poraste za 1 komad trošak raste za 19,49 KM.
19
Primjer 2:
Za dvije pojave: troškovi reklame – x i obim prodaje – y, kod 10 različitih tržnih centara
pratili smo kretanje i dobili podatke:
Trošak Obim
reklame - x prodaje - y
18 55
7 17
14 36
31 85
21 62
5 18
11 33
16 41
26 63
29 87
Rješenje:
Trošak Obim
reklame prodaje x y x2 y2 rx ry rx ry ( rx ry ) 2
-x -y
18 55 990 324 3025 6 6 0 0
7 17 119 49 289 2 1 1 1
14 36 504 196 1296 4 4 0 0
31 85 2635 961 7225 10 9 1 1
21 62 1302 441 3844 7 7 0 0
5 18 90 25 324 1 2 -1 1
11 33 363 121 1089 3 3 0 0
16 41 656 256 1681 5 5 0 0
26 63 1638 676 3969 8 8 0 0
29 87 2523 841 7569 9 10 -1 1
178 497 10820 3890 30311 4
20
a)
100
90
80
obim prodaje
70
60
50
40
30
20
10
0
5 7 11 14 16 18 21 26 29 31
trošak reklame
b) Regresiona jednačina:
yˆ i a b xi 1,06 2,73 xi
C XY 197,34
b 2
2,73 a Y b X 49,7 2,73 17 ,8 1,06
X 72,16
C XY ∑x i yi
X Y
10820
17,8 49,7 197 ,34
N 6
1 10 497 1 10 178
y ∑ yi 49,7 x ∑ xi 17,8
N i 1 10 N i 1 10
2 ∑x 2
i
X2
3890
17 ,82 72,16
X
N 10
2 ∑ yi2 30311
Y2
49,7 2 561,01
Y
N 10
2
C XY 197 ,342
r2 2 2
0,96197 ⇒ r 0,9808
X Y 72,16 561,01
96,2% ukupnog varijabiliteta obima prodaje može se objasniti uticajem varijabiliteta izdataka
na reklame.
c) xi 30
yˆ i 1,06 2,73 30 82,96
Ukoliko se na reklamu utroši 30 nj, procijenjeni obim prodaje će biti 82,96 kj posmatranog
proizvoda.
6 ∑d2 6 4
d) 1 3
1 0, 976 - jaka i direktna veza.
N N 103 10
Primjer 3:
21
Ispitivanje prosječne mjesečne prodaje i test psihofizičkih sposobnosti prodavača dali su
rezultate:
Rješenje:
y x x y y2 x2 ry rx d ry rx d2
10 55 550 100 3025 1 1 0 0
11 62 682 121 3844 2 3 -1 1
29 80 2320 841 6400 9 8,5 0,5 0,25
12 62 744 144 3844 3 3 0 0
20 70 1400 400 4900 7 6 1 1
13 62 826 169 3844 4 3 1 1
24 75 1800 576 5625 8 7 1 1
18 80 1440 324 6400 6 8,5 -2,5 6,25
15 65 975 225 4225 5 5 0 0
∑ 152 611 10.717 2.900 42.107 10,5
C XY 2 44,1157 2
a) r 2 2 2
0, 7579 ⇒ r 0,87 ⇒ direktna i jaka veza.
Y X 36,95 69, 50
C XY
∑x i yi
X Y
10, 717
67,89 16,89 44,1157
N 9
2 ∑y 2
i
Y2
2900
16,892 36, 95
Y
N 9
2 ∑ x2 X2
42,107
67,89 2 69,50
X
N 9
Y
∑ yi 152
16,89
N 9
X
∑x i 611
67,89
N 9
22
b) 1
6 ∑d 2
1
6 10,5
0,9125 ⇒ direktna i jaka veza.
3
N N 93 9
Primjer 4:
Godine X Y
1999 0 2
2000 3 5
2001 5 3
2002 8 6
Ukupno 16 16
Rješenje:
a) yˆ i a b xi 2,12 0,47 xi
C XY 4
b 2
0,47 a Y b X 4 0,47 4 2,12
X 8,5
2
C XY 42
b) r 2 2 2
0,96197 ⇒ r 0,7529 ⇒ direktna i jaka veza.
X Y 8,5 2,5
23