You are on page 1of 47

5.2.

Korelacija
Korelacijska analiza utvr uje i opisuje smjer i
snagu linearne povezanosti dviju varijabla. Koristi se kod donošenja odgovora na pitanja
slična sljedećima: 34

Postoji li povezanost iznosa sredstava uloženih u promociju nekog proizvoda i njegove


prodaje?
Postoji li povezanost potrošnje mlijeka i broja djece u domaćinstvu?

Koeficijent korelacije ujedno je i najčešće korištena mjera kojom se opisuje povezanost


varijabla. Ipak, treba naglasiti kako nije moguće isključivo na osnovi spomenutog koeficijenta
iznositi zaključke o uzročno-posljedičnoj vezi izme u promatranih varijabli.

5.2.1. Vrste varijabli


Korelacijskom analizom analiziraju se zavisne (Y) i nezavisne (X) varijable. Zavisna je
varijabla predmet istraživanja znanstvenika/istraživača, dok se nezavisnom objašnjavaju
promjene zavisne varijable. U nezavisnoj se varijabli nalaze empirijske vrijednosti, a
istraživač ju može kontrolirati i manipulirati njome. Odluka o tome koja je varijabla zavisna, a
koja nezavisna nije jednostavna. Ponekad, ipak, istraživač ovisno o postavljenom cilju
istraživanja, proizvoljno odlučuje o tome je li pojedina varijabla zavisna ili nezavisna.

34
Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 472.

34
5.2.2. Dijagram rasipanja
Kako bi se jednostavno vizualno uočile povezanosti dviju varijabli, prethodno spomenutih,
zavisne i nezavisne, koristi se dijagram rasipanja. Poželjno je dijagram konstruirati prije
postupaka koji koriste računske operacije, a kojima se izračunava ista povezanost koja se
prikazuje dijagramom. Kako bi se grafikon kreirao, potrebno je, prije svega, u prvom
kvadrantu koordinatnog sustava definirati dvije varijable, nezavisnu, koja se označava slovom
X te zavisnu, koja se označava slovom Y. Nakon označavanja ordinate s Y i apscise s X,
granične vrijednosti definiraju se prema najvećim i najmanjim vrijednostima varijabla
prikazanim u Tablici 5. Zatim slijedi ucrtavanje vrijednosti varijabla koje čine tzv. oblak
točaka, kako je i prikazano Grafikonom 5.

Tablica 6.: Mjesečni prihodi zaposlenika poduzeća i njihovi mjesečni izdaci za aktivnosti
vezane uz kulturne sadržaje

Mjesečni prihodi Mjesečni izdaci za


zaposlenika jednog aktivnosti vezane uz
poduzeća kulturne sadržaje
2.200 50
8.600 350
3.500 90
4.300 160
5.800 210
7.200 280
4.000 130
Izvor 11.: Izrada autora

35
Grafikon 6.: Mjesečni prihodi zaposlenika poduzeća i njihovi mjesečni izdaci za aktivnosti
vezane uz kulturne sadržaje – dijagram rasipanja

Izvor 12.: Izrada autora

Dijagram rasipanja prikazan Grafikonom 5. nastao je ucrtavanjem podataka iz Tablice 5. u


prvi kvadrant koordinatnog sustava. Točnije, os apscisa bilježi visinu plaće koja je nezavisna
varijabla dok se na ordinati (Y) nalaze izdaci svakog pojedinog djelatnika vezani uz kulturne
sadržaje na mjesečnoj bazi. Logično za zaključiti, mjesečni izdaci zaposlenika za aktivnosti
kulturnih sadržaja ovise o mjesečnim prihodima te su stoga i prikazani zavisnom varijablom
(Y). Zamišljena linija koja povezuje sve točke na pravcu bilježi tendenciju porasta što ukazuje
na pozitivan odnos varijabli, a što će se detaljnije obraditi u slijedećem poglavlju. Kako je
spomenuto na početku ovog poglavlja, nakon grafičkog prikaza dijagrama rasipanja slijedi
računski dio vezan uz korelaciju.

5.2.3. Pearsonov koeficijent korelacije


Intenzitet i smjer povezanosti dviju varijabla mjeri se Pearsonovim koeficijentom korelacije.
Ovaj se koeficijent primjereno koristi ako je veza izme u dviju varijabla linearna, a uporaba
istog veže se uz varijable koje su iskazane kvantitativno odnosno mjerene na intervalnoj ili
omjernoj ljestvici mjerenja. Linearna veza može se uočiti s pomoću dijagrama rasipanja, a
predstavlja onu vezu čija se relacija dviju varijabla najbolje reprezentira ravnom linijom.
Primjena ovog koeficijenta zahtijeva normalan raspored podataka, tj.simetričnost distribucije

36
barem jedne varijable te dovoljno velik uzorak (n≥30).35 Simbol r predstavlja Pearsonov
koeficijent korelacije, izračunava se na temelju podataka iz uzorka, a prikazan je slijedećim
izrazom:

(5.23.)

gdje je:

r - Pearsonov koeficijent korelacije

Ono što treba naglasiti jesu vrijednosti koje koeficijent može poprimiti, a koje se kreću
izme u -1 i 1. Ovisno radi li se o pozitivnom (negativnom) predznaku, predstavlja se smjer
veze izme u dviju promatranih varijabli. S obzirom da predznak govori o smjeru veze,
vrijednosti koeficijenta govore o intenzitetu povezanosti pojava. Slikom 1.36 prikazan je odnos
varijabli izražen prema Pearsonovom koeficijentu korelacije.

Slika 1.: Smjer povezanosti varijabla te jačina koeficijenta korelacije

-1 0 1

potpuna povezanost nema potpuna povezanost


negativna korelacija povezanosti pozitivna korelacija

Izvor 13: Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 476.

U slučaju kada je dijagramom rasipanja prikazan niz isključivo pozitivnih korelacija koje se
mogu predstaviti zamišljenom linijom odnosno pravcem, riječ je o strogo funkcionalnoj vezi.
Kako je i vidljivo iz Slike 1. vrijednost koeficijenta koja se kreće izme u 0 i +1 predstavlja
pozitivnu korelaciju varijabla što znači da rast varijable X uzrokuje rast varijable Y odnosno
pad varijable X uzrokuje pad varijable Y. Dijagramom rasipanja, to se prikazuje upravo kao
rastući pravac. Ipak, u praksi često dolazi do odstupanja, kako pozitivnih tako i negativnih, od
zamišljene linije pravca te se takva veza više ne naziva funkcionalna već statistička37. Ipak,
ako je u prosjeku riječ o praćenju porasta jedne varijable porastom druge odnosno pada jedne

35
Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 476.
36
Ibidem, str. 476.
37
U literaturi je moguće pronaći i naziv stohastička ili slučajna veza.

37
varijable padom druge, veza se dalje naziva pozitivnom (Primjer: Grafikon 5.). Moguć je i
obrnuti slučaj kada porast jedne varijable može biti uzrokovan padom druge varijable na što
upućuje kretanje Pearsonovog koeficijenta izme u -1 i 0. Takva se veza na dijagramu
rasipanja prikazuje nizom točaka koje je moguće prikazati kao sastavne dijelove padajućeg
pravca, a koji se, matematički, izražavaju jednadžbom tog pravca. Tako er, i kod negativne
veze razlikuju se negativna funkcionalna i negativna statistička veza koje razlikuju odstupanja
od zamišljenog pravca, ali u prosjeku predstavljaju negativnu vezu. Osim navedenoga, valja
spomenuti kako se veza izme u varijabli ne mora uvijek prikazivati jednadžbom pravca.
Točnije, moguće je vezu izme u varijabla prikazati i eksponencijalnom jednadžbom u čijem
slučaju tako er postoje odstupanja pa je tako moguće razlikovati funkcionalnu i statističku
vezu. 38

Budući da je intenzitet korelacije prikazan vrijednostima koeficijenta korelacije koji se kreće


izme u -1 i +1, potrebno je istaknuti raspone vrijednosti istog te njihova tumačenja.

Tablica 7.: Vrijednosti koeficijenta korelacije i njihova tumačenja


r Opis povezanosti
-1 potpuna negativna korelacija
-1 -0,7 snažna negativna korelacija
-0,7 -0,3 umjerena negativna korelacija
-0,3 +0,3 slaba korelacija(ili bez korelacije r=0)
+0,3 +0,7 umjerena pozitivna korelacija
+0,7 +1 snažna pozitivna korelacija
+1 potpuna pozitivna korelacija
Izvor 14.: Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 476.

Ono što je bitno naglasiti vezano uz Pearsonov koeficijent korelacije jest činjenica da isti
mjeri samo linearnu povezanost dviju varijabla te da smjer povezanosti determinira predznak
koeficijenta.

38
Više o prikazu pozitivne i negativne veze pomoću dijagrama rasipanja te o nemogućnosti definiranja prati li
pad jedne varijable pad ili rast druge u: Biljan-August, M.;Pivac, S.; Štambuk, A.: Uporaba statistike u
ekonomiji, 2. Izdanje, Ekonomski fakultet Sveučilišta u Rijeci, Rijeka, 2009., str. 77. - 80.

38
5.2.4. Spearmanov koeficijent korelacije ranga

Spearmanov koeficijent koristi se za ispitivanje stupnja povezanosti varijabla zapisanih u


obliku modaliteta ordinalne (rang) varijable. Podatke ordinalne varijable moguće je poredati
po odre enom intenzitetu svojstva te se promatraju jedino razlike u rangu, a ne originalne
razlike u pojedinim vrijednostima.39 Ovaj se koeficijent označava s rs te se izračunava u
slučaju kada su jedna ili obje varijable mjerene na ordinalnoj mjernoj ljestvici. Ne postavlja
uvjet simetričnosti, linearnosti i veličine uzorka što ga razlikuje od Pearsonovog koeficijenta,
ali smjer korelacije predstavljen je predznakom koeficijenta, baš kao i kod Pearsonovog
koeficijenta. 40 Spearmanov je koeficijent korelacije predstavljen slijedećim izrazom:41

(5.24.)

gdje je:

rs – Spearmanov koeficijent korelacije


d – razlika rangova vrijednosti varijabla X i Y

Razliku rangova dobijamo slijedećim izrazom:

(5.25.)

Prvi korak u izračunavanju Spearmanovog koeficijenta korelacije ranga je kreiranje


vrijednosti varijable ranga na slijedeći način: najvećoj originalnoj vrijednosti pridružuje se
rang 1, slijedećoj manjoj rang 2 i redom respektivno. Moguće je krenuti i obrnutim
redoslijedom odnosno najmanjoj originalnoj vrijednosti pridružiti rang 1, slijedećoj većoj rang
2 pa sve do posljednje varijable. Od presudne je važnosti rangirati obje varijable istim
redoslijedom, a rangovi istih označavaju se:

r(X) – rang nezavisne varijable

r(Y) – rang zavisne varijable

39
Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 482.
40
Pozitivan predznak označava porast jedne varijable uvjetovan porastom druge, a negativan označava pad jedne
varijable uvjetovan porastom druge.
41
Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 482.

39
5.2.4.1. Primjer izračuna Spearmanovog koeficijenta korelacije ranga

Promatrani su mjesečni prihodi zaposlenika poduzeća te njihovi mjesečni izdaci za hranu.

Tablica 8.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća
Mjesečni prihodi zaposlenika Mjesečni izdaci za hranu
Zaposlenici r(X) r(Y)
(X) (Y)
Zaposlenik A 2.200 330 7 4
Zaposlenik B 8.600 450 1 6
Zaposlenik C 3.500 280 6 2
Zaposlenik D 4.300 260 4 1
Zaposlenik E 5.800 410 3 5
Zaposlenik F 7.200 600 2 7
Zaposlenik G 4.000 300 5 3
Izvor 15.: Izrada autora

Kako su rangovi pridruženi varijablama (počevši od najveće originalne vrijednosti kojoj je


pridružen rang 1) preostaje izračunati razliku rangova te kvadrat iste i u formulu 5.24. uvrstiti
dobivene podatke.

Tablica 9.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća -
izračunavanje razlike rangova
Zaposlenici r(X) r(Y) d d2
Zaposlenik A 7 4 3 9
Zaposlenik B 1 6 -5 25
Zaposlenik C 6 2 4 16
Zaposlenik D 4 1 3 9
Zaposlenik E 3 5 -2 4
Zaposlenik F 2 7 -5 25
Zaposlenik G 5 3 2 4
Ukupno 0 92
Izvor 16.: Izrada autora

40
Kako Spearmanov koeficijent iznosi -0,64 dolazi se do zaključka da je riječ o umjerenoj
negativnoj korelaciji odnosno da postoji umjerena veza izme u mjesečnih prihoda
zaposlenika i njihovih mjesečnih izdataka za hranu. Točnije, zaposlenici koji imaju manje
prihode više sredstava izdvajaju za hranu. Grafikonom 6. prikazan je dijagram rasipanja čiji
podaci su prikazani u Tablici 8.

Grafikon 7.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća –
dijagram rasipanja

Izvor 17.: Izrada autora

5.3. Regresija
Za razliku od korelacijske analize zadaća regresijske analize je da prona e analitičko-
matematički oblik veze izme u jedne ovisne ili regresand varijable i jedne ili više neovisnih
ili regresorskih varijabli.42 Regresijska analiza najviše je zastupljena u internoj reviziji iako
nije isključiva njezina primjena i u eksternoj reviziji. U odnosu na eksternu koja se najviše
bazira na ocjenjivanje objektivnosti financijskih izvještaja, interna je usmjerena na
ocjenjivanje učinka operativnog poslovanja pojedinog subjekta. 43 Razliku izme u korelacije i
regresije najbolje je opisati slijedećom izjavom: (...) Razlikuju se u tome što regresijska
analiza na temelju utvr ene povezanosti i poznavanja vrijednosti nezavisne varijable (X)

42
Biljan-August, M.;Pivac, S.; Štambuk, A.: Uporaba statistike u ekonomiji, 2. Izdanje, Ekonomski fakultet
Sveučilišta u Rijeci, Rijeka, 2009., str. 80.
43
Više o tome dostupno na:
https://www.google.hr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CDMQFjAA&url=http
%3A%2F%2Fwww.singipedia.com%2Fattachment.php%3Fattachmentid%3D167%26d%3D1269960272&ei=Z
I7RUp_ROuSyyAOLn4GQAg&usg=AFQjCNFW7ELNursZs6XuNx19ac6pNjecGQ&bvm=bv.59026428,d.bG
Q (11.01.2014.)

41
nastoji kreirati predvi anja vrijednosti zavisne varijable (Y).44 Regresijska se analiza dijeli na
jednostavnu (u kojoj se promatra utjecaj promjene jedne varijable na promjenu druge) te
višestruku (koja podrazumijeva odnos više nezavisnih varijabla s jednom zavisnom).

5.3.1. Jednostavna linearna regresija


Kako je već spomenuto u uvodnom dijelu poglavlja koje govori o regresiji, linearna se
regresijska analiza temelji na proučavanju utjecaja jedne nezavisne varijable (X) na zavisnu
varijablu (Y). Grafički prikaz regresijske analize uvelike podsjeća na dijagram rasipanja o
kojem je bilo riječi kod korelacije (poglavlje 5.2.2.). Razlika izme u dijagrama rasipanja i
grafičkog prikaza regresijskog modela je u ucrtavanju linije regresije. Linija regresije
neophodna je budući da je cilj regresijske analize procijeniti model koji predstavlja minimalne
ukupne udaljenosti zavisne varijable (Y) od linije regresije. Više o spomenutom modelu u
poglavlju koje slijedi.

5.3.2. Regresijski model


Kao nastavak prethodnog poglavlja, valja istaknuti kako model jednostavne linearne regresije
može biti statistički i deterministički. Izraz koji opisuje deterministički model je slijedeći:

(5.26.)
gdje je:

Y – zavisna varijabla (regresand varijabla)

X – nezavisna varijabla (regresorska varijabla)

e – slučajna komponenta

Ono što je karakteristično za deterministički model regresije jest to da isti opisuje točnu
povezanost zavisne i nezavisne varijable. Dakle, modelom se dokazuje da je zavisna varijabla
(Y) odre ena točnom vrijednosti nezavisne (X) te da za vrijednost nezavisne varijable postoji
samo jedna vrijednost zavisne. Tako er, terba istaknuti kako je ovaj model odnosno
determinitička povezanost varijabli izrazito rijedak slučaj. Razlog tome je činjenica da na
pojedinu varijablu najčešće utječe više drugih, nezavisnih varijabli te je stoga gotovo
nemoguće pronaći egzaktnu povezanost izme u varijabla. U poglavlju koje govori o korelaciji
kao primjer je dan odnos izme u visine prihoda i izdataka za hranu. Ipak, visina prihoda nije

44
Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 494.

42
jedina varijabla koja može utjecati na visinu izdataka za hranu. Osim prihoda, u obzir treba
uzeti i broj osoba s kojima zaposlenik čini kućanstvo, različite preferencije u ishrani pa čak i
preferencije vezane uz odabir mjesta kupovine (cijene proizvoda variraju ovisno o mjestu
kupnje). Zbog toga se u statistici češće koristi statistički regresijski model čiji je izraz:

(5.27.)
gdje je:

– zavisna varijabla

– nezavisna varijabla

, – parametri populacije

– slučajna pogreška

Razlika izme u determinističkog i statističkog modela je upravo u obuhvaćanju varijabli koje


nisu uključene u postavljeni model, ali utječu na zavisnu varijablu. Te su varijable u izrazu
prikazane s . Moguće je zaključiti kako bi iz navedenog izraza nastalo onoliko pravaca koji
bi opisivali regresijski odnos varijabli, koliko bi početno bilo postavljenih podataka za
varijable. Dijagram rasipanja45 koji bi prikazivao te odnose izgledao bi kao mnoštvo
isprepletenih pravaca te se zbog toga izražava linija regresije odnosno samo jedan upisani
pravac kojim su minimizirane udaljenosti svih upisanih točaka. Temelj ucrtavanju linije
regresije u dijagram rasipanja je regresijska jednadžba čiji je izraz:

(5.28.)

gdje je:

– regresijska funkcija s procijenjenim parametrima populacije (predvi enim


vrijednostima zavisne varijable)

X – vrijednost nezavisne varijable

, – procjene parametara populacije

45
Prikaz dijagrama vidljiv je: Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str.
498.

43
Regresijska se jednadžba temelji na podacima iz uzorka budući da je u praksi gotovo
nemoguće prikupiti sve podatke iz populacije koji su relevantni za istraživanje i analizu.
Linija regresije naziva se još i linija najmanjih kvadrata budući da se u dijagram rasipanja
ucrtava ona linija (pravac) gdje je ukupna kvadratna udaljenost svih točaka X i Y od ucrtane
regresijske linije minimalna 46. Kako bi se pronašla linija regresije koja najbolje odgovara
zadanim podacima potrebno je minimizirati sumu kvadrata pogreške.

(5.29.)

gdje je:

– slučajna pogreška

– zavisna varijabla (podaci iz uzorka)

– podaci procijenjeni regresijskom jednadžbom

Bitno je napomenuti da se regresijski model koristi za predvi anja vrijednosti varijable pri
različitim vrijednostima nezavisne varijable. U kreiranju predvi anja regresijskim modelom
upitna je točnost istraživača jer je prisutna odre ena pogreška ( ). Što je povezanost varijabla
veća (npr. veći koeficijent korelacije), pogreška modela će biti manja. Drugim riječima,
regresijskim modelom ne računaju se stvarne vrijednosti varijable Y nego njihova predvi anja
na temelju postavljenog modela u kojima je zastupljena pogreška modela (predvi ene i
stvarne vrijednosti u većini slučajeva nisu jednake). 47 Kako bi se linija regresije mogla ucrtati
u dijagram rasipanja potrebno je izračunati parametre a i b čiji su izrazi:

(5.30.)

gdje je:

– konstantni član

– regresijski koeficijent

– prosjek varijable Y

46
Isključivo u slučaju potpune pozitivne ili potpune negativne povezanosti svi se parovi vrijednosti zavisne i
nezavisne varijable u dijagramu rasipanja nalaze na liniji regresije.
47
Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 499.

44
– prosjek varijable X

(5.31.)

(5.32.)

(5.33.)

5.3.2.1. Primjer izračuna regresijskog modela

Promatrani su mjesečni prihodi zaposlenika poduzeća te njihovi mjesečni izdaci za hranu. Na


osnovu podataka iz primjera procijenit će se vrijednosti parametra i te ucrtati linija
regresije u dijagram rasipanja.

Tablica 10.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća48
Mjesečni izdaci za hranu
Mjesečni prihodi zaposlenika (X) X2 XY
(Y)
22 3,3 484 72,6
86 4,5 7.396 387
35 2,8 1.225 98
43 2,6 1.849 111,8
58 4,1 3.364 237,8
72 6 5.184 432
40 3 1.600 120
356 26,3 21.102 1.459,2
Izvor 18.: Izrada autora

48
Iznosi prihoda i izdataka uvećani su deset puta u odnosu na podatke iz Tablice 7. i izraženi u tisućama radi
lakšeg izračuna i prikaza modela regresije.

45
Model regresije:

Kako bi se u dijagram rasipanja ucrtala linija regresije, potrebno je odrediti dvije rubne točke.
Prije svega, potrebno je izraditi dijagram rasipanja te unijeti parove točaka odnosno parove
vrijednosti varijabla X i Y.

Grafikon 8.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća –
dijagram rasipanja

Izvor 19.: Izrada autora

Nakon izrade dijagrama rasipanja u regresijski model uvrštavaju se dvije proizvoljno


odabrane vrijednosti koje se nalaze unutar raspona vrijednosti za danu nezavisnu varijablu
pomoću kojih se izračunavaju rubne točke potrebne za ucrtavanje linije regresije.

Neka su to: X1=40; X2=86

46
Grafikon 9.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća –
dijagram rasipanja s linijom regresije

Izvor 20.: Izrada autora

Budući da se uočava razlika izme u regresijom predvi enih vrijednosti zavisne varijable i
podataka iz uzorka predočenih u tablici, potrebno je izračunati rezidualna odstupanja. Izraz
koji se pritom koristi je slijedeći:

(5.34.)

Iz čega proizlazi da su rezidualna odstupanja:

Prema predvi anju regresijskim modelom, procjenjuje se kako mjesečni prihodi zaposlenika
koji iznose 4.000 kn rezultiraju izdacima za hranu u iznosu od 331,20 kn, dok prihodi u
iznosu od 8.600 kn za posljedicu imaju izdatke za hranu u iznosu od 519,80 kn. Kako su
stvarni izdaci temeljeni na uzorku iz Tablice 9. niži odnosno iznose 300 kn i 450 kn
respektivno, zaključuje se kako su modelom regresije predvi eni veći izdaci od ostvarenih
(zbog toga je rezultat rezidualnog odstupanja u oba slučaja negativnog predznaka).

47
5.3.3. Koeficijent determinacije
Kako bi se izmjerila reprezentativnost regresijskog modela koristi se koeficijent
determinacije. Njime se tumači omjer u kojem vrijednosti nezavisne varijable objašnjavaju
vrijednosti zavisne varijable odnosno u kojoj je mjeri prihvatljivo donositi predvi anja na
temelju regresijskog modela. Veća vrijednost koeficijenta determinacije predstavlja veću
reprezentativnost regresijskog modela. 49 Koeficijent se računa slijedećim izrazom:

(5.35.)

gdje je:

SP– protumačena odstupanja

ST– ukupna odstupanja

(5.36.)

(5.37.)

Na temelju podataka iz primjera izračuna regresijskog modela (poglavlje 5.3.2.1.) moguće je


izračunati koeficijent determinacije te tako utvrditi reprezentativnost uzorka.

Tablica 11.: Visina mjesečnih prihoda i mjesečni izdaci za hranu zaposlenika poduzeća –
izračun koeficijenta determinacije
Mjesečni
Mjesečni prihodi izdaci za
zaposlenika (X) hranu
(Y)
22 3,3 2,574 1,399489 0,20885
86 4,5 5,198 2,076481 0,55205
35 2,8 3,107 0,4225 0,91585
43 2,6 3,435 0,103684 1,33865
58 4,1 4,05 0,085849 0,11765

49
Više o tome u: Horvat, J., Mijoč, J., Osnove statistike, Naklada Ljevak d.o.o., Zagreb, 2012., str. 508. – 512.

48
72 6 4,624 0,751689 5,03105
40 3 3,312 0,198025 0,57305
Ukupno 356 26,3 26,3 5,037717 8,73714
Izvor 21.: Izrada autora

0,576586

Koeficijent determinacije iznosi 0,576586 te se može zaključiti kako je 57,66% varijacija u


iznosima izdataka za hranu rezultat varijacija iznosa mjesečnih prihoda. S obzirom da se
koeficijent determinacije kreće u intervalu od 0 do 1 te da veći iznos koeficijenta upućuje na
dobro postavljen regresijski model, konačni ishod koeficijenta determinacije govori kako je
potrebno razmotriti mogućnost kako zavisnu varijablu bolje objašnjava neka druga nezavisna
varijable. Prisjetimo se, autori su napomenuli da na iznos izdataka vezanih uz hranu, osim
visine mjesečnih prihoda može utjecati i broj osoba s kojima zaposlenik čini kućanstvo,
različite preferencije u ishrani te preferencije vezane uz odabir mjesta kupovine.

49
IV Regresiono-korelaciona analiza - Linearna regresija
Primjer 1:

Podaci o obimu i troškovima proizvodnje u jednom preduzeću za period od 6 godina dati su u


tabeli:

godina obim proizvodnje troškovi proizvodnje


(000 kom) (000 KM)
1 4 100
2 6 146
3 8 178
4 10 220
5 12 256
6 13 280

a) Nacrtati oblak rasipanja.


b) Pomoću koeficijenta proste linearne korelacije ispitati smjer i jačinu veze izmeñu obima i
troškova proizvodnje.
c) Ocijeniti linearnu regresionu funkciju i objasniti parametre.
d) Ako je obim proizvodnje 15 000 komada, kolike troškove proizvodnje možemo očekivati?

Rješenje:

x y x y x2 y2
4 100 400 16 10000
6 146 876 36 21316
8 178 1424 64 31684
10 220 2200 100 48400
12 256 3072 144 65536
13 280 3640 169 78400
suma: 53 1180 11612 529 255336

18
300
troškovi proizvodnje

250
200
150
100
50
0
0 5 10 15

obim proizvodnje

a) Oblak rasipanja

C XY
198,74
b) r 0,9996
X Y 10, 2 3876,91
Obzirom da je koeficijent korelacije pozitivan, veza izmeñu obima i troškova proizvodnje je
direktna. Kako je pomenuti koeficijent blizak 1, radi se o veoma jakoj vezi.

2 ∑x 2
i
X2
529
8,83 2 10,2
X
N 6
2 ∑ yi2 Y2
255336
196,67 2 3876 ,91
Y
N 6

C XY
∑x i yi
X Y
11612
8, 83 196, 67 198, 74
N 6

c) yˆ i a b xi 24,6 19,49 xi
C XY 198,74
b 2
19, 49 a Y b X 196, 67 19, 49 8,83 24, 6
X 10, 2
Ako obim proizvodnje iznosi 0 komada trošak je 24600 KM (fiksni trošak).
Ako obim proizvodnje poraste za 1 komad trošak raste za 19,49 KM.

d) yˆ i 24,6 19, 49 xi 24,6 19, 49 15 316,95


Za obim proizvodnje 15000 komada, očekujemo da troškovi proizvodnje iznose 316 950 KM.

19
Primjer 2:

Za dvije pojave: troškovi reklame – x i obim prodaje – y, kod 10 različitih tržnih centara
pratili smo kretanje i dobili podatke:

Trošak Obim
reklame - x prodaje - y
18 55
7 17
14 36
31 85
21 62
5 18
11 33
16 41
26 63
29 87

a ) Nacrtati dijagram rasipanja.


b ) Odrediti linearnu regresionu funkciju i ispitati jačinu veze.
c ) Za trošak reklame 30, koliki obim prodaje očekujete?
d ) Koristeći koeficijent korelacije ranga utvrditi jačinu veze.

Rješenje:

Trošak Obim
reklame prodaje x y x2 y2 rx ry rx ry ( rx ry ) 2
-x -y
18 55 990 324 3025 6 6 0 0
7 17 119 49 289 2 1 1 1
14 36 504 196 1296 4 4 0 0
31 85 2635 961 7225 10 9 1 1
21 62 1302 441 3844 7 7 0 0
5 18 90 25 324 1 2 -1 1
11 33 363 121 1089 3 3 0 0
16 41 656 256 1681 5 5 0 0
26 63 1638 676 3969 8 8 0 0
29 87 2523 841 7569 9 10 -1 1
178 497 10820 3890 30311 4

20
a)

100
90
80
obim prodaje

70
60
50
40
30
20
10
0
5 7 11 14 16 18 21 26 29 31

trošak reklame

b) Regresiona jednačina:

yˆ i a b xi 1,06 2,73 xi
C XY 197,34
b 2
2,73 a Y b X 49,7 2,73 17 ,8 1,06
X 72,16

C XY ∑x i yi
X Y
10820
17,8 49,7 197 ,34
N 6
1 10 497 1 10 178
y ∑ yi 49,7 x ∑ xi 17,8
N i 1 10 N i 1 10
2 ∑x 2
i
X2
3890
17 ,82 72,16
X
N 10
2 ∑ yi2 30311
Y2
49,7 2 561,01
Y
N 10
2
C XY 197 ,342
r2 2 2
0,96197 ⇒ r 0,9808
X Y 72,16 561,01
96,2% ukupnog varijabiliteta obima prodaje može se objasniti uticajem varijabiliteta izdataka
na reklame.

c) xi 30
yˆ i 1,06 2,73 30 82,96
Ukoliko se na reklamu utroši 30 nj, procijenjeni obim prodaje će biti 82,96 kj posmatranog
proizvoda.
6 ∑d2 6 4
d) 1 3
1 0, 976 - jaka i direktna veza.
N N 103 10

Primjer 3:

21
Ispitivanje prosječne mjesečne prodaje i test psihofizičkih sposobnosti prodavača dali su
rezultate:

mjesečna prodaja rezultati


( u 1000 n. j.) testa
10 55
11 62
29 80
12 62
20 70
13 62
24 75
18 80
15 65

Ispitati smjer i jačinu veze izmeñu zadanih pojava koristeći:


a) Linearni oblik veze.
b) Koeficijent korelacije ranga.

Rješenje:

y x x y y2 x2 ry rx d ry rx d2
10 55 550 100 3025 1 1 0 0
11 62 682 121 3844 2 3 -1 1
29 80 2320 841 6400 9 8,5 0,5 0,25
12 62 744 144 3844 3 3 0 0
20 70 1400 400 4900 7 6 1 1
13 62 826 169 3844 4 3 1 1
24 75 1800 576 5625 8 7 1 1
18 80 1440 324 6400 6 8,5 -2,5 6,25
15 65 975 225 4225 5 5 0 0
∑ 152 611 10.717 2.900 42.107 10,5

C XY 2 44,1157 2
a) r 2 2 2
0, 7579 ⇒ r 0,87 ⇒ direktna i jaka veza.
Y X 36,95 69, 50

C XY
∑x i yi
X Y
10, 717
67,89 16,89 44,1157
N 9
2 ∑y 2
i
Y2
2900
16,892 36, 95
Y
N 9
2 ∑ x2 X2
42,107
67,89 2 69,50
X
N 9

Y
∑ yi 152
16,89
N 9

X
∑x i 611
67,89
N 9

22
b) 1
6 ∑d 2

1
6 10,5
0,9125 ⇒ direktna i jaka veza.
3
N N 93 9

Primjer 4:

U sljedećoj tabeli posmatramo kretanje variabli X i Y. Y je zavisna varijabla.

Godine X Y
1999 0 2
2000 3 5
2001 5 3
2002 8 6
Ukupno 16 16

Poznate su sljedeće vrijednosti: atimetička sredina varijable X jednaka je 4, varijansa od X


jednaka je 8,5, aritmetička sredina variable Y jednaka je 4, varijansa od Y jednaka je 2,5 i
Cxy=4.

a) Odediti jedna činu regresione prave


b) Izračunati koficijent determinacije i objasniti ga.

Rješenje:
a) yˆ i a b xi 2,12 0,47 xi
C XY 4
b 2
0,47 a Y b X 4 0,47 4 2,12
X 8,5
2
C XY 42
b) r 2 2 2
0,96197 ⇒ r 0,7529 ⇒ direktna i jaka veza.
X Y 8,5 2,5

23

You might also like