You are on page 1of 40

REGRESIJSKA I KORELACIJSKA ANALIZA

REGRESIJSKA I KORELACIJSKA ANALIZA Neke pojave u poslovanju, gospodarstvu i drugim podrujima djelatnosti meusobno su povezane i uvjetovane, uvjetovane npr. poveanje opsega proizvodnje poveava ukupne trokove; osobna potronja stanovnitva ovisi o raspoloivom dohotku i dr. Cilj istraivanja odnosa meu pojavama je utvrditi statistiku ovisnost i pokazatelje jakosti takve ovisnosti. U tu svrhu koriste se metode regresijske i korelacijske analize (regresija =statistiki odnos meu pojavama; korelacija = uzajamna ovisnost).

Funkcionalne i statisti statistike veze


Odnosi (veze) meu pojavama mogu biti funkcionalni i statistiki (stohastiki): Funkcionalni odnosi (veze) su postojani, izraavaju zakonitosti koje se iskazuju analitiki (formulom, jednadbom). Svakoj vrijednosti jedne pojave odgovara tono odreena vrijednost druge pojave. Primjer: povrina kvadrata ovisi o njegovoj stranici. Odnos je funkcionalan, jer se izraava jednadbom (P=a2). Statistiki ili stohastiki odnosi (veze) su slabiji od funkcionalnih. Svakoj vrijednosti jedne pojave odgovara vie razliitih vrijednosti druge pojave. Takva odstupanja su u praksi ea. Primjer: zaposlenici iste strune spreme imaju razliite (a ne iste) plae; kuanstva s istim dohotkom imaju razliitu (a ne istu) razinu potronje; sve osobe iste visine nemaju jednaku teinu i dr.

REGRESIJSKA ANALIZA
Za statistiku analizu potrebno je izabrati: empirijske vrijednosti za varijable X i Y oblik modela, modela tj. funkciju f(X) Pomono sredstvo za izbor funkcije je dijagram rasipanja (grafiki prikaz empirijskih vrijednosti).

REGRESIJSKA I KORELACIJSKA ANALIZA


Dijagram rasipanja u pravokutnom koordinatnom sustavu tokama prikazuje parove vrijednosti dviju promatranih numerikih varijabli.
yi yi

xi

xi

(a) pozitivna funkcionalna veza

(b) pozitivna statistika veza

REGRESIJSKA I KORELACIJSKA ANALIZA

yi

yi

xi

xi

(c) negativna funkcionalna veza

(d) negativna statistika veza

REGRESIJSKA I KORELACIJSKA ANALIZA

yi

yi

xi

xi

(e) pozitivna funkcionalna krivolinijska veza

(f) pozitivna statistika krivolinijska veza

REGRESIJSKA I KORELACIJSKA ANALIZA


Uzastopne vrijednosti ne kovariraju, tj. nisu meusobno korelirane:
yi

xi

(g) nema veze meu pojavama

REGRESIJSKA I KORELACIJSKA ANALIZA


Pod pojmom korelacija podrazumijeva se meuzavisnost ili povezanost sluajnih varijabli. Po smjeru korelacija moe biti pozitivna i negativna.
Pozitivna korelacija je prisutna kada rast jedne varijable prati rast druge promatrane varijable, odnosno kada pad jedne prati pad druge varijable. Negativna korelacija prisutna je kada rast jedne varijable prati pad druge varijable i obratno.

Za razliku od korelacijske analize zadaa regresijske analize je da pronae analitiko-matematiki oblik veze izmeu jedne ovisne ili regresand varijable i jedne ili vie neovisnih ili regresorskih varijabli.

Model jednostavne linearne regresije


Ako su u analizi prisutne samo dvije varijable tada se radi o jednostavnoj regresiji. regresiji Na temelju uzorka parova vrijednosti varijabli X i Y crta se dijagram rasipanja:
y

yi

xi

Model jednostavne linearne regresije


Jednostavna linearna regresija predstavlja odnos izmeu dvije pojave i to takav da promjenu jedne pojave prati priblino linearna promjena druge: Y = f(X) + e

Y = deterministika komponenta + sluajna pogreka


Deterministiki dio modela glasi: f(X) = a + b X Y zavisna varijabla, vrijednost pojave ije se varijacije objanjavaju modelom (npr. broj kupljenih proizvoda A) X nezavisna varijabla, stvarne vrijednosti pojave kojom se objanjavaju varijacije zavisne varijable (npr. spol, dob)

Model jednostavne linearne regresije


Svaka toka dijagrama rasipanja zadovoljava jednadbu:

Yi = a + bX i + ei
odnosno svaka toka Yi odstupa od linije pravca za pozitivnu ili negativnu razliku ei.
y ei yi

= a +bX Y

xi

ei pogreka relacije, relacije varijabla koja izraava nepoznate i apstrahirane utjecaje na varijaciju varijable Y

1. Regresijska funkcija
Ocijenjeni model glasi:

= a + bX Y
gdje je: a konstantni lan, tj. oekivana vrijednost zavisne varijable kada je nezavisna varijabla jednaka nuli: a = Y (kada je X=0). Ovaj parametar interpretira se i kao odsjeak na osi koordinata u kojoj regresijski pravac sijee os, uz pretpostavku da je apscisa te toke X=0.

Regresijski koeficijent b pokazuje prosjenu promjenu zavisne varijable kada se nezavisna varijabla promjeni za jedinicu mjere. mjere Ovaj parametar interpretira se i kao koeficijent smjera, odnosno nagiba regresijskog pravca koji moe imati pozitivni i negativni predznak, ovisno o smjeru veze izmeu promatranih varijabli.

2. Regresijska funkcija
Moe se postaviti i suprotna ovisnost u modelu, na nain da je varijabla X sada ovisna ili regresorska varijabla:

Xi = a + bYi + ei
Ocjena parametara u ovom sluaju vri se na jednak nain kao kod poetnog modela , samo to je sada X ovisna varijabla, pa u izrazima za izraunavanje parametara (metoda najmanjih kvadrata), X i Y mijenjaju mjesta.

Procjena parametara modela


Parametri modela jesu:
n

b=

x y
i i =1 n i =1

nx y

a = y bx

2 2 x n x i

Model jednostavne linearne regresije (regresijska funkcija) s procijenjenim parametrima glasi:

= a + bx y

Regresijske jednad jednadbe


Za dvije varijable (X i Y) mogue je postaviti dva regresijska modela: X nezavisna varijabla, a Y zavisna varijabla Y nezavisna varijabla, a X zavisna varijabla

Prva regresijska jednad jednadba


Prva regresijska jednadba (y zavisna varijabla):

= a + bx + u y
u i = yi y ui = yi (a + bx)

ui pogreka relacije

Parametri regresijske jednadbe:


n

b=

x y
i =1 n i

nx y nx 2

a = y bx

x
i =1

2 i

Druga regresijska jednad jednadba


Druga regresijska jednadba (x zavisna varijabla):

= a ' + b' y + u ' x


ui' = xi x ui' = xi (a'+b' y)

ui'

pogreka relacije

Parametri regresijske jednadbe:


n

b' =

x y
i =1 n i

nx y ny 2

a'= x b' y

y
i =1

2 i

Reprezentativnost linearne regresije


Nakon ocjene parametara regresijskog modela postavlja se pitanje reprezentativnosti, odnosno sposobnosti modela da objasni kretanje ovisne varijable Y uz pomo odabrane neovisne varijable X. Varijanaca regresije je aritmetika sredina kvadrata rezidualnih odstupanja: n
2 y = 2 ( ) y y i i i =1

Standardna devijacija regresije je apsolutni pokazatelj reprezentativnosti regresijskog modela, a pokazuje prosjeni stupanj varijacije stvarnih vrijednosti ovisne varijable u odnosu na oekivane regresijske vrijednosti:
2 ( ) y y i i i =1 n

y =

Reprezentativnost linearne regresije


Relativni pokazatelj reprezentativnosti regresijskog modela je koeficijent varijacije regresije, koji predstavlja postotak standardne pogreke regresije od aritmetike sredine varijable Y. to je koeficijent varijacije regresijskog modela blii nuli, to je model reprezentativniji. esto se uzima dogovorena granica reprezentativnosti od 10%. Dakle ako je koeficijent varijacije manji od 10% kae se da je model reprezentativan (dobar).

Vy =

y
y

100

Reprezentativnost linearne regresije


Odstupanja protumaena modelom (SP = ST SR):

i y ) SP = ( y
i =1

Ukupna odstupanja:

ST = ( yi y )
i =1

Neprotumaena odstupanja:

) SR = ( yi y
i =1

Reprezentativnost linearne regresije


Koeficijent determinacije R2 predstavlja omjer protumaenih i ukupnih odstupanja:

SP R = ST
2

Visina koeficijenta determinacije govori o reprezentativnosti modela model je reprezentativniji to je R2 blii 1:

0 R2 1

Procjena koeficijenta korelacije


Najpoznatija mjera linearne korelacije izmeu sluajnih varijabli je Pearsonov koeficijent linearne korelacije (r). Koeficijent korelacije (r) predznak dobiva prema predznaku parametra b, a moe se izraunati iz koeficijenta determinacije:

r = R2
Vrijednost koeficijenta korelacije kree se u intervalu:

-1 r 1

Procjena koeficijenta korelacije


U skladu s veliinom ovog koeficijenta moe se zakljuiti smjer i intenzitet linearne korelacije meu promatranim varijablama: Chadockova ljestvica
R2 0 0,00-0,25 0,25-0,64 0,64-1 1 r 0 0,00-0,50 0,50-0,80 0,80-1 1 Objanjenje Odsutnost veze Slaba veza Veza srednje jakosti vrsta veza Potpuna veza

Procjena koeficijenta korelacije


NAPOMENA: prije donoenja zakljuka provjeriti koeficijent varijacije regresijske funkcije (je li zaista rije o linearnoj funkciji) kod donoenja zakljuka treba tumaiti i koeficijent determinacije i koeficijent korelacije

Model jednostavne linearne regresije


Primjer 1.
Tablica 1. Godine obrazovanja i prosjene plae zaposlenika u trgovini Z u 2009. god. Godine obrazovanja (xi) Prosjena neto mjesena plaa u kn (yi)

6 8 10 12 12 14 14 15 16 18 125
Izvor: Podaci trgovine Z, 2010. god.

3.500 3.600 3.600 4.100 4.200 4.900 4.700 4.900 5.800 6.500 45.800

Zadatak je: a) nacrtati dijagram rasipanja b) ocijeniti parametre jednadbi pravaca linearne regresije c) izraunati koeficijent determinacije d) izraunati Pearsonov koeficijent linearne korelacije e) izraunati koeficijent varijacije regresije

Dijagram rasipanja
Grafikon 1. Godine obrazovanja i prosjene plae zaposlenika u trgovini Z u 2009. god.
7.000 6.000

Mjesena plaa

5.000 4.000 3.000 2.000 1.000 0 5 7 9 11 13 15 17 19

Godine obrazovanja
Izvor: Podaci trgovine Z, 2010.god.

Primjer 1.
n
n

y=

yi
i =1

45800 = = 4580 10

x=

x
i =1

125 = 12,5 10

(xi)

(yi)

xiyi

x i2

Jednadba prvog pravca regresije:

6 3.500 21.000 8 3.600 28.800 10 3.600 36.000 12 4.100 49.200 12 4.200 50.400 14 4.900 68.600 14 4.700 65.800 15 4.900 73.500 16 5.800 92.800 18 6.500 117.000 125 45.800 603.100

36 64 100 144 144 196 196 225 256 324 1.685

b=

X Y nXY
i i 2 i i =1 n

X
i =1

nX 2

603100 10 12,5 4580 = 249,8 1685 10 12,52

a = Y b X = 4580 249 ,8 12 ,5 = 1457 , 6

= a + bX = 1457,5 + 249,8 X Y
Regresijski koeficijent (b) pokazuje da se mjesena neto plaa poveava u prosjeku za 249,8 kn kada se duina obrazovanje produi za 1 godinu.

Primjer 1.
x = 12,5
(xi) (yi) xiyi
y i2

y = 4580

Jednadba drugog pravca regresije:


b' =

6 3.500 12.250.000 21.000 8 3.600 12.960.000 28.800 10 3.600 12.960.000 36.000 12 4.100 16.810.000 49.200 12 4.200 17.640.000 50.400 14 4.900 24.010.000 68.600 14 4.700 22.090.000 65.800 15 4.900 24.010.000 73.500 16 5.800 33.640.000 92.800 18 6.500 42.250.000 117.000 125 45.800 603.100 218.620.000

X Y nXY
i =1 n i i 2

Y
i =1

nY 2

603100 10 12,5 4580 = 0,0035 218620000 10 45802

a ' = X b ' Y = 12,5 0,0035 4580 = 3,53

= a '+ b ' Y = 3,53 + 0 , 0035 Y X


Regresijski koeficijent (b) pokazuje da se obrazovanje produilo u prosjeku za 0,0035 godine ukoliko se mjesena neto plaa poveala za 1 kn.

Primjer 1.
Koeficijent determinacije
= 1457,2 + 249,8 X Y
(xi) 6 8 10 12 12 14 14 15 16 18 125 (yi) 3.500 3.600 3.600 4.100 4.200 4.900 4.700 4.900 5.800 6.500 45.800
i y
i y )2 (y

( yi y )2
1166400 960400 960400 230400 144400 102400 14400 102400 1488400 3686400 8856000

R2 =
R2 =

2.956 3.456 3.956 4.455 4.455 4.955 4.955 5.204 5.454 5.954 45.800

2636316 1263560 389988 15600 15600 140395 140395 389987 764375 1887539 7643754

SP ST
7643754 = 0,863 8856000

1 y ) SP = ( y
i =1

SP = 7643754
ST = ( yi y)
i =1 n 2

ST = 8856000

Pearsonov koeficijent korelacije

r = R2

r = 0,863 = 0,93

Primjer 1.
Koeficijent varijacije regresije
(xi) (yi)
i )2 ( yi y

Varijanca regresije:
2 y =

6 3.500 295.581 8 3.600 20.760 10 3.600 126.387 12 4.100 126.097 12 4.200 65.077 14 4.900 2.991 14 4.700 64.869 15 4.900 92.714 16 5.800 119.519 18 6.500 298.250 125 45.800 1.212.245

(y
i =1

i ) y

n
n

2 y =

1212245 = 121224,5 10

i )2 SR = ( yi y
i =1

SR = 1212245

Standardna devijacija regresije:


2 y = y

y = 121224,5 = 348,17

Koeficijent varijacije regresije:

Vy =

y
y

100

Vy =

348,17 100 = 7,6% 4580

Koeficijent varijacije regresije manji je od 10% pa je ocijenjeni model regresije reprezentativan.

KOEFICIJENT KORELACIJE RANGA

Koeficijent korelacije ranga


Koeficijent korelacije ranga koristi se za ispitivanje stupnja veze izmeu pojava danih u obliku modaliteta ordinalne (redoslijedne, rang) varijable. varijable Najpoznatija mjera korelacije ranga izmeu dviju varijabli je Spearmanov koeficijent korelacije ranga (rS).

Spearmanov koeficijent korelacije


Postupak:
kreiraju se parovi vrijednosti varijabli ranga: r(xi), r(yi), i=1,2,...,n za modalitete varijabli ranga, pretpostavlja se da poprimaju vrijednosti prvih n prirodnih brojeva, izraunavaju se razlike rangova: di = r(xi) r(yi), i=1,2,...,n pri potpunom slaganju varijacija varijabli ranga (perfektna rang-korelacija) razlika rangova varijable X i varijable Y jednaka je 0 utjecaj predznaka razlika rangova uklanja se njihovim kvadriranjem

Spearmanov koeficijent korelacije


Spearmanov koeficijent korelacije ranga glasi:
n

rs = 1

6 d i2 n n
i =1 3

Moe poprimiti vrijednosti iz intervala: -1 rs 1


rs e biti -1 ako je redoslijed modaliteta varijable X obrnut od redoslijeda modaliteta varijable Y ako dva modaliteta jedne varijable imaju jednaki rang, oba modaliteta pridruuju aritmetiku sredinu rangova

Primjer korelacije ranga


Primjer 2. Vlasnik velikog salona automobila Z eli utvrditi odnos izmeu postignutih bodova na testu koji su prodavai ispunjavali prilikom prijema na posao i prodanih automobila, koje su ti prodavai uspjeli prodati tijekom svoje prve godine rada u tom salonu. Sluajni uzorak od 10 prodavaa dao je sljedee rezultate:

Tablica 2. Bodovi postignuti na testu i broj prodanih automobila 10 prodavaa (N=10) autosalona Z, 2009. godine
Prodava A B C D E F G H I J Bodovi na testu (xi) 51 65 49 66 50 64 68 72 77 75 Broj prodanih automobila (yi) 35 46 33 45 29 42 47 50 52 53

Izvor: Podaci autosalona Z, 2010. god.

Zadatak je izraunati Spearmanov koeficijent korelacije ranga.

Primjer 2.
Prvo se rangiraju vrijednosti varijabli:
Prodava A B C D E F G H I J Bodovi na testu (xi) 51 65 49 66 50 64 68 72 77 75 Broj prodanih automobila (yi) 35 46 33 45 29 42 47 50 52 53 Rangirane varijable r(xi) 8 6 10 5 9 7 4 3 1 2 r(yi) 8 5 9 6 10 7 4 3 2 1

Primjer 2.
Nakon rangiranja varijabli, izraunavaju se razlike rangova vrijednosti varijabli X i Y (d): Prodava Rangirane varijable r(xi) A B C D E F G H I J 8 6 10 5 9 7 4 3 1 2 r(yi) 8 5 9 6 10 7 4 3 2 1 di = r(xi)-r(yi) 0 1 1 -1 -1 0 0 0 -1 1 di2 0 1 1 1 1 0 0 0 1 1
N

d
i =1

2 i

=6

Primjer 2.
Spearmanov koeficijent korelacije ranga iznosi:

66 = 0,96 rs = 1 =1 3 N N 10 10
i =1 3

6 d i2

d
i =1

2 i

=6

gdje N = broj parova vrijednosti varijabli X i Y Oita je jaka veza izmeu postignutih bodova na testu i broja prodanih automobila.

You might also like