You are on page 1of 34

Korelacijska i regresijska analiza

Odnosi meu pojavama


Odnos meu pojavama moe biti:
deterministiki ili funkcionalni i
stohastiki ili statistiki
Kod deterministikoga se odnosa za svaku vrijednost
jedne pojave tono zna vrijednost druge pojave.
Kod stohastikoga se odnosa na osnovi vrijednosti
jedne pojave ne moe sa sigurnou predvidjeti
vrijednost druge pojave.
Primjeri deterministikih odnosa: stranica kvadrata i njegov opseg,
koliina prodane robe i dobiveni iznos novca.

Primjeri stohastikih odnosa: cijena neke robe i njezina potranja,


visina i starost stabla.

Osnovna su pitanja koja pri prouavanju odnosa izmeu


dviju ili vie pojava postavljamo:

Jesu li statistike varijable povezane?


Na koji su nain povezane?
Koliko su snano povezane?
Moe li se povezanost numeriki izraziti?

Istraivanjem i kvantificiranjem povezanosti meu

promatranim pojavama, odnosno varijablama bavi se


korelacijska analiza.

Utvrivanjem analitikog izraza povezanosti meu


pojavama bavi se regresijska analiza.

Dijagram rasprenja

Polazna toka u korelacijskoj i regresijskoj

analizi jest dijagram rasprenja. To je grafiki


prikaz toaka u koordinatnome sustavu koje
predstavljaju niz ureenih parova (x1, y1),
(x2, y2), , (xn, yn); pri emu su x1, x2, , xn,
vrijednosti jedne varijable (X ), a y1, y2, , yn,
vrijednosti druge varijable (Y ).

Uoimo li neku pravilnost u rasporedu toaka u

dijagramu rasprenja, moemo zakljuiti jesu li


varijable korelirane ili nisu.

Primjeri dijagrama rasprenja

Postoji korelacija

Nema korelacije

Linearna i nelinearna korelacija

Korelacije pozitivnog i negativnog smjera

Jaka i slaba korelacija

Potpuna korelacija

Koeficijenti korelacije
Koeficijenti korelacije su pokazatelji stupnja

statistike povezanosti.
Ako se istrauje veza izmeu dviju varijabli i ako je ta
veza linearna, stupanj povezanosti izraava se
koeficijentom linearne korelacije.
Istrauje li se postojanje linearne veze jedne varijable u
ovisnosti od dviju ili vie drugih varijabli, stupanj
povezanosti izraava se koeficijentom viestruke

linearne korelacije.

Stupanj nelinearne ili krivolinijske veze izmeu varijabli

izraava se koeficijentom krivolinijske korelacije.


Ako su promatrane pojave predstavljene redosljednim
varijablama, stupanj njihove povezanosti izraava se
koeficijentom korelacije ranga.

Pearsonov* koeficijent korelacije


Pearsonov koeficijent korelacije (r ) mjeri jakost i smjer linearne

korelacije.
Rauna se po formuli:

r=

xy
x y

gdje su x i y standardne devijacije varijabli X i Y, a xy je


kovarijanca - aritmetika sredina umnoaka odstupanja varijabli od
njihovih aritmetikih sredina.
Kovarijanca niza n ureenih parova vrijednosti obiljeja X i Y rauna se po formuli:

xy

1 n
= ( xi x ) ( y i y )
n i =1
n

ili po formuli:

xy =

xi y i
i =1

xy

*Karl Pearson (1857. - 1936.), engleski matematiar, statistiar i biolog.

Uvijek je -1 r 1.
Ako je |r | = 1, veza je funkcionalna;
ako je r = 0, ne postoji linearna korelacija meu ispitivanim
pojavama.

Smjer korelacije jednak je predznaku od r.


Stupanj jakosti korelacije okvirno je dan saljedeom tablicom:
|r|
0

Jakost korelacije
nema korelacije

0 - 0,5

slaba korelacija

0,5 - 0,8

srednje jaka
korelacija
jaka korelacija

0,8 - 1
1

potpuna korelacija

Regresijska analiza

Regresijska analiza bavi se odreivanjem

funkcionalne zavisnosti izmeu dviju ili vie


varijabli. Analitiki izraz te zavisnosti zove se
regresijski model.

Ako model izraava vezu izmeu zavisne i jedne


nezavisne varijable, rije je o jednostavnom
regresijskom modelu.

Ako model izraava vezu izmeu zavisne i dviju


ili vie nezavisnih varijabli, rije je o modelu

viestruke regresije.

Regresijski modeli mogu izraavati i linearne i

nelinearne veze izmeu promatranih pojava ili


varijabli.

Najjednostavniji oblik zavisnosti, odnosno

najjednostavniji regresijski model je model


jednostavne linearne regresije*:

y = ax + b,
gdje je a, b R.

Ovakvim modelom pokuavamo objasniti veliinu


y preko samo jedne veliine (x), a svi ostali

utjecaji se zanemaruju.

Takav je pristup u praksi opravdan jer smo

najee u nemogunosti sagledati sve utjecaje


na veliinu y, pa uzimamo u obzir samo
najbitnije.

*Model je linearan ako svaka varijabla u modelu ima potenciju 1.

No mogue je da se analizom doe do zakljuka


da je y u znaajnoj linearnoj zavisnosti od vie
varijabli. Tada bi odreivali model oblika:

y = ax1 + ax2 + + axk + b,


gdje je ai, b R, i = 1, , k.
To je model viestruke linearne regresije.

Podaci za regresijsku analizu nastaju

opaanjem ili mjerenjem u statistikim


pokusima.

U gospodarskim primjenama regresijskog


modela podaci se javljaju kao:

1. brojane vrijednosti pojava za odreene


gospodarske ili prostorne jedinice
2. vremenski nizovi
3. kombinacija 1. i 2.

Model jednostavne linearne regresije

Pretpostavimo da je zadan dijagram rasprenja

od n toaka (x1, y1), (x2, y2), ..., (xn, yn), te da


nas oblik tog dijagrama upuuje na postojanje
linearne korelacije meu obiljejima X i Y.
Pravac regresije p ima jednadbu:
y = ax + b.

Nagib (a) i odsjeak (b) odreuju se metodom najmanjih


kvadrata.

Metoda najmanjih kvadrata


Metoda najmanjih kvadrata bazira se na uvjetu da zbroj

kvadrata vertikalnih odstupanja toaka u dijagramu


rasprenja od traenog pravca regresije bude minimalan.
Y
y = ax + b

( x2 , y 2 )

( x1 , y 1 )

( x3 y 3 )

ax2 + b

ax1 + b

ax3 + b
X

x1

x2

x3

Vertikalna odstupanja od pravca regresije

Iz zadanog uvjeta dobije se:

a=

xy
x

,
2

b = y a x,

gdje je x2 varijanca varijable X, a xy kovarijanca izmeu


varijabli X i Y.
,
.

Parametar a zove se regresijski koeficijent . On pokazuje za


koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna
varijabla promijeni za jedan.
Parametar b je konstanta i pokazuje vrijednost zavisne varijable
u sluaju kada je nezavisna varijabla jednaka nuli.

Primjedba
Kao to smo promatrali pravac regresije veliine Y u

odnosu na veliinu X, moemo promatrati i obrnuto:


pravac regresije veliine X u odnosu na veliinu Y. Taj
pravac ima jednadbu:

x = ay + b,
,
.

gdje je:

a =

xy
y

,
2

b = x a y .

Primjer 1: Mjerenjem duljine klipa kukuruza (u cm) i broja zrna na klipu na uzorku od 20 klipova dobiveni
su sljedei podaci:
Duljina klipa (X)
17,5
15,5
21,0
26,0
21,5
18,0
19,5
23,0
22,5
19,0
Broj zrna na klipu (Y) 480
456
564
714
602
558
640
648
562
565
Duljina klipa (X )
Broj zrna na klipu (Y)

20,5
600

17,0
490

16,5
472

15,5
458

22,0
560

25,0
598

21,0
603

18,0
565

19,5
620

Na osnovi dobivenih podataka nacrtan je dijagram rasprenja.


700
650
600
550
500
450
5

10

15

20

25

Ovaj dijagram upuuje na zakljuak da postoji linearna korelacija, pa ima


smisla traiti jednadbu pravca regresije:

23,0
672

Za odreivanje te jednadbe treba izraunamti varijancu i kvarijancu, za zadane


podatke. Izraunavanjem se dobiva:
xy = 178,217; x = 2,96859; y = 71,9731.
Uvrtavanjem u formule za odreivanje nagiba i odsjeka pravca regresije dobivamo:

178,217
a=
= 20,2232
2
2.96859

b = y a x = 571,35 20,2232 20,125 = 164,358


Jednadba pravca regresije je y = 20,2232x + 164,358.
Njegov je graf dan je na sljedeoj slici. slici

700
650
600
550
500
450
5

10

15

20

25

Primjer 2:
Promatrana je veza izmeu broja proizvedenih proizvoda (X) i
ukupnog profita (Y) (u tisuama kuna). Dobiveni podaci dani su
u tablici:
xi

yi

100

26

105

29

110

33

120

36

145

41

150

43

a) Nacrtajte dijagram rasprenja.


b) Odredite jednadbu pravca regresije koji
pokazuje ovisnost ukupnog profita o broju
proizvedenih proizvoda i oznaite znaenje
parametara.
c) Ucrtajte pravac regresije u prethodni graf.
d) Izraunajte regresijske vrijednosti i
vrijednosti rezidualnih odstupanja.

Rjeenje:
a)
50
45
40
35
30
25

Series1

20
15
10
5
0
0

20

40

60

80

100

120

140

160

b)

xi

yi

xi2

xi yi

100

26

10000

2600

105

29

11025

3045

110

33

12100

3630

120

36

14400

4320

145

41

21025

5945

150

43

22500

6450

730

208

91050

25990

x=

730
= 121,67,
6

y=

208
= 34,67
6

xi yi n x y 25990 6 121,67 34,67


680,2

a=
=
=
= 0,30523
2
2
2
2228,47
91050 6 121,67
xi n x
b = y b x = 34,67 0,30523 121,67 = 2,46733
Jednadba pravca regresije je:

y = 0,30523x 2,46733

d)

50
y = 0,306x - 2,5597

45

R = 0,9446

40
35
30

Series1

25

Linear (Series1)

20
15
10
5
0
0

20

40

60

80

100

120

140

160

d) Izraunavanje regresijskih vrijednosti i vrijednosti rezidualnih odstupanja.

y i

xi

yi

100

26

28,05567

-2,05567

105

29

29,58182

-0,58182

110

33

31,10797

1,89203

120

36

34,16027

1,83973

145

41

41,79102

-0,79102

150

43

43,31717

-0,31717

730

208

208,0139

y = y
i

Primjer 3:

Analiziraju se ukupni trokovi proizvodnje u

jednom poduzeu. Na temelju kvartalnih


podataka utvrene su koliine proizvodnje i
ukupni trokovi proizvodnje. Podaci su dani u
tablici.

(a) Nacrtajte dijagram rasipanja. to zakljuujete iz


dijagrama?
(b) Procijenite vrijednosti parametara regresijskog
modela i protumaite njihovo znaenje.
(c) Izraunajte regresijske vrijednosti.
(d) Odredite vrijednosti rezidualnih odstupanja.

Proizvodnja

Uk. trokovi

352

146

373

153

411

177

441

190

462

205

490

208

529

227

577

238

641

268

692

274

743

300

xi

yi

xi2

xi yi

352

146

123904

51392

373

153

139129

57069

411

177

168921

72747

441

190

194481

83790

462

205

213444

94710

490

208

240100

101920

529

227

279841

120083

577

238

332929

137326

641

268

410881

171788

692

274

478864

189608

743

300

552049

222900

5711

2386

3134543

1303333

5711
2386
x=
= 519,1818
y=
= 216,9091
11
11
1303333 11 519,1818 216,9091 64565,17
a=
=
= 0,38092
2
169495,84
3134543 11 519,1818
b = 216,9091 0,38092 519,1818 = 19,14236
y = 19,14236 + 0,38092 x

xi

yi

xi 2

xi yi

352

146

123904

51392

373

153

139129

411

177

441

y i

ui

ui,rel

153,2262

-7,2262

-4,95%

57069

161,2255

-8,2255

-5,38%

168921

72747

175,7005

1,2995

0,73%

190

194481

83790

187,1281

2,8719

1,51%

462

205

213444

94710

195,1274

9,8726

4,82%

490

208

240100

101920

205,7932

2,2068

1,06%

529

227

279841

120083

220,6490

6,3510

2,80%

577

238

332929

137326

238,9332

-0,9332

-0,39%

641

268

410881

171788

263,3121

4,6879

1,75%

692

274

478864

189608

282,7390

-8,7390

-3,19%

743

300

552049

222900

302,1659

-2,1659

-0,72%

5711

2386

3134543 1303333

2386,0001

0,0000

You might also like