You are on page 1of 27

9.

REGRESIJA I KORELACIJA

Jednodimenzionalna analiza istraivanje jedne pojave predoene


statistikim nizom nezavisno od drugih statistikim metodama
(grafiko i tabelarno prikazivanje niza, izraunavanje razliitih
brojanih pokazatelja) kako bi se donijeli zakljuci o svojstvima
dane pojave
Mnotvo je sluajeva koji se odnose na istraivanje meusobnog
odnosa dviju ili vie pojava promjena jedne pojave uvjetovana je
promjenama druge ili drugih
Povezanost pojava moe biti:
funkcionalna veze se mogu predoiti izrazima na temelju
kojih se tono utvruje vrijednost jedne za danu vrijednost
druge (drugih) vrijednosti: Y = f (X )
statistika jednoj vrijednosti jedne pojave odgovara vie
vrijednosti druge (drugih) pojava

Istraivati se moe jakost statistikih veza stupanj statistike


povezanosti izmeu pojava mjeri se metodama koje ine podruje
korelacijske analize
Ako je svrha analitiki (jednadbom) izraziti odnos izmeu
pojava, primijenit e se regresijski modeli
Model koji sadri jednu zavisnu i jednu nezavisnu varijablu
naziva se modelom jednostavne regresije, a model sa dvije ili
vie nezavisnih varijabli model viestruke regresije
Regresijska i korelacijska analiza provode se na osnovi stvarnih
vrijednosti pojava (varijabli)

Za odreivanje oblika regresije kao vrlo prikladno, a


jednostavno sredstvo slui dijagram rasipanja
konstruira se tako da se u koordinatni sustav (najee se
koristi I. kvadrant ili dio njega) unose parovi vrijednosti
varijable X i Y, tj. on se sastoji od toaka (xi, yi)
iz rasporeda toaka zakljuujemo o obliku, smjeru i jakosti
veze

JEDNOSTAVNA LINEARNA REGRESIJA


Opisuje se odnos meu pojavama za koje je svojstveno da
svakome jedininom porastu vrijednosti jedne varijable odgovara
priblino jednaka linearna promjena druge varijable
Model jednostavne linearne regresije:
Y = a + bX + u
X = nezavisna varijabla
Y = zavisna varijabla
u = odstupanje od funkcionalnog odnosa
a, b = parametri

Regresijska analiza provodi se na temelju n parova vrijednosti


varijabli X i Y : (x1, y1), (x2, y2), ..., (xn, yn), pa se model
predouje sustavom od n jednadbi:
yi= a + bxi + ui

Kada bi odnos meu varijablama bio funkcionalan, svaka bi


vrijednost varijable ui bila jednaka nuli geometrijski, sve bi
toke s koordinatama (xi, yi), i = 1,2,...,n leale na istome pravcu

Kako su odnosi meu pojavama statistiki, treba odrediti kriterij


prema kojemu e se izabrati jednadba pravca = a + bx
koji e najbolje opisati odnos pojava na temelju njihovih
opaenih vrijednosti
ui su procjene nepoznatih vrijednost varijable u i nazivaju se
rezidualnim odstupanjima
ui yi $
yi
a relativno izraena rezidualna odstupanja: ui ,rel

yi $
yi

100
yi

Jednadba pravca odreena je ako su poznati parametri a i b

Do procjene parametara najee se dolazi metodom najmanjih


kvadrata sastoji se u odreivanju onih procjena parametara za
koje rezidualni zbroj kvadrata postie minimum
n

x y n xy
i 1
n

x
i 1

2
i

n x

a y b x

Veliina b je regresijski koeficijent pokazuje za koliko se u


prosjeku mijenja vrijednost zavisne varijable Y za jedininu
promjenu vrijednosti nezavisne varijable X

Regresijska jednadba je analitiki izraz koji u smislu prosjeka


opisuje odnos meu pojavama osnova za mjerenje
reprezentativnosti disperzija oko regresije, koja se oituje na
rezidualnim odstupanjima (manja odstupanja empirijskih
vrijednosti zavisne varijable od regresijskih vrijednosti bolja
reprezentativnost regresije)
1
2
Varijanca regresije: $y
n

y a yi b xi yi

i 1
i 1
i 1

2
i

Standardna devijacija regresije: $ 1


y
n
Koeficijent varijacije regresije: V
$
y

$y
y

y a yi b xi yi

i 1
i 1
i 1

100

2
i

Specifian pokazatelj reprezentativnosti regresije jest koeficijent


determinacije:

R2

i 1

i 1

a yi b xi yi n y
n

y
i 1

2
i

n y

, 0 R2 1

Model je reprezentativniji to je koeficijent determinacije blii


jedinici

CHADOCKOVA LJESTVICA:

R2
0
0,00 0.25
0.25 0.64
0.64 1
1

Tumaenje
odsutnost veze
slaba veza
veza srednje jakosti
vrsta veza
potpuna veza

PRIMJER 1. U tabeli 1. izloen je postupak raunanja parametara


linearne regresijske jednadbe i dane su regresijske vrijednosti.
Uzmimo, npr., da neko poduzee analizira podatke o ostvarenom
prometu i dobiti (oboje u mil. kn) u 8 uzastopnih godina:
Promet Dobit
xi

yi

20
30
40
50
70
80
90
100
480

1
3
3.5
5
7
8.5
9
13
50

xi 2
20
400
90
900
140 1600
250 2500
490 4900
680 6400
810 8100
1300 10000
3780 34800
xi yi

Regresijske
vrijednosti
$
y
i

1.05
2.35
3.65
4.95
7.55
8.85
10.15
11.45
50.00

Tabela 1.

Prikaimo prvo 8 parova vrijednosti prometa i dobiti na


dijagramu rasipanja:

Vidimo sa slike da su toke rasporeene priblino pravcu, a veza


je pozitivna, tj. porast vrijednosti jedne varijable prati rast druge
varijable
Veza je priline jakosti jer su toke blizu zamiljenog pravca koji
uvijek prolazi kroz toku x, y

Napomena: ovdje se radi o kolskom primjeru, s malim brojem


parova vrijednosti statistiki utemeljeniji zakljuci dobivaju se
na osnovi dulje serije vrijednosti obiju varijabli
Ocijenimo parametre a i b linearne regresije:
xi 480
yi 50

60 , y

6.25
n
8
n
8

x y n xy
i 1
8

x
i 1

2
i

n x

3780 8 60 6.25

0.13
2
34800 8 60

a y b x 6.25 0.13 60 1.55

Regresija
s ocijenjenim parametrima glasi:
$
y a bx 1.55 0.13 x
Prema dobivenoj jednadbi, ako promet poraste za 1 mil. kn
moemo oekivati poveanje dobiti za 0.13 mil. kn

Za dani niz empirijskih podataka nezavisne varijable X , pripadne


se regresijske vrijednosti (5. stupac iz tabele 1) raunaju njihovim
uvrtavanjem u regresijsku jednadbu:
$
y1 a bx1 1.55 0.13 20 1.05
$
y 2 a bx2 1.55 0.13 30 2.35
L
$
y 8 a bx8 1.55 0.13 100 11.45
Regresijske su vrijednosti pogodno sredstvo za prognoziranje.
Npr., moemo izraunati koliku dobit moemo oekivati ako bi
promet porastao na 110 mil. kn:
$
y ( x 110) a bx1 1.55 0.13 110 12.75 mil. kn

1
$y
n

V$y

R2

a
y

b
x
y

418.5 1.55 50 0.13 3780 0.758

i
i i
8
i 1
i 1
i 1

2
i

$y

0.758
100
100

12.13%
6.25
y
n

i 1

i 1

a yi b xi yi n y
n

y
i 1

2
i

n y

1.55 50 0.13
3780 8 6.25
2 101.4
=

0.9566
2
418.5 8 6.25
106

KOEFICIJENT LINEARNE KORELACIJE


Pokazatelj jakosti i smjera dviju pojava je Pearsonov koeficijent
linearne korelacije
Podloga za njegovo raunanje je raspored toaka, tj. parova
opaenih vrijednosti dviju varijabli u dijagramu rasipanja
Podijelimo li dijagram rasipanja (slika 2.) pravcima X x
i Y y na 4 dijela, vidimo, npr. da su, ako se radi o
pozitivnoj linearnoj vezi, toke (xi, yi) preteno rasporeene u
prvom i treem kvadrantu dijagrama rasipanja

Polazna veliina za mjerenje jakosti i smjera je kovarijanca


varijabli X i Y:

1 n
cov X , Y 11 xi x
n i 1

1 n
yi y xi yi x y
n i 1

Kovarijanca ovisi o veliini i mjernim jedinicama varijabli X i


Y, a da bi se dobio pokazatelj jakosti neovisan o mjernim
jedinicama treba standardizirati obje varijable
Kovarijanca standardiziranih vrijednosti je Pearsonov
koeficijent linearne korelacije:
11
r
, 1 r 1
x y

Vrijednost koeficijenta jednaka nuli govori da ne postoji linearna


korelacija meu pojavama, vrijednost 1 da je potpuna i pozitivna
smjera, a vrijednost -1 da je potpuna i negativnog smjera. to je
koeficijent po apsolutnoj vrijednosti blii jedinici, veza je ua
Pearsonov koeficijent linearne korelacije mogue je pisati na vie
naina:
Kao produkt regresijskog koeficijenta
b i omjera standardnih
devijacija obiju varijabli:

r b

Putem koeficijenta determinacije:

y
r R2

ako se radi o negativnoj regresijskoj vezi treba ispred korijena


staviti negativni predznak

KORELACIJA RANGA
Ispitivanje stupnja veze izmeu pojava danih u obliku modaliteta
redoslijedne (rang) varijable nije mogue na isti nain kao i za
one dane u obliku numerikih nizova, jer varijable ranga nemaju
za to potrebna metrika svojstva
Vrijednosti dviju varijabli se rangiraju po veliini, a povezanost
njihovih rangova se mjeri Spearmanovim koeficijentom
korelacije ranga:
n

rs 1

6 di2
i 1
3

n n

, 1 rs 1

Sa di su oznaene razlike izmeu rangovima pojedinih


vrijednosti varijable X i Y :
di r xi r yi

Vrijednostima pojedine varijable pridrueni su rangovi tako da je


najmanjoj vrijednosti pridruen rang 1, sljedeoj po veliini
vrijednosti iste varijable rang 2, ... Maksimalni mogui rang je n.
Ako se neka od vrijednosti ponavlja, onda se svakoj od njih
pridruuje aritmetika sredina pripadajuih rangova

PRIMJER 2. Novinari dvaju asopisa birali su menadera


godine. Desetorici kandidata novinari pojedinog asopisa su
davali bodove kojima je mjerena njihova uspjenost. Izraunat
emo stupanj korelacije kriterija ocjenjivanja obaju urednitava:

Bodovi dodijeljenih od
Rang
Rang
Kvadrati
Redni broj
urednitva asopisa
vrijednosti vrijednosti Razlike
razlika
kandidata
varijable
varijable rangova
rangova
A
B
X
Y
xi
yi
di
r xi
r yi
di 2
1
2
3
4
5
6
7
8
9
10
Ukupno

53
15
30
47
60
75
14
25
25
19
-

48
32
62
64
70
65
17
28
30
16
-

8
2
6
7
9
10
1
4.5
4.5
3
55

6
5
7
8
10
9
2
3
4
1
55

2
-3
-1
-1
-1
1
-1
1.5
0.5
2
0

4
9
1
1
1
1
1
2.25
0.25
4
24.5

Objanjenje rangova u 4. stupcu: najmanjoj vrijednosti varijable


X , 14, pridruen je rang 1. Sljedei su po veliini bodova 15 i 19,
pa su njima pridrueni rangovi 2 i 3. nakon toga slijede dva po
veliini jednaka broja bodova, 25, a kako su na redu rangovi 4 i
5, to je svakoj vrijednosti pridruena aritmetika sredina tih dvaju
rangova, tj. 4.5. Slijedi po veliini 30 bodova, kojima je
pridruen rang 6, ...
n

6 di2

6 24.5
rs 1
1 3
0.8515
n n
10 10
i 1
3

Spearmanov koeficijent korelacije ranga je dosta blizu jedinice,


to znai da je veza meu rangovima dviju varijabli pozitivna i
dosta jaka. Kandidat kojeg je jedno urednitvo ocijenilo dobro,
proao je dobro i kod drugog urednika i obrnuto. To upuuje na
dosta dobru usklaenost kriterija obaju urednitva

You might also like