You are on page 1of 11

REGRESIJA I KORELACIJA

oi I.(2006). Primijenjena statistika, pp.379-546


U velikom se broju istraivanja analizira
statistikih varijabli s ciljem da se utvrdi.

dvije

ili

vie

postoji li povezanost meu varijablama


jakost veze
moe li se varijabla koja je predmet statistike analize prognozirati
pomou opaenih vrijednosti druge varijable (drugih varijabli)
Regresijska se analiza bavi ispitivanjem ovisnosti jedne
varijable o jednoj ili vie nezavisnih varijabli s ciljem da se
utvrdi analitiki izraz takve povezanosti, odnosno model koji
slui u analitike i prediktivne svrhe.
Model moe povezivati dvije varijable (bivariatna veza) ili vie varijabli
(multivariatna veza).
Model moe biti deterministiki
(stohastiki, probabilistiki).

(funkcionalan)

ili

statistiki

Deterministikim se modelom pretpostavlja egzaktna veza meu


varijablama (za svaku vrijednost nezavisne varijable jednoznano je
odreena vrijednost zavisne varijable).
Y=f(X)
Statistiki model izraava labaviju vezu meu varijablama. Vrijednost
zavisne varijable (Y) nije jednoznano odreena za zadanu vrijednost
nezavisne varijable. Postoje neobjanjene varijacije Y-a zbog
neukljuivanja varijabli koje utjeu na ponaanje zavisne varijable ili
zbog sluajnih utjecaja.
Y= deterministika komponenta+sluajna pogreka

JEDNOSTAVNA REGRESIJA I KORELACIJA


Jednostavna se regresija bavi pronalaenjem analitikog izraza
kojim se opisuje povezanost zavisne ili regresand varijable s
jednom nezavisnom ili regresorskom varijablom.
Model jednostavne linearne regresije je probabilistiki model.
Pretpostavlja se da je zavisna varijabla (Y) (varijabla koju se
modelira) sluajna varijabla povezana s nezavisnom varijablom
(X) slijedeim izrazom:

Yi

Xi

ei

1,2,..., n

Pretpostavlja se da za svaku vrijednost varijable X postoji


distribucija vrijednosti varijable Y.
U gornjem su izrazu:
nepoznati parametri
,

ei , i

1,2,..., n su sluajne varijable ( greke relacije). To su

nepoznate sluajne varijable za koje se pretpostavlja da su


meusobno nezavisne i normalno distribuirane sluajne
varijable sa sredinom nula i varijancom
2

, tj. e i ~ N (0,

) E (e i e j )

U klasinoj regresijskoj analizi pretpostavlja se da je varijabla


X nestohasika (tj da u ponovljenim uzorcima ima fiksne
vrijednosti .

S obzirom da su sluajne varijable Y i linearne funkcije normalno


distribuiranih varijabli

e i , one su takoer normalno distribuirane s

parametrima:

E (Yi )

E(

Var (Yi ) Var (

Xi

ei )
Xi

Xi

E (ei )

ei ) Var (ei )

Xi

Koraci u analizi modela jednostavne linearne regresije:


Pretpostavlja se linearna regresijska veza meu varijablama Y i X,
pri emu je model populacije:

yi

xi

ei

Polazei od n empirijskih (opaenih) vrijednosti varijabli x i y (koje


se smatraju uzorkom iz hipotetike populacije) crta se dijagram
rasipanja.
Nepoznati se parametri procjenjuju metodom najmanjih kvadrata.
Raunaju se procjene pokazatelja reprezentativnosti modela, kao
to su procjena varijance, standardne devijacije i koeficijenta
varijacije regresije, koeficijent determinacije, koeficijent korelacije i
dr.
Ispituje se kakvoa i upotrebljivost dobivenih rezultata. Raunaju se
elementi analize varijance, testiraju se hipoteze o parametrima u

regresijskom modelu, te se ispituje jesu li ispunjene polazne


pretpostavke o modelu.
Ako je model zadovoljavajui,
procjenjivanje i dr.

koristi

se

za

predvianje,

PROCJENJIVANJE PARAMETARA: METODA NAJMANJIH


KVADRATA
Metoda najmanjih kvadrata sastoji se u odreivanju
regresijskog pravca koji minimizira sumu kvadrata rezidualnih
odstupanja.
Model uzorka s procijenjenim parametrima glasi:

x
i

yi

ei

pri emu su i procjene parametara, a e i su rezidualna odstupanja


ili procjene sluajnih varijabli. Gornja se jednadba moe napisati u
obliku:

y i

yi

e i

gdje je s y i oznaena i-ta procijenjena ili regresijska vrijednost zavisne


varijable. Iz tog izraza slijedi:

ei

y i , ei

yi

yi

x )
i

Suma kvadrata rezidualnih odstupanja glasi:


n

SR

ei2

i 1

( yi

x ) 2
i

i 1

Iz zahtjeva da ta suma bude minimalna dolazi se do normalnih


jednadbi za procjenitelje metodom najmanjih kvadrata:
n

xi y i
i 1
n

nx y
,

xi2

nx 2

i 1

Procijenjeni regresijski pravac je:

Regresijske vrijednosti su:

x
i

y i

1,2,..., n

Procjenitelj varijance regresije:


n

( yi

y i ) 2

i 1

n 2

Procjenitelj
standardne
devijacije
regresije
standardna pogreka regresijskog modela je:
n

( yi

y i ) 2

i 1

n 2

a procjenitelj koeficijenta varijacije ( C .V


:

(procijenjena

V ):

100
y

INTERPRETACIJA PROCJENA
Konstantni lan (intercept)
nezavisne varijable x=0.

je vrijednost regresije ako je vrijednost

Regresijski koeficijent je promjena regresijske vrijednosti zavisne


varijable za jedinino poveanje varijable x. Ili:
Regresijski koeficijent je prosjena promjena zavisne varijable y za
jedinino poveanje varijable x.
Regresijske vrijednosti
zavisne

xi , i

y i , i

1,2,, n su procijenjene vrijednosti

varijable za zadane vrijednosti nezavisne


1,2,, n . (To su ordinate na regresijskom pravcu).

varijable

Rezidualna odstupanja e i , i

1,2,, n su procjene sluajnih varijabli

na osnovi
regresijskih vrijednosti.

uzorka.

ei , i

1,2,, n

To

su

razlike

empirijskih

Procjena varijance 2 , procjena standardne devijacije i procjena


koeficijenta varijacije C.V su mjere disperzije regresijskog modela.
Procjena standardne devijacije regresije se interpretira kao prosjeno
odstupanje empirijskih od regresijskih vrijednosti. Model je dobar ako
su procjene varijance i standardne devijacije male. Procjena
standardne devijacije regresije izraena je u istim mjernim jedinicama
kao i vrijednosti zavisne varijable. Procjena koeficijenta varijacije je
relativna mjera disperzije oko regresijskog pravca.
JEDNADBA ANALIZE VARIJANCE. TABELA ANOVA

Odstupanje empirijske vrijednosti y i od prosjeka moe se ralaniti na


protumaeno odstupanje (odstupanje odgovarajue regresijske
vrijednosti od prosjeka) i neprotumaeno ili rezidualno odstupanje:

( yi

y)

( y i

y i ) i

y) ( yi

1,2,, n

S obzirom da je suma odstupanja pojedinanih vrijednosti varijable od


prosjeka uvijek jednaka nuli:
n

( yi

y)

0,

i 1

rauna se suma kvadrata odstupanja:


n

( yi
i 1

y)

( y i

y)

i 1

( yi

y i ) 2

i 1

Dobivena se jednadba zove jednadba analize varijance. Njene su


komponente:
Ukupna suma kvadrata ST (The total sum of squares, corrected sum
of squares SSy y):
n

ST

( yi

y)2

i 1

Protumaena suma kvadrata SP (the sum of regression due to the


linear regresion, model, explained sum of squares SSR) je suma
kvadrata odstupanja regresijskih vrijednosti od prosjeka:
n

SP

( yi

y)2

i 1

Suma kvadrata neprotumaenih ili rezidualnih odstupanja SR


(residual, unexplained sum of squares, sum of squared errors, SSE):
n

SR

( yi

y i ) 2

i 1

Jednadba analize varijance se simboliki moe zapisati:


ST=SP+SR

Elementi analize varijance (jednostavna regresija) predoeni su u


tabeli analize varijance (tabeli ANOVA):
Izvor varijacije

Protumaen
modelom
Neprotumaena
odstupanja
Ukupno

SR
je
n 2

Stupnjevi
slobode
DF

Sume
kvadrata
SS

Sredine
kvadrata
MS

SP

SP/1

n-2

SR

SR/(n-2)

n-1

ST

F-omjer

PROB>F

SP / 1
SR /(n 2)

nepristran procjenitelj varijance regresije;

SR
n 2

je nepristrani procjenitelj standardne devijacije regresije - Root MSE,


SP
je koeficijent determinacije, R-Square;
r2
ST
r 2 je korigirani koeficijent determinacije Adj R-Sq;
KOEFICIJENT DETERMINACIJE, KORIGIRANI KOEFICIJENT
DETERMINACIJE, KOEFICIJENT KORELACIJE
Koeficijent determinacije (Coefficient of determination) je proporcija
varijacija iz uzorka protumaena linearnom regresijskom vezom:
n

r2

( y i

y)2

i 1
n

,
( yi

y)

r2

i 1

Interpretacija: 100( r 2 )% varijacija iz uzorka (mjerenih sumom


kvadrata ukupnih odstupanja empirijskih vrijednosti od prosjeka)
moe se protumaiti uporabom x-a za procjenu (predvianje) y-a u
modelu jednostavne linearne regresije.
Korigirani
koeficijent
determinacije
(corrected
coefficient
of
determination) je mjera reprezentativnosti modela koja se izraunava
korigiranjem koeficijenta determinacije faktorom koji ovisi o broju
stupnjeva slobode:

r2

n 1
(1 r 2 )
n 2

Koeficijent linearne korelacije (coefficient of linear corelation) je mjera


jakosti i smjera linearne veze izmeu varijabli x i y. Definiran je
izrazom:
n

Cov ( x , y )
x

xi yi
,

nx y

i 1

2
i

nx

i 1

2
i

ny

1 r

i 1

Koeficijent jednostavne linearne korelacije moe se odrediti i kao drugi


korijen iz koeficijenta determinacije, s tim da se predznak od r
odreuje u skladu s predznakom regresijskog koeficijenta:
n

r2 ; r2

( y i

y)2

i 1
n

sign(r)

sign( )

y)2

( yi
i 1

INTERVALNA PROCJENA PARAMETRA


Ako su ispunjene pretpostavke o modelu jednostavne linearne regresije sampling
distribucija procjenitelja parametra
je normalna s oekivanom vrijednosti
jednakom parametru
i standardnom devijacijom jednakoj standardnoj pogreki
regresijskog koeficijenta.
Procjena jednim brojem parametra je
Intervalna procjena od

/2

uz pouzdanost (1- ) definirana je izrazom:

/2

Standardna pogreka s definirana je s:


1

/2

je koeficijent pouzdanosti koji pripada t-distribuciji s n-2 stupnja slobode.

( xi

x)2

i 1

PREDVIANJE POJEDINANIH VRIJEDNOSTI ZAVISNE


VARIJABLE ZA DANU VRIJEDNOST NEZAVISNE
VARIJABLE
Procjenitelj jednim brojem zavisne varijable za zadanu vrijednost x f
nezavisne varijable je:

x
f

y f

Prognostiki interval uz pouzdanost (1- ) je:

P( y f

/2

y f

yf

y f

/2

y f

) 1

pri emu je y f procjena jednim brojem zavisne varijable za x


je koeficijent pouzdanosti, a

y f

xf , t

/2

je standardna pogreka prognostike

vrijednosti definirana izrazom:

y f

1
n

(x f

x )2

( xi

x )2

i 1

10

TESTIRANJE HIPOTEZA O PARAMETRU


Testiranje hipoteza o parametru
mogue je provesti pomou
dvosmjernog testa ili pomou jednosmjernih testova.
Dvosmjerni test

Jednosmjerni test na
gornju granicu

H0 :

H0 :

H0 :

H1 :

H1 :

H1 :

Podruje odbacivanja nulte


hipoteze
(1) Testovna veliina:

Podruje odbacivanja
nulte hipoteze
(1) Testovna veliina:

/2

(n 2)

/2

ili

(3)

H1
(2)

t
t

/2

(1) Testovna veliina:

(2)

Podruje odbacivanja
nulte hipoteze

Jednosmjerni test na
donju granicu

t (n 2)

H1

/2

(n 2)

H1

(2)

H1

H1

H1

(3)

p - vrijednost
H1
p - vrijednost
H1
p vrijednost 2P(t t emp ) p vrijednost P(t t emp )

(3)

p - vrijednost
p vrijednost P(t

H1
t emp )

11

You might also like