You are on page 1of 64

REGRESIONA I

KORELACIONA ANALIZA

Prof. dr Jasmin Komić


REGRESIONA I KORELACIONA ANALIZA
Vrste veza među pojavama

Funkcionalna veza
Funkcionalna (naziva se još i deterministička ili egzaktna)
veza javlja se u slučaju kada jednoj vrijednosti nezavisne
promjenljive X odgovara samo jedna, tačno određena
vrijednost zavisne promjenljive Y.

Stohastička veza
Ovakva veza je slabija od funkcionalne i naziva se
stohastička (ili probabilistička) veza. Kod stohastičkih veza
jednoj vrijednosti nezavisne promjenljive odgovara čitav niz
mogućih vrijednosti zavisne promjenljive.
REGRESIONA I KORELACIONA ANALIZA
Vrste veza među pojavama

Generalna forma stohastičkog (probabilističkog) modela


Y = Deterministički član + stohastički član
Prosjek Y = Deterministički član
Prosjek Y = f(X)

Suština stohastičke veze jeste da između pojedinih


vrijednosti nezavisne promjenljive X i prosječnih vrijednosti
zavisne promjenljive Y (preciznije, očekivanih vrijednosti)
postoji čvrsta, odnosno funkcionalna veza. Bitno je uočiti da
kod stohastičke veze individualne vrijednosti Y mogu
pokazivati znatna odstupanja od prosjeka i da se pravilnost
može otkriti tek ispitivanjem velikog broja podataka.
REGRESIONA I KORELACIONA ANALIZA
Ciljevi

Cilj korelacione analize jeste da se ispita da li između


varijacija posmatranih pojava postoji kvantitativno slaganje i,
ako postoji, u kom stepenu i smjeru.

Cilj regresione analize je da se odredi onaj regresioni


model koji najbolje opisuje vezu između pojava i da se na
osnovu toga modela ocijene i predvide vrijednosti zavisne
promjenljive Y za odabrane vrijednosti objašnjavajuće
promjenljive X.
REGRESIONA I KORELACIONA ANALIZA
Svrha regresione analize

Svrha regresije jeste da se utvrdi oblik veze, odnosno zavisnosti


između posmatranih pojava. To se postiže pomoću odgovarajućeg
regresionog modela. Regresioni model je takav stohastički
model koji kroz matematičku formulu i niz odgovarajućih
pretpostavki najbolje opisuje kvantitativnu zavisnost između
varijacija posmatranih pojava u realnosti. Budući da se statistika
bavi stohastičkim vezama, a uzimajući u obzir suštinu stohastičke
veze, zaključujemo da regresioni model pokazuje prosječno
slaganje varijacija ispitivanih pojava. Regresioni model nije
sam po sebi cilj, već samo sredstvo pomoću kojeg smo u stanju
da ocijenimo i predvidimo vrijednosti zavisne promjenljive za
željene vrijednosti objašnjavajuće promjenljive.
REGRESIONA I KORELACIONA ANALIZA
Dijagram raspršenosti

Dijagramom raspršenosti grafički prikazujemo varijacije dvije


pojave u cilju sagledavanja:
1) da li između njih postoji kvantitativno slaganje,
2) ako slaganje postoji, koji je njegov oblik (linearni ili
krivolinijski),
3) koji je smjer slaganja (direktni ili inverzni), i
4) koja je jačina slaganja.
REGRESIONA I KORELACIONA ANALIZA
Dijagram raspršenosti

Dijagram raspršenosti pokazuje različite mogućnosti


povezanosti varijacija dvije pojave.
a) direktna, linearna funkcionalna veza
b) Inverzna, linearna funkcionalna veza
c) direktna, krivolinijska funkcionalna veza
d) direktna, linearna stohastička veza
e) inverzna, linearna stohastička veza
f) direktna, krivolinijska stohastička veza
g) direktna, linearna stohastička veza (slabija)
h) Odsustvo kvantitativnog slaganja
i) Odsustvo kvantitativnog slaganja
PROSTA LINEARNA KORELACIJA

Svrha korelacione analize je da se utvrdi da li između


varijacija posmatranih pojava postoji kvantitativno slaganje
(korelaciona veza) i, ako postoji, u kom stepenu i smjeru.
Ako se posmatraju dvije pojave, govori se o prostoj
korelaciji, a prilikom analize više pojava o višestrukoj
korelaciji. Kod proste korelacije moguće je ispitivati da li
između pojava postoji linearna, krivolinijska ili monotona
veza.
Kod proste linearne korelacije se ne pravi razlika između
zavisne i nezavisne promjenljive - obje posmatrane pojave
tretiraju se kao slučajne promjenljive. Dakle, potpuno je
svejedno koju pojavu ćemo označiti kao X, a koju kao Y,
pošto se dobijaju identični rezultati.
PROSTA LINEARNA KORELACIJA

Zadatak proste linearne korelacije je da pokaže da li između


varijacija dvije posmatrane pojave postoji pravolinijska veza.
Kao mjera jačine proste linearne korelacione veze u uzorku
koristi se relativna mjera, koja se naziva Pearson-ov
koeficijent proste linearne korelacije, ili koeficijent proste
linearne korelacije, ili često samo koeficijent korelacije. Ovaj
koeficijent pokazuje stepen pravolinijskog kvantitativnog
slaganja varijacija između dvije numeričke promjenljive
(obilježja). Izračunava se na osnovu izraza:

n xy   x  y
r
n  x 2  ( x ) 2 n  y 2  ( y ) 2
PROSTA LINEARNA KORELACIJA

Koeficijent proste linearne korelacije uzima vrijednosti od -1 do


+1. Ukoliko uzima pozitivne vrijednosti, korelacija između pojava je
direktna ili pozitivna (obje pojave pokazuju istosmjerne
varijacije). U slučaju kada je r < 0, veza je inverzna ili negativna
(kada jedna pojava raste druga opada, i obrnuto).
Ako između posmatranih pojava postoji funkcionalna veza (sve
empirijske tačke se nalaze tačno na pravoj liniji), govorimo o
savršenoj (perfektnoj) korelaciji. Tada koeficijent korelacije uzima
vrijednost -1 (ako je veza inverzna) ili +1 (ako je veza direktna).
Što je koeficijent korelacije po apsolutnoj vrijednosti bliži jedinici,
sve je jača korelaciona veza između pojava. Nasuprot tome, što je
bliži nuli linearna veza je slabija.
U ekstremnoj situaciji, kada koeficijent korelacije uzme vrijednost
jednaku nuli, zaključuje se da nema linearne veze između pojava.
Raspršenost tačaka i odgovarajuće vrijednosti
koeficijenta proste linearne korelacije
PROSTA LINEARNA KORELACIJA

Inverzna Direktna
Inverzna Direktna savršena
savršena
izražena izražena

Nije
Izražena

-1 -0,9 -0,8 -0,7 0 0,7 0,8 0,9 1

Inverzna Direktna
Nema linearne
jaka jaka
veze

Inverzna Direktna
veoma jaka veoma jaka

Tumačenje vrijednosti koeficijenta proste linearne korelacije r


PROSTA LINEARNA KORELACIJA

Koeficijent proste linearne korelacije u osnovnom skupu


označava se sa grčkim slovom ρ (ro) i pokazuje jačinu
pravolinijske veze između dvije posmatrane pojave u
populaciji i predstavlja parametar skupa. Da bismo tačno
izračunali njegovu vrijednost, morali bismo da raspolažemo
svim podacima u skupu. Budući da u praksi uglavnom
radimo sa uzorkom, slijedi da će koeficijent korelacije ρ za
nas ostati nepoznat, a zaključak o njegovoj vrijednosti izvodi
se na osnovu koeficijenta proste linearne korelacije iz uzorka
uz primjenu statističkog testiranja.
PROSTA LINEARNA KORELACIJA

Prilikom testiranja pretpostavka je da je zajednički raspored


promjenljive X i Y normalan. Zbog toga je jasno da ćemo
primijeniti parametarski test.
Nulta hipoteza je da u osnovnom skupu ne postoji linearna
korelacija, ili, što je isto, da ocjena, r, nije statistički
značajna:

H0 :   0

Alternativna dvosmjerna hipoteza je:

H1 :   0
PROSTA LINEARNA KORELACIJA

Statistika testa je:


r
t
sr
gdje je sr standardna greška ocjene koeficijenta proste
linearne korelacije, koja se izračunava na osnovu izraza:

1 r2
sr 
n2
Zaključivanje se izvodi poređenjem izračunate vrijednosti
statistike testa i tablične vrijednosti, uz odgovarajući nivo
značajnosti  i broj stepeni slobode. Ako je apsolutna
vrijednost statistike testa manja od tablične, nulta hipoteza
se ne odbacuje i izvodi zaključak da u populaciji postoji
linearna veza.
PROSTA LINEARNA REGRESIJA

O prostoj linearnoj regresiji govorimo kada posmatramo dvije


pojave između kojih postoji linearna (pravolinijska)
povezanost. Prost linearni regresioni model dat je izrazom:

Yi =β0 + β1xi + εi , i = 1,2,...,N


gdje su:
Yi i-ta zavisna promjenljiva
xi i-ta vrijednost nezavisne promjenljive
β0 i β1 su regresioni parametri: β0 je odsječak ili
slobodni član, a β1 nagib
εi stohastički član ili poremećaj ili slučajna greška
N veličina osnovnog skupa
i i-ta vrijednost u osnovnom skupu.
PROSTA LINEARNA REGRESIJA

Regresioni model opisuje (modelira) stohastičku zavisnost


između posmatrane dvije promjenljive u osnovnom skupu, iz
koga je izabran uzorak.
Dokaz da se radi o stohastičkoj vezi vidimo u tome da za
svaku vrijednost objašnjavajuće promjenljive X imamo čitav
niz vrijednosti Y.
Možemo uočiti da između pojedinih vrijednosti xi i prosječnih
vrijednosti Y koje njima odgovaraju, postoji linearna
funkcionalna veza.
Prava linija koja prolazi kroz sve prosječne vrijednosti
najbolje opisuje vezu između posmatrane dvije pojave,
odnosno najviše je prilagođena datim podacima. Ona se
naziva linijom regresije skupa (populacije).
PROSTA LINEARNA REGRESIJA

Jednačina linije regresije skupa (populacije) glasi

 Y / X  x i   0   1x i

S obzirom da uvijek radimo samo sa uzorkom, koeficijenti β0


i β1 predstavljaju za nas nepoznate parametre. Zadatak
statistike svodi se, stoga, na njihovo ocjenjivanje na osnovu
podataka uzorka. Nalaženjem takvih ocjena, označimo ih sa
b0 i b1, dolazi se do koeficijenata prave linije u uzorku koja se
naziva linijom regresije uzorka.
Ideja je u sljedećem: pronaći najbolju liniju regresije uzorka i
nju koristiti kao "supstitut" za nepoznatu liniju regresije
skupa.
PROSTA LINEARNA REGRESIJA

Po statističkoj prirodi ε je slučajna promjenljiva, tako da je i


zavisna promjenljiva Y slučajna promjenljiva.

Regresioni parametar β0 (odsječak) pokazuje prosječnu


vrijednost zavisne promjenljive za nultu vrijednost
objašnjavajuće promjenljive.
Regresioni parametar β1 (nagib) pokazuje prosječnu
promjenu zavisne promjenljive Y kada se objašnjavajuća
promjenljiva X poveća za jednu svoju jedinicu.
PROSTA LINEARNA REGRESIJA
Pretpostavke

1. Normalnost: slučajne greške εi imaju normalan raspored.


2. Homoskedastičnost. Ova pretpostavka se tiče opsega
odstupanja stohastičkih članova i kaže da sve slučajne
greške imaju jednaka odstupanja, preciznije, jednake
varijanse:
Var (ε1) = Var (ε2) = ... = Var (εN) = σ2
Ukoliko je ova pretpostavka narušena pojavljuje se problem
heteroskedastičnosti.
3. E(εi) = 0. Stohastički član (slučajna greška) u prosjeku je
jednak nuli.
PROSTA LINEARNA REGRESIJA
Pretpostavke

Prve tri pretpostavke možemo jednostavno napisati na


sljedeći način: εi : N(0, σ2)
tj. stohastički član ima normalan raspored sa aritmetičkom
sredinom jednakom 0 i varijansom σ2.

4. Nema autokorelacije. To znači da između bilo koja dva


stohastička člana εi i εj ne postoji linearna korelacija.
5. Linearnost. Između pojedinih vrijednosti objašnjavajuće
promjenljive X, xi i odgovarajućih prosječnih vrijednosti Y,
E(Yi), postoji linearna veza.
6. X nije slučajna promjenljiva Vrijednosti objašnjavajuće
promjenljive su fiksirane, pa ih istraživač unaprijed mora
odabrati prije uzimanja uzorka.
PROSTA LINEARNA REGRESIJA
Linija regresije u uzorku
yˆi  b0  b1xi
Sa ŷi označena je ona vrijednost Y koja se tačno nalazi na
najbolje prilagođenoj liniji regresije uzorka, pa se naziva
prilagođena vrijednost Y. Često se koristi i izraz predviđena
vrijednost Y.

Pošto od uzorka do uzorka mogu uzimati različite vrijednosti,


koje ne možemo unaprijed predvidjeti, ocjene b0 i b1 su
slučajne promjenljive.
Linija regresije je ona prava koju treba provući između
empirijskih tačaka, tako da im je najbliža, odnosno da ih
najbolje reprezentuje.
PROSTA LINEARNA REGRESIJA
Metod najmanjih kvadrata

Određivanje linije regresije, odnosno ustanovljavanje


vrijednosti ocjena b0 i b1, vrši se na osnovu metoda
najmanjih kvadrata. Metod najmanjih kvadrata se zasniva
na minimiziranju kvadrata odstupanja svih empirijskih tačaka
od regresione linije.

Zbog stohastičkog karaktera veze empirijske tačke će


pokazivati manja ili veća odstupanja od prave.
Vertikalno odstupanje (razliku) između stvarne vrijednosti
yi i prilagođene vrijednosti ŷi nazivamo rezidualom i
označavamo sa ei :

ei  yi  yˆi  yi  (b0  b1xi )


PROSTA LINEARNA REGRESIJA
Metod najmanjih kvadrata

(Rezidual) ei  y i  y i
PROSTA LINEARNA REGRESIJA
Metod najmanjih kvadrata

Ideja metoda najmanjih kvadrata jeste da se od svih


mogućih pravih linija odabere ona koja ima najmanju sumu
kvadrata vertikalnih odstupanja (reziduala).
Matematički, potrebno je potražiti minimum izraza:

 e  ( yi  yi )  yi  (b0  b1xi )


ˆ
2 2 2
i

U ovom izrazu nepoznate su b0 i b1. Postupak minimiziranja


se sprovodi nalaženjem parcijalnih izvoda po b0 i b1 i
njihovim izjednačavanjem sa nulom. Na taj način dolazimo
do sistema dvije jednačine sa dvije nepoznate, koje se
nazivaju normalnim jednačinama.
PROSTA LINEARNA REGRESIJA
Metod najmanjih kvadrata - sistem normalnih jednačina
n n
 y i  nb0 + b1  x i
i=1 i=1
n n n
 x i y i = b 0  x i + b1  i
x 2
i= 1 i=1 i=1

Ocijenjena vrijednost
b1 
n xy   x y
parametra nagiba
n x  (  x )
2 2

Ocijenjena vrijednost
parametra odsječka b0  y  b1 x
PROSTA LINEARNA REGRESIJA
Metod najmanjih kvadrata

Regresioni koeficijent b1 predstavlja ocijenjenu vrijednost


prosječne promjene zavisne promjenljive Y kada se
nezavisna promjenljiva X poveća za svoju jedinicu.
Regresioni koeficijent b0 pokazuje prosječnu vrijednost
zavisne promjenljive Y kada nezavisna promjenljiva X ima
vrijednost 0.

Gauss-Markovljeva teorema: Ako su ispunjene sve


pretpostavke prostog linearnog regresionog modela, ocjene
dobijene metodom najmanjih kvadrata su najbolje (efikasne),
nepristrasne linearne ocjene.
PROSTA LINEARNA REGRESIJA
Mjere reprezentativnosti linije regresije

1. standardna greška regresije (apsolutna mjera)


2. koeficijent determinacije (relativni pokazatelj)

U regresionom modelu, pojedine vrijednosti Yi variraju iz dva


razloga:
1. Jedan izvor varijabiliteta se duguje varijacijama u
vrijednostima xi i može se objasniti regresionim modelom.
2. Drugi dio varijabiliteta posljedica je djelovanja slučajne
greške εi i ne može se objasniti regresionim modelom.
PROSTA LINEARNA REGRESIJA
Ukupno, objašnjeno i neobjašnjeno odstupanje zavisne
promjenljive Yi, može se predstaviti kao na slici.

yi

Neobjašnjeno
(y i  y i )
odstupanje yi
( y i  y ) Ukupno odstupanje
Objašnjeno
odstupanje (y i  y)

xi
PROSTA LINEARNA REGRESIJA

Može se pokazati da je ukupan varijabilitet jednak zbiru


objašnjenog i neobjašnjenog varijabiliteta:

( yi  y ) 2 = ( yˆi  y )2 + ( yi  yˆi ) 2
SKU SKO SKN
Ukupan Objašnjeni Neobjašnjen
varijabilitet varijabilitet i varijabilitet
PROSTA LINEARNA REGRESIJA
Standardna greška regresije

Standardna greška regresije je apsolutna mjera i pokazuje


odstupanja empirijskih podataka u uzorku od regresione
linije uzorka.
Standardna greška regresije dobija se kao kvadratni korjen
iz rezidualne varijanse, te predstavlja ocjenu standardne
devijacije slučajne greške.

s
 i i
( y  y ) 2


  b0  y  b1  xy
y 2

n2 n2
PROSTA LINEARNA REGRESIJA
Standardna greška regresije
Na veličinu standardne greške regresije utiču sljedeći faktori:
1. Raspršenost tačaka. Što su empirijske tačke više
raspršene, standardna greška je veća, pa manje pouzdanja
možemo imati u predviđanja zasnovana na takvoj liniji
regresije.
2. Veličina uzorka. Kao i kod svake standardne greške, što
je veći uzorak, manja je standardna greška regresije.
3. Nivo vrijednosti promjenljive Y. Standardna greška je
iskazana u istim mjernim jedinicama kao i zavisna
promjenljiva i zavisi od njenog nivoa. Za viši nivo vrijednosti
promjenljive Y po pravilu je veća i standardna greška
regresije. Usljed toga, ona je nepodesna za poređenje
reprezentativnosti regresionih linija u različitim modelima.
KOEFICIJENT DETERMINACIJE

Koeficijent determinacije (r2) je relativna mjera i pokazuje


učešće objašnjenog varijabiliteta u ukupnom, odnosno koliko
su varijacije promjenljive Y objašnjene promjenljivom X.

x
2
SKO SKN
2
 nx
 1 r b
2 2

y
1 2
SKU SKU 2
 ny

Prednosti koeficijenta determinacije u odnosu na standardnu


grešku su sljedeće: 1. ne zavisi od mjernih jedinica
promjenljive Y, 2. mnogo je lakši za tumačenje, i 3. na
jednostavan način omogućava poređenje više regresionih
modela.
KOEFICIJENT DETERMINACIJE

Koeficijent determinacije uzima vrijednosti od 0 do 1. Kada je


r2 = 1 sve empirijske vrijednosti yi nalaze se na liniji
regresije - objašnjeni varijabilitet jednak je ukupnom. Tada su
varijacije promjenljive Y u potpunosti objašnjene
regresionom linijom i ne postoje uticaji drugih faktora,
odnosno dvije promjenljive su u funkcionalnoj vezi.
Približavanjem vrijednosti koeficijenta determinacije nuli, sve
je manji udio objašnjenog varijabiliteta i regresiona linija sve
slabije reprezentuje podatke. U ekstremnom slučaju kada je
r2 = 0, neobjašnjeni varijabilitet se izjednačava sa ukupnim,
promjenljiva Y uopšte nije objašnjena promjenljivom X, te
zaključujemo da ne postoji linearna regresija. Ako koeficijent
determinacije pomnožimo sa 100, tada se njegove
vrijednosti tumače u procentima.
KOEFICIJENT DETERMINACIJE

Nema linearnog
kvantitativnog slaganja Funkcionalna linearna veza
Regresiona linija nema Sve empirijske vrijednosti su na
nikakvog smisla regresionoj liniji

moguće vrijednosti koeficijenta determinacije

0 1
Slaba Dobra

Reprezentativnost
regresionog modela
PROSTA LINEARNA REGRESIJA
Testiranje značajnosti regresione veze

U prostoj linearnoj regresiji najvažnije je testirati hipotezu da


li je parametar nagiba β1 jednak nuli. Ako bi nas takav test
uputio na zaključak da je β1 = 0, tada ne bismo smjeli
ocijenjenu regresionu liniju koristiti u cilju predviđanja.
Nultu hipotezu da između varijacija posmatranih pojava u
osnovnom skupu ne postoji linearna veza, odnosno da X ne
utiče na Y je:

H0 : 1  0

Alternativna hipoteza dvosmjernog tipa glasi:

H1 : 1  0
PROSTA LINEARNA REGRESIJA
Testiranje značajnosti regresione veze

Testiranje se provodi pomoću t – testa. Statistika testa je:


b1
t
s b1
Ocjena standardne greške nagiba je:
s
s b1 
x
2
2
 nx
Poređenjem izračunate vrijednosti t-testa i tablične
vrijednosti iz Student-ovog rasporeda (uz n-2 stepeni
slobode i nivo značajnosti α), izvodi se zaključak. Ako je
apsolutna vrijednost testa veća od tablične, odbacuje se
nulta hipoteza i zaključuje da je parametar β1 statistički
značajan, a time i linija regresije.
PROSTA LINEARNA REGRESIJA
Ocjenjivanje i predviđanje vrijednosti zavisne promjenljive

Uslovi za validno predviđanje pomoću regresije:


1. Regresiona linija dobro reprezentuje empirijske podatke
(visok nivo koeficijenta determinacije, na primjer r2 > 0.5).
2. Između varijacija posmatranih pojava u skupu postoji
linearna veza, parametar nagiba se statistički značajno
razlikuje od nule, tj. β1 ≠ 0 .
3. Ne koristi se prekomjerna ekstrapolacija.
PROSTA LINEARNA REGRESIJA
Ekstrapolacija je korišćenje regresione linije (modela) u svrhu
predviđanja za one vrijednosti X koje su izvan intervala koji je dat
empirijskim podacima uzorka.

Ekstrapolacija u praksi se može primjenjivati, ali samo u


neposrednoj blizini najmanje i najveće vrijednosti X date uzorkom.
PROSTA LINEARNA REGRESIJA
Ocjenjivanje i predviđanje vrijednosti zavisne promjenljive

S obzirom na stohastičku prirodu veze između X i Y, za


svaku pojedinačnu vrijednost xi u skupu postoji čitav
raspored mogućih vrijednosti Yi. Njihova prosječna vrijednost
E(Yi) se, kao što nam je poznato, nalazi na liniji regresije
skupa. Usljed toga, samo predviđanje je dvojakog karaktera.
Za neku izabranu vrijednost promjenljive X, označimo je sa
xp, moguće je ocjenjivati prosječnu vrijednost E(Yp) i
predviđati individualne vrijednosti Yp. Razlika je u tome što
prosječna vrijednost E(Yp) predstavlja konstantu, dok je
individualna vrijednost Yp slučajna promjenljiva, budući da
zavisi od slučajne greške εp.
PROSTA LINEARNA REGRESIJA
Ocjenjivanje i predviđanje vrijednosti zavisne promjenljive

Interval ocjene prosječne vrijednosti zavisne


promjenljive, koji će sa vjerovatnoćom (1 - α) obuhvatiti
E(Yp) je:

y p  t  /2 ,n  2 s y  E(Yp )  y p  t  /2 ,n  2 s y
p p

Za izabranu vrijednost objašnjavajuće promjenljive xp


prosječnu vrijednost E(Yp) ocijenićemo sa:

y p  b0  b1x p
odnosno tako što tu vrijednost unesemo u regresionu liniju
uzorka.

Kritična vrijednost tα/2 dobija se iz tablica t rasporeda za n - 2


stepeni slobode.
PROSTA LINEARNA REGRESIJA
Ocjenjivanje i predviđanje vrijednosti zavisne promjenljive
Standardna greška ocjene prosječne vrijednosti zavisno
promjenljive

1 (x p  x) 2
sy s 
p n  x 2  nx 2

Veličina standardne greške zavisi od sljedećih faktora:


1. Veća raspršenost tačaka oko linije regresije povećava
standardnu grešku. 2. standardna greška se smanjuje sa
povećanjem veličine uzorka. 3. Sa udaljavanjem odabrane
vrijednosti xp od aritmetičke sredine promjenljive X,
standardna greška se povećava i interval povjerenja postaje
širi. 4. Sa povećanjem disperzije promjenljive X smanjuje se
veličina standardne greške.
PROSTA LINEARNA REGRESIJA
Ocjenjivanje i predviđanje vrijednosti zavisne promjenljive

Interval predviđanja pojedinačne vrijednosti Y formira se


na isti način kao interval ocjene prosječne vrijednosti:

y p  t  /2 ,n  2 s y p  Yp  y p  t  /2 ,n  2 s y p

Standardna greška predviđanja individualne vrijednosti


zavisno promjenljive:

1 (x p  x) 2
syp  s 1 
x
2
n 2
 nx
VIŠESTRUKA REGRESIONA I KORELACIONA ANALIZA
Ciljevi

Višestruki regresioni i korelacioni modeli daleko uspješnije


opisuju međuzavisnost pojava u realnosti. Međutim, sa
svakom dodatno uključenom promjenljivom postupak
izračunavanja se računski komplikuje.

Cilj višestruke regresije je da se na osnovu ocijenjenog


modela izvrši predviđanje varijacija zavisno promjenljive Y za
različite kombinacije vrijednosti objašnjavajućih promjenljivih
Xi.
Cilj višestruke korelacije je da se odredi da li postoji
kvantitativno slaganje između zavisne promjenljive Y i grupe
objašnjavajućih promjenljivih.
VIŠESTRUKI LINEARNI REGRESIONI MODEL

Prvi korak u analizi je identifikacija promjenljivih, a zatim za


odabrane (fiksirane) vrijednosti objašnjavajućih promjenljivih
iz osnovnog skupa se bira slučajni uzorak veličine n.
Pretpostavimo da smo k pojava identifikovali kao
objašnjavajuće promjenljive. Označimo ih sa X1, X2,...,Xk.
Višestruki linearni regresioni model postavićemo tako što
ćemo formulisati jednačinu za proizvoljnu vrijednost zavisne
promjenljive Yi u skupu:

Yi   0   1x 1i   2 x 2 i  ...   k x ki i
VIŠESTRUKI LINEARNI REGRESIONI MODEL
U modelu su:
Y zavisna promjenljiva
x1i, x2i,...,xki i-te vrijednosti objašnjavajućih promjenljivih
β0, β1, β2,...,βk parametri modela
εi stohastički član, ili slučajna greška
k broj objašnjavajućih promjenljivih

Deterministički dio:
β0 + β1x1i + β2x2i +...+ βkxki

pokazuje prosječan uticaj objašnjavajućih promjenljivih na Yi,


a stohastički član εi odražava efekte ostalih faktora koji nisu
obuhvaćeni modelom i slučajne uticaje.
VIŠESTRUKI LINEARNI REGRESIONI MODEL
Pretpostavke

Model višestruke regresije se zasniva na identičnim


pretpostavkama kao i prost linearni regresioni model.
Međutim, da bi ocjene parametara imale optimalne osobine
nužno je uvesti još dvije dodatne pretpostavke:
1. Broj podataka u uzorku mora biti veći od broja ocjenjivanih
parametara , tj. n > k.
2. Između objašnjavajućih promjenljivih ne postoji savršena
multikolinearnost. Ovo znači da između bilo koje dvije
objašnjavajuće promjenljive ne smije da postoji savršena
linearna korelacija.
VIŠESTRUKI LINEARNI REGRESIONI MODEL
Regresioni model sa dvije objašnjavajuće promjenljive

Linearni regresioni model sa dvije objašnjavajuće


promjenljive je najjednostavniji višestruki regresioni model i,
s obzirom na opšti model, glasi:

Yi   0   1 x 1i   2 x 2 i   i

Deterministički dio modela geometrijski predstavlja ravan:


 0   1 x 1i   2 x 2 i
Ako bi između objašnjavajućih promjenljivih, sa jedne strane,
i zavisne promjenljive Y, sa druge strane, postojala
funkcionalna veza, tada bi se sve vrijednosti Yi nalazile tačno
na regresionoj ravni.
VIŠESTRUKI LINEARNI REGRESIONI MODEL
Tumačenje regresionih koeficijenata modela

Regresioni koeficijenti β0, β1 i β2 se tumače na sličan način


kao u prostom regresionom modelu. Parametar β0
predstavlja odsječak u kome ravan siječe Y osu. Regresioni
koeficijent β1 pokazuje prosječnu promjenu zavisne
promjenljive Y kada se objašnjavajuća promjenljiva X1
poveća za jedinicu, pod uslovom da objašnjavajuća
promjenljiva X2 ostane nepromijenjena. Analogno, β2
označava koliko se u prosjeku promijeni zavisna promjenljiva
Y kada se objašnjavajuća promjenljiva X2 poveća za jedinicu,
a X1 ostane konstantna. Kada regresioni koeficijenti imaju
pozitivan znak, veza između odgovarajućih promjenljivih je
direktna, dok negativan znak odražava inverznu vezu.
VIŠESTRUKI LINEARNI REGRESIONI MODEL
Regresioni model sa dvije objašnjavajuće promjenljive

Regresiona ravan uzorka je

Y i  b 0  b 1 x 1i  b 2 x 2 i
VIŠESTRUKI LINEARNI REGRESIONI MODEL
Ocjena parametara

Zadatak statistike svodi se na nalaženje jednačine najbolje


ravni, odnosno one ravni koja ima najmanja odstupanja u
odnosu na sve empirijske podatke.

Kao i kod proste linearne regresije, parametre ćemo ocijeniti


metodom najmanjih kvadrata. Potrebno je minimizirati sumu
kvadrata vertikalnih odstupanja (reziduala) empirijskih tačaka
od regresione ravni:

 e i2  
(y i - y i ) 2  
[ y i - (b0  b1x 1i  b 2 x 2i )]2
VIŠESTRUKI LINEARNI REGRESIONI MODEL
Sistem normalnih jednačina

Rješenja za parametre b0, b1 i b2 dobiju se na osnovu


sistema normalnih jednačina

 y  nb0  b1  x 1  b 2  x 2
 1
x y  b 0 1
x  b 1  1  b2  x 1x 2
x 2

 x 2 y  b0  x 2  b1  x 1 x 2  b 2  x
2
2
VIŠESTRUKI LINEARNI REGRESIONI MODEL
Mjere reprezentativnosti u višestrukoj regresiji

Da bismo utvrdili prilagođenost ocijenjene regresione ravni


empirijskim podacima, koristimo analogne mjere kao kod
proste regresije: standardnu grešku regresije, kao
apsolutnu mjeru, i koeficijent višestruke determinacije,
kao relativnu mjeru.
VIŠESTRUKI LINEARNI REGRESIONI MODEL
Standardna greška regresije

Standardna greška regresije s predstavlja ocjenu standardne


devijacije slučajne greške, σ, pa se dobija kao kvadratni
korijen rezidualne varijanse.
( y - ˆ
y )2

s = ˆ 2 = i i

n - ( k  1)
Što je vrijednost standardne greške regresije manja, to
model bolje reprezentuje veze zavisne i objašnjavajućih
promjenljivih. Ako je standardna greška jednaka nuli, tada se
radi o funkcionalnoj vezi.
KOEFICIJENT VIŠESTRUKE DETERMINACIJE

Koeficijent višestruke determinacije dobije se stavljanjem u


odnos objašnjenog varijabiliteta sa ukupnim i predstavlja
relativnu mjeru reprezentativnosti.

Objašnjen varijabilitet ( ˆ
y - y ) 2

R2   i
2
Ukupan varijabilitet ( yi - y )

R2 pokazuje procenat varijacija zavisne promjenljive Y koji je


objašnjen zajedničkim uticajem objašnjavajućih promjenljivih
uključenih u model.
KOEFICIJENT VIŠESTRUKE DETERMINACIJE

Vrijednost R2 varira, kao i kod prostog regresionog modela,


od 0 do 1. Što je bliži jedinici veće je učešće objašnjenog
varijabiliteta u ukupnom, odnosno ocijenjena regresiona
jednačina bolje reprezentuje empirijske podatke.

Nedostatak koeficijenta višestruke determinacije kao mjere


reprezentativnosti je u tome da zavisi od broja promjenljivih u
modelu i veličine uzorka.
Ukoliko je broj podataka u uzorku mali, a posmatra se veliki
broj objašnjavajućih promjenljivih, tada R2 iskrivljeno
prikazuje vezu između pojava, jer je nerealno visok.
KORIGOVANI KOEFICIJENT
VIŠESTRUKE DETERMINACIJE
Takođe, svakim uključivanjem nove objašnjavajuće
promjenljive u model, koeficijent višestruke determinacije se
automatski povećava, bez obzira na njen stvarni uticaj. Zbog
toga je potrebno izvršiti njegovu korekciju, vodeći računa o
broju objašnjavajućih promjenljivih i veličini uzorka. To se vrši
pomoću korigovanog koeficijenta višestruke
determinacije:
2 n1
R 1 (1  R 2 )
n  ( k  1)
n je veličina uzorka, a k broj objašnjavajućih promjenljivih.
Korigovani koeficijent nikada ne može biti veći od
nekorigovanog. Razlika između ova dva koeficijenta se
smanjuje sa povećanjem uzorka, a povećava sa velikim
brojem objašnjavajućih promjenljivih u modelu.
VIŠESTRUKI LINEARNI REGRESIONI MODEL
Testiranje značajnosti ocijenjenih parametara

Da bismo koristili ocijenjenu regresionu jednačinu za


ocjenjivanje i predviđanje vrijednosti zavisne promjenljive Y,
moramo prethodno da testiramo značajnost dobijenih
ocjena. Zbog obimnosti izračunavanja, testiranje ćemo u
praksi sprovoditi na osnovu rezultata primjene
odgovarajućeg statističkog računarskog programa.

U regresionom modelu sa dvije objašnjavajuće promjenljive


nulta i alternativna hipoteza glase:

I) H0: ß1 = 0 H1: ß1 ≠ 0
II) H0: ß2 = 0 H1: ß2 ≠ 0.
VIŠESTRUKI LINEARNI REGRESIONI MODEL
Ocjenjivanje i predviđanje vrijednosti zavisne promjenljive

Ako ocijenjena regresiona jednačina korektno reprezentuje


empirijske podatke (dobijen je relativno visok nivo
koeficijenta višestruke determinacije) i ocjene parametara se
pokažu statistički značajnim, višestruki regresioni model se
može validno koristiti za intervalno ocjenjivanje prosječnih i
predviđanje individualnih vrijednosti zavisne promjenljive Y,
kao i kod prostog linearnog modela. Ovo, naravno, važi pod
uslovom da ne vršimo neumjerenu ekstrapolaciju. Dakle, tri
uslova koje smo koristili kod prostog modela ostaju i ovdje
na snazi.
Potrebna izračunavanja su obimna, tako da se koriste
odgovarajući statistički računarski programi.
KOEFICIJENT VIŠESTRUKE
LINEARNE KORELACIJE

Koeficijent višestruke linearne korelacije R pokazuje stepen


linearnog slaganja varijacija između zavisne promjenljive Y i
grupe objašnjavajućih promjenljivih X1, X2,...,Xk.

Kao kod proste i kod višestruke korelacione analize se


pretpostavlja da su sve posmatrane promjenljive slučajne.
Uvodi se dodatna pretpostavka da je zajednički raspored
promjenljivih normalan.
Za razliku od koeficijenta proste linearne korelacije r,
koeficijent višestruke korelacije R nikada ne može biti
negativan, odnosno 0 ≤ R ≤ 1.
KOEFICIJENT VIŠESTRUKE
LINEARNE KORELACIJE

Koeficijent višestruke korelacije ne pokazuje smjer slaganja


varijacija posmatranih pojava. Što je bliži jedinici, stepen
linearne veze je jači, i u ekstremnom slučaju, kada je R = 1,
zavisna promjenljiva je funkcionalno povezana sa grupom
objašnjavajućih promjenljivih. Nasuprot tome, kada je R = 0
kažemo da ne postoji linearna veza između posmatranih
pojava. Na osnovu dobijenog koeficijenta višestruke
korelacije ne mogu se donositi zaključci o postojanju
uzročno-posljedične veze između zavisne promjenljive i
grupe objašnjavajućih promjenljivih.

Koeficijent višestruke linearne korelacije jednak je


pozitivnom kvadratnom korijenu koeficijenta višestruke
determinacije R2.
KOEFICIJENT DJELIMIČNE
(PARCIJALNE) KORELACIJE

Koeficijent djelimične ili parcijalne korelacije. pokazuje


jačinu linearne veze između jedne ili više objašnjavajućih
promjenljivih i zavisne promjenljive Y, pri čemu se eliminiše
uticaj drugih objašnjavajućih promjenljivih na Y.
Koeficijent djelimične korelacije, u slučaju dvije
objašnjavajuće promjenljive, pokazuje stepen linearnog
slaganja varijacija zavisne promjenljive i jedne
objašnjavajuće promjenljive, pri čemu je uticaj druge
nezavisne promjenljive isključen.
KOEFICIJENT DJELIMIČNE
(PARCIJALNE) KORELACIJE

Koeficijent djelimične ili parcijalne korelacije. Izračunava se


na osnovu izraza:
r yxi - r yx j r x i x j
ry x i x  i=1, 2
j
(1 - r 2yx j ) (1 - r x2 i x j ) j=1, 2

Koeficijent djelimične korelacije može uzimati vrijednosti od


-1 do +1 i tumači se na sličan način kao i koeficijent proste
linearne korelacije.

You might also like