STATISTIKA Regresiona I Korelaciona Analiza

REGRESIONA I
KORELACIONA ANALIZA
Prof. dr Jasmin Komić

REGRESIONA I KORELACIONA ANALIZA
Vrste veza među pojavama
Funkcionalna veza
Funkcionalna (naziva se još i deterministička ili egzaktna)
veza javlja se u slučaju kada jednoj vrijednosti nezavisne
promjenljive X odgovara samo jedna, tačno određena
vrijednost zavisne promjenljive Y.
Stohastička veza
Ovakva veza je slabija od funkcionalne i naziva se
stohastička (ili probabilistička) veza. Kod stohastičkih veza
jednoj vrijednosti nezavisne promjenljive odgovara čitav niz
mogućih vrijednosti zavisne promjenljive.
Vrste veza među pojavama
Generalna forma stohastičkog (probabilističkog) modela

Y = Deterministički član + stohastički član
Prosjek Y = Deterministički član
Prosjek Y = f(X)
Suština stohastičke veze jeste da između pojedinih

vrijednosti nezavisne promjenljive X i prosječnih vrijednosti
zavisne promjenljive Y (preciznije, očekivanih vrijednosti)
postoji čvrsta, odnosno funkcionalna veza. Bitno je uočiti da
kod stohastičke veze individualne vrijednosti Y mogu
pokazivati znatna odstupanja od prosjeka i da se pravilnost
može otkriti tek ispitivanjem velikog broja podataka.
Ciljevi
Cilj korelacione analize jeste da se ispita da li između

varijacija posmatranih pojava postoji kvantitativno slaganje i,
ako postoji, u kom stepenu i smjeru.
Cilj regresione analize je da se odredi onaj regresioni

model koji najbolje opisuje vezu između pojava i da se na
osnovu toga modela ocijene i predvide vrijednosti zavisne
promjenljive Y za odabrane vrijednosti objašnjavajuće
promjenljive X.
Svrha regresione analize
Svrha regresije jeste da se utvrdi oblik veze, odnosno zavisnosti

između posmatranih pojava. To se postiže pomoću odgovarajućeg
regresionog modela. Regresioni model je takav stohastički
model koji kroz matematičku formulu i niz odgovarajućih
pretpostavki najbolje opisuje kvantitativnu zavisnost između
varijacija posmatranih pojava u realnosti. Budući da se statistika
bavi stohastičkim vezama, a uzimajući u obzir suštinu stohastičke
veze, zaključujemo da regresioni model pokazuje prosječno
slaganje varijacija ispitivanih pojava. Regresioni model nije
sam po sebi cilj, već samo sredstvo pomoću kojeg smo u stanju
da ocijenimo i predvidimo vrijednosti zavisne promjenljive za
željene vrijednosti objašnjavajuće promjenljive.
Dijagram raspršenosti
Dijagramom raspršenosti grafički prikazujemo varijacije dvije

pojave u cilju sagledavanja:
1) da li između njih postoji kvantitativno slaganje,
2) ako slaganje postoji, koji je njegov oblik (linearni ili
krivolinijski),
3) koji je smjer slaganja (direktni ili inverzni), i
4) koja je jačina slaganja.
Dijagram raspršenosti
Dijagram raspršenosti pokazuje različite mogućnosti

povezanosti varijacija dvije pojave.
a) direktna, linearna funkcionalna veza
b) Inverzna, linearna funkcionalna veza
c) direktna, krivolinijska funkcionalna veza
d) direktna, linearna stohastička veza
e) inverzna, linearna stohastička veza
f) direktna, krivolinijska stohastička veza
g) direktna, linearna stohastička veza (slabija)
h) Odsustvo kvantitativnog slaganja
i) Odsustvo kvantitativnog slaganja
PROSTA LINEARNA KORELACIJA
Svrha korelacione analize je da se utvrdi da li između

varijacija posmatranih pojava postoji kvantitativno slaganje
(korelaciona veza) i, ako postoji, u kom stepenu i smjeru.
Ako se posmatraju dvije pojave, govori se o prostoj
korelaciji, a prilikom analize više pojava o višestrukoj
korelaciji. Kod proste korelacije moguće je ispitivati da li
između pojava postoji linearna, krivolinijska ili monotona
veza.
Kod proste linearne korelacije se ne pravi razlika između
zavisne i nezavisne promjenljive - obje posmatrane pojave
tretiraju se kao slučajne promjenljive. Dakle, potpuno je
svejedno koju pojavu ćemo označiti kao X, a koju kao Y,
pošto se dobijaju identični rezultati.
Zadatak proste linearne korelacije je da pokaže da li između

varijacija dvije posmatrane pojave postoji pravolinijska veza.
Kao mjera jačine proste linearne korelacione veze u uzorku
koristi se relativna mjera, koja se naziva Pearson-ov
koeficijent proste linearne korelacije, ili koeficijent proste
linearne korelacije, ili često samo koeficijent korelacije. Ovaj
koeficijent pokazuje stepen pravolinijskog kvantitativnog
slaganja varijacija između dvije numeričke promjenljive
(obilježja). Izračunava se na osnovu izraza:
n xy   x  y
r
n  x 2  ( x ) 2 n  y 2  ( y ) 2
Koeficijent proste linearne korelacije uzima vrijednosti od -1 do

+1. Ukoliko uzima pozitivne vrijednosti, korelacija između pojava je
direktna ili pozitivna (obje pojave pokazuju istosmjerne
varijacije). U slučaju kada je r < 0, veza je inverzna ili negativna
(kada jedna pojava raste druga opada, i obrnuto).
Ako između posmatranih pojava postoji funkcionalna veza (sve
empirijske tačke se nalaze tačno na pravoj liniji), govorimo o
savršenoj (perfektnoj) korelaciji. Tada koeficijent korelacije uzima
vrijednost -1 (ako je veza inverzna) ili +1 (ako je veza direktna).
Što je koeficijent korelacije po apsolutnoj vrijednosti bliži jedinici,
sve je jača korelaciona veza između pojava. Nasuprot tome, što je
bliži nuli linearna veza je slabija.
U ekstremnoj situaciji, kada koeficijent korelacije uzme vrijednost
jednaku nuli, zaključuje se da nema linearne veze između pojava.
Raspršenost tačaka i odgovarajuće vrijednosti
koeficijenta proste linearne korelacije
Inverzna Direktna
Inverzna Direktna savršena
savršena
izražena izražena
Nije
Izražena
-1 -0,9 -0,8 -0,7 0 0,7 0,8 0,9 1
Inverzna Direktna
Nema linearne
jaka jaka
veze
Inverzna Direktna
veoma jaka veoma jaka
Tumačenje vrijednosti koeficijenta proste linearne korelacije r

Koeficijent proste linearne korelacije u osnovnom skupu

označava se sa grčkim slovom ρ (ro) i pokazuje jačinu
pravolinijske veze između dvije posmatrane pojave u
populaciji i predstavlja parametar skupa. Da bismo tačno
izračunali njegovu vrijednost, morali bismo da raspolažemo
svim podacima u skupu. Budući da u praksi uglavnom
radimo sa uzorkom, slijedi da će koeficijent korelacije ρ za
nas ostati nepoznat, a zaključak o njegovoj vrijednosti izvodi
se na osnovu koeficijenta proste linearne korelacije iz uzorka
uz primjenu statističkog testiranja.
Prilikom testiranja pretpostavka je da je zajednički raspored

promjenljive X i Y normalan. Zbog toga je jasno da ćemo
primijeniti parametarski test.
Nulta hipoteza je da u osnovnom skupu ne postoji linearna
korelacija, ili, što je isto, da ocjena, r, nije statistički
značajna:
H0 :   0
Alternativna dvosmjerna hipoteza je:
H1 :   0
Statistika testa je:

r
t
sr
gdje je sr standardna greška ocjene koeficijenta proste
linearne korelacije, koja se izračunava na osnovu izraza:
1 r2
sr 
n2
Zaključivanje se izvodi poređenjem izračunate vrijednosti
statistike testa i tablične vrijednosti, uz odgovarajući nivo
značajnosti  i broj stepeni slobode. Ako je apsolutna
vrijednost statistike testa manja od tablične, nulta hipoteza
se ne odbacuje i izvodi zaključak da u populaciji postoji
linearna veza.
PROSTA LINEARNA REGRESIJA
O prostoj linearnoj regresiji govorimo kada posmatramo dvije

pojave između kojih postoji linearna (pravolinijska)
povezanost. Prost linearni regresioni model dat je izrazom:
Yi =β0 + β1xi + εi , i = 1,2,...,N

gdje su:
Yi i-ta zavisna promjenljiva
xi i-ta vrijednost nezavisne promjenljive
β0 i β1 su regresioni parametri: β0 je odsječak ili
slobodni član, a β1 nagib
εi stohastički član ili poremećaj ili slučajna greška
N veličina osnovnog skupa
i i-ta vrijednost u osnovnom skupu.
Regresioni model opisuje (modelira) stohastičku zavisnost

između posmatrane dvije promjenljive u osnovnom skupu, iz
koga je izabran uzorak.
Dokaz da se radi o stohastičkoj vezi vidimo u tome da za
svaku vrijednost objašnjavajuće promjenljive X imamo čitav
niz vrijednosti Y.
Možemo uočiti da između pojedinih vrijednosti xi i prosječnih
vrijednosti Y koje njima odgovaraju, postoji linearna
funkcionalna veza.
Prava linija koja prolazi kroz sve prosječne vrijednosti
najbolje opisuje vezu između posmatrane dvije pojave,
odnosno najviše je prilagođena datim podacima. Ona se
naziva linijom regresije skupa (populacije).
Jednačina linije regresije skupa (populacije) glasi
 Y / X  x i   0   1x i
S obzirom da uvijek radimo samo sa uzorkom, koeficijenti β0

i β1 predstavljaju za nas nepoznate parametre. Zadatak
statistike svodi se, stoga, na njihovo ocjenjivanje na osnovu
podataka uzorka. Nalaženjem takvih ocjena, označimo ih sa
b0 i b1, dolazi se do koeficijenata prave linije u uzorku koja se
naziva linijom regresije uzorka.
Ideja je u sljedećem: pronaći najbolju liniju regresije uzorka i
nju koristiti kao "supstitut" za nepoznatu liniju regresije
skupa.
Po statističkoj prirodi ε je slučajna promjenljiva, tako da je i

zavisna promjenljiva Y slučajna promjenljiva.
Regresioni parametar β0 (odsječak) pokazuje prosječnu

vrijednost zavisne promjenljive za nultu vrijednost
objašnjavajuće promjenljive.
Regresioni parametar β1 (nagib) pokazuje prosječnu
promjenu zavisne promjenljive Y kada se objašnjavajuća
promjenljiva X poveća za jednu svoju jedinicu.
Pretpostavke
1. Normalnost: slučajne greške εi imaju normalan raspored.

2. Homoskedastičnost. Ova pretpostavka se tiče opsega
odstupanja stohastičkih članova i kaže da sve slučajne
greške imaju jednaka odstupanja, preciznije, jednake
varijanse:
Var (ε1) = Var (ε2) = ... = Var (εN) = σ2
Ukoliko je ova pretpostavka narušena pojavljuje se problem
heteroskedastičnosti.
3. E(εi) = 0. Stohastički član (slučajna greška) u prosjeku je
jednak nuli.
Pretpostavke
Prve tri pretpostavke možemo jednostavno napisati na

sljedeći način: εi : N(0, σ2)
tj. stohastički član ima normalan raspored sa aritmetičkom
sredinom jednakom 0 i varijansom σ2.
4. Nema autokorelacije. To znači da između bilo koja dva

stohastička člana εi i εj ne postoji linearna korelacija.
5. Linearnost. Između pojedinih vrijednosti objašnjavajuće
promjenljive X, xi i odgovarajućih prosječnih vrijednosti Y,
E(Yi), postoji linearna veza.
6. X nije slučajna promjenljiva Vrijednosti objašnjavajuće
promjenljive su fiksirane, pa ih istraživač unaprijed mora
odabrati prije uzimanja uzorka.
Linija regresije u uzorku
yî  b0  b1xi
Sa ŷi označena je ona vrijednost Y koja se tačno nalazi na
najbolje prilagođenoj liniji regresije uzorka, pa se naziva
prilagođena vrijednost Y. Često se koristi i izraz predviđena
vrijednost Y.
Pošto od uzorka do uzorka mogu uzimati različite vrijednosti,

koje ne možemo unaprijed predvidjeti, ocjene b0 i b1 su
slučajne promjenljive.
Linija regresije je ona prava koju treba provući između
empirijskih tačaka, tako da im je najbliža, odnosno da ih
najbolje reprezentuje.
Metod najmanjih kvadrata
Određivanje linije regresije, odnosno ustanovljavanje

vrijednosti ocjena b0 i b1, vrši se na osnovu metoda
najmanjih kvadrata. Metod najmanjih kvadrata se zasniva
na minimiziranju kvadrata odstupanja svih empirijskih tačaka
od regresione linije.
Zbog stohastičkog karaktera veze empirijske tačke će

pokazivati manja ili veća odstupanja od prave.
Vertikalno odstupanje (razliku) između stvarne vrijednosti
yi i prilagođene vrijednosti ŷi nazivamo rezidualom i
označavamo sa ei :
ei  yi  yî  yi  (b0  b1xi )

(Rezidual) ei  y i  y i
Ideja metoda najmanjih kvadrata jeste da se od svih

mogućih pravih linija odabere ona koja ima najmanju sumu
kvadrata vertikalnih odstupanja (reziduala).
Matematički, potrebno je potražiti minimum izraza:
 e  ( yi  yi )  yi  (b0  b1xi )

ˆ
2 2 2
i
U ovom izrazu nepoznate su b0 i b1. Postupak minimiziranja

se sprovodi nalaženjem parcijalnih izvoda po b0 i b1 i
njihovim izjednačavanjem sa nulom. Na taj način dolazimo
do sistema dvije jednačine sa dvije nepoznate, koje se
nazivaju normalnim jednačinama.
Metod najmanjih kvadrata - sistem normalnih jednačina
n n
 y i  nb0 + b1  x i
i=1 i=1
n n n
 x i y i = b 0  x i + b1  i
x 2
i= 1 i=1 i=1
Ocijenjena vrijednost
b1 
n xy   x y
parametra nagiba
n x  (  x )
2 2
Ocijenjena vrijednost
parametra odsječka b0  y  b1 x
Regresioni koeficijent b1 predstavlja ocijenjenu vrijednost

prosječne promjene zavisne promjenljive Y kada se
nezavisna promjenljiva X poveća za svoju jedinicu.
Regresioni koeficijent b0 pokazuje prosječnu vrijednost
zavisne promjenljive Y kada nezavisna promjenljiva X ima
vrijednost 0.
Gauss-Markovljeva teorema: Ako su ispunjene sve

pretpostavke prostog linearnog regresionog modela, ocjene
dobijene metodom najmanjih kvadrata su najbolje (efikasne),
nepristrasne linearne ocjene.
Mjere reprezentativnosti linije regresije
1. standardna greška regresije (apsolutna mjera)

2. koeficijent determinacije (relativni pokazatelj)
U regresionom modelu, pojedine vrijednosti Yi variraju iz dva

razloga:
1. Jedan izvor varijabiliteta se duguje varijacijama u
vrijednostima xi i može se objasniti regresionim modelom.
2. Drugi dio varijabiliteta posljedica je djelovanja slučajne
greške εi i ne može se objasniti regresionim modelom.
Ukupno, objašnjeno i neobjašnjeno odstupanje zavisne
promjenljive Yi, može se predstaviti kao na slici.
yi
Neobjašnjeno
(y i  y i )
odstupanje yi
( y i  y ) Ukupno odstupanje
Objašnjeno
odstupanje (y i  y)
xi
Može se pokazati da je ukupan varijabilitet jednak zbiru

objašnjenog i neobjašnjenog varijabiliteta:
( yi  y ) 2 = ( yî  y )2 + ( yi  yî ) 2
SKU SKO SKN
Ukupan Objašnjeni Neobjašnjen
varijabilitet varijabilitet i varijabilitet
Standardna greška regresije
Standardna greška regresije je apsolutna mjera i pokazuje

odstupanja empirijskih podataka u uzorku od regresione
linije uzorka.
Standardna greška regresije dobija se kao kvadratni korjen
iz rezidualne varijanse, te predstavlja ocjenu standardne
devijacije slučajne greške.
s
 i i
( y  y ) 2

  b0  y  b1  xy
y 2
n2 n2
Na veličinu standardne greške regresije utiču sljedeći faktori:
1. Raspršenost tačaka. Što su empirijske tačke više
raspršene, standardna greška je veća, pa manje pouzdanja
možemo imati u predviđanja zasnovana na takvoj liniji
regresije.
2. Veličina uzorka. Kao i kod svake standardne greške, što
je veći uzorak, manja je standardna greška regresije.
3. Nivo vrijednosti promjenljive Y. Standardna greška je
iskazana u istim mjernim jedinicama kao i zavisna
promjenljiva i zavisi od njenog nivoa. Za viši nivo vrijednosti
promjenljive Y po pravilu je veća i standardna greška
regresije. Usljed toga, ona je nepodesna za poređenje
reprezentativnosti regresionih linija u različitim modelima.
KOEFICIJENT DETERMINACIJE
Koeficijent determinacije (r2) je relativna mjera i pokazuje

učešće objašnjenog varijabiliteta u ukupnom, odnosno koliko
su varijacije promjenljive Y objašnjene promjenljivom X.
x
2
SKO SKN
2
 nx
 1 r b
2 2
y
1 2
SKU SKU 2
 ny
Prednosti koeficijenta determinacije u odnosu na standardnu

grešku su sljedeće: 1. ne zavisi od mjernih jedinica
promjenljive Y, 2. mnogo je lakši za tumačenje, i 3. na
jednostavan način omogućava poređenje više regresionih
modela.
Koeficijent determinacije uzima vrijednosti od 0 do 1. Kada je

r2 = 1 sve empirijske vrijednosti yi nalaze se na liniji
regresije - objašnjeni varijabilitet jednak je ukupnom. Tada su
varijacije promjenljive Y u potpunosti objašnjene
regresionom linijom i ne postoje uticaji drugih faktora,
odnosno dvije promjenljive su u funkcionalnoj vezi.
Približavanjem vrijednosti koeficijenta determinacije nuli, sve
je manji udio objašnjenog varijabiliteta i regresiona linija sve
slabije reprezentuje podatke. U ekstremnom slučaju kada je
r2 = 0, neobjašnjeni varijabilitet se izjednačava sa ukupnim,
promjenljiva Y uopšte nije objašnjena promjenljivom X, te
zaključujemo da ne postoji linearna regresija. Ako koeficijent
determinacije pomnožimo sa 100, tada se njegove
vrijednosti tumače u procentima.
Nema linearnog
kvantitativnog slaganja Funkcionalna linearna veza
Regresiona linija nema Sve empirijske vrijednosti su na
nikakvog smisla regresionoj liniji
moguće vrijednosti koeficijenta determinacije
0 1
Slaba Dobra
Reprezentativnost
regresionog modela
Testiranje značajnosti regresione veze
U prostoj linearnoj regresiji najvažnije je testirati hipotezu da

li je parametar nagiba β1 jednak nuli. Ako bi nas takav test
uputio na zaključak da je β1 = 0, tada ne bismo smjeli
ocijenjenu regresionu liniju koristiti u cilju predviđanja.
Nultu hipotezu da između varijacija posmatranih pojava u
osnovnom skupu ne postoji linearna veza, odnosno da X ne
utiče na Y je:
H0 : 1  0
Alternativna hipoteza dvosmjernog tipa glasi:
H1 : 1  0
Testiranje značajnosti regresione veze
Testiranje se provodi pomoću t – testa. Statistika testa je:

b1
t
s b1
Ocjena standardne greške nagiba je:
s
s b1 
x
2
2
 nx
Poređenjem izračunate vrijednosti t-testa i tablične
vrijednosti iz Student-ovog rasporeda (uz n-2 stepeni
slobode i nivo značajnosti α), izvodi se zaključak. Ako je
apsolutna vrijednost testa veća od tablične, odbacuje se
nulta hipoteza i zaključuje da je parametar β1 statistički
značajan, a time i linija regresije.
Ocjenjivanje i predviđanje vrijednosti zavisne promjenljive
Uslovi za validno predviđanje pomoću regresije:

1. Regresiona linija dobro reprezentuje empirijske podatke
(visok nivo koeficijenta determinacije, na primjer r2 > 0.5).
2. Između varijacija posmatranih pojava u skupu postoji
linearna veza, parametar nagiba se statistički značajno
razlikuje od nule, tj. β1 ≠ 0 .
3. Ne koristi se prekomjerna ekstrapolacija.
Ekstrapolacija je korišćenje regresione linije (modela) u svrhu
predviđanja za one vrijednosti X koje su izvan intervala koji je dat
empirijskim podacima uzorka.
Ekstrapolacija u praksi se može primjenjivati, ali samo u

neposrednoj blizini najmanje i najveće vrijednosti X date uzorkom.
S obzirom na stohastičku prirodu veze između X i Y, za

svaku pojedinačnu vrijednost xi u skupu postoji čitav
raspored mogućih vrijednosti Yi. Njihova prosječna vrijednost
E(Yi) se, kao što nam je poznato, nalazi na liniji regresije
skupa. Usljed toga, samo predviđanje je dvojakog karaktera.
Za neku izabranu vrijednost promjenljive X, označimo je sa
xp, moguće je ocjenjivati prosječnu vrijednost E(Yp) i
predviđati individualne vrijednosti Yp. Razlika je u tome što
prosječna vrijednost E(Yp) predstavlja konstantu, dok je
individualna vrijednost Yp slučajna promjenljiva, budući da
zavisi od slučajne greške εp.
Interval ocjene prosječne vrijednosti zavisne

promjenljive, koji će sa vjerovatnoćom (1 - α) obuhvatiti
E(Yp) je:
y p  t  /2 ,n  2 s y  E(Yp )  y p  t  /2 ,n  2 s y
p p
Za izabranu vrijednost objašnjavajuće promjenljive xp

prosječnu vrijednost E(Yp) ocijenićemo sa:
y p  b0  b1x p
odnosno tako što tu vrijednost unesemo u regresionu liniju
uzorka.
Kritična vrijednost tα/2 dobija se iz tablica t rasporeda za n - 2

stepeni slobode.
Standardna greška ocjene prosječne vrijednosti zavisno
promjenljive
1 (x p  x) 2
sy s 
p n  x 2  nx 2
Veličina standardne greške zavisi od sljedećih faktora:

1. Veća raspršenost tačaka oko linije regresije povećava
standardnu grešku. 2. standardna greška se smanjuje sa
povećanjem veličine uzorka. 3. Sa udaljavanjem odabrane
vrijednosti xp od aritmetičke sredine promjenljive X,
standardna greška se povećava i interval povjerenja postaje
širi. 4. Sa povećanjem disperzije promjenljive X smanjuje se
veličina standardne greške.
Interval predviđanja pojedinačne vrijednosti Y formira se

na isti način kao interval ocjene prosječne vrijednosti:
y p  t  /2 ,n  2 s y p  Yp  y p  t  /2 ,n  2 s y p
Standardna greška predviđanja individualne vrijednosti

zavisno promjenljive:
1 (x p  x) 2
syp  s 1 
x
2
n 2
 nx
VIŠESTRUKA REGRESIONA I KORELACIONA ANALIZA
Ciljevi
Višestruki regresioni i korelacioni modeli daleko uspješnije

opisuju međuzavisnost pojava u realnosti. Međutim, sa
svakom dodatno uključenom promjenljivom postupak
izračunavanja se računski komplikuje.
Cilj višestruke regresije je da se na osnovu ocijenjenog

modela izvrši predviđanje varijacija zavisno promjenljive Y za
različite kombinacije vrijednosti objašnjavajućih promjenljivih
Xi.
Cilj višestruke korelacije je da se odredi da li postoji
kvantitativno slaganje između zavisne promjenljive Y i grupe
objašnjavajućih promjenljivih.
VIŠESTRUKI LINEARNI REGRESIONI MODEL
Prvi korak u analizi je identifikacija promjenljivih, a zatim za

odabrane (fiksirane) vrijednosti objašnjavajućih promjenljivih
iz osnovnog skupa se bira slučajni uzorak veličine n.
Pretpostavimo da smo k pojava identifikovali kao
objašnjavajuće promjenljive. Označimo ih sa X1, X2,...,Xk.
Višestruki linearni regresioni model postavićemo tako što
ćemo formulisati jednačinu za proizvoljnu vrijednost zavisne
promjenljive Yi u skupu:
Yi   0   1x 1i   2 x 2 i  ...   k x ki i
U modelu su:
Y zavisna promjenljiva
x1i, x2i,...,xki i-te vrijednosti objašnjavajućih promjenljivih
β0, β1, β2,...,βk parametri modela
εi stohastički član, ili slučajna greška
k broj objašnjavajućih promjenljivih
Deterministički dio:
β0 + β1x1i + β2x2i +...+ βkxki
pokazuje prosječan uticaj objašnjavajućih promjenljivih na Yi,

a stohastički član εi odražava efekte ostalih faktora koji nisu
obuhvaćeni modelom i slučajne uticaje.
Pretpostavke
Model višestruke regresije se zasniva na identičnim

pretpostavkama kao i prost linearni regresioni model.
Međutim, da bi ocjene parametara imale optimalne osobine
nužno je uvesti još dvije dodatne pretpostavke:
1. Broj podataka u uzorku mora biti veći od broja ocjenjivanih
parametara , tj. n > k.
2. Između objašnjavajućih promjenljivih ne postoji savršena
multikolinearnost. Ovo znači da između bilo koje dvije
objašnjavajuće promjenljive ne smije da postoji savršena
linearna korelacija.
Regresioni model sa dvije objašnjavajuće promjenljive
Linearni regresioni model sa dvije objašnjavajuće

promjenljive je najjednostavniji višestruki regresioni model i,
s obzirom na opšti model, glasi:
Yi   0   1 x 1i   2 x 2 i   i
Deterministički dio modela geometrijski predstavlja ravan:

 0   1 x 1i   2 x 2 i
Ako bi između objašnjavajućih promjenljivih, sa jedne strane,
i zavisne promjenljive Y, sa druge strane, postojala
funkcionalna veza, tada bi se sve vrijednosti Yi nalazile tačno
na regresionoj ravni.
Tumačenje regresionih koeficijenata modela
Regresioni koeficijenti β0, β1 i β2 se tumače na sličan način

kao u prostom regresionom modelu. Parametar β0
predstavlja odsječak u kome ravan siječe Y osu. Regresioni
koeficijent β1 pokazuje prosječnu promjenu zavisne
promjenljive Y kada se objašnjavajuća promjenljiva X1
poveća za jedinicu, pod uslovom da objašnjavajuća
promjenljiva X2 ostane nepromijenjena. Analogno, β2
označava koliko se u prosjeku promijeni zavisna promjenljiva
Y kada se objašnjavajuća promjenljiva X2 poveća za jedinicu,
a X1 ostane konstantna. Kada regresioni koeficijenti imaju
pozitivan znak, veza između odgovarajućih promjenljivih je
direktna, dok negativan znak odražava inverznu vezu.
Regresioni model sa dvije objašnjavajuće promjenljive
Regresiona ravan uzorka je
Y i  b 0  b 1 x 1i  b 2 x 2 i
Ocjena parametara
Zadatak statistike svodi se na nalaženje jednačine najbolje

ravni, odnosno one ravni koja ima najmanja odstupanja u
odnosu na sve empirijske podatke.
Kao i kod proste linearne regresije, parametre ćemo ocijeniti

metodom najmanjih kvadrata. Potrebno je minimizirati sumu
kvadrata vertikalnih odstupanja (reziduala) empirijskih tačaka
od regresione ravni:
 e i2  
(y i - y i ) 2  
[ y i - (b0  b1x 1i  b 2 x 2i )]2
Sistem normalnih jednačina
Rješenja za parametre b0, b1 i b2 dobiju se na osnovu

sistema normalnih jednačina
 y  nb0  b1  x 1  b 2  x 2
 1
x y  b 0 1
x  b 1  1  b2  x 1x 2
x 2
 x 2 y  b0  x 2  b1  x 1 x 2  b 2  x
2
2
Mjere reprezentativnosti u višestrukoj regresiji
Da bismo utvrdili prilagođenost ocijenjene regresione ravni

empirijskim podacima, koristimo analogne mjere kao kod
proste regresije: standardnu grešku regresije, kao
apsolutnu mjeru, i koeficijent višestruke determinacije,
kao relativnu mjeru.
Standardna greška regresije s predstavlja ocjenu standardne

devijacije slučajne greške, σ, pa se dobija kao kvadratni
korijen rezidualne varijanse.
( y - ˆ
y )2
s = ˆ 2 = i i
n - ( k  1)
Što je vrijednost standardne greške regresije manja, to
model bolje reprezentuje veze zavisne i objašnjavajućih
promjenljivih. Ako je standardna greška jednaka nuli, tada se
radi o funkcionalnoj vezi.
KOEFICIJENT VIŠESTRUKE DETERMINACIJE
Koeficijent višestruke determinacije dobije se stavljanjem u

odnos objašnjenog varijabiliteta sa ukupnim i predstavlja
relativnu mjeru reprezentativnosti.
Objašnjen varijabilitet ( ˆ
y - y ) 2
R2   i
2
Ukupan varijabilitet ( yi - y )
R2 pokazuje procenat varijacija zavisne promjenljive Y koji je

objašnjen zajedničkim uticajem objašnjavajućih promjenljivih
uključenih u model.
KOEFICIJENT VIŠESTRUKE DETERMINACIJE
Vrijednost R2 varira, kao i kod prostog regresionog modela,

od 0 do 1. Što je bliži jedinici veće je učešće objašnjenog
varijabiliteta u ukupnom, odnosno ocijenjena regresiona
jednačina bolje reprezentuje empirijske podatke.
Nedostatak koeficijenta višestruke determinacije kao mjere

reprezentativnosti je u tome da zavisi od broja promjenljivih u
modelu i veličine uzorka.
Ukoliko je broj podataka u uzorku mali, a posmatra se veliki
broj objašnjavajućih promjenljivih, tada R2 iskrivljeno
prikazuje vezu između pojava, jer je nerealno visok.
KORIGOVANI KOEFICIJENT
VIŠESTRUKE DETERMINACIJE
Takođe, svakim uključivanjem nove objašnjavajuće
promjenljive u model, koeficijent višestruke determinacije se
automatski povećava, bez obzira na njen stvarni uticaj. Zbog
toga je potrebno izvršiti njegovu korekciju, vodeći računa o
broju objašnjavajućih promjenljivih i veličini uzorka. To se vrši
pomoću korigovanog koeficijenta višestruke
determinacije:
2 n1
R 1 (1  R 2 )
n  ( k  1)
n je veličina uzorka, a k broj objašnjavajućih promjenljivih.
Korigovani koeficijent nikada ne može biti veći od
nekorigovanog. Razlika između ova dva koeficijenta se
smanjuje sa povećanjem uzorka, a povećava sa velikim
brojem objašnjavajućih promjenljivih u modelu.
Testiranje značajnosti ocijenjenih parametara
Da bismo koristili ocijenjenu regresionu jednačinu za

ocjenjivanje i predviđanje vrijednosti zavisne promjenljive Y,
moramo prethodno da testiramo značajnost dobijenih
ocjena. Zbog obimnosti izračunavanja, testiranje ćemo u
praksi sprovoditi na osnovu rezultata primjene
odgovarajućeg statističkog računarskog programa.
U regresionom modelu sa dvije objašnjavajuće promjenljive

nulta i alternativna hipoteza glase:
I) H0: ß1 = 0 H1: ß1 ≠ 0
II) H0: ß2 = 0 H1: ß2 ≠ 0.
Ako ocijenjena regresiona jednačina korektno reprezentuje

empirijske podatke (dobijen je relativno visok nivo
koeficijenta višestruke determinacije) i ocjene parametara se
pokažu statistički značajnim, višestruki regresioni model se
može validno koristiti za intervalno ocjenjivanje prosječnih i
predviđanje individualnih vrijednosti zavisne promjenljive Y,
kao i kod prostog linearnog modela. Ovo, naravno, važi pod
uslovom da ne vršimo neumjerenu ekstrapolaciju. Dakle, tri
uslova koje smo koristili kod prostog modela ostaju i ovdje
na snazi.
Potrebna izračunavanja su obimna, tako da se koriste
odgovarajući statistički računarski programi.
KOEFICIJENT VIŠESTRUKE
LINEARNE KORELACIJE
Koeficijent višestruke linearne korelacije R pokazuje stepen

linearnog slaganja varijacija između zavisne promjenljive Y i
grupe objašnjavajućih promjenljivih X1, X2,...,Xk.
Kao kod proste i kod višestruke korelacione analize se

pretpostavlja da su sve posmatrane promjenljive slučajne.
Uvodi se dodatna pretpostavka da je zajednički raspored
promjenljivih normalan.
Za razliku od koeficijenta proste linearne korelacije r,
koeficijent višestruke korelacije R nikada ne može biti
negativan, odnosno 0 ≤ R ≤ 1.
KOEFICIJENT VIŠESTRUKE
LINEARNE KORELACIJE
Koeficijent višestruke korelacije ne pokazuje smjer slaganja

varijacija posmatranih pojava. Što je bliži jedinici, stepen
linearne veze je jači, i u ekstremnom slučaju, kada je R = 1,
zavisna promjenljiva je funkcionalno povezana sa grupom
objašnjavajućih promjenljivih. Nasuprot tome, kada je R = 0
kažemo da ne postoji linearna veza između posmatranih
pojava. Na osnovu dobijenog koeficijenta višestruke
korelacije ne mogu se donositi zaključci o postojanju
uzročno-posljedične veze između zavisne promjenljive i
grupe objašnjavajućih promjenljivih.
Koeficijent višestruke linearne korelacije jednak je

pozitivnom kvadratnom korijenu koeficijenta višestruke
determinacije R2.
KOEFICIJENT DJELIMIČNE
(PARCIJALNE) KORELACIJE
Koeficijent djelimične ili parcijalne korelacije. pokazuje

jačinu linearne veze između jedne ili više objašnjavajućih
promjenljivih i zavisne promjenljive Y, pri čemu se eliminiše
uticaj drugih objašnjavajućih promjenljivih na Y.
Koeficijent djelimične korelacije, u slučaju dvije
objašnjavajuće promjenljive, pokazuje stepen linearnog
slaganja varijacija zavisne promjenljive i jedne
objašnjavajuće promjenljive, pri čemu je uticaj druge
nezavisne promjenljive isključen.
KOEFICIJENT DJELIMIČNE
(PARCIJALNE) KORELACIJE
Koeficijent djelimične ili parcijalne korelacije. Izračunava se

na osnovu izraza:
r yxi - r yx j r x i x j
ry x i x  i=1, 2
j
(1 - r 2yx j ) (1 - r x2 i x j ) j=1, 2
Koeficijent djelimične korelacije može uzimati vrijednosti od

-1 do +1 i tumači se na sličan način kao i koeficijent proste
linearne korelacije.

STATISTIKA Regresiona I Korelaciona Analiza

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

STATISTIKA Regresiona I Korelaciona Analiza

Uploaded by

Copyright:

Available Formats

REGRESIONA I

Prof. dr Jasmin Komić

Generalna forma stohastičkog (probabilističkog) modela

Suština stohastičke veze jeste da između pojedinih

Cilj korelacione analize jeste da se ispita da li između

Cilj regresione analize je da se odredi onaj regresioni

Svrha regresije jeste da se utvrdi oblik veze, odnosno zavisnosti

Dijagramom raspršenosti grafički prikazujemo varijacije dvije

Dijagram raspršenosti pokazuje različite mogućnosti

Svrha korelacione analize je da se utvrdi da li između

Zadatak proste linearne korelacije je da pokaže da li između

Koeficijent proste linearne korelacije uzima vrijednosti od -1 do

-1 -0,9 -0,8 -0,7 0 0,7 0,8 0,9 1

Tumačenje vrijednosti koeficijenta proste linearne korelacije r

Koeficijent proste linearne korelacije u osnovnom skupu

Prilikom testiranja pretpostavka je da je zajednički raspored

Alternativna dvosmjerna hipoteza je:

Statistika testa je:

O prostoj linearnoj regresiji govorimo kada posmatramo dvije

Yi =β0 + β1xi + εi , i = 1,2,...,N

Regresioni model opisuje (modelira) stohastičku zavisnost

Jednačina linije regresije skupa (populacije) glasi

S obzirom da uvijek radimo samo sa uzorkom, koeficijenti β0

Po statističkoj prirodi ε je slučajna promjenljiva, tako da je i

Regresioni parametar β0 (odsječak) pokazuje prosječnu

1. Normalnost: slučajne greške εi imaju normalan raspored.

Prve tri pretpostavke možemo jednostavno napisati na

4. Nema autokorelacije. To znači da između bilo koja dva

Pošto od uzorka do uzorka mogu uzimati različite vrijednosti,

Određivanje linije regresije, odnosno ustanovljavanje

Zbog stohastičkog karaktera veze empirijske tačke će

ei  yi  yˆi  yi  (b0  b1xi )

Ideja metoda najmanjih kvadrata jeste da se od svih

 e  ( yi  yi )  yi  (b0  b1xi )

U ovom izrazu nepoznate su b0 i b1. Postupak minimiziranja

Regresioni koeficijent b1 predstavlja ocijenjenu vrijednost

Gauss-Markovljeva teorema: Ako su ispunjene sve

1. standardna greška regresije (apsolutna mjera)

U regresionom modelu, pojedine vrijednosti Yi variraju iz dva

Može se pokazati da je ukupan varijabilitet jednak zbiru

Standardna greška regresije je apsolutna mjera i pokazuje

Koeficijent determinacije (r2) je relativna mjera i pokazuje

Prednosti koeficijenta determinacije u odnosu na standardnu

Koeficijent determinacije uzima vrijednosti od 0 do 1. Kada je

moguće vrijednosti koeficijenta determinacije

U prostoj linearnoj regresiji najvažnije je testirati hipotezu da

Alternativna hipoteza dvosmjernog tipa glasi:

Testiranje se provodi pomoću t – testa. Statistika testa je:

Uslovi za validno predviđanje pomoću regresije:

Ekstrapolacija u praksi se može primjenjivati, ali samo u

S obzirom na stohastičku prirodu veze između X i Y, za

Interval ocjene prosječne vrijednosti zavisne

Za izabranu vrijednost objašnjavajuće promjenljive xp

Kritična vrijednost tα/2 dobija se iz tablica t rasporeda za n - 2

Veličina standardne greške zavisi od sljedećih faktora:

Interval predviđanja pojedinačne vrijednosti Y formira se

Standardna greška predviđanja individualne vrijednosti

Višestruki regresioni i korelacioni modeli daleko uspješnije

Cilj višestruke regresije je da se na osnovu ocijenjenog

Prvi korak u analizi je identifikacija promjenljivih, a zatim za

pokazuje prosječan uticaj objašnjavajućih promjenljivih na Yi,

Model višestruke regresije se zasniva na identičnim

Linearni regresioni model sa dvije objašnjavajuće