You are on page 1of 44

PROSTA KORELACIONA I

REGRESIONA ANALIZA

CILJEVI POGLAVLJA

Nakon čitanja ovoga poglavlja bićete u stanju da:


1. shvatite razliku između funkcionalne i stohastičke veze i
razumete stohastički model

11. glava
2. znate kada se primenjuje korelacija, a kada regresija
3. primenite i shvatite koeficijent proste linearne korelacije
i njegova ograničenja
4. formulišete prost linerani regresioni model, i da na
osnovu njega ocenite i predvidite vrednost jedne pojave
na osnovu vrednosti neke druge
5. shvatite logiku i primenite jedan od najvažnijih
statističkih metoda, metod najmanjih kvadrata
6. interpretirate regresioni i korelacioni izlaz iz modernih
statističkih softvera

U prethodnim poglavljima upoznali smo se sa metodima statističkog


zaključivanja, odnosno kako se na osnovu informacije iz uzorka donose
zaključci (putem ocenjivanja ili testiranja hipoteza) o nepoznatim
karakteristikama osnovnog skupa. Sada ćemo naše interesovanje usmeriti na
istraživanje međusobnih veza i uticaja dve ili više pojava. Tako, na primer,
može nas interesovati da ispitamo zavisnost između vremena provedenog u
spremanju statistike i ocene na ispitu, dohotka i izdataka za kulturu
domaćinstava, između zarada zaposlenih i godina školovanja, kamatne stope i
ponude novca, izdataka za propagandu i prodaje, troškova za istraživanje i
profita firme, broja kriminalnih dela sa jedne strane i stope nezaposlenosti i
stope inflacije sa druge strane, itd. U svakom od navedenih slučajeva analizu
sprovodimo pomoću dva, verovatno najpoznatija statistička metoda, korelacije
i regresije.
Kao i do sada, naše zaključivanje zasnivaće se na uzorku. Ali sada ćemo
na osnovu uzorka ispitivati kako su varijacije jedne pojave (ili grupe od dve ili
više pojava) povezane sa varijacijama neke druge pojave. Cilj našeg istraživanja
neće se naravno odnositi na uzorak, već na osnovni skup iz koga je uzorak
izvučen.
250 OSNOVI STATISTIKE

11.1 FUNKCIONALNA I STOHASTIČKA VEZA


Međusobne veze između pojava (promenljivih) možemo podeliti u dve grupe:
funkcionalne i stohastičke. Funkcionalna (naziva se još i deterministička ili
egzaktna) veza javlja u slučaju kada jednoj vrednosti nezavisne promenljive X
odgovara samo jedna, tačno određena, vrednost zavisne promenljive Y. Tako, na
primer, površina kvadrata izračunava se pomoću formule P = a2. Za bilo koju
željenu vrednost stranice kvadrata a, možemo egzaktno izračunati površinu P,
jednostavnom zamenom numeričke vrednosti na desnoj strani jednakosti.
Determinističke veze se retko sreću u društvenim naukama i ekonomiji.
Posmatrajmo sada međuzavisnost dve ekonomske pojave, recimo,
izdatke za propagandu (oglašavanje) kompjuterske opreme (kao nezavisne
promenljive) i prihod od prodaje te opreme (kao zavisne promenljive). Prvo
pitanje koje se ovde postavlja je: da li postoji funkcionalna veza između ove dve
pojave? Drugačije rečeno, da li na osnovu poznavanja izdataka za propagandu
možemo egzaktno da predvidimo nivo prihoda od prodaje, na primer, u vidu
relacije
Prihod od prodaje = 5 · Troškovi reklamiranja (11.1)
koja bi važila za sve firme u Srbiji? To bi praktično značilo da ako neka firma
uloži 1000 evra u reklamiranje, prihod od prodaje bi iznosio tačno 5000 evra.
Složićemo se da je odgovor negativan i to iz više razloga. Prodaja kompjuterske
opreme ne zavisi samo od propagande, već i od niza drugih faktora, kao što su
cena opreme, cena konkurentskih proizvoda, dohotka potencijalnih kupaca itd.
Čak i kad bismo u model uključili veliki broj faktora od kojih zavisi prodaja, ne
bi bilo moguće predvideti egzaktnu vrednost prodaje. Zbog čega? Zbog toga
što na pojave u društvu i ekonomiji deluju specifični nepredvidljivi uticaji
psihološke prirode, kao i različiti slučajni uticaji. Zato ni nismo u stanju da na
osnovu poznavanja pojedinih vrednosti nezavisne promenljive u potpunosti
odredimo vrednosti zavisne promenljive. Ipak, očekujemo da postoji određena
pozitivna veza između propagande i prodaje, u smislu: veći izdaci za
propagandu − veća prodaja. Ovakva veza je slabija od funkcionalne i naziva se
stohastička1 (eng. stochastical) veza.
Kod stohastičkih veza jednoj vrednosti nezavisne promenljive
odgovara čitav niz mogućih vrednosti zavisne promenljive. U našoj formuli,
odnosno modelu, (11.1), kod različitih firmi, za isti nivo izdataka za
propagandu očekivali bismo različiti nivo prodaje. Drugim rečima, takav model
ne samo da je suviše jednostavan, nego bi u praksi pokazivao manje ili veće
greške. Kako onda da modeliramo veze između pojava u ekonomiji, koje su po
svojoj prirodi stohastičke?
Stohastičke veze između dve pojave modeliraćemo tako što ćemo u

1 Termin "stohastički" potiče od starogrčke reči στοχαστικός, što znači ciljati ili

pogađati.
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251

model, pored zavisne i nezavisne promenljive, uključiti još jednu komponentu,


koja će obuhvatiti sve ostale faktore (osim X) koji utiču na Y. Bez uključivanja te
komponente jasno je da bi naš model (11.1) za različite vrednosti X davao
pogrešne vrednosti Y. Ta komponenta deluje na nepredvidljiv, slučajan način
na Y. Kako da nazovemo tu komponentu koja na sasvim slučajan način dovodi
do greške pri predviđanju u model (11.1)? Nazvaćemo je stohastički član ili
slučajna greška modela, i već smo imali prilike da je upoznamo kod modela
analize varijanse. Dakle, umesto relacije (11.1) međuzavisnost posmatrane dve
pojave se neuporedivo bolje opisuje modelom
Prihod od prodaje = 5 · Izdaci za propagandu + Slučajna greška (11.2)
Ovakav model dozvoljava da za razne vrednosti X imamo više različitih
vrednosti Y.
Generalno, stohastički model, odnosno veza, može se prikazati na sledeći
način.
Generalna forma stohastičkog modela
Y = Deterministički član + stohastički član (11.3)

Posmatranjem modela (11.3) nameće se logično pitanje: kako je uopšte moguće


analizirati takav model, ako on uključuje potpuno nepredvidljivu komponentu,
preciznije rečeno, slučajnu promenljivu? Statističari su pokazali da se takvi
modeli ipak mogu koristiti tako što će se uvesti određene pretpostavke o
stohastičkom članu modela. Za sada ukažimo samo na jednu od njih. Budući da
stohastički član u različitim situacijama deluje na slučajan način, nekada tako
što utiče pozitivno na Y, nekada negativno, pretpostavićemo da se ti uticaji u
zbiru potiru, odnosno da je u proseku njegov uticaj jednak nuli.
Kako je stohastički član, u stvari, slučajna promenljiva, koji statistički
pokazatelj označava prosek te slučajne promenljive? Podsetimo se, to je,
očekivana vrednost E(X). Dakle, E(stohastičkog člana) = 0.
Ako je u modelu (11.3) zavisna promenljiva Y funkcija stohastičkog
člana, a ovaj je po svojoj prirodi slučajna promenljiva, koja je statistička priroda
Y? Iz glave 4 znamo da je svaka funkcija slučajne promenljive i sama slučajna
promenljiva. Zaključujemo stoga da je i Y slučajna promenljiva. Ostaje još samo
da odredimo čemu je jednak prosek, tj. očekivana vrednost Y. Prosek Y, na
osnovu relacije (11.3), biće jednak proseku zbira determinističkog i stohastičkog
člana. Kako je prosek stohastičkog člana jednak nuli, zaključujemo da je
Prosek Y = Deterministički član. (11.4)
Da sumiramo: u ekonomiji stohastički model mnogo bolje opisuje realnost od
determinističkog. On uvek u sebi uključuje bar jednu slučajnu promenljivu.
Usled toga se u literaturi u poslednje vreme reči "stohastički" i "slučajni"
shvataju kao sinonimi2.

2 Videti, na primer, Voght P., Dictionary of Statistics & Methodology – a Nontethical


252 OSNOVI STATISTIKE

Veze kod kojih porastû (opadanju) vrednosti nezavisne promenljive X


istovremeno odgovara porast (opadanje) zavisne promenljive Y nazivamo
direktnim vezama. Tipičan primer je odnos između primenjene količine
određenog veštačkog đubriva i prinosa neke poljoprivredne kulture. Sa druge
strane, ako porastû jedne promenljive odgovara opadanje druge, radi se o
inverznim vezama (na primer, sa porastom cene avionskih karata opada broj
putnika, uz konstantni realni dohodak). Naravno, ukoliko se ustanovi da sa
promenama vrednosti jedne pojave druga promenljiva ostaje konstantna,
zaključićemo da između njih ne postoji nikakva zavisnost.
U stvarnosti, između dve ili više pojava moguće je postojanje
najrazličitijih oblika veza, počev od onih koje se matematički mogu iskazati
jednostavnom formulom, pa do onih veoma kompleksnih. Najjednostavniji
oblik veze između pojava je linearna veza i u ovoj knjizi zadržaćemo se samo
na takvim vezama.

11.2 RAZLIKA IZMEĐU REGRESIONE I KORELACIONE ANALIZE


Prilikom istraživanja međuzavisnosti varijacija dve ili više pojava u statistici se
primenjuju metodi regresione i korelacione analize. Iako su ovi statistički
metodi u bliskoj vezi i međusobno se dopunjuju, između njih postoje i značajne
razlike.
Kod korelacije, pri analizi dve pojave svejedno je koja se od njih
označava kao nezavisna, a koja kao zavisna promenljiva - dobija se identičan
rezultat. Međutim, kao što ćemo videti u sledećoj glavi, pri ispitivanju
korelacione veze između tri ili više pojava prethodno jedna od njih se mora
definisati kao zavisna promenljiva, dok ostale dobijaju ulogu nezavisnih
promenljivih.

Cilj korelacione analize je da se ispita da li između varijacija


posmatranih pojava postoji kvantitativno slaganje i, ako postoji, u
kom stepenu.

Kod regresione analize nužno je unapred identifikovati koja pojava će


imati ulogu zavisne promenljive, a koja nezavisne promenljive. U statistici se
kod regresije najčešće ne koristi termin "nezavisna promenljiva"3, već
objašnjavajuća promenljiva ili regresor. Naziva se objašnjavajuća jer pomoću
nje pokušavamo da objasnimo varijacije zavisne promenljive. Koja promenljiva
će biti izabrana za objašnjavajuću utvrđuje se na osnovu prethodnih teorijskih
ili empirijskih saznanja, ili pretpostavki o prirodi analiziranih pojava.

Guide for the Social Sciences, Sage, Thousand Oaks, 2005, str. 312, ili:
http://mathworld.wolfram.com/Stochastic.html
3 Kod regresije se izbegava izraz “nezavisna promenljiva“ jer to implicira da je X

uzrok, a Y posledica. Međutim, regresionom analizom je nemoguće dokazati


uzročnu vezu između pojava.
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 253

Svrha regresije jeste da se utvrdi oblik veze, odnosno zavisnosti između


posmatranih pojava. To se postiže pomoću odgovarajućeg regresionog modela.
Regresioni model je takav stohastički model koji kroz matematičku formulu i
niz odgovarajućih pretpostavki najbolje opisuje kvantitativnu zavisnost između
varijacija posmatranih pojava u realnosti. Regresioni model nije sam po sebi cilj
regresije, već sredstvo koje nam služi da ocenimo i predvidimo vrednosti
zavisne promenljive za željene vrednosti objašnjavajuće promenljive.

Cilj regresione analize je da se odredi onaj regresioni model koji


najbolje opisuje vezu između pojava i da se na osnovu toga
modela ocene i predvide vrednosti zavisne promenljive Y za
odabrane vrednosti objašnjavajuće promenljive X.

Na osnovu navedenog jasno je da regresiona analiza ima daleko veći


značaj u praktičnim istraživanjima od korelacije.
Važno je napomenuti da pomoću regresije i korelacije nismo u stanju da
otkrijemo da li između pojava postoji uzročno-posledična veza, u smislu da je jedna
pojava uzrok, a druga posledica. To se može utvrditi drugim metodima
kvantitativne ili pomoću kvalitativne analize.
Prilikom istraživanja međusobnih veza dve promenljive primenjuju se
metodi proste (eng. simple) regresione i korelacione analize, a u slučaju
posmatranja više promenljivih, metodi višestruke (eng. multiple) regresije i
korelacije. Reč "prosta" znači samo to da su u pitanju dve pojave, a nikako da je
analiza jednostavna. U ovoj knjizi zadržaćemo se samo na prostoj korelaciji i
regresiji.

11.3 DIJAGRAM RASPRŠENOSTI


Dijagram raspršenosti (eng. scatter diagram) je dijagram kojim se prikazuje
veza između dve kvantitativne promenljive. Bitno je shvatiti da se vrednosti
ovih promenljivih dobijaju na osnovu merenja na istim jedinicama posmatranja
(na primer istim studentima, istim firmama itd.). Na osnovu merenja dolazi se
do uređenih parova podataka (x1,y1), (x2,y2),...itd.
Pretpostavimo da nas interesuje da li između visine i težine studenata Vašeg
univerziteta postoji kvantitativno slaganje. Kod svakog studenta morali
bismo da izmerimo visinu i težinu i na taj način formirali bismo uređenu listu
parova podataka. Svaki od tih parova sastojao bi se od dva broja – jednog koji
bi označavao težinu određenog studenta i drugi koji bi se odnosio na njegovu
visinu, na primer, (75 kg ; 185 cm). Osnovni skup u ovom slučaju čine svi
parovi vrednosti (xi, yi), pa kažemo da on sadrži sve realizovane vrednosti
dvodimenzionalne promenljive. Dijagram raspršenosti nema smisla koristiti
ako nemamo uređene parove podataka, na primer nema smisla grafički
prikazivati podatke za visinu 10 studenata u Kragujevcu i težinu 10
studenata u Subotici. Ovo ujedno važi i za regresionu i korelacionu analizu.
Dijagram raspršenosti se konstruiše u pravouglom koordinatnom sistemu. Pri
254 OSNOVI STATISTIKE

tome se na apscisnu osu nanose jedinice pojave koju smo označili nezavisnom
(u regresionoj analizi objašnjavajućom) promenljivom X, a na ordinatnu osu
jedinice zavisne promenljive Y. Ucrtavanjem svih empirijskih parova podataka
može se dobiti važna slika o eventualnom postojanju, obliku, smeru i jačini
veze između posmatranih pojava.
PRIMER 11.1: Uzmimo podatke Tabele 11.1, koja pokazuje izdatke za
propagandu (u milionima dinara) i prihod od prodaje (u 100 miliona dinara),
deset, na slučaj odabranih računarskih firmi u Srbiji.
Tabela 11.1 Izdaci za propagandu i prihod od prodaje 10 računarskih firmi,
na osnovu slučajnog uzorka
Firma A B C D E F G H I J
Izdaci za propagandu 8 10 3 3 2 7 5 6 5 4
Prihod od prodaje 10 14 3 5 4 12 8 9 7 6

Koju promenljivu označiti kao X, a koju kao Y? Odgovor zavisi od toga da li


sprovodimo korelacionu ili regresionu analizu. Ako istražujemo vezu između
posmatrane dve pojave, potpuno je svejedno da li ćemo na X osu nanositi
vrednosti prve ili druge promenljive. Međutim, ako želimo da ispitamo da li
se na osnovu ulaganja u propagandu mogu objasniti varijacije prodaje, kao
objašnjavajuću promenljivu odabraćemo izdatke za propagandu. Budući da
ćemo podatke Tabele 11.1 koristiti i u regresionoj analizi, izdatke za
propagandu ćemo označiti kao X, a prodaju kao Y. Podatke uzorka
prikazaćemo grafički pomoću dijagrama raspršenosti na Slici 11.1.

Dijagram raspršenosti

14

12

10
Prihod

0
0 2 4 6 8 10
Izdaci

Slika 11.1 Dijagram raspršenosti za podatke Tabele 11.1


Dijagram raspršenosti na Slici 11.1 pokazuje da između varijacija
posmatranih pojava postoji kvantitativno slaganje. Naime, sa porastom
ulaganja u propagandu raste i prihod od prodaje. Dakle, vidimo da se radi o
direktnoj vezi između pojava. Takođe, raspored tačaka se približno grupiše u
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 255

vidu prave linije, što nam govori da je u pitanju linearna veza. Međutim, sve
tačke se ne nalaze na samoj pravoj liniji, jer bi se onda radilo o
funkcionalnom slaganju, što je izuzetno redak slučaj u ekonomiji. U pitanju
je, dakle, stohastička veza, kod koje individualni slučajevi pokazuju
odstupanja od opšte pravilnosti. Ukoliko su tačke više raspršene u odnosu na
pravu liniju, utoliko je i slabija međuzavisnost dve pojave, i obrnuto. U
slučaju kada je raspored tačaka sasvim raspršen zaključuje se da ne postoji
nikakvo kvantitativno slaganje varijacija dve pojave.
Na Slici 11.2 prikazane su različite mogućnosti povezanosti varijacija dve
pojave na odgovarajućim dijagramima raspršenosti.

Slika 11.2 Primeri različitih oblika veza na dijagramima raspršenosti


Od navedenih grafičkih prikaza obratimo pažnju na onaj pod i) zbog njegove
posebne važnosti u daljem izlaganju. Iako na prvi pogled izgleda da postoji
pravolinijska funkcionalna veza između pojava, to nije tačno, jer za bilo koje
vrednosti promenljive X promenljiva Y ostaje konstantna. Takođe, upozorimo
na jednu specifičnost dijagrama raspršenosti na Slici 11.1 u odnosu na
dijagrame sa Slike 11.2. Naime, ranije smo naveli da kod stohastičke veze za
svaku vrednost X postoji čitav niz vrednosti Y, a to se ne može uočiti na Slici
256 OSNOVI STATISTIKE

11.1 (izuzev što za vrednosti X = 3 i X = 5 imamo po dve vrednosti Y). Razlog je


u tome što u našem primeru raspolažemo sa relativno malim uzorkom od samo
10 firmi.
Na osnovu svega navedenog možemo zaključiti da dijagramom
raspršenosti grafički prikazujemo varijacije dve pojave u cilju sagledavanja:
1. da li između njih postoji kvantitativno slaganje,
2. ako slaganje postoji, koji je njegov oblik (linearni ili krivolinijski),
3. koji je smer slaganja (direktni ili inverzni), i
4. koja je jačina slaganja.
Bez dijagrama raspršenosti često se u praksi mogu dobiti potpuno nevalidni
zaključci; stoga preporučujemo da se obavezno, pre bilo kakve kvantitativne
analize, podaci prikažu na ovom dijagramu.

11.4 PROSTA KORELACIONA ANALIZA


Podsetimo se da je svrha korelacione analize da se utvrdi da li između varijacija
posmatranih pojava postoji kvantitativno slaganje (korelaciona veza) i, ako
postoji, u kom stepenu. Ako se pri tome posmatraju dve pojave, govori se o
prostoj korelaciji, a prilikom analize više pojava o višestrukoj korelaciji.
Za razliku od regresije kod proste korelacije se ne pravi razlika između
zavisne i nezavisne promenljive – obe posmatrane pojave imaju jednaki status.
Preciznije rečeno, obe posmatrane pojave tretiraju se kao slučajne
promenljive. Dakle, potpuno je svejedno koju pojavu ćemo označiti kao X, a
koju kao Y, pošto se dobijaju identični rezultati.
Tako se, na primer, posmatranjem uspeha studenata na ispitu iz
matematike i ispitu iz statistike može uočiti tendencija da će studenti koji imaju
više ocene iz matematike, imati više ocene iz statistike, i obrnuto. Naravno, ovo
važi u masi slučajeva, a ne kod svakog pojedinačnog studenta. Međutim, ne
možemo kategorički nijednu od navedenih pojava označiti kao nezavisnu
promenljivu. Slično, pri ispitivanju veze između stope inflacije i stope
nezaposlenosti primećuju se slične tendencije porasta ili opadanja, ali nismo u
mogućnosti da preciziramo koja je od njih nezavisna promenljiva. Zbog toga se
kao cilj ispitivanja ne postavlja istraživanje jedne pojave u funkciji druge.

11.4.1 Koeficijent proste linearne korelacije


Pomoću koeficijenta proste linearne korelacije ispituje se da li između
varijacija dve pojave postoji linearna (pravolinijska) veza. Kao prvi korak u
korelacionoj analizi, empirijski podaci se prikazuju grafički dijagramom
raspršenosti da bi se sagledalo da li se oni približno grupišu oko prave linije.
PRIMER 11.2: Pretpostavimo da nas interesuje da li postoji linearna
kvantitativna veza između broja zaposlenih i prihoda 500 najbolje rangiranih
kompanija na svetu u 2007. godini, na osnovu liste koju je sastavljena u
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 257

poznatom američkom poslovnom časopisu Fortune4. U ovom slučaju osnovni


skup se sastoji od 500 parova podataka. Da bismo odredili da li postoji
korelacija u skupu morali bismo obuhvatiti svih 500 kompanija. Kako za neke
od kompanija nisu dostupni podaci o broju zaposlenih, i, sajt je tako
organizovan da iziskuje puno vremena da bi se došlo do podataka o broju
zaposlenih, uzeli smo slučajan uzorak od 8 kompanija i dobili podatke kao u
Tabeli 11.2.

Tabela 11.2 Broj zaposlenih (u 000) i prihod (u milijardama $)


8 kompanija u 2007.
General Walt Coca
Kompanija Tojota Pepsi Microsoft Nike Sony
Motors Disney cola
Broj
299,4 280 133 168 71 71 28 163
zaposlenih
Prihod 204,7 207,35 34,28 35,14 44,3 24,1 14,9 70,9

Budući da je svejedno koju ćemo pojavu identifikovati kao nezavisnu


promenljivu, označimo, na primer, broj zaposlenih sa X, a prihod sa Y.
Podatke slučajnog uzorka najpre ćemo prikazati pomoću dijagrama
raspršenosti, na Slici 11.3.

Dijagram raspršenosti za broj zaposlenih i prihod

200

150
Prihod

100

50

0
0 50 100 150 200 250 300
Broj zaposlenih

Slika 11.3 Broj zaposlenih i prihod 8 kompanija u slučajnom uzorku


Slika 11.3 sugeriše da između varijacija posmatrane dve pojave u uzorku
postoji kvantitativna veza, jer se uočava generalna tendencija da kompanije
sa više zaposlenih ujedno imaju i veće prihode. Budući da se tačke približno
grupišu oko prave linije ima smisla ispitati postojanje i jačinu linearne veze
između posmatrane dve pojave.

4 Rang lista se naziva Fortune Global 500 i podaci su dostupni na sajtu:


http://money.cnn.com/magazines/fortune/global500/2007/
258 OSNOVI STATISTIKE

Kao mera jačine proste linearne korelacione veze u uzorku koristi se relativna
mera, koja se naziva Pirsonov koeficijent proste linearne korelacije, ili
koeficijent proste linearne korelacije, ili često samo koeficijent korelacije.
Formulisao ga je Karl Pirson5 1896. godine. Ovaj koeficijent pokazuje stepen
pravolinijskog kvantitativnog slaganja dve pojave. Označava se sa r i
izračunava po formuli:

Koeficijent
proste linearne n xy −  x  y (11.5)
r=
korelacije u n  x − ( x)
2 2
n y − ( y )
2 2

uzorku

gde je n veličina uzorka (broj parova podataka). Primećujemo da je formula


(11.5) simetrična u odnosu na promenljive X i Y. Samim tim, potpuno je
svejedno koju smo promenljivu označili sa X, a koju sa Y.

Pirsonov koeficijent proste linearne korelacije, r, pokazuje


stepen linearnog (pravolinijskog) kvantitativnog slaganja varijacija
između dve numeričke promenljive (obeležja).

Koeficijent proste linearne korelacije, kao relativna mera, uzima vrednosti od -1


do +1. Ukoliko uzima pozitivne vrednosti, korelacija između pojava je direktna
ili pozitivna (obe pojave pokazuju istosmerne varijacije). U slučaju kada je r < 0,
veza je inverzna ili negativna (kada jedna pojava raste druga opada, i obrnuto).
Ako između posmatranih pojava postoji funkcionalna veza (sve
empirijske tačke se nalaze tačno na pravoj liniji), govorimo o savršenoj
(perfektnoj) korelaciji. Tada koeficijent korelacije uzima vrednost -1 (ako je veza
inverzna) ili +1 (ako je veza direktna). Što je koeficijent korelacije po apsolutnoj
vrednosti bliži jedinici, sve je jača korelaciona veza između pojava. Nasuprot
tome, što je bliži nuli linearna veza je slabija.
U ekstremnoj situaciji, kada koeficijent korelacije uzme vrednost jednaku
nuli, zaključuje se da nema linearne veze između pojava. Obrnuto, ne važi.
Dakle, kada se na osnovu uzorka dobije koeficijent korelacije jednak nuli,
pogrešno je zaključiti da između dve pojave ne postoji kvantitativno slaganje. U
takvom slučaju između pojava možda postoji neki oblik krivolinijskog slaganja
(kao na Slici 11.4 f) ili uopšte nema nikakve kvantitativne veze (kao na Slici 11.4
e). Dakle, na osnovu nultog koeficijenta korelacije, bez dijagrama raspršenosti
nismo u poziciji da zaključimo šta je od toga istina.

5 Osnovne ideje o korelaciji prvi je sugerisao Frensis Golton 1888. u članku "Co-
relations and their measurements, chiefly from anthropometric data. Proc R Soc
London, 45, str. 219-247". Golton je prvi uveo oznaku r za koeficijent korelacije.
Usled ovoga u poslednje vreme koeficijent proste korelacije neki autori nazivaju
Golton-Pirsonov koeficijent.
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 259

Različite vrednosti koje može da uzme koeficijent korelacije r, u


zavisnosti od stepena pravolinijskog kvantitativnog slaganja dve pojave,
prikazane su na Slici 11.4.

Slika 11.4 Raspršenost tačaka i odgovarajuće vrednosti r


U statističkoj literaturi ne postoji potpuno slaganje u pogledu tumačenja
značenja pojedinih mogućih vrednosti koeficijenta proste linearne korelacije.
Ipak, možemo usvojiti sledeću grubu skalu, datu na Slici 11.5.
Inverzna Direktna
Inverzna Direktna savršena
savršena
izražena izražena

Nije
Izražena

-1 -0,9 -0,8 -0,7 0 0,7 0,8 0,9 1

Inverzna Direktna
Nema linearne
jaka jaka
veze

Inverzna Slika 12.5 Tumačenje vrednosti r Direktna


veoma jaka veoma jaka

PRIMER 11.2 (nastavak): Da bismo izračunali koeficijent korelacije za


260 OSNOVI STATISTIKE

podatke Tabele 11.2 formiraćemo Tabelu 11.3:


Tabela 11.3 Izračunavanje koeficijenta proste linearne korelacije za podatke
u Tabeli 11.2

Broj Prihod
xy x2 y2
zaposlenih x y
299,4 204,7 61287,18 89640,36 41902,09
280 207,35 58058,00 78400 42994,02
133 34,28 4559,24 17689 1175,11
168 35,14 5903,52 28224 1234,81
71 44,3 3145,30 5041 1962,49
71 24,1 1711,10 5041 580,81
28 14,9 417,20 784 222,01
163 70,9 11556,70 26569 5026,81

 1213,4 635,67 146638,24 251388,36 95098,17

Primenimo formulu (11.5) da bismo izračunali r:


8 ⋅146638,24 − 1213,4 ⋅ 635,67 401783,9
r= = = 0,92
8 ⋅ 251388,36 − 1213,4 2
8 ⋅ 95098,17 − 635,67 2 438387

Rezultat ukazuje na direktnu (pozitivnu), veoma jaku, linearnu vezu između


broja zaposlenih i prihoda osam kompanija sa Fortune liste 500 najuspešnijih
kompanija u 2007. godini.
Pošto smo prilikom izračunavanja koeficijenta korelacije r koristili podatke
slučajnog uzorka, važno je shvatiti da r ukazuje samo na postojanje korelacije
u uzorku. Međutim, nas interesuje da li u osnovnom skupu iz koga potiče
uzorak postoji korelaciona veza? Lako je, stoga zaključiti, da r predstavlja
ocenu nepoznatog koeficijenta korelacije u osnovnom skupu. Stoga je potrebno
testirati značajnost dobijene ocene.

11.4.2 Testiranje značajnosti ocene koeficijenta


proste linearne korelacije
Koeficijent proste linearne korelacije u osnovnom skupu označava se sa grčkim
slovom ρ (čita se: ro). On pokazuje jačinu pravolinijske veze između dve
posmatrane pojave u osnovnom skupu. Budući da je on numerički pokazatelj
skupa, jasno nam je da se radi o parametru. Njegove pojedinačne vrednosti se
tumače istovetno kao i vrednosti koeficijenta korelacije u uzorku r. Da bismo
tačno izračunali njegovu vrednost, morali bismo da raspolažemo svim
podacima u skupu. Budući da u praksi uglavnom radimo sa uzorkom, sledi da
će koeficijent korelacije ρ za nas ostati nepoznat. U našem primeru, njegovu
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 261

tačnu vrednost bismo izračunali ako bismo u obzir uzeli podatke za svih 500
kompanija sa globalne liste časopisa Fortune. Budući da te podatke nemamo,
postavlja se pitanje, kako na osnovu koeficijenta korelacije u uzorku r doneti
validan zaključak o tome da li u skupu postoji korelacija?
Prilikom testiranja uvešćemo dodatnu pretpostavku da je zajednički
raspored promenljive X i Y normalan. Zbog toga je jasno da ćemo primeniti
parametarski test.
Nultu hipotezu postavićemo u obliku:
H0 : ρ = 0
odnosno, da u osnovnom skupu ne postoji linearna korelacija, ili, što je isto, da
ocena, r, nije statistički značajna. Ograničićemo se na dvosmernu alternativnu
hipotezu:
H1 : ρ ≠ 0
Dakle, alternativna hipoteza ukazuje samo na to da u skupu postoji linearna
veza, a ne govori ništa o jačini veze. Za nivo značajnosti uzmimo standardnu
vrednost α = 0,05.
Postavlja se pitanje koji statistički test, odnosno koju statistiku testa da
primenimo? U teorijskoj statistici je pokazano da se kod testiranja proste
linearne korelacije koristi t test sa n – 2 stepeni slobode. Polazeći od opšteg
izraza za statistiku testa (10.1) i vodeći računa da hipotetična vrednost
parametra iznosi 0, izraz za statistiku testa glasi:
r
t= (11.6)
sr
gde je sr standardna greška ocene koeficijenta proste linearne korelacije. Pri
njenom izračunavanju koristi se formula:

Standardna greška 1− r2
ocene koeficijenta sr = (11.7)
n−2
proste linearne korelacije

Šta pokazuje ova standardna greška? Podsetimo se: svaka standardna greška u
statistici pokazuje prosek odstupanja ocene od parametra. Dakle, sr pokazuje
koliko u proseku koeficijent korelacije uzorka odstupa od koeficijenta
korelacije skupa.
PRIMER 11.2 (nastavak): Prilikom izračunavanja ocenjenog koeficijenta
korelacije na podatke Tabele 11.2 dobili smo da je r = 0,92. Standardna greška
ocene koeficijenta korelacije sr jednaka je:
1− r2 1 − 0,922
sr = = = 0,16
n−2 8−2
pa će izračunata vrednost statistike Studentovog testa biti:
262 OSNOVI STATISTIKE

r 0,92
t= = = 5,75
sr 0,16
Odredimo sada p-vrednost pomoću tablica Studentovog rasporeda. Broj
stepeni slobode iznosi (n-2)=6. Statistika testa je veća od 3,7074, pa
zaključujemo da je p-vrednost < 0,01 (jer smo vrednost iz zaglavlja 0,005
pomnožiti sa 2 pošto je test dvosmeran). Budući da je p-vrednost manja od
postavljenog nivoa značajnosti α = 0,05, odbacujemo nultu hipotezu.
Zaključujemo, uz rizik greške od 0,05, da da u skupu (koji se sastoji od 500
najboljih kompanija u svetu) postoji linearna veza između broja zaposlenih i
prihoda.
Prikažimo sada izlaze korelacione analize pomoću EduStata, Tabelom 11.4:
Tabela 11.4 Izlaz iz EduStata pri rešavanju postojanja linearne korelacije
Pirsonov koeficijent proste korelacije r
Varijable
X: Broj zaposlenih
Y: Prihod
r: 0,9165
TESTIRANJE
Standardna greška koeficijenta Statistika t-testa P
proste korelacije
0,1633 5,6121 0,001365
H0 : U osnovnom skupu NE postoji linearna korelacija
H1 : U osnovnom skupu postoji linearna korelacija
Zaključak : Pri testiranju nulte hipoteze da u osnovnom skupu nema
linearne korelacije dobijena p-vrednost 0,0014 ukazuje da u osnovnom
skupu postoji linearna veza na nivou značajnosti od 0,01 jer je p-
vrednost < 0,01. Zaključujemo da koeficijent proste korelacije r JESTE
statistički značajan
Statistički softver je dao preciznu p-vrednost koja potvrđuje našu analizu i
zaključak da se nulta hipoteza odbacuje.

11.4.3 Interpretacija koeficijenta proste linearne korelacije

Pravilna interpretacija koeficijenta proste linearne korelacije zahteva dopunska


objašnjenja, naročito u pogledu eventualne uzročne veze posmatranih pojava.
Ovo posebno napominjemo zbog činjenice da je u praksi koeficijent korelacije,
uz aritmetičku sredinu, statistički pokazatelj koji se često pogrešno tumači.
1. Koeficijent proste korelacije r ukazuje samo na da li u uzorku postoji
korelacija.
2. Pirsonov koeficijent korelacije pokazuje da li između dve posmatrane
pojave postoji linearna veza; on ne ukazuje na postojanje eventualne
krivolinijske veze, bez obzira na njenu jačinu.
3. r zahteva numeričke podatke. Pomoću njega je nemoguće ispitati, na
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 263

primer, da li postoji veza između plata i pola zaposlenih jer je pol


atributivno obeležje.
4. r je relativna mera, a to znači da nije iskazan u mernim jedinicama
originalnih pojava.
5. Postojanje korelacije ukazuje samo na opšte slaganje varijacija dve
pojave i nikako ne važi za sve pojedinačne slučajeve.
6. Važno je naznačiti da se na osnovu postojanja linearne korelacione
veze dve pojave, X i Y, ne sme zaključivati da je X uzrok, a Y
posledica, ili obrnuto. Visok koeficijent korelacije, recimo, 0,95, ne
znači da između posmatranih pojava postoji uzročna veza. U
stvarnosti, moguće je: a) da X predstavlja uzrok, b) da Y uzrokuje
varijacije X, c) da su obe pojave pod uticajem nekih drugih
neidentifikovanih faktora, d) da između pojava postoji interakcija
(uzajamno dejstvo), e) da smo izvukli nereprezentativan uzorak koji
upućuje na postojanje korelacije, iako ona u skupu ne postoji, i f) da
smo dobili tzv. iskrivljenu korelaciju.
Između dve pojave postoji lažna korelacija (eng. spurious correlation) kada je
koeficijent korelacije različit od nule, a nemamo nikakvog razloga da verujemo
da su one međusobno povezane. Navešćemo tri primera, jer se korelacija može
lako zloupotrebiti, odnosno neetički izvršiti analiza, tako što bi se primenila na
neke dve pojave koje pokazuju istu tendenciju rasta tokom vremena, a između
njih ne postoji nikakva logički opravdana povezanost.
PRIMER 11.3: Poznati ekonometričar Dejvid Hendri6 je 1980. izračunao da
postoji izuzetno visoka korelacija između inflacije i kumulativno iskazane
količine kiše u Velikoj Britaniji (r=0,998). Da li bi iko zaključio da padanje kiše
uzrokuje inflaciju?
PRIMER 11.4: Neka istraživanja su pokazala da postoji visoka direktna
korelacija između dužine ruku osnovaca i stepena njihovog logičkog
rezonovanja, odnosno da osnovci sa dužim rukama bolje rezonuju. Ali ovo je
besmisleno jer je iz analize izostavljena treća važna varijabla, a to su godine
starosti. Dakle, osnovci sa dužim rukama zaista rezonuju bolje, ali zato što su
stariji!
PRIMER 11.5: Ole Skog7 je pokazao da korelacija između kvartalno iskazanih
indeksa intravenoznog uzimanja droge u Stokholmu i tzv. Volferovog
indeksa aktivnosti sunčevih pega u periodu od 1965.-1970. iznosi 0,91. Da li
se na osnovu ovoga može zaključiti da sunce uzrokuje korišćenje droge?

6 Hendry D. "Econometrics - Alchemy or Science", Economica, 47, str. 387-406, 1980.


7 Skog, O.J., "Testing Causal Hypotheses about correlated trends: pitfalls and
remedies" Contemporary Drug Problems, Winter, str. 565-606, 1988.
264 OSNOVI STATISTIKE

11.5 PROSTA LINEARNA REGRESIJA


Regresiona analiza je jedan od najvažnijih i najčešće korišćenih statističkih
metoda i ima veliku primenu u ekonomiji i ostalim društvenim naukama.
Termin regresija prvi je upotrebio engleski naučnik Frensis Golton 1885.
godine, prilikom istraživanja naslednih osobina. On je otkrio da visina sinova
prema visini njihovih očeva pokazuje nazadovanje (regresiju) prema prosečnoj
visini (očevi znatno viši od proseka imaće sinove niže od njih, ali više od
proseka, i obrnuto)8.
Danas se, međutim, reč regresija koristi u znatno širem značenju: da
ukaže na statistički metod koji omogućava da se formuliše regresioni model i
na osnovu njega opiše, predvidi i kontroliše zavisna promenljiva na osnovu
jedne ili više objašnjavajućih promenljivih. Tako, na primer, proizvođač može
da uz pomoć regresione analize poboljša proces proizvodnje tako što će ispitati
uticaje različitih faktora koji na njega utiču. Marketing menadžer može koristiti
regresionu analizu da kroz ispitivanje faktora koji deluju na prodaju prilagodi
svoju strategiju. Čitava jedna oblast ekonomske nauke, ekonometrija, velikim
delom bavi se samo regresijom. Pogledajmo još jedan primer da bismo videli
širinu upotrebe regresione analize.
PRIMER 11.8: Početkom decembra 2007. objavljeni su rezultati Programa za
međunarodno testiranje učenika9, koji su izazvali veliki odjek u javnosti.
“Finski učenici zauzeli su prvo mesto u studiji o obrazovanju PISA, koju je
među više od 400.000 srednjoškolaca u 57 zemalja sprovela Organizacija za
ekonomsku saradnju i razvoj (OECD) sa ciljem da ustanovi efikasnost
obrazovnih sistema u svetu. Srbija se našla na 41. mestu, odnosno u delu
tabele koji, kako se navodi, "statistički znatno zaostaje za prosekom OECD"
(Blic, 4.12..2007). Analiza podataka izvršena je pomoću posebne vrste
regresije (tzv. multilevel regresije10).
Etape u linearnoj regresionoj analizi možemo prikazati na Dijagramu 11.1.

11.5.1 Jednačina prave linije i linija regresije

O prostoj linearnoj regresiji govorimo kada posmatramo dve promenljive


između kojih postoji linearna (pravolinijska) povezanost. Postavlja se pitanje,
kako konkretno formulisati takav linearni model, kako za skup, tako i za
uzorak?

8 Danas se takav način zaključivanja često naziva regresionom obmanom (regression


fallacy) jer (a) izgledalo bi da postoji generalna tendencija ka uprosečavanju visine ljudi
što nije tačno (b) ako bi se posmatrala visina sinova u odnosu na visinu njihovih očeva
tada bi se moglo zaključiti da postoji tendencija divergencije (sinovi niži od proseka
imali bi očeve više od proseka, i obrnuto.
9 (eng. Program for International Student Assessment)
10 Rezultati su objavljeni ba sajtu http://www.pisa.oecd.org
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 265

1. Identifikacija zavisne i objašnjavajuće promenljive.

2. Izvlačenje slučajnog uzorka.

3. Pomoću dijagrama raspršenosti sagledati da li prava linija dobro


aproksimira empirijske vrednosti. Ako jeste, biramo linearni regresioni
model.

4. Ispitivanje ispunjenosti pretpostavki modela.

5. Ocenjivanje parametara linearnog modela metodom najmanjih kvadrata.

6. Iznalaženje mera reprezentativnosti regresionog modela i testiranje


validnosti modela.

7. Upotreba modela za ocenjivanje i predviđanje Y.

Dijagram 11.1 Etape u prostoj linearnoj regresiji


Pre nego što pređemo na razmatranje takvog modela podsetimo se
elementarnog koncepta iz matematike – jednačine prave linije:

Odsečak Nagib

Jednačina prave linije Y = β 0 + β1 x (11.8)

Prava je u potpunosti definisana sa dva koeficijenta: ß0, koji pokazuje odsečak


(eng. intercept) na Y osi (odnosno vrednost Y kada je X jednako 0) i ß1, koji se
naziva koeficijent nagiba (eng. slope) i pokazuje tangens ugla koji zaklapa
prava sa pozitivnim krakom X ose. Kada je ß1 > 0 prava pokazuje rastuću
tendenciju od donjeg levog ugla prema gornjem desnom uglu prvog kvadranta
koordinatnog sistema, i opadajuću, u slučaju kada je ß1 < 0. Ako su nam poznata dva
navedena koeficijenta imamo svu potrebnu informaciju o pravoj liniji i po
potrebi možemo grafički da je prikažemo. Na Slici 11.6 prikazana je jedna prava
linija sa jednačinom Y = 1 + 0,5X.
Sa Slike 11.6 se može sagledati još jedno, za nas važno, tumačenje
koeficijenta ß1: on pokazuje promenu zavisne promenljive Y kada se nezavisna
promenljiva X poveća za jednu svoju jedinicu.
266 OSNOVI STATISTIKE

β1

β0

Slika 11.6 Grafički prikaz prave Y = 1 + 0,5X


Vratimo se sada na Sliku 11.1, gde smo kroz dijagram raspršenosti
prikazali podatke o izdacima za propagandu i prihode od prodaje 10
računarskih firmi. Analizirajmo pažljivo ovu sliku. Ako bi se sve empirijske
tačke nalazile na istom pravcu, tada bi se jednostavno odredila jednačina prave
linije. Zamenom neke određene vrednosti X dobila bi se lako željena vrednost
za Y i osnovni cilj regresije bio bi ispunjen.
Nažalost, takva veza je funkcionalna. Kao što znamo, u ekonomskoj
stvarnosti preovladavaju stohastičke veze i kao posledicu imamo manja ili veća
odstupanja tačaka od neke zamišljene prave linije, baš kao na našem dijagramu.
Jasno je da je nemoguće pronaći pravu koja će da prolazi kroz sve tačke. Šta
nam onda ostaje? Jedino da nađemo takvu pravu liniju koja će biti što je
moguće bliže svim empirijskim vrednostima. Drugim rečima, pravu koja bi
ucrtane tačke najbolje reprezentovala. Takva prava linija naziva se linijom
regresije. Naš zadatak svodi se zato na nalaženje dva koeficijenta te prave linije
(jer smo je samim tim u potpunosti definisali). Dolaženjem do vrednosti ta dva
koeficijenta (odsečka i nagiba) omogućiće predviđanje Y za različite željene
vrednosti X. Odmah da razjasnimo da takvo predviđanje neće biti egzaktno, jer
se u obzir mora uzeti i greška zbog stohastičke prirode veze.

11.5.2 Prost linearni regresioni model


Na osnovu Dijagrama 11.1 možemo sagledati da smo za podatke u Primeru
11.1 već prošli kroz prve tri etape regresije:
1. Prihode od prodaje smo identifikovali kao zavisnu, a izdatke za
propagandu kao objašnjavajuću promenljivu.
2. Slučajan uzorak od 10 firmi je već izabran.
3. Na osnovu dijagrama raspršenosti 11.1 videli smo da se empirijske
vrednosti približno grupišu oko prave linije.
Sada ćemo da objasnimo sledeće dve etape, uz napomenu da se četvrtom
etapom bavi prevashodno ekonometrija.
Podaci koje smo grafički prikazali na Slici 11.1 odnose se na slučajan
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 267

uzorak od 10 firmi. Zadatak koji se pred nas postavlja je da nađemo matematički


oblik zavisnosti (tj. formulu) koja najbolje opisuje vezu između izdataka za
privrednu propagandu i prihoda od prodaje. Opredelili smo se za
najjednostavniji model – linearni model. Model polazi od jednačine prave linije,
date izrazom (11.8), koja opisuje funkcionalnu vezu između dve pojave.
Međutim, nama je poznato da u ekonomiji i društvenim naukama
preovladavaju stohastičke veze. Usled toga, model (11.8) mora da se koriguje i
prilagodi realnosti. Zato ćemo u regresionoj analizi koristiti modele poput
(11.3). Drugim rečima, sve ostale faktore koji utiču na zavisnu promenljivu Y
obuhvatićemo kroz stohastički član (ili, što je isto, slučajnu grešku). Stohastički
član obeležićemo sa ε (grčko slovo epsilon).
Na osnovu svega navedenog postavićemo prost linearni regresioni
model. Formulisaćemo ga tako što ćemo napisati jednačinu za zavisnu
promenljivu Yi:

Prost linearni
regresioni model Yi = β 0 + β1 xi + ε i i = 1,2,...,N (11.9)

deterministički stohastički
deo modela deo modela
gde su
Yi i-ta zavisna promenljiva
xi i-ta vrednost objašnjavajuće promenljive
ß0 i ß1 su regresioni parametri: ß0 je odsečak ili slobodni član,
a ß1 nagib
εi stohastički član ili slučajna greška
N veličina osnovnog skupa
i i-ta vrednost u osnovnom skupu.
Šta opisuje ovaj regresioni model i u čemu je njegov smisao? Regresioni model
opisuje (modelira) stohastičku zavisnost između posmatrane dve promenljive u
osnovnom skupu, iz koga je izabran uzorak. Model je linearan, jer je njegov
deterministički deo β0 + β1xi prava linija. Objasnimo detaljnije konceptualnu
osnovu modela.
Vraćajući se na naš Primer 11.1, pretpostavimo za trenutak da su nam
poznati podaci za sve firme u Srbiji koje se bave prodajom računarske opreme.
Recimo da je njihov broj 1000 (N=1000) i da između izdataka za propagandu i
prihoda od prodaje postoji stohastička linearna veza kao u (11.9). Grafički
prikazano, dijagram raspršenosti mogao bi izgledati kao na Slici 11.7.
268 OSNOVI STATISTIKE

Slika 11.7 Dijagram raspršenosti za osnovni skup


Da se radi o stohastičkoj vezi vidimo po tome što za svaku vrednost
objašnjavajuće promenljive X imamo čitav niz vrednosti Y. Teorijski, regresioni
model podrazumeva da je broj takvih vrednosti Y beskonačan. Analizirajmo
sada pažljivije raspored tačaka na Slici 11.7. Najpre uočavamo generalnu
tendenciju: sa porastom X povećava se i Y. Takođe možemo videti da se sve
prosečne vrednosti Y (za pojedine vrednosti X), koje su označene crnim
krugovima, nalaze na pravoj liniji. Takva prava linija koja prolazi kroz sve
prosečne vrednosti Y, označimo ih sa μ Y|X = x i ,11 najbolje opisuje stohastičku
vezu između posmatrane dve pojave, odnosno najviše je prilagođena datim
podacima. Ona se naziva linijom regresije skupa (populacije). Njena jednačina
glasi:

Regresiona linija
μ Y⏐X = x = β0 + β 1x i (11.10)
osnovnog skupa i

Parametar odsečka Parametar nagiba


Ovo je sasvim u skladu sa izrazom (11.4), gde smo naveli da je prosek Y jednak
determinističkom delu modela.
Ako bi nam u praksi bile poznate vrednosti oba koeficijenta regresione linije
skupa, tada bismo, jednostavnom zamenom pojedinih vrednosti xi , došli do
predviđanja za prosečne vrednosti Yi. Nažalost, kako uvek radimo samo sa
uzorkom, te koeficijente ne možemo izračunati i stoga ß0 i ß1 predstavljaju za
nas nepoznate parametre (poput aritmetičke sredine skupa μ). Zadatak regresije
svodi se, stoga, u njihovom ocenjivanju na osnovu podataka uzorka, kako bismo na
osnovu ocena izvršili predviđanje. Nalaženjem takvih ocena, označimo ih sa b0

11 μ Y|X = x i se čita: prosek Y za X jednako xi, ili prosek Y pod uslovom da je X


jednako xi.
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 269

i b1, faktički se dolazi do koeficijenata prave linije u uzorku koja se naziva


linijom regresije uzorka. Veza između dijagrama raspršenosti za populaciju i
uzorak može se uočiti sa Slike 11.8.

Slika 11.8 Dijagrami raspršenosti skupa i uzorka

Sa Slike 11.8 se jasno sagledava kako se generišu podaci u slučajnom uzorku


veličine n iz populacije veličine N. Dakle, ideja regresije je u sledećem: pronaći
najbolju liniju regresije uzorka i nju koristiti kao "supstitut" za nepoznatu liniju
regresije skupa.

Karakteristike i pretpostavke regresionog modela

Objasnimo sada detaljnije komponente regresionog modela. Krenimo od


stohastičkog člana. Postavlja se pitanje, zbog čega model uključuje stohastički
član ε. U uvodnom delu smo već delimično odgovorili na ovo pitanje. Ovde
ćemo detaljnije navesti tri razloga:
1) Na zavisnu promenljivu Y ne deluje samo objašnjavajuća
promenljiva X, već i veliki broj drugih faktora koji u modelu nisu
identifikovani. U našem primeru, na prodaju računarske opreme,
osim propagande, čije je dejstvo obuhvaćeno modelom, deluje i
cena i kvalitet opreme, dohodak i starosna struktura stanovništva,
preferencije, itd.
2) U ekonomskim relacijama skoro uvek su prisutni subjektivni
faktori, svojstveni ljudskom ponašanju, sa nepredvidljivim
dejstvom.
3) Statistički podaci u uzorku sadrže greške u merenju.
Navedeni faktori najčešće deluju zajedno, tako da se može prihvatiti da
pojedini od njih deluju u suprotnim smerovima i da se u zbiru njihovi uticaji
međusobno potiru. Usled toga je logično pretpostaviti da je stohastički član u
270 OSNOVI STATISTIKE

proseku jednak nuli. Takođe, na osnovu Centralne granične teoreme može se


prihvatiti da stohastički član ima normalan raspored.
Već smo objasnili da je po statističkoj prirodi ε slučajna promenljiva.
Prilikom objašnjenja pojma slučajne promenljive (odeljak 6.1) naveli smo da je
svaka funkcija slučajne promenljive i sama slučajna promenljiva. Primenjeno na
regresioni model, to znači da je i zavisna promenljiva Y slučajna promenljiva,
jer je funkcija slučajne promenljive ε. U našem primeru, za bilo koje izdatke za
propagandu, pre nego što se izvuče uzorak, prihode od prodaje nije moguće
unapred predvideti, pa je Y slučajna promenljiva.
Ostalo je još da objasnimo značenje dva regresiona parametra. Da bismo
to učinili najpre ćemo da preciznije postavimo matematički izraz linije regresije
u skupu, odnosno prave koja prolazi kroz prosečne vrednosti Yi :

Populaciona linija regresije


μ Y ⏐X = x = E(Yi) = β0 + β1xi (11.11)
i

Očekivana vrednost E(Yi) pojavljuje se iz razloga što se radi o proseku slučajne


promenljive Yi, pa ćemo, zbog toga, nadalje, za prosečnu vrednost Yi (za dato
xi) koristiti izraz sa očekivanom vrednošću. Poređenjem gornjeg izraza i izraza
za model (11.9) vidimo da je razlika u tome da se model odnosi na
pojedinačne vrednosti Yi, a linija regresije skupa na prosečne vrednosti E(Yi).
Na osnovu izraza (11.11) i Slike 11.6 možemo da damo tumačenje regresionih
parametara.

Regresioni parametri (koeficijenti) − tumačenje


Regresioni parametar ß0 (odsečak) pokazuje prosečnu vrednost
zavisne promenljive za nultu vrednost objašnjavajuće promenljive.

Regresioni parametar ß1 (nagib) pokazuje prosečnu promenu


zavisne promenljive Y kada se objašnjavajuća promenljiva X
poveća za jednu svoju jedinicu.

Specifikacija regresionog modela kao statističkog modela ne podrazumeva


samo njegov matematički izraz, već i pretpostavke koje obezbeđuju optimalno
ocenjivanje nepoznatih parametara ßo i ß1. Najčešće se uvodi sledećih pet
pretpostavki:
1. Normalnost: slučajne greške εi imaju normalan raspored.
2. E(εi) = 0. To znači da je stohastički član (slučajna greška) u proseku
jednak nuli.
3. Homoskedastičnost. Ova pretpostavka se odnosi na disperziju
stohastičkih članova i kaže da sve slučajne greške imaju jednaka
disperziju, preciznije, jednake varijanse:
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 271

Var (ε1) = Var (ε2) = ... = Var (εN) = σ 2


Ukoliko je ova pretpostavka narušena pojavljuje se problem
heteroskedastičnosti.
Prve tri pretpostavke možemo jednostavno napisati na sledeći način:

εi : N(0, σ 2 )
tj. stohastički član ima normalan raspored sa aritmetičkom sredinom
0 i varijansom σ 2 .
4. Nema autokorelacije. To znači da između bilo koja dva stohastička
člana εi i εj ne postoji linearna korelacija.
5. X nije slučajna promenljiva (otuda je u modelu objašnjavajuća
promenljiva označena malim slovom). Ova pretpostavka ukazuje na
to da su vrednosti objašnjavajuće promenljive fiksirane, tj. da ih
istraživač unapred mora odabrati pre uzimanja uzorka. U našem
primeru to bi značilo da bi se najpre fiksirali pojedini nivoi ulaganja
u propagandu, a zatim za svaki od njih na slučaj birala firma i merila
njena prodaja.
Svih pet pretpostavki zajedno formiraju tzv. normalan linearni regresioni
model. Budući da se koristi pretpostavka o normalnosti, jasno je da je linearna
regresija parametarski statistički metod.

11.5.3 Ocenjivanje regresionog modela: Metod najmanjih kvadrata

Videli smo da se druga etapa u prostoj regresionoj analizi svodi na grafičko


prikazivanje podataka na dijagramu raspršenosti. Generalno, na osnovu
dijagrama raspršenosti odabraćemo tip krive koji najviše odgovara empirijskim
podacima. Tek kada nam dijagram (uz druga teorijska i empirijska saznanja)
ukaže na linearnu zavisnost dve pojave, prelazimo na sledeću etapu - ocenjivanje
nepoznatih parametara: slobodnog člana ß0 i koeficijenta nagiba ß1. Cilj je da se
na osnovu uzorka dođe do najboljih mogućih ocena b0 i b1, i time postavi linija
regresije u uzorku:

Linija regresije u uzorku


(11.12)
yˆi = b0 + b1 xi

gde je sa yˆi označena ona vrednost Y koja se tačno nalazi na najbolje


prilagođenoj liniji regresije uzorka, pa se naziva prilagođena vrednost Y.
Ocene b0 i b1 imaju identično značenje kao kod osnovnog skupa, s tim što se
odnose na uzorak. Linija regresije u skupu i uzorku se po pravilu razlikuju, jer
se ocenjene vrednosti b0 i b1 razlikuju od stvarnih vrednosti parametara ß0 i ß1.
Razlog je jednostavan: uzorak skoro nikada nije savršeno reprezentativan.
272 OSNOVI STATISTIKE

Kakva je statistička priroda ocena b0 i b1? Pošto od uzorka do uzorka mogu uzimati
različite vrednosti, koje ne možemo unapred predvideti, one su slučajne promenljive.
Ovo je analogno ocenjivanju aritmetičke sredine skupa, gde je nepoznata
aritmetička sredina skupa μ konstanta, njena ocena X slučajna promenljiva, a
ocenjena (realizovana) vrednost x konstanta. U prostoj regresiji nepoznati
parametri ß0 i ß1 su konstante, njihove ocene b0 i b1 slučajne promenljive, a
nakon što se odabere uzorak, odgovarajuće ocenjene vrednosti b0 i b1 su
konstante. Ove razlike možemo prikazati Tabelom 11.4.
Tabela 11.4 Statistička priroda parametara, ocena i ocenjenih vrednosti u regresiji

Parametri β0 i β1 Konstante
Ocene b0 i b1 Slučajne promenljive
Ocenjene vrednosti b0 i b1 Konstante

Vratimo se našem primeru sa podacima Tabele 11.1, koji su grafički prikazani


na Slici 11.1. Između tačaka na dijagramu raspršenosti teorijski je moguće
povući beskonačno mnogo pravih linija. Sve one bi se, naravno, razlikovale po
koeficijentima b0 i b1. Postavlja se sledeće pitanje: kako između empirijskih
tačaka povući onu pravu liniju koja ih najbolje reprezentuje? Ta prava bi trebalo
da prolazi što je moguće bliža svim tačkama i time bi nam dala optimalne ocene
b 0 i b 1.
Kao prvo rešenje nameće se grafički metod, tj. da se vizuelno odabere
ona prava koja najviše odgovara opštoj tendenciji rasporeda tačaka. Nažalost,
ovaj metod ima dve krupne slabosti (1) potpuno je subjektivne prirode i (2) ne
daje mogućnost određivanja greške ocene. Zbog toga je u statistici predloženo
više objektivnih metoda za rešavanje ovog problema. Najčešće se koristi metod
najmanjih kvadrata (eng. method of least squares).
Metod najmanjih kvadrata se zasniva na minimiziranju kvadrata
odstupanja svih empirijskih tačaka od regresione linije. Osnovne ideje
metode najmanjih kvadrata predložio je Karl Gaus.
Radi jasnijeg sagledavanja ideje metoda najmanjih kvadrata prikažimo
na Slici 11.9, u proizvoljnom dijagramu raspršenosti, pravu za koju
pretpostavljamo da se najbolje prilagođava podacima.
Poznato nam je da će zbog stohastičkog karaktera veze empirijske tačke
pokazivati manja ili veća odstupanja od prave. Vertikalno odstupanje (razliku)
između stvarne vrednosti yi i prilagođene vrednosti nazivamo rezidualom i
označavamo sa ei:
Rezidual
ei = yi − yˆi = yi − (b0 + b1 xi ) (11.13)

Sa Slike 11.9 se može sagledati da će rezidual biti pozitivan ako se empirijska


tačka nalazi iznad ocenjene linije, negativan ako tačka leži ispod, i biće jednak
nuli ako se stvarna vrednost poklapa sa prilagođenom. U slučaju funkcionalne
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 273

veze svi reziduali bi bili jednaki nuli. Zaključujemo da će prava dobro


reprezentovati raspored tačaka ukoliko su vrednosti svih reziduala relativno male, i
obrnuto. Dakle, rezidual ei, predstavlja ocenu odgovarajućeg stohastičkog člana
εi, koji pokazuje odstupanja na nivou skupa.

(Rezidual) ei = yi − 
yi

Slika 11.9 Stvarne vrednosti, prilagođene vrednosti i reziduali


Na osnovu prethodnog zaključujemo da bi se kao dobar izbor pokazala ona
prava linija kod koje se potiru pozitivna odstupanja (iznad prave) i negativna
odstupanja (ispod prave). Preciznije, ona prava kod koje je zbir vertikalnih
odstupanja (tj. reziduala) jednak nuli. Nažalost, može se lako pokazati da je broj
takvih pravih neograničen. Na primer jedna od takvih pravih bi bila jednaka
prosečnoj vrednosti Y. Usled toga moramo da postavimo drugačiji kriterijum za
najbolju pravu liniju. Na analogan način kao kod definisanja varijanse, nameće
se da kao kriterijum koristimo sumu kvadrata odstupanja. Dakle, ideja metoda
najmanjih kvadrata jeste da se od svih mogućih pravih linija odabere ona
koja ima najmanju sumu kvadrata vertikalnih odstupanja (reziduala).
Matematički, potrebno je potražiti minimum izraza:

 ei2 = ( yi − yˆ i )2 =  [ yi − ( b0 + b1 xi )]
2
(11.14)
U ovom izrazu nepoznate su bo i b1. Postupak minimiziranja se sprovodi
nalaženjem parcijalnih izvoda po b0 i b1 i njihovim izjednačavanjem sa
nulom. Na taj način dolazimo do sistema dve jednačine sa dve nepoznate, koje
se nazivaju normalnim jednačinama:
Normalne jednačine
n n
 y i = nb 0 + b 1  x i
i=1 i=1
(11.15)
n n n
 xiy i = b0  xi + b1  x i2
i= 1 i=1 i=1
274 OSNOVI STATISTIKE

gde n predstavlja veličinu uzorka, odnosno broj parova podataka. Rešavanjem


normalnih jednačina dolazimo do formula za ocenjene vrednosti b0 i b1:

Formule za ocenjivanje parametara regresionog


modela metodom najmanjih kvadrata
Ocenjena vrednost n xy −  x  y
parametra nagiba b1 = (11.16)
n x 2 − (  x ) 2
Ocenjena vrednost
b0 = y − b1x (11.17)
parametra odsečka

Iako na prvi pogled izgleda da je metod najmanjih kvadrata komplikovan,


njegova praktična primena je krajnje jednostavna i svodi se na primenu formula
(11.16) i (11.17).
Primenimo metod najmanjih kvadrata na podatke date u Tabeli 11.1.
Rezultati i kolone potrebne za izračunavanje dati su u Tabeli 11.6. Kolona y2
nam trenutno nije potrebna, ali ćemo njenu sumu koristiti kasnije, pa smo je
pridodali tabeli.
Tabela 11.5 Podaci za izračunavanje linije regresije
metodom najmanjih kvadrata
Ulaganje u
Firma propagandu xy x2 y2
Prodaja (y)
(x)
A 8 10 80 64 100
B 10 14 140 100 196
C 3 3 9 9 9
D 3 5 15 9 25
E 2 4 8 4 16
F 7 12 84 49 144
G 5 8 40 25 64
H 6 9 54 36 81
I 5 7 35 25 49
J 4 6 24 16 36
Σ 53 78 489 337 720

n xy −  x  y 10 ⋅ 489 − 53 ⋅ 78
b1 = = = 1,3476
n x 2 − (  x ) 2 10 ⋅ 337 − 53 2

78 53
b 0 = y − b 1x = − 1,3476 ⋅ = 0,6577
10 10
Matematički izraz ocenjene regresione linije glasi:
ŷi = 0,6577 + 1,3476xi
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 275

Ovu prava ucrtaćemo u dijagram raspršenosti tako što ćemo uzeti bilo koje
dve vrednosti za x, zameniti u jednačinu i dobiti odgovarajuće prilagođene
vrednosti ŷi . Spajanjem te dve tačke dobijamo pravu liniju. To smo i uradili
na Slici 11.10. korišćenjem statističkog paketa Minitab (otuda i zanemarljive
razlike u rezultatima, kao posledica zaokrugljivanja).

Najbolje prilagođena regresiona linija


Prodaja = 0.6578 + 1.348 Propaganda
16

14

12

10
Prodaja

0
0 2 4 6 8 10
Propaganda

Slika 11.10 Linija regresije uzorka između izdataka za propagandu i prihoda od


prodaje 10 računarskih firmi
Da sumiramo: od beskonačno mnogo pravih linija koje je moguće povući
između empirijskih tačaka, ucrtana regresiona linija je najbolja (eng. best-fit), jer
na osnovu metoda najmanjih kvadrata ispunjava dva kriterijuma:
1) suma reziduala je jednaka nuli,
2) ima najmanju sumu kvadrata vertikalnih odstupanja u odnosu na
bilo koju drugu pravu.

Interpretacija ocena dobijenih


metodom najmanjih kvadrata
Podsetimo se da ocenjena vrednost b0 pokazuje odsečak na Y osi u dijagramu
raspršenosti. U odeljku o ekstrapolaciji objasnićemo zašto ona najčešće u praksi
nema neku posebnu ekonomsku važnost. Štaviše, može dovesti do besmislenih
zaključaka. Pri tumačenju dobijenih vrednosti u regresiji moramo strogo da
vodimo računa o mernim jedinicama u kojima su iskazane posmatrane dve
promenljive.
U našem primeru promenljiva X (izdaci za propagandu) je iskazana u
milionima, a Y (prihodi od prodaje) u stotinama miliona dinara. Ocenjena
vrednost odsečka b0 = 0,6577 bi značila da u slučaju da bi firma koja ništa ne
276 OSNOVI STATISTIKE

ulaže u propagandu imala u proseku prihode od prodaje u iznosu od


65.777.000 dinara ( 0,6577 × 100.000.000 ).
Više pažnje posvetićemo ocenjenoj vrednosti nagiba, b1. U skladu sa ranijim
tumačenjem parametra ß1, sledi da regresioni koeficijent b1 predstavlja
ocenjenu vrednost prosečne promene zavisne promenljive Y kada se
objašnjavajuća promenljiva X poveća za svoju jedinicu.
Vodeći računa o mernim jedinicama, u našem primeru ocenjena vrednost
1,3476 ukazuje na procenu da ako se ulaganje za propagandu poveća za
jednu svoju jedinicu, a to je 1 milion dinara, prodaja će se u proseku povećati
za 134.760.000 dinara ( 1, 3476 × 100,000,000 ). Dakle, oba regresiona
koeficijenta uvek tumačimo u mernim jedinicama promenljive Y.
Nakon primene metoda najmanjih kvadrata, u ekonomskim istraživanjima je
od posebne važnosti proveriti veličinu i znak dobijenih ocenjenih vrednosti. Stoga,
kada se kao rezultat ocenjivanja dobije znak ili veličina ocenjene vrednosti u
suprotnosti sa ekonomskom teorijom ili logikom, u opštem slučaju takve
vrednosti smatraju se nezadovoljavajućim. Do toga dolazi bilo zbog
neodgovarajuće veličine uzorka, njegove nereprezentativnosti, ili zbog
narušenih pretpostavki. U našem primeru, ocenjena vrednost b1 ima pozitivan
znak, što je u skladu sa očekivanjem da se sa porastom ulaganja u propagandu
povećava i prihod od prodaje.

Gaus-Markovljeva teorema

Postavlja se pitanje, koliko su ocenjene vrednosti odsečka i nagiba bliske


nepoznatim parametrima? Ili, što je isto, koliko je ocenjena regresiona linija u
blizini regresione linije u skupu? O kvalitetu ocena dobijenih metodom
najmanjih kvadrata, u poređenju sa ocenama dobijenim bilo kojim drugim
metodima, govori Gaus-Markovljeva teorema koja je, uz Centralnu graničnu
teoremu, jedan od najvažnijih rezultata teorijske statistike.

Gaus-Markovljeva teorema
Ako su ispunjene sve pretpostavke prostog linearnog regresionog
modela, ocene dobijene metodom najmanjih kvadrata su najbolje
(efikasne), nepristrasne linearne ocene.

Na osnovu teoreme vidimo da su ocene dobijene metodom najmanjih kvadrata


između ostalog i nepristrasne. To se može napisati korišćenjem očekivane
vrednosti:
E(b0) = ß0 i E(b1) = ß1 ,
odnosno da su ocene b0 i b1 u proseku jednake nepoznatim parametrima ß0 i ß1.
U našem primeru, ako bi se iz čitavog skupa od 1000 firmi izvukli svi mogući
različiti uzorci od 10 preduzeća i izračunale ocenjene vrednosti b0 i b1, njihove
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 277

aritmetičke sredine bile bi jednake nepoznatim parametrima.


Posmatrajmo sada ocenu b1. Ako bismo kod svih mogućih uzoraka
izračunali ocenjene vrednosti b1, dobili bismo uzorački raspored ocene b1, koji
bi grafički izgledao kao na Slici 11.11.

b 1 : N ( β 1 ,σ b21 )

E(b1) = β1
Slika 12.11 Teorijski uzorački raspored ocene b1
Vidimo da ocena b1 (kao slučajna promenljiva) ima normalan raspored.
Aritmetička sredina tog rasporeda je ß1. Standardna devijacija uzoračkog
rasporeda ocene b1, označimo je sa σb1, naziva se standardnom greškom ocene
b1. Šta pokazuje ova standardna greška? Kao i svaka standardna greška -
prosek odstupanja ocene od parametra. Dakle, standardna greška nagiba
pokazuje prosek odstupanja ocene nagiba u uzorku od parametra nagiba u
skupu. Kao takva, ona ukazuje na preciznost ocene; ukoliko je standardna
greška manja, ocena je kvalitetnija.
U slučaju neispunjenja pojedinih pretpostavki regresionog modela
potrebno je preduzeti odgovarajuće korektivne akcije. Ovo je predmet
ekonometrije i mi se na njima nećemo zadržavati. Spomenimo samo da je
regresiona analiza robustna na odstupanje od normalnosti, ali da se posebni
problemi javljaju u slučaju postojanja autokorelacije i heteroskedastičnosti.
Ovim smo završili sa prikazivanjem četvrte i pete etape u regresionoj
analizi. Prelazimo na šestu: potrebno je ispitati koliko je dobro regresiona linija
prilagođena podacima i testirati da li objašnjavajuća promenljiva predstavlja
bitan faktor pri objašnjavanju varijacija Y.

11.5.4 Mere reprezentativnosti regresionog modela

Nakon što smo ocenili parametre regresionog modela došli smo do optimalnih
ocena i na osnovu njih konstruisali regresionu liniju u uzorku. Od svih
mogućih pravih linija ona se najbolje prilagođava podacima. Sada se postavlja
pitanje, koliko takva linija dobro reprezentuje empirijske podatke? Drugačije
rečeno, koliko je naš model uspešan, tj. kvalitetan, u opisivanju zavisnosti
278 OSNOVI STATISTIKE

između dve pojave? U ovom delu upoznaćemo dve mere reprezentativnosti


regresione linije. Prva je apsolutna mera odstupanja empirijskih tačaka i naziva
se standardnom greškom regresije, a druga, koeficijent determinacije, je
relativan pokazatelj. Da bismo razumeli ove dve mere najpre je potrebno
sagledati od čega zavisi varijabilitet (ponašanje) zavisne promenljive Y.
Napomenimo da smo skoro identičnu logiku koristili kod analize varijanse,
kada smo formulisali faktorsku i rezidualnu varijansu.
Podsetimo se jednačine prostog linearnog regresionog modela: Yi = ß0 +
ß1xi + εi . Shodno ovom modelu, pojedine vrednosti Yi variraju iz dva razloga.
1. Jedan izvor varijabiliteta se duguje varijacijama u vrednostima xi i može se
objasniti regresionim modelom.
2. Drugi deo varijabiliteta posledica je delovanja slučajne greške εi i ne može se
objasniti regresionim modelom.
U cilju jasnijeg sagledavanja ovih komponenti varijabiliteta zavisne promenljive
posmatrajmo proizvoljnu liniju regresije uzorka, ucrtanu u dijagram
raspršenosti, kao na Slici 11.12.

yi

Neobjašnjeno
(y i − 
yi)
odstupanje ( y i − y ) Ukupno odstupanje
Objašnjeno
odstupanje (
y i − y)


yi

xi
Slika 11.12 Ukupno, objašnjeno i neobjašnjeno odstupanje zavisne promenljive Y
Na dijagramu raspršenosti 11.12 posmatrajmo jednu, proizvoljnu empirijsku
(stvarnu) vrednost yi iz uzorka koja odgovara vrednosti objašnjavajuće
promenljive xi. Pošto je aritmetička sredina serije y konkretnog uzorka uvek
konstanta, ona ne zavisi od serije x, pa se može ucrtati kao linija paralelna x osi.
Iz deskriptivne statistike nam je poznato da se odstupanje (varijacija) meri
najčešće kao razlika između podataka i aritmetičke sredine svih podataka. U
ovom slučaju "podatak" je yi, a aritmetička sredina y . Takvo odstupanje naziva
se ukupnim odstupanjem. Vidimo da se posmatrana tačka ne nalazi tačno na
regresionoj liniji, već je iznad nje. Zbog čega? Zato što posmatramo stohastičke
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 279

veze i do tog odstupanja iznad prave ( yi − yˆ i ) je došlo pod uticajem slučajne


greške. Zato takvo odstupanje nazivamo neobjašnjenim odstupanjem
(rezidualom). Nasuprot tome, odstupanje empirijske vrednosti od aritmetičke
sredine ( yˆ i − y ) je objašnjeno regresionom vezom između X i Y i naziva se
objašnjenim odstupanjem.
Ukupno odstupanje zavisne promenljive Y stoga možemo raščlaniti na
zbir objašnjenog i neobjašnjenog odstupanja:

( yi − y ) = ( yˆ i − y ) + ( yi − yˆ i ) (11.18)
Ukupno Objašnjeno Neobjašnjeno
odstupanje odstupanje odstupanje

Može se pokazati da će jednakost nastaviti da važi i kada obe strane


kvadriramo i sumiramo za sve vrednosti u uzorku. Pošto su tada obuhvaćene
sve vrednosti zavisne promenljive u uzorku kažemo da je ukupan varijabilitet
jednak zbiru objašnjenog i neobjašnjenog varijabiliteta:

 ( yi − y ) 2 = ( yˆ i − y ) 2 + ( yi − yˆ i ) 2
SKU SKO SKN
Ukupna Objašnjena Neobjašnjena (11.19)
suma kvadrata suma kvadrata suma kvadrata
(Ukupan (Objašnjen (Neobjašnjen
varijabilitet) varijabilitet) varijabilitet)

Na taj način, došli smo do iste jednakosti kao kod analize varijanse. Ukupna
suma kvadrata razložena je na dva dela. Objašnjena suma kvadrata često se
naziva i regresionom sumom kvadrata, a neobjašnjena suma kvadrata
rezidualnom ili sumom kvadrata greške. Primetimo da smo izraz SKN već
koristili u obliku Σei2, pri objašnjenju metoda najmanjih kvadrata.
Jednakost (11.19) ima veliki značaj, jer se na osnovu nje dolazi do mera
reprezentativnosti regresione linije; standardna greška regresije se zasniva na
vrednosti SKN, a koeficijent determinacije na poređenju veličine SKO u odnosu
na SKU.

Standardna greška regresije


Prvu meru kvaliteta regresionog modela formulisaćemo polazeći od sledeće
jednostavne ideje: što je raspršenost tačaka oko prave linije manja, model je
bolji, i u suprotnom što je raspršenost tačaka veća linearni model je sve lošiji. U
jednoj ekstremnoj situaciji, kada se sve tačke nalaze baš na pravoj liniji,
odstupanja nema i model "savršeno opisuje zavisnost dve pojave. Na drugom
kraju ekstrema tačke su sasvim raspršene, na sve strane oko prave linije, i
linearni model je beskoristan. Koji indikator ukazuje na veličinu odstupanja
280 OSNOVI STATISTIKE

podataka od prave linije? Vodimo računa da nam treba pokazatelj na nivou


skupa.
Taj pokazatelj je varijansa slučajne greške, σ 2 . Upravo ona pokazuje
na veličinu odstupanja podataka od prosečnih vrednosti, koje se nalaze na
regresionoj liniji u osnovnom skupu. Sa povećanjem raspršenosti tačaka
uvećava se i vrednost varijanse greške i regresiona linija skupa sve slabije
reprezentuje vezu između pojava. Sa druge strane, u slučaju funkcionalne
veze, sve tačke se nalaze na regresionoj liniji skupa, pa je i σ 2 jednaka nuli.
Nažalost, u praksi skoro nikada ne raspolažemo svim podacima
skupa, pa varijansu slučajne greške ne možemo ni izračunati. Ostaje nam
samo da je ocenimo na osnovu uzorka. Pri tome kao "supstitut" za
odstupanja u skupu, tj. εi , koristićemo odgovarajuća odstupanja u uzorku, a
to su reziduali ei. Dakle, reziduale ćemo koristiti da bismo ocenili varijansu
slučajne greške.
Poznato nam je da se varijansa uzorka dobija kada se suma kvadrata
podeli brojem stepeni slobode (n-1). Ovde, u prostoj regresionoj analizi,
polazimo od sume kvadrata reziduala, a broj stepeni slobode je (n - 2), jer
ocenjujemo dva parametra, β 0 i β1 . Zato ocenu varijanse σ 2 dobijamo po
formuli:
Suma kvadrata reziduala SKN  ( yi − y i )
2
s2 = = = (11.20)
Broj stepeni slobode n−2 n−2

Vidimo da je brojilac u gornjoj oceni jednak SKN, odnosno sumi kvadrata


reziduala, pa se takva ocena često naziva rezidualnom varijansom.
Standardna greška regresije dobija se kao kvadratni koren iz rezidualne
varijanse, pa predstavlja ocenu standardne devijacije slučajne greške:

Standardna  ( yi − y i ) 2  y 2 − b0  y − b1  xy (11.21)
greška regresije s= =
n−2 n−2

Koristeći rezultate date u Tabeli 11.5, prikažimo u našem primeru sa


ulaganjima u propagandu i prodajom izračunavanje standardne greške
regresije:

s2 =
y 2
− b0  y − b1  xy
=
720 − 0,6577 ⋅ 78 − 1,3476 ⋅ 489
= 1,215
n−2 10 − 2
s = 1, 215 = 1,102
Budući da je standardna greška regresije u suštini standardna devijacija, ona je
apsolutna mera.
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 281

Standardna greška regresije je apsolutna mera i pokazuje


odstupanja empirijskih podataka u uzorku od regresione linije
uzorka.

Koeficijent determinacije
U praksi se kao indikator kvaliteta regresionog modela, odnosno kao mera
njegove reprezentativnosti, skoro isključivo koristi koeficijent determinacije.
Ovim ne negiramo važnost standardne greške regresije, ona je uostalom deo
regresionog izlaza svakog statističkog softvera. Prednosti koeficijenta
determinacije u odnosu na standardnu grešku su sledeće:
1. ne zavisi od mernih jedinica promenljive Y, odnosno on je relativna
mera,
2. mnogo je lakši za tumačenje, i
3. na jednostavan način omogućava poređenje više regresionih modela.

Koeficijent determinacije ćemo definisati polazeći od jednakosti (11.19) u kojoj


je suma kvadrata ukupnog varijabiliteta zavisne promenljive Y (SKU)
predstavljena kao zbir sume kvadrata objašnjenog (SKO) i neobjašnjenog
varijabiliteta (SKN):
SKU = SKO + SKN (11.22)

Nakon deljenja obe strane gornje jednakosti sa SKU i prebacivanja članova sa


SKN na desnu stranu, dolazimo do relacije:
SKO SKN
= 1− (11.23)
SKU SKU

Leva strana gornje jednakosti pokazuje koliko je učešće objašnjenog


varijabiliteta u ukupnom; naziva se koeficijentom determinacije (eng.
coefficient of determination) i obeležava sa r 2 . Pri izračunavanju koristićemo
jednostavniju formulu:

x 2 2
Koeficijent 2 2
− nx
r =b (11.24)
y
1 2
determinacije 2
− ny

gde je b1 ocenjena vrednost nagiba.

Koeficijent determinacije je relativna mera i pokazuje učešće


objašnjenog varijabiliteta u ukupnom, odnosno koliko su varijacije
promenljive Y objašnjene promenljivom X.
282 OSNOVI STATISTIKE

Iz definicije koeficijenta determinacije sledi da njegova vrednost varira od 0 do


1, tj:
0 ≤ r2 ≤ 1
Kada je r 2 = 1 sve empirijske vrednosti yi se nalaze na liniji regresije - objašnjen
varijabilitet jednak je ukupnom. Tada su varijacije promenljive Y u potpunosti
objašnjene regresionom linijom i ne postoje uticaji drugih faktora, odnosno dve
promenljive su u funkcionalnoj vezi. Približavanjem vrednosti koeficijenta
determinacije nuli, sve je manji udeo objašnjenog varijabiliteta i regresiona linija
sve slabije reprezentuje podatke. U ekstremnom slučaju kada je r 2 = 0,
neobjašnjeni varijabilitet se izjednačava sa ukupnim, nimalo nismo uspeli da
objasnimo ponašanje Y, te zaključujemo da ne postoji linearna regresija. U
praksi se koeficijent determinacije množi sa 100, tako da se njegove vrednosti
tumače u procentima.
Da bismo lakše tumačili ovaj važan regresioni pokazatelj, ilustrujmo
neke od vrednosti koje on može uzeti Slikom 11.16.

Reprezentativnost
regresionog modela

Slika 11.16 Reprezentativnost linearnog regresionog modela u zavisnosti od


vrednosti koeficijenta determinacije
Izračunajmo koeficijent determinacije u regresionom modelu između
izdataka za propagandu i prihoda od prodaje.

x 2 2
− nx 337 − 10 ⋅ 5,3 2
r 2 = b 12 = 1,3476 2 = 0,9129
y
2
2
− ny 720 − 10 ⋅ 7,8 2

Rezultat upućuje na zaključak da je 91,29% ukupnog varijabiliteta prodaje


objašnjeno izdacima za propagandom, odnosno regresionim modelom.
Ostatak, 8,71% ukupnog varijabiliteta, nije objašnjen regresionom linijom, tj.
pod uticajem je neidentifikovanih faktora. Pošto je r2 blizak jedinici,
regresiona linija veoma dobro reprezentuje empirijske podatke.
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 283

Postoji bliska veza između koeficijenta determinacije koji je mera


reprezentativnosti regresionog modela i koeficijenta proste linearne korelacije.
Koeficijent proste linearne linearne korelacije jednak je kvadratnom korenu
koeficijenta determinacije:
r = ± r2
Dakle, ako nam je poznat koeficijent korelacije, koeficijent determinacije ćemo
najlakše odrediti kvadriranjem koeficijenta korelacije. U suprotnom, ne postoji
samo jedno, već dva rešenja jer ne znamo da li je veza direktna ili inverzna.

11.5.5 Testiranje značajnosti regresione veze


Da bi primena regresione linije uzorka pri predviđanju vrednosti zavisne
promenljive Y bila opravdana, nije dovoljno samo da je koeficijent
determinacije relativno visok. Neophodno je prethodno ispitati da li je
objašnjavajuća promenljiva zaista relevantna u opisivanju ponašanja zavisne
promenljive. Preciznije, postavlja se pitanje, da li uopšte postoji linearno
slaganje između varijacija posmatrane dve promenljive u skupu? Kada X i E(Y)
nisu linearno povezani, tada, na osnovu regresione linije u skupu:

E(Yi ) = β 0 + β 1 x i
zaključujemo da je nagib β 1 jednak nuli. U tom slučaju vrednosti X nisu od
koristi pri predviđanju Y.
Koeficijent nagiba β 1 jednak je nuli u sledeća tri slučaja:
1. Y je konstantno za bilo koju vrednost X, na primer, Yi = 10. Ova
situacija se grafički može videti na Slici 11.2.i.
2. Između posmatranih pojava ne postoji nikakva kvantitativna veza. Na
Slici 11.2 ovaj slučaj je prikazan pod h.
3. Između promenljivih postoji nelinearna funkcionalna veza. Ovo je
ilustrovano na Slici 11.2 c.
U svim ostalim situacijama postoji barem slaba linearna veza između X i Y, pa
će se nagib prave razlikovati od nule. Stoga je u prostoj linearnoj regresiji
najvažnije testirati hipotezu da li je parametar nagiba ß1 jednak nuli. Ako bi
nas takav test uputio na zaključak da je β 1 = 0, tada ne bismo smeli
ocenjenu regresionu liniju koristiti u cilju predviđanja.
Postavimo, stoga, nultu hipotezu da između varijacija posmatranih
pojava u osnovnom skupu ne postoji linearna veza, odnosno da X ne utiče na
Y:
H0 : β1 = 0

i ograničimo se na dvosmernu alternativnu hipotezu:


H1 : β1 ≠ 0
284 OSNOVI STATISTIKE

Statistiku testa jednostavno ćemo formirati slično kao kod proste linearne
korelacije (izraz 11.6), tako što ćemo ocenu parametra staviti u odnos sa
standardnom greškom te ocene (jer je pretpostavljena vrednost parametra
jednaka nuli). Ovde je ocena b1, a njenu standardnu grešku σ b1 smo upoznali
kada smo razmatrali karakteristike ocena dobijenih metodom najmanjih
kvadrata. Budući da standardna greška ocene nagiba, σ b 1 , zavisi od nepoznate
standardne devijacije slučajne greške, σ, moramo je oceniti. Kada umesto σ
stavimo njenu ocenu, s (standardnu grešku regresije), dolazimo do formule za
standardnu grešku ocene nagiba:

Ocena standardne s
s b1 =
2 (11.25)
greške nagiba  x 2 − nx
Statistika testa ima oblik :
b1
t=
s b1 (11.26)

i sledi Studentov raspored sa (n-2) stepena slobode, a testiranje se sprovodi po


istom postupku kao kod linearne korelacije.
U našem primeru o izdacima za propagandu i prodaji (podaci Tabele 11.5)
standardna greška ocene nagiba iznosiće:
s 1,102
s b1 = = = 0,147
x 2
− nx 2
337 − (10)(5,3 2 )

a statistika testa:
b 1 1,3476
t= = = 9,167
s b1 0,147

Odredimo p-vrednost kako bismo doneli odluku da li da odbacimo nultu


hipotezu. Pri tome, za nivo značajnosti uzmimo standardni α = 0,05. Naša
statistika testa iznosi 9,167 i kao takva veća je od najveće kritične vrednosti
3,3554 u Tablici 2 t rasporeda, za 8 stepeni slobode. U zaglavlju ćemo
potražiti p-vrednost, ali ne zaboravimo da je pomnožimo sa 2, pošto je test
dvosmeran. Vidimo da je p-vrednost < 2 × 0,005 , odnosno < 0,01.
Pošto je p-vrednost manja od nivoa značajnosti odbacujemo nultu
hipotezu i usvajamo alternativnu H 1 : β 1 ≠ 0 . Zaključujemo, uz rizik 0,05, da
se parametar nagiba β 1 u regresionoj liniji osnovnog skupa razlikuje od nule.
Samim tim, postoji linearna veza između varijacija posmatranih pojava u
osnovnom skupu i regresionu liniju možemo koristiti za predviđanje. Takođe
zaključujemo da X utiče na Y. Kažemo još da je ocena b1 statistički značajna.
U slučaju neodbacivanja nulte hipoteze korektno je zaključiti samo da nemamo
dovoljno dokaza da X utiče na Y.
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 285

11.5.6 Predviđanje vrednosti zavisne promenljive

Pređimo sada na poslednju etapu regresione analize, koja je ujedno i njen cilj.
Da bismo validno koristili prost linearni regresioni model za predviđanje
neophodno je da su ispunjena, istovremeno sledeća tri uslova:

Uslovi za validno predviđanje pomoću regresije


1. Regresiona linija dobro reprezentuje empirijske podatke
(zaključeno na osnovu dijagrama raspršenosti i relativno
visokog koeficijenta determinacije)
2. Parametar nagiba se statistički značajno razlikuje od nule, tj.
β1 ≠ 0 .
3. Ne koristi se prekomerna ekstrapolacija

Objasnimo sada šta je ekstrapolacija i koji se tu problemi javljaju.

Problemi ekstrapolacije u regresiji


Ukoliko se izabrana vrednost objašnjavajuće promenljive, označimo je sa xp , za
koju želimo da ocenimo ili predvidimo odgovarajuću vrednost zavisne
promenljive Yp , nalazi u domenu raspoloživih podataka uzorka (u našem
primeru između 2 i 10), tada govorimo o interpolaciji; u suprotnom radi se o
ekstrapolaciji.

Ekstrapolacija je korišćenje regresione linije uzorka u cilju


predviđanja vrednosti Y za one vrednosti X koje su izvan intervala
koji je dat empirijskim podacima uzorka.

Ekstrapolacijom, u stvari, produžavamo regresionu liniju izvan opsega


vrednosti objašnjavajuće promenljive koje smo dobili u uzorku. Veliki broj
statističara smatra da se ekstrapolacija regresione linije uopšte ne bi smela
primenjivati. Pri takvom postupku istraživač snosi rizik da izvan opsega
podataka na osnovu kojih su ocenjeni parametri ne postoji linearna veza.
Vidimo da regresiona linija uzorka dobro reprezentuje linearnu
stohastičku vezu između promenljivih unutar intervala dostupnih podataka, ali
da izvan njega postoji krivolinijska veza. Svaka ekstrapolacija izvan neposredne
blizine empirijskih tačaka bila bi u takvoj situaciji podložna velikoj grešci.
Na osnovu navedenog možemo zauzeti sledeći stav: ekstrapolacija u
praksi se ipak može primenjivati, ali samo u neposrednoj blizini najmanje i
najveće vrednosti X date uzorkom.
286 OSNOVI STATISTIKE

11.5.7 Interval ocene prosečne vrednosti Y i


interval predviđanja pojedinačne vrednosti Y

Na osnovu regresione analize u statistici možemo formirati dva različita


intervala:
1) interval ocene koji se odnosi na prosečnu vrednost zavisne promenljive i
2) interval predviđanja koji se odnosi na pojedinačnu vrednost Y.
Za izračunavanje oba ova intervala koristićemo neki statistički softver. Pre bilo
kakvog formiranja ovih intervala neophodno je proveriti da li su ispunjeni
uslovi dati u prethodnom odeljku. Ukoliko makar jedan uslov nije ispunjen
dobijeni interval neće biti validan, odnosno njegovo izračunavanje nema smisla.
Bitno je shvatiti da se prilikom predviđanja pojedinačne vrednosti
zavisne promenljive javlja veća neizvesnost jer pojedinačni slučajevi uvek
pokazuju veća kolebanja od proseka. Samim tim i interval predviđanja
pojedinačne vrednosti Y uvek će biti širi od intervala ocene prosečne vrednosti.
Prvi korak kod formiranja oba intervala svodi se na jednostavnu zamenu
odabrane vrednosti objašnjavajuće promenljive u ocenjenoj regresionoj liniji
uzorka.
y p = b 0 + b 1 x p

gde smo sa x p označili vrednost objašnjavajuće promenljive X za koju želimo


da izvršimo ocenjivanje ili predviđanje.
Pretpostavimo da u našem Primeru 11.1 želimo da izvršimo ocenjivanje ili
predviđanje Y. Dalje pretpostavimo da smo se opredelili za firmu koja ulaže
9 miliona dinara u propagandu (xp = 9). Kao što smo naveli pre bilo kakvog
predviđanja moramo da ispitamo da li su ispunjena sva tri uslova koja su
neophodna za validno predviđanje.
1. Dijagram raspršenosti dat na Slici 11.1 sugeriše da između dve
promenljive postoji linearno kvantitativno slaganje, odnosno da se
empirijske vrednosti grupišu oko prave linije. Takođe, koeficijent
determinacije je relativno visok i iznosi r2= 0,9129.
2. Statistički značajna ocena nagiba: p-vrednost za b1 = 0, dakle ocena b1 je
statistički značajna.
3. Nema prekomerne ekstrapolacije: Vrednost objašnjavajuće promenljive
za koju želimo da izvršimo predviđanje, xp = 9, nalazi se u opsegu
podataka za X (X se kreće od 2 do 10).
Pošto su sva tri uslova ispunjena zaključujemo da će bilo ocenjivanje
prosečne vrednosti bilo predviđanje individualne vrednosti Y u ovom
konkretnom slučaju biti validno.
y p = 0,6577 + 1,3476· x = 0,6577 + 1,3476· 9 = 12,7861

Proverimo logički korektnost ovog rezultata. Ako pogledamo originalne podatke


POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 287

uzorka u Tabeli 11.1, videćemo da je dobijena vrednost u skladu sa varijacijama X i


Y. Dobijena predviđena (ocenjena) vrednost sugeriše da će za firmu koja ulaže 9
miliona dinara u propagandu, prosečna prodaja iznositi 1,27861 milijardi dinara
( 12,7861 × 100 miliona dinara).

A) Interval ocene prosečne vrednosti zavisne promenljive, koji će sa


verovatnoćom ( 1 − α ) obuhvatiti E(Yp), formira se analogno bilo kom t-
intervalu poverenja koje smo do sada koristili:

Interval poverenja prosečne vrednosti Y


y p − t α /2 ,n − 2 s y ≤ E(Yp ) ≤ y p + t α /2 ,n − 2 s y (11.27)
p p

gde su s y standardna greška a t α /2 se dobija iz Tablice t rasporeda za n-2


p
stepena slobode.

U našem primeru korišćenjem statističkog paketa Minitab dobili smo sledeći


interval
11,296 ≤ E(Yp) ≤ 14,276
Sa pouzdanošću od 0,95 zaključujemo da će računarske firme u Srbiji koje
ulažu 9 miliona dinara u propagandu imati prosečan prihod od prodaje u
intervalu od 11,296 do 14,276 (stotina miliona dinara).

B) Interval predviđanja pojedinačne vrednosti zavisne promenljive, koji će sa


verovatnoćom ( 1 − α ) obuhvatiti Yp, formira se slično uz razliku da se izrazi za
standardnu grešku razlikuju, odnosno standardna greška će biti veća i samim
tim interval širi bego prethodni.:

Interval predviđanja pojedinačne vrednosti Y


y p − t α /2 ,n − 2 s y p ≤ Yp ≤ y p + t α /2 ,n − 2 s y p (11.28)

gde su s Yp standardna greška a t α /2 se dobija iz Tablice t rasporeda za n-2


stepena slobode.

Interval predviđanja pojedinačne vrednosti Y


y p − t α /2 ,n − 2 s y p ≤ Yp ≤ y p + t α /2 ,n − 2 s y p

U našem primeru korišćenjem statističkog paketa Minitab dobili smo sledeći


interval
9,841 ≤ Yp ≤ 15,731
288 OSNOVI STATISTIKE

Predviđamo, uz rizik od 0,05, da će se, kod neke pojedinačne firme koja ulaže
devet miliona dinara u propagandu, prodaja nalaziti u intervalu od 9,841 do
15,731 (stotina miliona dinara). Kao posledica veće standardne greške vidimo
da je interval predviđanja širi od intervala poverenja. Ovo je logično, jer su
individualne vrednosti podložne većim fluktuacijama nego prosečne.

REZIME
U ekonomiji i društvenim naukama preovladavaju stohastičke veze između
pojava. Dok kod funkcionalnih veza za svaku vrednost nezavisne promenljive X
uvek postoji samo jedna vrednost zavisne promenljive Y, kod stohastičkih veza za
jednu vrednost X postoji čitav niz mogućih vrednosti Y. Stohastičke veze u
stvarnosti opisujemo pomoću stohastičkih modela. Ovi modeli uključuju slučajnu
grešku kojom obuhvatamo uticaje svih faktora koje nismo uključili u model.
Prilikom ispitivanja međuzavisnosti varijacija dve ili više promenljivih u
statistici se primenjuju regresiona i korelaciona analiza. Ukoliko analiziramo samo
dve pojave govorimo o prostoj regresiji ili korelaciji. U slučaju analize više od dve
pojave, jednu od njih označavamo kao zavisno promenljivu i primenjujemo
višestruku korelaciju ili regresiju.
Pomoću korelacije ispitujemo da li između dve ili više pojava postoji
kvantitativno slaganje, i ako postoji, kog je intenziteta. Pirsonov koeficijent se
označava sa r i pokazuje da li između dve numeričke promenljive u uzorku postoji
linearna veza. Da bi se ispitalo da li i u osnovnom skupu postoji linearna veza
njegovu vrednost moramo da testiramo pomoću Studentovog t testa. Pirsonov
koeficijent spada u grupu parametarskih pokazatelja jer se zasniva na pretpostavci
da je zajednički skup dve posmatrane promenljive normalan.
Dok kod korelacije nije bitno koju smo promenljivu označili kao zavisnu a
koju kao nezavisnu, kod regresione analize najpre mora da se izvrši identifikacija
promenljivih. Cilj regresije je da se kroz ocenu parametara regresionog modela
izvrši ocenjivanje prosečne vrednosti Y i predvide pojedinačne vrednosti Y.
Zavisnost između dve pojave u prostoj linearnoj regresiji opisujemo kroz prost
linearni regresioni model. Ukoliko su pretpostavke tog modela ispunjene tada
metod najmanjih kvadrata, po Gaus-Markovljevoj teoremi, daje najbolje
nepristrasne linearne ocene. Ideja metode najmanjih kvadrata kod proste linearne
regresije je da se dođe do najbolje prave linije, odnosno one koja će najbolje
reprezentovati vezu između dve pojave. To se postiže minimiziranjem sume
kvadrata reziduala.
Kod proste linearne regresije ocenjujemo dva parametra regresionog
modela: odsečak i nagib. Ocenjena vrednost odsečka pokazuje ocenu prosečne
vrednosti zavisne promenljive kada je objašnjavajuća promenljiva X jednaka 0. U
praksi je daleko važnija ocena nagiba. Ona pokazuje ocenu prosečne promene Y
kada se X poveća za svoju jedinicu.
Da bismo sagledali da li regresioni model na zadovoljavajući način opisuje
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 289

zavisnost dve pojave u realnosti koristimo dve mere reprezentativnosti. Prva je


standardna greška regresije i ona je apsolutna mera, odnosno iskazana je u istim
mernim jedinicama kao i Y. Druga mera se mnogo češće koristi i naziva
koeficijentom determinacije. Ovaj koeficijent pokazuje udeo objašnjenog
varijabiliteta u ukupnom. Dok koeficijent korelacije može uzimati vrednosti u
intervalu [ −1, +1] , koeficijent determinacije nikad ne može biti negativan. Njegova
maksimalna vrednost je +1 i javlja se samo u slučaju da između dve pojave postoji
funkcionalna veza, pa se sve empirijske tačke nalaze na pravoj liniji.
Prilikom korišćenja regresionog modela u cilju predviđanja mora se voditi
računa da je (a) koeficijent determinacije relativno visok, (b) da je ocena nagiba
statistički značajna i (d) da nema prekomerne ekstrapolacije. Ekstrapolacija se
javlja ako prilikom predviđanja Y uzimamo one vrednosti objašnjavajuće
promenljive X koje su ili manje od minimalne ili veće od maksimalne u uzorku.

KLJUČNI NOVI POJMOVI

Funkcionalna veza Nagib


Stohastička veza Odsečak
Zavisna promenljiva Stohastički član (slučajna greška)
Objašnjavajuća promenljiva Metod najmanjih kvadrata
Korelacija Gaus-Markovljeva teorema
Regresija Rezidual
Dijagram raspršenosti Standardna greška regresije
Pirsonov koeficijent korelacije Koeficijent determinacije
Prost linearni regresioni model Ekstrapolacija
Regresiona linija skupa Interval ocene za
Regresiona linija uzorka prosečnu vrednost Y
Interval predviđanja za
pojedinačnu vrednost Y

KONTROLNA PITANJA I ZADACI


1. Deterministička i stohastička zavisnost.
2. Objasnite stohastički model i njegove komponente.
3. Objasnite razliku između regresione i korelacione analize.
290 OSNOVI STATISTIKE

4. Da li na osnovu regresione analize možemo da otkrijemo postojanje uzročno-


posledične veze između pojava?
5. Cilj regresione analize je:
a) utvrđivanje mere kvantitativnog slaganja između pojava;
b) ocena i predviđanje ponašanja zavisno promenljive;
c) identifikacija zavisno i nezavisno promenljive.
6. Dijagram raspršenosti.
7. Ako je koeficijent proste korelacije jednak nuli zaključujemo:
a) između pojava nema kvantitativnog slaganja;
b) između pojava nema linearne veze,
c) između varijacija posmatranih promenljivih u uzorku nema linearne
veze.
8. U čemu je smisao testiranja značajnosti koeficijenta proste linearne korelacije?
9. Dobijeni Pirsonov koeficijent korelacije rs = -0,95 kg tumačimo kao:
a) veoma visoku direktnu linearnu korelaciju,
b) veoma visoku inverznu linearnu korelaciju,
c) grešku u izračunavanju, jer koeficijent korelacije ne može biti negativan.
d) ništa od navedenog, već...
10. Šta se podrazumeva pod lažnom korelacijom?

11. Da li je ryx = rxy ? Objasnite.

12. Prost linearni regresioni model.

13. Pretpostavke normalnog linearnog regresionog modela.

14. Objasnite šta pokazuju regresioni koeficijenti β0 i β1 u prostom linearnom


regresionom modelu.

15. Kod linije regresije populacije E(Yi) = β0 + β1xi, koeficijent β1 pokazuje:


a) promenu zavisno promenljive kada se vrednost nezavisno promenljive
promeni za jedinicu;
b) prosečnu promenu nezavisno promenljive kada se zavisno promenljiva
promeni za jedinicu;
c) prosečnu promenu zavisno promenljive kada se vrednost nezavisno
promenljive promeni za jedinicu.
16. Navedite razloge zbog kojih se uvodi stohastički član ε u regresioni model.

17. Da li je nezavisna promenljiva X slučajna promenljiva u prostom linearnom


regresionom modelu? A zavisna promenljiva Y?

18. Kako tumačite pojam heteroskedastičnost?

19. Da li su b0 i b1 nepristrasne ocene nepoznatih parametara β0 i β1 u prostom


linearnom regresionom modelu? Objasnite.
POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 291

20. Metod najmanjih kvadrata kod prostog linearnog regresionog modela se


zasniva na:
a) odabiranju tipa krive koji najbolje aproksimira dati empirijski raspored;
b) minimiziranju sume horizontalnih odstupanja empirijskih podataka od
prave;
c) minimiziranju sume kvadrata vertikalnih odstupanja empirijskih
podataka od prave.
21. U čemu je razlika između ocene b1 i ocenjene vrednosti b1?
22. Objasnite značenje i posledice Gaus-Markovljeve teoreme.
23. Mere reprezentativnosti linije regresije.
24. Koeficijent determinacije r2.
25. Zbog čega testiramo nultu hipotezu β1 = 0 u prostoj linearnoj regresiji?
26. U čemu je razlika između ocenjivanja i predviđanja u regresionoj analizi?
27. Problemi ekstrapolacije u regresionoj analizi.
28. Raspolažemo podacima slučajnog uzorka izabranog iz Forbzove liste
od 946 milijardera, formirane 2007. godine (http://www.forbes.com):
Bogatstvo
Ime i prezime Godine starosti
(u milijardama dolara)
Vilijam Gejts III 56 51
Amančio Ortega 24 71
Roman Abramovič 18,7 40
Džim Volton 16,8 59
Majkl Del 15,8 42
Sulejman Kerimov 14,4 41
Vladimir Lisin 14,3 50
Silvio Berluskoni 11,8 70
Testirajte da li između bogatstva i godina starosti postoji linearna korelacija.
29. Na osnovu podataka tržišne statistike o kretanju ponude i cene jednog
kozmetičkog proizvoda formirana je sledeća tabela:
Cena Ponuda
(u 10 2 din.) (u 00 komada)
20 35
25 40
30 44
35 49
40 53
a) Ucrtajte podatke u dijagram raspršenosti i odaberite odgovarajući
regresioni model.
b) Metodom najmanjih kvadrata ocenite parametre modela.
c) Testirajte značajnost ocenjene vrednosti b1. Da li X utiče na Y?
d) Ocenite koliko se u proseku može očekivati ponuda za cenu od 4200
dinara. Da li je dobijena vrednost validna? Objasnite!
292 OSNOVI STATISTIKE

30. Dati su podaci o radnom iskustvu i broju neispravnih proizvoda za 7 slučajno


odabranih radnika:
Radno iskustvo Broj neispravnih
(u godinama) proizvoda
7 23
8 23
10 21
14 18
15 16
15 14
18 10

Ocenjeni regresioni model predstavljen je sledećom tabelom:


Parametar Ocena Stand. Greška ocene
Odsečak 31,8929 1,64370
Nagib -1,2411 0,13081
Koeficijent determinacije je 0,9375
Standardna greška regresije je 1,3839

a) Ucrtati podatke u dijagram raspršenosti , a zatim i ocenjenu regresionu


liniju ucrtati u dijagram raspršenosti.
b) Protumačiti relativnu meru reprezentativnosti regresionog modela.
c) Koliko je učešće neobjašnjenog varijabiliteta broja neispravnih proizvoda?
d) Ocenite za koliko bi se u proseku promenio broj neispravnih proizvoda pri
povećanju radnog iskustva za jednu godinu.
e) Ocenite prosečan broj neispravnih proizvoda za radno iskustvo od 17
godina.
f) Ispitati stepen kvantitativnog slaganja varijacija radnog iskustva i broja
neispravnih proizvoda, a zatim testirati odgovarajuću hipotezu.

You might also like