You are on page 1of 42

Regresiona analiza

Statistika u društvenim istrazivanjima-analiza


2014/2015
Jelena Pešić
• Međusobne veze dve pojave mogu biti:
• Determinističke (egzaktne, funkcionalne)- kada određenoj
vrednosti nezavisne promenljive X odgovara samo jedna
vrednost zavisne promenljive Y.
• Stohastičke veze- kada na osnovu vrednosti nezavisne
promenljive nismo u stanju precizno da odredimo vrednosti
zavisne promenljive. Tada se, za vrednost nezavisne X, javlja
čitav niz vrednosti zavisne promenljive Y. Koju će od tih
vrednosti zavisna varijabla zaista uzeti, određeno je stepenom
verovatnoće. Stohastičke veze su stoga probabilističke.
• U regresionoj analizi se razmatra postojanje veze između
pojedinačnih vrednosti nezavisne promenljive X i prosečnih
(odnosno, preciznije, očekivanih) vrednosti zavisne Y.
• Kod stohastičkih veza, individualne vrednosti zavisne Y mogu
značajno odstupati od proseka, pa se pravilnosti mogu otkriti tek
ispitivanjem velikog broja podataka.
Regresiona analiza
• Skup tehnika kojima se utvrđuje stohastički karakter veze
između pojava. To znači da ova analiza počiva na
pretpostavci o nekakvom uzročnom karakteru određenih
pojava. Unapred se, na osnovu teorijskih razmatranja,
pretpostavlja koja varijabla je zavisna a koja(e)
nezavisna(e).
• Zavisna (Y) varijabla mora biti kontinuirana, dok nezavisna
(X) može biti kontinuirana ili dihotomna.
• Kada se utvrđuje uzročni efekat 1 nezavisne varijable na
zavisnu, radi se o prostoj lineranoj regresiji.
• Ako se ispituje efekat više nezavisnih varijabli na zavisnu,
tada se radi o višestrukoj regresiji.
• Ako je zavisna promenljiva kategorijska, tada se koristi
logistička regresija
• Ako se nezavisne varijable unose u blokovima, radi se o
hijerarhijskoj (multilevel) regresionoj analizi
Ciljevi regresione analize
• Cilj regresije je da utvrdi prirodu veze, tj. oblik
zavisnosti između pojava.
• U tu svrhu se koriste regresioni modeli, pomoću
kojih se opisuje kvantitativna zavisnost između
varijacija posmatranih pojava.
• Pošto se statistika bavi stohastičkim vezama,
regresioni modeli prikazuju prosečno slaganje
varijacija posmatranih pojava.
• Cilj regresionog modela je da se oceni i predvidi
ponašanje zavisne promenljive za određene
vrednosti nezavisne promenljive.
Prosta linearna regresija
• Tehnika kojom se predviđaju promene 1 zavisne varijable ako
se menja nezavisna. Temelji se na kvantitativnom slaganju
varijacija dve pojave (slično kao kod korelacije).
• Može se prikazati preko dijagrama raspršenosti
• U dijagramu raspršenosti, na apscisu se nanose vrednosti
nezavisne promenljive X, a na oordinatu, vrednosti zavisne
promenljive Y
• Potom se ucrtava linija, koja je što je moguće bliža svim
empirijskim tačkama (parovima podataka) - linija regresije
• Linija regresije predstavlja najbolju predikciju vrednosti y
za svaku pojedinačnu vrednost x
• Linija regresije je predstavljena sledećom jednačinom
Y=ßo+ß1X
• Gde je: ßo konstanta (odsečak na Y osi, tj. vrednost Y kada
je X jednako 0),
• ß1 regresioni koeficijent (tangens ugla koji zaklapa linija
regresije sa pozitivnim krakom X ose)-pokazuje promenu
zavisne promenljive Y kada se nezavisna promenljiva X
poveća za jednu svoju jedinicu
• X vrednost nezavisne varijable,
• a Y vrednost zavisne promenljive
Na primer, u tabeli je dat niz vrednosti dva obeležja
x i y. Vidimo da kako raste x, raste i y. X Y
1 1
2 2
3 1.3
4 3.75
5 2.25

Kada bismo, na ovom dijagramu


povukli liniju koja je najmanje
udaljena od svake od konkretnih
tačaka, dobili bismo sledeće:
• Na osnovu grafika 2, jasno je da je prva tačka najbliža zamišljenoj
liniji, i da je tu empirijska vrednost najsličnija predviđenoj
(odnosno greška je najmanja), dok je kod 4. tačke situacija
obrnuta-ona je najdalje od linije i greška u predviđanju će biti
najveća.
X Y Y' Y-Y' (Y-Y')2
1 1 1.21 -0.21 0.044
2 2 1.635 0.365 0.133
3 1.3 2.06 -0.76 0.578
4 3.75 2.485 1.265 1.6
5 2.25 2.91 -0.66 0.436

U tabeli su date empirijske i predviđene vrednosti Y, njihova razlika i


njen kvadrat (da bi se izbeglo anuliranje pozitivnih i negativnih
brojeva) kod sumiranja kvadrata odstupanja.
• Zbog efekta greške, formula za liniju regresije dobija sledeći oblik:
Y=ßo+ß1X+Ɛ

ßo (intercept), konstanta, mesto u kojem regresiona linija seče Y osu


(negde se označava i kao alpha)
ß1 (slope), nagib regresione linije, prosečna promena zavisne
promenljive Y, kada se nezavisna varijabla X poveća za 1 svoju
jedinicu
Ɛ (error) varijansa Y koju je nemoguće predvideti pomoću X (uticaj
drugih faktora)
• Pošto mi najčešće radimo sa uzorcima (a ne sa
populacijama), vrednosti ßo i ß1 predstavljaju
nepoznate parametre koje treba oceniti na
osnovu podataka iz uzorka. Na taj način
dobijamo ocene b0 i b1.
• Tada smo u stanju da nacrtamo liniju regresije
uzorka, koja je supstitut za nepoznatu liniju
regresije populacije
• Karakteristike regresionog modela:
• Sastoji se iz dva aditivna dela- determinističkog i stohastičkog

• Deterministički deo (ßo+ß1X1) odražava prosečan uticaj nezavisne


promenljive X na zavisnu promenljivu Y. Parametar ßo naziva se
slobodnim članom (random effect), a ß1 koeficijentom nagiba.

• Kada bi između posmatranih pojava postojala deterministička veza,


tada bi u jednačini ostao samo deterministički deo, sve bio se tačke
nalazile na jednom pravcu (na liniji regresije)

• Međutim, kako je veza stohastička, javlja se i drugi deo jednačine, koji


pokazuje odstupanje zavisne promenljive od funkcionalnog odnosa.
To znači da je zavisna varijabla mnogostruko uslovljena, odnosno da
na nju ne deluje samo posmatrana nezavisna varijabla, već i drugi
faktori čiji se efekat ne ispituje u datom modelu. Takođe, stohastički
deo jednačine može biti posledica grešaka u merenju ili slučajnog
efekta neke treće varijable. Pošto je efekat ovih faktora istovremen,
očekuje se da, kod velikih uzoraka, vrednost stohastičkog dela
jednačine bude relativno mali (približno 0, zbog potirućih efekata
različitih faktora čiji efekat ne merimo)
Pretpostavke regresionog modela:
1. lineranost veze
2. vrednost slučajne greške je, u proseku, jednaka 0
3. homoskedastičnost-svi stohastički članovi
imajupribližno jednaka odstupanja, tj. varijanse
4. nema autokorelacije-ne postoji linerana veza između
stohastičkih članova
5. X nije slučajna promenljiva (njene su vrednosti
fiksirane), unapred odabrane, pre biranja uzorka
6. slučajna greška ima normalan raspored (μ=0; σ²=1).
Ovo znači da i Y ima normalan raspored (jer je i sama
linearna transformacija slučajne greške)
• Ovih 6 osobina formiraju normalni linarni regresioni
model. To znači da se radi o parametarskoj tehnici.
Ocenjivanje: metoda najmanih
kvadrata
• Prva etapa u regresionoj analizi se svodi na grafičko prikazivanje
podataka na dijagramu raspršenosti. Na osnovu njega se odabire tip
krive koja najviše odgovara empirijskim podacima. Tek kada on
ukaže na postojanje linearne povezanosti, prelazi se na ocenjivanje
nepoznatih parametara ßo i ß1. Linija regresije u uzorku ima sledeći
oblik: Yi = bo+b1xi
• Yi je ona vrednost Y koja se nalazi na najbolje prilagođenoj
liniji regresije i predstavlja predviđenu vrednost Y
• Pošto b0 i b1 od uzorka do uzorka mogu uzimati različite vrednosti,
koje ne možemo predvideti, radi se o slučajnim promenljivama.
Dakle, kao i kod ocene aritmetičke sredine, vrednosti u populaciji su
konstante, a u uzorku promenljive.
• Pošto je između tačaka u dijagramu raspršenosti moguće povući
beskonačno mnogo pravih linija, pitanje je koja je prava? Ona koja
je najbliže moguće svim tačkama u dijagramu. Ona se izračunava uz
pomoć metoda najmanjih kvadrata.
• Metod s zasniva na minimiziranju kvadrata odstupanja
svih empirijskih tačaka od regresione linije.
• Vertikalno odstupanje-razliku između stvarne vrednosti
yi i prilagođene vrednostiŷi - nazivamo rezidualom Ɛi
i  yi  yˆi  yi  (bo  b1xi)
• Rezidual je pozitivan ako je empirijska tačka iznad
linije regresije, a negativan kada je ispod. Ako je na
liniji, rezidual je nula. U slučaju funkcionalne veze svi
reziduali bi bili jednaki nuli. Linija regresije je dobar
reprezent ako su vrednosti reziduala minimalne.
Rezidual je ocena stohastičkog člana jednačine.
• Kriterijum minimiziranja razlike ne može biti zasnovan
na sumi reziduala, jer bi ona bila približno nuli, pa se
zato koristi suma kvadrata odstupanja. Dakle, od svih
mogućih pravih linija treba odabrati onu koja ima
najmanju sumu kvadrata vertikalnih odstupanja
(reziduala).
• Matematički se to predstavlja na sledeći način:

 i  ( yi  yˆ i )   yi  (bo  b1xi )
2
 2

• Postupak minimiziranja se sprovodi pomoću


parcijalnih izvoda prethodnog izraza:
 yi  nb0  b1  xi
 xiyi  bo  xi  b1  xi 2

Rešavanjem jednačina dobijamo :


• n xy   x  y ocenjena vrednost nagiba
b1 
n x 2  (  x ) 2
• bo  y  b1x ocenjena vrednost slobodnog člana
Mere reprezentativnosti linije regresije
• Mere prilagođenosti linije regresije empirijskim
podacima mogu biti:
• apsolutne – standardna greška regresije
• i relativne- koeficijent determinacije
• Naime, shodno regresionom modelu
(Yi=ßo+ß1xi+Ɛi), Y varira iz dva razloga-zbog
varijacija u vrednostima x (i on se može objasniti
regresionim modelom) i usled delovanja slučajne
greške (Ɛi) – što se ne može objasniti uz pomoć
regresionog modela.
• Na dijagramu je prikazana proizvoljna empirijska
vrednost yi iz uzorka, koja odgovara vrednosti nezavisne
promenljive x (xi). Pošto je aritmetička sredina serije y u
uzorku konstanta, ona ne zavisi od serije x, pa se može
ucrtati kao linija paralelna x osi.
• Posmatramo odstupanje empirijske vrednosti (yi) od
prosečne vrednosti (y ). Takvo odstupanje se naziva
ukupnim odstupanjem.
• Budući da je veza stohastička, jedan deo tog odstupanja
je objašnjen promenljivomyˆxi ( y ),dok drugi ostaje
neobjašnjen (yi  yˆi ), i naziva se rezidualnim
odstupanjem.
• Konkretno, na dijagramu, vrednost yi je veća od
aritmetičke sredine y jer je 1. i odgovarajuća vrednost x
veća od svoje aritmetičke sredine i 2. postoji linearna
direktna veza između varijacija promenljivih
• Dakle, ukupno odstupanje y može se treirati
kao zbir objašnjenog i neobjašnjenog
varijabiliteta
( yi  y )  ( yˆi  y )  ( yi  yˆ i )
ukupno objašnjeno neobjašnjeno
odstupanje odstupanje odstupanje

Isto će važiti i ako obe strane jednačine kvadriramo i


sumiramo za sve vrednosti uzorka
( yi  y )  ( yˆ i  y )  ( yi  yˆ i )
2 2 2

Ukupna Objašnjena(regresiona) Neobjašnjena (rezidualna)


Suma suma suma
Kvadrata (SKU) kvadrata (SKO) kvadrata (SKN)
• Na osnovu poslednje jednačine dolazimo do
mera reprezentativnosti regresione linije:
• Standardna greška regresije se zasniva na
vrednosti neobjašnjene sume kvadrata (SKN),
a koeficijent determinacije na poređenju
objašnjenog i ukupnog varijabiliteta.
Standardna greška regresije
• Jedna od pretpostavki regresione analize počiva na jednakosti
 2
varijansi slučajne greške (Ɛ). Varijansa greške ( )ukazuje na
odstupanje podataka od prosečnih vrednosti E(Yi), koje se
nalaze na regresionoj liniji u osnovnom skupu. Sa
povećanjem raspršenosti tačaka, raste i vrednost varijanse
greške, pa regresiona linija sve slabije reprezentuje vezu
između pojava.
• Pošto najčešće ne znamo vrednost slučajne greške i njenu
varijansu u populaciji, mi je ocenjujemo na osnovu uzorka.
• Varijansu slučajne greške dobijamo po formuli:

ˆ SKN ( yi  yˆi ) 2
s  
2 2

n2 n2
• Ova ocena se naziva rezidualnom varijansom. Standardna
greška regresije se dobija kao kvadratni koren iz rezidualne
varijanse i predstavlja ocenu standardne devijacije slučajne
greške:

SKN ( y  yˆ ) 2  y 2  bo y  b1 xy


s  ˆ   
n2 n2 n2

Standardna greška regresije je apsolutna mera varijacije empirijskih


podataka od regresione linije uzorka. Što su empirijske tačke
više raspšene, to je std. greška veća, pa manje možemo da se
pouzdamo u tačnost predviđanja zasnovanog na takvoj liniji
regresije. Std. greška se iskazuje u istim mernim jedinicama kao
i zavisna promenljiva. Zbog toga je nepodobna za poređenje
reprezentativnosti regresionih linija u različitim modelima.
Koeficijent determinacije
• Relativnu meru prilagođenosti regresione linije podacima
definisaćemo kao odnos objašnjenog i ukupnog varijabiliteta.
• SKU = SKO + SKN
• Kada se obe strane jednačine podele ukupnim varijabilitetom i
prebaci SKO na desnu stranu jednačine, dobijamo:
• SKO = SKU-SKN
• SKO/SKU = (SKU/SKU) –(SKN/SKU)
= 1 –(SKN/SKU)
• Leva strana jednačine pokazuje koliko je učešće objašnjenog
varijabiliteta u ukupnom i naziva se koeficijentom
determinacije. Obeležava se sa r².
• b1-ocenjena vrednost nagiba
 x 2
 nx 2
(slope) r 2  b12
 y  ny
2 2
• Koeficijent determinacije je relativna mera
reprezentativnosti i pokazuje učešće (procenat)
objašnjenog varijabiliteta u ukupnom, tj. koliko je
varijacije promenljiv y objašnjeno uz pomoć x
• Njegova vrednost varira od 0 do 1. Kada je r² = 1,
tada su sve tačke na liniji regresije, a objašnjeni
varijabilitet je jednak ukupnom. To znači da su
varijacije Y u potpunosti funkcija varijacija X,
odnosno da se radi o determinističkoj vezi.
• Kako se vrednost r² približava 0, to znači da
opada udeo objašnjenog varijabiliteta, regresiona
linija slabije reprezentuje podatke, a varijacije su
posledica nekih drugih faktora
Testiranje značajnosti regresione veze
• Da bi primena regresione linije uzorka za predviđanje
vrednosti zavisne promenljive Y bila opravdana,
neophodno je najpre ispitati da li postoji kvantitativno
slaganje varijacija dve varijable u osnovnom skupu.
• Kada je nagib (ß1) = 0, tada nema linearne veze između
XiY
• Ukoliko postoji veza, tada je ß1>0.
• Stoga se formulišu nulta i alternativna hipoteza:
Ho: ß1 = 0
H1: ß1 ≠ 0
• Statistika testa se dobija kada se ocena nagiba (b1)
stavi u odnos sa standardnom greškom te ocene  b.1
s
sb1  ˆb1 
 x 2  nx 2
• Statistika testa ima sledeći oblik:

b1
t
sb1
• Kritične vrednosti odbacivanja i prihvatanja
hipoteze dobijaju se na osnovu tabele Studentovog
rasporeda (tabela 4), za n-2 stepeni slobode

• U slučaju prihvatanja Ho korektno je reći samo da


nema linearnog uticaja X na Y
Ocenjivanje i predviđanje vrednosti zavisne promenljive
Prost linearni model koristi se i za predviđanje vrednosti
zavisne varijable. Ovo je moguće ako:
1. Regresiona linija dobro reprezentuje empirijske podatke (r²
> 0,5)
2. Između varijacija posmatranih pojava u osnovnom skupu
postoji linearna veza (koeficijent regresije ß1≠0)
S obzirom na stohastičku prirodu veze, za svako pojedinačno
xi ( u uzorku) postoji čitav raspon mogućih vrednosti Yi.
Prosečna vrednost svih mogućih Y za određeno X nalazi se
na liniji regresije skupa.
Stoga je i predviđanje dvojako: a) moguće je za određenu
vrednost x ocenjivati prosečnu vrednost y i
b) predviđati individualne vrednosti y.
Razlika je u tome što je prosečna vrednost konstanta, dok su
individualne vrednosti slučajne promenljive, a predviđanje
neizvesnije
Interval ocene prosečne vrednosti Y
Ocena prosečne vrednosti Y dobija se po sledećoj
formuli: yˆ  b  b x
p 0 1 p

Pošto su b0 i b1 ocenjene vrednosti i razlikuju se od


ß0 i ß1 (zbog greške u uzorkovanju), tada će i
ocena prosečne vrednosti y ( ŷ ) biti različita od
p

stvarne prosečne vrednosti E(Yp)


Dakle, da bi mogli da oformimo intervalnu ocenu
E(Yp) neophodno je da znamo koliko je
odstupanje ŷ od E(Yp). Mera odstupanja je
p

standardna greška ocene prosečne vrednosti


zavisne promenljive s yˆ
p
1 ( xp  x ) 2
s yˆ p  s 
n  x 2  nx 2
Interval ocene prosečne vrednosti zavisne promenljive se formira kao:

yˆp  t / 2;n 2 s yˆ p  E (Yp )  yˆp  t / 2;n  2 s yˆ p


1. Sa povećanjem raspršenosti podataka, povećava se i standardna
greška ocene prosečne vrednosti
2. Sa povećanjem veličine uzorka, standardna greška ocene prosečne
vrednosti se smanjuje
3. Sa udaljavanjem određene vrednosti xp od aritmetičke sredine X,
standardna greška se povaćava, a interval pouzdanosti širi
4. Sa povećanjem disperzije promenljive X, smanjuje se veličina
greške
Interval predviđanja individualne
vrednosti Y -Yp
• Kod ocenjivanja prosečne vrednosti, neizvesnost
se javlja zbog greške u uzorku. Međutim, kod
ocene individualne vrednosti Y javlja se dodatni
problem- ona zavisi i od slučajne greške Ɛp.
• Standardna greška predviđanja s y se dobija po p

formuli: 1 ( xp  x ) 2
syp  s 1 
n  x 2  nx 2

• Interval predviđanja individualne vrednosti je:


• yˆ p  t / 2,n  2 s y p  Yp  yˆ p  t / 2,n  2 s y p
Višestruka linearna regresija
• Kod izučavanja istovremenog međudejstva više pojava na zavisn
promenljivu, koristimo višestruku regresiju
• Dakle, kod višestruke linearne regresije, zavisna varijabla se nastoji
objasniti ne samo pomoću jedne, već više nezavisnih
• Odgovara potrebama društenih nauka i mnogostrukoj uslovljenosti
društvenih fenomena
• Omogućuje da se iz skupa nezavisnih varijabli (prediktora) izdvoje
oni koji najbolje određuju ishod zavisne varijable
• Omogućava da se testira hipoteza o tome da li određena zavisna
varijabla predstavlja dobrog prediktora kada se druge varijable drže
pod kontrolom
• Analiza počiva na izračunavanju efekta određene varijable na
zavisnu kada se sve druge varijable u modelu drže pod kontrolom
• Može se praviti više modela analize, na osnovu kojih se testiraju
hipoteze
• Kao i kod proste regresije, i zavisna i nezavisne
varijable moraju biti kontinuirane.
• Ipak, nezavisne varijable mogu biti i kategorički, ali
se moraju transformisati u indikatorske (dummy)
varijable
• Broj indikatorskih varijabli je za 1 manji od broja
obeležja, jer se jedno obeležje uvek vodi kao
referentno.
• Višestruki linearni model ima sledeći oblik
Yi   0   1x1   2 x 2  ...  kxk  i
• Višestruku regresiju ne treba raditi na malim
uzorcima
• Obratiti pažnju na multikolinearnost: naime,
ona se javlja kada su nezavisne varijable
međusobno jako korelirane. Takve varijable
treba izbegavati kao prediktore u istom modelu
• Takođe, regresija je osetljiva na netipične
tačke-velika odstupanja od linije regresije. To
su obično veoma visoke ili veoma niske
vrednosti, koje treba uklonti pre početka
regresione analize
Višestruki linearni regresioni model sa dve promenljive
Yi   0   1x1   2 x 2  i
Deterministički deo modela predstavlja geometrijsku ravan.
Kada bi između nezavisnih promenljivih sa jedne i
zavisne sa druge strane postojala funkcionalna veza, sve
bi se tačke nalazile tačno na ravni (za svaku kombinaciju
nezavisnih x1 i x2 postojala bi samo jedna vrednost Y).
Pošto izučavamo stohastičke veze, ne dolazi do ovog
poklapanja, odnosno za određene kombinacij e x1 i x2
postoji čitav niz mogućih vrednosti koje uzima Y. Pri
tome se prosečna vrednost zavisne promenljive, za date
vrednosti nezavisnih promenljivih, nalazi na ravni, a
empirijske vrednosti Y pokazuju odstupanja od ravni
(gore ili dole).
• ßo- odsečak u kojem ravan seče Y osu
• ß1 regresioni koeficijent-prosečna promena zavisne
promenljiv Y kada se nezavisna X1 poveća za jednu svoju
jedinicu, pod uslovom da nezavisna X2 ostane nepromenjena
• ß2-prosečna promena zavisne promenljiv Y kada se nezavisna
X2 poveća za jednu svoju jedinicu, pod uslovom da nezavisna
X1 ostane nepromenjena
• Empirijske vrednosti iz uzoraka se mogu prikazati u
trodimienzionalnom sistemu. Cilj je da se pronađe ona ravan
koja najbolje reprezentuje empirijske podatke. To je
regresiona ravan uzorka i njena formula je:

Yˆi  b0  b1 x1i  b2 x2 i
• Kao i kod proste linearne regresije, parametri se ocenjuju
metodom najmanjeg kvadrata, kojom se minimizira suma
kvadrata odstupanja empirijskih tačaka od regresione ravni
• Mere reprezentativnosti regresione ravni su standardna greška
regresije (apsolutna) i koeficijent višestruke determinacije
(relativna)
• Veličina odstupanja tačaka od prosečnih vrednosti E(Yi) koje
se nalaze na regresionoj ravni , pokazuju varijansu slučajne
greške . Što je veća raspršenost tačaka oko ravni, veća je i
varijansa. Pošto ovu varijasu ne znamo u opštoj populaciji,
možemo samo da je ocenimo pomoću rezidualne varijanse.
Standardna greška regresije stoga predstavlja ocenu
standardne devijacije slučajne greške.
• Koeficijent višestruke determinacije, kao relativna mera,
pogodan je za komparaciju više modela. Dobija se kao odnos
objašnjenog i ukupnog varijabiliteta. Ima vrednost od 0 do 1.
• Nedostatak koeficijenta višestruke detereminacije je taj
što zavisi od broja promenljivih u modelu i veličine
uzorka.
• Ako je broj podataka u uzorku mali , a broj nezavisnih
varijabli veliki, vrednost R² će biti bliska 1 čak iako
one pojedinačno ne utiču na zavisnu varijablu. Tada je
R² nerealno visok. Takođe, uključivanjem nove
nezavisne varijable u model, R² se uvećava bez obzira
na njen stvarni uticaj. Zbog toga se često koristi
korigovani (adjusted) koeficijent višestruke R 2
determinacije ( ), čija je vrednost uvek manja ili
jednaka R² (ali nikada veća). Razlika između dva broja
se smanjuje sa povećanjem veličine uzorka, uz
nepormenjeni broj nezavisnih u modelu. Kada je
uzorak mali, korigovani koeficijent je znatno niži.
Višestruka linearna regresija
(SPSS)
• Analyze; Regression, Linear
• Method-Enter
• Statistics: Estimates, Confidence Intervals, Model
fit, Part and partial correlations, Colinearity
diagnostics
• Plots: ZRESID u polje Y
• ZPRED u polje X
• Standardized Residual plots-Normal probability
plot
Višestruka linearna regresija
• Coefficients, b, Beta, Sig.
• Correlation:proverite povezanost nezavisnih sa
zavisnom promenljivom. One bi trebalo da budu veće
od 0,3.
• (Tolerance je deo varijanse nezavisne promenljive koji
nije objašnjen drugim nezavisnim promenljivim. Kada
je ta vrednost manja od 0,1, to ukazuje na ogromnu
multikolinearnost; VIF-Variance Inflation Factor-je
problematičan ako je veći od 10)
• Model Summary: R Sqare (koeficijent deteminacije)
Višestruka linearna regresija
• PRIMER SEESSP baza
• Nezavisne:
• Pol (dummy)
• Mesto stanovanja v163 , rekodovati, pa
napraviti dummy
• Voo2.a starost
• Rekodovan broj godina školovanja
• Zavisna: napraviti skalu patrijarhalnost v49-v52

You might also like