You are on page 1of 37

VIESTRUKA

LINEARNA REGRESIJA

Malo podseanje
Regresioni
modeli

Prosti
(1 nezavisna
promenljiva)

Linearni

Nelinearni

Viestruki
(2+ nezavisnih
promenljivih)

Linearni

Nelinearni

Naziv viestruka linearna regresija znai:


Viestruka - ima vie nezavisnih promenljivih X
Linearna - regresiona funkcija je linearna po
koeficijentima
Regresija - koristi se regresiona funkcija kao najbolje
predvianje za Y na osnovu Xi, i=1,..,n

Regresiona analiza
~ Ukoliko se problem koji posmatramo moe tretirati kao
problem jedne zavisne i vie nezavisnih promenljivih, radi
se o pogodnoj situaciji za analizu podataka metodom
viestruke regresije. Ako je veza izmeu njih linearna, sluaj
se svodi na viestruki linearni model.
~ Neka su:
Y zavisna promenljiva
X1, X2, ..., Xp nezavisne promenljive
~ Tada je linearni model:
Y= 0 + 1X1 + ... + pXp +
Pri emu su 0, 1,..., p nepoznati parametri koje treba
oceniti, a greka merenja, tj. reziduali.

Promenljivu Y zovemo i promenljiva odgovora, tj. output


promenljiva, dok su X-promenljive zvane input, tj. objanjavajue
promenljive.
Ukoliko imamo n eksperimenata model moemo zapisati matrino na sledei nain:
, i =1,,n
Uvodimo oznaku:

Smatra se da je E = 0, i =1,,n, jer tu vrednost uvek moemo sraunati sa


Konano dobijamo:

Krai zapis je:


Y=X +
gde se X

zove sistemska komponenta modela,


sluajna komponenta modela.

Ocena parametara
Jedan od kriterijuma ocene je metoda najmanjih kvadrata. Metod se sastoji u tome da se
za ocenu parametra uzima ona vrednost za koju je zbir kvadrata reziduala
minimalan.

S obzirom da traimo minimum sume, izvrili smo diferenciranje. Meutim, to je


upravo sledee diferenciranje po vektoru:

Gde je f realna funkcija od X.

Osobine
1.

Gde je

2.

3.

4. Ako je A simetrina matrica, onda:


Ako A nije simetrina matrica, onda:

Nakon to smo primenili prethodne osobine, dobijamo da je:

Ako postoji:

Onda je konano ocena za upravo:


~ Ocena sistematske komponente X:
~ Ocena greke:

Ciljevi regresione analize

~ Ispitivanje da li nezavisna promenljiva (nezavisne promenljive) objanjavaju


znaajni deo varijabiliteta zavisne promenljive, tj. da li postoji veza.
~ Odrediti koji deo varijabiliteta zavisne promenljive moe biti objanjen
nezavisnim promenljivim, tj. jaina veze.
~ Odrediti strukturu veze.
~ Predvideti vrednosti zavisne promenljive.

Glavne vrste viestruke regresije


Standardna
Hijerarhijska
Postepena

~ Standardna Kod njega se sve nezavisne promenljive unose istovremeno u model.


~ Hijerarhijski linearni modeli ( ili viestepena regresija ) organizuje podatke u hijerarhiji
regresija. Na primer , gde je A regresovano od B , a B je u zavisnosti od C. esto se koristi
kada podaci imaju prirodnu hijerarhijsku strukturu , kao to je u sluajevima statistika
vezanih za obrazovanje, gde su uenici grupisani u uionicama , uionice po kolama , a
kole su uklopljene u nekoj upravnoj jedinici, kao to je kolski okrug ili grad. Promenljiva
odgovora moe biti merilo postignua uenika za rezultat testova, pa razliite
podpromenljive e prikupljati na nivoima uionica, kola i na posmatranom podruju.
Kod ovog modela istraiva sam zadaje kojim redosledom se nezavisne promenljive
ukljuuju u model.
~ Postepena regresija (sekvencijalno ispitivanje) je statistiki metod u kom veliina baze
nije fiksna unapred. Umesto toga podaci se obrauju kako se prikupljaju i dalje ispitivanje
se zaustavlja u skladu s unapred definisanim pravilom, im se dosegne znaajni rezultat.
Dakle, zakljuak moe ponekad biti postignut u mnogo ranijoj fazi nego to bi to bilo
mogue ostalim tipovima regresije. Kod ovog modela se na osnovu statistikih kriterijuma
odluuje koje promenljive i kojim redosledom se ukljuuju u model.

ANALYZE > REGRESSION > LINEAR...

Primer viestruke linearne regresije - SPSS

Opis koriene baze:


~ Baza se sastoji iz 6 promenljivih
1.

VO2max Maksimalni kapacitet izdrljivosti tokom vebanja, indikator za


fitnes

2.

age - Godine ispitanika

3.

weight - Teina ispitanika

4.

heart_rate - Otkucaji srca

5.

gender Pol ispitanika

6.

caseno Broj ispitanika

~ Promenljiva caseno nam slui za brisanje autlajera, ako na njih naiemo tokom
ispitivanja. Nain na koji vrimo brisanje se vri postavljanjem poetnih
pretpostavki.

Cilj ispitivanja:
~ elja je predvideti promenljivu VO2max, indikator zdravlja i fitnes sposobnosti. S
obzirom da bi za ovo istraivanje bilo potrebno mnogo novca i laboratorijske
opreme gde bi ispitanici vebali do granice iscrpljenja, koja ak moe biti opasna
po zdravlje, ovu promenljivu emo predvideti na jeftiniji nain. U istraivanju je
uestvovalo 100 uesnika, kojima su zabeleene vrednosti date u bazi.

Potrebne pretpostavke:
1.

Vrednosti promenljivih treba da se nalaze u nekom kontinualnom opsegu.

2.

Potrebne su 2 ili vie promenljivih.

3.

Opservacije moraju biti nezavisne.

4.

Mora postojati linearna zavisnost


promenljive, ili grupe istih.

izmeu zavisne i bilo koje nezavisne

5.

Podaci moraju biti slini kako se kreemo kroz bazu homogenost.

6.

Baza ne sme imati vie meusobno zavisnih promenljivih.

7.

8.

Baza ne treba da ima previe autlajera, vrednosti koje mnogo iskau ili take koje
ak i previe utiu na istraivanje.
Reziduali (greke) treba da budu priblino normalno raspodeljeni.

Postupak regresije:

1.

U ovom delu nam se otvara prozor gde sa leve strane vidimo prikaz promenljivih, a sa
desne izbor za nezavisne i zavisnu promenljivu.

2.

S obzirom da elimo da predvidimo promenljivu VO2max, nju biramo za zavisnu, a u


opciji za zavisne stavljamo sve ostale promenljive, kao to je prikazano na slici.

3.

~ Napomena1: Primer ilustruje standardnu viestruku regresiju, tako da dugmad


Previous i Next ignoriemo, jer oni slue za postepenu i hijerarhijsku regresiju.
~ Napomena2: Ako iz bilo kog razloga, metod Enter nije selektovan, potrebno je
vratiti se na njega, jer je to SPSS ugraen metod upravo za standardnu regresiju.

Pritiskom na dugme Statistics, otvara nam se prozor sa slike ispod. Odreeni checkbox- ovi su ve selektovani, obzirom da elimo da procenimo vrednost, tj. da fitujemo
model, ostaviemo tako kako ve i jeste.

4.

U ovom delu emo jo selektovati i check-box za intervale poverenje i ostaviti 95%-ni interval.
Sa desne strane prozora moemo ukljuiti i opciju parcijalne korelacije, kao i dijagnostiku za
meusobnu zavisnost promenljvih, koju smo pomenuli u pretpostavkama.

5.

Takoe smo u pretpostavkama spomenuli i reziduale, i u ovom delu moemo primeniti


Durbin-Watson- ov test, koji nam govori o nezavisnosti istih. I ostalu dijagnostiku, npr.
za autlajere, moemo ovde selektovati.

6.
7.

Klikom na dugme Continue vraamo se na prozor


Linear Regression.

Nakon toga klikom na dugme Ok dobijamo output


vrednost.

Analiza rezultata i izvetaj


SPSS e generisati na izlazu nekoliko tabela. Od njih emo prokomentarisati 3
koje su nam potrebne za interpretiranje rezultata podrazumevajui da su
pretpostavke zadovoljene.
1. Provera da li je model dobar:
~ Sledea tabela, Model Summary, se sastoji iz 4 vrednosti:

Kolona R predstavlja vrednost koeficijenta viestruke korelacije. On slui da bi se


odredio kvalitet predvianja zavisne promenljive, u ovom sluaju VO2max.
Vrednost 0,76 predstavlja dobar nivo predvianja.
Kolona R Square predstavlja koeficijent odluivanja, tj. proporciju disperzije
zavisne promenljive koja se moe objasniti nezavisnom. Naa vrednost 0,577
predstavlja 57,7% varijabiliteta zavisne promenljive koji moe biti objanjen
nezavisnim promenljivima, tako da je jaina veze jaka.

2. Znaajnost testa:
F-vrednost u ANOVA tabeli, koja je prikazana ispod, testira da li je regresioni model
dobar za ove vrednosti. Tabela pokazuje da nezavisne promenljive dobro statistiki
predviaju zavisnu promenljivu. Drugim reima, regresioni model je dobar.

F(4,95) = 32,392, p<0.05.

3. Ocene koeficijenata modela:


VO2max = 87.83 (0.165 x age) (0.385 x weight) (0.118 x heart_rate) + (13.208 x gender)

Iz tabele vidimo da je koeficijent za godine negativan, to nam govori da je regresija


obrnuta, odnosno sa veim brojem godina, slabija joj je fitnes sposobnost. Isto vai i za
telesnu teinu i otkucaje srca.

4. Znaaj nezavisnih promenljivih u testu:


Testom moemo proveriti koliko je znaajna svaka nezavisna promenljiva u naem
modelu. Ako je p <0,05, zakljuujemo da je koeficijent statistiki znaajno razliit od 0,
tj. da je odgovarajua promenljiva potrebna u istraivanju.
Vrednost statistike i odgovarajua p-vrednost se nalaze u kolonama t i Sig.,
respektivno, kao to je obojeno u sledeoj tabeli.

Zakljuak: Sve promenljive su bitne!

Primer vrednosti predviene modelom


~ Na osnovu jednaine linearne regresije koju nam je model obezbedio moemo
za bilo koje proizvoljne vrednosti nezavisnih promenljivih predvideti, odnosno
izraunati vrednost zavisne promenljive.
Npr. Osoba A, enskog pola, ima 23 godine, telesnu masu 140lbs i 57 otkucaja
srca po minuti.
VO2max =
= 87.83 (0.165 x age) (0.385 x weight) (0.118 x heart_rate) + (13.208
x gender) =
= 87.83 (0.165 x 23) (0.385 x 140) (0.118 x 57) + (13.208 x 1) = 36,617
Moemo zakljuiti da osoba A ima nii koeficijent zdravlja i fitnesa.

Ostale metode linearne regresije


Metode zapravo kontroliu nain na koji se promenljive ukljuuju u proces regresije.
Veoma esto znamo koje od promenljivih elimo da ukljuimo u regresiju i tada emo
koristiti prethodno opisan model Enter, koji je ujedno i osnovni.
Osim ovog metoda, nekoliko drugih metoda je dostupno za izgradnju modela i oni
kontroliu koje e promenljive i na koji nain biti ubaene. Postoji mogunost i
kombinovanja metoda. Glavni cilj je odrediti najbolji podskup promenljivih koje
objanjavaju zavisnu promenljivu.

Spisak metoda:
~Enter
~Stepwise
~Backward
~Forward
~Remove (Sve promenljive u bloku se istovremeno uklanjaju.)

Stepwise methods - Postepena metoda


Stepwise metode ukljuuju ili uklanjaju jednu nezavisnu promenljivu na svakom
koraku, temeljeno (po defaultu) na p-vrednosti (verovatnoa od F). Alternativno,
moe se koristiti i vrednosti F umesto njegove verovatnoe. Ogranienja za
kriterijume koji kontroliu ukljuivanje ili uklanjanje promenljive mogu se dodatno
precizirati kao F-to-enter/F-to-remove. Ovo moemo promeniti u prozoru Options,
kao to se vidi na sledeoj slici.

Na raspolaganju su nam tri metode za postepenu regresiju:


~ Stepwise Na osnovu p-vrednosti od F, SPSS poinje ukljuivanjem promenljive sa
najmanjom p-vrednosti, u sledeem koraku ubacuje promenljivu s najmanjom pvrednosti za F iz preostalog skupa promenljivih i tako dalje. Promenljive koje su ve u
jednaini zavisnosti se uklanjaju ako im p-vrednost postane vea od zadate granice zbog
ukljuivanja druge promenljive. Postupak se zavrava kada nema vie promenljivih
koje su podobne za ukljuivanje ili uklanjanje. Ova metoda temelji se na obe:
verovatnoe za unos (PIN) i verovatnoe za uklanjanje (POUT) (ili alternativno FIN i
FOUT).
~ Backward - Eliminacija: Prvo sve promenljive ulaze u jednainu, a zatim se redom
uklanjaju. Za svaki korak SPSS nudi statistiku, pod nazivom R2. Na svakom koraku,
najvea verovatnoa za F se uklanja (ako je vrednost vea od POUT). Alternativno,
FOUT moe biti navedeno kao kriterijum.
~Forward Odabir unapred: Na svakom koraku promenljive koje jo nisu u jednaini, a
imaju najmanju p-vrednost za F se dodaju, ali pod uslovom da je ta vrednost manja od
PIN. Alternativno, koristi se vrednost F postavljanjem FIN na /CRITERIA. Postupak se
zaustavlja kada vie nema promenljive koja zadovoljavaja kriterijum za ulaz.

Kartica Plot
Kartica Plot slui za crtanje grafika u
SPSS-u. Sa leve strane otvorenog
prozora na slici nalaze se opcije za grafik
predvienih vrednosti i reziduala:
~DEPENDNT - zavisna promenljiva.
~*ZPRED - standardizovana predviena
vrednost zavisne promenljive.
~*ZRESID - standardizovani reziduali.
~*DRESID - izbrisani reziduali, za
sluaj kada su iskljueni iz rauna za
regresiju.
~*ADJPRED korigovane predviene
vrednosti, predviene vrednosti za sluaj
kada su reziduali iskljueni iz rauna za
regresiju.
~*SRESID reziduali na osnovu
studentove raspodele.
~*SDRESID izbrisani reziduali na
osnovu studentove raspodele.

~ Sa desne strane prethodnog prozora biramo promenljive za X i Y osu eljenog


grafika.
~ Konano, prua nam se i mogunost izbora vrste grafika: Histogram ili Normal
probability plot (prua nam uvid u bliskost/odsutpanje u odnosu na normalnu
raspodelu).
~ Vrlo poeljna mogunost je ekirati Produce all partial plots, to nam daje uvid
u vie pojedinanih grafika po eljenim uslovima/promenljivima.

Kartica Save
U ovoj kartici nude nam se opcije za kontrolu
oblika u kom e nam se prikazati predviene
vrednosti, reziduali, rastojanja, bitne statistike
i intervali predvianja.
U nastavku e biti objanjeno znaenje svake
ponuene opcije.

Neki termini u SPSS-u


Merenje udaljenosti (razlika)
1.Mahalanobis: Mera razlike posmatrane vrednosti od prosene vrednosti itave
zavisne promenljive.

2.Cook je: Mera koliko e se reziduali svih vrednosti promeniti ako se posmatrana
vrednost iskljui iz rauna.
3. Leverage Values: Mera koliko mnogo posmatrana vrednost utie na fitovanje
regresionog model.

Termini za reziduale:
1. Unstandardized: Vrednost zavisne promenljive minus njegova predviena vrednosti .
2. Standardized: Reziduali podeljeni procenom njihove standardne greke.

3. Studentized: Reziduali podeljeni procenom njihove standardne greke koja varira od


sluaja do sluaja, na osnovu rastojanja posmatrane vrednosti nezavisne promenljive od
njene srednje vrednosti.
4. Deleted: Reziduali, kod kojih su vrednosti tog sluaja iskljuene iz rauna koeficijenata
regresije.
5. Studentized deleted: Izbrisani reziduali podeljeni procenom njihove standardne greke.

Bitne statistike:
1. DfBeta: Nova promenljiva za svaki pojam u regresijskom modelu, ukljuujui i konstantu,
koja sadri promenu koeficijenta za taj izraz, ako je trenutna vrednost izostavljena iz
kalkulacije.
2. Standardized DfBeta: Nova promenljiva za svaki pojam u regresijskom modelu,
ukljuujui i konstanta, koja sadri vrednost DfBeta podeljenu procenom njegove standardne
greke.
3. DfFit: Promena u predvienoj vrednosti zavisne promenljive ako je trenutna vrednost
izostavljena iz rauna.
4. Standardized DfFit: DfFit vrednost podeljena procenom njene standardne greke.
5. Covariance Ratio: Determinanta kovarijacione matrice gde je trenutna vrednost iskljuena
iz rauna, podeljena determinantom matrice gde je ta vrednost ukljuena.

Jelena Ljuboja

Jovana Dubljanin
Maa Obradovi
Milan Ljuboja

You might also like