Professional Documents
Culture Documents
Logistička Regresija I Regresija Sa Binarnom Zavisnom Varijablom
Logistička Regresija I Regresija Sa Binarnom Zavisnom Varijablom
EKONOMSKI FAKULTET
Smjer: Finansije,bankarstvo i osiguranje
Akademska 2011/2012 godina
TEMA:
Profesor: Studenti:
Dr.sc. Tunjo Perić Mirnesa Žilić I-1986/08
Adisa Isić I-2012/08
Eldina Zukić I-2004/08
Selma Ahmičević I-2037/08
Tuzla, april 2012. godine
SADRŽAJ
UVOD.........................................................................................................................................3
ZAKLJUČAK..........................................................................................................................44
LITERATURA........................................................................................................................46
2
UVOD:
U prvom dijelu rada upoznati ćemo vas sa pojmom logističke regresije, teriminima koji se
koriste,ciljevima logističke regresije, binarnom zavisnom varijablom,uzorcima koje analizira
logistička regresija te pretpostavkama i procjenom modela logističke regresije.
Drugi dio rada se odnosi na procjenu koeficijenata u logističkoj regresiji te procjenu modela
logističke regresije i cjelokupnog modela prilagođavanja te sadrži analizu Pseudo mjera.
Četvrti dio je ilustrativan prikaz primjene logističke regresije gdje se vrši prikaz logističke
regresije kroz sve faze od procjene modela do interpretacije i vrednovanja rezultata.
Peti dio našeg rada se odnosi na konkretne primjere logističke regresije i regresije sa zavisnom
binarnom varijablom.
3
1. POJAM LOGISTIČKE REGRESIJE
Y1 = X1 + X2 + X3 +.........+ Xn
Logistička regresija ima sličnu primjenu u situacijama gdje je primarni cilj identifikovati grupu
gdje objekat (osoba firma ili proizvod) pripada. Potencijalne primjene uključuju predviđanje
bilo čega gdje je rezultat binaran (da/ne). Takve situacije uključuju uspjeh ili pad novog
proizvoda,odlučujući da li osobi treba dodijeliti kredit ili predviđajući da li će firma biti
4
uspješna. U svakom slučaju,objekat spada u jednu od 2 grupe, i cilj je predvidjeti i objasniti
baze tj. osnove za svakog člana grupe pomoću seta nezavisnih varijabli koje bira istraživač.
Pogođeni omjer (Hit ratio) – procent objekata (pojedinci,odgovorna lica,firme itd.) tačno
klasifikovani pomoću modela logističke regresije. To je izračunato kao broj objekata u
dijagonali klasifikacione matrice podijeljene pomoću ukupnog broja objekata. Takođe poznat
kao tačno klasifikovani procent.
5
komponentu,vjerovatnoće njihovog približavanja nižim ili višim granicama vjerovatnoće (0 ili
1) moraju se izjednačiti i postati asimptotične ovim granicama.
Mogućnosti -omjer mogućnosti događaja koji se dešava naspram mogućnosti događaja koji se
ne dešava, koji se ne koristi kao mjera zavisne varijable u logističkoj regresiji
.
Tačno klasifikovani procent- Pogođeni omjer.
Pseudo R2 - vrijednost modela koji može biti izračunat za logističku regresiju uporedivu za R2
mjeru koja se koristi u višestrukoj regresiji.
Varijabla- linearna kombinacija koja predstavlja zbir dvije ili više nezavisne varijable koje
obuhvataju diskriminacionu funkciju. Takođe se zove linearna kombinacija ili linearni dodatak.
6
je procijenjen više kao diskriminaciona analiza pomoću prvog pogleda na statističko značenje
modela i onda određivanja predviđajuće vjerodostojnosti pomoću razvijanja klasifikacione
matrice. Onda poprimanjem jedinstvene prirode transformisane jedinstvene zavisne varijable,
logističkim koeficijentima je dana njihova orginalna skala, koje su u logaritamskim terminima, i
transformisana skala koja je interpretirana više kao regresioni koeficijent. Svaki oblik
koeficijenta detaljiše određenu karakteristiku nezavisnog varijacionog uticaja. Konačno,
logističko regresioni model bi trebao biti potvrđen sa holdout uzorkom.
Logistička regresija je identična diskriminacionoj analizi u terminima glavnih ciljeva koje može
imenovati. Logistička regresija je najbolje smještena u imenovanju dva istraživačka cilja:
• identifikovanje nezavisnih varijabli koje utiču na grupno članstvo u zavisnim
varijablama
• uspostavljanje klasifikacionog sistema baziranog na logističkom modelu za određivanje
grupnog članstva
Prvi cilj je prilično sličan osnovnim ciljevima diskriminacione analize i čak višestruka regresija
u tom naglašavanju je smještena na objašnjavanju grupnog članstva u terminima nezavisnih
varijabli u modelu. U klasifikacionom procesu logistička regresija, kao diskriminaciona
analiza, pruža osnovu za klasifikovanje ne samo uzorka korištenog za procjenu diskriminacione
funkcije nego i za bilo koje druge opservacije koje mogu imati vrijednosti za sve nezavisne
varijable. Na ovaj način,analiza logističke regresije može klsifikovati druge opservacije u
definisane grupe.
Logistička regresija ima nekoliko jedinstvenih obilježja koja utiču na istaživački dizajn. Prvo je
jedinstvena priroda binarne zavisne varijable koja utiče na model specifikacije i procjenjivanja.
Drugo obilježje je povezano sa veličinom uzorka,na koji utiče nekoliko faktora,među kojim je
upotreba maksimalne vjerovatnoće kao procjenjujuće tehnike kao i potreba za procjenjivanje i
holdout uzorcima kao što je diskriminaciona analiza.
7
sa 0. tada, koeficijenti predstavljaju uticaje na vjerovatnoću uspjeha. Vrlo
jednostavno,kodovi bi mogli biti obrnuti (kod 1 označava pad) i koeficijenti
predstavljaju sile povećavanja vjerovatnoće pada.
Zato što binarna zavisna varijabla ima samo vrijednosti 0 i 1 predviđajuća vrijednost
(vjerovatnoća) mora biti vezana da bude samo u tom rangu. Da bi se definisao odnos vezan sa
0 i 1 logistička regresija koristi logističku krivu da bi predstavila odnos između nezavisnih i
zavisnih varijabli (vidi sliku 1). Na veoma niskim nivoima nezavisne varijable,vjerovatnoća
dosiže do 0,ali nikad je ne dostigne. Slično sa porastom nezavisne varijable,predviđajuće
vrijednossti povećavaju krivu ali onda nagib počinje opadati tako da na bilo kojem nivou
nezavisne varijable vjerovatnoća će dosegnuti do 1.0 . Linearni modeli regresije ne mogu se
uklopiti u takav odnos zato što je to nelinearan odnos. Linearni odnos regresije,čak i sa
dodatnim uvjetima transformacija za nelinearne efekte nemogu garantovati da će predviđajuće
vrijednosti ostati u dometu 0 i 1.
Binarna priroda zavisne varijable (0 ili 1) ima svojstva koja narušavaju pretpostavke višestruke
regresije. Prvo, nepravilni izraz diskretne vartijable prati binomijalnu distibuciju umjesto
normalne distribucije, time ne potvrđujući sva statistička testiranja bazirana na pretpostavkama
normalnosti. Drugo,varijacija dihotomne varijable nije konstantna. Logistička regresija je
razvijena specifično za susretanje sa ovakvim stavkama. Njen jedinstveni odnos između
zavisnih i nezavisnih varijabli zahtijeva različit pristup u procjenjivanju varjable,i
interpretiranju koeficijenata kada su poređeni sa višestrukom regresijom.
Veličina uzorka
8
Logistička regresija kao svaka druga multivarijaciona tehnika mora posmatrati veličinu uzorka
koji se analizara. Vrlo mali uzorci imaju tako mnogo nedostataka da identifikacija svih osim
najvećih razlika je nemoguća. Veoma velike veličine uzorka povećavaju statističku snagu tako
da bilo koja razlika, bilo praktično relevantna ili ne,će biti razmatrana kao statistički značajna.
Većina istraživačkih situacija spada negdje između ovih ekstrema što znači da istraživač mora
razmatrati uticaj veličina uzorka na rezultate,i na nivou i na grupa po grupa osnovi.
Prvi aspekt veličine uzorka je ukupna veličina uzorka potrebna za adekvatnu podršku
procjenjivanja logističkog modela. Jedan faktor koji razdvaja logističku regresiju od ostalih
tehnika je upotreba maksimalne vjerovatnoće (MLE) kao tehnike procjenjivanja. MLE zahtijeva
veće uzorke,takve da sve stvari budu jednake. Logistička regresija će zahtijevati veću veličinu
uzorka od višestruke regresije npr., Hosmer i Lemešov preporučuju veličine uzorka veće od
400(4). Štaviše istraživač bi trebao uveliko razmotriti podjelu uzorka na analizu i hold out
uzorke kao sredstva potvrđivanja logističkog modela. U pravljenju ovog razdvajanja uzorka,
potrebe veličine uzorka i dalje stoje za oboje, i analizu i hold out uzorke razdvojeno tako
efektivno udvostručavajući ukupnu potrebnu veličinu uzorka baziranu na specifikaciji modela
( procjene broja parametara).
Drugo razmatranje je da je veličina uzorka važna, ali takođe da je veličina uzorka po grupi
zavisne varijable. Kao što smo diskutovali za diskriminacionu analizu postoje razmatranja na
minimalnoj grupnoj veličini. Preporučena veličina uzorka za svaku grupu je najmanje 10
opservacija po procijenjenom parametru. Ovo je mnogo veće nego višestruka regresija koja je
imala minimalno 5 opservacija po parametru, i koja je bila za ukupni uzorak,a ne za veličinu
uzorka za svaku grupu, kao što je sa logističkom regresijom.
9
i kada eksponencijalni i polinomijalni termini nisu eksplicitno dodati kao dodatne nezavisne
varijable zbog logističkog odnosa.
Jedna od posebnih karakteristika logističke regresije jeste da je njena upotreba logističkih veza
opisana unaprijed kod obje procjene, procjene logističkog modela i procjene povezanosti
između zavisnih i nezavisnih varijabli. Jednistvena je transformacija zavisne varijable, što utiče
ne samo na proces ukupne procjene, već i na rezultat koeficijenta za nezavisnu varijablu.
Logistička regresija takođe omogućava pristup za procjenu modela prilagođenog podacima
( overall model fit)1 sa obje diskriminantne analize i višestruku regresiju.
Kao što smo ranije rekli, logistički model koristi specifičan oblik logističke krive, koja je u
obliku slova S, unutar intervala od 0 do 1. Da bi procijenili model logističke regresije, ova kriva
predvidljivih varijabli je prilagođena stvarnim podacima, kao što je slučaj kod linearnih veza u
višestrukoj regresiji. Međutim, pošto stvarni podaci za zavisnu varijablu mogu biti jedino u
intervalu od 0 do 1, postupak je nešto drugačiji.
Slika 2 pokazuje dva hipotetička primjera odgovarajućih logističkih veza prema uzorku
podataka. Stvarni podaci reprezentuju događaj, desio se on ili ne, dodjeljivanjem vrijednosti, ili
1 ili 0, ishodima događaja ( u slučaju kad se događaj desio dodjeljuje se vrijednost 1, tj. 0 u
suprotnom slučaju). Zapažanja su predstavljena tačkicama na vrhu, odnosno na dnu grafikona.
Ovi ishodi ( desili se oni ili ne) javljaju se na svakoj vrijednosti nezavisne varijeble ( x-osa). U
prvom slučaju (a), logistička kriva se ne uklapa dobro u podatke, jer broj vrijednosti nezavisne
varijable ima oba ishoda ( 1 i 0). U ovom slučaju nezavisna varijabla ne razlikuje ova dva
ishoda, što i pokazuje visoko preklapanje dviju grupa.
Međutim, u drugom dijelu (b), puno više dobro-definiranih veza bazirano je na nezavisnim
varijablama. Niže vrijednosti nezavisne varijable odgovaraju vrijednosti 0 za zavisnu varijablu,
dok veće vrijednosti nezavisne varijable odgovaraju zapažanjima vrijednosti od 1 zavisne
varijable.
1
Logistički regresioni model prilagođen podacima, nazivamo fitovanim. Interpretacija fitovanog modela
porazumijeva izvođenje zaključaka na osnovu ocijenjenih koeficijenata u modelu.
10
Slika 2
Ali kako predvidjeti grupno članstvo iz ovih logističkih krivi? Za svako posmatranje tehnika
logističke regresije predviđa vjerovatnoću vrijednosti od 0 do 1. Ucrtavanje vrijednosti
vjerovatnoće za sve vrijednosti nezavisne varijable formira krivu prikazanu na slici 2. Ova
predvidljiva vjerovatnoća je bazirana na vrijednosti nezavisne varijable i procijenjenih
koeficijenata. Ako je vjerovatnoća veća od 0.50, tada je vjerovatnoća da će ishod biti 1,
odnosno, ishod je predviđen na vrijednost 0.
11
U dijelu (a) i (b) slike 2, vrijednost od 6.0 za x (nezavisna varijabla odgovara vjerovatnoći od
0.50). U dijelu (a) možemo vidjeti da broj zapažanja od obje grupe opada s obje strane ove
vrijednosti, rezultirajući većim brojem grešaka.
Greške su najaviše primjetne za grupu sa vrijednostima od 1, ali, čak i nekoliko zapažanja u
drugoj grupi je pogrešno ( zavisna varijabla 0.0). U dijelu (b) pravimo savršenu klasifikaciju od
obje grupe koristeći vjerovatnoću vrijednosti od 0.50, kao graničnu vrijednost.
Tako, tako sa procijenjenom logističkom krivom možemo procijeniti vjerovatnoću za bilo koje
zapažanje bazirano na vrijednostima za nezavisnu varijablu i predvidjeti grupno članstvo
koristeći 0.50 kao graničnu vrijednost. Jednom kada imamo predviđeno članstvo možemo
kreirati matricu, kao što smo uradili za analizu diskriminante i procijeniti predvidljivu tačnost.
12
2. PROCJENA KOEFICIJENATA U LOGISTIČKOJ REGRESIJI
Kako nastaje kriva? U višestrukoj regresiji, mi procjenjujemo linearnu povezanost koja najbolje
odgovara podacima. U logističkoj regresiji, pratimo isti proces predviđanja zavisne varijable
prema slučajnoj varijabli sastavljenoj od logističog koeficijenta i odgovarajućih nezavisnih
varijabli. Razlika je da u logističkoj regresiji predviđena vrijednost ne može biti izvan intervala
od 0 do 1. Iako kompletna diskusija o konceptualnim i statističkim problemima uključenim u
proces procjene, je izvan polja ove problematike.
Kao i kod višestruke regresije, logistička regresija predviđa metrički zavisne varijable, u ovom
slučaju vjerovatnoća varijable je ograničena na interval između 0 i 1. Ali kako možemo biti
sigurni da procijenjena vrijednost ne padne izvan vrijednosti ovog intervala? Postupak
logističke transformacije provodi se kroz dva koraka.
Naredna tabela prikazuje neke tipične vrijednosti vjerovatnoće i povezanost koeficijenata (odds)
i logoritmovane vrijednosti koeficijenta (log odds values).
13
Vjerovatnoće Mogućnosti logit
vrijednosti
0.00 0.00 NI
0.10 0.111 -2.197
0.30 0.428 -0.847
0.50 1.000 0.000
0.70 2.333 0.847
0.90 9.000 2.197
1.00 NI
NI
NI = nemoguće izračunati
Sa logit vrijednostima , dobijamo graničnu varijablu koja može imati obje vrijednosti, i
pozitivnu i negativnu, koja uvijek može biti trasnsformisana u vrijednosti vjerovatnoće u
intervalu od 0 do 1. Ustvari, logit vrijednost nikada nemože dostići tačnu vrijednost od 0 ili 1.
Ova vrijednost sad predstavlja zavisnu varijablu modela logističke regresije.
Jednom kada ustanovimo kako interpretirati vrijednosti ili mogućnosti ili logit mjere, možemo
pristupiti njihovom korištenju kao zavisnih mjera u logističkoj regresiji. Postupak procjene
logističkih koeficijenata je sličan kao kod regresije, osim što se u ovom slučaju koriste samo
dvije vrijednosti za zavisnu varijablu (0 i 1). Umjesto korištenja uobičajnih najmanjih kvadrata
kao sredstva procjene modela, koristit ćemo metodu maksimalne podudarnosti.
Procijenjeni koeficijenti nezavisne varjable su utvrđeni korištenjem ili logit vrijednosti ili
vrijednosti koeficijenata kao zavisne varijable. Formule za svaki od ovih modela dati su u
nastavku:
Formule za oba modela su ekvivalentne, ali od izbor između ove dvije formule odražava se i na
procjenu koeficijenta. Mnogi softverski programi omogućavaju izračunavanje logističkih
koeficijenata pomoću obje formule.Ovaj proces može smjestiti jednu ili više nezavisnih
varijabli, i nezavisna varijabla može biti metrička ili ne (binarna).
Višestruka regresija koristi metodu najmanjih kvadrata, što minimizira sumu kvadratnih
odstupanja između stvarne i predviđene vrijednosti zavisne varijable. Nelinearna priroda
logističke transformacje zahtjeva druge procedure, procedure maksimalne podudarnosti, koja se
koristi kao alternativni način za pronalaženje najvjerovatnijih procjena za koeficjente. Umjesto
minimiziranja kvadratne devijacije, logistička regresija maksimizira podudarnosti dešavanja
određenog događaja. Vrijednost podudarnosti umjesto sume kvadrata koristi mjere
prilagođavajućeg modela. Korištenje alternativne tehnike procjene takođe zahtijeva da se
procijenjeni model uklapa na različite načine.
14
2.1.3. Ocjena prilagođenosti za procjenu modela
Prilagođavanje za logistički model može biti ocijenjeno na dva načina. Prvi način ocjene
modela je korištenje “pseudo” R² vrijednosti, slične onoj kod višestruke regresije. Drugi pristup
ocjene je ispitivanje predvidljive tačnosti. Dva prostupa ispitivanja modela odgovaraju
različitim pogledima, ali daju slična rješenja.
Osnovna mjera koja pokazuje kako dobro procjena maksimalne podudarnosti odgovara
podudarnoj vrijednosti, slična je sumi kvadrata korištenoj kod višestruke regresije. Mjere
procjene modela logističke regresije odgovara dvostrukoj vrijednosti logoritamske podudarnosti
-2LL ( 2 log likelihood). Minimalna vrijednost za 2LL je 0, što odgovara savršenom
prilagođavanju ( likelihood = 1 i – 2LL iznosi 0). Što je niža vrijednost -2LL, bolji je model
više prilagođen. Vrijednost -2LL možemo koristiti za upoređivanje jednačina u promjenama
prilagođavajućeg modela modela ili izračunavanje mjera uporedivih sa R² mjerama u
višestrukoj regresiji.
Na sličan način, bilo koja dva predložena modela mogu biti uspoređivani. U tom slučaju, -2LL
razlike utiču na razlike u modelu prilagođavanja zbog različitih specifičnosti modela. Na
primjer, model sa dvije nezavisne varijable može se upoređivati sa modelom sa tri nezavisne
varijable za procjenu poboljšanja dobivenih dodavanjem jedne nezavisne varijable. U ovakvim
slučajevima, jedan model je označen kao nulti model i komparira se sa drugim modelom.
Hi-kvadrat test i slični testovi za statističku značajnost su korišteni da procijene smanjenja LL
vrijednosti. Ovi testovi su naročito osjetljivi na veličinu uzorka ( manji uzorci su slabije
reprezentativni). Zbog toga istraživač mora biti posebno pažljiv kod donošenja zaključaka
baziranih jedino na značajnosti Hi-kvadrat testa u logističkoj regresiji.
15
2.2. Pseudo R² mjere
Kao i kod višestruke regresje, logit R² vrijednost se kreće u intervalu od 0.0 do 1.0. Kako
predloženi model povećava prilagođeni model, vrijednost -2LL ga smanjuje. Svršen fit ima –
2LL vrijednost od 0.0 i R² LOGIT od 1.0.
Druge dvije mjere su slične vrijednosti pseudo R² i u suštini su kategorizovane kao pseudo R²
vrijednosti. Cox i Snell R² mjere djeluju na isti način, viskokim vrjednostima prikazuju
boljifitovan model. Ova mjera je ograničena na način da ne može dostići maksimalnu vrijednost
od 1, pa Nagelkerke predlaže modifikaciju koju nosi niz od 0 do 1. Obje dopunske mjere
odražavaju iznos varijacija procijenjenih logističkim modelom, gdje bi vrijednost 1.0
predstavljala savršen prilagođavajući model.
Tačnost predviđanja.
Kao što smo uzeli mjeru R2 iz regresije kao mjeru sveukupnog modela prilagođavanja, tako
možemo uzeti analizu diskriminante za mjeru tačnosti predviđanja. Dva najčešća pristupa su
klasifikaciona matrica i Hi-kvadrat test.
16
Hosmer i Lemeshow razvili su klasifikacioni test gdje su slučajevi najprije podijeljeni na
približno 10 jednakih kategorija. Onda, broj stvarnih i predviđenih događaja je upoređivan u
svakoj kategoriji sa Hi-kvadrat statistikom. Ovaj test omogućava sveobuhvatnu mjeru tačnosti
predviđanja koja nije bazirana na vrijednosti podudarnosti, već na stvarnim predviđanjim
zavisne varijable. Prikladno korištenje ovog testa zahtijeva uzorak veličine najmanje 50
slučajeva da bi bili sigurni da svaka klasifikacija ima najmanje 5 opažanja i generalno, čak i
veći uzorak zbog broja predviđenih događaja ne bi trebao pasti ispod 1. Hi-kvadrat test je
osjetljiv na veličinu uzorka, onemugućavajući mjerenje manjih statističkih značajnih razlika
kada je veličina uzorka poraste.
17
Kao što smo ranije naveli, rezultati modela logističke regresije u koeficijentima za nezavisne
varijable dosta sliče regresionim koeficijentima i poprilično se razlikuju od diskriminacione
analize.Većina dijagnostika vezanih za višestruku regresiju za utjecajna posmatranja su takođe
dostupni u logističkoj regresiji. Ono što ih razlikuje jeste interpretacija koeficijenata. Zbog
transformacije zavisne varijable u procesu opisanom ranije, koeficijenti moraju biti vrednovani
na specifičan način.
U nastavku ćemo pokazati na koji način svaka od ovih formi koeficijenata utiče na smijer i
dimenziju veza između nezavisnih varijabli, što zahtijeva različite metode interpretacije.
Smjer odnosa
Smjer odnosa odražava promjene u zavisnoj varijabli povezane sa promjenama u nizu varijabli.
Pozitivan odnos znači da je povećanje nezavisne varijable povezano sa povećanjem
18
vjerovatnosti i predvidnosti i obratno za negativni odnos. Tako se smjer odnosa ogleda
drugačije za izvorne i eksponencijalne logističke koeficijente.
Primjer tumačenja
Pogledajmo jednostavan primjer da se vidi šta mislimo u smislu razlike između dva oblika
logističkih koeficijenata. Bi ,ako je pozitivan, njegova transformacija će biti veća od 1, što znači
da će se povećati izgledi za pozitivne promjne u nezavisnoj varijabli. Tako će model imati veću
predviđenu vjerovatnost pojavljivanja. Isto tako, ako je Bi negativni eksponencijalni koeficijent
manji od 1.0 i on će biti smanjen.
U višestrukoj regresiji ,znali smo da je koeficijent regresije nagib lineranog odnosa zavisnih i
nezavisnih mjera. Naznačeno je da je koeficijent 1.35 zavisna varijabla i povećava se za 1.35
jedinicu svaki puta kad je nezavisna varijabla veća za jednu jedinicu. Kod logističke regresije
znamo da imamo nelinearni odnos ograničen između 0 i 1 pa je vjerovatno da će se koeficijenti
drugačije tumačiti.
19
Eksponencijalni koeficijenti izravno odražavaju veličinu promjene odnosa koeficijenata
vrijednosti. Budući da su eksponenti, oni se malo drugačije tumače. Njihov utjecaj je višestruk
što znači da se koeficijent efekta dodaje na zavisne varijable. Kao takav, eksponencijalni
koeficijent 1.0 označava nikakvu promjenu.( 1.0xnezavisna varijabla=bez promjene).Ovaj
rezultat odgovara našoj ranijoj raspravi gdje eksponencijalni koeficijenti manji od 1.0
odražavaju negativne promjene a veći od 1.0 pozitive odnose.
Sljedeći primjeri ilustriraju kako izračunati vjerovatnosti promjene zbog jedne jedinice
promjene nezavisne varijable za niz eksponencijalnih koeficijenata:
Vrijednosti
Eksponencijalni koeficijent (e *;) 20 50 1.0 1.5 1.7
Eksponencijalni Koeficijent - 1,0 -80 -50 0.0 50 70
Postotak promjene u omjerima -80% -50% 0% 50% 70%
Ako je eksponencijalni koeficijent 0,20, jedna jedinica promjena nezavisne varijable smanjuje
izglede za 89%. Isto tako,eksponencijalni koeficijent 1,5 označava 50%-tno povećanje u omjeru
vjerovatnosti.Istraživač koji zna postojeće koeficijente i ima želju za izračunavanjem
koeficijenata nove vrijednosti za promjene nezavisne varijable mogu to učiniti izravno preko
eksponencijalnih koeficijenata kako slijedi:
Kao što smo razgovarali u višestrukoj regresijsiji, „dummy“ varijable predstavljaju jednu
kategoriju od nemetričkih varijabli. Kao takvi, one nisu kao metričke varijable koje se razlikuju
u širokom rasponu vrijednosti,umjesto da budu samo na vrijednosti 1 i 0 što ukazuje na
prisutnost ili odsutnost karakteristikama. Eksponencijalni koeficijenti su najbolje sredstvo
za tumačenje utjecaja vještačkih varijabli.
20
Sličnost koeficijenata onima u višestrukoj regresijskoj je bio glavni razlog za
popularnost logističke regresije. Kao što smo vidjeli u prethodnoj raspravi, mnogi aspekti su
vrlo slični, ali jedinstvena priroda zavisne varijable i logaritamskog oblika varijable zahtijeva
nešto drugačiji pristup tumačenju . Istraživači još uvijek imaju sposobnost procjene smjera i
veličine svake nezavisne varijable o utjecaju na zavisnu mjeru.
Logistička regresija je najbolja metoda za dvije grupe binarnih zavisnih varijabli zbog svoje
jednostavnosti interpretacije a dijagnostika uzorka razmatranja za logističke regresije je
prvenstveno usmjerena na veličinu svake skupine, a uzorci trebaju biti ispunjeni.
Konačna faza u logističkoj regresiji je analiza osiguravanja vanjske kao i unutrašnje valjanosti
rezultata. Iako logistička regresija nije tako osjetljiva kao diskriminacijska analiza na
“preskakanja “ rezultata, proces validacije je još uvijek bitan,pogotovo sa manjim uzorcima.
Najčešći pristup za vanjsku valjanost je procjena omjera kroz hit ili poseban uzorak ili koristeći
postupak koji obrađuje procjenu uzorka.
Najčešći oblik validacije je stvaranje holdout uzorka (takođe se spominju kao valjanosti uzorka)
koja je odvojena od analize uzorka za procjenu modela. Cilj je primijeniti logistički model za
potpuno odvojen skup ispitanika za procjenu razine postignute tačnosti predviđanja.
Pristup ovome je križ valjanosti koji koristi varijantu holdout uzorka gdje test vanjske valjanosti
koristi više podskupova od ukupnog uzorka. Najrašireniji pristup je “nož na sklapanje “ koji se
temelji na : “ostaviti jednu van” principu.
Obično se analiza izvodi na k-1 poduzorku. Nakon što su svi poduzorci analizirani ,
klasifikacija matrica je izgrađena i pogođeni omjer se izračunava u svakom poduzorku.
21
Prije nego što proces procjene počne ,moguće je pregledati pojedine varijable i procijeniti
univarijatne rezultate u smislu razlika između skupina. S obzirom da su ciljevi diskriminacijske
analize i logističke regresije isti ,možemo koristiti iste mjere diskriminacije za procjenu
univarijatnih učinaka.
Ako smo ispitali razlike u dvije skupine na 13 nezavisnih varijabli, naći ćemo da je 5 varijabli
(X6, X11, X12, X13,i X17) imalo statističke značajne razlike između dvije skupine. Takođe
možemo očekivati multikolinearnosti među ovim varijablama jer obje X6 i X13 su bile faktor
vrijednosti proizvoda ,porijeklom od faktorske analize. Logistička regresija utiče na
multikolinearnosti nezavisnih varijabli na sličan način kao i kod diskriminacijske analize i
regrsijske analize.
Baš kao i kod diskriminacijske analize,ovih 5 varijabli će biti logični kandidati za uključenje u
logističku regresiju koja varira jer oni pokazuju najveće razlike između skupina. Logistička
regresija može sadržavati jednu ili više tih varijabli u modelu.
Procjenjuje se poput višestruke regresije u smislu da osnovni model prvi se procjenjuje kako bi
osigurao standard za usporedbu. Kod više struke regresije, srednja vrijednost se koristi za
postavljanje osnovnog modela i izračunavanje ukupnog broja kvadrata. Od ovog modela,
parcijalne koleracije za svaku varijablu mogu biti osnovane i najviše diskriminiraju varijablu
koja je izabrana u postupnom modelu u skladu sa kriterijima za odabir.
Tabela 1
22
Kartica e 2 sadrži rezultate za osnovni model logističke regresijske analize na temelju 60
posmatrača u analizi uzorka. Udruživanje koristi u logističkoj regresiji ,prema statističkim
rezultatima je mjera kojom se koriste za odabir varijabli u postupnom postupku.
Nekoliko kriterija mogu se koristiti za vođenje unosa:
-najveća smanjenja u ILL vrijednosti
-najveći koeficijent Wald,
-ili najviše uslovna vjerovatnost.
Kao što se očekivalo X13 je izabran za upis u prvi korak u procesu procjene.
Pregled rezultata, međutim, prepoznaje dva razloga za razmatranje dodatne faze za
dodavanje varijabli u modelu logističke regresije.
Prvo, tri varijable ne u tekućem logističkom modelu imaju statistički značajan rezultat što znači
da bi se njihovo uključivanje moglo znatno poboljšati u ukupnom modelu.
Drugo,ukupni pogođeni omjer za holdout uzorak je dobar,ali jedna od skupina ima
neprihvatljivo nizak pogođeni omjer od 30.8%.
Jedan ili više koraka u postupku će postepeno rezultirati uključivanjem svi nezavisnih varijabli
sa značajnim statističkim rezultatom kao i postizanje prihvatljivih pogođenih omjera i za
analizu uzoraka.
X17 sa najvise bodova nakon dodavanja statistike X13 izabran je za ulazak u drugom koraku.
Dvije varijable ,logistički model ,uključujući X13 i X17 će biti konačni modeli koji će se
koristiti za potrebe procjene modela fit.
23
U izradi procjene ukupnog nastupa u logističkom regresijskom modelu možemo izvući tri
pristupa:
• statističke mjere cjelokupnog prilagođenog modela
• R2 mjere,
• tačnost i klasifikacije
Svaki od tih pristupa će se istražiti za ne-varijable i dvije varijable logističkih regresijskih
modela koje su rezultirale u postupnom postupku.
Statističke mjere
Prva statistička mjera je Hi kvadrat test koji je uporediv sa ukupnim F testom u višestrukoj
regresiji.
Druga statistička mjera je Hosmer i Lehmeshow mjera. Ovaj statistički test
mjeri dopis od stvarnih i predviđenih vrijednosti zavisne varijable. U tom slučaju, bolji
model prilagođavanja je označen u manjoj razlici u opsluživanju i predviđanju u klasifikaciji.
24
Forma ukupnog modela : goodness-of-fit mjere
Promjene u -2LL
Iz osnovnog modela Iz prethodnog koraka
Klasifikacija matrica
Predviđanje članstva u grupi2
X4 regija X4 regija
2
Vrijednosti u zagradama su postotak ispravno klasificiranih (hit ratio)
3
73.3% od analize uzorka je ispravno klasificirano
4
75.% od holdout uzorka je ispravno klasificirano
25
članova S.Amerika S.Amerike total S.Amerika S.Amerike total
SAD/ 19 7 26 4 9 13
S.Amerika (73.1) (30.8)
Van 9 25 34 34 26
S.Amerike (73.5) (96.3) 27
26
Predviđanje članstva u grupi5
X4 regija X4 regija
Van 6 28 34 2 25 27
S.Amerike (82.4) (92.6)
Hosmer i Lemeshow-ov test pokazuje značaj za logistički model jedne varijable ( .027 iz tabele
3), što i dalje znači značajne razlike između stvarne i očekivane vrijednosti. Međutim, model s
dvije varijable smanjuje razinu signifikantnosti na 722 ( iz tabele 4), nesignifikantna vrijednost
ukazuje na to da je forma modela prihvatljiva. Za logistički model sa dvije varijable , obje
statistički utemeljene mjere cjelokupnog modela pokazuju da je model prihvatljiv i na statistički
značajnoj razini. Potrebno je, međutim, ispitati i druge mjere ukupnog modela da se ocijeni da
li su rezultati dobri za praktično značenje.
Tri raspoložive mjere su usporedive sa R2 mjerom u multiploj regresiji: Cox i Snell R2,
Nagelkerke R2 i pseudo R2 mjera zasnovana na smanjenju -2LL vrijednosti. Za model
logističke regresije sa jednom varijablom to su vrijednosti .342, .459 i .306, respektivno. U
kombinaciji, oni pokazuju da regresijski model sa jednom varijablom čini jednu trećinu
varijacija u zavisnoj mjeri. Iako se model sa jednom varijablom smatra statistički značajnim, R2
mjere su slabe za potrebe praktičnog značenja.
Model sa dvije varijable ima R2 vrijednosti svaku veću od .50, što znači da model logističke
regresije iznosi najmanje jednu polovinu razlike između dvije skupine kupaca. One će uvijek
željeti poboljsati ove vrijednosti, ali ta razina se smatra praktično značajnom u ovoj situaciji. R2
vrijednosti modela sa dvije varijable su pokazale materijalno poboljšanje nad modelom sa
jednom varijablom. Zajedno sa statistički utemeljenim mjerama modela, model se smatra
prihvatljivim kako u smislu statističke tako i u smislu praktične važnosti.
Klasifikacija tačnosti.
Treći pregled cjelokupnog modela će biti procjena tačnosti klasifikacije modela u konačnoj
mjeri praktičnog značaja. Klasifikacija matrica, koje su identične onima u prirodi, korištene u
diskriminacijskim analizama, predstavljaju razine predviđanja tačnosti koje su postignute
logističkim modelom. Mjera tačnosti predviđanja koja se koristi je hit ratio, postotak svrstanih
slucajeva. Ove vrijednosti će biti izračunate za obje analize i holdout uzorke, te grupa
specifičnih mjera će biti ispitana u dodatku sa ukupnim mjerama. Osim toga, usporedbe se
5
27
mogu napraviti, kao što je to učinjeno u diskriminantnim analizama, da se uspoređuju standardi
koji predstavljaju razinu tačnosti predviđanja postignutu slučajno. Usporedba standarda za
klasifikaciju matrica hit ratia bit će iste kao i one izračunate dvogrupne diskiminacijske analize.
Vrijednosti su 65.5 posto za kriterij proporcionalne šanse ( željena mjera) i 76.3 posto za kriterij
maksimalne šanse.
Ukupni hit ratio za logistički model sa jednom varijablom su 73.3 % i 75,0% za analize i
holdout uzorke, respektivno. Iako su ukupni hit omjeri veći od proporcionalnog slučajnog
kriterija i usporedivi sa maksimalnim slucajnim kriterijom, značajan problem pojavljuje se u
holdout uzorku za SAD odnosno kupce Sjeverne Amerike gdje je hit omjer tek 30,8 %. Ova
razina je ispod oba standarda i zahtijeva da logisticki model bude prosiren u mjeri u kojoj će
ova grupa specifičnih hit ratia prelaziti standarde.
Model dvije varijable pokazuje značajan napredak u obje grupe ukupnih hit ratia, kao i skupina
specificnih vrijednosti. Ukupni hit omjeri povećali su se na 88,3 % i 85,0 % za analize i holdout
uzorke, respektivno. Štoviše,problematična specifična skupina hit ratia u uzorku holdout
povećana na 69,2 % iznad standardne vrijednosti za proporcionalno slučajni kriterij. Sa ovim
poboljšanjima u ukupnom i grupi specifičnih razina, logistički regresijski model sa dvije
varijable smatra se prihvatljivim u smislu klasifikacije tačnosti.
U odnosu na sve tri osnovne vrste mjera ukupnog modela, model s dvije varijeble pokazuje
prihvatljive razine i statističkih i praktičnih značenja. Sa ukupnog prihvatljivog modela,
skrećemo pažnju na ocjenu statističkih testova logističkih koeficijenata kako bi se utvrdili
koeficijenti koji imaju značajne odnose koji utiču na članstvou grupi.
Casewise dijagnostike.
Analiza pogrešne klasifikacije pojedinih opažanja može dati bolji uvid u moguća poboljšanja
modela. Casewise dijagnosticiranja kao i reziduali i utjecajne mjere su na raspolaganju, kao i
profil analiza o kojoj je ranije raspravljano u diskriminacijskoj analizi. U tom slučaju, samo 13
slučajeva su pogrešno klasificirani (7 u analizi uzorka i 6 u holdout uzorku). S obzirom na visok
stepen podudarnosti između ovih pogrešno klasificiranih slučajeva i pogresno klasificiranih
slučajeva analizira u dvogrupnim diskriminantnim analizama, proces profiliranja neće biti
poduzet opet. Casewise dijagnostika kao i reziduali i utjecajne mjere su dostupni. S obzirom na
nisku razinu nepravilnosti, međutim, daljne analize pogresne klasifikacije su izvedene.
Postupni postupak logističke regresije proizvodi varijable vrlo sličnoj onoj u dvije grupe
diskriminacijske analize, iako sa nezavisnom varijablom. Mi ćemo istraživati logističke
28
koeficijente za procjenu oba smjera i uticaj svake varijable koji ima na predviđenu vjerovatnost
i članstvo u grupi.
Smjer odnosa.
Da bi procijenili smijer odnosa svake varjable, ili izvorne logističke koeficijente ili
eksponencijalne koeficijente. Počet ćemo sa originalnim koeficijentima. Ako se prisjetite iz
našeg ranijeg razgovora, možemo interpretirati smjer odnosa izravno iz znaka originalnih
logističkih koeficijenata. U ovom slučaju obje varijable imaju pozitivne znakove, što ukazuje na
pozitvan odnos između obje nezavisne varijable i predviđene vjerovatnosti. Kako se vrijednosti
X13 i X17 povećavaju, predviđena vjerovatnost će se povećavati, čime se povećava vjerovatnoća
da će kupac biti kategoriziran kao da živi izvan Sjeverne Amerike.
Obraćajuči pažnju na eksponencijalne koeficijente, trebamo se prisjetiti da vrijednosti iznad 1.0
upućuju na pozitivan odnos i ispod 1.0 ukazuju na negativan odnos. U našem slučaju,
vrijednosti 2.942 i 6.319 takođe pokazuju pozitivne odnose.
Veličina odnosa.
Najizravniji način ocjenjivanja veličine promjene vjerovatnosti zbog svake nezavisne varijable
je ispitati eksponencijalne koeficijente. Kao što je navedeno, eksponencijalni koeficijenri minus
jedan jednako je postotna promjena u izgledima. U našem slučaju, to znači da povećanje za
jedan bod povećava izglede 194 % za X13 i 513 % za X17. Ovi brojevi mogu prelaziti 100 % , jer
oni povećavaju izglede a ne vjerovatnosti samih sebe. Učinci su veliki, jer konstantni član
određuje polaznu tačku od skoro nula vjerovatnosti za vrijednosti. Dakle, velika povećanja u
izgledima su potreba da se dostigne veća vjerovatnoća vrijednosti.
Drugi pristup u razumijevanju kako logistički koeficijenti definišu vjerovatnost je dase izračuna
vjerovatnost predviđena za svaki skup vrijednosti za nezavisne varijable. Za nezavisne varijable
X13 i X17 koristit ćemo skupinu sredstava za dvije grupe. Na ovaj način, možemo vidjeti šta će
predviđena vjerovatnost biti za „tipičnog“ člana svake grupe.
Tabela 5 prikazuje izračune za predviđanje vjerovatnosti dvije grupe centroida. Prvo, izračunat
ćemo logit vrijednost za svaku grupu centroida umetanjem vrijednosti grupe centroida (npr.
5.60 i 3.63 za grupu 0 na X13 i X17, respektivno) u logit jednadžbi. Iz tablice 5 vidi se da su
ponderi procjenjeni na 1.079 i 1.844 za X13 i X17, respektivno, sa konstantom od -14.192. Dakle,
zamjena vrijednosti grupe centroida u ovoj jednadžbi rezultira u logit vrijednosti od -1.452
(grupa 0) i 2.909 (grupa 1). Uzimajući antilogaritam od logit vrijednost, to rezultira izgledima
od .234 i 18.332. Tada vrijednost grupe se izračunava kao njeni izgledi vrijednosti preko sume
izgleda za obje skupine. Ovi rezultati „tipičnog“ člana grupe 0 ima vjerovatnost da pogrešno
dodijeli grupi 1 od .189 (.89 = .234 /(.234 + 18.332)) i „tipični član“ grupe 1 ima vjerovatnost
od 948 da bude ispravno dodijeljen grupi 1.
Ovaj primjer pokazuje da logistički model ne stvara razmak između dvije grupe centroida u
smislu predviđene vjerovatnosti, što je rezultiralo odličnim razvrstavanjem postignutih rezultata
za obje analize i holdout uzorke.
29
Logistički koeficijenti definišu pozitivne odnose za obje nezavisne varijable i osiguravaju
sredstva za procjenu utjecaja promjena u jednoj ili objema varijablama i na taj način predviđa se
vjerovatnost. Postaje jasno zašto mnogi znanstvenici preferiraju logističku regresiju za
diskriminacijske analize kad su usporedbe napravljene na više korisnih informacija dostupnih iz
logističkih koeficijenata u odnosu na diskriminantna opterećenja.
Vrednovanje modela logističke regresije je ostvareno u primjeru na isti način koji je korišten u
diskriminacijskoj analizi: izrada analize i holdout uzoraka. Uvidom u pogođeni omjer za
holdout uzorke, istraživač može procijeniti vanjsku valjanost i praktično značenje modela
logističke regresije.
TABELA 5
Izračunavanje procijenjene vjerovatnosti vrijednosti za grupe centroida u X4 regiji
X4 (Regija)
Grupa 0 : Grupa 1:
SAD/Sjeverna Amerika Van S. Amerike
Za konačni logistički regresijski model sa dvije varijable, hit omjeri za obje analize i holdout
uzorke prelazi sve usporedive standarde ( proporcionalnu priliku i kriterij maksimalne prilike).
Štaviše, sve grupe specifičnih hit omjera su dovoljno velike za prihvaćanje. Ovaj aspekt je
posebno važan za holdout uzorak, što je primarni pokazatelj vanjske valjanosti. Ovi rezultati
upućuju na zaključak da je logistički regresijski model pokazao dovoljno dobru vanjsku
valjanost za potpuno prihvaćanje rezultata, kao što smo našli kod modela diskriminacijske
analize.
Menadžerski pregled
Logistička regresija prestavlja alternativu diskriminacijskoj analizi koja može biti više pogodna
za mnoge znanstvenike zbog svoje sličnosti sa višestrukom regresijom. S obzirom na robusnost
podataka i uvjeta koji mogu negativno utjecati na diskriminacijku analizu (npr. nejednake
matrice varijanse-kovarijanse), logistička regresija je takođe procjena željene tehnike u mnogim
aplikacijama.
U odnosu na diskriminacijsku analizu, logistička regresija daje usporedivu prediktivnu tačnost
sa jednostavnijom varijablom koja koristi istu materijalnu interpretaciju, samo sa jednom
varijablom manje. Od logostičke regresije, istraživač se može usredotočiti na konkurentne
cijene i cjenovnu fleksibilnost kao primarne varijable u razlikovanju između dvije skupine
8
Izračunato kao:Logit =-14.190 + 1.079X13 + 1.844X17
9
Izračunato kao:Izgledi = elogit
10
Izračunato kao: Vjerovatnoća = Izgledi/(1+Izgledi)
30
kupaca. Cilj u ovoj analizi nije povećati vjerovatnoću (kao što može biti slučaj analize uspjeha
u odnosu na neuspjeh), ali logistička regresija i dalje pruža jednostavan pristup za HBAT za
razumijevanje relativnog utjecaja svake nezavisne varijable u stvaranje razlika izmedju dvije
skupine kupaca.
Kao primjer upotrebe logističke regresije može poslužiti primjer zavisnosti nastanka Koronarno
srčanih bolesti(KSB) od godina starosti, gojaznosti, pušenja i to na primjeru binarne logističke
regresije.
Binarna logistička regresija je tip regresione analize u kojoj je zavisna promjenljiva dihotomna i
najmanje jedna nezavisna je kontinuirana. Zavisne dihotomne promjenljive su česte u biologiji i
medicini.
CILJ:
Pokazati da li su starost, pušenje i gojaznost faktori rizika za KSB
Ako su faktori rizika kolika je “jačina” njihovog djelovanja
31
KSB god pus BMI KSB god pus BMI KSB god pus BMI
0 22 1 0 0 45 0 0 1 60 1 0
0 23 0 0 0 46 0 0 0 60 0 1
0 24 0 0 0 47 0 0 1 61 1 0
0 24 0 0 0 48 0 1 1 62 1 1
0 27 0 0 1 48 0 1 0 62 0 0
0 28 1 0 1 49 1 1 0 62 0 0
0 30 1 1 0 49 0 0 1 63 1 0
0 30 0 0 1 50 1 0 1 64 1 1
0 32 0 0 0 51 1 1 1 65 0 1
0 33 0 1 1 51 0 0 0 66 0 0
1 35 1 1 0 52 1 0 1 67 0 1
0 36 0 0 0 53 0 0 1 71 1 0
0 36 0 0 1 54 1 0 0 72 0 0
0 37 0 1 0 54 0 1 1 74 0 1
0 38 0 0 1 55 1 0 1 73 1 0
0 40 1 0 0 55 0 0 1 75 1 1
1 41 1 1 1 57 1 1 0 77 0 0
1 42 0 0 0 58 0 1 1 77 1 0
0 43 1 1 1 58 0 1 1 78 0 1
0 44 0 0 1 59 1 1 1 81 0 0
Dihotomna promjenljiva
j (dummy variable) kodira se:
0 – nepušač, nije gojazan ...
1 – pušač, gojazan...
Sa 1 se kodira ono što nas interesuje
> 50 g < 50 g
ukupno
f f% f f%
Analiza:
t – test za proporciju: f KSB+ kod starijih : f KSB+ kod mlađih (t = 3,56, p < 0,01)
ili χ2 - test
32
3. Podijeliti ispitanike u više starosnih grupa i uporediti frekvencije pojavljivanja KSB
god f KSB %
20-29 6 0 0
30-39 9 1 11
40-49 12 4 33
50-59 13 7 54
60-69 11 7 64
70-79 8 6 75
80-89 1 1 100
60 26
gojazni negojazni
ukupno
f f% f f%
Analiza:
t – test za proporciju: f KSB+ kod mlađih : f KSB- kod starijih (t = 1,915 p > 0,05)
ili χ2 – test
Odds Ratio (OR) je odnos šansi prethodne izloženosti kod slučajeva (prisutan neželjeni
događaj) i kontrola (odsutan neželjeni događaj):
neželjeni događaj
ukupno
prisutan (+) odsutan (-)
da (+) a b a+b
izloženost ne (-) c d c+d
ukupno a+c b+d a+b+c+d
33
Odds za prisutan neželjeni događaj: a/c
Odds za odsutan neželjeni događaj: b/d
Odds ratio: (a/c) / (b/d) = ad/bc
KSB : Godine
> 50 g 20 12 32
< 50 g 6 22 28
ukupno 26 34 60
Zaključak: Osobe starije od 50 g imaju 6,11 puta veću šansu da obole od KSB.
KSB : Pušenje
pušači 16 7 23
nepušači 10 27 37
ukupno 26 34 60
34
Odds ratio (OR)
1,6 / 0,259 = 6,18
KSB : Gojaznost
gojazni 13 9 22
negojazni 13 25 38
ukupno 26 34 60
Zaključak: Gojazne osobe imaju 2,78 puta veću šansu da obole od KSB.
LOGISTIČKA REGRESIJA
35
gdje su:
b0 i b1 – regresioni koeficijenti
p – vjerovatnoća za pojavu KSB
x1 – godine ili pušenje ili gojaznost
p
log = b0 + b1 x1 + b2 x2 + b3 x3
1− p
gdje su:
b0 , b1 , b2 i b3 – regresioni koeficijenti
p – verovatnoća za pojavu KSB
x1 – godine
x2 – status pušenja
x3 – gojaznost
p
Odnosno log ( odds ) = log = b0 + b1 x1
1− p
gdje je p vjerovatnoća da se događaj desi. Što je odds nekog događaja veći, to je veća
vjerovatnoća da se događaj desi.
KSB: GODINE
36
Variables in the Equation
b0 b1
p OR
OR = e0,085 = 1,089
Interpretacija koeficijenata b0 i b1
U regresionom modelu KSB : Godine b1 > 0, odnosno postoji pozitivna asocijacija između
godina starosti i log odds za pojavu KSB . b1 je frakcija za koju se promjeni rizik za pojavu
KSB kada se godine starosti (x) promjene za jednu jedinicu.
P
Primjer
o
osoba 1, starost (x) = k godina
osoba 2, starost (x) = (k + 1) godina
JJednačine za log odds glase
llog (odds za KSB kod osobe 2) = b0 + b1 (k + 1)
log (odds za KSB kod osobe 1) = b0 + b1 (k)
Dalje:
D
llog (odds za KSB kod osobe 2) = b0 + b1 (k) + b1
log (odds za KSB kod osobe 1) = b0 + b1 (k)
Razlika između log odds osobe 1 i osobe 2:
37
l (odds za KSB kod osobe 2) = b0 + b1 (k) + b1
log
log (odds za KSB kod osobe 1) = b0 + b1 (k)
log odds za pojavu KSB kod osobe 2 starosti (k + 1) godina razlikuje se od log odds za
pojavu KSB kod osobe 1 starosti (k) godina za vrijednost koeficijenta b1
odds ratio ( OR ) = e b1
KSB : Pušenje
38
log ( odds ) = −1,099 + 1,986 × pušenje
KSB : Gojaznost
39
> 50 g < 50 g
p u š a č i n epu š a č i p u š a č i n ep u š a č iu k u p n o
f f f f
KSB + 13 7 4 2 26
K S B- 2 10 5 17 34
ukupno 32 28 60
> 50 g < 50 g
p u š a č i n e pu š a č i p u š a č i n e p u š a č i
f% f% f% f%
KSB + 40 ,6 2 1 ,9 14 ,3 7 ,1
K S B- 6 ,3 31 ,3 17 ,9 6 0 ,7
70
60
50
40
%
30
20
10
0 KSB -
pušači KSB +
> 5 0 g n e p u š a č ip u š a č i
< 50 g nepušači
K S B +K S B -
Na grafiku se vidi pozitivna korelacija između godina i pušenja i njihovog uticaja na KSB
40
Variables in the Equation
p OR
> 50 g < 50 g
gojazni negojazni gojazni negojazni ukupno
f f f f
KSB + 10 10 4 2 26
KSB - 4 8 5 17 34
ukupno 32 28 60
> 50 g < 50 g
gojazni negojazni gojazni negojazni
f% f% f% f%
KSB + 31,3 31,3 14,3 7,1
Grafik pokazuje ne postoji pozitivna korelacija između godina i pušenja i verovatnoće nastanka
KSB
60
50
40
% 30
20
10
0 KSB -
gojazni KSB +
pušači negojazni
gojazni
nepušači negojazni
KSB + KSB -
pre d ik to r OR p
g o d in e 1 ,0 8 9 p < 0 ,0 0 1
p u š e n je 7 ,2 8 6 p = 0 ,0 0 1
g o ja z n o s t 3 ,2 4 1 p = 0 ,0 3 4
g o d in e+ 1 ,1 0 6 p < 0 ,0 0 1
p u š e n je 1 3 ,0 1 6 p < 0 ,0 0 1
g o d in e+ 1 ,0 9 0 p = 0 ,0 0 1
g o ja z n o s t 3 ,2 7 4 p = 0 ,0 6 5
p u š e n je+ 7 ,2 9 0 p = 0 ,0 0 1
g o ja z n o s t 3 ,2 4 4 p = 0 ,0 5 8
g o d in e+ 1 ,1 1 2 p = 0 ,0 0 1
p u š e n je+ 1 3 ,6 6 6 p = 0 ,0 0 1
g o ja z n o s t 3 ,5 6 5 p = 0 ,0 9 0
ZAKLJUČAK
42
Navesti okolnosti pod kojima se logistička regresija treba koristiti umjesto
diskriminacijske analize ili višestruke regresije.
U odabiru odgovarajuće analitičke tehnike ponekad dođe do problema koji uključuje
kategoričke zavisne varijable i nekoliko metričkih zavisnih varijabli. Logistička regresija je
statistička tehnika prikladna kada problem istraživanja uključuje jednu binarnu kategoričku
zavisnu varijablu i nekoliko metričkih i nemetričkih nezavisnih varijabli. Logistička regresija
općenito ima prednost nad diskriminacijskom analizom kad zavisna binarna mjera ima
minimalan skup pretpostavki, a time i njena robusnost u većini slučajeva. Osim toga, sličnosti u
tumačenju višestruke regresije olakšava mnogim znanstvenicima nego diskriminantna funkcija
u diskriminantnom modelu.
Dva pristupa ispitivaju model iz različitih perspektiva, ali bi trebali dati slične zaključke. Jedna
od prednosti logističe regresije je da moramo znati samo da li događaj za definisanje dihotomne
vrijednosti je kao naša zavisna varijabla. Kada se analiziraju ovi podaci koristeći logističku
transformaciju, logistička regresija i njegovi koeficijenti dobivaju drugačiji smisao od onog koji
ima regresija sa zavisnom metričkom varijablom. Isto tako, diskriminantna opterećenja u
diskriminacijskoj analizi se tumače drugačije od logističkih koeficijenata. Logistički koeficijent
odražava i smjer i veličinu odnosa nezavisnih varijabli, ali zahtjeva različite metode
interpretacije. Smjer odnosa (pozitivan ili negativan), odražava promjene zavisne varijable
povezane sa promjenama nezavisne varijable. Pozitivan odnos znači da povećanje nezavisne
varijable je povezano sa povećanjem predviđene vjerovatnosti i obratno za negativni odnos. Da
bi se odredila veličina koeficijenata ili kolika je vjerovatnost da će se promijeniti za jednu
jedinicu nezavisna varijabla, brojčana vrijednost koeficijenata mora se ocijeniti. Baš kao u
višestrukoj regresiji, koeficijenti za metričke i ne metričke varijable moraju se tumačiti i
drugačije, jer svaka odražava različit uticaj na zavisnu varijablu.
43
Logistička regresija je ekvivalent dvogrupnoj diskriminacijskoj analizi a može biti pogodna u
mnogim situacijama.
LITERATURA
44
3. www.ekfak.kg.ac.rs/sites/default/files/.../logisticka%20regresija.doc
45