You are on page 1of 45

UNIVERZITET U TUZLI

EKONOMSKI FAKULTET
Smjer: Finansije,bankarstvo i osiguranje
Akademska 2011/2012 godina

SEMINARSKI RAD IZ PREDMETA:


MULTIVARIJACIONA ANALIZA

TEMA:

LOGISTIČKA REGRESIJA I REGRESIJA SA BINARNOM


ZAVISNOM VARIJABLOM

Profesor: Studenti:
Dr.sc. Tunjo Perić Mirnesa Žilić I-1986/08
Adisa Isić I-2012/08
Eldina Zukić I-2004/08
Selma Ahmičević I-2037/08
Tuzla, april 2012. godine

SADRŽAJ

UVOD.........................................................................................................................................3

1.POJAM LOGISTIČKE REGRESIJE…………….…………………….......……………......4


1.1.Odlučujući proces za logističku regresiju…………………………….......……………......6
1.1.1. Ciljevi logističke regresije……………………………………….......................…….7
1.1.2. Istraživački dizajn za logističku regresiju…………………….……...........................7
1.1.3. Pretpostavke logističke regresije …………… ………….....................……….......10

2.PROCJENA KOEFICIJENATA U LOGISTIČKOJ REGRESIJI……….....……......……14


2.1. Transformacija vjerovatnoće u koeficijente i logit vrijednosti..........................................14
2.1.1.Procjena modela...........................................................................................................15
2.1.2.Korištenje maksimalne podudarnosti za procjenu modela......................................... 15
2.1.3.Ocjena prilagođenosti za procjenu modela….....……………………………….......16
2.1.4. Procjena prilagođavajućeg modela.............................................................................16
2.2. Pseudo R² mjere................................................................................................................17
2.3. Klasifikaciona matrica.......................................................................................................17
2.4. Mjere bazirane na Hi-kvadrat testu....................................................................................18

3. INTERPRETACIJA REZULTATA U LOGISTIČKOJ REGRESIJI..................................19


3.1.Interpretacija koeficijenata..................................................................................................19
3.2.Veličine o odnosu nezavisnih metričkih varijabli…………………………………….......20
3.3. Provjera rezultata…...… ………….………………..….……………………………...…22

4.ILUSTROVAN PRIMJER LOGISTIČKE REGRESIJE……………………………..........23


4.1.Procjena modela logističke regresije i procjena cjelokupnog prilagođavanja...................23
4.1.1. Postupni model procjene............................................................................................23
4.2.Procjena sveukupnog prilagođavanja.................. ...............................................................25
4.3. Pseudo R2 mjere.................................................................................................................28
4.4. Interpretacija rezultata........................................................................................................29

5. Primjer logističke regresije sa zavisnom varijablom na slučaju nastanka hroničnih srčanih


bolesti od godina starosti,pušenja i gojaznosti …………………………………….................33

ZAKLJUČAK..........................................................................................................................44

LITERATURA........................................................................................................................46

2
UVOD:

U našem seminarskom radu ćemo govoriti o logističkoj regresiji i regresiji sa binarnim


zavisnim varijablama. Cilj nam je da se upoznamo sa pojmom i primjenom logističke regresije,
njenim prednostima te razlikama u odnosu na druge metode mulativarijacione analize.

Regresija je slična klasifikaciji s tom razlikom da je atribut koji služi za predviđanje


kontinuelan broj. Na osnovu nekog skupa promjenjivih,predviđa se vrijednost promjenjive čiji
je domen skup realnih brojeva. Između promjenjivih čije su vrijednosti poznate i promjenjive
čija se vrijednost predviđa postoje linearne i nelinaerane zavisnosti.

Linearna regresija i logistička regresija su najpopularnije metode regresije. Logistička regresija


je specijalizovana forma regresije koja je formulisana da predvidi i objasni binarnu (dvogrupnu)
kategoričku varijablu više nego metričke zavisne mjere

Naš seminarski rad, osim uvoda i zaključka,sadrži još 5 cjelina.

U prvom dijelu rada upoznati ćemo vas sa pojmom logističke regresije, teriminima koji se
koriste,ciljevima logističke regresije, binarnom zavisnom varijablom,uzorcima koje analizira
logistička regresija te pretpostavkama i procjenom modela logističke regresije.

Drugi dio rada se odnosi na procjenu koeficijenata u logističkoj regresiji te procjenu modela
logističke regresije i cjelokupnog modela prilagođavanja te sadrži analizu Pseudo mjera.

Treći dio rada se odnosi na interpretaciju rezultata, interpretaciju koeficijenata te provjeru


rezultata logističke regresije.

Četvrti dio je ilustrativan prikaz primjene logističke regresije gdje se vrši prikaz logističke
regresije kroz sve faze od procjene modela do interpretacije i vrednovanja rezultata.

Peti dio našeg rada se odnosi na konkretne primjere logističke regresije i regresije sa zavisnom
binarnom varijablom.

3
1. POJAM LOGISTIČKE REGRESIJE

Logistička regresija je specijalizovana forma regresije koja je formulisana da predvidi i objasni


binarnu (dvogrupnu) kategoričku varijablu više nego metričke zavisne mjere. Oblik logističke
regresione varijable je sličan varijabli višestruke regresije.Varijabla predstavlja jedinstveni
multivarijacioni odnos, sa regresiono sličnim koeficijentima ukazujući na relativni uticaj svakog
pokazatelja varijable.

Logistička regresija zajedno sa diskriminacionom analizom je vjerodostojna statistička tehnika


kada je zavisna varijabla kategorična (nominalna ili nemetrička) varijabla i kada su nezavisne
varijable metričke ili nemetričke. Kada se poredi sa diskriminacionom analizom logistička
regresija je ograničena na osnovni oblik dvije grupe za zavisnu varijablu,iako druge formulacije
mogu podnijeti više grupa. To ima prednost lakog djelovanja nemetričkih varijabla kao
nezavisnih varijabla, kao u višestrukoj regresiji.
U praksi logistička regresija je u prednosti iz dva razloga. Prvi, diskriminaciona analiza se
oslanja na strogo susretanje pretpostavki multivarijacione normalnostii jednakih varijativno
kovarijativnih matrica preko grupa - pretpostavke koje se ne susreću u mnogim situacijama.
Logistička regresija ne suočava se sa striktnim pretpostavkama i mnogo više je djelotvornija
kada se ne susreću ove pretpostavke praveći svoje primjene vjerodostojnim u mnogim
sitacijama. Drugi, ako se prepostavke ne susretnu mnogi istraživači daju prednost logističkoj
regresiji jer je slična višestrukoj regresiji. To ima tačne statističke testove, slične pristupima
inkorporisanim matricama i nematričkim varijablama i nelinearnim efektima,i širokom spektru
dijagnostike. Takođe zbog ovih i mnogih tehničkih razloga logistička regresija je jednaka
dvogrupnoj diskriminacionoj analizi i može biti pogodnija mnogim situacijama.

Razlike između logističke regresije i diskriminacione analize će biti dominantnija u našoj


diskusiji logističko regresionih jedinstvenih karakteristika, iako mnogo sličnosti postoji između
ove dvije metode. Kada se susretnu osnovne pretpostavke dviju metode, svaka daje uporedive
predikativne i klasifikacione rezultate i zauzimaju slične dijagnostičke mjere. Kako god,
logistička regresija ima prednost jer je manje pogođena od diskriminacione analize kada se ne
susretnu osnovne pretpostavke,posebno normalnost promjenjljivih. Tu se takođe mogu uvrstiti
nemetričke varijable pomoću kodiranja vještačke varijable kao i što regresija to može
uraditi.Logistička regresija je ograničena do predviđanja samo dvogrupnih zavisnih mjera.
Takođe, u slučajevima gdje 3 ili više grupa formiraju mjeru, diskriminaciona analiza je
pogodnija. Logistička regresija se može opisat kao procjenjivanje odnosa između jedne
nemetričke (binarne) zavisne varijable i seta metričkih ili nemetričkih nezavisnih varijabli,u
opštem obliku:

Y1 = X1 + X2 + X3 +.........+ Xn

Gdje je Y1 binarna nemetrička


a X1 + X2 + X3 +.........+ Xn nemetričke i metričke .

Logistička regresija ima sličnu primjenu u situacijama gdje je primarni cilj identifikovati grupu
gdje objekat (osoba firma ili proizvod) pripada. Potencijalne primjene uključuju predviđanje
bilo čega gdje je rezultat binaran (da/ne). Takve situacije uključuju uspjeh ili pad novog
proizvoda,odlučujući da li osobi treba dodijeliti kredit ili predviđajući da li će firma biti

4
uspješna. U svakom slučaju,objekat spada u jednu od 2 grupe, i cilj je predvidjeti i objasniti
baze tj. osnove za svakog člana grupe pomoću seta nezavisnih varijabli koje bira istraživač.

Termin koji se koriste u logističkoj regresiji:

Uzorak analize- grupa slučajeva korištena u procjenjivanju logističko regresionog modela.


Prilikom konstrukcije klasifikacinih matrica orginalni uzorak je podijeljen nasumično u 2
grupe,jedna za procjenu modela (analizacioni uzorak) a druga za potvrđivanje (holdout uzorak).

Kategorična varijabla – nemetričke varijable.

Klasifikaciona matrica- procjenjivanje predviđajuće mogućnosti modela logističke regresije.


Kreirana je pomoću ukrštenog tabelarnog grupisanog članstva sa predviđenom grupom
članstva. Ova matrica sadrži brojeve na digitalnom predstavljanju tačnih podjela i
nedijagonalnih brojeva koji predstavljaju netačne podjele.

Unakrsno potvrđivanje – procedura razdvajanja uzorka na 2 dijela: uzorak analize korišen u


procjeni modela logističke regresije i holdout uzorak korišten za potvrdu rezultata. Unakrsno
potvrđivanje izbjegava previše razređenu logističku regresiju dozvoljavajući potvrđivanje na
potpuno različitom uzorku.

Eksponentni logistički koeficijent- antilogaritam logističkog koeficijenta, koji se koristi za


interpretaciju osnova u logističkoj regresiji. Ekosponentni koeficijent minus 1.0 je jednak
procentnoj promjeni mogućnostima. Npr.eksponentni koeficijent 0.20 predstavlja negativnu
80% promjenu u mogućnostima (0.20-1.0=-0.80) za svaku jedinstvenu promjenu u nezavisnoj
varijabli( isto kao da su mogućnosti pomnožene sa 0.20). Takođe vrijednost od 1.0 jednako je
nepromjenjenim mogućnostima i vrijednosti iznad 1.0 predstavljaju poraste u predviđajućim
mogućnostima.

Pogođeni omjer (Hit ratio) – procent objekata (pojedinci,odgovorna lica,firme itd.) tačno
klasifikovani pomoću modela logističke regresije. To je izračunato kao broj objekata u
dijagonali klasifikacione matrice podijeljene pomoću ukupnog broja objekata. Takođe poznat
kao tačno klasifikovani procent.

Holdout uzorak- grupa objekata koja se ne koristi za izračunavanje modela logističke


regresije.Ova grupa se tada koristi da potvrdi model logističke regresije sa odvojenim uzorkom
odgovornih lica. Takođe se zove potvrđujući uzorak.

Vjerovatnoća vrijednosti - mjera koja se koristi u logističkoj regresiji da bi predstavila


nedostatak predviđajućeg odnosa. Uprkos tome ovaj metoda ne koristi najmanje kavadratne
procedure u modelu procjene kao u višestrukoj regresiji, vjerovatnoća vrijednosti je slična zbiru
kvadratnog odstupanja u regresionoj analizi.

Logistički koeficijent- koeficijent u logističko regresionom modelu koji postupa kao


ravnotežni faktor za nezavise varijable u zavisnosti na njihovu diskriminacionu moć. Sličan je
regresionoj ravnoteži ili diskriminacionom koeficijentu.

Logistička kriva- to je „S“ oblikovana kriva formirana pomoću logaritamske transformacije


koja predstavlja mogućnost događaja. „S“ oblik je nelinearan, jer mogućnost događaja mora bit
približna 0 ili 1 ali nikada da pređe ove granice. Iako srednji razmak uključuje linearnu

5
komponentu,vjerovatnoće njihovog približavanja nižim ili višim granicama vjerovatnoće (0 ili
1) moraju se izjednačiti i postati asimptotične ovim granicama.

Logistička regresija- specijalni oblik regresije u kojem je zavisna varijabla nemetrična,


dihotomna (binarna) varijabla. Iako neke razlike postoje,opšti način interpretacije je sličan
linearnoj regresiji.
Logaritamska analiza- Logistička regresija.

Logaritamska transformacija - transformacija vrijednosti diskretne zavisne binarne varijable


logističke regresije u „S“ oblikovanu krivu (logistička kriva) predstavljajući vjerovatnoću
događaja. Ova vjerovatnoća se onda koristi za formiranja mogućih omjera, koji se predstavljaju
kao zavisna varijabla u logističkoj regresiji.

Maksimalni kriterij prilike - mjera predviđajuće tačnosti u klasifikacionoj matrici koja je


izračunata kao procent odgovornih lica u najvećoj grupi. Obrazloženje da najbolji
neinformisani izbor je klasifikovanje svake opservacije u najveću grupu.

Nemetrička varijabla- varijabla sa vrijednostima koja se koristi kao način sredstva


identifikacije takođe poznata kao kategorična, nominalna, binarna, kvalitaitivna ili
taksonomična varijabla. Primjer: Broj na fudbalskom dresu.

Mogućnosti -omjer mogućnosti događaja koji se dešava naspram mogućnosti događaja koji se
ne dešava, koji se ne koristi kao mjera zavisne varijable u logističkoj regresiji
.
Tačno klasifikovani procent- Pogođeni omjer.

Proporcionalni kriterij prilike - drugi kriterij za procjenjivanje pogođenog omjera gdje je


prosječna mogućnost klasifikacije izračunata obuhvaćajući sve grupne veličine.

Pseudo R2 - vrijednost modela koji može biti izračunat za logističku regresiju uporedivu za R2
mjeru koja se koristi u višestrukoj regresiji.

Potvrđujući uzorak- Holdout uzorak.

Varijabla- linearna kombinacija koja predstavlja zbir dvije ili više nezavisne varijable koje
obuhvataju diskriminacionu funkciju. Takođe se zove linearna kombinacija ili linearni dodatak.

Wald statistika- test koji se koristi u logističkoj regresiji za označavanje logističkog


koeficijenta. Njena interpretacije je kao F ili t vrijednosti koje se koriste za značenje testiranja
regresionih koeficijenata.

1.1. Odlučujući proces za logističku regresiju

Primjena logističke regresije se može posmatrati sa šestostepene modelno razvojne perspektive.


Kao i kod svih multivarijacionih primjena,postavljanje ciljeva je prvi korak u analizi. Istraživač
mora naznačiti specifične karakteristike dizajna i potvrditi pretpostavke koje se susretnu.
Analiza se nastavlja sa procjenom mogućnosti pojavljivanja u svakoj od grupa pomoću
korištenja logističke krive kao nezaobilaznog odnosa. Binarna mjera je prevedena u mogućnosti
pojavljivanja a zatim u logaritamsku vrijednost koja se ponaša kao zavisna mjera. Oblik
modela u terminima nezavisnih varijabli je skoro identičan višestrukoj regresiji. Modelni sklop

6
je procijenjen više kao diskriminaciona analiza pomoću prvog pogleda na statističko značenje
modela i onda određivanja predviđajuće vjerodostojnosti pomoću razvijanja klasifikacione
matrice. Onda poprimanjem jedinstvene prirode transformisane jedinstvene zavisne varijable,
logističkim koeficijentima je dana njihova orginalna skala, koje su u logaritamskim terminima, i
transformisana skala koja je interpretirana više kao regresioni koeficijent. Svaki oblik
koeficijenta detaljiše određenu karakteristiku nezavisnog varijacionog uticaja. Konačno,
logističko regresioni model bi trebao biti potvrđen sa holdout uzorkom.

1.1.1. Ciljevi logističke regresije

Logistička regresija je identična diskriminacionoj analizi u terminima glavnih ciljeva koje može
imenovati. Logistička regresija je najbolje smještena u imenovanju dva istraživačka cilja:
• identifikovanje nezavisnih varijabli koje utiču na grupno članstvo u zavisnim
varijablama
• uspostavljanje klasifikacionog sistema baziranog na logističkom modelu za određivanje
grupnog članstva

Prvi cilj je prilično sličan osnovnim ciljevima diskriminacione analize i čak višestruka regresija
u tom naglašavanju je smještena na objašnjavanju grupnog članstva u terminima nezavisnih
varijabli u modelu. U klasifikacionom procesu logistička regresija, kao diskriminaciona
analiza, pruža osnovu za klasifikovanje ne samo uzorka korištenog za procjenu diskriminacione
funkcije nego i za bilo koje druge opservacije koje mogu imati vrijednosti za sve nezavisne
varijable. Na ovaj način,analiza logističke regresije može klsifikovati druge opservacije u
definisane grupe.

1.1.2.Istraživački dizajn za logističku regresiju

Logistička regresija ima nekoliko jedinstvenih obilježja koja utiču na istaživački dizajn. Prvo je
jedinstvena priroda binarne zavisne varijable koja utiče na model specifikacije i procjenjivanja.
Drugo obilježje je povezano sa veličinom uzorka,na koji utiče nekoliko faktora,među kojim je
upotreba maksimalne vjerovatnoće kao procjenjujuće tehnike kao i potreba za procjenjivanje i
holdout uzorcima kao što je diskriminaciona analiza.

 Predstavljanje binarne zavisne varijable

U diskriminacionoj analizi nemetrička karakteristika dihotomne zavisne varijable je


uspostavljena pomoću pravljenja predviđanja grupnog članstva baziranog na diskriminanti Z
rezultata. To zahtijeva proračun presijeka rezultata i dodjelu opservacija grupama. Logistička
regresija pristupa ovom zadatku na način više sličan sa višestrukom regresijom. Logistička
regresija predstavlja dvije grupe interesa kao binarne varijable sa vrijednostima 0 i 1. Nije
važno kojoj grupi je dodijeljena vrijednost 0 ili 1 ali zadatak mora biti naznačen za
interpretaciju koeficijenata.
• ako grupe predstavljaju karakteristike( npr. rod) svakoj grupi se može dodijeliti
vrijednost 1 (npr ženama) i drugoj grupi vrijednost 0 (muškarci). U takvoj situaciji
koeficijenti bi odavali uticaj nezavisnih varijabli na vjerovatnoću osobe koja je
žensko(grupa kodirana kao 1).
• ako grupe predstavljaju događaje (uspijeh ili pad ), zadatak grupnih kodova utiče na
interpretaciju takođe. Pretpostavimo da je grupa sa uspjehom kodirana kao 1,a sa padom

7
sa 0. tada, koeficijenti predstavljaju uticaje na vjerovatnoću uspjeha. Vrlo
jednostavno,kodovi bi mogli biti obrnuti (kod 1 označava pad) i koeficijenti
predstavljaju sile povećavanja vjerovatnoće pada.

Logistička regresija se razlikuje od višestruke regresije jer je specifično dizajnirana da predvidi


vjerovatnoću nastupanja pojave (vjerovatnoća opservacije kodirane kao 1). Iako su
vjerovatnoće vrijednosti metričke mjere,postoje osnovne razlike između višestruke regresije i
logističke regresije.

 Upotreba logističke krive

Zato što binarna zavisna varijabla ima samo vrijednosti 0 i 1 predviđajuća vrijednost
(vjerovatnoća) mora biti vezana da bude samo u tom rangu. Da bi se definisao odnos vezan sa
0 i 1 logistička regresija koristi logističku krivu da bi predstavila odnos između nezavisnih i
zavisnih varijabli (vidi sliku 1). Na veoma niskim nivoima nezavisne varijable,vjerovatnoća
dosiže do 0,ali nikad je ne dostigne. Slično sa porastom nezavisne varijable,predviđajuće
vrijednossti povećavaju krivu ali onda nagib počinje opadati tako da na bilo kojem nivou
nezavisne varijable vjerovatnoća će dosegnuti do 1.0 . Linearni modeli regresije ne mogu se
uklopiti u takav odnos zato što je to nelinearan odnos. Linearni odnos regresije,čak i sa
dodatnim uvjetima transformacija za nelinearne efekte nemogu garantovati da će predviđajuće
vrijednosti ostati u dometu 0 i 1.

 Jedinstvena priroda zavisne varijable

Binarna priroda zavisne varijable (0 ili 1) ima svojstva koja narušavaju pretpostavke višestruke
regresije. Prvo, nepravilni izraz diskretne vartijable prati binomijalnu distibuciju umjesto
normalne distribucije, time ne potvrđujući sva statistička testiranja bazirana na pretpostavkama
normalnosti. Drugo,varijacija dihotomne varijable nije konstantna. Logistička regresija je
razvijena specifično za susretanje sa ovakvim stavkama. Njen jedinstveni odnos između
zavisnih i nezavisnih varijabli zahtijeva različit pristup u procjenjivanju varjable,i
interpretiranju koeficijenata kada su poređeni sa višestrukom regresijom.

Slika 1: Oblik logističke veze između zavisne i nezavisne varijable

 Veličina uzorka

8
Logistička regresija kao svaka druga multivarijaciona tehnika mora posmatrati veličinu uzorka
koji se analizara. Vrlo mali uzorci imaju tako mnogo nedostataka da identifikacija svih osim
najvećih razlika je nemoguća. Veoma velike veličine uzorka povećavaju statističku snagu tako
da bilo koja razlika, bilo praktično relevantna ili ne,će biti razmatrana kao statistički značajna.
Većina istraživačkih situacija spada negdje između ovih ekstrema što znači da istraživač mora
razmatrati uticaj veličina uzorka na rezultate,i na nivou i na grupa po grupa osnovi.

 Ukupna veličina uzorka

Prvi aspekt veličine uzorka je ukupna veličina uzorka potrebna za adekvatnu podršku
procjenjivanja logističkog modela. Jedan faktor koji razdvaja logističku regresiju od ostalih
tehnika je upotreba maksimalne vjerovatnoće (MLE) kao tehnike procjenjivanja. MLE zahtijeva
veće uzorke,takve da sve stvari budu jednake. Logistička regresija će zahtijevati veću veličinu
uzorka od višestruke regresije npr., Hosmer i Lemešov preporučuju veličine uzorka veće od
400(4). Štaviše istraživač bi trebao uveliko razmotriti podjelu uzorka na analizu i hold out
uzorke kao sredstva potvrđivanja logističkog modela. U pravljenju ovog razdvajanja uzorka,
potrebe veličine uzorka i dalje stoje za oboje, i analizu i hold out uzorke razdvojeno tako
efektivno udvostručavajući ukupnu potrebnu veličinu uzorka baziranu na specifikaciji modela
( procjene broja parametara).

 Veličina uzorka po kategoriji zavisne varijable

Drugo razmatranje je da je veličina uzorka važna, ali takođe da je veličina uzorka po grupi
zavisne varijable. Kao što smo diskutovali za diskriminacionu analizu postoje razmatranja na
minimalnoj grupnoj veličini. Preporučena veličina uzorka za svaku grupu je najmanje 10
opservacija po procijenjenom parametru. Ovo je mnogo veće nego višestruka regresija koja je
imala minimalno 5 opservacija po parametru, i koja je bila za ukupni uzorak,a ne za veličinu
uzorka za svaku grupu, kao što je sa logističkom regresijom.

 Uticaj nemetričke nezavisne varijable

Krajnje posmatranje dolazi sa upotrebom nemetričkih nezavisnih varijabli. Kada su uključene u


model,one dalje podgrupišu uzorak u odjeljke kreirane omoću kombinacije zavisnih i
nemetričko nezavisnih varijabli. Npr.,jednostavna binarna nezavisna varijabla kreira 4 grupe
kada je kombinovana sa binarnom zavisnom varijablim. Iako nije potrebno za svaku od ovih
grupa djelovanje sa potrebama veličine uzorka,istraživač i dalje mora biti svjestan da ako bilo
koji od ovih odjeljaka ima veoma malu veličinu uzoraka onda je to efikasno eliminisano iz
analize. Kako god, ako previše ovih odjeljaka ima 0 ili veoma male veličine uzorka onda model
može imati poteškoće u konvertivanju i postizanju rješenja.

1.1.3.Pretpostavke logističke regresije

Prednosti logističke regresije poređene sa diskriminacionom analizom i čak sa višestrukom


regresijom zadržan u velikom stepenu opšteg nedostatka pretostavki koji se zahtijeva u analizi
logističke regresije. To ne zahtijeva nikakav specifičan distribucioni oblik nezavisnih varijabli.
Kako god, logistička regresija ne zahtijeva linearne odnose između nezavisnih varijabli i
zavisnih varijabli kao što to radi višestruka regresija. Može se odnositi na nelinearne efekte čak

9
i kada eksponencijalni i polinomijalni termini nisu eksplicitno dodati kao dodatne nezavisne
varijable zbog logističkog odnosa.

 Procjena modela logističke regresije i procjena ukupnog prilagođavanja

Jedna od posebnih karakteristika logističke regresije jeste da je njena upotreba logističkih veza
opisana unaprijed kod obje procjene, procjene logističkog modela i procjene povezanosti
između zavisnih i nezavisnih varijabli. Jednistvena je transformacija zavisne varijable, što utiče
ne samo na proces ukupne procjene, već i na rezultat koeficijenta za nezavisnu varijablu.
Logistička regresija takođe omogućava pristup za procjenu modela prilagođenog podacima
( overall model fit)1 sa obje diskriminantne analize i višestruku regresiju.

 Procjena modela logističke regresije

Logistička regresija ima jednu varijablu sastavljenu od procjene koeficijenata za svaku


nezavisnu varijablu, kao što je slučaj kod višestruke regresije. Međutim, ova varijabla je
procijenjena na drugačiji način. Logistička regresija proizilazi iz logističke transformacije koja
koristi zavisne varijable, kreirajući tako nekoliko različitosti u postupku procjene.

 Transformacija zavisne varijable.

Kao što smo ranije rekli, logistički model koristi specifičan oblik logističke krive, koja je u
obliku slova S, unutar intervala od 0 do 1. Da bi procijenili model logističke regresije, ova kriva
predvidljivih varijabli je prilagođena stvarnim podacima, kao što je slučaj kod linearnih veza u
višestrukoj regresiji. Međutim, pošto stvarni podaci za zavisnu varijablu mogu biti jedino u
intervalu od 0 do 1, postupak je nešto drugačiji.
Slika 2 pokazuje dva hipotetička primjera odgovarajućih logističkih veza prema uzorku
podataka. Stvarni podaci reprezentuju događaj, desio se on ili ne, dodjeljivanjem vrijednosti, ili
1 ili 0, ishodima događaja ( u slučaju kad se događaj desio dodjeljuje se vrijednost 1, tj. 0 u
suprotnom slučaju). Zapažanja su predstavljena tačkicama na vrhu, odnosno na dnu grafikona.

Ovi ishodi ( desili se oni ili ne) javljaju se na svakoj vrijednosti nezavisne varijeble ( x-osa). U
prvom slučaju (a), logistička kriva se ne uklapa dobro u podatke, jer broj vrijednosti nezavisne
varijable ima oba ishoda ( 1 i 0). U ovom slučaju nezavisna varijabla ne razlikuje ova dva
ishoda, što i pokazuje visoko preklapanje dviju grupa.
Međutim, u drugom dijelu (b), puno više dobro-definiranih veza bazirano je na nezavisnim
varijablama. Niže vrijednosti nezavisne varijable odgovaraju vrijednosti 0 za zavisnu varijablu,
dok veće vrijednosti nezavisne varijable odgovaraju zapažanjima vrijednosti od 1 zavisne
varijable.

1
Logistički regresioni model prilagođen podacima, nazivamo fitovanim. Interpretacija fitovanog modela
porazumijeva izvođenje zaključaka na osnovu ocijenjenih koeficijenata u modelu.

10
Slika 2

Ali kako predvidjeti grupno članstvo iz ovih logističkih krivi? Za svako posmatranje tehnika
logističke regresije predviđa vjerovatnoću vrijednosti od 0 do 1. Ucrtavanje vrijednosti
vjerovatnoće za sve vrijednosti nezavisne varijable formira krivu prikazanu na slici 2. Ova
predvidljiva vjerovatnoća je bazirana na vrijednosti nezavisne varijable i procijenjenih
koeficijenata. Ako je vjerovatnoća veća od 0.50, tada je vjerovatnoća da će ishod biti 1,
odnosno, ishod je predviđen na vrijednost 0.

11
U dijelu (a) i (b) slike 2, vrijednost od 6.0 za x (nezavisna varijabla odgovara vjerovatnoći od
0.50). U dijelu (a) možemo vidjeti da broj zapažanja od obje grupe opada s obje strane ove
vrijednosti, rezultirajući većim brojem grešaka.
Greške su najaviše primjetne za grupu sa vrijednostima od 1, ali, čak i nekoliko zapažanja u
drugoj grupi je pogrešno ( zavisna varijabla 0.0). U dijelu (b) pravimo savršenu klasifikaciju od
obje grupe koristeći vjerovatnoću vrijednosti od 0.50, kao graničnu vrijednost.
Tako, tako sa procijenjenom logističkom krivom možemo procijeniti vjerovatnoću za bilo koje
zapažanje bazirano na vrijednostima za nezavisnu varijablu i predvidjeti grupno članstvo
koristeći 0.50 kao graničnu vrijednost. Jednom kada imamo predviđeno članstvo možemo
kreirati matricu, kao što smo uradili za analizu diskriminante i procijeniti predvidljivu tačnost.

12
2. PROCJENA KOEFICIJENATA U LOGISTIČKOJ REGRESIJI

Kako nastaje kriva? U višestrukoj regresiji, mi procjenjujemo linearnu povezanost koja najbolje
odgovara podacima. U logističkoj regresiji, pratimo isti proces predviđanja zavisne varijable
prema slučajnoj varijabli sastavljenoj od logističog koeficijenta i odgovarajućih nezavisnih
varijabli. Razlika je da u logističkoj regresiji predviđena vrijednost ne može biti izvan intervala
od 0 do 1. Iako kompletna diskusija o konceptualnim i statističkim problemima uključenim u
proces procjene, je izvan polja ove problematike.

2.1. Transformacija vjerovatnoće u koeficijente i logit vrijednosti

Kao i kod višestruke regresije, logistička regresija predviđa metrički zavisne varijable, u ovom
slučaju vjerovatnoća varijable je ograničena na interval između 0 i 1. Ali kako možemo biti
sigurni da procijenjena vrijednost ne padne izvan vrijednosti ovog intervala? Postupak
logističke transformacije provodi se kroz dva koraka.

 Iskazivanje vjerovatnoće kao mogućnosti. U njihovoj originalnoj formi, vjerovatnoće


nisu ograničene na vrijednost između 0 i 1. Međutim, šta ako preformuliramo
vjerovatnoću na način da nova varijabla uvijek bude u intervalu između 0 i 1?
Preformuliramo je iskazivanjem vjerovatnoće kao mogućnosti (odds), omjer
vjerovatnoće dva ishoda ili događaja, Probi ÷ (1- Probi). U ovoj formi, bilo koja
vrijednost vjerovatnoće navedena je u metričkoj varijabli koju možemo direktno
procijeniti. Svaka vrijednost mogućnosti može biti ponovo konvertovana u vjerovatnoću
koja se nalazi između 0 i 1. Koristit ćemo primjer vjerovatnoće uspjeha ili neuspjeha da
bi ilustrovali kako se izračunavaju koeficijenti. Ako je vjerovatnoća uspjeha 0.80,
onda znamo da je i vjerovatnoća suprotnog događaja ( neuspjeha) 0.20 ( 0.20 = 1- 0.80).
Ova vjerovatnoća znači da je mogućnost uspjeha 0.40 (0.80/0.20), ili da je uspjeh 4 puta
vjerovatniji od neuspjeha. U suprotnom slučaju, mogućnost neuspjeha biti će 0.25
( 0.20/0.80). Možemo zaključiti da je vjerovatnoća od 0.50 rezultira mogućnošću od 1
( oba događaja imaju iste šanse da se dogode). Mogućnosti manje od 1.0 predstavljaju
vjerovatnoće manje od 0.50 i mogućnosti veće od 1.0 odgovaraju vjerovatnoćama većim
od 0.50. Sada imamo metičku varijablu koja uvijek može biti konvertovana u
vjerovatnoću unutar intervala 0 i 1.

 Računanje Logit vrijednosti. Varijable mogućnosti rješavaju problem stvaranja


procjene vjerovatnoće između 0 i 1, ali sada se javlja drugi problem. Kako sačuvati
mogućnosti od opadanja ispod 0, što je najniža granica kod mogućnosti. Rješenje je
izračunati ono što nazivamo logit vrijednost, koja se računa uzimanjem logoritma
koeficijenta. Koeficijenti manji od 1.0 imati će negativnu logit vrijednost, koeficijenti
razmjera većeg od 1.0 imati će pozitivnu logit vrijednost, i mogućnosti od 1.0 ( koji
odgovaraju vjerovatnoći od 0.50) imaju logit vrijednost od 0. Štaviše, bez obzira koliko
su niske negativne vrijednosti, i dalje mogu biti transformirane uzimanjem antilogoritma
na vrijednost koeficijenta većeg od 0.

Naredna tabela prikazuje neke tipične vrijednosti vjerovatnoće i povezanost koeficijenata (odds)
i logoritmovane vrijednosti koeficijenta (log odds values).

13
Vjerovatnoće Mogućnosti logit
vrijednosti
0.00 0.00 NI
0.10 0.111 -2.197
0.30 0.428 -0.847
0.50 1.000 0.000
0.70 2.333 0.847
0.90 9.000 2.197
1.00 NI
NI
NI = nemoguće izračunati

Sa logit vrijednostima , dobijamo graničnu varijablu koja može imati obje vrijednosti, i
pozitivnu i negativnu, koja uvijek može biti trasnsformisana u vrijednosti vjerovatnoće u
intervalu od 0 do 1. Ustvari, logit vrijednost nikada nemože dostići tačnu vrijednost od 0 ili 1.
Ova vrijednost sad predstavlja zavisnu varijablu modela logističke regresije.

2.1.1. Procjena modela

Jednom kada ustanovimo kako interpretirati vrijednosti ili mogućnosti ili logit mjere, možemo
pristupiti njihovom korištenju kao zavisnih mjera u logističkoj regresiji. Postupak procjene
logističkih koeficijenata je sličan kao kod regresije, osim što se u ovom slučaju koriste samo
dvije vrijednosti za zavisnu varijablu (0 i 1). Umjesto korištenja uobičajnih najmanjih kvadrata
kao sredstva procjene modela, koristit ćemo metodu maksimalne podudarnosti.

Procijenjeni koeficijenti nezavisne varjable su utvrđeni korištenjem ili logit vrijednosti ili
vrijednosti koeficijenata kao zavisne varijable. Formule za svaki od ovih modela dati su u
nastavku:

Formule za oba modela su ekvivalentne, ali od izbor između ove dvije formule odražava se i na
procjenu koeficijenta. Mnogi softverski programi omogućavaju izračunavanje logističkih
koeficijenata pomoću obje formule.Ovaj proces može smjestiti jednu ili više nezavisnih
varijabli, i nezavisna varijabla može biti metrička ili ne (binarna).

2.1.2. Korištenje maksimalne podudarnosti za procjenu modela.

Višestruka regresija koristi metodu najmanjih kvadrata, što minimizira sumu kvadratnih
odstupanja između stvarne i predviđene vrijednosti zavisne varijable. Nelinearna priroda
logističke transformacje zahtjeva druge procedure, procedure maksimalne podudarnosti, koja se
koristi kao alternativni način za pronalaženje najvjerovatnijih procjena za koeficjente. Umjesto
minimiziranja kvadratne devijacije, logistička regresija maksimizira podudarnosti dešavanja
određenog događaja. Vrijednost podudarnosti umjesto sume kvadrata koristi mjere
prilagođavajućeg modela. Korištenje alternativne tehnike procjene takođe zahtijeva da se
procijenjeni model uklapa na različite načine.

14
2.1.3. Ocjena prilagođenosti za procjenu modela

Prilagođavanje za logistički model može biti ocijenjeno na dva načina. Prvi način ocjene
modela je korištenje “pseudo” R² vrijednosti, slične onoj kod višestruke regresije. Drugi pristup
ocjene je ispitivanje predvidljive tačnosti. Dva prostupa ispitivanja modela odgovaraju
različitim pogledima, ali daju slična rješenja.

2.1.4. Procjena prilagođavajućeg modela.

Osnovna mjera koja pokazuje kako dobro procjena maksimalne podudarnosti odgovara
podudarnoj vrijednosti, slična je sumi kvadrata korištenoj kod višestruke regresije. Mjere
procjene modela logističke regresije odgovara dvostrukoj vrijednosti logoritamske podudarnosti
-2LL ( 2 log likelihood). Minimalna vrijednost za 2LL je 0, što odgovara savršenom
prilagođavanju ( likelihood = 1 i – 2LL iznosi 0). Što je niža vrijednost -2LL, bolji je model
više prilagođen. Vrijednost -2LL možemo koristiti za upoređivanje jednačina u promjenama
prilagođavajućeg modela modela ili izračunavanje mjera uporedivih sa R² mjerama u
višestrukoj regresiji.

 Usporedbe između modela


Vrijednost podudarnosti može se uspoređivati između jednačina sa procjenom razlike
predvidivog prilagođavajućeg modela, sa statističim testovima za značenje tih razlika. Osnovni
pristup prati tri koraka:
1. Ocjena nultog modela. Prvi korak jeste ocijeniti nulti model, koji predstavlja osnovu za
pravljenje usporedbi poboljšanja u prilagođavajućem modelu. Najčešće korišteni nulti
model je model bez nezavisnih varijabli, koji je sličan računanju sume kvadrata
korištenjem prosjeka kod višestruke regresije. Logika korištenja ovog oblika modela je
da može poslužiti kao osnovica prema kojoj bilo koji model , koji sadrži nezavisne
varijable, može biti upoređivan.
2. Ocjena predloženog modela. Ovaj model sadrži nezavisne varijable uključene u model
logističke regresije. Na sreću, model će se poboljšati u formi od nultog modela i
rezultirati u nižoj -2LL vrijdnosti. Bilo koji broj predloženih modela može biti
procijenjen ( modeli sa jednom, dvije i tri nezavisne varjable mogu se uzeti kao
odvojeni predloženi modeli).
3. procjena -2LL razlike. Zadnji korak je procjena statističkog značenja -2LL vrijednosti
između dva modela ( nultog modela i predloženog modela). Ako statistički testovi
podržavaju značajne razlike, tada možemo reći da je set nezavisnih varijabli u
predloženom modelu značajan za poboljšanje procjene prilagođavajućeg modela.

Na sličan način, bilo koja dva predložena modela mogu biti uspoređivani. U tom slučaju, -2LL
razlike utiču na razlike u modelu prilagođavanja zbog različitih specifičnosti modela. Na
primjer, model sa dvije nezavisne varijable može se upoređivati sa modelom sa tri nezavisne
varijable za procjenu poboljšanja dobivenih dodavanjem jedne nezavisne varijable. U ovakvim
slučajevima, jedan model je označen kao nulti model i komparira se sa drugim modelom.
Hi-kvadrat test i slični testovi za statističku značajnost su korišteni da procijene smanjenja LL
vrijednosti. Ovi testovi su naročito osjetljivi na veličinu uzorka ( manji uzorci su slabije
reprezentativni). Zbog toga istraživač mora biti posebno pažljiv kod donošenja zaključaka
baziranih jedino na značajnosti Hi-kvadrat testa u logističkoj regresiji.

15
2.2. Pseudo R² mjere

Kao dopuna Hi-kvadrat testovima, razvijeno je nekoliko mjera sličnih R²-mjerama i


predstavljeni su u raznim statističkm programima da bi reprezentovali sveukupan model
prilagođavanja. Ove pseudo R² mjere su interpretirane na način sličan koeficijentima
determinacije u višestrukoj regresiji. Vrijednost pseudo R² može se lako izvesti za logističku
regresiju, kao R² vrijednost u regresijskoj analizi. Pseudo R² za logit model može se računati
kao:

Kao i kod višestruke regresje, logit R² vrijednost se kreće u intervalu od 0.0 do 1.0. Kako
predloženi model povećava prilagođeni model, vrijednost -2LL ga smanjuje. Svršen fit ima –
2LL vrijednost od 0.0 i R² LOGIT od 1.0.
Druge dvije mjere su slične vrijednosti pseudo R² i u suštini su kategorizovane kao pseudo R²
vrijednosti. Cox i Snell R² mjere djeluju na isti način, viskokim vrjednostima prikazuju
boljifitovan model. Ova mjera je ograničena na način da ne može dostići maksimalnu vrijednost
od 1, pa Nagelkerke predlaže modifikaciju koju nosi niz od 0 do 1. Obje dopunske mjere
odražavaju iznos varijacija procijenjenih logističkim modelom, gdje bi vrijednost 1.0
predstavljala savršen prilagođavajući model.

 Usporedba sa višestrukom regresijom.


U procesu procjene modela logističe regresije, naveli smo nekolko sličnosti sa modelom
višestruke regresije, tj. sličnosti mjera za procjenu ova dva modela. U narednoj tabeli prikazana
je sličnost u konceptima korištenim u višetrukoj regresji i logističkoj regresiji.

 Tačnost predviđanja.
Kao što smo uzeli mjeru R2 iz regresije kao mjeru sveukupnog modela prilagođavanja, tako
možemo uzeti analizu diskriminante za mjeru tačnosti predviđanja. Dva najčešća pristupa su
klasifikaciona matrica i Hi-kvadrat test.

2.3. Klasifikaciona matrica

Pristup klasifikacione matrice je identičan sa postupkom diskriminacione analize, koja mjeri


koliko je dobro grupno članstvo predvidilo i razvilo pogođeni omjer, što se predstavlja
procentom ispravno klasificiranih podataka. Logistička regresija uključuje dvije grupe, ali
vezanih za prilike, mjera korištenih ranije za diskriminacionu analizu.

2.4. Mjere bazirane na Hi-kvadrat testu

16
Hosmer i Lemeshow razvili su klasifikacioni test gdje su slučajevi najprije podijeljeni na
približno 10 jednakih kategorija. Onda, broj stvarnih i predviđenih događaja je upoređivan u
svakoj kategoriji sa Hi-kvadrat statistikom. Ovaj test omogućava sveobuhvatnu mjeru tačnosti
predviđanja koja nije bazirana na vrijednosti podudarnosti, već na stvarnim predviđanjim
zavisne varijable. Prikladno korištenje ovog testa zahtijeva uzorak veličine najmanje 50
slučajeva da bi bili sigurni da svaka klasifikacija ima najmanje 5 opažanja i generalno, čak i
veći uzorak zbog broja predviđenih događaja ne bi trebao pasti ispod 1. Hi-kvadrat test je
osjetljiv na veličinu uzorka, onemugućavajući mjerenje manjih statističkih značajnih razlika
kada je veličina uzorka poraste.

3. INTERPRETACIJA REZULTATA U LOGISTIČKOJ REGRESIJI

17
Kao što smo ranije naveli, rezultati modela logističke regresije u koeficijentima za nezavisne
varijable dosta sliče regresionim koeficijentima i poprilično se razlikuju od diskriminacione
analize.Većina dijagnostika vezanih za višestruku regresiju za utjecajna posmatranja su takođe
dostupni u logističkoj regresiji. Ono što ih razlikuje jeste interpretacija koeficijenata. Zbog
transformacije zavisne varijable u procesu opisanom ranije, koeficijenti moraju biti vrednovani
na specifičan način.

• Testiranje značajnosti koeficijenata


Logistička regresija testira hipoteze o individualnim koeficijentima kao što je slučaj i kod
višestruke regresije. U višestrukoj regresiji, statistički test je provođen da bi se utvrdilo da li je
koeficijent različit od 0. Koeficijent od 0 pokazuje da koeficijent nema utjecaja na zavisnu
varijablu. U logističkoj regresiji takođe koristimo statističke testove da bi ustanovili da li je
logistički koeficijent različit od 0. Međutim, u logističkoj regresiji korištenje logit kao zavisne
mjere, vrijednost od 0 odgovara koeficijentu od 1.0 ili vjerovatnoći od 0.50 – vrijednosti koja
pokazuje da je vjerovatnoća ista za obje grupe.
U višestrukoj regresiji, vrijednost t je korištena za procjenu značajnosti svakog koeficijenta.
Logistička regresija koristi drugačije mjere, tačnije Wald statistika. Ova mjera omogućava
statističku značajnost za svaki koeficijent u statsitičkoj značajnosti, možemo ih intepretirati na
način kako oni utiču na procijenjenu vjerovatnoću.

3.1. Interpretacija koeficijenata

Jedna od prednosti logističke regresije jeste ta da je potrebno jedino da znamo da li se događaj


desio ili ne, da bi definisali dihotomnu vrijednost kao zavisnu varijablu. Kada analiziramo ove
podatke koristimo logističku transformaciju, logističku regresiju i njene koeficijente koji
preuzimaju nešto drugačije značenje od onih sa metričkom zavisnom varijablom. Slično tome,
diskriminantna opterećenja od dvije grupe diskriminantnih analiza različito su interpretirana od
logističkih koeficijenata.
Iz ranijeg procesa procjene, znamo da su koeficijenti ( B0, B1, B2, .... Bn) ustvari mjere promjena
u intervalu vjerovatnoće. Međutim, logističke koeficijente teško je interpretirati u njihovoj
orginalnoj formi jer su izraženi u formi logoritma onda kada koristimo logit kao zavisnu mjeru.
Većina kompjuterskih programa mogućavaju izračunavanje eksponencijalnog logističkog
koeficijenta, koji se koristi u transformaciji originalnog logističkog koeficijenta. Na taj način,
možemo koristiti ili originalni ili eksponencijalni logistički koeficijent za interpretaciju. Dva
tipa logističkih koeficijenata razlikuju se u tome što reflektuju povezanost nezavisne varijable
sa dvije forme zavisne varijable, kao što je prikazano u nastavku:

U nastavku ćemo pokazati na koji način svaka od ovih formi koeficijenata utiče na smijer i
dimenziju veza između nezavisnih varijabli, što zahtijeva različite metode interpretacije.

 Smjer odnosa
Smjer odnosa odražava promjene u zavisnoj varijabli povezane sa promjenama u nizu varijabli.
Pozitivan odnos znači da je povećanje nezavisne varijable povezano sa povećanjem

18
vjerovatnosti i predvidnosti i obratno za negativni odnos. Tako se smjer odnosa ogleda
drugačije za izvorne i eksponencijalne logističke koeficijente.

 Tumačenje smjera originalnih koeficijenata


Znak originalnih koeficijenata pokazuje smjer odnosa ali to je vidljivo samo kod regresijskih
koeficijenata. Pozitivan koeficijent povećava vjerovatnost, gdje negativna vrijednost smanjuje
vjerovatnost jer su izvorni koeficijenti izraženi u smislu logit vrijednosti gdje se vrijednost od
0.0 izjednačava sa koeficijentima vrijednosti 1.0 i vjerovatnosti od 50. Dakle ,negativni brojevi
se odnose na koeficijent manji od 1.0 i vjerovatnostti manje od 50 godina.

 Tumačenje smjera eksponencijalnih koeficijenata


Eksponencijalni koeficijenti se moraju tumačiti drugačije jer oni su logaritmi izvornog
koeficijenta. Uzimanjem logaritma ,mi zapravo navodimo eksponencijalni koeficijent u smislu
izgleda, što znači da eksponencijalni koeficijenti neće imati negativne vrijednosti. Budući da
logaritam 0 iznosi 1.0 eksponencijalnog koeficijenta 1.0 zapravo odgovora odnosu bez smjera.
Dakle,eksponencijalni koeficijenti 1.0 odražavaju pozitivan odnos a manje od 1.0 negativan
odnos.

 Primjer tumačenja
Pogledajmo jednostavan primjer da se vidi šta mislimo u smislu razlike između dva oblika
logističkih koeficijenata. Bi ,ako je pozitivan, njegova transformacija će biti veća od 1, što znači
da će se povećati izgledi za pozitivne promjne u nezavisnoj varijabli. Tako će model imati veću
predviđenu vjerovatnost pojavljivanja. Isto tako, ako je Bi negativni eksponencijalni koeficijent
manji od 1.0 i on će biti smanjen.

3.2. Veličine o odnosu nezavisnih metričkih varijabli

Kako bi se utvrdilo kolika je vjerovatnosot da će se promijeniti s obzirom na jednu jedinicu


promjene nezavisne varijable,moraju se ocijeniti brojčane vrijednosti koeficijenata. Baš kao i
kod višestruke regresije ,koeficijenti za metričke i nemetričke varijable moraju se tumačiti
drugačije jer svaka odražava različite uticaje na zavisnu varijablu. Za metričke varijable, pitanje
je:
-Koliko će se promijenti vjerovatnoća promjene za svaku jedinicu promjene nezavisne
varijable?

U višestrukoj regresiji ,znali smo da je koeficijent regresije nagib lineranog odnosa zavisnih i
nezavisnih mjera. Naznačeno je da je koeficijent 1.35 zavisna varijabla i povećava se za 1.35
jedinicu svaki puta kad je nezavisna varijabla veća za jednu jedinicu. Kod logističke regresije
znamo da imamo nelinearni odnos ograničen između 0 i 1 pa je vjerovatno da će se koeficijenti
drugačije tumačiti.

 Eksponencijalni logistički koeficijenti

19
Eksponencijalni koeficijenti izravno odražavaju veličinu promjene odnosa koeficijenata
vrijednosti. Budući da su eksponenti, oni se malo drugačije tumače. Njihov utjecaj je višestruk
što znači da se koeficijent efekta dodaje na zavisne varijable. Kao takav, eksponencijalni
koeficijent 1.0 označava nikakvu promjenu.( 1.0xnezavisna varijabla=bez promjene).Ovaj
rezultat odgovara našoj ranijoj raspravi gdje eksponencijalni koeficijenti manji od 1.0
odražavaju negativne promjene a veći od 1.0 pozitive odnose.

Postotak promjene u omjerima: (Eksponencijalni koeficijent-1.0)x100

Sljedeći primjeri ilustriraju kako izračunati vjerovatnosti promjene zbog jedne jedinice
promjene nezavisne varijable za niz eksponencijalnih koeficijenata:

Vrijednosti
Eksponencijalni koeficijent (e *;) 20 50 1.0 1.5 1.7
Eksponencijalni Koeficijent - 1,0 -80 -50 0.0 50 70
Postotak promjene u omjerima -80% -50% 0% 50% 70%

Ako je eksponencijalni koeficijent 0,20, jedna jedinica promjena nezavisne varijable smanjuje
izglede za 89%. Isto tako,eksponencijalni koeficijent 1,5 označava 50%-tno povećanje u omjeru
vjerovatnosti.Istraživač koji zna postojeće koeficijente i ima želju za izračunavanjem
koeficijenata nove vrijednosti za promjene nezavisne varijable mogu to učiniti izravno preko
eksponencijalnih koeficijenata kako slijedi:

Novi vrijednost vjerovatnoće= Stara vrijednost vjerovatnoće x Exponencijalni koeficijent


x Promjena nezavisne varijable.

 Tumačenje veličine za nemetričke vještačke nezavisne varijable

Kao što smo razgovarali u višestrukoj regresijsiji, „dummy“ varijable predstavljaju jednu
kategoriju od nemetričkih varijabli. Kao takvi, one nisu kao metričke varijable koje se razlikuju
u širokom rasponu vrijednosti,umjesto da budu samo na vrijednosti 1 i 0 što ukazuje na
prisutnost ili odsutnost karakteristikama. Eksponencijalni koeficijenti su najbolje sredstvo
za tumačenje utjecaja vještačkih varijabli.

 Izračun vjerovatnosti za određenu vrijednost nezavisne varijable

U ranijoj raspravi o pretpostavljenoj raspodjeli mogućih zavisnih varijabli, opisana je krivulja


S-oblika i logistička krivulja. One predstavljaju odnos između zavisnih i nezavisnih
varijabli.Iako je proces transformacije uzimanja logaritma,transformacija odnosa, istraživač
mora zapamtiti da koeficijenti predstavljaju zapravo različite staze u odnosima u cijeloj
vrijednosti nezavisne varijable. Na taj način, u obliku slova S-distribucija se može procijeniti.

 Pregled tumačenja koeficijenata

20
Sličnost koeficijenata onima u višestrukoj regresijskoj je bio glavni razlog za
popularnost logističke regresije. Kao što smo vidjeli u prethodnoj raspravi, mnogi aspekti su
vrlo slični, ali jedinstvena priroda zavisne varijable i logaritamskog oblika varijable zahtijeva
nešto drugačiji pristup tumačenju . Istraživači još uvijek imaju sposobnost procjene smjera i
veličine svake nezavisne varijable o utjecaju na zavisnu mjeru.

Logistička regresija je najbolja metoda za dvije grupe binarnih zavisnih varijabli zbog svoje
jednostavnosti interpretacije a dijagnostika uzorka razmatranja za logističke regresije je
prvenstveno usmjerena na veličinu svake skupine, a uzorci trebaju biti ispunjeni.

• model se ispituje sa hi-kvadrat testom o razlikama u vrijednostima između dva modela,


• koeficijenti su izraženi u dva oblika : originalni i eksponencijalni kako bi pomogli u
interpretaciji,
• interpretacija koeficijenata za smjer i veličinu je kao što slijedi:
• smjer mogu izravno da procjenjuju u izvornim koeficijentima ili neizravno u
eksponencijalnim koeficijentima.

Veličine se najbolje ocjenjuju eksponencijalnim koeficijentima sa postotkom promjene u


zavisnoj varijabli prikazano po :

Postotna promjena = ( eksponencijalni koeficijent -1.0) x 100

3.3. Provjera rezultata

Konačna faza u logističkoj regresiji je analiza osiguravanja vanjske kao i unutrašnje valjanosti
rezultata. Iako logistička regresija nije tako osjetljiva kao diskriminacijska analiza na
“preskakanja “ rezultata, proces validacije je još uvijek bitan,pogotovo sa manjim uzorcima.
Najčešći pristup za vanjsku valjanost je procjena omjera kroz hit ili poseban uzorak ili koristeći
postupak koji obrađuje procjenu uzorka.

Najčešći oblik validacije je stvaranje holdout uzorka (takođe se spominju kao valjanosti uzorka)
koja je odvojena od analize uzorka za procjenu modela. Cilj je primijeniti logistički model za
potpuno odvojen skup ispitanika za procjenu razine postignute tačnosti predviđanja.

Pristup ovome je križ valjanosti koji koristi varijantu holdout uzorka gdje test vanjske valjanosti
koristi više podskupova od ukupnog uzorka. Najrašireniji pristup je “nož na sklapanje “ koji se
temelji na : “ostaviti jednu van” principu.
Obično se analiza izvodi na k-1 poduzorku. Nakon što su svi poduzorci analizirani ,
klasifikacija matrica je izgrađena i pogođeni omjer se izračunava u svakom poduzorku.

4. ILUSTROVAN PRIMJER LOGISTIČKE REGRESIJE

4.1 Procjena modela logističke regresije i procjena cjelokupnog prilagođavanja

21
Prije nego što proces procjene počne ,moguće je pregledati pojedine varijable i procijeniti
univarijatne rezultate u smislu razlika između skupina. S obzirom da su ciljevi diskriminacijske
analize i logističke regresije isti ,možemo koristiti iste mjere diskriminacije za procjenu
univarijatnih učinaka.
Ako smo ispitali razlike u dvije skupine na 13 nezavisnih varijabli, naći ćemo da je 5 varijabli
(X6, X11, X12, X13,i X17) imalo statističke značajne razlike između dvije skupine. Takođe
možemo očekivati multikolinearnosti među ovim varijablama jer obje X6 i X13 su bile faktor
vrijednosti proizvoda ,porijeklom od faktorske analize. Logistička regresija utiče na
multikolinearnosti nezavisnih varijabli na sličan način kao i kod diskriminacijske analize i
regrsijske analize.

Baš kao i kod diskriminacijske analize,ovih 5 varijabli će biti logični kandidati za uključenje u
logističku regresiju koja varira jer oni pokazuju najveće razlike između skupina. Logistička
regresija može sadržavati jednu ili više tih varijabli u modelu.

4.1.1 Postupni model procjene

Procjenjuje se poput višestruke regresije u smislu da osnovni model prvi se procjenjuje kako bi
osigurao standard za usporedbu. Kod više struke regresije, srednja vrijednost se koristi za
postavljanje osnovnog modela i izračunavanje ukupnog broja kvadrata. Od ovog modela,
parcijalne koleracije za svaku varijablu mogu biti osnovane i najviše diskriminiraju varijablu
koja je izabrana u postupnom modelu u skladu sa kriterijima za odabir.

Gr.0 USA/s.Amerika Gr.1 Izvan S.Amerike


Nezavisne varijable (n=26) (n=34) F Značenje
vrijednost
X6 Kakvoća proizvoda 8527 7297 14387 000
X7 E-kom.aktivnosti 3388 3626 2054 157
X8 Tehnička podrška 5569 5050 1598 211
X9 Žalba rezolucija 5577 5253 89 361
X10 Oglašavanje 3227 3979 5 382
X11 Produktna linija 6785 5274 25500 000
X12 Slika prod.osoblja 4427 5238 9733 003
X13 Konkurente cijene 5600 7418 31992 000
X14 Jamstvo i tužbe 6050 5918 453 503
X15 Novi proizvodi 4954 5276 600 442
X16 Red i naplata 4231 4053 087 769
X17 Cijena i fleksibil 3631 492 31699 000
X18 Brzina isporuke 3873 3794 152 698

Tabela 1

 Procjena osnovnog modela

22
Kartica e 2 sadrži rezultate za osnovni model logističke regresijske analize na temelju 60
posmatrača u analizi uzorka. Udruživanje koristi u logističkoj regresiji ,prema statističkim
rezultatima je mjera kojom se koriste za odabir varijabli u postupnom postupku.
Nekoliko kriterija mogu se koristiti za vođenje unosa:
-najveća smanjenja u ILL vrijednosti
-najveći koeficijent Wald,
-ili najviše uslovna vjerovatnost.

 Dodavanje prve varijable X13

Kao što se očekivalo X13 je izabran za upis u prvi korak u procesu procjene.
Pregled rezultata, međutim, prepoznaje dva razloga za razmatranje dodatne faze za
dodavanje varijabli u modelu logističke regresije.
Prvo, tri varijable ne u tekućem logističkom modelu imaju statistički značajan rezultat što znači
da bi se njihovo uključivanje moglo znatno poboljšati u ukupnom modelu.
Drugo,ukupni pogođeni omjer za holdout uzorak je dobar,ali jedna od skupina ima
neprihvatljivo nizak pogođeni omjer od 30.8%.

 Dodavanje druge varijable X17

Jedan ili više koraka u postupku će postepeno rezultirati uključivanjem svi nezavisnih varijabli
sa značajnim statističkim rezultatom kao i postizanje prihvatljivih pogođenih omjera i za
analizu uzoraka.

Nezavisne varijable Statistički rezultat Značenje


X6 Kakvoća proizvoda 11.925 001
X7 E-kom.aktivnosti 2.052 152
X8 Tehnička podrška 1.609 205
X9 Žalba rezolucija 866 352
X10 Oglašavanje 791 7
X11 Produktna linija 18.323 000
X12 Slika prod.osoblja 8.622 003
X13 Konkurente cijene 21.330 000
X14 Jamstvo i tužbe 465 495
X15 Novi proizvodi 614 433
X16 Red i naplata 090 764
X17 Cijena i fleksibil 21.204 000
X18 Brzina isporuke 157 692

Tabela 2- Logistička regresija –osnovni model

X17 sa najvise bodova nakon dodavanja statistike X13 izabran je za ulazak u drugom koraku.
Dvije varijable ,logistički model ,uključujući X13 i X17 će biti konačni modeli koji će se
koristiti za potrebe procjene modela fit.

4.2. Procjene sveukupnog modela prilagođavanja

23
U izradi procjene ukupnog nastupa u logističkom regresijskom modelu možemo izvući tri
pristupa:
• statističke mjere cjelokupnog prilagođenog modela
• R2 mjere,
• tačnost i klasifikacije
Svaki od tih pristupa će se istražiti za ne-varijable i dvije varijable logističkih regresijskih
modela koje su rezultirale u postupnom postupku.

 Statističke mjere
Prva statistička mjera je Hi kvadrat test koji je uporediv sa ukupnim F testom u višestrukoj
regresiji.
Druga statistička mjera je Hosmer i Lehmeshow mjera. Ovaj statistički test
mjeri dopis od stvarnih i predviđenih vrijednosti zavisne varijable. U tom slučaju, bolji
model prilagođavanja je označen u manjoj razlici u opsluživanju i predviđanju u klasifikaciji.

TABELA 3: Postupna procjena logističke regresije:uključujući X13 (konkurentne cijene)

24
Forma ukupnog modela : goodness-of-fit mjere
Promjene u -2LL
Iz osnovnog modela Iz prethodnog koraka

Vrijednost Promjena Značenje Promjena Značenje


-2 Log
Vjerovatnost 56.971 25.136 .000 25.136 .000
Cox u Snell R2 .342
Nagelkerke R2 .459
2
Pseudo R .306
Vrijednost Značenje
2
Hosmer i Lemeshow X 17.329 .027
Varijable u jednadžbi

Nezavisna varijabla B std.greška Wald df Značenje Exp(B)


X13 konkurentne cijene 1.129 .287 15.471 1 .000 3.092
Konstanta -7.008 1.836 14.57 1 .000 .001
B=logistički koeficijent , Exp(B)=eksponencijalni koeficijent
Varijable koje nisu u jednadžbi
Nezavisne varijable Statistički rezultati Značenje
X6 Kvalitet proizvoda 4.859 .028
X7 E-commerce aktivnosti .132 .716
X8 Tehnička podrška .007 .932
X9 Prigovor rezoluciji 1.379 .240
X10 Reklame .129 .719
X11 Linija proizvoda 6.154 .013
X12 Slika prodajnog osoblja 2.745 .098
X14 Jamstvo i potraživanja .640 .424
X15 Novi proizvodi .344 .557
X16 Narudžbe i naplate 2.529 .112
X17 Fleksibilnost cijena 13.723 .000
X18 Brzina isporuke 1.206 .272

Klasifikacija matrica
Predviđanje članstva u grupi2

ANALIZA UZORKA3 HOLDOUT UZORAK4

X4 regija X4 regija

Stvarna skupina SAD/ Van SAD/ Van

2
Vrijednosti u zagradama su postotak ispravno klasificiranih (hit ratio)
3
73.3% od analize uzorka je ispravno klasificirano
4
75.% od holdout uzorka je ispravno klasificirano

25
članova S.Amerika S.Amerike total S.Amerika S.Amerike total

SAD/ 19 7 26 4 9 13
S.Amerika (73.1) (30.8)

Van 9 25 34 34 26
S.Amerike (73.5) (96.3) 27

TABELA 4:Postupna procjena logističke regresije: uključujući X17 (konkurentne cijene)

Forma ukupnog modela: goodness-of-fit mjere


Promjene u -2LL
Iz osnovnog modela Iz prethodnog koraka

Vrijednost Promjena Značenje Promjena Značenje


-2 Log
Vjerovatnost 39.960 42.148 .000 17.011 .000
Cox i Snell R2 .505
Nagelkerke R2 .677
Pseudo R2 .513
Vrijednost Značenje
2
Hosmer i Lemeshow X 5.326 .722
Varijable u jednadžbi
Nezavisna varijabla B Std.greška Wald df Značenje Exp(B)
X13 Konkurentna cijena 1.079 .357 9.115 1 .003 2.942
X17 Fleksibilnost cijena 1.844 .639 8.331 1 .004 6.321
Konstanta -14.192 3.712 14.614 1 .000 .000
B=logistički koeficijent, Exp(B)= eksponencijalni koeficijent

Varijabel koje nisu u jednadžbi


Nezavisne varijable Statistički rezultati Značenje
X6
Kvalitet proizvoda .656 .418
X7 E-commerce aktivnosti 3.501 .061
X8 Tehnička podrška .006 .937
X9 Prigovor rezoluciji .693 .405
X10 Reklame .091 .762
X11 Linija proizvoda 3.409 .065
X12 Slika prodajnog osoblja . 849 .357
X14 Jamstvo i potraživanja 2.327 .127
X15 Novi proizvodi . 026 .873
X16 Narudžbe i naplate . 000 .919
X18 Brzina isporuke 2.907 .088
Klasifikacija matrica

26
Predviđanje članstva u grupi5

ANALIZA UZORKA 6 HOLDOUT UZORAK7

X4 regija X4 regija

Stvarna skupina SAD/ Van SAD/ Van


članova S.Amerika S.Amerike total S.Amerika S.Amerike total
SAD/ 25 1 26 9 4 13
S.Amerika (96.2) (69.2)

Van 6 28 34 2 25 27
S.Amerike (82.4) (92.6)

Hosmer i Lemeshow-ov test pokazuje značaj za logistički model jedne varijable ( .027 iz tabele
3), što i dalje znači značajne razlike između stvarne i očekivane vrijednosti. Međutim, model s
dvije varijable smanjuje razinu signifikantnosti na 722 ( iz tabele 4), nesignifikantna vrijednost
ukazuje na to da je forma modela prihvatljiva. Za logistički model sa dvije varijable , obje
statistički utemeljene mjere cjelokupnog modela pokazuju da je model prihvatljiv i na statistički
značajnoj razini. Potrebno je, međutim, ispitati i druge mjere ukupnog modela da se ocijeni da
li su rezultati dobri za praktično značenje.

4.3. Pseudo R2 mjere

Tri raspoložive mjere su usporedive sa R2 mjerom u multiploj regresiji: Cox i Snell R2,
Nagelkerke R2 i pseudo R2 mjera zasnovana na smanjenju -2LL vrijednosti. Za model
logističke regresije sa jednom varijablom to su vrijednosti .342, .459 i .306, respektivno. U
kombinaciji, oni pokazuju da regresijski model sa jednom varijablom čini jednu trećinu
varijacija u zavisnoj mjeri. Iako se model sa jednom varijablom smatra statistički značajnim, R2
mjere su slabe za potrebe praktičnog značenja.
Model sa dvije varijable ima R2 vrijednosti svaku veću od .50, što znači da model logističke
regresije iznosi najmanje jednu polovinu razlike između dvije skupine kupaca. One će uvijek
željeti poboljsati ove vrijednosti, ali ta razina se smatra praktično značajnom u ovoj situaciji. R2
vrijednosti modela sa dvije varijable su pokazale materijalno poboljšanje nad modelom sa
jednom varijablom. Zajedno sa statistički utemeljenim mjerama modela, model se smatra
prihvatljivim kako u smislu statističke tako i u smislu praktične važnosti.

 Klasifikacija tačnosti.

Treći pregled cjelokupnog modela će biti procjena tačnosti klasifikacije modela u konačnoj
mjeri praktičnog značaja. Klasifikacija matrica, koje su identične onima u prirodi, korištene u
diskriminacijskim analizama, predstavljaju razine predviđanja tačnosti koje su postignute
logističkim modelom. Mjera tačnosti predviđanja koja se koristi je hit ratio, postotak svrstanih
slucajeva. Ove vrijednosti će biti izračunate za obje analize i holdout uzorke, te grupa
specifičnih mjera će biti ispitana u dodatku sa ukupnim mjerama. Osim toga, usporedbe se
5

Vrijednosti u zagradama su postotak ispravno kalsificiranib (hit ratio)


6
88.3 % od analize uzorka je ispravno klasificirano
7
85.0 % od holdout uzorka je ispravno klasificirano

27
mogu napraviti, kao što je to učinjeno u diskriminantnim analizama, da se uspoređuju standardi
koji predstavljaju razinu tačnosti predviđanja postignutu slučajno. Usporedba standarda za
klasifikaciju matrica hit ratia bit će iste kao i one izračunate dvogrupne diskiminacijske analize.
Vrijednosti su 65.5 posto za kriterij proporcionalne šanse ( željena mjera) i 76.3 posto za kriterij
maksimalne šanse.
Ukupni hit ratio za logistički model sa jednom varijablom su 73.3 % i 75,0% za analize i
holdout uzorke, respektivno. Iako su ukupni hit omjeri veći od proporcionalnog slučajnog
kriterija i usporedivi sa maksimalnim slucajnim kriterijom, značajan problem pojavljuje se u
holdout uzorku za SAD odnosno kupce Sjeverne Amerike gdje je hit omjer tek 30,8 %. Ova
razina je ispod oba standarda i zahtijeva da logisticki model bude prosiren u mjeri u kojoj će
ova grupa specifičnih hit ratia prelaziti standarde.
Model dvije varijable pokazuje značajan napredak u obje grupe ukupnih hit ratia, kao i skupina
specificnih vrijednosti. Ukupni hit omjeri povećali su se na 88,3 % i 85,0 % za analize i holdout
uzorke, respektivno. Štoviše,problematična specifična skupina hit ratia u uzorku holdout
povećana na 69,2 % iznad standardne vrijednosti za proporcionalno slučajni kriterij. Sa ovim
poboljšanjima u ukupnom i grupi specifičnih razina, logistički regresijski model sa dvije
varijable smatra se prihvatljivim u smislu klasifikacije tačnosti.
U odnosu na sve tri osnovne vrste mjera ukupnog modela, model s dvije varijeble pokazuje
prihvatljive razine i statističkih i praktičnih značenja. Sa ukupnog prihvatljivog modela,
skrećemo pažnju na ocjenu statističkih testova logističkih koeficijenata kako bi se utvrdili
koeficijenti koji imaju značajne odnose koji utiču na članstvou grupi.

 Statistička značajnost koeficijenata.

Procijenjeni koeficijenti za dvije nezavisne varijable i konstanta takođe se mogu vrednovati za


statističke značajnosti. Wald statistika koristi se za procjenu važnosti na način sličan t testu
korištenom u multiploj regresiji. Logistički koeficijenti za X13 i X17 i konstanta su svi značajni
na .01 nivou baziranom na statističkim testovima Wald-ove statistike. Druge varijable nemogu
ući u model i postići barem .05 razine značaja. Tako pojedine varijable su značajne i mogu se
tumačiti i identificirati odnosi utjecajnih predviđenih vjerovatnosti koje su naknadno dobile
članstvo u grupi.

 Casewise dijagnostike.

Analiza pogrešne klasifikacije pojedinih opažanja može dati bolji uvid u moguća poboljšanja
modela. Casewise dijagnosticiranja kao i reziduali i utjecajne mjere su na raspolaganju, kao i
profil analiza o kojoj je ranije raspravljano u diskriminacijskoj analizi. U tom slučaju, samo 13
slučajeva su pogrešno klasificirani (7 u analizi uzorka i 6 u holdout uzorku). S obzirom na visok
stepen podudarnosti između ovih pogrešno klasificiranih slučajeva i pogresno klasificiranih
slučajeva analizira u dvogrupnim diskriminantnim analizama, proces profiliranja neće biti
poduzet opet. Casewise dijagnostika kao i reziduali i utjecajne mjere su dostupni. S obzirom na
nisku razinu nepravilnosti, međutim, daljne analize pogresne klasifikacije su izvedene.

4.4. Interpretacija rezultata

Postupni postupak logističke regresije proizvodi varijable vrlo sličnoj onoj u dvije grupe
diskriminacijske analize, iako sa nezavisnom varijablom. Mi ćemo istraživati logističke

28
koeficijente za procjenu oba smjera i uticaj svake varijable koji ima na predviđenu vjerovatnost
i članstvo u grupi.

 Tumačenje logističkih koeficijenata.


Konačni logistički regresijski model uključuje dvije varijable sa logističkim regresijskim
koeficijentima 1.079 i 1.844, respektivno, i konstantu od – 14.190 ( vidjeti tabelu 4).
Usporedbom tih rezultata sa dvogrupnom diskriminacijskom analizom otkrivaju se gotovo
identični rezultati, jer diskriminantna analiza je obuhvatila tri varijable u dvogrupnom modelu
X13 i X17 zajedno sa X11.

 Smjer odnosa.

Da bi procijenili smijer odnosa svake varjable, ili izvorne logističke koeficijente ili
eksponencijalne koeficijente. Počet ćemo sa originalnim koeficijentima. Ako se prisjetite iz
našeg ranijeg razgovora, možemo interpretirati smjer odnosa izravno iz znaka originalnih
logističkih koeficijenata. U ovom slučaju obje varijable imaju pozitivne znakove, što ukazuje na
pozitvan odnos između obje nezavisne varijable i predviđene vjerovatnosti. Kako se vrijednosti
X13 i X17 povećavaju, predviđena vjerovatnost će se povećavati, čime se povećava vjerovatnoća
da će kupac biti kategoriziran kao da živi izvan Sjeverne Amerike.
Obraćajuči pažnju na eksponencijalne koeficijente, trebamo se prisjetiti da vrijednosti iznad 1.0
upućuju na pozitivan odnos i ispod 1.0 ukazuju na negativan odnos. U našem slučaju,
vrijednosti 2.942 i 6.319 takođe pokazuju pozitivne odnose.

 Veličina odnosa.

Najizravniji način ocjenjivanja veličine promjene vjerovatnosti zbog svake nezavisne varijable
je ispitati eksponencijalne koeficijente. Kao što je navedeno, eksponencijalni koeficijenri minus
jedan jednako je postotna promjena u izgledima. U našem slučaju, to znači da povećanje za
jedan bod povećava izglede 194 % za X13 i 513 % za X17. Ovi brojevi mogu prelaziti 100 % , jer
oni povećavaju izglede a ne vjerovatnosti samih sebe. Učinci su veliki, jer konstantni član
određuje polaznu tačku od skoro nula vjerovatnosti za vrijednosti. Dakle, velika povećanja u
izgledima su potreba da se dostigne veća vjerovatnoća vrijednosti.
Drugi pristup u razumijevanju kako logistički koeficijenti definišu vjerovatnost je dase izračuna
vjerovatnost predviđena za svaki skup vrijednosti za nezavisne varijable. Za nezavisne varijable
X13 i X17 koristit ćemo skupinu sredstava za dvije grupe. Na ovaj način, možemo vidjeti šta će
predviđena vjerovatnost biti za „tipičnog“ člana svake grupe.
Tabela 5 prikazuje izračune za predviđanje vjerovatnosti dvije grupe centroida. Prvo, izračunat
ćemo logit vrijednost za svaku grupu centroida umetanjem vrijednosti grupe centroida (npr.
5.60 i 3.63 za grupu 0 na X13 i X17, respektivno) u logit jednadžbi. Iz tablice 5 vidi se da su
ponderi procjenjeni na 1.079 i 1.844 za X13 i X17, respektivno, sa konstantom od -14.192. Dakle,
zamjena vrijednosti grupe centroida u ovoj jednadžbi rezultira u logit vrijednosti od -1.452
(grupa 0) i 2.909 (grupa 1). Uzimajući antilogaritam od logit vrijednost, to rezultira izgledima
od .234 i 18.332. Tada vrijednost grupe se izračunava kao njeni izgledi vrijednosti preko sume
izgleda za obje skupine. Ovi rezultati „tipičnog“ člana grupe 0 ima vjerovatnost da pogrešno
dodijeli grupi 1 od .189 (.89 = .234 /(.234 + 18.332)) i „tipični član“ grupe 1 ima vjerovatnost
od 948 da bude ispravno dodijeljen grupi 1.
Ovaj primjer pokazuje da logistički model ne stvara razmak između dvije grupe centroida u
smislu predviđene vjerovatnosti, što je rezultiralo odličnim razvrstavanjem postignutih rezultata
za obje analize i holdout uzorke.

29
Logistički koeficijenti definišu pozitivne odnose za obje nezavisne varijable i osiguravaju
sredstva za procjenu utjecaja promjena u jednoj ili objema varijablama i na taj način predviđa se
vjerovatnost. Postaje jasno zašto mnogi znanstvenici preferiraju logističku regresiju za
diskriminacijske analize kad su usporedbe napravljene na više korisnih informacija dostupnih iz
logističkih koeficijenata u odnosu na diskriminantna opterećenja.

4.5. Vrednovanje rezultata

Vrednovanje modela logističke regresije je ostvareno u primjeru na isti način koji je korišten u
diskriminacijskoj analizi: izrada analize i holdout uzoraka. Uvidom u pogođeni omjer za
holdout uzorke, istraživač može procijeniti vanjsku valjanost i praktično značenje modela
logističke regresije.

TABELA 5
Izračunavanje procijenjene vjerovatnosti vrijednosti za grupe centroida u X4 regiji

X4 (Regija)

Grupa 0 : Grupa 1:
SAD/Sjeverna Amerika Van S. Amerike

Centroid: X13 5.60 7.42


Cenroid: X17 3.63 4.93
Logit vrijednost8 -1.452 2.909
Izgledi9 .234 18.332
Vjerovatnoće10 .189 .948

Za konačni logistički regresijski model sa dvije varijable, hit omjeri za obje analize i holdout
uzorke prelazi sve usporedive standarde ( proporcionalnu priliku i kriterij maksimalne prilike).
Štaviše, sve grupe specifičnih hit omjera su dovoljno velike za prihvaćanje. Ovaj aspekt je
posebno važan za holdout uzorak, što je primarni pokazatelj vanjske valjanosti. Ovi rezultati
upućuju na zaključak da je logistički regresijski model pokazao dovoljno dobru vanjsku
valjanost za potpuno prihvaćanje rezultata, kao što smo našli kod modela diskriminacijske
analize.

 Menadžerski pregled

Logistička regresija prestavlja alternativu diskriminacijskoj analizi koja može biti više pogodna
za mnoge znanstvenike zbog svoje sličnosti sa višestrukom regresijom. S obzirom na robusnost
podataka i uvjeta koji mogu negativno utjecati na diskriminacijku analizu (npr. nejednake
matrice varijanse-kovarijanse), logistička regresija je takođe procjena željene tehnike u mnogim
aplikacijama.
U odnosu na diskriminacijsku analizu, logistička regresija daje usporedivu prediktivnu tačnost
sa jednostavnijom varijablom koja koristi istu materijalnu interpretaciju, samo sa jednom
varijablom manje. Od logostičke regresije, istraživač se može usredotočiti na konkurentne
cijene i cjenovnu fleksibilnost kao primarne varijable u razlikovanju između dvije skupine
8
Izračunato kao:Logit =-14.190 + 1.079X13 + 1.844X17
9
Izračunato kao:Izgledi = elogit
10
Izračunato kao: Vjerovatnoća = Izgledi/(1+Izgledi)

30
kupaca. Cilj u ovoj analizi nije povećati vjerovatnoću (kao što može biti slučaj analize uspjeha
u odnosu na neuspjeh), ali logistička regresija i dalje pruža jednostavan pristup za HBAT za
razumijevanje relativnog utjecaja svake nezavisne varijable u stvaranje razlika izmedju dvije
skupine kupaca.

5. PRIMJER LOGISTIČKE REGRESIJE SA ZAVISNOM VARIJABLOM NA


SLUČAJU ZAVISNOSTI NASTANKA KORONARNO SRČANIH BOLESTI OD
GODINA STAROSTI,PUŠENJA I GOJAZNOSTI

Kao primjer upotrebe logističke regresije može poslužiti primjer zavisnosti nastanka Koronarno
srčanih bolesti(KSB) od godina starosti, gojaznosti, pušenja i to na primjeru binarne logističke
regresije.
Binarna logistička regresija je tip regresione analize u kojoj je zavisna promjenljiva dihotomna i
najmanje jedna nezavisna je kontinuirana. Zavisne dihotomne promjenljive su česte u biologiji i
medicini.

CILJ:
 Pokazati da li su starost, pušenje i gojaznost faktori rizika za KSB
 Ako su faktori rizika kolika je “jačina” njihovog djelovanja

31
KSB god pus BMI KSB god pus BMI KSB god pus BMI
0 22 1 0 0 45 0 0 1 60 1 0
0 23 0 0 0 46 0 0 0 60 0 1
0 24 0 0 0 47 0 0 1 61 1 0
0 24 0 0 0 48 0 1 1 62 1 1
0 27 0 0 1 48 0 1 0 62 0 0
0 28 1 0 1 49 1 1 0 62 0 0
0 30 1 1 0 49 0 0 1 63 1 0
0 30 0 0 1 50 1 0 1 64 1 1
0 32 0 0 0 51 1 1 1 65 0 1
0 33 0 1 1 51 0 0 0 66 0 0
1 35 1 1 0 52 1 0 1 67 0 1
0 36 0 0 0 53 0 0 1 71 1 0
0 36 0 0 1 54 1 0 0 72 0 0
0 37 0 1 0 54 0 1 1 74 0 1
0 38 0 0 1 55 1 0 1 73 1 0
0 40 1 0 0 55 0 0 1 75 1 1
1 41 1 1 1 57 1 1 0 77 0 0
1 42 0 0 0 58 0 1 1 77 1 0
0 43 1 1 1 58 0 1 1 78 0 1
0 44 0 0 1 59 1 1 1 81 0 0

Dihotomna promjenljiva
j (dummy variable) kodira se:
0 – nepušač, nije gojazan ...
1 – pušač, gojazan...
Sa 1 se kodira ono što nas interesuje

Kako analizirati ove podatke?


1. Podijeliti ispitanike u dvije grupe prema statusu KSB i uporediti srednje vrijednosti godina
s
starosti
IIspitanici bez KSB: xsr = 44,2 g (Sd=14,65)
IIspitanici sa KSB: xsr = 60,4 g (Sd=12,16)
t = 4,55 p < 0,001
Ne vidi se uticaj pušenja i gojaznosti
2. Podijeliti ispitanike u dvije starosne grupe i uporediti frekvencije pojavljivanja KSB

> 50 g < 50 g
ukupno
f f% f f%

KSB + 20 62,5 6 21,4 26

KSB - 12 37,5 22 78,6 34

ukupno 32 100 28 100,0 60

Analiza:
 t – test za proporciju: f KSB+ kod starijih : f KSB+ kod mlađih (t = 3,56, p < 0,01)
 ili χ2 - test

32
3. Podijeliti ispitanike u više starosnih grupa i uporediti frekvencije pojavljivanja KSB

god f KSB %
20-29 6 0 0
30-39 9 1 11
40-49 12 4 33
50-59 13 7 54
60-69 11 7 64
70-79 8 6 75
80-89 1 1 100
60 26

4. Podijeliti ispitanike u dvije grupe u odnosu na BMI i uporediti frekvencije pojavljivanja


KSB

gojazni negojazni
ukupno
f f% f f%

KSB + 13 59,1 13 34,2 26


KSB - 9 40,9 25 65,8 34

ukupno 22 100 38 100 60

Analiza:
 t – test za proporciju: f KSB+ kod mlađih : f KSB- kod starijih (t = 1,915 p > 0,05)
 ili χ2 – test

• Odds ratio (Relativni odds, Ukršteni odnos)

Odds Ratio (OR) je odnos šansi prethodne izloženosti kod slučajeva (prisutan neželjeni
događaj) i kontrola (odsutan neželjeni događaj):

neželjeni događaj
ukupno
prisutan (+) odsutan (-)
da (+) a b a+b
izloženost ne (-) c d c+d
ukupno a+c b+d a+b+c+d

33
 Odds za prisutan neželjeni događaj: a/c
 Odds za odsutan neželjeni događaj: b/d
 Odds ratio: (a/c) / (b/d) = ad/bc

KSB : Godine

KSB + KSB - ukupno

> 50 g 20 12 32

< 50 g 6 22 28

ukupno 26 34 60

 Odds za prisustvo KSB kod starijih:


20/6 = 3,333

 Odds za odsustvo KSB kod starijih:


12/22 = 0,545

 Odds ratio (OR)


3,333/0,545 = 6,11

Zaključak: Osobe starije od 50 g imaju 6,11 puta veću šansu da obole od KSB.

KSB : Pušenje

KSB + KSB - ukupno

pušači 16 7 23

nepušači 10 27 37
ukupno 26 34 60

 Odds za prisustvo KSB kod pušača:


16/10 = 1,6

 Odds za odsustvo KSB kod pušača:


7/27 = 0,259

34
 Odds ratio (OR)
1,6 / 0,259 = 6,18

Zaključak: Pušači imaju 6,18 puta veću šansu da obole od KSB.

KSB : Gojaznost

KSB + KSB - ukupno

gojazni 13 9 22

negojazni 13 25 38
ukupno 26 34 60

 Odds za prisustvo KSB kod gojaznih:


13/13 = 1

 Odds za odsustvo KSB kod gojaznih:


9/25 = 0,36

 Odds ratio (OR)


1 / 0,36 = 2,78

Zaključak: Gojazne osobe imaju 2,78 puta veću šansu da obole od KSB.

LOGISTIČKA REGRESIJA

Logistička regresija omogućava da se izračuna jednačina koja izražava relaciju između


binarnog ishoda i jednog ili više faktora uticaja (prediktora):
o vjerovatnoća za pojavu KSB i godine starosti
o vjerovatnoća za pojavu KSB i pušenje
o vjerovatnoća za pojavu KSB i gojaznost
o vjerovatnoća za pojavu KSB i godine starosti + pušenje
o vjerovatnoća za pojavu KSB i godine starosti + gojaznost
o vjerovatnoća za pojavu KSB i godine starosti + pušenje + gojaznost

Za jedan prediktor funkcija glasi:


 p 
log   = b0 + b1 x1
1− p 

35
gdje su:
 b0 i b1 – regresioni koeficijenti
 p – vjerovatnoća za pojavu KSB
 x1 – godine ili pušenje ili gojaznost

Za tri prediktora funkcija glasi:

 p 
log   = b0 + b1 x1 + b2 x2 + b3 x3
1− p 

gdje su:
 b0 , b1 , b2 i b3 – regresioni koeficijenti
 p – verovatnoća za pojavu KSB
 x1 – godine
 x2 – status pušenja
 x3 – gojaznost

Odds za neki događaj je:  p 


odds =  
 1 − p 

 p 
Odnosno log ( odds ) = log   = b0 + b1 x1
1− p 

gdje je p vjerovatnoća da se događaj desi. Što je odds nekog događaja veći, to je veća
vjerovatnoća da se događaj desi.

Logistička regresija u SPSS-u

Podaci se unose u više kolona: zavisna (binarna) i nezavisne promenljive:


 Analyze, Regression, Binary Logistic
 Dependent : KSB
 Covariates: godine
 Method: Enter
 Options: označiti CI for exp(B)
 Continue
 OK

KSB: GODINE

36
Variables in the Equation

95,0% C.I.for EXP(B)


B S.E. Wald df Sig. Exp(B) Lower Upper
Step
a
GODINE ,085 ,024 12,268 1 ,000 1,089 1,038 1,142
1 Cons tant -4,744 1,339 12,558 1 ,000 ,009
a. Variable(s ) entered on s tep 1: GODINE.

b0 b1
p OR

log ( odds ) = −4,744 + 0,085 × godine


p je verovatnoća za pojavu KSB

OR = e0,085 = 1,089

Interpretacija koeficijenata b0 i b1

b0 - neophodan za jednačinu, nema značaja za interpretaciju ,predstavlja vrijednost log odds


kada je prediktor jednak 0.
U regresionom modelu KSB : Godine b0 je log odds za pojavu KSB za osobu koja je stara 0
godina
b1 > 0 – pozitivna asocijacija između prediktora i log odds za pojavu događaja koji nas
interesuje
b1 = 0 – nema asocijacije između prediktora i log odds za pojavu događaja koji nas interesuje
b1 < 0 – negativna asocijacija između prediktora i log odds za pojavu događaja koji nas
interesuje

U regresionom modelu KSB : Godine b1 > 0, odnosno postoji pozitivna asocijacija između
godina starosti i log odds za pojavu KSB . b1 je frakcija za koju se promjeni rizik za pojavu
KSB kada se godine starosti (x) promjene za jednu jedinicu.

P
Primjer
o
osoba 1, starost (x) = k godina
osoba 2, starost (x) = (k + 1) godina
 JJednačine za log odds glase
llog (odds za KSB kod osobe 2) = b0 + b1 (k + 1)
log (odds za KSB kod osobe 1) = b0 + b1 (k)
 Dalje:
D
llog (odds za KSB kod osobe 2) = b0 + b1 (k) + b1
log (odds za KSB kod osobe 1) = b0 + b1 (k)
 Razlika između log odds osobe 1 i osobe 2:

37
l (odds za KSB kod osobe 2) = b0 + b1 (k) + b1
log
log (odds za KSB kod osobe 1) = b0 + b1 (k)

 log odds za pojavu KSB kod osobe 2 starosti (k + 1) godina razlikuje se od log odds za
pojavu KSB kod osobe 1 starosti (k) godina za vrijednost koeficijenta b1

b1 = log ( odds za pojavu KSB kod osobe 2 ) −


- log ( odds za pojavu KSB kod osobe 1)

odds za pojavu KSB kod osobe 2 O


b1 = log
odds za pojavu KSB kod osobe 1

b1 = log ( odds ratio )

odds ratio ( OR ) = e b1

• b1 = 0 , odds i vjerovatnoća za pojavu željenog događaja su jednaki za sve vrijednosti x


(eb1 = OR = 1)
• b1 > 0, odds i vjerovatnoća za pojavu željenog događaja se povećavaju sa povećanjem
vrijednosti x (eb1 = OR > 1)
• b1< 0, odds i vjerovatnoća za pojavu željenog događaja se smanjuju sa smanjenjem
vrijednosti x (eb1 = OR

KSB : Pušenje

38
log ( odds ) = −1,099 + 1,986 × pušenje

KSB : Gojaznost

log ( odds ) = −0,734 + 1,176 × gojaznost

KSB : (Godine + Pušenje)

log ( odds ) = −6,703 + 0,101 × godine + 2,566 × pušenje

39
> 50 g < 50 g
p u š a č i n epu š a č i p u š a č i n ep u š a č iu k u p n o
f f f f
KSB + 13 7 4 2 26

K S B- 2 10 5 17 34

ukupno 32 28 60

> 50 g < 50 g
p u š a č i n e pu š a č i p u š a č i n e p u š a č i
f% f% f% f%
KSB + 40 ,6 2 1 ,9 14 ,3 7 ,1

K S B- 6 ,3 31 ,3 17 ,9 6 0 ,7

ukupno 100 100

70

60

50

40
%
30

20

10

0 KSB -
pušači KSB +
> 5 0 g n e p u š a č ip u š a č i
< 50 g nepušači

K S B +K S B -

Na grafiku se vidi pozitivna korelacija između godina i pušenja i njihovog uticaja na KSB

KSB : (Godine + Gojaznost)

40
Variables in the Equation

95,0% C.I.fo r EXP(B)


B S.E. Wald df Sig. Exp(B) Lo wer Upper
Step
a
GODINE ,086 ,025 11,659 1 ,001 1,090 1,037 1,145
1 BMI 1,186 ,644 3,393 1 ,065 3,27 4 ,927 11,564
Co ns tant -5,297 1,461 13,144 1 ,000 ,005
a. Variable(s) entered o n s tep 1: GODINE, BMI.

p OR

log ( odds ) = −5,297 + 0,086 × godine + 1,186 × gojaznost

> 50 g < 50 g
gojazni negojazni gojazni negojazni ukupno
f f f f
KSB + 10 10 4 2 26

KSB - 4 8 5 17 34

ukupno 32 28 60

> 50 g < 50 g
gojazni negojazni gojazni negojazni
f% f% f% f%
KSB + 31,3 31,3 14,3 7,1

KSB - 12,5 25,0 17,9 60,7

ukupno 100 100

Grafik pokazuje ne postoji pozitivna korelacija između godina i pušenja i verovatnoće nastanka
KSB

60

50

40

% 30

20

10

0 KSB -
gojazni KSB +
pušači negojazni
gojazni
nepušači negojazni

KSB + KSB -

KSB : (Godine + Pušenje + Gojaznost)

Variables in the Equation

95,0% C.I.for EXP(B)


B S.E. Wald df Sig. Exp(B) Lower Upper
Step
a
GODINE ,106 ,031 11,467 1 ,001 1,112 1,046 1,182
1 PUSENJE 2,615 ,819 10,197 1 ,001 13,666 2,745 68,029
BMI 1,27 1 ,7 49 2,883 1 ,090 3,565 ,822 15,464 41
Co nstant -7 ,587 2,055 13,631 1 ,000 ,001
a. Variable(s) entered o n step 1: GODINE, PUSENJE, BMI.
OR
p

log ( odds ) = −7,587 + 0,106 × godine + 2,615 × pušenje + 1,271 × gojaznost

Faktori rizika za KSB

pre d ik to r OR p
g o d in e 1 ,0 8 9 p < 0 ,0 0 1
p u š e n je 7 ,2 8 6 p = 0 ,0 0 1
g o ja z n o s t 3 ,2 4 1 p = 0 ,0 3 4
g o d in e+ 1 ,1 0 6 p < 0 ,0 0 1
p u š e n je 1 3 ,0 1 6 p < 0 ,0 0 1
g o d in e+ 1 ,0 9 0 p = 0 ,0 0 1
g o ja z n o s t 3 ,2 7 4 p = 0 ,0 6 5
p u š e n je+ 7 ,2 9 0 p = 0 ,0 0 1
g o ja z n o s t 3 ,2 4 4 p = 0 ,0 5 8
g o d in e+ 1 ,1 1 2 p = 0 ,0 0 1
p u š e n je+ 1 3 ,6 6 6 p = 0 ,0 0 1
g o ja z n o s t 3 ,5 6 5 p = 0 ,0 9 0

ZAKLJUČAK

Cilj ovog seminarskog rada jeste ukazati na sljedeće:

42
 Navesti okolnosti pod kojima se logistička regresija treba koristiti umjesto
diskriminacijske analize ili višestruke regresije.
U odabiru odgovarajuće analitičke tehnike ponekad dođe do problema koji uključuje
kategoričke zavisne varijable i nekoliko metričkih zavisnih varijabli. Logistička regresija je
statistička tehnika prikladna kada problem istraživanja uključuje jednu binarnu kategoričku
zavisnu varijablu i nekoliko metričkih i nemetričkih nezavisnih varijabli. Logistička regresija
općenito ima prednost nad diskriminacijskom analizom kad zavisna binarna mjera ima
minimalan skup pretpostavki, a time i njena robusnost u većini slučajeva. Osim toga, sličnosti u
tumačenju višestruke regresije olakšava mnogim znanstvenicima nego diskriminantna funkcija
u diskriminantnom modelu.

 Identificirati vrste zavisnih i nezavisnih varijabli korištenih u logističkoj


regresiji.
Iako je logistička regresija ograničena samo na binarne zavisne mjere, to pruža mogućnost za
uključivanje metričkih i nemetričkih nezavisnih varijabli poput multiple regresije. Ovo je u
suprotnosti sa diskriminacijskom analizom koja je ograničena u većini situacija samo na
metričke nezavisne varijable.

 Interpretirati rezultate logističke regresijske analize sa usporedbom na


multiplu regresiju i diskriminacijsku analizu.
Prilagođavajući logistički regresijski model može se ocjenjivati na dva načina:
1. pomoću pseudo R2 vrijednosti, slične onoj u višestrukoj regresiji i
2. ispitivanje tačnosti predviđanja (tj.klasifikacije matrica u diskriminacijskoj analizi).

Dva pristupa ispitivaju model iz različitih perspektiva, ali bi trebali dati slične zaključke. Jedna
od prednosti logističe regresije je da moramo znati samo da li događaj za definisanje dihotomne
vrijednosti je kao naša zavisna varijabla. Kada se analiziraju ovi podaci koristeći logističku
transformaciju, logistička regresija i njegovi koeficijenti dobivaju drugačiji smisao od onog koji
ima regresija sa zavisnom metričkom varijablom. Isto tako, diskriminantna opterećenja u
diskriminacijskoj analizi se tumače drugačije od logističkih koeficijenata. Logistički koeficijent
odražava i smjer i veličinu odnosa nezavisnih varijabli, ali zahtjeva različite metode
interpretacije. Smjer odnosa (pozitivan ili negativan), odražava promjene zavisne varijable
povezane sa promjenama nezavisne varijable. Pozitivan odnos znači da povećanje nezavisne
varijable je povezano sa povećanjem predviđene vjerovatnosti i obratno za negativni odnos. Da
bi se odredila veličina koeficijenata ili kolika je vjerovatnost da će se promijeniti za jednu
jedinicu nezavisna varijabla, brojčana vrijednost koeficijenata mora se ocijeniti. Baš kao u
višestrukoj regresiji, koeficijenti za metričke i ne metričke varijable moraju se tumačiti i
drugačije, jer svaka odražava različit uticaj na zavisnu varijablu.

 Razumjeti prednosti i slabosti logističke regresije u odnosu na


diskriminacijsku analizu i višestruku regresiju.
Iako diskriminantna analiza može analizirati svaku situaciju u kojoj je zavisna varijabla ne
metrična, logistička regresija je preferirana iz dva razloga, kada je zavisna varijabla binarna.
Prvo, diskriminantna analiza se oslanja na strogo ispunjavanje pretpostavki multivarijantne
normalnosti i jednakih varijansi-kovarijansi matrica preko grupnih pretpostavki koje nisu se
sastavljale u mnogim situcijama. Logistička regresija se ne suočava sa ovim strogim
pretpostavkama i puno je više robusna kad se te pretpostavke ne ispune, pa njena primjena je
odgovarajuća u mnogim situacijama. Drugo, čak i ako je pretpostavka zadovoljena, mnogi
istraživači preferiraju logističku regresiju, jer su jednostavni statistički testovi, slične pristupi
koji uključuju metričke i ne metričke varijable i nelinearne učinke, te širok raspon dijagnostike.

43
Logistička regresija je ekvivalent dvogrupnoj diskriminacijskoj analizi a može biti pogodna u
mnogim situacijama.

Logistička regresija je bitna opcija u istraživačkim problemima koji uključuju jednu


kategoričku zavisnu varijablu i nekoliko metričkih ili ne metričkih nezavisnih varijabli. Njena
relativna snaga dolazi iz njene sposobnosti da bude fleksibilna u više istraživačkih postavki,
njena robsunost potiče od minimalnog skupa temeljnih pretpostavki i svoje sličnosti sa
višestrukom regresijom za potrebe tumačenja. Rezultat je širok raspon primjene kako u
akademskim krugovima tako i u kontekstu prakse.

LITERATURA

1. Joseph F. Hair Jr.; William C. Black ; Barry J. Babin ; Rolph E. Anderson :


Multivariate Data Analysis ; Seventh Edition
2. http://www.scribd.com/doc/66182743/6/Regresija-eng-Regression

44
3. www.ekfak.kg.ac.rs/sites/default/files/.../logisticka%20regresija.doc

45

You might also like