SN - Logistička Regresija, Kao Osnova Mašinskog Učenja

1. Nauni skup sa meunarodnim ueem Sinergija 2009.
LOGISTIKA REGRESIJA, KAO OSNOVA MAINSKOG UENJA

Vlado Simeunovi Univerzitet Sinergija, Bijeljina, Republika Srpska, v.simeunovic@spinter.net Milan Milosavljevi Univerzitet Singidunum i Elektrotehniki fakultet, Beograd, mmilan@etf.bg.ac.yu Apstrakt: Informaciono doba stvorilo je moderne kompjuterske i telekomunikacione tehnologije koje omoguuju prikupljanje i uvanje ogromnih koliina podataka. Sveprisutna elektronska i kompjuterska pomagala koriste se u praktino svim aspektima poslovnog i drutvenog ivota. Osim to pojednostavljuju ivot, elektronska pomagala postaju generatori podataka, bilo da im je to osnovna namjena ili tek popratni efekt. Podaci nastaju i biljee se u gotovo svakoj svakodnevnoj situaciji. Moda nismo ni svjesni koliki dio naih odluka, izbora i navika je zabiljeen u razliitim bazama podataka. Dananje tehnologije ine prikupljanje podataka jednostavnim, a njihovo skladitenje i uvanje jeftinim. Stoga prikupljanje i uvanje podataka prestaju biti problemi, a u focus dolazi njihova analiza i razumijevanje. iroka rasprostranjenost baza podataka stvorila je potrebu za snanim analitikim alatima koji sauvane podatke mogu pretvoriti u korisne informacije. Postavlja se pitanje ta ini statistiko-matematiku osnovu uspijenosti mainskog uenja. Kljune rijei: logisitika regresija, data mining, logistika funkcija, baza podataka, linearna regresija, dihotomne promjenjljive, mainsko uenje Summary: Information era has created modern computer and telecommunication technologies which allow collecting and recording huge amounts of data. All present electronically and computer gadgets are being used practically in all aspects of business and social life. Not only that they make the life less complicated, electronically gadgets are collectors of data, and it doest not matter it is the basic thing that it do, or just a side effect. Data are being made and being recorded in almost everyday situation. It might be that we are not aware how much our decisions, choices and various habits are being recorded in these various basis. Today technology make collecting and gathering of the technology simple, and their storage is very cheap. Therefore, collecting and storing the data are not problems any more, and the focus is now being moved to analysis and understanding. Wide spread usage of databases has created the need for strong analytical tools which saved data can use in various purposes. There is one question which can be asked in here: what makes the statistical and mathematical basis of the success in machine tech learning? UVOD Regresija se koristi da ukae na statistiki metod koji omoguava predvianje i ocjenjivanje jedne promjenjljive na osnovu vrijednosti neke druge promjenjljive ili vie promjenjljivih. Logistika regresija se moe koristiti za predvianje zavisne promjenjljive na osnovu nezavisnih promjenjljivih i odreuje procenat varijanse u zavisnoj promenjivoj koja je definisana nezavisnim promenjivim; da bi rangirala relativnu vanost nezavisnih promjenjljivih; da bi procijenila efekat interakcije; i da bi dokuila uticaj intervalne kontrolisane nezavisne promjenjljive. Logistika regresija primjenjuje maksimalnu procjenu vjerovatnoe (MLE) nakon promjene zavisne promjenjljive u logistiku promjenjivu (prirodni
Raje Baniia bb, Bijeljina, Tel. +387 55 21 31 32, 55 21 31 33 -mail: univerzitet@sinergija.edu.ba www.sinergija.edu.ba.
100

logaritam vjerovatnoa nezavisnih promjenjljivih koje se pojavljuju ili ne). Na ovaj nain logistika regresija procjenjuje vjerovatnou da odreeni dogaaj nastupi. Logstika regresija rauna promjene u logaritmu vjerovatnoe zavisnih promjenjljivih a ne promjene u zavisnim promenjivim kao to to radi OLS (ordinary least squares - kvadrat najmanje vrijednosti) regresija. Logistika regresija ima mnogo analogija sa linearnom regresijem. Logaritamski koeficijent odgovara b koeficijentu u jednaini logistike regresije, standardizovani logistiki koeficijent log odgovara beta teini, a pseudo R statistika je dostupna da bi sumirala snagu odnosa. U naem radu smo testirali primjenu logisitke regresije u kao alata u data miningu. 1. TEORIJSKE PRETPOSTAVKE KORIENJA LOGISTIKE REGRESIJE 1.1. Pretpostavke za korienje logistike regresije Primjena logistike regresije nije popularna meu istraivaima jer zahtijeva ozbiljno i detaljno poznavanje mjernih skala, raspodjela i tumaenja rezultata. U istraivakoj praksi ona omoguava istraivau da prevazie mnoge pretpostavke koje ga ograniavaju linearnu regresiju i to: 1. Logistika regresija ne predpostavlja linearnu vezu izmeu zavisnih i nezavisnih promenljivih. Moe rijeti nelinearne efekte ak i kada su eksponencijalni i polinominalni uslovi nisu eksplicitno dodati kao dodatne nezavisne vrijednosti. 2. Zavisna promenjiva bi trebala biti normalo distribuisana. 3. Zavisna promjenjljiva mora biti homoskedastina za svaki nivo nezavisnih promjenjljivih. 4. Obino uslovi distribuisane greke nisu pretpostavljeni. 5. Logistika regresija ne zahtijeva da nezavisne promjenjljive budu interval. 6. Logistika regresija ne zahtijeva da nezavisne promjenjljive budu neograniene. Bez obzira na prethodno navedene prednosti, proces primjene logistike regresije zahtijeva ispunjenje odreenih uslova i transformacija promjenjljivih. Treba ispuniti sledee uslove: a) Tumaenje logistikih koeficijenata nije mogue bez smislenog kodiranja. b) Ukljuenje svih relevantnih promjenjljivih u regresioni model: Ukoliko su relevantne promjenjljive isputene, uobiajena varijansa koju dijele sa ukljuenim promjenjivim moe biti pogreno pripisane ovim promjenjivim, ili uslovi greke mogu biti preuveliani. c) Iskljuivanje svih irelevantnih promjenjljivih ukoliko su uzrono i relevantne promjenjljive ukljuene u model uobijna varijansa koju dijele sa ukljuenim promjenjivim moe biti pogreno pripisane i relevantni promenjivim. d) Predpostavlja se da su uslovi greke nezavisni (nezavisno prikupljanje). e) Niska greka u promjenjivim. Idealno se pretpostavlja nisko mjerenje greke i sluajeva koji ne nedostaju. f) Logistika regresija ne podrezumijeva vezu izmeu zavisnih i nezavisnih promjenjljivih kao to je to sluaj kod linearne regresije ali podrazumijeva linearnu vezu izmeu logaritma zavisnih i nezavisnih promjenjljivih. Box-Tidwell transformacija i ortogonalni polinominalni kontrast su naini testiranja lineranosti logaritma izmeu nezavisnih promjenjljivih. g) Kao i linearna regresija, logistika regresija ne podrazumijeva efekte interakcije osim kad su uslovi interakcije kreirani kao dodatne promjenjljive u anlizi. h) Ne multikolinearnost: U izvijesnoj mjeri kada je nezavisna promjenjljiva linearna
101

funkcije druge nezavisne promjenjljive, problem multikolinearnosti e se desiti po logistikoj regresiji kao to se to deava u linearnoj regresiji. i) Veliki uzorci. Takoe, za razliku od OLS regresije logistika regresija maksimalno koristi likelihood procjene (MLE) radije nego OLS da bi izvela parametre. MLE se oslanja na asiptotiku normalnost velikog-uzorka to znai da pouzdanost procjena opada onda kada ima nekoliko sluajeva za svaku posmatranu kombinaciju nezavisne promjenjljive. j) Opravdanost okupljanju. Mjere dobrog uklapanja kao model hi kvadrata pretpostavlja da za elije formirane od kategorikih nezavisnih promjenjljivih sve elije frekvencije su >=1 i ne vie od 20% elija su <5. k) Oekivana disperzija. U logistikoj regresiji oekivana varijansa zavisne promjenjljive se moe uporediti sa posmatranom varijansom, i razliitosti mogu biti smatrane na nivou ili iznad disperzije. 1.2. Matematiki model logistike regresije Jedna od matematikih funkcija koja najbolje opisuje vezu izmeu izmeu promenjljivih je funkcija logistikog odgovora: P P ea + bX ln( ) = a + bX = e a + bX P= 1 P 1 P 1 + ea + bX
ili
p = i e
(b0 + b1x1 + .. + bvxv ) (b0 + b1x1 + ...bvxv)
1+ e
gdje je e otprilike jednako 2.718, a b su teine logistike regresije (ili logaritamske teine) za nezavisnu varijablu. Ova metoda podrazumijeva dihotomne promjenjljive date u binarnom obliku. Vrijednost Y=1 znai da se odreeni dogaaj zaista dogodio, vrijednost Y=0 znai da je izostalo bilo kakvo dogaanje. X predstavlja nezavisnu promjenjljivu ili mnotvo atributa (X1, X2,....Xk). Osnovna formula logistine regresije je: 1 x 1+ e X = + X + X + ... X 1 1 2 2 k k 0 P{Y = 1 / X } =
Funkcija P ( x) =
1 je logistina funkcija. Ovu vrstu funkcije prvi je predstavio x 1+ e
belgijski matematiar Vehulst. Na poetku dvadesetog vijeka vei broj naunika istraivalo je njene osobine i mogunost upotrebe. Kao regresionu funkciju prvi je upotrijebio Koks 1958. godine. Kod logistike funkcije vrijednost je ograniena izmeu 0 i 1. Iz osnovne postavke se vidi da se vrijednost 0 dobija u sluaju da je x = - , a vrijednost 1 za x = , za x = 0 vrijednost funkcije je 0,5. Inverzni oblik logistine funkcije je logaritamska funkcija. P x = log = log it ( P) 1 P
102

Ako udruimo osnovnu formulu sa prethodnom dobiemo drugi oblik logistine regresije: logit ( P{Y = 1 / X } ) = X = + X + X + ... X 0 1 1 2 2 k k Diskretne atribute za vie od dvije vrijednosti potrebno je pripremiti u formi vie atributa. Pretpostavimo da je Xi diskretni atribut i ima q razliitih vrijednosti od v1 do vq. U ovom sluaju jednaina se moe napisati u sljedeem obliku: logit( P{Y = 1 / X } )= X = + ... 0 X + X + .. I ( X = v ) + ... I ( X = v ) + ... X 1 1 2 2 i2 i 2 iq i q k k lan i1I ( Xi=v1) je isputen zbog rjeavanja problema zavisnosti atributa. Uspjeh logistike regresije moe biti procijenjen provjerom u klasifikacionoj tabeli, prikazujui pravilne i nepravilne klasifikacije dihotomnih, uobiajenih ili politomnih zavisnih promjenjljivih. Takoe, testovi mogunosti uklapanja (prilagoavanja) kao to su model hikvadrat su dostupni kao indikatori modela primenjljivosti kao to je Wald statistika da bi testirali vanost individualnih nezavisnih promjenjivih. Logistika regresija je tek u zadnje vrijeme postala popularnija meu naunicima, koji se bave drutvenim naukama (ekonomija, bezbednost i sl.). (Odds) se definie kao odnosi mogunosti i ne-mogunosti odreenog dogaaja. P odds = 1 P Binominalna (ili binarna) regresija je tip regresije koja se koristi kada je zavisna promenjljiva dihotomna a nezavisna promjenjljiva je bilo kog tipa. Do sada smo uglavnom raspravljali o binominalnoj regresiji kako bi shvatili njene osnovne karakteristike. Naravno da se sloeni problemi sa vie od dvije promjenjljive ne mogu rijeiti na ovaj nain te se primjenjuje multinominalna logisika regresija. Kada se viestruke grupe zavisnih promjenjljivih mogu rangirati, tada je redna logistika regresija preformulisana u multinominalnu logistiku regresiju. Sledei izraz predvia mogunost postojanja m kategorija u okviru zavisne varijable: 1 p(Yi = m) = M ( zij ) 1+ e j=2 Gdje je Zij linearna funkcija koja se koristi da bi se predvideo m u okviru zavisne varijable (tj., b0 + b1x1+....bvxv).
2. METODOLOGIJA ISTRAIVANJA 2.1. Predmet i cilj istraivanja
Radi uoavanja mogunosti primjene logistike regresije u okvirima mainskog uenja, korisitli smo bazu podataka agencija koje se bave bezbednosnim problemima. Od mnogobrojnih oblika kriminalnog djelovanja od posebnog znaaja za ugroavanje sistema bezbednosti su: terorizam, trgovina ljudima, trgovina narkoticima, carinske prevare i krijumarenja, krae vozila, verc orujem za masovno unitenje, verc lakog i malog naoruanja, finasijski i kompjuterski kriminal (kraa intelektualne svojine, falsifikovanje novanica, pranje novca, kompjuterski kriminal, prevare kreditnim karticama). Bezbednosne agencije su strukturisane da svakodnevno prikuplja veliki broj podataka. Prikupljeni podaci se pohranjuju i uvaju u razliitim formama. U poslednje vrijeme, zbog ubrzane kompjuterizacije, veina dodataka se uva u ''bazama'' podataka. Korienje podataka je i 103 Raje Baniia bb, Bijeljina, Tel. +387 55 21 31 32, 55 21 31 33
-mail: univerzitet@sinergija.edu.ba www.sinergija.edu.ba.

dalje na relativno niskom nivou, uglavnom se operie sa apsolutnim iznosima, frekvencijama, procentima, mjerama prosjeka i grafikim prikazima koje prate deskriptivnu statistiku. Jedna od vrlo estih kriminalnih radnji u poslednjih nekoliko godina bila je kraa motornih vozila. Svake godine nekoliko stotina motornih vozila bude ukradeno, pri emu je stepen rasvijetljenosti vrlo nizak. Osnovni predmet istraivanja odnosi se na predlaganje primjene savremenih informatikih sredstava i statistiko-matematikih procedura kao mehanizama koje olakavaju predvianje i donoenje odluke.
2.2 Hipoteze istraivanja
Osnovna hipoteza Primjenom adekvatnih stastistikih metoda (klasinih ili DM) mogu se uspjeno predvidjeti tok, odvijanje, intenzitet, nastanak i nestanak odreenih bezbednosnih pojava iz oblasti opteg kriminaliteta. Prva posebna hipoteza Dosadanji nain obrade, interpretacije i primjene prikupljenih podataka iz oblasti opteg kriminaliteta nije davao adekvatne rezultate u proaktivnom djelovanju ovlatenih agencija. Druga posebna hipoteza Primjenom adekvatnih statistikih metoda mogu se uspjeno klasifikovati, predvidjeti budui bezbjednosni dogaaji iz oblasti opteg kriminaliteta.
2.3. Nain istraivanja (Metode, tehnike i instrumenti) istraivanja 1.Metode: statistiki metod (logistika regrsesija), analiza sadraja metod modelovanja, data mining. 3. Obuhvat pojave (populacija i uzorak) Populaciju ine svi dogaaji opteg kriminaliteta (kraa motornih vozila) u 2004., 2005. i 2006. godini. U ovom istraivanju koristimo se potpunim obuhvatom pojave populacija je ujedno i uzorak. 3. REZULTATI ISTRAIVANJA 3.1. Logistika regresija
Za dokazivanje mogunosti primjene logistike regresije u predvianje bezbednosnih dogaaja izradili smo i testirali odgovarajui model. Logistikom regresijom smo odredili procenat varijanse u zavisnoj promenjivoj koja je definisana nezavisnim promenjivim, zatim smo rangirali relativnu vanost nezavisnih promjenjljivih; procijenili efekat interakcije i uticaj intervalne kontrolisane nezavisne promjenjljive. Model obuhvata 707 sluajeva krae motornih vozila u periodu od tri godine. Svi sluajevi su svrstani u dvije kategorije jedinstvene zavisne varijable koju smo nazvali ''rasvijetljenost''. Varijabla je dihotomnog karaktera gdje smo sa jedinicom obiljeili sve ''rasvijetljene'' sluajeve, a sa dvojkom ''nerasvijetljene''. U ovom modelu imamo tipine diskretne vrijednosti i frekvenciju dogaaja. Nezavisne varijable su sledee: marka vozila, dio grada gdje je vozilo nestalo, mesto parkiranja, registracija, osigurano, vrijeme parkiranja, vrijeme prijave nestanka. Svaka varijabla je predstavljena sa nekoliko kategorija. Postoji nekoliko metoda procjene u logistikoj regresiji ali najei, moda i najmanje rizian u smislu potvrivanja hipoteze je METHOD=BSTEP(LR), za Stepwise analizu unazad. Metod se sastoji na mogunosti testiranja log-likelihood-a sa datom promjenjljivom isputenom iz jednaine.
104

U naem sluaju model smo testirali uporeujui poetnu vrijednost logaritma koja iznosi 800,794 sa finalnim modelom koji iznosi 681,328. Uz 24 stepena slobode 2 iznosi 119,467 to je znaajno na nivou ,000. Inicijalni hi kvadrat je devijansa za nulti model (model samo sa konstantom). To znai da je inicijalni hi kvadrat -2LL za model koji prihvata nultu hipotezu da su svi koeficijenti 0. Ovo podrazumjeva da ni jedna od nezavisnih promenljivih nije linearno povezana sa logaritamskim vjerovatnoama zavisnih promenljivih. 2= -2LLinicijalni - (-2LLfinalni) = 800,794 - 681,328 = 119,467
Tabela br.1: Logaritam izraunatih vjerovatnoa
Model Intercept Only Final -2 Log Likelihood 800,794 681,328 ChiSquare 119,467 24 ,000 df Sig.
Dobijeni rezultati govore da je model smislen i da se ne moe prihvatiti nulta hipoteza o nepostojanju povezanosti izmeu nezavisnih i zavisne varijable. Model Hi kvadrat procjenjuje sveobuhvatni logistiki model, ali nam ne govori da li su odreene nezavisne promjenjive znaajnije od drugih. U sledeem koraku smo pokazali stepen povezanosti pojedinih varijabli i strukturu konanog modela. U tabeli br. 2 prikazan je nivo obuhvaene varijanse modelom koj iznosi 70,7 %. Nulti model se moe predstaviti odnosom 207/500 = 70,7
Tabel br.2: Klasifikaciona tabela
Posmatrane Predviene RASVIJETLJENO ne da Korak 0 RASVIJETLJENOST ne da Ukupni postotak 500 207 0 0 70,7 29,3 100,0
U naoj logistikoj regresiji BSTEP(LR) na poetku sve promjenjljive ule u jednainu, a zatim je model testiran u est koraka. Kroz postupak od est koraka hi kvadrat test se postepeno smanjivao, to je i imperativ modela, tako da je da smo od poetne vrijednosti 66,705 dobili umanjenu vrijednost koja iznosi 62,510. Prva varijabla koja je eliminisana iz modela je ''osiguranje'' -,067.U sledeem koraku eleminisana je varijabla ''mjesto parkiranja'' sa koeficijentom koji se u drugom koraku poveao na vrijednost ,054. U treem koraku eleminisana je varijabla ''vrsta zatite'' sa konanom vrijednou koeficijenta ,073. U etvrtom koraku uee varijable ''dio grada'' nije znaajno uestvovalo u poboljanju vjerovatnoe ukupnog modela (,158). Zadnja varijabla koja nije uestovala u zavrnom modelu je ''raspisana potraga'' sa koeficijentom -,258. U konanom modelu uestvuju varijable marka vozila sa koeficijentom (,132), zatim varijabla ''registracija'' sa koeficijentom (-1,035), varijabla vrijeme parkiranja (,230) i varijabla vrijeme prijavljivanja (-,342). U finalnom modelu Cox & Snell iznose 0,143, a korekcijom Nagelkerke indeksom dobija se vrijednost 0,204 to se moe smatrati zadovoljavajuim isahodom.
105

Step 1 . 6 - 2 Log likelihood 820,640 Tabela br.3 Sumarni model Cox&Snell R Square ,047 Negelkerke R Square ,068
745,742
,143
,204
U konanom modelu od ukupno 500 sluajeva koji su trebali imati vrijednost 0, samo 31 sluaj dobio je vrijednost 1, a od 200 sluajeva koji su trebali uzeti vrijednost 1, 43 sluaja je uzelo vrijednost 0. Procenat pravilnog klasifikovanja je 72,4%. Sveobuhvatni model promjenjljivih koje ulaze u jedaninu logistike regresije posmatran je preko vrijednosti B, S.E., Wald, df, Sig., Exp(B), C.I.. Koeficijent B za ukupan model iznosi: p ln( i ) = b + b x + ... + b x =,397+,132*374-1,035*394+,230*270 +,342*289 = -282,898 0 11 v v 1 p i Da ne bi ostali na povrini kvantitativnih podataka izvrili smo detaljniju statistikomatematiku analizu svakog podatka. Pomou naredne jednaine izraunali smo vjerovatnou svake promjenjljive koja znaajno utie na stepen otkrivanja krivinog djela (zavisna promjenjljiva).
U petom koraku dobili smo vrijednost konstante b0 (b0 = 0.397). Konstanta ulazi u eksponencijalnu funkciju kao prvi lan. Izraunali smo vjerovatnou svake varijable koja je ula u jednainu. Najvea vjerovatnou P(x)=0.861 ima prediktor vrijeme prijavljivanja, iji je b koeficijent 0.230, zatim slijedi prediktor marka vozila (P(x)=0.8345; b1=0.132); vrsta registracije je po teini na treem mjestu u jednaini (P(x)=0.7056 b1=-1.035) a vrijeme parkiranja na etvrtom mjestu (P(x)=0.5925 b1=-0.342). Bez obzira to smo identifikovali varijable koje sa visokom vjerovatnoom predviaju ponaanje zavisne promjenjljive, nuno je napraviti jo jedan korak u pojedinanom identifikovanju uea pojedinih kategorija u prediktorskim varijablama. Najveu vjerovatnou od svih kategorija u prediktorskim varijablama ima marka vozila 5 (P(mv(5)) = 0.8552 b1=0.662). Greka odstupanja za ovu varijablu iznosi S.E. = 0,288; Wald Wv = (bv / Sbv ) 2=5,286; Exp(B)= 1,939 sa koeficijentom =(1,103 - 3,410). Iz navedenih rezultata jasno se vidi da povjerenja 95,0% C.I = e 0 je vjerovatnoe krae vozila VW najvea, a da je dva puta vea vjerovatnoa da ovo auto ne bude naeno nego da bude naeno. Marka vozila 4'' ima visoku vjerovatnou koja se kree u granicama (P(mv(4)) = 0.8529, b1=1,188). Radi se o vozilima marke mercedes ija vrijednost na tritu je velika. Greka odstupanja za ovu varijablu iznosi S.E. = 0,469 sa stepen znaajnosti Sig. = 0,011. Vrijednost Exp(B)= 3,280, 95,0% C.I = 1,307 - 8,232, ukazuje da je mogunost pronalaska otuenih vozila navedene marke 3 puta manja od mogunosti da se vozilo pronae i vrati vlasniku. Veoma indikativan rezultat se odnosi na varijablu ''registracija 1''. Iznos vjerovatnoe je veoma visok [P(reg(1)) = 0.8288, b1=-0.952]. Koeficijent b1 je negativan u odnosu na nerasvijetljene sluajeve, to znai ukoliko se poveava broj ukradenih vozila domae registracije utoliko se poveava broj otkrivanja. Oegledno da ovaj podatak ima smisla za poznavaoce prilika u sektoru bezbednosti. Za stvaranje ukupne slike vaan je podatak da je broj ukradenih vozla strane registracije nesrazmjerno veliki u odnosu na njihov broj (394 vozila sa domaom registracijom, naspram 313 vozila sa stranom registracijom strana). Nesrazmjernost je uoljiva i u ukupnom broju rasvijeteljenih sluajeva. Od 394 sluajeva krae vozila sa domaom registracijom, 150 sluajeva je rasvijetljeno ili 38 % u 106 Raje Baniia bb, Bijeljina, Tel. +387 55 21 31 32, 55 21 31 33
-mail: univerzitet@sinergija.edu.ba www.sinergija.edu.ba.
1,96 SE

odnosu na 57 sluajeva krae vozila sa stranom registracijom od 313 sluajeva ili oko 18%. Oigledno je tea potraga za vozilima strane registracije jer bezbednosne agencije imaju manje podataka o njima, ali je i sistem osiguranja takav da vlasnici vozila vrlo esto ne ure sa prijavom krae jer je mogunost naplate etete od osiguravajuih drutava izvijesan. Vrijeme parkiranja 1 je veoma znaajna varijabla u jednaini ija je vjerovatnoa veoma visoka i iznosi ((P(vpar(1)) = 0.9078 b1=0.785). Radi se o periodu od 02.00 do 06.00, to samo po sebi govori. Greka odstupanja za ovu varijablu iznosi S.E. = 0, 417 sa stepen znaajnosti Sig. = 0,002. Vrijednost Exp(B)= 2,191, ukazuje da je mogunost pronalaska otuenih vozila otuenih u ovom vremenskom periodu dva puta manja od mogunosti da se vozilo pronae i vrati vlasniku sa stepenom povjerenja 95,0% C.I =,780-3,994. Rezultati krostab analize pokazuju da nije najvei broj vozila nestalo u ovom vremenskom periodu (138 od ukupno 707), ali je broj rijeenih sluajeva 22. Ovaj podatak ima jasnu informacionu vrijednost jer se radi o nonom vremenu. Jedna od varijabli koja ulazi u jednainu je postupak koji se odnosi na rad bezbednosnih agencija, a u vezi je sa vremenom prijavljivanja nestanka vozila. Od ove aktivnosti najee zavisi brzina rjeavanja problema. Jedna kategorija navedene varijable statistiki znaajna na nivou ,000. Radi se o varijabli vrijeme prijavljivanja 2 ija je vjerovatnoa P(vpri(2)) = 0.6386. Koeficijent logistike regresije iznosi (b1=-0.903). Navedeni koeficijent je negativan to znai da je najvea vjerovatnoa rjeavanja bezbednosnog dogaaja ukoliko se izvri prijava u vremenu od 06,00 do 10,00. Sasvim je logino da je ovo vrijeme koje prua najveu mogunost angaovanja svih kapaciteta bezbednosne agencije u aktivnostima pokretanja potrage jer su slubenici na svojim radnim mjestima. Greka odstupanja za ovu varijablu iznosi S.E. = 0, 237, vrijednost Exp(B)= ,406 ukazuje da se sa stepenom povjerenja 95,0% C.I =,780-3,994 moe tvrditi da e pronalazak otuenih vozila za 40% biti vei ako se nestanak prijavi u periodu od 06.00 do 10.00. Frekvencija rasvijetljenih sluajeva iz ove kategorije iznosi 107 to je preko pedeset posto svih rijeenih sluajeva. Wald test iznosi 14,521 te je odbaena nulta hipoteza po kojoj se oekivao rezultata 0. 4. ZAKLJUNA RAZMATRANJA U radu smo u osnovi pokuali da primijenimo neke od statistikih postupaka za predvianje parametara znaajnih za odluivanje u situacijama gdje ti parametri nisu sreeni, a dati su u opisnom (atributivnom) obliku. Osnovni cilj istraivanja je pokazati da se na osnovu relativno velikog broja podataka, koji se godinama skupljaju u bezbednosnim agencijama uspostavi sistem i formira baza podataka sa dovoljnim brojem kvalitetno definisanih atributivnih varijabli koje bi primjenom neke od klasinih statistikih procedura ili data mininga mogle posluiti za klasifiklaciju ili predvianje odreenih dogaaja. Na ovaj nain bi se obogatio postojei teorijski fond znanja u primjeni statistike u bezbednosnim naukama, ali i rijeili odreeni praktini problemi proaktivnog djelovanja. Osim navedenog cilj nam je bio da uoimo mjesto logisitike regresije u procesima data m ininga. Kao najprimjerenija statistika tehnika analize atributivnih varijabli koriena je logistika regresija. Procenat obuhvaene varijanse koja se moe predvidjeti logistikom regresijom iznosi 70,7%. Koristei METHOD=BSTEP(LR), za Stepwise logistiku analizu unazad u petoj iteraciji izdvojile su se sledee varijabel: marka vozila, vrijeme parkiranja i vrijeme prijavljivanja nestanka vozila. Svaka od tri navedene varijable su statistiki znaajne na nivou 0,01 i veem i to: marka vozila (0,01), vrijeme parkiranja (0,002) i vrijeme prijavljivanja (0,000). Radi se o varijablama koje su ule po strukturi u jednainu logistike regresije i za koje se moe smatrati da predstavljaju prediktore u procesu odluivanja. Korisnicima ovog i slinih radova navedeni podaci mogu posluiti da svoje aktivnosti usmjere u pravcu formiranja modela odluivanja koji bi obuhvatio navedene varijable. Iz analiza se moe
107

zakljuiti da su vozila poznatih svjetskih marki najee na meti kriminalnih grupa, a posebno VW, audi i mercedes. Varijabla ''vrijeme parkiranja'' govori o tome da se krae dogaaju obino u kasnim nonim satima, a da proces pronalaenja zavisi od brzine prijavljivanja sluaja. Logistika regresija se pokazala kao moan alat za pronalaenje zakonitosti u skupu nominalnih varijabli. ini se da ima poseban praktini znaaj, ali je nuno formirati baze podataka sa jasno definisanim atributima, sa to vie kategorija, kako bi diskriminativna vrijednost rezultata bila vea. Jedan od problema koji se pojavljuju u primjeni logistike regresije predstavlja tumaenje pojedinih rezultata koji su dati u razlitim matematikostatitikim formama (logaritam, vjerovatnoa, koeficijenti koji nisu u dovoljnoj mjeri razumljivi npr.Cox i Snell i sl.). Primjena logisitike regresije daje najbolje rezultate, ukoliko ona predstdavlja alat u data miningu.
LITERATURA
1. Additional Protocol to the European Convention on Mutual Assistance in Criminal Matters, Strasbourg, 17.III.1978. 2. Allison, Paul D. (1999). Comparing logit and probit coefficients across groups. Sociological Methods and Research, 28(2): 186-208. 3. Cander L.R., Stankovic S., Milosavljevic M. (1997). Dynamic ionospheric prediction by neural networks, AI Applications in Solar-Terrestrial Physics. 4. Cohen, J. (1968). Weighted kappa: Nominal scale agreement with provision for scaled disagreement or partial credit. Psych. Bull., 70, 213-220. 5. Cox, D.R. and Snell, E. J. (1989). Analysis of binary data (2nd edition). London: Chapman & Hall. 6. Criminal codes and Criminal procedure codes from SEE countries. 7. Fajgelj, S. (1995). Faktorska analiza nominalnih varijabli, Magistarska teza, Filozofski fakultet, Beograd. 8. Green, A.M. (1997). Kappa statistics for multiple raters using categorical nd classifications. Proceedings of the 22 annual SAS User Group International conference, 1110-1115. 9. Hosmer D.W., Lemeshow, S. (2000). Applied logistic regression. Wiley & Sons, New York, 10. Ian, H. Witten and Eibe Frank, (2002)."WEKA Tutorial", University of Waikato. 11. Ian H. Witten and Eibe Frank, (2000). Data Mining Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufman. 12. Kleinbaum, D. G. (1994). Logistic regression: A self-learning text. New York: Springer-Verlag. What it says. 13. Kononenko, I., (1992). Naive Bayesian classifier and continuous attributes. Informatica, 16(1):18. 14. Krsti, Ostoja: Kriminalistika prevencija i prognostika, Visoka kola unutranjih poslova, Banja Luka, 2005. 15. Menard, S. (2002). Applied logistic regression analysis, 2nd Edition. Thousand Oaks, CA: Sage Publications. Series: Quantitative Applications in the Social Sciences, No. 106. First ed., 1995. 16. Nagelkerke, N. J. D. (1991). A note on a general definition of the coefficient of determination. Biometrika, Vol. 78, No. 3: 691-692. Covers the two measures of Rsquare for logistic regression which are found in SPSS output. 17. Preradovi, Lj., Simeunovi, V. (2007). Informatika-Metodologija-Statistika, Visoka kola unutranjih poslova, Banja Luka.
108

18. Second Additional Protocol to the European Convention on Mutual Assistance in Criminal Matters, Strasbourg, 8.XI.2001 19. Security and combating international organized crime and terrorism, W. Bruggeman. December 2002, Internet: http://personal.ecu.edu/whiteheadj/data/logit/ http://www2.chass.ncsu.edu/garson/pa765/logistic.htm
109

SN - Logistička Regresija, Kao Osnova Mašinskog Učenja

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

SN - Logistička Regresija, Kao Osnova Mašinskog Učenja

Uploaded by

Copyright:

Available Formats

1. Nauni skup sa meunarodnim ueem Sinergija 2009.

LOGISTIKA REGRESIJA, KAO OSNOVA MAINSKOG UENJA

1. Nauni skup sa meunarodnim ueem Sinergija 2009.

1. Nauni skup sa meunarodnim ueem Sinergija 2009.

(b0 + b1x1 + .. + bvxv ) (b0 + b1x1 + ...bvxv)

1 je logistina funkcija. Ovu vrstu funkcije prvi je predstavio x 1+ e

1. Nauni skup sa meunarodnim ueem Sinergija 2009.

2. METODOLOGIJA ISTRAIVANJA 2.1. Predmet i cilj istraivanja

1. Nauni skup sa meunarodnim ueem Sinergija 2009.

1. Nauni skup sa meunarodnim ueem Sinergija 2009.

1. Nauni skup sa meunarodnim ueem Sinergija 2009.

1. Nauni skup sa meunarodnim ueem Sinergija 2009.

1. Nauni skup sa meunarodnim ueem Sinergija 2009.

1. Nauni skup sa meunarodnim ueem Sinergija 2009.

You might also like