You are on page 1of 13

Visoka kola za informacione i komunikacione tehnologije Softversko inenjerstvo

Seminarski rad
iz Objedinjenih Komunikacija

Tema:

Data Mining i njegova primena u bankarstvu

Mentor Prof. Dragoslav Danilovi

Student Milo Dukani

Beograd, Mart 2014.

Sadraj
Uvod...3 Rudarenje I esto koriene metode rudarenja..........4 Metode rudarenja podataka....4 Programi koji se koriste za rudarenje podataka..5 Proces rudarenja podataka..6 Koraci u procesu DM-a6 Uesnici u procesu Data Mininga..7 Primena Data Mining-a u bankarstvu....8 Zakljuak..12 Literatura..13

UVOD
Rudarenje podataka (eng. data mining) je proces pronalaenja novog i potencijalno korisnog znanja iz podataka, odnosno kao otkrivanje ili rudarenje znanja iz velike koliine podataka. Bolji bi izraz metode bio rudarenje znanja iz podataka, gde se rudarenje odnosi na ono to se pronalazi kao rezultat tog procesa. Rudarenje podataka je prirodna evolucija tehnologije, a koja upotrebljava koncepte, metode i tehnike razliitih disciplina kao to su baze podataka, statistika i vetaka inteligencija. Tehnologija baza podataka se razvila iz primit ivnih u sofisticirane i mone sisteme baza podataka kakve danas poznajemo. Taj ra zvoj omoguio je beleenje I sakupljanje ogromnih koliina podataka to je neizbeno dovelo i do potrebe obrade i analize tih podataka, a sve u svrhu dobijanja korisnih informacija i znanja. Dananja informacijska tehnologija omoguila nam je beleenje svake aktivnosti u obliku digitalnih podataka, a koliina sakupljenih podataka u mnogim bazama meri se u gigabajtima ili terabajtima. Ogromne baze podataka bogate su podacima, ali i siromane informacijama koje su skrivene u pohranjenim podacima. Upravo je rudarenje podataka to koje pomae otkriti vane informacije i znanje utkano u podatke, uvelike pridonosei donoenju odluka, poslovanju I umetnosti.

1. Rudarenje I esto koriene metode rudarenja


Rudarenjem se otkrivaju odnosi, loginost, pravilnost kao i bilo kakve strukture meu podacima. Rudarenje podrazumeva organizovanje baza ienjem podataka, kako bi se pristupilo znanju i stecanju istog na temelju postojeih podataka u bazama. Razvoj tehnologije, raunara, interneta bitno doprinosi lakem organiziranju podataka, no da bi oni postali korisni, potrebno je njihovo pretvaranje u informacije i znanje. Termin rudarenja esto se poistoveuje sa 2 razliita p rocesa: otkrivanje i predvianje znanja. Proces otkrivanja znanja implicira korisnikovo razumevanje eksplicitnih informacija za koje je bitno da su u itljivom obliku. Predvianje se odnosi na budue dogaaje i u nekim pristupima moe biti itljivo i prozirno dok u drugim neprovidno.

1.1. Metode rudarenja podataka


U rudarenju podataka koriste se metode ve poznate iz statistike, matematike I raunovodstva. Meu njima se najee koriste: Metoda najblieg suseda Ova metoda omoguuje automatsko klasifikovanje dokumenata npr. kad italac pronae neki zanimljivi lanak, pomou ove metode moe pronai i druge sline lanke. Grupisanje Grupisanje tj. razvrstavanje jedinki u skupove u kojima je postignuta njihova najvea slinost (segmentacija kupaca: podaci o starosti, zanimanju, dosadanjoj kupovini) Asocijativna pravila Ova pravila su pravila oblika AKO-TADA. Pokazuje verovatnou da jedan dogaaj vee uz sebe drugi dogaaj. Ako smo kupili printer, tada emo kupiti i papir. Drugim reima, ova pravila su vezana za kupovinu stvari u paru, jer stvar A ne moe funkcionirati bez stvari B i obrnuto. Stabla odluivanja Ova metoda funkcionie na nain da se na temelju odluivanja zasnovanih na poznatim situacijama i odlukama konstruie se stablo odluivanja, Neuronske mree One su zamiljene da deluju slino ljudskom mozgu. One se upotrebljavaju u analizi rizika i prognoziranju npr. vrednosti deonica. Rudarenje podataka temeljeno na ovoj metodi poinje uenjem mree pomou podataka za koje je poznata vrednost koju elimo prognozirati. Nakon toga naueno znanje se proverava. Postupak uenja i provere ponavlja se sve dok rezultati provere ne budu zadovoljavajui

1.2.

Programi koji se koriste za rudarenje podataka

Programi za DM pojavljuju se u razliitim oblicima i to kao samostalni programi koji podupiru samo jednu metodu kao to su neuronske mree, zatim kao uklopljeni u programske sisteme za razvoj aplikacija, onda kao samostalni alati za rudarenje, kao deo tj. modul drugih programskih sistema kao to je sistem za upravljanje bazama ili statistikih programskih paketa, ili kao gotova reenja za pojedinana problemska podruja kao to je izrada profila kupca. Programski alati za rudarenje podataka koji se upotrebljavaju u poslovnim primenama dolaze iz podruja programskih sistema namenjenih upravljanju podacima, a to su: Alati iz podruja statistikih programskih sistema: Enterprise Miner (SAS), Clementine(SPSS) Specijalizirane alate za optu/poslovnu upotrebu: Data Mining, Intelligent Miner (IMB) Alate ukljuene u Warehousing: OLAP Alate ukljuene u sistem upravljanja podataka: Microsoft SQL Server Business Intelligence

2. Proces rudarenja podataka


Proces rudarenja podataka sastoji se od vie faza koje jedna osoba samostalno ne moe izvriti. Te faze, odnosno zadatke, moemo promatrati iz tri perspektive. Prva je problemska perspektiva koja je vana na samom poetku i kraju rudarenja podataka. Sastoji se od odabira problema, njegovog definisanja, procene i primene znanja. Osoba koja obavlja ove zadatke moe se jednostavno nazvati korisnik. Druga perspektiva je vezana za podatke I obuhvata sve zadatke vezane uz pripremu podataka za njihovo rudarenje, a obavlja je informatiar. Metodoloka perspektiva, kao trea i poslednja, sastoji se od svih zadataka vezanih uz analizu podataka, metode selekcije, implementacije, prezentacije i interpretacije rezultata. Osoba zaduena za te zadatke je strunjak rudarenja podataka (eng. data miner).

2.1. Koraci u procesu DM-a


1. KORAK: Definisanje problema Ovo je prvi korak kod rudarenja podataka. Znai da se treba definisati problem koji se eli reiti. Ako se problem loe definie, ne moe se oekivati da e rudarenje u poslovnom smislu biti uspeno, iako rezultati analize mogu biti valjani. Primer dobrog definisanja problema je primer banke s velikim brojem klijenata koji kasne s otplatama rata hipotekarnih kredita. Ovde banka eli ustanoviti da li je mogue od podataka o zajmoprimcima predvideti hoe li on kasniti s otplatama ili ne. 2. KORAK: Prikupljanje i priprema podataka Iskustva iz prakse pokazuju da je najvei trud u procesu rudarenja potrebno uloiti u ovaj korak. U zavisnosti od organizovanosti podataka u organizaciji, uloeni rad u ovoj fazi kree se od 50-80% celokupnog truda u procesu rudarenja. Izbor i priprema podataka su kritine aktivnosti za konani uspeh projekta. Ovaj korak obuhvata izbor izvora podataka, integraciju podataka iz razliitih baza podataka, njihovo ienje i dodatno sakupljanje podataka koji su potrebni, a nisu trenutno raspoloivi. 3. KORAK: Odabir metode rudarenja U ovom koraku se ne moe znati najbolja metoda, jer sve zavisi od prirode problema. Neuronske mree su najbolje obrazloenje neke pojave npr. vrednost kue, a metoda stable odluivanja je pogodna za npr. analizu odobravanja kredita. Znai potrebno je u metoda rudarenja prvo eksperimentisati pa onda izabrati onu najbolju koja daje rezultate.

4. KORAK:Uenje Ovdje metoda ui na podacima. Ovde postoji opasnost da se uz previe uenja dobiju rezultati koji super odgovaraju podacima na kojima je algoritam uio i izgradio model, a loe buduim podacima. A cilj modela je da se dobro ponaa na buduim podacima. 5. KORAK: Interpretacija rezultata U ovom koraku analitiar na kraju odluuje da li je pravilo zanimljivo, relevantno i upotrebljivo za organizaciju.

2.2. Uesnici u procesu Data Mininga


U procesu rudarenja poeljno je da uestvuju: 1)informatiar on brine o pripremi podataka 2)analitiar podataka to je npr. statistiar. On brine o izboru metode i metodolokoj interpretaciji rezultata rudarenja 3)strunjak on mora biti poznavalac poslovnog podruja, koji definie poslovni problem, da odabira relevantne podatke, interpretira rezultate i predlae aktivnosti na temelju rezultata rudarenja 4)voa projekta - on planira i organizacijski vodi projekt rudarenja podataka Tko trai strunjake u Data Miningu? Istraivanja su pokazalo je da veina preduzea koja trae strunjaka rudarenja podataka dolaze iz IT sektora (43%), marketinga (19%) te iz bankarskog sektora i osiguranja(17%)

3. Primena Data Mining-a u bankarstvu


Rudarenje podataka je nova metodologija kojom se otkrivaju vredni podaci u bazama podataka preduzea. Metoda se naziva rudarenje podataka, jer se u velikim koliinama podataka trae informacije koje vrede zlata. U daljem tekstu navedene su najkorieniji modeli rudarenja podataka u bankarstvu. 1. Rizik Model rizika tipian je upravo za banke i osiguravajua drutva. Za banke je jako vano da ne daju kredit osobi za koju je verojatno da ga nee moi vratiti. Tada se koriste modeli rizika za predvianje verovatnoe hoe li, ili nee dunik moi vratiti kredit. Ovakvi modeli mogu se koristiti za klasine kredite koji im aju neki oblik osiguranja (jemstvo, hipoteka, zalono pravo), ali i za neosigurane kredite (revolving kreditne kartice, minusi po tekuem raunu). Osiguravajua drutva imaju rizik da e klijent iskoristiti osiguranje, na primer, zbog povrede. Poznato nam je da vodee srpske banke i osiguravajua drutva koriste u svom poslovanju modele predvianja rizika. Rizik od prevare takoe je vaan za banke i osiguravajua drutva. Kod krae kreditnih kartica, banke preuzimaju na sebe deo tete. Modeli koji na temelju ponaanja kupaca brzo detektuju krae kreditnih kartica smanjuju gubitak banke. Na primer, rudarenjem podataka pokazalo se da broj velikih transakcija u vrlo kratkom vremenu raste nakon krae kreditne kartice. Mogue je kod svake transakcije u sastavu autorizacije uporediti prosean broj i vr ednost transakcija po danu, te na taj nain bre reagovati ako postoji sumnja za krau. Osiguravajua drutva imaju rizik da e, na primer, klijent pokuati iskoristiti svotu osiguranja od imovine nakon podmetnutog poara. Mogue je izraditi model koji olakava detekciju potencijalnih pokuaja prevare, te model koji predvia koji klijenti e tek u budunosti pokuati prevariti osiguravajue drutvo. Praktini primer: HFC Bank otkriva zloupotrebe kreditnih kartica HFC Bank izdaje kreditne kartice koje koristi preko 3 mil. britanskih graana. U proseku meseno obrauju 9 mil. transakcija, od kojih je 2.500 zloupotreba kreditnih kartica. Otkrivanje takvih transakcija je izrazito teko, prevaranti kopiraju informacije s magnetskih kartica i zatim pomou njih pokuavaju kupiti proizvode. Obino se radi o nizu brzih kupovina proizvoda visoke vrednosti poput nakita ili elektronike. Rudarenje podataka zainteresovalo je menadment banke koji je angairao tim od 5 analitiara. Korieno je 60 varijabli za identifikaciju zloupotreba. Pokazalo se da su neka prodajna mesta izrazito pogodna za zloupotrebe (npr. kupovina nakita u inostranstvu), stoga je banka svim transakcijama na takvim prodajnim mestima dala veu pozornost. U samo prvih devet meseci rezultati operacije bili su spektakularni. Iako je u 2003. godini predvien rast prevara u industriji kreditnih kartica za 20%, HFC Bank

uspela je izbei negativan trend, te smanjiti broj tetnih transakcija za 55% uz mesenu utedu 220.000 USD. Ovi rezultati dvostruko su bolji od ostalih banaka. Prosean gubitak u kartinoj industriji nastao kao rezultat prevara je 0,27% ukupnog prihoda, a gubitak HFCBank je 0,10%. 2. Prodaja dodatnih proizvoda postojeim klijentima Modeli prodaje dodatnih proizvoda postojeim kupcima odreuju verojatnost da e klijent banke kupiti dodatni proizvod. Cilj ovakve analize nije samo poveati broj klijenata koji e odgovoriti na ponudu, ime se smanjuju trokovi. Ponudom odabranih proizvoda odabranim klijentima takoe se poveava kvalitet odnosa s klijentima. Na taj nain raste profitabilnost poslovanja, jer je troak prodaje drugih proizvoda postojeim klijentima mnogo nii od privlaenja novih kupaca uz jednako poveanje lojalnosti postojeih klijenata. Vodee srpske banke u svom poslovanju ve due vreme koriste ovakve modele. Praktian primer: First National Bank poveava efikasnost marketinga First National Bank jedna je od najjaih banaka u Africi s a 3.2 mil. klijenata. U poslednje vreme, s dolaskom stranih banaka, konkurencija se zaotrila. Menadment banke shvatio je da ne iskoriava dovoljno podatke koje ima o svoj im klijentima. To se posebno manifestovalo u loe koordiniranom marketingu zbog ega su jedni klijenti dobikali previe ponuda, a drugi premalo. Efikasnost marketinkih napora uopte se nije merila. Menadment banke odluio je da pone koristiti rudarenje podataka s ciljem poveanja postojeih prihoda prodaje dodatnih proizvoda , te dizajnirati nove proizvode prilagoene posebnih potrebama klijenata i tako stvoriti nove izvore prihoda. U prvom koraku dizajniran je sistem koji prikuplja i filtrira podatke o klijentima ime se spreava viestruko slanje ponuda na isto ime kroz vie razliitih kanala (pota, telefon, mail). Podaci iz sastava analizirani su i korieni za dizajn ponuda prilagoenih individualnim klijentima na temelju njihovih dosadanjih transakcija i usluga koje koriste. Klijenti su odlino reagovali na individualno prilagoene ponude koje su prihvatili u 9% sluajeva, to je odlian rezultat. Najznaajnije se pokazalo otkrie da najprofitabilniji klijenti (gornjih 5%) nemaju znaajan broj kljunih proizvoda banke. Deo najboljih klijenata do tada bio je dakle zapostavljen zbog loeg informacijskog sistema. Menadment banke raunao je da e se investicija u rudarenje podataka isplatiti tek za 10 meseci, ali su ve prve marketinke kampanje vratile ulaganje uz profit od 3000%. 3. Zadravanje postojeih klijenata Odlazak klijenata konkurenciji problem je mnogih delatnosti. Zbog zasienosti trita, jedine mogunosti rasta poduzea svode se na preotimanje klijenata od konkurencije ili prodaju drugih proizvoda postojeim klijentima. Klijenti esto prelaze konkurenciji zbog pogodnosti koje im se nude. Kartine kompanije u svetu ve

godinama vode rat kamatama kako bi privukle klijente. Niske kamate vrede u poetnom razdoblju (npr. godina dana), a kartine kompanije nadaju se da e klijenti nastaviti koristiti karticu i nakon isteka pogodnosti. Meutim, u svetu se pokazalo da deo klije nata veto koristi niske kamate kod nekoliko kartinih kompanija. Rudarenjem podataka izrauju se modeli kojima se predvia verojatnost da e klijent, nakon to se kamate podignu na normalnu visinu, prei konkurenciji ili e smanjiti potronju. Praktini primer: Dreyfus Corporation predvia odlazak klijenata konkurenciji Zbog zasienosti trita investicijski fondovi postali su vrlo agresivni u privlaenju klijenata konkurencije. Agresivno se takmie u pridobivanju novih klijenata, dok u isto vreme ulau velika sredstva kako bi zadrali postojee. Mnogi fondovi koriste agresivne mere prevencije, kao to je naplata visokih provizija klijentima koji povlae svoja sredstva pre utvrenog roka ili benefitarne mere poput naplate manjih provizija lojalnim klijentima. Dreyfus Corporation koristi rudarenje podataka za predvianje verovatnoe o prelasku pojedinih klijenata konkurenciji. Na temelju demografskih podataka, te podataka o postojeoj kreditnoj aktivnosti, potroakim navikama, te transakcijama, dizajniran je model za detekciju klijenata koji razmiljaju o odlasku. Model reaguje na znakove upozorenja, kao to su nagli porast ili pad broja kontakata s klijentom, te povean broj transakcija izmeu fondova. Sistem Dreyfus Corporation predvia potencijalni odlazak klijenta tri do est meseci pre nego to se to zaista dogodi s tanou od 80 do 85%. S potencijalno problematinim klijentom se telefonski razgovara, te mu se nude posebne pogodnosti prilagoene njegovom uzrastu, primanjima, portfelju, i nedavnim investicijskim aktivnostima. 4. Segmentacija Glavni resurs banke su njeni klijenti. Tek na temelju poznavanja njihovih karakteristika, preferencija i specifinih potreba banka im moe prilagoditi ponudu svojih usluga. Prema tome treba uzeti u obzir da se karakteristike klijenata menjaju svakih nekoliko godina. Mlada osoba koja tek studira verojatno koristi samo jedan ili tek nekoliko bankarskih proizvoda. Ista osoba koristie drugaije proizvode nakon to se vena, a drugaije nakonu odlaska u penziju. Velike koliine podataka o klijentima banke bi trebale koristiti za analizu karakteristika klijenata, te na temelju njih formirati segmente kojima se mogu posebno prilagoditi usluge. Banke ve mnogo godina koriste tradicionalne segmentacije sektora stanovnitva i poduzea. Meutim, takva tradicionalna segmentacija esto moe zamagliti stvarno stanje. Korienjem rudarenja podataka mogu se pronai segmenti koji su do sada bili zanemareni, te im se mogu ponuditi specijalno prilagoeni proizvodi ime se poveava profitabilnost poslovanja, a ne zagovara se nuno naputanje tradicionalne segmentacije

10

5. ivotna vrednost klijenta ivotna vrednost klijenta je oekivana vrednost zarade od pojedinog klijenta kroz odreeno razdoblje. Na primer, banci je interesantno privui to vie studentske populacije od koje e veliki deo postati profitabilni klijenti. Trenutna zarada od usluga studentima moe biti mala, ali ako se stvori dobar odnos s klijentom, u budunosti e se ostvariti velika korist. Tek diplomiranom studentu trebae kredit za auto, stan, tekui raun, kreditne kartice, penzijsko i ivotno osiguranje Zbog visokog obrazovanja oekuje se da e takva osoba imati i natprosena primanja te e moi priutiti sve te proizvode. Rudarenjem podataka izrauju se modeli kojima se predvia ivotna vrednost klijenta kako bi bankarski slubenici mogli posvetiti vie panje klijentima koji nisu trenutno profitabilni, ali bi to mogli postati u budunosti. 6. Aktivacija Modeli aktivacije predviaju verovatnou da e klijent kojeg su pridobili, postati profitabilan. Na primer, klijent esto sklopi ugovor za ivotno osiguranje nakon ega ne uplauje premiju. Isto se dogaa s kreditnim karticama u bankarskom sektoru. Klijenti koji dobiju kreditnu karticu, postaju profitabilni tek kada ponu plaati karticom. Deo klijenata to nikada ne uini, te se modelom aktivacije moe predvideti koji e to biti klijenti. Takvim se klijentima mogu ponuditi dodatne pogodnosti da bi ih se potaklo na aktivaciju ili se moe odustati od poslovanja s njima. 7. Racionalizacija poslovanja Rudarenjem podataka mogue je racionalizovati poslovanje na mnogo naina ime se ostvaruju znatne utede. Postoji nekoliko primera. Punjenje bankomata veliki je izazov za banke u organizacijskom i logistikom smislu. Tehniki maksimalna koliina novca koju bankomat moe drati vrlo je velika, ali iz ekonomske perspektive n ema smisla puniti sve bankomate maksimalnim iznosom jer je prosean dnevni promet na bankomatima mnogo manji. Takoe, novac na bankomatima ne donosi nikakvu kamatu. Rudarenje podataka moe se koristiti u svrhu izrade sistema za optimizaciju upravljanja gotovinom koji bi predviao kada i koliko novca treba isporuiti na koje mesto te bi pri tome uzimao u obzir nedeljne, mesene i godinje oscilacije. Rudarenje podataka moe se koristiti za izradu modela koji daje preporuku to treba napraviti kad klijent kasni sa plaanjem kredita ili premije osiguranja ekati, telefonirati, slati opomenu ili pokrenuti tubu. Nekoliko banaka koristilo je rudarenje podataka u organizaciji zatitnike slube banke. Modelom su analizirane karakteristike poslovnica koje su opljakane u posljednje vreme, stoga je u poslovnicama slinih karakteristika organizirano jae osiguranje.

11

ZAKLJUAK
Koristei dostignua vetake inteligencije, rudarenje podataka oblikovalo se u tehnoloki pokret i biznis. Rudarenje je mnogo vie od kopanja, nije cilj kopati, ve odvojiti korisno od nekorisnog. Kod rudarenja podataka iz mase podataka treba izdvojiti male delove koji predstavljaju znanje, a onda dodatnom obradom stvoriti novo znanje, pa doi ido novih tehnolokih otkria. U pojmovnom razlikovanju znanja od podataka, znanje se sastoji od injenica, pretpostavki i verovanja, ali posebno vano i od naina kako ih upotrebiti. Rudarenje podataka je znai automatizirano traenje informacija u mnotvu podataka. Cilj ove metode jeste pronalaenje pravila, odnosno uzoraka koji omoguuju pronalaenje veza izmeu uzroka i posledica. Jo uvek se razvijaju alati koji e omoguiti korienje DM menaderima i bez specijalizovanog strunog znanja, te se takoe radi na edukaciji korisnika ove metode.

12

Literatura http://www.scribd.com/

13

You might also like