You are on page 1of 15

Sveuilite J. J.

Strossmayera u Osijeku Ekonomski fakultet Osijek

Seminarski rad iz kolegija

Informatika
Naslov rada:

RUDARENJE PODATAKA (eng. Data Mining)

Studenti: Marinkovi Rozalija 33750, G5A Maerac Marijana 33492, G5A

Osijek, 12.05.2008.

SADRAJ

str. I. UVOD 2 2

Uvod to je rudarenje podataka? II. SADRAJ Uporaba rudarenja podataka Metode rudarenja podataka Metoda najblieg susjeda Metoda grupiranja Asocijativna pravila Stabla odluivanja Neuronske mree Genetski algoritmi Programi za rudarenje podataka Programski alati Data Mininga Proces rudarenja podataka Tko su sudionici u procesu Data Mininga? Tko trai strunjake u Data Miningu? Primjeri rudarenja podataka III. IV. ZAKLJUAK LITERARURA

3 5 5 5 5 6 6 6 7 7 8 9 9 12 13

14

I.

UVOD

Svako poduzee ili bilo kakve organizacije prikupljaju velike koliine podataka potrebnih za svoje poslovanje. Meutim, nas zanima, postoje li jo nekakve dodatne informacije u tim ve prikupljenim i poznatim podatcima koje mogu biti korisne za poslovanje nekog poduzea. Moemo li iz "iskopanih" podatka "iskopati" jo korisnih informacija? Rudarenje podataka koristi metode koje su poznate u statistici, umjetnoj inteligenciji, matematici i raunovodstvu radi automatiziranog otkrivanja skrivenih modela i uzoraka podataka u velikim koliinama podataka. Svrha ovog proces jest predvidjeti ponaanje u buduim poslovnim dogaajima osnovi znanja otkrivenog u podatcima1.

1.2. to je rudarenje podataka?


Rudarenje podataka (eng. data mininig) je proces pronalaenja novog i potencijalno korisnog znanja iz podataka, odnosno kao otkrivanje ili rudarenje znanja iz velike koliine podataka. Bolji bi izraz moda bio rudarenje znanja iz podataka, gdje se rudarenje odnosi na ono to se pronalazi kao rezultat tog procesa. Rudarenje podataka je prirodna evolucija tehnologije, a koja upotrebljava koncepte, metode i tehnike razliitih disciplina kao to su baze podataka, statistika i umjetna inteligencija. Tehnologija baza podataka se razvila iz primitivnih u sofisticirane i mone sustave baza podataka kakve danas poznajemo. Taj razvoj omoguio je biljeenje i sakupljanje ogromnih koliina podataka to je neizbjeno dovelo i do potrebe obrade i analize tih podataka, a sve u svrhu dobivanja korisnih informacija i znanja. Dananja informacijska tehnologija omoguila nam je biljeenje svake aktivnosti u obliku digitalnih podataka, a koliina sakupljenih podataka u mnogim bazama mjeri se u gigabajtima ili terabajtima. Ogromne baze podataka bogate su podacima, ali i siromane informacijama koje su skrivene u pohranjenim podacima. Upravo je rudarenje podataka to koje pomae otkriti vane informacije i znanje utkano u podatke, uvelike pridonosei donoenju odluka, poslovanju i znanosti. Rudarenjem se takoer otkrivaju odnosi, loginost, pravilnost te openito bilo kakve strukture meu podacima. Rudarenje podrazumijeva organiziranje baza ienjem podataka kako bi se pristupilo znanju i stjecanju istog na temelju postojeih podataka u bazama. Razvoj tehnologije, raunala, interneta bitno doprinosi lakem organiziranju podataka, no da bi oni postali korisni, potrebno je njihovo pretvaranje u informacije i znanje. Termin rudarenja esto se poistovjeuje sa 2 razliita procesa: otkrivanje i predvianje znanja. Proces otkrivanja znanja implicira korisnikovo razumijevanje eksplicitnih informacija za koje je bitno da su u itljivom obliku. Predvianje se odnosi na budue dogaaje i u nekim pristupima moe biti itljivo i prozirno dok u drugim neprovidno.

V. ai, M. Varga, Informacijska tehnologija u poslovanju, Element, Zagreb, 2004

II.

SADRAJ

2.1. Uporaba rudarenja podataka


U poslovanju rudarenje podataka se najvie koristi na podruju marketinga, koji je usmjeren sve vie pojedinanom kupcu upravljanje odnosima s kupcima (eng. Customer Relationship Management CRM) koje je usmjereno stvaranju, odravanju ili poboljavanju odnosa s kupcima. Cilj ove pojedinane usmjerenosti na kupca jeste pridobivanje novih kupaca i zadravanje starih kupaca. CRM pokuava uvidjeti elje i potrebe kupaca, razumjeti njihovo ponaanje te predvidjeti budue ponaanje. Na ovom podruju rudarenje podataka je posebno uinkovito, naravno uz dovoljnu koliinu kvalitetnih podataka o kupcu. U marketingu, rudarenje podataka se najvie upotrebljava za: direktni marketing npr., katalozi i ponude razliitih artikala se alju kupcima za koje postoji najvea vjerojatnost odaziva; pozivi upueni starijim generacijama (ugl. umirovljenicima) na prezentacije od 10-ak ljudi gdje prodajni putnici prodaju razliite proizvode po " tvornikoj cijeni samo za njih veeras".Npr. prodaju proizvode od merino vune, proizvode koje ne tete naem zdravlju. izradu profila kupaca utvruje se uzorak ponaanja kupaca da bi mu se kasnije poslala prilagoena ponuda. Npr. nee D&G slati svoje kataloge s odjeom po Retfali. segmentaciju utvrivanje grupa kupaca s jednakim karakteristika (uzorkom ponaanja) istraivanje povezanosti prodaje razliitih proizvoda analiza kupovne koarice to se moe npr. upotrijebiti za rasporeivanje artikala na policama. Npr. u diskontu gdje se prodaju tehnike olovke, kraj njih e sigurno stajati i picevi za te iste tehnike. Ili, kraj mapa za crtanje/likovni, u blizini te police sigurno e nalaziti vodene boje, tempere i sl. stimulacija kupovine drugih artikala istog poduzea, odnosno vee koliine sitih artikala, to moe nadoknaditi pridobivanje novih kupaca. Kako emo ovo postii? Na primjer bio npr. uz 2 kupljena Ariel-a (praka za rublje) dobivate na poklon omekiva za rublje koji je stigao kao gratis u to poduzee (ali kupci to naravno ne znaju). zadravanje kupaca ovo je puno jeftinije od pridobivanja novih kupaca. Za primjer moemo uzeti slanje reklamnih materijala te njihov odaziv na te kataloge. Postoje 2 mogunosti kome emo kataloge uputiti, hoemo li ih izabrati nasumino ili uz pomo metode rudarenja podataka.

Postotak odaziva 100 90 80 70 60 50 40 30 20 10 10 20 30 40 50 60 70 80 90 100 postotak primatelja reklamnog materijala

- - - - - nasumian odabir ________ odabir uz pomo rudarenja


Sl.1. Poveanje odaziva upotrebom rudarenja podataka2 Puna linija pokazuje odaziv kod nasuminog izbora primatelja reklamnog materijala te je onda linearna jer se od 10000 primatelja bilo 2000 odaziva. Crtkana linija pokazuje mogui odaziv ako su primatelji odabrani procesom rudarenja podataka. To znai da od 5000 primatelja, odazvalo bi se njih 1800. Znai, posljedica rudarenja podataka su nii trokovi, jer je potrebno slati manje podataka za isti uinak. Takoer jedan od primjera uspjene upotrebe rudarenja podataka je bio u podruju mobilne telefonije. Kod posebno odabranih odaziv je bio 15%, a kod nasuminih 3%. Osim na podruju marketinga, rudarenja podataka se koristi na podruju bankarstva ( prognoze loih platia kreditnih rata, prognoze vrijednost dionica) i osiguranju (prognoze broja i vrijednosti naknada za tetu, prognoze zloupotreba). Takoer razvijaju se rudarenja Weba (analiza podataka o posjeti Web stranica i analiza putova kojim posjetitelji dolaze do portala s podatcima) i rudarenje tekstova (analiziraju se tekstovi i unutar njih trae uzorci i pravila koji se koriste pri kategorizaciji lanaka po podrujima, otkrivanju autorstva i sl.)

V. ai, M. Varga, Informacijska tehnologija u poslovanju, Element, Zagreb, 2004

2.2. Metode rudarenja podataka


U rudarenju podataka koriste se metode ve poznate iz statistike, amtematike i raunovodstva. Meu njima se najee koriste: 2.2.1. Metoda najblieg susjeda Ova metoda omoguuje automatsko klasificiranje dokumenata npr. kad itatelj pronae neki zanimljivi lanak, pomou ove metode moe pronai i druge sline lanke Npr.
[PDF] Koraci otkrivanja znanja Kor aci otkrivanja znanja Koraci ... Format datoteke: PDF/Adobe Acrobat - Prikai kao HTML Metode rudarenja podataka. Najee:. metoda najblieg susjeda. Prognozira se vrijednost odreenog svojstva promatrane jedinke, tako ... web.efzg.hr/mvarga/BP-rudarenje%20podataka.pdf - Sline stranice

2.2.2. Grupiranje Grupiranje jest razvrstavanje jedinki u skupine u kojima je postignuta njihova najvea slinost (segmentacija kupaca: podatci o starosti, zanimanju, dosadanjoj kupnji)

2.2.3. Asocijativna pravila Ova pravila su pravila oblika AKO-TADA. Pokazuje vjerojatnost da jedan dogaaj vee uz sebe drugi dogaaj. Npr. Ako se dogodi A1, A2 iAn, tada se esto dogodi B1, B2 iBn Ako smo kupili printer, tada emo kupiti i papir. Drugim rijeima, ova pravila su vezana za kupovinu stvari u paru, jer stvar A ne moe funkcionirati bez stvari B i obrnuto.

2.2.4. Stabla odluivanja Ova metoda funkcionira na nain da se na temelju odluivanja zasnovanih na poznatih situacijama i odlukama konstruira se stablo odluivanja.

Spol Starost u god.


M M M 50 24 37 43 33

Zanimanje God. staa


Voza Kuhar 8,5 0 3,5 6 3,5

Mjeseni trokovi
440 124 195 228 312

Zahtjev
Odobren Odbijen Odobren Odobren Odbijen

Konobar
Menader Prodava

2.2.5. Neuronske mree One su zamiljene su da djeluju slino ljudskom mozgu. One se upotrebljavaju u analizi rizika i prognoziranju npr. vrijednosti dionica. Rudarenje podataka temeljeno na ovoj metodi poinje uenjem mree pomou podataka za koje je poznata vrijednost koju elimo prognozirati. Nakon toga naueno znanje se provjerava. Postupak uenja i provjere ponavlja se sve dok rezultati provjere ne budu zadovoljavajui.

2.2.6. Genetski algoritmi Oni su temeljeni na ideji imitiranja pravila biolokog razvoja. Koriste se za optimizaciju i strojno uenje pri rjeavanju problema.
3 4

www.secerana.hr/default.aspx?id=46 www.blog.hr/print/?id=1620736565

2.3. Programi za rudarenje podataka


Programi za DM pojavljuju se u razliitim oblicima i to kao samostalni programi koji podupiru samo jednu metodu kao to su neuronske mree, zatim kao uklopljeni u programske sustave za razvoj aplikacija, onda kao samostalni alati za rudarenje, kao dio tj. modul drugih programskih sustava kao to je sustav za upravljanje bazama ili statistikih programskih paketa, ili kao gotova rjeenja za pojedinana problemska podruja kao to je izrada profila kupca.

2.4. Programski alati Data Mininga

Programski alati za rudarenje podataka koji se upotrebljavaju u poslovnim primjenama dolaze iz podruja programskih sustava namijenjenih upravljanju podatcima a to su: Alate iz podruja statistikih programskih sustava: Enterprise Miner (SAS), Clementine (SPSS) Specijalizirane alate za openite/poslovne uporabe: Data Mining, Intelligent Miner (IMB) Alate ukljuene u Warehousing: OLAP Alate ukljuene u sustav upravljanja podataka: Microsoft SQL Server Business Intelligence

www.zemris.fer.hr/.../WebStranica/index.html

2.5. Proces rudarenja podataka


Proces rudarenja podataka sastoji se od vie faza koje jedna osoba samostalno ne moe izvriti. Te faze, odnosno zadatke, moemo promatrati iz tri perspektive. Prva je problemska perspektiva koja je vana na samom poetku i kraju rudarenja podataka. Sastoji se od odabira problema, njegova definiranja te procjene i primjene znanja. Osoba koja obavlja ove zadatke moe se jednostavno nazvati korisnik. Druga perspektiva je podatkovna i obuhvaa sve zadatke vezane uz pripremu podataka za njihovo rudarenje, a obavlja je informatiar. Metodoloka perspektiva, kao trea i posljednja, sastoji se od svih zadataka vezanih uz analizu podataka, metode selekcije, implementacije, prezentacije i interpretacije rezultata. Osoba zaduena za te zadatke je strunjak rudarenja podataka (eng. data miner). 1.KORAK: Definiranje problema Ovo je prvi korak kod rudarenja podataka. Znai treba se definirati problem koji se eli rijeiti. Ako se problem loe definira, ne moe se oekivati da e rudarenje u poslovnom smislu biti uspjeno, iako rezultati analize mogu biti valjani. Ovdje moemo uzeti onaj primjer pelena i piva. Problem koji je ovdje bio postavljen jest pronai artikle koji se esto prodaju zajedno. Primjer dobrog definiranja problema je primjer banke s velikim brojem klijenata koji kasne s otplatama rata hipotekarnih kredita. Ovdje banka eli ustanoviti da li je mogue od podataka o zajmoprimci predvidjeti hoe li on kasniti s otplatama ili ne. 2.KORAK: Prikupljanje i priprema podataka Iskustva iz prakse pokazuju da je najvei trud u procesu rudarenja potrebno uloiti u ovaj korak. Ovisno o kakvoi i organiziranosti podataka u organizaciji, uloeni rad u ovoj fazi kree se od 50-80% cjelokupnog truda u procesu rudarenja. Izbor i priprema podataka su kritine aktivnosti za konani uspjeh projekta. Ovaj korak obuhvaa izbor izvora podataka, integraciju podataka iz razliitih baza podataka, njihovo ienje i dodatno sakupljanje podataka koji su potrebni, a nisu trenutno raspoloivi. 3.KORAK: Izabiranje metode rudarenja U ovom koraku se ne moe znati najbolja metoda, jer sve ovisi o prirodi problema. Npr. neuronske mree su najbolje obrazloenje neke pojave npr. vrijednost kue, a u metoda stabla odluivanja je pogodna za npr. analizu odobravanja kredita. Znai potrebno je u vei metoda rudarenja prvo eksperimentirati pa onda izabrati onu najbolju koja daje rezultate. 4.KORAK: Uenje Ovdje metoda ui na podatcima. Ovdje postoji opasnost da se uz previe uenja dobiju rezultati koji super odgovaraju podatcima na kojima je algoritam uio i izgradio model, a loe buduim podatcima. A cilj modela je da se dobro ponaa na buduim podatcima. 5.KORAK: Interpretacija rezultata U ovom koraku analitiar na kraju odluuje je li pravilo zanimljivo, relevantno i upotrebljivo za organizaciju. 8

2.6. Tko su sudionici u procesu Data Mininga?


U procesu rudarenja poeljno da sudjeluju: 1) informatiar on brine o pripremi podataka 2) analitiar podataka to je npr. statistiar. On brine o izboru metode i metodolokoj interpretaciji rezultata rudarenja 3) strunjak on mora biti poznavatelj poslovnog podruja, koji definira poslovni problem, odabire relevantne podatke, interpretira rezultate i predlae aktivnosti na temelju rezultata rudarenja 4) voditelj projekta - on planira i organizacijski vodi projekt rudarenja podataka

2.7. Tko trai strunjake u Data Miningu?


Istraivanja su pokazalo je da veina poduzea koja trae strunjaka rudarenja podataka dolaze iz IT sektora (43%), marketinga (19%) te iz bankarskog sektora i osiguranja (17%).

Poloaj u poduzeu na koji se zapoljavaju nije jedinstven, no najee je to menader (20%), strunjak rudarenja podataka (16%), statistiar i/ili operacijski istraiva (12%), marketinki analitiar (10%) te softverski ininjer/arhitekt (10%).

Podjednaki broj poduzea eli zaposliti osobe sa diplomom (40%) i magisterijem (40%). Prilino veliki broj poslodavaca trai i doktorat (20%). Vezano uz godine radnog iskustva rezultati pokazuju da su jednako traeni oni sa manje od 5 godina iskustva i oni sa 5 do 10 godina iskustva. Samo u 3% sluajeva zahtjeva se vie od 10 godina iskustva.

10

Zadaci unutar procesa rudarenja podataka koji se oekuju od zaposlenika su najee prezentiranje rezultata (29%), izgradnja novih modela (15%) i priprema podataka (13%). Znanje klasifikacijske metode rudarenja podataka je najtraenije (18%). Metode predvianja i statistike tehnike su jednako zastupljene sa po 8%. Znanje softvera koje je potrebno imati najvie odlazi na SQL (44%) i SAS (42%). Zanimljivo je spomenuti da specifini softver za rudarenje podataka (primjerice Clementine) se vrlo rijetko spominje. Dodatne vjetine koje se zahtijevaju su analitike vjetine (42%), konzalting (19%), projektni menadment (16%), profiliranje korisnika (15%) i iskustvo u podruju (15%).

Kada uzmemo u obzir sve ovdje navedeno dolazimo do profila strunjaka rudarenja podataka. To su osobe koje su najvjerojatnije zaposlene u IT sektoru, mnogi od njih rade na poloaju menadera i njihov posao je najee vezan uz prezentaciju rezultata i razvoj modela za rudarenje podataka. Vjerojatno se slue klasifikacijskom metodom, a od njih se zahtjeva i posjedovanje analitikih vjetina.

11

2.8. Primjeri rudarenja podataka


Tvrtka Petrol napravila je dvije analize: - analizu veleprodaje i identificirala kupce za koje je vjerojatno da e biti slabi platie u budunosti - analizu rauna kupaca kako bi otkrila u kojim danima u tjednu treba imati vee zalihe goriva Rudarenje podataka se koristi jo i u: - Politici: rudarenje je metoda kojom je U.S. Army uspjela identificirati vou napada na Twin Towers, 11.9.2001.; a tom se metodom takoer koriste CIA i Canadian Security Intelligence Service - Igrama: ve od 60-ih godina u nekim kombinatornim igrama poput aha - Poslovanju: pomae u brem donoenju poslovnih odluka zbog kontaktiranja samo onih klijenata za koje postoji visoka vjerojatnost da e odgovoriti

12

III.

Z A K LJ U A K

Jedna suvremena informacijska tehnologija izaziva jaku asocijaciju na poimanje informacije kao resursa, jednako kao to su to sirovine i energenti do kojih se dolazi rudarenjem u rudnicima, bilo ugljena, eljezne rude i sl. Rije je o rudarenju podataka. Suvremena raunala imaju velike, ali jo uvijek i nedovoljno poznate mogunosti. Osnovno poimanje raunala vezano je uz podatke, ali uz podatke oni uvaju i znanje, a iz tog znanja mogu proizvoditi nova znanja. Poznata izreka koja kae da tko ima informaciju ima mo danas vie nije adekvatna. Informacija nije dovoljna, nuno je znanje to uiniti s tim informacijama. Znanje je snaga, pa se kae da e samo ona gospodarstva biti uspjena u ovom stoljeu koja e znati koristiti sadanje i generirati novo znanje. To znanje je ve u raunalnim memorijama i bazama podataka ali je gotovo je nevidljivo, jer je rasuto poput mrvica u moru brojeva i rijei. Koristei dostignua umjetne inteligencije, rudarenje podataka oblikovalo se u tehnoloki pokret i biznis. Rudarenje je mnogo vie od kopanja, nije cilj kopati, ve odvojiti korisno od nekorisnog. Kod rudarenja podataka iz mase podataka treba izdvojiti male dijelove koji predstavljaju znanje, a onda dodatnom obradom stvoriti novo znanje, pa doi i do novih tehnolokih otkria. U pojmovnom razlikovanju znanja od podataka, znanje se sastoji od injenica, pretpostavki i vjerovanja, ali posebno vano i od naina kako ih upotrijebiti. Rudarenje podataka je znai automatizirano traenje informacija u mnotvu podataka. Cilj ove metode jest pronalaenje pravila, odnosno uzoraka koji omoguuju pronalaenje veza izmeu uzroka i posljedica Ogromne baze podataka bogate su podacima, ali i siromane informacijama koje su skrivene u pohranjenim podacima. Upravo je rudarenje podataka to koje pomae otkriti vane informacije i znanje utkano u podatke, uvelike pridonosei donoenju odluka, poslovanju i znanosti. Proces rudarenja ne moe izvriti samo 1 osoba jer se on sastoji od vie faza, tonije 3. 1. tzv. Problemska faza odnosno odabir i definiranje problema, procjena zadnjeg te primjena znanja. Te zadatke obavlja korisnik. 2. Podatkovna faza: sve vezano uz pripremu podataka za rudarenje; obavlja ju informatiar 3. Metodoloka faza : sve od analize, selekcije, prezentacije do interpretacije rezultata. Strunjak za rudarenje podataka (eng.data miner) je osoba zaduena za zadatke koji obuhvaaju treu i zadnju fazu procesa rudarenja. Ova metoda zahtijeva visoku razinu strunog znanja o metodama. Jo uvijek se razvijaju alati koji e omoguiti koritenje DM menaderima i bez specijaliziranog strunog znanja, te se takoer radi na edukaciji korisnika ove metode.

13

IV.

LITERATURA

1. V. ai, M. Varga, Informacijska tehnologija u poslovanju, Element, Zagreb, 2004 2. N. Novak, J. Mesari, B. Duki, M. Zeki-Suac, http://www.efos.hr/informatika, materijali za predavanja iz kolegija Informatika i informatike tehnologije, 30.4.2008. 3. http://en.wikipedia.org/wiki/Data_mining 02.05.2008. 4. www.skladistenje.com 02.05.2008. 5. Panian, ., Klepac, G., Poslovna inteligencija, Masmedia, Zagreb, 2003.6. 6. www.bitart.hr/DataMining.aspx 10.05.2008.

14

You might also like