Professional Documents
Culture Documents
Seminar Data Mining
Seminar Data Mining
Informatika
Naslov rada:
Osijek, 12.05.2008.
SADRAJ
str. I. UVOD 2 2
Uvod to je rudarenje podataka? II. SADRAJ Uporaba rudarenja podataka Metode rudarenja podataka Metoda najblieg susjeda Metoda grupiranja Asocijativna pravila Stabla odluivanja Neuronske mree Genetski algoritmi Programi za rudarenje podataka Programski alati Data Mininga Proces rudarenja podataka Tko su sudionici u procesu Data Mininga? Tko trai strunjake u Data Miningu? Primjeri rudarenja podataka III. IV. ZAKLJUAK LITERARURA
3 5 5 5 5 6 6 6 7 7 8 9 9 12 13
14
I.
UVOD
Svako poduzee ili bilo kakve organizacije prikupljaju velike koliine podataka potrebnih za svoje poslovanje. Meutim, nas zanima, postoje li jo nekakve dodatne informacije u tim ve prikupljenim i poznatim podatcima koje mogu biti korisne za poslovanje nekog poduzea. Moemo li iz "iskopanih" podatka "iskopati" jo korisnih informacija? Rudarenje podataka koristi metode koje su poznate u statistici, umjetnoj inteligenciji, matematici i raunovodstvu radi automatiziranog otkrivanja skrivenih modela i uzoraka podataka u velikim koliinama podataka. Svrha ovog proces jest predvidjeti ponaanje u buduim poslovnim dogaajima osnovi znanja otkrivenog u podatcima1.
II.
SADRAJ
2.2.2. Grupiranje Grupiranje jest razvrstavanje jedinki u skupine u kojima je postignuta njihova najvea slinost (segmentacija kupaca: podatci o starosti, zanimanju, dosadanjoj kupnji)
2.2.3. Asocijativna pravila Ova pravila su pravila oblika AKO-TADA. Pokazuje vjerojatnost da jedan dogaaj vee uz sebe drugi dogaaj. Npr. Ako se dogodi A1, A2 iAn, tada se esto dogodi B1, B2 iBn Ako smo kupili printer, tada emo kupiti i papir. Drugim rijeima, ova pravila su vezana za kupovinu stvari u paru, jer stvar A ne moe funkcionirati bez stvari B i obrnuto.
2.2.4. Stabla odluivanja Ova metoda funkcionira na nain da se na temelju odluivanja zasnovanih na poznatih situacijama i odlukama konstruira se stablo odluivanja.
Mjeseni trokovi
440 124 195 228 312
Zahtjev
Odobren Odbijen Odobren Odobren Odbijen
Konobar
Menader Prodava
2.2.5. Neuronske mree One su zamiljene su da djeluju slino ljudskom mozgu. One se upotrebljavaju u analizi rizika i prognoziranju npr. vrijednosti dionica. Rudarenje podataka temeljeno na ovoj metodi poinje uenjem mree pomou podataka za koje je poznata vrijednost koju elimo prognozirati. Nakon toga naueno znanje se provjerava. Postupak uenja i provjere ponavlja se sve dok rezultati provjere ne budu zadovoljavajui.
2.2.6. Genetski algoritmi Oni su temeljeni na ideji imitiranja pravila biolokog razvoja. Koriste se za optimizaciju i strojno uenje pri rjeavanju problema.
3 4
www.secerana.hr/default.aspx?id=46 www.blog.hr/print/?id=1620736565
Programski alati za rudarenje podataka koji se upotrebljavaju u poslovnim primjenama dolaze iz podruja programskih sustava namijenjenih upravljanju podatcima a to su: Alate iz podruja statistikih programskih sustava: Enterprise Miner (SAS), Clementine (SPSS) Specijalizirane alate za openite/poslovne uporabe: Data Mining, Intelligent Miner (IMB) Alate ukljuene u Warehousing: OLAP Alate ukljuene u sustav upravljanja podataka: Microsoft SQL Server Business Intelligence
www.zemris.fer.hr/.../WebStranica/index.html
Poloaj u poduzeu na koji se zapoljavaju nije jedinstven, no najee je to menader (20%), strunjak rudarenja podataka (16%), statistiar i/ili operacijski istraiva (12%), marketinki analitiar (10%) te softverski ininjer/arhitekt (10%).
Podjednaki broj poduzea eli zaposliti osobe sa diplomom (40%) i magisterijem (40%). Prilino veliki broj poslodavaca trai i doktorat (20%). Vezano uz godine radnog iskustva rezultati pokazuju da su jednako traeni oni sa manje od 5 godina iskustva i oni sa 5 do 10 godina iskustva. Samo u 3% sluajeva zahtjeva se vie od 10 godina iskustva.
10
Zadaci unutar procesa rudarenja podataka koji se oekuju od zaposlenika su najee prezentiranje rezultata (29%), izgradnja novih modela (15%) i priprema podataka (13%). Znanje klasifikacijske metode rudarenja podataka je najtraenije (18%). Metode predvianja i statistike tehnike su jednako zastupljene sa po 8%. Znanje softvera koje je potrebno imati najvie odlazi na SQL (44%) i SAS (42%). Zanimljivo je spomenuti da specifini softver za rudarenje podataka (primjerice Clementine) se vrlo rijetko spominje. Dodatne vjetine koje se zahtijevaju su analitike vjetine (42%), konzalting (19%), projektni menadment (16%), profiliranje korisnika (15%) i iskustvo u podruju (15%).
Kada uzmemo u obzir sve ovdje navedeno dolazimo do profila strunjaka rudarenja podataka. To su osobe koje su najvjerojatnije zaposlene u IT sektoru, mnogi od njih rade na poloaju menadera i njihov posao je najee vezan uz prezentaciju rezultata i razvoj modela za rudarenje podataka. Vjerojatno se slue klasifikacijskom metodom, a od njih se zahtjeva i posjedovanje analitikih vjetina.
11
12
III.
Z A K LJ U A K
Jedna suvremena informacijska tehnologija izaziva jaku asocijaciju na poimanje informacije kao resursa, jednako kao to su to sirovine i energenti do kojih se dolazi rudarenjem u rudnicima, bilo ugljena, eljezne rude i sl. Rije je o rudarenju podataka. Suvremena raunala imaju velike, ali jo uvijek i nedovoljno poznate mogunosti. Osnovno poimanje raunala vezano je uz podatke, ali uz podatke oni uvaju i znanje, a iz tog znanja mogu proizvoditi nova znanja. Poznata izreka koja kae da tko ima informaciju ima mo danas vie nije adekvatna. Informacija nije dovoljna, nuno je znanje to uiniti s tim informacijama. Znanje je snaga, pa se kae da e samo ona gospodarstva biti uspjena u ovom stoljeu koja e znati koristiti sadanje i generirati novo znanje. To znanje je ve u raunalnim memorijama i bazama podataka ali je gotovo je nevidljivo, jer je rasuto poput mrvica u moru brojeva i rijei. Koristei dostignua umjetne inteligencije, rudarenje podataka oblikovalo se u tehnoloki pokret i biznis. Rudarenje je mnogo vie od kopanja, nije cilj kopati, ve odvojiti korisno od nekorisnog. Kod rudarenja podataka iz mase podataka treba izdvojiti male dijelove koji predstavljaju znanje, a onda dodatnom obradom stvoriti novo znanje, pa doi i do novih tehnolokih otkria. U pojmovnom razlikovanju znanja od podataka, znanje se sastoji od injenica, pretpostavki i vjerovanja, ali posebno vano i od naina kako ih upotrijebiti. Rudarenje podataka je znai automatizirano traenje informacija u mnotvu podataka. Cilj ove metode jest pronalaenje pravila, odnosno uzoraka koji omoguuju pronalaenje veza izmeu uzroka i posljedica Ogromne baze podataka bogate su podacima, ali i siromane informacijama koje su skrivene u pohranjenim podacima. Upravo je rudarenje podataka to koje pomae otkriti vane informacije i znanje utkano u podatke, uvelike pridonosei donoenju odluka, poslovanju i znanosti. Proces rudarenja ne moe izvriti samo 1 osoba jer se on sastoji od vie faza, tonije 3. 1. tzv. Problemska faza odnosno odabir i definiranje problema, procjena zadnjeg te primjena znanja. Te zadatke obavlja korisnik. 2. Podatkovna faza: sve vezano uz pripremu podataka za rudarenje; obavlja ju informatiar 3. Metodoloka faza : sve od analize, selekcije, prezentacije do interpretacije rezultata. Strunjak za rudarenje podataka (eng.data miner) je osoba zaduena za zadatke koji obuhvaaju treu i zadnju fazu procesa rudarenja. Ova metoda zahtijeva visoku razinu strunog znanja o metodama. Jo uvijek se razvijaju alati koji e omoguiti koritenje DM menaderima i bez specijaliziranog strunog znanja, te se takoer radi na edukaciji korisnika ove metode.
13
IV.
LITERATURA
1. V. ai, M. Varga, Informacijska tehnologija u poslovanju, Element, Zagreb, 2004 2. N. Novak, J. Mesari, B. Duki, M. Zeki-Suac, http://www.efos.hr/informatika, materijali za predavanja iz kolegija Informatika i informatike tehnologije, 30.4.2008. 3. http://en.wikipedia.org/wiki/Data_mining 02.05.2008. 4. www.skladistenje.com 02.05.2008. 5. Panian, ., Klepac, G., Poslovna inteligencija, Masmedia, Zagreb, 2003.6. 6. www.bitart.hr/DataMining.aspx 10.05.2008.
14