1.

UNIVERZITET U BEOGRADU FAKULTET ORGANIZACIONIH NAUKA

PRIMENA POSLOVNE INTELIGENCIJE U ELEKTRONSKOM POSLOVANJU
DIPLOMSKI RAD

MENTOR: prof.dr. Božidar Radenković

STUDENT: Dejan Banzić 456/97

Beograd, 2006.

Sadržaj:

UVOD
Svako preduzeće predstavlja dinamički sistem, koji karakterišu njegova trenutna stanja kao i stanja u koja sistem može da pređe u budućnosti. Ova stanja izražena su pomoću velike količine podataka, koji se registruju u različitim vrstama informacionih sistema, dokumentima, poslovnim knjigama i drugim nosiocima informacija. Obrada ovih podataka, pronalaženje korelacije između njih i njihova transformacija u informacije predstavlja značajan razvojni potencijal. Informacije su ključni faktor za donošenje odluka na bilo kom nivou od operativnog, preko srednjeg do strateškog nivoa odlučivanja, te u tom smislu njihovo adekvatno generisanje i interpretacija u značajnoj meri utiče na izbor upravljačkih akcija menadžmenta preduzeća. Elektronski način

poslovanja postaje dominantan u odnosu na dosadašnje metode, a produktivnost, efikasnost i efektivnost, kao merilo uspešnosti odvijanja poslovnih procesa, u direktnoj su vezi sa kvalitetom i stepenom implementiranih informacionih tehnologija koje podržavaju te procese. Informacione tehnologije čine infrastrukturnu osnovu za odvijanje procesa u poslovnom sistemu.Poslovna inteligencija (Business Intelligence) je deo informacionog sistema organizacije namenski razvijen da omogući upravljanje performansama organizacije. Poslovna inteligencija je oblast u okviru informacionih tehnologija, čiji je cilj da ukupne informacione potencijale preduzeća stavi u funkciju donošenja najkvalitetnijih odluka, kako bi se ostvarili utvrđeni strateški ciljevi preduzeća. To je kompleksna oblast koja uključuje razne vrste tehnologija i pristupa iz oblasti informacionih tehnologija, menadžmenta, statistike i matematike. Osnovni cilj ovog rada je da definiše pojam poslovne inteligencije, prikaže osnovne karakteristike i predstavi načine integracije poslovne inteligencije u procese poslovanja. Pored toga, rad se bavi i detaljnim prikazom osnovnih tehnika i alata poslovne inteligencije, i prikazom metodologije za njihovu implementaciju. U prvom poglavlju dati su opšti podaci o informacionim sistemima poslovanja, i uzrocima njihove primene. Takođe, prezentovane su i pojedine vrste ovih sistema i prikazan je njihov evolutivni tok. Drugo poglavlje bavi se opštim pojmom poslovne inteligencije.U njemu su date definicije pojma poslovne inteligencije, opisane su tehnike za integraciju poslovne inteligencije u procese poslovanja i predstavljeni tipovi aplikacija poslovne inteligencije koji se koriste u savremenom poslovanju. Treće poglavlje pored definicija data warehouse-a, uvodi i obrađuje pojmove OLAP-a (On-Line Analitical Processing) i kocki podataka (Data cubes). Osim navedenog dat je i prikaz arhitekture data warehouse sistema uz detaljan opis svih komponenti iz kojih se ovaj sistem sastoji. Četvrto poglavlje ovog rada odnosi se na data mining, sigurno jednu od najkompleksnijih i najčešće upotrebljavanih tehnika poslovne inteligencije. Ovo poglavlje polazi od pojma otkrivanja znanja i opisuje njegovu vezu sa data mining-om. Zatim daje prikaz razvoja data mining-a, definiše njegov pojam i metodologiju, i na kraju ukratko predstavlja tehnike data mining-a nestrukturiranih podataka kao što su text mining, web mining, i multimedijalni data mining. U finalnom petom poglavlju, u cilju ilustracije mogućnosti praktične primene poslovne inteligencije, odnosno njenih tehnika u domenu elektronskog obrazovanja, dat je opis alata poslovne inteligencije koji se nalaze u SQL Server Business Intelligence Development Studio-u, kao i primer korišćenja datih alata za generisanje data mining modela nad konkretnom bazom podataka koja je dobijena iz aplikacije za učenje na daljinu – "Moodle", i bazom podataka informacionog sistema poslediplomskih studija Fakulteta Organizacionih Nauka u Beogradu.

1. INFORMACIONI SISTEMI POSLOVANJA
U dinamičnom okruženju kakvo je danas, od ključnog je značaja za preduzeće da širokom krugu poslovnih korisnika obezbedi efikasan, brz, jeftin i jednostavan pristup potrebnim informacijama. To podrazumeva i obavezno prisustvo informacionih tehnologija u svim poslovnim procesma preduzeća. Kao što je već rečeno informacione tehnologije čine informacionu infrastrukturnu osnovu za odvijanje poslovnih procesa u poslovnom sistemu, a rezultati poslovanja direktno su proporcionalni kvalitetu i stepenu

o čemu će biti više reči u narednim poglavljima ovog rada. odvijao se u tri globalne faze: • • • Host bazirani upiti Data warehouse Poslovna inteligencija (Busness Intelligence) 1.1 Evolucija poslovnih informacionih sistema Razvoj poslovnih informacionih sistema od početka primene do danas. koje su korisnici sami morali da analiziraju i na osnovu toga donesu odgovarajuće zaključke i rešenja poslovnih problema. Prednost ovakvih sistema je relativno brz pristup podacima. Data warehouse baze podataka sastoje se od data mart-ova. ERP rešenja spadaju u kategoriju operacionih transakcionih sistema. odnosno rezultat obrade ovakvih informacionih sistema bile su uglavnom velike količine podataka na papiru. Sa druge strane menadžeri su dobijali svoje informacije posredno. od tehničkog osoblja jer sami nisu bili u stanju da efikasno koriste ove sisteme. koje su korisniku obezbeđivale potrebnu količinu informacija. u kojima su podaci organizovani na način koji je pogodan za odvijanje analitičkih procesa nad velikim skupovima podataka. Ovi sistemi nisu vršili bilo kakvu analizu podataka. već su jednostavno iz skladišta podataka izdvajali podatke na osnovu postavljenih upita. 1. bili su bazirani na batch aplikacijama.implementiranih informacionih tehnologija. Upravo zbog toga ove informacione sisteme koristilo je uglavnom tehničko osoblje koje je imalo potrebno znanje i iskustvo u radu sa računarima. osnovni cilj primene IT (Informacionih Tehologija) jeste povećanje produktivnosti.1. . Prvi korak u realizaciji ovog cilja je izbor odgovarajućeg informacionog sistema iz kategorije ERP-ova (Enterprise Resource Planning). logičkih segmenata koji se odnose na određene segmente poslovanja. Pristup koji se primenjuje kod ovakvih informacionih sistema naziva se OLAP (On-Line Analitical Processing). to i sistemi za podršku odlučivanju evoluiraju i danas predstavljaju integralni deo sistema poslovne inteligencije (BI . nasuprot OLTP (On-Line Transaction Processing) pristupu koji je vezan za transakcione baze podataka. Informacioni sistemi iz ove kategorije obuhvataju informacionu podršku za većinu poslovnih funkcija na svim nivoima. koji su baziani na ERP podacima. Ovi sistemi koriste posebne vrste baza podataka koje se nazivaju data warehouse. Dakle. istorijskim podacima i mnogim drugim izvorima podataka u preduzeću i van njega. Kako su informacione tehnologije predmet permanentnog i sistematskog usavršavanja i razvoja. Kao vrsta nadogradnje ERP sistema javljaju se sistemi za podršku odlučivanju (DSS Decision Support Systems).1 Host bazirani upiti Prvi informacioni sistemi koji su se koristili.Business Intelligence) i sistema za upravljanje performansama sistema (CPM . Izlazi. efikasnosti i efektivnosti odvijanja poslovnih procesa. od operativnog do strateškog. i obezbeđuju informacionu podršku tekućem poslovanju. dok je sa druge strane glavni nedostatak prevelika nezgrapnost ogromne količine podataka kao i veoma složeni upiti za pristup transakcionim bazama podataka.Corporate Performance Management).

a ne samo dnevne operativne potrebe. kao i sa web servera. koji su u mogućnosti da obrade i analiziraju velike količine podataka. jasna i konzistentna. Sadrži i istorijske informacije. . Data warehouse informacija je čista.1. Ovo omogućuju napredni grafički i web orijentisani OLAP sistemi. korporativnog intraneta. 1. Data warehouse donosi značajne mogućnosti i prednosti u odnosu na prvu generaciju informacionih sistema: • • • • Data warehouse je dizajniran da neprekidno zadovoljava potrebe poslovnih korisnika. tako i onima koji ih koriste. Interneta pa čak i papira na stolovima zaposlenih.3 Poslovna inteligencija (BI . Sistemi poslovne inteligencije moraju da budu projektovani tako da podrže pristup svim oblicima informacija a ne samo data warehouse sistemu.Business Intelligence) Sistemi poslovne inteligencije su usmereni ka poboljšanju mogućnosti za pristup i distribuciju informacija.1.Poslovna inteligencija Data Warehouse HOST SISTEMI Slika 1 Evolucija poslovnih informacionih sistema 1. izdvojiti. Informacije koje se nalaze u data warehouse-u potiču uglavnom iz transakcionih baza podataka ili iz eksternih izvora. kako onima koji informacije prave. Najveća mana ovih informacionih sistema je to što su oni uglavnom usredsređeni na tehnologiju umesto na poslovne probleme. bez potrebe da je tehničko osoblje intepretira u oblik koji korisnik može da razume. a ne samo informacije o tekućem poslovanju Značajno je unapređen korisnički interfejs sa pojavom alata za podršku odlučivanju.2 Data warehouse Data warehouse može da se definiše kao: kolekcija informacija organizovanih tako da se mogu lako analizirati. sintetizovati i na drugi način koristiti da bi se razumela suština tih informacija.

Podržavaju pristup svim vidovima poslovnih informacija. 2. Load) Kocka podataka Data mining Slika 2 Konceptualna arhitektura poslovne inteligencije Osnovne karakteristike treće generacije poslovnih informacionih sistema su: • • Fokusirani su na pristup i distribuciju poslovnih informacija krajnjim korisnicima.Izvori podataka ERP e-commerce eksterni izvori Data Warehouse Korisnički alati OLAP Statički i dinamički izveštaji Balanced scorecard ETL (Extract. kao i korisnicima informacija. Transform. ne samo informacijama koje se nalaze u data warehouse-u. i pružaju podršku tvorcima. POSLOVNA INTELIGENCIJA .

Na taj način svaki pojedinac dobija informacije skrojene prema njegovim potrebama. Marcia Robinson : . Poslovna inteligencija je skupina novih aplikacija oblikovanih tako da mogu organizovati i strukturirati podatke o poslovnim transakcijama na način koji omogućava analizu korisnu u podršci odlučivanju i operativnim aktivnostima organizacije.1 Definicija poslovne inteligencije Poslovna inteligencija je najčešće korišćeni termin za označavanje kompjuterske podrške odlučivanju u organizaciji. Ona predstavlja arhitekturu i kolekciju integrisanih operativnih aplikacija i aplikacija za podršku odlučivanju kao i baze podataka koje poslovnoj organizaciji omogućava lak pristup podacima.. Upravljanje performansama organizacije zahteva sveobuhvatan i blagovremen uvid u pokazatelje funkcionisanja organizacije kako bi donošene odluke bilo pouzdano i precizno. to je poslovna inteligencija. " d) Len Wyatt : . poslovanju. " 2. pa je stoga različiti autori definišu na različite načine. Moss.″ Postoji još nekoliko definicija raznih autora : a) Larissa T. " c) Ravi Kalakota. analizira ih.Kada kompanija koristi podatke iz svojih izvršnih sistema pri donošenju odluka. Ono se odnosi na pristup.Pretvaranje podataka u znanje je zadatak aplikacija poznatih pod nazivom poslovna inteligencija.Poslovna inteligencija nije ni proizvod niti sistem. a učenje kako uočiti i iskoristiti tu prednost. Sistemi poslovne inteligencije preuzimaju podatke iz izvršnih sistema i restrukturiraju ih tako da korisnici mogu otkrivati ranije nepoznate informacije o preduzeću. poslovnim aktivnostima ili proizvodima. " b) Steve Mutfitt : . udvostručuje se svake druge godine. odnosno po nekim istraživanjima.. Ona je deo informacionog sistema organizacije namenski razvijen da omogući upravljanje performansama organizacije. analizu i otkrivanje novih mogućnosti.2 Razlozi za primenu poslovne inteligencije Obzirom da se količina poslovnih informacija povećava eksponencijalno. Poslovna inteligencija je umetnost sticanja poslovne prednosti na osnovu podataka. Shaku Atre : .. Ne postoji univerzalni način definisanja poslovne inteligencije (business inteligence). Konsolidacija i organizacija podataka za efikasnije poslovno odlučivanje dovodi do stvaranja kompetitivne prednosti. klijentima. menadžeri i radnici moraju biti u stanju da brže donose bolje odluke. predstavlja osnovni cilj poslovne inteligecije.Poslovna inteligencija je način dostavljanja pravih informacija u pravom formatu u prave ruke u pravo vreme. priprema potrebne izveštaje i šalje ih ljudima koji ih trebaju. i njihova obrada u korisne informacije koje mogu pomoći poslovnim korisnicima pri donošenju odluka. Jedna od najčešće korišćenih i opštijih definicija je sledeća: "Poslovna inteligencija je takvo korišćenje podataka koje vodi ka donošenju boljih poslovnih odluka. ...Poslovna inteligencija je proces prikupljanja raspoloživih internih i relevantnih eksternih podataka. Dobar sistem poslovne inteligencije prikuplja informacije iz svih delova organizacije.2. " e) Vinod Badami : .

Investicije u IT sisteme danas predstavljaju značajan procenat u odnosu na ukupne investicije u preduzeću. postaje sve teže u tako kompleksnom okruženju. Sistemi poslovne inteligencije pružaju više od klasičnih mehanizama koji se zasnivaju na prostim upitima i izveštajima.Poslovna inteligencija predstavlja mnogo više od kombinacije podataka i tehnologije. nije dovoljno samo smanjiti troškove poslovanja IT odeljka. sve većem i raznovrsnijem broju konzumenata. i ukoliko su podaci pripremljeni u formatima pogodnim za razne vrste analiza. već pored toga nude i savremene alate za otkrivanje i analizu informacija. već izvući maksimalan poslovni učinak iz poslovnih informacija koje IT sistemu generišu.Odavno je prošlo vreme u kome su krajnji korisnici mogli da planiraju i upravljaju poslovnim operacijama pomoću mesečnih batch izveštaja.Kompanije danas nude širok spektar proizvoda i usluga. orijentisani ka krajnjim korisnicima. Postojanje potrebe da se povećaju prihodi. Postojanje potrebe da se smanje IT troškovi . i da omoguće korisnicima lak i brz pristup potrebnim informacijama. a IT organizacije imale mesece da završe potrebne aplikacije. koji su kreirani za obradu i upravljanje složenim poslovnim informacijama. a to su: 1. Korišćenje OLAP-a(On Line Analitical Processing) za smanjivanje troškova IT sektora. Sistemi poslovne inteligencije su. realizacija ciljeva prodaje. Sve navedene primene moguće su samo uz korišćenje sofisticiranih alata i aplikacija. U skladu sa ranije izrečenim. unapređenje sistema nabavke. kada je u pitanju pristup i raspodela informacija. sistemima poslovne inteligencije. potpomažu u smanjivanju troškova pristupa većeg broja korisnika. smanje troškovi i posluje konkurentnije . neophodno je nabrojati neke od glavnih pokretačkih snaga koje utiču na potrebu za njenom implementacijom. 3. Postojanje potrebe da se modeluje i upravlja kompleksnošću savremenog poslovnog okruženja . obuhvataju i podatke sa korporativnih web servera. u skladu sa promenljivim poslovnim okruženjem. kao i maksimiziranje investicija. Danas kompanije moraju ubrzano da projektuju i implementiraju potrebne aplikacije. Nove informacione tehnologije kao što je korporativni intranet i mobilne tehnologije. koje vlada. Korišćenje data mining-a za pronalaženje ključnih parametara vezanih za određeni segment kupaca. otkrivanje novih mogućnosti za dobit. Shvatanje i upravljanje poslovanjem. Imajući u vidu taj podatak. unapređenje upravljanja troškovima. Ovi sistemi su takođe proširili opseg informacija koje se mogu obraditi tako da pored operativnih. Za . Ona omogućava pronalaženje potrebnih podataka i uočavanje njhove moći i time transformaciju informacija u znanje koje obezbeđuje značajnu konkurentsku prednost. 2. Iako se iz samog koncepta i definicije poslovne inteligencije zaključuju glavni razlozi za njenu primenu u savremenom poslovanju. može se navesti nekoliko oblasti u kojima je pogodna primena sistema poslovne inteligencije: • • • Smanjenje operativnih troškova.

U tu svrhu koriste se različiti alati kao što su: • Namenske aplikacije. Ugrađivanjem analitičkih metoda u operativne aplikacije u procesu razvoja aplikacija. Poslovna inteligencija se može integrisati u poslovne procese preduzeća na nekoliko načina: 1. WBI monitor.poslovne korisnike je od važnosti da imaju alate i aplikacije kojima će biti u stanju da analiziraju podatke. Integracijom analitičkih aplikacija sa operativnim aplikacijama korišćenjem "enterprise portala‚‚ da bi podacima mogli pristupiti i interni i eksterni korisnici. Komponente platformi za poslovnu integraciju različitih proizvođača 2. BizTalk Orchestator.Na koji način integrisati poslovnu inteligenciju u poslovne procese preduzeća da bi zaposleni u bilo kom trenutku mogli to da iskoriste i da daju svoj lični doprinos ostvarenju strateških poslovnih ciljeva ? " Ključ je u indentifikaciji uloge poslovne inteligencije u svakom procesu da bi se ostvarili zacrtani ciljevi.3 Tehnike za integraciju poslovne inteligencije Jedno od osnovnih pitanja koje se postavlja prilikom uvođenja koncepta poslovne inteligencije je: . Oracle Warehouse Builder Tabela 1. Biztalk server. • Alati za izvršavanje upita. WBI server. potrebno razumeti i uloge ljudi koji učestvuju u procesu. • Alati za data mining i dr. 9iAS Integration. Websphere MQ. 9iAS Integration workflow. • Alati za statističku analizu. DB2 Information Integrator Office Sharepoint. 2. dok je za IT osoblje važno da poseduju aplikacije i alate za stvaranje i upravljanje okruženjem za poslovnu inteligenciju. SQL server DTS Microsoft Oracle 9iAS Portal and Collaboration Suite. Pri tome je pored poslovnih procesa.. zatim u integraciji poslovne inteligencije u te procese i na kraju u lociranju uslova za primenu poslovne inteligencije u okviru postojećih informacionih sistema. • OLAP alati. i koja se koriste za ovu namenu data su sledećoj tabeli: Proizvođač IBM Komponente platforme za poslovnu integraciju Websphere portal. . Websphere Business Integration(WBI) Modeler. Lotus Workplace. Neka od integrisanih tehnoloških rešenja koja postoje. kao i aplikacije koje oni koriste u svakoj svojoj aktivnosti.

net meeting. 2. Sam web portal se ne bavi integracijom poslovnih procesa i aplikacija. odnosno omogućava da svaki korisnik ima sopstveni prikaz prilagođen njegovim potrebama. Oracle 10g AS Portal. instant messaging i drugi. e-mail. poslovnu inteligenciju (izveštaje. standardizovan.2 Ugrađivanje analitičkih metoda u operativne aplikacije . dijagrame i dr. već integracijom korisničkih interfejsa raznih sistema (portleta) tako da korisnici imaju utisak da se radi o delovima jednog jedinstvenog sistema. Takođe treba napomenuti da su portali uglavnom nezavisni od vrste uređaja i platforme sa koje im se pristupa. kocke. i interni i eksterni nestrukturiran sadržaj.3.3. web baziran. Glavna razlika je u tome što enterprise portal za razliku od intraneta dozvoljava personalizaciju.3. Na taj način vrši se personalizacija ne samo sa aspekta korisnika već i sa aspekta različitih aktivnosti koje se obavljaju. IBM WebSphere Portal. ). Aplikacije mogu biti interne i eksterne analitičke ili operativne. Na portalu se može nalaziti više stranica portala od kojih svaka ima skup portleta koji prikazuju sadržaje iz različitih sistema. kao i komunikacioni alati. Microsoft Office Sharepoint. SAP portlet Portlet Siebel portlet Portlet Lotus portlet Portlet Business Objects portlet Portlet xml xml xml xml P ORTA L SE RVE R Slika 3 Koncept enterprise portala Teba napomenuti da postoji razlika između enterprise portala i korporativnog intraneta. grafikone. korisnički interfejs za personalizaciju integrisanih sadržaja. dok informacije obuhvataju strukturirane podake. Kao komunikacioni alati pojavljuju se web-chat. 2.1 Integracija u enterprise portale Enterprise portal obezbeđuje internim i eksternim korisnicima jedinstven. Uvođenjem Web servisa koji će dinamički integrisati analitičke metode internim ili partnerskim operativnim aplikacijama radi podrške zajedničkom poslovanju. Najpoznatiji web portali su: SAP Enterprise portal. gde se pod sadržajem podrazumevaju informacije i integrisane aplikacije i alati.

Softver dizajneri mogu da prilagode pozive tih alata sopstvenim potrebama ili mogu da koriste gotove komponente iz biblioteke komponenata poslovne inteligencije. Proizvođači se trude povećaju funkcionalnost svojih proizvoda što se ogleda u: • Proširenju standardnog SQL-a novim agregatnim funkcijama . i na taj način da šalju zahteve za automatsku obradu i da kao rezultat te obrade dobijaju izveštaje u obliku kocki podataka. postoji trend povećanja funkcija poslovne inteligencije koje oni ugrađuju u svoje proizvode. AlphaBox i ProClarity (Analytic Application development Platform). S Q L AP I S istem z a upravljanje baz om podataka Slika 4 Korišćenje BI komponenti u operativnim aplikacijama Prema tipovima komponente koje se koriste uključuju OLAP i Data mining komponente. Operativne aplikacije tako mogu da pozivaju neke od alata poslovne inteligencije.Materijalizovani pogledi omogućuju sistemima za upravljanje relacionim bazama podataka podršku za sumarne podatke u formi pogleda na relacione podatke. • Uvođenju tehnologija kao što su materijalizovani pogledi . kao i komponente za navigaciju i vizuelizaciju. i može se realizovati na aplikativnom nivou ili na nivou samih podataka. Razlika u odnosu na kreiranje statičkih sumarnih tabela je u tome što materijalizovani pogledi imaju . ono se može izvesti pomoću takozvanog aplikativnog programskog interfejsa (API – Application programming interface). Jedan od primera API industrijskog standarda je Java OLAP interfejs – JOLAP. Kada je reč o ugrađivanju analitičkih metoda u operativne aplikacije na nivou podataka. analitičke.U oblasti SQL-a mnogi su proizvođači uveli dodatnu podršku za agregatne funkcije. Ukoliko se ugrađivanje radi na aplikativnom nivou.Ugrađivanje analitičkih metoda u operativne aplikacije vrši se u toku razvoja samih aplikacija. Od prozvođača koji nude ovakve komponente tu su Oracle (BI Beans). regresione i OLAP funkcije. tako da sad SQL sadrži statičke. grafikona i slično. u poslednje vreme kod proizvođača sistema za upravljanje bazama podataka (DBMS Database Management Systems). Korisni ki razvijene i upakovane aplikacije č Kom ponente poslovne inteligencije JAV A AP I.

Tako na primer Oracle RDBMS uvodi multidimenzionalne mehanizme u obliku funkcija koje se koriste za pristup kockama podataka (Data cubes). Svaki web servis poseduje interfejs koji opisuje operacije su dostupne posredstvom standardizovanih XML poruka. Funkcionisanje web servisa se odvija na sledeći način: aplikacija šalje upit UDDI registru. i to na: • Aplikativnom nivou BI web servisa. pozivanje servisa SOAP 2. . Pregovaranje. Relational OLAP). koji predstavlja skup XML tagova. Web servisi 2. Data mining . Pronalaženje (UDDI) Servis broker 1. koje omogućuju primenu OLAP-a nad relacionom bazom podataka (ROLAP.Proizvođači DBMS-a uključuju i podršku za data mining proces u svoje proizvode. proces.U zavisnosti od proizvođača DBMS-a postoje različite ekstenzije SQL-a. OLAP-u u bazi podataka .Predictive Modelling Markup Language standarda i korisnički definisanih funkcija (UDF . Web servisi moraju da se objave i da se registruju u posebnim katalozima koji se nazivaju UDDI (Unified Description Discovery and Invocation) registri.User Defined Functions) koje se uvoze u DBMS. Portal. aplikacija ili DBMS BI web servis (OLAP. pronalazi potreban web servis i dinamički se priključuje na njega šaljući mu XML poruku poznatiju kao SOAP (Simple Object Access Protocol) poruka. • Nivou podataka BI web servisa. Web servisi se opisuju pomoću industrijskog standarda koji se naziva Web Service Description Language (WDSL). Ona inicira rad web servisa i vraćanje rezultata u XML formatu. • Nivou procesa BI web servisa. izveštavanje.uvodi mehanizme kao što su "proactive cashing" i "unified dimensional models" (UDM).• • automatsko osvežavanje i ne zahtevaju periodično izvršavanje posebnih batch procedura za tu svrhu. korišćenjem PMML . Microsoft u SQL Server Yucon .3. povezivanje.3 Web servisi omogućuju dinamičku integraciju aplikacija korišćenjem web tehnologija. mining) Provajder servisa poslovne inteligencije Korisnik servisa 3. nakon čega operativna aplikacija može da koristi data mining uključivanjem UDF-a u SQL upite. Registrovanje (WSDL) UDDI registar Slika 5 Funkcionisanje web servisa Web servisi mogu da se koriste na više nivoa.

d) Statističke analize i data mining .4 Tipovi aplikacija poslovne inteligencije Obzirom na širok spektar potreba korisnika poslovne inteligencije.pružaju korisniku najviši mogući stepen interakcije sa podacima uz mogućnost korišćenja velikog broja tehnika za odabir podataka i navigaciju. b) Ad hoc upiti i izveštavanje . 10 najboljih kupaca. Taj tip aplikacija baziran je na relacionim bazama podataka i nudi ograničene. . gde su upiti multidimenzionalni jer imaju dimenziju vremena. dimenziju proizvoda i dimenziju kupaca. kompanije danas koriste različite vrste aplikacija kako bi korisnici te potrebe zadovoljli. jer predviđanje događaja na tržištu može u velikoj meri da utiče na ostvarivanje strateških ciljeva. U tu svrhu koriste se složene analitičke i statističke tehnike.2. ali veoma korisne analitičke mogućnosti. Ovi upiti koriste relacione baze podataka i SQL za jednodimenzionalne upite(npr. dok upravljački informacioni sistemi imaju mnogo složenije analitičke zahteve i koriste specijalizovane baze podataka. pa su shodno tome. Obično istraživanja u oblasti tržišta i finansiranja zahtevaju izvršavanje znatno složenijih upita. Aplikacije za izveštavanje sa minimalnim analitičkim zahtevima bazirane su na relacionim bazama podataka i koriste SQL. prognoza. specijalizovanih agregacija.Analize predviđanja uz korišćenje naprednih tehnika predstavljaju značajan komplement ad hoc analizama.obezbeđuju statističke ili parametrizovane izveštaje. ili upoređivanje prodaje u prošloj i tekućoj godini) c) Analitičke aplikacije . nosioci tih funkcija u preduzeću najčešći korisnici ovog tipa aplikacija. e) Aplikacije za planiranje . alata za upravljenje scenarijem i dr.omogućuju korisnicima da predvide rezultate poslovanja i daju odgovore na pitanja: • • • • Koliko će preduzeće biti profitabilno u kvartalu? Kako će promena cene proizvoda uticati na njegovu prodaju? Koliki treba da bude obim proizvodnje da bi se zadovoljile potrebe tržišta? Kako će nestabilnost valute uticati na profit? Ovaj tip se razlikuje od drugih aplikacija po tome što generiše nove podatke koristeći analitičke metode tipa modela. Generalno aplikacije poslovne inteligencije mogu da se svrstaju u jednu od sledećih kategorija: a) Izveštajne aplikacije .takođe podržavaju ad hoc pretraživanje podataka ali imaju mogućnost realizacije mnogo složenijih upita.

1 Pojam data warehouse-a Pre nego što se detaljnije uđe u razradu pojma data warehouse-a i ostalih tehnika poslovne inteligencije. godine. spojiti i na druge načine koristiti da bi se razumela njihova suština."informacionim podacima" za razliku od operativnih podataka u transakcionim bazama. On predstavlja neku vrstu baze podataka. s tim što su podaci u njemu organizovani na poseban način. vremenski promenljiv i održiv skup podataka. Njegova definicija glasi: ‚‚Data warehouse je predmetno-orijentisan. To međutim sa druge strane dovodi do povećanja vremena izvršenja transakcija i upita. Ovi podaci mogu se nazvati i . i koriste se za unos novih podataka ili generisanje prostih statičkih izveštaja. Često se opisuje kao način korišćenja računara za vođenje neprekidnih (trajnih) poslovnih procesa. DATA WAREHOUSE 3.podaci su prikupljeni iz mnoštva različitih izvora.3.svi podaci u data warehouse-u su određeni za neki vremenski period.podatak daje informaciju o konkretnoj temi umesto o trajnim procesima preduzeća integrisan . Data warehouse je definisan kao skup informacija organizovanih tako da se mogu lako analizirati. potrebno je uvesti i objasniti neke od osnovnih tehničkih pojmova koji će biti korišćeni u daljem tekstu. i sklopljeni u koherentnu celinu vremenski-promenljiv . `` • • • predmetno-orijentisan . koje se uglavnom zasnivaju na relacionom modelu. Bill Inmon uvodi pojam data warehouse-a 1990. kako bi se obezbedila konzistentnost i izbeglo udvajanje (ponavljanje) podataka. On je orijentisan na detalje. Ovakav režim rada naziva se OLTP (On Line Transaction Processing). Njih karakterišu maksimalno normalizovani podaci. OLTP – Opisuje način na koji računarski sistemi i krajnji korisnici obrađuju podatke. . Nad tim bazama rade aplikacije koje su transakciono orijentisane. koji pruža podršku menadžmentu u procesu donošenja odluka. integrisan. sa čestim ažuriranjem od strane krajnjih korisnika. Operativno poslovanje u osnovi koristi konvencionalne baze podataka. izdvojiti.

Drill-down – se može opisati kao sposobnost da se kreće kroz informacije. Podaci smešteni u data warehouse dobijaju se najčešće transformacijom podataka iz operativne baze podataka. uključujući tipove podataka i opseg dozvoljenih vrednosti. konzistentan i interaktivan pristup velikom broju raznovrsnih izveštaja sačinjenih na osnovu informacija dobijenih transformacijom sirovih podataka. kao i iz ostalih internih i eksternih izvora. Marketing Spreadsheet-ovi SD PR O P f ssi on al Wor kstati on 6 000 ro e Operativni sistemi Prodaja Računovodstvo Finansije Ljudski resursi Prodaja Finansije Eksterni podaci Data Warehouse Data mart Slika 6 Koncept data warehouse Meta-podaci – predstavlja vrstu informacija koje opisuju podatke smeštene u bazu podataka i sadrže sledeće informacije: • • • • Opis tabela i polja u data warehouse-u. tako da je olakšano pretraživanje i osoblju koje nije tehnički osposobljeno za izvršavanje složenih upita nad relacionim bazama podataka. Data warehouse podržava režim rada koji se naziva OLAP (On-Line Analitical Processing). . Sličan opis tabela i polja izvornih baza. izvršavanje upita nad tako organizovanim podacima je znatno brže. i formiraju se sa namerom da budu osnova za potencijalne upite od strane krajnjih korisnika. Takođe. Oni predstavljaju podskup logički povezanih podataka iz data warehouse-a koji se odnose na određenu oblast poslovanja. prateći hijerarhijsku strukturu.Podaci u data warehouse-u su denormalizovani (relaksirani). i opis preslikavanja polja iz izvorne baze u warehouse. pojednostavljuje se šema baze podataka. OLAP – je vrsta tehnologije koja omogućava analitičarima i menadžerima uvid u podatke kroz brz. Data warehouse sadrži veliku količinu podataka koji su organizovani u manje logičke jedinice koje se nazivaju data mart-ovi. koje oslikavaju sve dimenzije jednog poslovnog poduhvata. Sve ostale informacije potrebne za podršku i upravljanje funkcionisanjem data warehouse-a. Opis kako su podaci transformisani uključujući i formule i formate.

OLAP obuhvata opseg operacija od jednostavnog pregleda informacija. i njihovo korišćenje za donošenje odluka. OLAP sistemi imaju sposobnost da daju odgovore na pitanja "ko" i "šta". OLAP i data warehouse sistemi su komplementarni. • Prikazu rezultata višedimenzionalnih poređenjenja. odvija se veliki broj transakcija u toku svakog sata. ‚‚Transakcionooperativni" informacioni sistemi pružaju podršku svakodnevnom poslovanju (obrada faktura. a završava se kada se podaci u poslednjem data mart-u ažuriraju.. Ovaj proces se može predstaviti kao jedinstvena transakcija koja počinje kada se prvi slog iz operacione baze izdvoji. ovaj proces punjenja warehouse-a izdvaja sve promene i nove zapise iz operacione baze podataka. . i ubacuje ih u informacionu bazu. 3. otpremnica. Data warehouse čuva i upravlja podacima. podaci o proizvodnji itd). Glavna razlika između operacionih i informacionih baza podataka predstavlja učestanost ažuriranja : 1.analitički" informacioni sistemi fokusirani su na analizu podataka kao podrška u donošenju odluka u poslovnim procesima. ipak ono po čemu se razlikuju od data warehouse sistema jeste njihova mogućnost da pruže odgovore na pitanja "šta ako" i "zašto". • Drill-down do nižih nivoa konsolidovanih podataka. . multi-dimenzionalna analiza konsolidovanih poslovnih podataka. OLAP. Na primer: ako pretpostavimo da se data warehouse obično puni u toku noći. Zato se podaci u data warehouse-u mogu nazvati istorijskim podacima.Data mining – proces izdvajanja tačnih. 2. već je odvojen od transakcione baze i periodično se puni novim podacima. razlikuju se i dve vrste informacionih sistema. Kod operativnih baza podataka. prethodno nepoznatih i razumljivih informacija iz podataka. koja pruža podršku krajnjim korisnicima u sledećim aktivnostima: • Proračunima i modeliranju kroz različite dimenzije i hijerarhijske nivoe.2 Operacione i informacione baze podataka (OLTP vs OLAP) Obzirom na razlike koje postoje između konvencionalnih (transakcionih) baza podataka i data warehouse-a. korisnih. dok OLAP transformiše ove podatke u strateške informacije. • Analizi trendova u sekvencijalnim vremenskim periodima. Baza je je u svakom trenutku ‚‚up to date``i oslikava trenutnu situaciju u poslovanju. Informacione baze podataka su obično stabilne (nepromenljive) u toku određenog vremenskog perioda i izražavaju stanje preduzeća u specifičnom trenutku u prošlosti. Na taj način OLAP omogućava odlučivanje o akcijama u budućnosti. Sa druge strane. Donosioci odluka korišćenjem OLAP sistema na taj način prolaze put od prostog pristupa podacima. odnosno analitičko procesiranje podataka karakteriše dinamička. Data warehouse ne sadrži on-line tekuće podatke iz poslovanja. • Dostizanju do ‚‚podataka ispod podataka". do ozbiljnih analiza kao što su vremenske serije i kompleksno modeliranje. do dobijanja potrebnih informacija i u krajnjoj liniji znanja.

Zbog toga one moraju biti sinhronizovane i harmonizovane sa relacionom bazom podataka kojoj pristupaju izveštajne aplikacije. ili računovodstvenu strukturu koja je važila u vreme ostvarenja prihoda. Ispunjavanje oba zahteva vodi usložnjavanju "kocki" i otežavanju njihove pravilne upotrebe. Kako su analitičke potrebe samo delimično predvidive.OPERATIVNE INFORMACIONE Ažuriraj i en om Pr Slika 7 pokazuje neke od glavnih razlika između operativnih i informacionih baza podataka. i veoma su osetljivi na strukturu i kvalitet podataka. Pošto svaka kocka podataka sadrži više dimenzija i mera. Dimenzije su prikazane sa „istorijskog“ ili „aktuelnog“ aspekta da bi pokazale. Ovi sistemi se pažljivo konfigurišu i održavaju zbog važnih problema koji mogu da se jave: • • • • • OLAP sistemi koriste svoja. relacionih baza podataka. 3. od informacija u kocki podataka se može dobiti veliki broj različitih izveštaja.1 OLAP kocke podataka (data cubes) OLAP tehnologija organizuje izabrane podatke iz data warehouse-a. redudantna skladišta podataka.2. Nekim merama je potreban i istorijski i aktuelni aspekt. Kocke podataka predstavljaju modele poslovnih procesa i korisnici njihovom upotrebom mogu da mere performanse tih procesa i upravljaju njima. izvršavanje je kritično i mora se neprekidno nadzirati. Mnoge OLAP kocke su primenjene za više specifičnih potreba u isto vreme. na primer trenutno važeću računovodstvenu strukturu. Kocka podataka se može posmatrati i kao kolekcija komponenata koje mogu da se kombinuju da bi se dobio neki specifičan izveštaj. Potreba za sve složenijim merama i dimenzijama dovodi do teških i vremenski zahtevnih procesa održavanja. Kocke podataka su fleksibilne sa aspekta informacija koje sadrže i kalkulacija koje se nad njima mogu izvršiti. odakle im se mo že pristupiti. ali se NE ‚‚update-uju” Slika 7 Operativne nasuprot informacionim bazama podataka . i drugih izvora podataka u multidimenzionalne nizove podataka koji se često nazivaju i kocke podataka. i ež sv O Ub ac i Ubaci Izbaci Ubaci Ubaci Ubaci Ubaci Ubaci Izb r iši Podaci se redovno ažuriraju po principu ‚‚slog po slog `` Podaci se učitavaju u warehouse. OLAP izveštaji se izrađuju na bazi kocaka podataka.

već na kalkulacije koje su ugrađene u kocku) i veliki investicioni zahtevi (obzirom da kocka podataka uglavnom ne postoji. Osnovni nedostaci su: ograničena količina podataka sa kojima se radi (ne odnosi se na podatke od kojih se kocka pravi. Ovde su podaci smešteni u multidimenzionalnu kocku podataka. Nedostaci se ogledaju u tome što performanse mogu da budu loše (svaki ROLAP izveštaj predstavlja jedan ili više SQL upita čije izvršavanje može da traje veoma dugo ako je baza podataka velika). U poređenju sa izveštajnim rešenjima.2 Tipovi organizacije podataka u OLAP-u Postoje tri tipa organizacije podataka kod OLAP-a: • • • Multidimenzionalni OLAP (MOLAP) Relacioni OLAP (ROLAP) Hibridni OLAP (HOLAP) MOLAP predstavlja tradicionalan način OLAP analize. 3. Za informacije sumarnog tipa HOLAP se oslanja na kocke podataka zbog boljih performansi ovakvog . i što je ograničen funkcionalnošću koju ima SQL (što onemogućava složene analitičke kalkulacije). Fizička organizacija nije u relacionom modelu baze podataka. kao i dostupne mere i dimenzije. korisnik OLAP mora sam da odredi svoj "poslovni upit" i da razume mogućnosti i ograničenja alata. već u odgovarajućem formatu karakterističnom za kocke podataka. korisnici koji pristupaju kockama moraju da razumeju korišćenu tehnologiju i problem na kome rade. Osnovne prednosti ovog tipa organzacije podataka su: odlične performanse i mogućnost izvođenja složenih kalkulacija (koje su ugrađene u samu kocku podataka). projektovanje. obuku kadrova itd).2. Prednosti ovog tipa organizacije podataka su: mogu da rade sa velikom količinom podataka i mogu da koriste prednosti koje su svojstvene relacionom pristupu. ROLAP je metodologija koja se oslanja na rad sa podacima koji su smešteni u klasičnu relacionu bazu podataka uz mogućnost da se podacima manipuliše u "OLAP stilu".Dimenzije Region sever jug istok Mesec Jan Feb Mart Proizvod M onitori Procesori Hard diskovi Slika 8 Kocka podataka Uz ove operativne probleme. HOLAP tehnologija kombinuje prednosti MOLAP i ROLAP pristupa. tako da su potrebna znatna ulaganja u tehnologiju. koja su obično podešena da definišu analitičke potrebe.

3 Data Warehouse arhitektura Arhitektura data warehouse sistema data je na slici 9. Taj princip je moguć zato što su članovi dimenzija statičke kategorije i broj mogućih tačaka je unapred poznat. Odnos multidimenzionalnih analiza i SQL pristupa Analitičari u svom radu koriste multidimenzionalni opis podataka. HOLAP vrši generisanje kroz relacioni pristup.2. Numeričke vrednosti (mere) opisane su određenim brojem kategorija ili dimenzija. a ne vrednošću. SQL Alati za prezentaciju i analizu Data mart . Sa date šeme može se zaključiti da se data warehouse sistem sastoji iz sledećih slojeva (nivoa): Operativne baze podataka Ekstrakcija / Umno žavanje podataka Transformacija / Čišćenje podataka Dimenzije „zvezda“ šeme ODS Eksterni izvori činjenice Prerada podataka Meta podaci Multidimenzionalna Relaciona API ODBC. Pošto relacione baze podataka nemaju direktnu podršku za analitičke osobine.3. Dimenzije i hijerarhije se nalaze u više odvojenih tabela i procesiraju se kroz mehanizme primarnih i spoljnih ključeva.pristupa. potrebno je definisati logiku van same baze podataka za prevođenje multidimenzionalnog modela podataka u dvodimenzionalni. 3. Pristup podacima je na bazi pozicije koja je određena dimenzionalnim koordinatama. Iz tog razloga. Takav mehanizam skladištenja podataka je mnogo efikasniji od relacionog mehanizma sa aspekta anlitičkih procesa koji se odvijaju nad podacima. SQL relacioni sistemi za upravljanje bazama podataka bazirani su na skupu teorijskih modela koji su po prirodi dvodimenzionalni. 3. Svaka tačka multidimenzionalnog prostora je mapirana odgovarajućom tačkom na disku na kojoj je smeštena informacija. Multidimenzionalne baze podataka organizuju podatke onako kako će oni biti korišćeni u analitičkim procesima. koje su organizovane u hierarhije (npr. Svaka mera je smeštena kao skup numeričkih vrednosti indeksiranih po članovima svake dimenzije. kao što su hijerarhije. sa druge strane. potrebno je pratiti svaku promenu hijerarhija i dimenzija i u skladu sa svakom izmenom menjati i odgovarajuće SQL upite za razne vrste sumiranja. Mesec/kvartal/godina). iterativne analize i dimenzionalne operacije. Za detaljne informacije.

3. Ekstrakcija podataka u data warehouse okruženju. . Mogu se nalaziti na raznim platformama koje sadrže strukturirane podatke kao što su tabele ili spreadsheet-ovi. Meta-podaci (Metadata information) 8. eksterni podaci (npr. Alati za analizu i prezentaciju (Analysis and Presentation tools) U daljem tekstu biće pojedinačno obrađen svaki od slojeva ovog sistema. 3. Dok sa jedne strane. Logički model baze podataka (Logical database model) 7. ili sa Interneta).Operational Data Source) 9. sa druge strane čišćenje osigurava da data warehouse sadrži tačne korisne informacije. U zavisnosti od tehnike ovaj proces može biti ili: • • Pushing (ekstrakcija/izvlačenje podataka) ili Pulling (umnožavanje/ubacivanje podataka) Transformacija / čišćenje podataka (Transformation / Cleansing) 3. i određivanje skrivenih poslovnih pravila. Data mart 10. Ekstrakcija / umnožavanje podataka (Extraction / Propagation) 3. fotografije i multimedijalni sadržaji. Ekstrakcija/umnožavanje podataka je mnogo više od prostog kopiranja podataka sa jednog sistema na drugi. Prerada podataka (Data refining) 5.1 Izvori podataka Izvori podataka mogu biti operativne baze podataka. Transformacija se vrši u toku procesa popunjavanja. od kompanija koje se bave istraživanjem tržišta.2 Ekstrakcija / umnožavanje podataka (Extraction / Propagation) Ekstrakcija/umnožavanje podataka je proces prikupljanja podataka iz različitih izvora i platformi i smeštanja tih podataka u data warehouse. Fizički model baze podataka (Physical database model) 6. Transformacija / čišćenje podataka (Transformation / Cleansing) 4. i informacije koje imaju smisao. Arhitektura data warehouse sistema 1. predstavlja selektivni proces unošenja informacija bitnih za odlučivanje u data warehouse.3. U ranijim fazama procesa transformacija se uglavnom koristi za konsolidaciju podataka dobijenih iz različitih izvora. Čišćenje podataka se takođe može opisati i kao standardizacija podataka.3. ili nestrukturirane podatke kao što su tekstualni fajlovi. Takođe se uređuju struktura i veze između podataka za oblast analize. 3. data warehouse pretvara podatke u informacije. ili informacije sa već postojećih data warehouse sistema.Slika 9. Izvori podataka (Data sources) 2. dok se u kasnijim fazama podaci transformišu za potrebe specifičnih problema analize ili analitičkih alata. Izvor operativnih podataka (ODS . istorijski podaci (obično sačuvani na trakama).3 Transformacija obično podrazumeva razrešenje koda pomoću tabela za mapiranje (npr pretvaranje 0 u "žensko" i 1 u "muško" u polju tabele određenom za pol). i to obično u više koraka. To mogu biti i relacione baze podataka koje koriste poslovne aplikacije.

• Tačni kodovi podataka i skraćenice. • Multidimenzionalne baze zahtevaju specijalizovane API-e (Application programming interface) za pristup ovakvim arhitekturama. najčešće se koriste metode klasičnog pristupa podacima kao što je SQL ili middleware proizvodi kao što je ODBC. za OLAP obradu. • Konsolidacija podataka.join" šemi). smanjenje količine podataka koji se preko mreže šalju krajnjem korisniku ili alatima za analizu i generisanje data martova. sumiranje i modifikacija prema specifičnim zahtevima. Obe vrste modela se koriste za kreiranje data mart-ova.5 Kada govorimo o fizičkom modelu baza podataka u poslovnoj inteligenciji. Na taj način agregacija podataka smanjuje broj slogova u bazi. Nad informacijama koje se dobijaju iz logičkog modela baze (najčešće organizovanom po "star .promenom granularnosti podataka (npr. Ovaj sloj data warehouse arhitekture je potreban za poboljšanje performansi upita. proces prerade podataka generiše slogove koji sadrže prihode po specifičnim grupama proizvoda i na taj način povećavaju broj slogova ).4 Prerada podataka (Data refining) Prerada podataka podrazumeva kreiranje podskupova (podnizova) data warehouse-a. tada govorimo o relacionim ili multidimenzionalnim modelima podataka. dobijaju se: • Tačna imena preduzeća i kupaca. Slika 10 prikazuje razliku između ova dva modela. • Korisni brojevi telefona i kontakt podaci. dok data mart sa druge strane sadrži vrednosti na nedeljnom nivou).dodavanjem vrednosti u određene grupe informacija (npr.Pažljivim pregledom sadržine podataka. mora da se izvrši agregacija. Fizički model baze podataka (Physical database model) 3.3. • Konzistentan i standardan prikaz podataka. originalni podaci sadrže svakodnevne vrednosti. . Sumiranjem podataka . ali je način pristupa podacima u bazi drugačiji: • Za pristup podacima smeštenim u relacionim bazama. koji imaju multidimenzionalni ili relacioni format organizacije podataka. 3.3. • Tačne i validne adrese. Kada govorimo o preradi podataka postoje dva različita načina na koja se mogu ostvariti rezultati: • • Agregacijom podataka .

Tabela dimenzija . pre početka implementacije data warehousea zbog: • Prepoznavanja redudanse . te zbog toga vrednosti moraju da budu numeričke kako bi se generisale prosečne ili sumarne vrednosti. Logički model je potreban. i ima ih manje nego u tabeli činjenica.3.Sadrži opis numeričkih vrednosti koje se nalaze u tabeli činjenica. Sadrži numeričke vrednosti koje predstavljaju meru performansi kompanije.Razvojni tim treba da bude usmeren kroz ceo životni ciklus data warehouse-a. najčešći model logičke organizacije baze podataka je "star join" šema. • Kompletnosti prikaza .Fizi čki modeli Multidimenzionalni model Relacioni model Slika 10 Fizički modeli baza podataka 3.6 Logički model baze podataka (Logical Database Model) U skladu sa prethodno pomenutim fizičkim modelom.1 Sadržaj tabele činjenica Informacije koje se nalaze u tabeli činjenica moraju da imaju sledeće karakteristike: • Numeričke vrednosti – upiti u data warehouse-u udružuju hiljade slogova. koja se sastoji od dve komponente sa različitim karakteristikama: • • Tabela činjenica . postoji i adekvatan logički model baze podataka. denormalizovani slogovi. U poslovnoj inteligenciji. Sastoji se iz velikog broja kratkih slogova. .6.prikaz strukture pruža mogućnost uključivanja novih informacionih elementata na odgovarajuće mesto i pomaže u analizi uticaja promene podataka.model objašnjava lokaciju elemenata informacije u data warehouse-u • Promena u budućnosti .3.Daje odgovor na pitanje:"Šta merimo?". Strukturu čine dugački. 3. pa u tom smislu logički model predstavlja plan njegove realizacije i implementacije.

• Vrednosti koje nisu od značaja za OLTP sistem mogu imati veliki značaj u data warehouse-u. 8. vrednosti moraju da budu kontinualne. 6. Denormalizovanu strukturu slogova . 4. • Primarni ključ u OLTP sistemima. Granularnost svake tabele činjenica.6. razni oblici upita i druge odluke vezane za fizička skladišta. Procesi tabele činjenica.2 Sadržaj tabele dimenzija Tabela dimenzija mora da bude što je moguće deskriptivnija i treba da sadrži : • • Deskriptivne atribute . tako da tekstualni opisi uprošćuju generisanje izveštaja. heterogene dimenzije. mini dimenzije.Kako bi se pratile i ocenjivale promene u kompaniji u toku vremena. • Izbegavati skraćenice ili nenumeričke vrednosti za prikaz stanja ili grupe. u kompletnom projektovanju data warehouse-a su: 1. t. 7. Izbor činjenica uključujući i pre-kalkulisane činjenice.3. da mogu da dobiju bilo koju vrednost iz najšireg opsega vrednosti. Svi atributi mogu da se iskoriste za generisanje različitih pogleda na informaciju u tabeli činjenica. Dimenzije svake tabele činjenica. Atributi dimenzija sa kompletnim opisima i terminologijom. " Na slici 11 dat je primer "star – join" šeme logičke strukture za elektronsko obrazovanje.treba izbegavati višestruke upite kako bi se našao opis određenog atributa dimenzije ("vrsta kupaca" u dimenziji "kupci" treba da bude tekstualno polje a ne numerička vrednost koja pokazuje na neki drugi slog u nekoj drugoj tabeli) Tekstualni opisi . 3. Obrađene vrednosti moraju da adekvatno oslikavaju performanse kompanije u toku vremena. Kako pratiti dimenzije koje se sporo menjaju ? Agregacije. 5. Kontinualno vrednovane . Hitnost ekstrakcije i ubacivanja podataka u data warehouse.za identifikovanje okolnosti zbog kojih je došlo do generisanja sloga u tabeli činjenica. Ralph Kimball kaže: "Devet tačaka u vezi kojih je važno donošenje odluka. 9.Kako bi sumirali veliki broj vrednosti. 2. • Atributi treba da budu predstavljeni u tekstualnom formatu .ove vrednosti se kasnije mogu iskoristiti kao zaglavlja kod izveštavanja.• • Aditivne vrednosti . • • . 3.j. one moraju da budu aditivne kako se ne bi generisale netačne i konfuzne informacije.sadržaji atributa u tabeli dimenzija koriste se kao zaglavlja redova i kolona na prezentacionom nivou data warehouse-a. nije obavezno i primarni ključ u data warehouse-u. • Sadržaj tabele dimenzija i struktura sloga je sledeća: Tabela dimenzija sadrži nekoliko atributa kojima detaljno opisuje entitet. Istorijsko trajanje baze podataka.

opisi atributa. .zasnivaju se na apstrakciji realnih entiteta (npr.. zatim nazive. septembar 1999. organizacija. hierarhije itd. ) • Pružaju informacije o srodnim podacima u data warehouse-u • Predviđaju vreme odziva. prikazujući broj slogova koji treba da se obradi u upitu. Oni služe da pruže informacije o podacima koji su smešteni u data warehouse i imaju sledeće karakteristike: • Predmetno su orijentisani . kupac. 5/9/99 kao 5. meta-podaci predstavljaju skladište podataka i dokumentaciju o sadržaju i procesima u data warehouse-u. teme. ) • Definiču način na koji će se transformisani podaci interpretirati (npr. • Čuva izračunate vrednosti i prekalkulisane formule kako bi se izbegla loša interpretacija.dim_Nastavnik      dim_Vreme    Početak Kraj Trajanje       dim_Pitanje     ID_Pitanja tip pitanja Tekst pitanja Tačan odgovor dim_Quiz      ID quiza tip quiza maximalni broj poena broj pitanja broj učesnika    Tabela činjenica Uspeh Rezultati Broj učesnika Prosečna ocena Prosečno trajanje Prosečan broj pitanja      Ime Katedra Zvanje telefon e-mail dim_Kurs ID_kursa Naziv Opis dim_Student ID_Studenta Ime Grad Adresa Uspeh Slika 11 Star-join šema za quiz 3. grupe. projekat. Sa stanovišta administratora data warehouse-a. Meta podaci strukturiraju informacije u data warehouse-u u kategorije. Oni uključuju opise elemenata podataka kao što su opisi tipova podataka. veličinu i dozvoljene vrednosti elemenata podataka. Sa druge strane sa stanovišta korisnika meta-podaci predstavljaju mapu za kretanje kroz informacije..3. opisi domena.7 Meta podaci Meta-podaci su podaci o podacima.

7. Kada govorimo o izvorima meta-podataka. Neke od karakteristika izvora operativnih podataka su: • • ODS je predmetno orijentisan: projektovan je i organizovan oko glavnih predmeta interesovanja kompanije kap što su kupac i proizvod. Obe ove grupe sadrže veliki broj različitih vrsta korisnika kojima su meta-podaci potrebni za efikasno korišćenje informacija u data warehouse-u. postoje dve vrste izvora:formalni i neformalni. Poslovni meta-podaci obezbeđuju vezu između data warehouse-a i poslovnih korisnika.1 Vrste meta-podataka Korisnici meta-podataka se okvirno mogu podeliti na kategorije poslovnih korisnika i tehničkih korisnika. Tehnički metapodaci obezbeđuju sigurnost korisnicima sistema za podršku odlučivanju da su podaci u data warehouse-u tačni. pravila i uputstava koji nisu u standardnoj formi. nemoguće je tačno definisati koji su to neformalni izvori meta-podataka. ali se može dati lista najčešćih vrsta neformalnih meta-podataka: • • • Poslovna pravila Poslovne odluke Lista proizvoda konkurencije Izvor operativnih podataka (ODS . Ove informacije se nalaze u "svesti kompanije". i tako neformalne izvore transformisati u formalne. Stoga razlikujemo dva tipa meta-podataka: poslovne i tehničke meta-podatke. ali su podjednako važne kao i one u formalnim izvorima meta-podataka. . Pošto poslovni korisnici obično imaju manjak tehničkog znanja. i predstavljaju mapu za pristup podacima u data warehouse-u i data mart-ovima. Veoma često neformalni meta-podaci pružaju i najvažnije informacije obzirom da su najčešće te informacije poslovne prirode. ODS je integrisan: on predstavlja integrisanu sliku predmetno orijentisanih podataka izvučenih iz bilo kog operativnog sistema. formalizovati i predstaviti ove podatke u data warehouse-u. bez kojih je proces analize i implementacije promena znatno komplikovaniji i duži. ne pregled stanja i vrlo malo informacija o prošlim stanjima izvora. To su informacije koje ljudi jednostavno znaju. Neformalni meta-podaci sastoje se od znanja. Takođe. i nisu dokumentovane ili dogovorene.8 Izvor operativnih podataka može se definisati kao skup integrisanih podataka koji se koriste za donošenje strateških odluka preduzeća.3. tehnički meta-podaci su neophodni za održavanje i rast data warehouse-a. potrebno je da sistemi koje koriste za podršku odlučivanju budu konstruisani tako da budu u skladu sa njihovim potrebama u poslovnom smislu. dogovor i saglasnost donosilaca odluka u preduzeću. dokumentovati. što je upravo uloga poslovnih metapodataka.Formalni izvori meta-podataka su oni izvori za koje postoji dokumentacija.3. Važno je napomenuti da je većina meta-podataka iz neformalnih izvora pa je veoma bitno prikupiti.3. On sadrži "žive" podatke.Operational Data Source) 3. Formalni meta-podaci se odično čuvaju u dokumentima i alatima koji se mogu naći u raznim delovima organizacije. Obzirom da se svaka organizacija razlikuje. Ovi podaci čine sadržinu i tehničkih i poslovnih meta-podataka.

3. Pri tome ovaj izvor ne treba da sadrži više prikaza trenutnog stanja. Ovi korisnici su obično zauzeti svakodnevnim poslovima i nemaju vremena niti potrebu za opširnim radom sa informacijama. • "povremeni korisnik" – ova grupa korisnika sastoji se od ljudi koje direktno nisu zainteresovani za detalje o data warehouse-u.• • • ODS je orijentisan na trenutnu vrednost: on oslikava trenutni sadržaj njegovih izvornih sistema. može se pretpostaviti da postoje četiri kategorije korisnika kao i njihove kombinacije: • "moćni korisnici" – korisnici koji su spremni i sposobni da koriste kompleksnije alate za kreiranje sopstvenih izveštaja i analiza. pri čemu se trenutna vrednost može definisati na različite načine za različite izvore u zavisnosti od zahteva implementacije. Ovim korisnicima svaka informacija u data warehouse-u može biti značajna u nekom trenutku. To znači da se podaci menjaju u stilu OLTP sistema. te će jedan isti upit dati različite vrednosti u različim trenutcima vremena. • Korisnici koji imaju potrebu za statičkim informacijama – ovi korisnici imaju potrebu za precizno definisanim podacima u određenom vremenskom intervalu. ODS je detaljan: definicija "detaljnog" takođe zavisi od problema koji se rešava. i njihove sposobnosti u korišćenju analitičkih alata su ograničene.Takođe različite sposobnosti korisnika . Kako bi se pronašli odgovarajući prezentacioni alati za informacione zahteve krajnjih korisnika.9 Glavna svrha data mart-a je da obavlja sledeće funkcije: • Da čuva podatke u obliku u kom se nalaze pre agregacije. Različite vrste korisnika zahtevaju različite prezentacione alate. Oni poznaju strukturu data warehouse-a i međuzavisnosti koje vladaju u njegovoj organizacionoj formi. Sama organizacija data marta može biti relaciona ili multidimenzionalna. • Da kreira multidimenzionalni ili relacioni pogled na podatke. ali im je povremeno potreban pristup informacijama. ODS je promenljiv: kako je ODS orijentisan na predmet on je podložan promenama onoliko često koliko je to potrebno za oslikavanje trenutnog stanja. • Da kontroliše pristup krajnjih korisnika informacijama. ma kako trenutno stanje bilo definisano.3. jer su se podaci u međuvremanu promenili. Zahtevaju visoke performanse i drill-down mogućnosti. onda ODS ne sadrži podatke za više od jednog računovodstvenog perioda. Data mart 3.10 Alati za analizu i prezentaciju (Analysis and Presentation tools) Sa aspekta krajnjeg korisnika ovaj sloj je najbitniji sloj u data warehouse arhitekturi. Granularnost ODS-a može ali ne mora da se razlikuje od granularnosti svog izvornog operativnog sistema. • Korisnici koji zahtevaju dinamičke ili ad hoc upite i analitičke mogućnosti alata – Ovo su uglavnom analitičari. ali svi mogu da pristupaju zajedničkom data warehouse-u. • Da obezbedi brz pristup informacijama za specifične analitičke potrebe. Ako je "trenutno" jedan računovodstveni period. 3.

Sa napretkom tehnologije i povećanjem dinamike poslovanja data warehouse sistemi postaju sve zahtevniji. a takođe se povećava i potreba za multimedijalnim podacima. 4. U vremenu novih tehnologija. Sa razvojem ovog elektronskog doba javlja se i jedan nusproizvod: podatak. baze podataka sve veće.1 Otkrivanje znanja i data mining U današnjem poslovnom svetu.određuju i razne načine prezentacije rezultata obrade od grafikona do tabelarnih prikaza za složene analize. Organizacije generišu i sakupljaju velike količine podataka koje . ali i buduće poslovanje. DATA MINING 4. upotreba kompjutera u svakodnevnom poslovanju postala je praktično sveprisutna. projektanti data warehouse sistema moraju i dalje da prate potrebe krajnjih korisnika i da primenom tih novih tehnologija obezbede najbolje moguće rešenje za preduzeće koje će biti funkcionalno i fleksibilno za tekuće.

Predobrada: Podaci su očišćeni radi otklanjanja suma. pred-obradu. itd. To su manje očigledni obrasci u podacima. i izvlačenje svih njih ne bi bilo korisnije od "češljanja" nepripremljenih podataka. a zbog njihove veličine. Transformacija: Izbor podataka je izvršen tako da oni budu u skladu sa izabranim algoritmom iskopavanja podataka. Ukoliko postoji bilo kakvo prethodno znanje o opsegu. definisane su metodologije za rukovanje nedostajućim poljima podataka. procenu rezultata iskopavanja podataka.Shapiro. Smith i Ramasami kao: "Netrivijalni proces identifikovanja novih. 3. U većini slučajeva podaci sadržani u skladištu podataka su isuviše vredni da bi jednostavno nestali. proces otkrivanja znanja je proces korišćenja baze podataka . Stoga postoji hitna potreba za alatima koji mogu da analiziraju podatke i traže interesantne obrasce ili informacije koje mogu ležati ispod površine.za primenu metoda iskopavanja znanja (algoritama). otkrivanje grešaka i prevara. Ova skladišta se velikom brzinom uvećavaju. validnih potencijalno korisnih i krajnje razumljivih obrazaca u podacima". pod-uzorkovanje i transformaciju podataka . koji zajedno formiraju metodologiju procesa otkrivanja znanja objašnjeni su na sledeći način: 1. Ovde se takođe analizira i vrsta pronalaženja znanja. skladišta podataka ne mogu direktno analizirati ljudi koji traže interesantne obrasce ili trendove. ili oboje. Podaci se analiziraju tako da se pronađu korisne karakteristike za prikaz podataka u zavisnisti od cilja poduhvata. izbor podataka se onda moze modifikovati za objašnjenje privemene ili prostorne zamršenosti podataka. Proces otkrivanja znanja može biti podeljen na sedam koraka. 4. kao i identifikovanje podskupova prebrojanih obrazaca. i ono se vrednuje. Neobavezno. Važno je zapaziti da kod većine velikih baza podataka postoji neograničen broj obrazaca dostupnih za izvlačenje. Treba istaći da su podaci u ovom kontekstu skup činjenica. a modeli viši nivo koji opisuje podatke ili njihove podskupove. Po Fayyad-u. 2. Primena procesa pronalaženja znanja na velike baze podataka za svrhe izvlačenja skrivenih obrazaca ili znanja u podacima naziva se otkrivanje znanja u bazama podataka (KDD Process – Knowledge Discovery in Databases). istraživači u oblasti veštačke inteligencije i sistema baza podataka su sarađivali u kreiranju različitih prilaza u polju pronalaženja znanja da bi izvukli tajne obrasce iz podataka. a razmatraju se i ciljevi pronalaženja znanja. donosioci odluka moraju biti u stanju da otkriju i iskoriste informacije koje se kriju među prikupljenim podacima. koji omogućuju uvid u trendove na trzištu. što može izazvati eliminisanje sirovih redova ili polja u podacima. itd. Ovih sedam koraka. Kako bi se uspešno nadmetali sa konkurencijom. mnoge kompanije nisu uspele da iskoriste njihovu vrednost obzirom da informaciju koja se krije iza ovih podataka nije lako uočiti. Selekcija: Podaci su redukovani na ciljne skupove. prebrojavanje obrazaca. Ključno je iskopati podatak za interesantne obrasce. kao što je prikazano na Slici 12. Analiza opsega: Analizira se priroda podataka u datom opsegu. Ovu metodu formalno definišu Fayyad.koriste u svakodnevnim operacijama kao što su računovodstvo ili praćenje stanja zaliha. Da bi zadovoljili ovu potrebu. Međutim uprkos ovom bogatstvu podataka. Piatetski . zahteve kupaca. . selekciju.uz analizu. Generalno KDD se koristi u bazama podataka čija veličina sprečava ljude da ručno identifikuju obrasce i izvuku vredno znanje.

ova oblast nije postala svarnost sve do 1980.2 Razvoj data mining-a Poreklo data mining vodi od tri naučne discipline: Statistika. Moguća upotreba uključuje unošenje znanja u druge sisteme radi daljeg delovanja. čak i ponovnu upotrebu procesa otkrivanja znanja na istoj bazi podataka koristeći nova predznanja. 4. koja pre svoju moć zasniva na heuristici nego na statistici. Prvi osnivač data mininga je statistika. standardna devijacija. Onda oni bivaju zabeleženi u nekom lako razumljivom obliku. pokušava da primeni procese ljudskog razmišljanja na statističke probleme. varijansa. Interpretacija i evaluacija: Obrasce otkrivene data mining-om tumače i vrednuju ljudi. veliki uticaj je imala veštačka inteligencija. kada su počeli da se proizvode moćni računari po pristupačnim cenama. "machine learning" i veštačka inteligencija. dokumentovanje obrazaca i podnošenje zainteresovanim strankama izveštaja o njima. Ova oblast. Mnoge klasične oblasti statistike kao što je regresiona analiza. Takođe. Područje upotrebe Područje analize Podaci Selekcija Predobrada Ciljni podaci Utvrđivanje otkrivenog Transformacija Predobrađeni podaci Data mining Data mining modeli Tumačenje/ evaluacija Znanje Transformisani podaci Slika 12 Koraci u pronalaženju znanja 6. Zbog velike potrebe za računarima. 7. Eksploatacija pronađenog znanja: Dobijeni obrasci se stavljaju u upotrebu. Data Mining: Algoritam za iskopavanje podataka primenjuje se na predobrađene i transformisane podatke radi pronalaženja traženih obrazaca. Postoje razne aplikacije .5. Treba naglasiti da je izvršenje i rezultat ovog procesa prilično zavisan od kvaliteta implementcije prethodnih koraka. Statistika je osnova mnogih tehnologija na kojima je data mining zasnovan. dikriminaciona analiza i standardna raspodela su kamen temeljac na osnovu koga su mnoge naprednije statističke tehnike data mining-a sastavljene.

Cilj sistema druge generacije je da prikupljaju obimne podatke i kompleksne skupove podataka. uređivanja i dobavljanja podataka. omogućila je da data mining postane stvarnost. podržavaju korišćenje višestrukih algoritama i budu u mogućnosti da rade sa višedimenzionalnim skupovima podataka. integrisanih i kućnih računara. Druga generacija data mining sistema može da crpi podatke iz baza podataka i data warehouse-a. Data mining šeme i data mining programski jezik (DMQL) su takođe podržani. jer njegova snaga leži u mešanju heuristike veštačke inteligencije sa naprednim statističkim analizama. Evolucija tehologija baza podataka od relacionih baza do mnogo kompleksnijih formi kao što su data warehouse i data mart. tradicionalnih metoda. Prva generacija sistema je dizajnirana da manipuliše sa malm količinom vektorski uređenih podataka. Grossman (1998) navodi da data mining sistemi mogu da se podele na četiri generacije. sa kompleksnim formama skladištenja. u mnogome primena "machine learning" tehnika na poslovne aplikacije. Ovo su najosnovniji i najjednostavniji data mining sistemi. Osnovna statistička analiza je korišćena za fundamentalne probleme. Drugu generaciju sistema karakterišu interfejsi baza podataka i data warehousea. mnoge tehnike veštačke inteligencije su adaptirane za korišćenje u "machine learning-u". Mnoge aplikacije koje koriste data mining upotrebljavaju napredne tehnologije veštačke inteligencije. izlazeći u susret potrebi za proučavanjem velike količine podataka i otkrivanjem trendova koji se ne bi izdvojili koršćenjem drugih. Data mining pronalazi sve veće prihvatanje u naučnom i poslovnom svetu. veštačkoj inteligenciji i "machine learning-u". Možda najbolje definisan kao kombinacija klasičnih i modernih kretanja u statistici. često korišćene da predstave trodimenzionalnu sliku). Ostale naučne oblasti koje su uticale na data mining uključuju i nova stremljenja u sistemima baza podataka. Tu je i "machine learning". Njegova svrha je proučavanje podataka i pronalaženje skrivenih trendova ili šablona u njima. između ostalih i optimizovani upitnici za Sisteme za upravljanje relacionim bazama podataka (RDBMS).zasnovane na veštačkoj inteligenciji. Vizuelni i prostorni data mining su upravo i nastali radom na pomenutim oblastima. koje pokazuju evoluciju sistema od prostog. na primer program može doneti razne odluke na osnovu karakteristika proučavanih podataka. Neke od mogućnosti implementirane u machine learning su i mogućnost da računar sam saznaje o podatku koji proučava. preko komplesnog pa sve do naprednog. Dok veštačka inteligencija nije uživala komercijalni uspeh. Četvrta generacija data mining sistema može preuzimati podatke sa mobilnih. visokih performansi i povećane funkcionalnosti. koji možemo posmatrati kao kombinaciju statistike i veštačke inteligencije. dok treća generacija data mining sistema može preuzimati podatke sa intraneta i ekstraneta. • . Razvoj u vizualizaciji je takođe uticao na napredak određenih oblasti data mininga. "Machine learning" se može posmatrati kao sledeći korak veštačke inteligencije. Baze podataka su evoluirale od prostih podataka do sofisticiranih skladišta informacija. dok su napredna heuristika i algoritmi veštačke inteligencije korišćeni za proučavanje kompleksnih podataka. vizualnih tehnika i tehnologija i naprednih tehnika uključujući neuronske mreže. Data mining je. • Prva generacija data mining sistema podržava jednostavne algorime ili mali skup algoritama koji su dizajnirani da prikupljaju vektorske podatke (numeričke.

Karakteristike svih generacija su date u Tabeli 2. Data mining nije pojedinačna tehnika ili tehnologija. najveći deo posla odrađen u data miningu u okviru druge i treće generacije. odnosi se na traženje "dragog kamenja" skrivenog u podacima. za sada.• • Treća generacija data mining sistema je sposobna da prikuplja raspodeljene i heterogene podatke pronađene na intranetu i ekstranetu. službu podrške kupcima. sličnosti.. razvoj baze znanja. Prema sprovedenim istraživanjima. itd. intranet strukturirane modeliranje prediktivno podatke i modeliranje podatke sa mreže Četvrta Uključuje mobilne Višestruki Upravljanje Mobilni i kućni Opšti podaci i opšte podatke algoritmi podacima računari mobilni sistemi 4. Potrebno je ipak primetiti da je iskopavanje podataka samo deo pronalaženja znanja u bazama podataka. baza podataka i DW sisteme Treća Uključuje Višestruki Upravljanje Kompjuterske Uključuje polu prediktivno algoritmi podacima i mreže. Tabela 2: Evolucija Data Mininga Generacija Posebne Podržani Sistemi koje Modeli sistema Tipovi podataka karakterisike algoritmi podržava koje podržava Prva Zasebne aplikacije Podržava jedan Zasebni Jedna mašina Vektori ili više sistemi algoritama Druga Integracija zajedno Višestruki Sistemi za Lokalne mreže i Objekti. sistema warehouse uključujući sis. otkrivanje prevara u bilo kojoj oblasti. integrisanih i kućnih računara. takođe da uspešno integriše sisteme različitih vrsta. pomalo netačan naziv. dok su pretraživači jednostavno nalaze tražene podatke. Četvrta generacija data mining sistema je sposobna da prikuplja podatke koji su generisani od strane mobilnih. sa bazama algoritmi upravljanje relacioni modeli podataka i data podacima. tekst.3 Pojam data mining-a Data Mining ima neograničene mogućnosti primene. Ovo su najnovija dostignuća u oblasti data mininga. i to je najčešće korišćeno objašnjenje o ovim procesima. "Data Mining". pokazalo se da je. već je to skup srodnih metoda i metodologija koje su usmerene ka pronalaženju i automatskom . Treća generacija data-mining sistema se razlikuje od pretaživača jer oni su sredstvo za otkrivanje šablona. uključujući prodaju i marketing. promena i anomalija između podataka. mada je njegov ključni deo.

U tom slučaju donosilac odluke treba da pretpostavi da postoji određena informacija koja je značajna za proces odlučivanja. i njihovom adekvatnom prezentacijom. informacije sakupljene data mining-om moraju da budu tako organizovane da omogućuju odlučivanje. sakupljeni podaci moraju da budu integrisani u izveštaje organizacije u celini a ne u izveštaje specifičnih delova organizacije. mining data warehouse sadržaja obično obezbeđuje bolje rezultate zbog različitih ali komplementarnih tipova podataka u warehouse-u. Data mining se sastoji iz mnoštva operacija od kojih je svaka podržana velikim brojem tehnika kao što su: pronalaženje pravila. sličnosti. Data mining je proces koji koristi različite vrste alata za analizu podataka. Zbog kompleksnosti podataka koji se čuvaju i njihovih međusobnih veza. odlučivanje samo pomoću data mining sistema zasnovanih na verifikaciji nije adekvatno. da bi se otkrile zakonitosti i veze među podacima koje se mogu iskoristiti za izradu validnih projekcija. a pri tome zadržao kvalitet otkrivenih informacija sledeća generacija data mining sistema predviđa kombinovanje prethodno pomenutih sistema. Ovi sistemi se moraju proširiti mogućnošću automatskog otkrivanja bitnih informacija sakrivenih u podacima. zatim da tu pretpostavku pretvori u upit i izvrši ga nad data warehouse-om. Data mining je proces ekstrakcije (izvlačenja) tačnih. Izvučene informacije se mogu iskoristiti za kreiranje modela za predviđanje. pregleda i upoređuje podatke automatski. za utvrđivanje veza između slogova baze podataka ili za pregled podataka baze iz koje se podaci izvlače. filtrira. Ovi zahtevi impliciraju da data mining sistem mora da bude u interakciji sa data warehouse-om i sistemom za podršku odlučivanju. ekstrakcija podataka zahteva kooperativnu upotrebu više različitih operacija i tehnika data mining-a. Identifikacija i korišćenje informacija sakrivenih iza podataka podrazumeva ispunjenje sledećih zahteva: • • • Prvo. i njihovog korišćenja za donošenje kritičnih poslovnih odluka.data mining sistemi zasnovani na otkrivanju. Drugo. U mnogim oblastima kao što su analiza tržišta. Data mining se pokazao kao ključna tehnologija koja omogućava preduzeću da bira. .izvlačenju šablona. i što kvalitet izvučene informacije zavisi od interpretacije rezultata postavljenog upita. Glavni nedostatci ovakvih sistema su u tome što donosilac odluke treba da pretpostavi željenu informaciju. Otkrivanje i korišćenje informacija se postiže korišćenjem generatora upita i sistema za interpretaciju podataka na data warehouse sistemima. finansijska analiza. konceptualni klastering i druge. Iako interakcija sa data warehouseom nije obavezna obzirom da data mining sistemi mogu da rade i sa "flat" fajlovima i operativnim bazama podataka. informacije od kojih se sastoje integrisani podaci moraju da budu izvučeni ("iskopani") Treće. a zatim interpretira rezultate sa aspekta odluke koju treba da donese. prethodno nepoznatih i razumljivih informacija iz velikih baza podataka. Kako bi se proces otkrivanja informacija ubrzao. promena.data mining sistemi zasnovani na verifikaciji. anomalija i drugih karakterističnih struktura iz podataka. Sistemi koji podržavaju ovakav način funkcionisanja nazivaju se . Sistemi koji podržavaju ovakve mogućnosti nazivaju se . neuronske mreže. otkrivanje prevara itd.

Zadatak klasifikacije je dobro definisanje klasa. Svrha njihovog iskopavanje je da se otkriju usađeni obrasci. od kojih svaka vodi ka više odluka dok god se podaci mogu klasifikovati. ponudu proizvoda. profilisanju kupaca. Da bi se klasifikator koristio. klasifikatori se mogu koristiti za predviđanje vrednosti odlučujuće promenljive koristeći ulazne vrednosti. Jedan metod primene klasifikatora je algoritam stabla odlucivanja. Otkrivanje prevara. klasifikator tipično pokušava da prepozna transakcije kao dozvoljene ili sumnjive. koji opisuju same podatke. Ideja je da se kreira model koji za cilj ima uspešno klasifikovanje novih objekata. Opisni . Stablo odlučivanja odslikava uobičajeni koncept "dijagrama toka".u ovom slučaju. Po jednoj od njih data mining se javlja u dva oblika: • • Usmereni (ciljni) je usmeren na objašnjavanje ili kategorizovanje objekata. je. On omogućava da se ogromne količine podataka svedu na upotrebljivo. Jednom kada nauče prelaženje koristeći probne podatke. Objekte koje treba klasifikovati su obično zapisi baze podataka. korisno znanje. najpogodnije uz klasifikovani data mining. cilj je da se pronađu korelacije između polja podataka. Po tom scenariju. itd.1 Oblasti primene data mining-a Data mining je široka oblast u analizi podataka i pronalaženju obrazaca. dostupnih podataka i veština i preferenci istraživača podataka. Sastoji se od posmatranja karakteristika novih objekata i njihovog svrstavanja u jednu predefinisanu klasu iz skupa takvih klasa. Uobičajeno je da su algoritmi za dobijanje stabla odlučivanja zasnovani na teoriji . Klasifikacija: Klasifikacija je jedan od najčešćih zadataka. tj. postoje zapravo brojne podoblasti data mining-a. Druga klasifikacija deli data mining na: • • Predviđačkii . Neusmereni data mining se odnosi na pronalaženje paterna ili skupa predefinisanih klasa. mora prvo da nauči da obavlja prelazak iz skupa ulaznih promenljivih i njihovih vrednosti u predviđene izlazne vrednosti odlučujuće promenljive. Klasifikacija se može koristiti i pri utvrđivanju kreditne sposobnosti. 4.Izbor odgovarajuće tehnike zavisi od prirode zadatka. Sa opštom sveprisutnošću velikih baza podataka u poslovanju. itd. stablo odlučivanja prikazuje hijerarhiju odluka. u okviru podataka. To znanje može biti vezano za bazu kupaca. Ne postoji ograničenje mogućih upotreba klasifikacije. U tom smislu mogu se pronaći različite klasifikacije data mining sistema. Klasifikacija je verovatno najrasprostranjenija vrsta upotrebe data mining-a u poslovanju. data mining ili uopšteno govoreći pronalaženje znanja u bazama podataka. može biti veoma koristan alat za poslovne korisnike.3. niti broja klasa u koje podaci mogu biti smešteni. na primer.u njemu je pažnja usmerena pre svega na iskopavanje opisnih podataka. One se formiraju na osnovu skupa podataka za učenje. Lista koja sledi ističe samo neke od važnijih: 1. odnosno predviđački data mining koristi skup poznatih promenljivih da predvidi druge nepoznate ili buduće promenljive.

u svakoj iteraciji se traži nova teorija koja opisuje jedan broj prethodno neopisanih pozitivnih primera. Mada je moguće prevazići ove prepreke podelom opsega mogućih vrednosti na nekoliko manjih diskretnih opsega. čak i otkrivanju prevara. prevodi zapis u realnu predviđačku promenljivu. ovo vodi ka gubitku informacije. uz izuzetak da je funkcija matematički složenija zbog njene nediskretne prirode. estimacija daje kontinualnu vrednost iste promenljive. ovde to nije slučaj. Poteškoća vezana za stablo odlučivanja je to što promenljive moraju imati mali opseg mogućih vrednosti da bi se mogle efikasno podeliti. kreirajući stablo odlučivanja pogodnim za ocenjivane numeričke podatake. Regresija: određivanje funkcije f koja. umesto toga dodeljuje verovatnoću pripadnosti svakom pojedinačnom podatku i klasnom paru. Jednostavnije od stabala odlučivanja.informacija. Klastering je oblik nekontrolisanog učenja koje uključuje pretraživanje ulazne baze podataka za spontano izazvanim podelama međju pojedinačnim podacima. Ova se metodologija dalje može podeliti na pristupe "odozgo na dole" i "odozdo na gore". Odlučujuće promenljive se biraju u fazi učenja na osnovu toga koliko dele klasifikacione promenljive na odvojene klase. zasnovan na konceptu automatskog pronalaženja klasa. tabele odlučivanja suštinski porede nove podatke sa probnim podacima. gde je cilj naći pojedinačne podatke koji se ne uklapaju u normu ili u klastere. Regresija je veoma slična klasifikaciji. na primer to može biti prvi korak segmentacije tržišta tako što kupce svrstavamo u klastere prema njihovim kupovnim navikama. Tabele odlučivanja su takođe popularne za klasifikaciju. Ove podele dele podatke na logičke grupe zvane klasteri. Ovo može imati potencijalnih koristi u marketingu. Klastering je koristan u poslovanju jer može da obuhvati velike količine podataka i da samostalno razvrstava različite grupe zapisa. tj. 2. Klasteri se često koriste za otkrivanje promena i odstupanja. 4. gde je cilj naći najverovatniji skup klasnih opisa (klastera) za date ulazne podatke i za dato prethodno znanje. ako se klastering primeni na listu korisničkih profila. Autoclass ne dodeljuje eksplicitno pojedinačne podatke klasterima. Kod klasifikacije se svaki objekat svrstava u neku klasu na osnovu modela razvijenog nad učećim skupom podataka dok se kod određivanja klastera objekti grupišu na osnovu njihove sličnosti. Klastering: otkrivanje grupa (klastera) sličnih stavki u ulaznim podacima. gde se atributi za podelu stabla određuju na osnovu toga koliko podela atributa odvaja vrednosti klasifikacione promenljive. Određivanje klastera se obično koristi kao prvi korak data mining-a. Po ovom metodu. bez opisivanja negativnih primera. tražeci probne stavke koje odgovaraju novim stavkama u uslovima malog podskupa ulaznih promenljivih. ILP je proces učenja opštih teorija na osnovu pojedinačnih primera u okviru uzročne logike. usluživanju kupaca. Estimacija: za razliku od klasifikacije koja rezultuje diskretnom vrednošću ciljne promenljive. to može stvoriti "okvir" za različite tipove klijenata. Jedna prilično velika implementacija klastera je "Autoclass sistem klastering". To može biti uvodni korak u klasifikaciju ali može imati i mnoge druge primene. a zatim određujemo koji tip promocije je najbolji za svaku vrstu kupaca. Jos jedan metod za klasifikaciju je induktivno logičko programiranje(ILP). Na primer. Za razliku od klasifikacije gde postoje predefinisane klase. 3. Na osnovu . kada je data kao ulaz u skup promenljivih koje predstavljaju zapis podataka.

Zatim se na osnovu vrednosti tog atributa odluke i željenog praga vrednosti istog atributa vrši razvrstavanje objekata u određenu klasu. 5. tada će i mleko biti kupljeno sa verovatnoćom P1 • ako je kupljeno mleko. na primer o tržišnim trendovima. tada će keks biti kupljen sa verovatnoćom P2 8. tada možemo generisani pravila: • ako je kupljen keks. Samo organizovanje podataka u data mining i data warehouse sistemima je vrlo slično. Predviđanje: slična je klasifikaciji i estimaciji sa tim što se objekti klasifikuju u skladu sa nekim događajem u budućnosti ili estimacijom neke promenljive. na primer koji proizvodi će se zajedno naći u potrošačkoj korpi. odnosno proračuna vrednost atributa odluke za svaki objekat iz skupa neklasifikovanih objekata. odnosno šta se krije u postojećim podacima. 7. Podaci koji se nalaze u data relacionoj olakšava kupaca u se mogu . na primer vreme kupovine. Na primer: Ako se u potrošačkoj korpi jave keks i mleko.3. 9. katalozima. Takođe koristiti i metode određivanja klastera i pravila zaključivanja. Moćna metoda koja se koristi za profiliranje odnosu na pojedinačne kriterijume su stabla odlučivanja. Predviđanje omogućava dodatno sagledavanje međusobne povezanosti ulaznih i ciljnih promenljivih. sa određenom učestanošću. na način koji razumevanje tih relacija. kao što je na primer prihod.2 Data mining i data warehouse Podaci koji se koriste u procesu data mining-a često potiču iz data warehouse izvora podataka. Pogodne metode za probleme estimacije su regresioni modeli i neuronske mreže. Ovo je data mining na koji ljudi najčešće misle kada govore o data mining-u. te u slučaju da su podaci organizovani po modelu data warehouse. Vrednosti ciljne promenljive su poznate na osnovu istorijskih podataka. Estimacija se obično kombinuje sa klasifikacijom. Grupisanje po sličnosti: zadatak je odrediti koji su objekti međusobno slični. 4.skupa ulaznih promenljivih određuje se vrednost kontinualne ciljne promenljive. Ovo se često koristi u otkrivanju prevara. izlozima. Data warehousing dopunjuje data mining. Sažimanje se koristi kada kompanija želi da dobije generalan uvid u podatke iz svoje baze podataka. Sažimanje: pronalaženje obrasca koji će kompaktnije opisati deo ulaznih podataka. Na sirovi skup podataka se najpre primeni estimacija. Grupisanje po sličnosti je jednostavan prilaz generisanju pravila iz podataka. Trgovački lanci koristeći ovu metodu mogu da planiraju raspored i aranžman proizvoda na rafovima. Za predviđanje se koriste iste metode kao i za klasifikaciju i estimaciju. 6. nema potrebe za dodatnim preuređenjem podataka jer se takvi podaci mogu koristiti za data mining. Otkrivanje promena i odstupanja: praćenje podataka iz prošlosti i traženje drastičnih promena. Izgrađeni model se primenjuje na nove objekte čime se vrši predviđanje budućeg ponašanja. Metoda analize opstanka je pogodna kada je cilj estimacija vremena odigravanja nekog događaja. Određivanje profila: ponekad treba opisati šta se dešava u složenoj bazi.

obzirom da detalji pristupa koji će se koristiti u projektovanju data mining sistema zavise od vrste problema i specifičnih uslova. potrebne podatke treba izdvojiti u posebnu read only bazu podataka. Otkriveni paterni mogu da odslikavaju prošle poslovne odluke i ništa više od toga. Prevođenje poslovnog problema u data mining problem Polazna osnova za primenu data mining-a je dobro definisanje poslovnog problema. Cilj data mining-a se ne sme definisati opšto i preopširno kao što bi bilo otkrivanje značajnih . rešava probleme integriteta podataka i učitava podatke u bazu za upite. Data warehousing se fokusira na prikupljanje podataka iz različitih izvora radi lakšeg pristupa i analiziranja. ona ga u mnogome olakšava i potpomaže u ostvarivanju boljih rezultata. odnosno formirati data mining data mart. data mining operacije i korisnički upiti. Data mining baza podataka predstavlja logički (ne fizički) podskup data warehouse baze. Data mining metodologija obuhvata sledeće korake: 1. Donošenje pogrešnih zaključaka može biti posledica nekorektnih i nepogodnih podataka za posmatrani problem ili uzorak ne reprezentuje dobro populaciju. Izvori podataka Data warehouse Izvori podataka Data warehouse Geografski data mart Data mart analize Data mining data mart Data mining data mart izdvojen iz data warehouse Data mining data mart izdvojen iz operativne baze Slika 13 Data mining i data warehouse 4. Podaci iz raznih aplikacija za on-line transakciono procesiranje (OLTP) i drugih izvora su izdvojeni i organizovani u data warehouse bazu podataka koju koriste aplikacije za analizu. Iako sama data warehose baza nije neophodna za proces data mining-a.warehouse-u su organizovani na način koji je prilagođen korišćenju metoda data mininga. Data warehouse je centralni magacin za sve podatke koje razni sistemi preduzeća sakupljaju. Kao jedno od mogućih rešenja ovog problema javlja se mogućnost da se data mining proces primeni nad operativnim transakcionim bazama podataka. Traganjem za skrivenim informacijama dolazi se i do paterna koji su već poznati. može biti veoma dug i skup poduhvat. Treba napomenuti da korake koji će biti prezentovani ne treba shvatiti kao skup formalizovanih pravila koja treba strogo poštovati. Sa druge strane razvoj velike data warehouse baze podataka koja usklađuje podatke iz više izvora. Transformacije podataka mogu dovesti do uništavanja skrivenih važnih informacija. Konceptualne šeme obe mogućnosti date su na sledećoj slici. kako bi se ovi neželjeni efekti izbegli.4 Koraci u metodologiji data mining-a Praksa je pokazala da se kao sporedni efekat ovog procesa učenja javljaju činjenice koje nisu tačne ili činjenice koje su tačne ali nisu korisne. već kao putokaz za njegovo efikasnije planiranje i implementaciju. Stoga je potrebno u opštem smislu pratiti osnovne korake metodologije data mining-a. Da bi se to realizovalo.

Kreiranje skupa podataka modela Podaci modela su svi podaci koji se koriste u procesu modeliranja. Analiza interpretacije je lakša ako je broj promenljivih manji odnosno redukovan.Neke promenljive su značajnije od drugih. Pri izboru podataka treba pratiti nekoliko smernica: • Koja količina podataka je dovoljna? .paterna. Međutim. na primer: skijanje je aktuelno tokom zime. Iskusni analitičari se oslanjaju na intuiciju prilikom izvođenja promenljivih na osnovu poznatih. Konačni model se sastoji od samo nekoliko promenljih koje su izvedene kombinovanjem drugih promenljivih. Podaci iz daleke prošlosti mogu postati nekorisni za analizu. Slično procesu odabira estimatora se zasniva na istorijskim podacima pri čemu su vrednosti ciljne promenljive već poznate. ponekad i suviše.Koliko ćemo daleko zaći u prošlost prikupljajući podatke? Ne postoji jedinstveni opseg. Kada je skup podataka modela dovoljno veliki za izgradnju ’’dobrog’’. najčešći je slučaj da su podaci alocirani u različitim bazama podataka i različitim formatima i na različitim računarima. Neki podaci se koriste za otkrivanje paterna. ili otkrivanje nečeg interesantnog. Zadatak je pronalaženje paterna koji nisu povezani ni sa jednom promenljivom. Skup podataka modela je tabela ili kolekcija tabela.Odgovor koliko je podataka dovoljno zavisi od algoritma koji će biti primenjen. Ovakve promene su obično uslovljene zakonskom regulativom. • Koliki je broj promenljivih? . Razumevanje podataka Veoma je značajno pre kreiranja modela dobro istražiti i razumeti podatke. estimacija. Zadatak modelovanja je pronalaženje pravila koja objašnjavaju poznate vrednosti ciljne pormenjive. DM je proces kojim se podaci sami razvrstavaju na više i manje značajne. Podatke treba uzimati iz više izvora. Ako poslovni problem transformišemo u neki od ovih zadataka onda je on rešiv nekom od data mining tehnika. 3. gde se svaka vrsta odnosi na jedan objekat a . zato se obično vrši analiza histograma svake promenljive. relativne frekvencije mogućih izlaza (izlaznih promenljivih). Neusmereni data mining je deskriptivnog karaktera i koristi se za određivanje grupa sličnih objekata (klastera) i profila. Pri transformisanju poslovnog problema u DM problem treba uzeti u obzir i činjenicu kako će se rezultati koristiti. Podaci modela se prikupljju iz različitih izvora. Kod neusmerenog data mining-a nema ciljne promenljive. neki za procenu performansi modela. zbog promene tržišnih uslova. U ciljnom DM-u uvek postoji ciljna promenljiva. Izbor odgovarajućih podataka Podaci koji su na raspolaganju se nalaze u bazi podataka gde se istorijski pamte i ažuriraju. razumevanje ponašanja kupaca. Ovakvi ciljevi su ostvarljivi ali su teško merljivi. 2. 4. Nakon formulisanja poslovnog problema potrebno je odrediti listu poželjinih podataka. Analiza vizuelnih prikaza podataka može biti veoma korisna tokom istraživanja nad podacima. Takva znanja su teško primenjiva na novim podacima. Proces odabira klasifikatora se vrši na osnovu predefinisanog skupa klasa i objekata koji su tačno klasifikovani. složenosti podataka. klastering itd. stabilnog modela to može biti kontraproduktivno jer će se vreme obrade povećati imajući u vidu da je DM proces iterativan • Koliki je istorijski opseg? . neki za ispitivanje stabilnosti modela. Obično analitičari vrše redukciju polaznog skupa podataka. predviđanje. Većina poslovnih aktivnosti je sezonskog karaktera. Poslovni problem treba preformulisati kao jedan od zadataka data mining-a: klasifikacija.

Neki poslovni podaci sadrže vremenske serije a većina data mining algoritama ne razume takve podatke (na primer tri meseca opadajućeg državnog prihoda). Model se ne može primeniti za sadašnje periode vremena jer nema sadašnjih ulaznih podataka već samo prošlih. poštanski kod i slično. Neke od transformacija su logaritmovanje promenljivih. izbacivanje "outliera". čime se sažima domen modela ali tako da ne dolazi do gubljenja informacija. deljenje skupa vrednosti na intervale jednake dužine. Zamena null vrednosti nekom diskvalifikujućom vrednošću za godine starosti( na primer -23) je takođe nepoželjno. Recimo klasa kredita A pre 6 i pre 2 godine ne mora da bude ista zbog promene ponude banaka tako što je veličina kredita povećana. koji se koristi za merenje efikasnosti modela kada se model primeni na nove podatke. 6.kolona na jedan atribut odnosno red se odnosi na jednog kupca i naziva se zapis o kupcu. Neki algoritmi mogu da rade sa null vrednostima dok drugi ne mogu. transformisanje promenljivih redukovanjem opsega tako što se svaka vrednost menja svojim logaritmom. • Vrednosti čije se značenje menja vremenom. • Razne nekonzistentnosti u različitim izvorima podataka uzrokovane različitim tretiranjem istih pojava. U praksi se obično skup podataka modela deli na tri dela: 1. • Nedostajuće vrednosti nekog atributa. Popunjavanje vrednosti atributa aritmetičkom sredinom ili najfrekventnijom vrednošću daje lažne informacije. Pre modelovanja treba odabrati uzorak iz različitih grupa sa različitim frakvencijama ili dodeljivanjem pondera kako bi se napravila razlika između elemenata koji pripadaju većim odnosno manjim grupama. izračunavanje udela i sl. Transformisanje podataka Prikupljeni podaci se moraju transformisati kako bi se prilagodili postavljenom problemu. Vrši se izvođenje novih promenljivih. 5. Izbacivanja ovakvih objekata je nepoželjno. Skup podataka za validaciju. Pošto se podaci uzimaju iz različitih perioda prošlosti neretko se dešava da ista vrednost promenljive menja svoje značenje tokom vremena. • Numeričke promenljive sa definisanim distribucijama i "outlierima". koji se koristi za izradu inicijalnog modela 2. Tehnike data mining-a nisu pogodne za ovakav tip promenljivih. U klasičnoj statističkoj analizi se praktikuje isključivanje elemenata sa ekstremnim vrednostima tzv. 7. Problemi vezani za podatke • Deskriptivne promenljive sa velikim skupom vrednosti kao što su države. Skup podataka za učenje. Izrada modela . Kreiranje ovog skupa podataka iziskuje složene upite nad relacionim bazama podataka. Rešenje ovog problema je grupisanje u klase koje će sačuvati prvobitnu povezanost sa ciljnom promenljivom. Ovi podaci iziskuju izvođenje novih promenljivih obično koeficijenata. koji se koristi za proveru opštosti modela 3. Ove promenljive prave problema tehnikama koje koriste aritmetičke vrednosti. Problem ima više rešenja: isključivanje "outliera" iz analize. Skup podataka za testiranje. "outliers".

Otkrivanje novih činjenica povlači proveru novih hipoteza. 8. Ovo se može postići neuronskim mrežama. Tačnost estimatora se izražava razlikom između predviđenog rezultata i stvarnog rezultata. Procena modela U ovom koraku se proverava: • Kolika je tačnost modela? • Koliko model dobro opisuje (objašnjava) posmatrane podatke? • Sa kojom verovatnoćom (tačnošću) model vrši predviđanje? • Koliko je model razumljiv? U slučaju klasifikacije i predviđanja. koje se formiraju na osnovu ulaznih originalnih promenljivih. Najčešći način poređenja performansi modela klsifikacije je lift koeficijent. Na ovaj način je rešiv problem upoređivanja performansi modela različitih tipova.Izrada modela je uslovljena izborom data mining tehnike. Model može biti veoma verodostojan za neki opseg ulaznih promenljivih ali isto tako vrlo neprecizan za drugi opseg. klastera sa odgovarajućom verovatnoćom. čime se otrivaju činjenice koje su nevidljive pre analize. ali lift je nedovoljan da bi se odgovorilo na pitanje da li je model vredan utrošenog vremena. tačnost se meri procentualnom greškom pogrešno klasifikovanih objekata. 10. . Procena rezultata Procena rezultata zahteva razmatranje efekata postignutih primenom modela i troškova kreiranja modela i preduzimanja odgovarajućih akcija na tržištu. što znači da je data mining iterativan i složen proces. Kod neusmerenog data mining-a nema ciljne promenljive. grafovima ili na neki drugi način. Ova procedura je validna ako skup podataka za proveru reprezentuje veliku populaciju. Veoma koristan prikaz grešaka modela je takozvana matrica konfuzije ili matrica tačne klasifikacije koja predstavlja ukrštanje stvarnog stanja objekata i stanja koje je određeno modelom. Standardan način opisivanja tačnosti modela estimacije je računanje standardne greške (varijanse) kao aritmetička sredina sume kvadrata odstupanja estimiranih vrednosti od stvarnih. estimaciju. napora i troškova uloženih tokom njegove izrade. Dakle lift je veoma koristan pokazatelj za poređenje performansi dva modela primenjena na iste i uporedive podatke. Ova greška se koristi kao očekivana greška prilikom klasifikovanja novih objekata. predviđanje. Postoji više tehnika za kreiranje modela i poželjno je odabrati najbolju od njih prema njihovoj sposobnosti za klasifikovanje. kako bi se formiralo realno objašnjenje problema. Obično model koristi izvedene promenljive. Neki data mining alati omogućuju dodelu troškova pogrešnim klasifikacijama tako da model može biti izgrađen minimizovanjem ukupnih troškova pogrešne klasifikacije. Tokom svakog DM projekta stalno se postavaljaju nova pitanja i hipoteze. 9. Ponekad se koristi i standardna devijacija. Razvijanje modela Razvijanje modela je proces tokom koga se model analizira. stablima odlučivanja. Manja varijansa govori o većoj tačnosti. Rezultat je dodatno polje u tabeli podataka koje može da predstavlja verovatnoću ili nivo maksimalne verodostojnosti ili naziv klase. Kod ciljnog data mining-a skup podataka za učenje se koristi za objašnjavanje zavisne ili ciljne promenljive na osnovu nezavisnih ili ulaznih promenljivih. Model otkriva veze između objekata i izražava ih kao pravila il i ih razvrstava u klastere.

određuje vrsta data mining operacije i tehnike koja se koristi. a završava izdvojenim znanjem koje je nastalo kao rezultat sledećih faza: • • • • Selekcija . obično je potrebno izvršiti određene transformacije podataka. Novi atributi se definišu ili primenom matematičkih. (kao što je dopuna demografskim podacima) takođe moraju biti primenjivi i laki za pretragu. Proces počinje od sirovih podataka.Odabir ili fragmetacija podataka na osnovu postavljenog kriterijuma Trasformacija – Podaci se trasformišu tako da se mogu dodati određene dopune. Selekcija Prva faza data mining procesa je izbor tipova podataka koji će se koristiti obzirom da nisu svi podaci od značaja za dostizanje njegovih ciljeva. jer je pod određenjim uslovima i za pojedine operacije kao što je npr. Transformacije variraju od konverzija jednog tipa podataka u drugi (pretvaranje nominalnih vrednosti u numeričke kako bi se mogle procesirati od strane neuronskih mreža). . Pri tome. Interpretacija i evaluacija – Šabloni idetifikovani od strane sistema se interpretiraju u znanja koja mogu pomoći pri donošenju odluka. kreiranje modela za klasifikaciju ili predviđanje. Kao rezultat. Na primer marketing baze podataka sadrže podatke o kupovinama. 1.5 Proces data mining-a Cilj data mining-a je da dođe do praktičnih znanja dobijenih analizom podataka. Kako bi prodavci u robnom kućama rasporedili proizvode na policama potrebno je da uporede samo demografske podatke i podatke o kupovinama. do definicija novih (izvedenih) atributa. Na ovaj način postižu se značajne uštede u vremenu i novcu. podatke o strukturi kupaca i njihovoj kupovnoj moći. Na primer određivanje vrednosti logaritmovanjem vrednosti atributa ili uspostavljanjem proporcije između dva atributa. demografske podatke. Transformacija Nakon što su željene tabele odabrane i podaci za data mining identifikovani. Tip transformacije koju treba izvršiti.4. ili logičkih operatora na vrednosti jednog ili više atributa. pogodnije odrediti uzorke iz tabele a zatim izvršiti mining na tom uzorku. 2. kada se odaberu željene tabele nije potrebno vršiti mining cele tabele kako bi se pronašle korisne informacije. Kako su podaci organizovani u obliku višestrukih tabela u ovoj fazi je potrebno koristiti neke od alata za spajanje tabela. tipičan data mining sistem će proći kroz više faza. Ovakav zadatak je suštinski interaktivan i interativan. Data Mining – U ovoj fazi se vrši pronalaženje šablona u podacima.

poslovnom. te je potrebno postojanje jedne vrste povratne sprege između različitih data mining operacija. koji pri tome koriste jedan ili više alata koji obezbeđuju tehnike za rad sa podacima. Prilikom mining-a određenog skupa podataka može se javiti potreba za dodatnim podacima iz skladišta ili dodatnim transformacijama originalnih podataka. Operacijama rukuju data mining eksperti na informacionom nivou. nego i izbor odgovarajuće informacije koja će biti prezentovana. 4. Ako dobijeni rezultati nisu zadovoljavajući. potrebno je prvo koristiti klastering kako bi se baza podataka pretplatnika segmentisala. potrebno je ponoviti data mining fazu ili izvršiti iteraciju kroz ostale faze. nivou gde se donose odluke. a zatim primeniti metodu kao što je indukcija zasnovana na pravilima kako bi se automatski kreirao klasifikacioni model za svaki željeni klaster. Na primer: kako bi razvili precizan klasifikacioni model koji predviđa da li će pretplatnici nekog časopisa obnoviti pretplatu. Na primer: ako je cilj razvoj klasifikacionog modela.Rezultat analize Izvučene informacije Definisanje zadatka Data warehouse Izabrani podaci Selekcija Transfor. i vrši se izbor najbolje i njena prezentacija preko sistema za podršku odlučivanju. Stoga zadatak ove faze nije samo vizualizacija rezultata data mining procesa. Ovo je jedan od razloga koji dokazuje da informacija dobijena data mining procesom mora biti sveobuhvatna. kako bi se dobila željena vrsta informacija. Aplikacije se javljaju na najvišem. Interpretacija i evaluacija Informacije dobijene procesom data mining-a se zatim analiziraju u skladu sa potrebama korisnika.5.1 Data mining aplikacije U daljem tekstu biće prezentovane neke od data mining aplikacija kao i operacija i tehnika od kojih se svaka sastoji. provera adekvatnosti modela u ovom koraku vrši se korišćenjem neke od utvrđenih test metoda. Mining Asimilacija Vizualizacija Slika 14 Data mining proces 3. Njihov značaj i mogućnost primene posebno je . Danas se data mining aplikacije koriste u mnogim oblastima počev od investicija i menadžmenta pa sve do astronomije. 4. Data mining Transformisani podaci se zatim podvrgavaju data mining-u korišćenjem jedne ili više tehnika.

Na primer ukoliko se projektuje model osetljivosti za potrošače koji kupuju sok u limenci. Ako analitičar reši da ne izvršava treći korak u procesu. kao i aktuelnih zapisa baza podataka koji su od značaja. Podaci prikupljeni u prvom koraku procesa se zatim predprocesiraju i svakom zapisu se dodeljuje oznaka "lojalan" ili "osetljiv". pored data warehousing-a. on može uzorkovati bazu i izraditi model na osnovu tog uzorka. 5. štaviše u najvećem broju slučajeva potrebno je primeniti nekoliko tehnika za izvršenje jedne operacije. takozvani modeli osetljivosti. otkrivanje prevara u mobilnoj telefoniji. Otkrivanje statistički važnih nizova podataka korišćenjem data mining klastering metoda. marketing. Ručno kreiranje upita je dugotrajan proces. Na primer analitičar može dati sledeću definiciju lojalnog kupca voćnog soka: "lojalan kupac voćnog soka je onaj kupac koji kupi isti brend u 80% slučajeva". Razni segmenti tržišta imaju različite karakteristike koje zahtevaju različite vrste marketing strategija. zdravstvo i telekomunikacije. koje mogu biti korisne (npr. Treći i četvrti korak izvode se primenom SQL upita. Analiza osetljivosti kupaca odnosi se na proces mining-a različitih vrsta podataka o kupcima. koji predviđaju nivo lojalnosti kupaca prema određenom brendu ili vrsti proizvoda (kao što su voćni sokovi). gde će biti dat i detaljan prikaz operacija koje podržava. i ukoliko je baza suviše velika. 3. Druge izvedene karakteristike dobijene u ovom koraku. Identifikacija vrsta podataka koji će biti korišćeni u analizi. Definisanje koncepta "lojalnog kupca". kako bi se dobili modeli.veliki u oblastima kao što su maloprodaja. bankarstvo. i vrlo često dovodi do toga da se neki bitni . prosečna cena) dodaju se kao nova polja u bazu. Izvršavanje operacije kreiranja modela za predviđanje za bazu određenu u prvom koraku ili za svaki niz podataka određen u trećem. itd. Ovi nizovi mogu sadržati obe kategorije kupaca i "lojalne" i "osetljive". kompanije određuju način na koji će prezentovati svoje proizvode potrošačima. osiguranje. ili nasuprot njemu "osetljivog kupca" koji se dodeljuje na osnovu drugih podataka o kupcu. U ovom slučaju postiže se prosečna preciznost tehnike koja se koristi. biće upoređivani podaci o kupovinama u prošlosti i demografski podaci i to samo za one zapise u bazi gde su kupci kupili bar jednu limenku. Na osnovu predviđanja modela. analiza osetljivosti kupaca. vizualizacije i linearne regresije. i određuju na koje će grupe potrošača biti primenjena svaka od marketing strategija koje razvijaju. Proces projektovanja modela za analizu osetljivosti kupaca odvija se u nekoliko koraka: 1. U svakoj od ovih aplikacija potrebno je. Njihovo prisustvo doprinosi poboljšanju kvaliteta i sveobuhvatnosti rezultujućeg modela. Kao primer data mining aplikacije koristićemo aplikaciju za analizu osetljivosti kupaca. izvršiti i nekoliko data mining operacija. Primena modela na bazu podataka kupaca koji su određeni marketing strategijom i njegovo korišćenje za klasifikaciju svih potrošača u bazi. 2. Primenjuju se u raznovrsnim analizama kao što su: analiza potrošačke korpe za povećanje efektivnosti. 4. Kupci koji su označeni kao "osetljivi" predstavljaju ciljnu grupu marketing strategije. kreiranje portfolia.

U nekim literaturama se izraz segmentacija zamenjuje izazom klastering. Na primer analitičar može biti zainteresovan za vreme povraćaja investicije u neki projekat. čiji značaj tek počinje da se shvata. Kako se veličina baza podataka povećava. često je potrebno particionisati ih u skupove srodnih slogova baze. Prednosti korišćenja data mining tehnika u ovoj operaciji ogledaju se u njihovoj sposobnosti da generišu modele koji su sveobuhvatni i jasni.podnizovi podataka previde. Cilj je otkriti devijantne tačke. Analiza povezanosti je relativno nova operacija.2 Data mining operacije Postoje četiri osnovne operacije kada govorimo o data mining sistemima : • Kreiranje modela za predviđanje . kao što su neuronske mreže. Iako su često veoma precizni.Cilj segmentacije baze podataka je particionisanje baze na segmente sličnih slogova. a zatim se nad segmentiranom bazom može izvršiti operacija analize povezanosti i utvrditi koji se prozvodi prodaju zajedno u tom periodu. i zatim otkriti uzroke njihovih pojavljivanja. Korišćenjem data mining klastering tehnika ovaj korak se može automatizovati. • Analiza povezanosti . obzirom da većina data mining tehnika za modelovanje prikazuje modele kao nizove if – then (ako . Analitičari realizuju otkrivanje devijacija korišćenjem statističkih tehnika i tehnika vizualizacije ili kao sekundarni rezultat • • . tada se na primer segmentacija može izvršiti na osnovu podataka o prodaji u periodu "posle praznika". sa ciljem da se na taj način obezbede uslovi za izvršavanje data mining operacija kao što su kreiranje modela ili analiza veza. rezultati dobijeni modelima linearne regresije su veoma teški za interpretaciju i veoma je teško objasniti predviđanja koja se njima dobijaju. Marketing menadžere može da zanima da li će određeni kupci promeniti marku proizvoda određene vrste. i na taj način poboljšati kvalitet dobijenih rezultata.Cilj ove operacije je da iskoristi sadržaj baza koje sadrže podatke o prošlosti. Tek u skorije vreme se javljaju prvi algoritmi za automatizaciju ove operacije. Kreiranje ovih modela izvodi se najčešće korišćenjem statističkih tehnika. indukcija zasnovana na pravilima i indukcija zasnovana na stablu odlučivanja. 4. čije su široka primena i visok stepen automatizacije. tj slogova koji imaju iste atribute i smatraju se homogenim. kako bi znao da li da je uključi u portfolio koji kreira. Bitno je napomenuti da ona predstavlja izvor pravih otkrića jer devijantne tačke izražavaju odstupanja od nekih prethodnih očekivanih vrednosti i normi.Otkrivanje devijacija je relativno nova operacija. za automatizovano kreiranje modela koji predviđaju buduće ponašanje. Ako se pretpostavi da robna kuća ima bazu koja sadrži podatke o proizvodima koje su potrošači kupovali u određenim slučajevima.Dok je cilj operacije modeliranja kreiranje opšteg opisa koji karakteriše sadržaj baze podataka. Zbog toga se preporučuje korišćenje induktivnih tehnika. Otkrivanje devijacija .onda) pravila. postali mogući tek nedavnim razvojem data mining tehnika. Na primer menadžere prodaje zanima koji su to proizvodi koji se prodaju zajedno. Segmentacija baze podataka .5. Ova operacija je suprotna operaciji segmentacije ali se najčešće koriste zajedno kao komplementarne. odnosno vrednosti koje odstupaju od očekivanih u nizovima podataka. cilj analize povezanosti je da uspostavi odnose između slogova u bazi.

koji se naziva "trenirajući skup". uključuju aplikacije za otkrivanje prevara: u korišćenju kreditnih kartica. kao i u kontroli kvaliteta itd. u korišćenju telefonskih kartica. kao i da bolje rezumeju informacije dobijene drugim tehnikama. koje iako same po sebi ne vrše ekstrakciju informacija.1 Kontrolisana indukcija Kontrolisana indukcija se odnosi na proces automatskog kreiranja klasifikacionog modela od skupa slogova. omogućuju korisnicima da identifikuju paterne sakrivene među podacima. Simboličke metode kreiraju modele koji su predstavljeni ili kao stabla odlučivanja ili kao skup "if . . 4. c) Može da prihvati znanja iz oblasti.then" pravila. sa druge strane postoji veliki broj data mining tehnika koje pružaju podršku ovim operacijama. tako da korisnik može da shvati na koji način sistem donosi odluke. segmentacija baze je podržana klastering tehnikama a otkrivanje devijacija statističkim tehnikama. Ova tehnika je posebno dobra za data mining ukoliko zadovoljava sledeće uslove: a) Daje kvalitetne modele čak i kada je "trenirajući skup" slabog kvaliteta ili je nepotpun. mogu se dodeliti oznake "dobar". koji bi označavali njihovo svrstavanje u jednu od klasa koje opisuju kreditnu sposobnost. Savremene tehnike vizualizacije i moćni računarski sistemi omogućuju pregled i grafički prikaz podataka čime je olakšano otkrivanje poremećaja i odstupanja.3. analiza povezanosti tehnikama otkrivanja asocijacija i otkrivanja doslednosti.5. Takođe kao što je napomenuto. Neuronske metode predstavljaju model kao arhitekturu sastavljenu od čvorova i veza sa težinskim koeficijentima. Metode kontrolisane indukcije mogu biti neuronske ili simboličke. Jedna od tehnika koja omogućava otkrivanje devijacija u podacima je linearna regresija. onda je klijent "dobar". Klijentima za koje postoje podaci o stanju na računu u prošlosti. 4. uzorak cele baze ili celog data warehouse-a. On može biti uzorak rezultata data mining-a baze ili data warehouse-a. pri čemu svaki slog sadrži određen broj atributa. b) Rezultujući model je sveobuhvatan i razumljiv. i na taj način ubrza indukciju istovremeno poboljšavajući kvalitet modela. u slučajevima naplate osiguranja. Ovome se moraju dodati i tehnike vizualizacije. Tehnika kontrolisane indukcije koja kreira simboličke klasifikacione modele može da generiše na primer sledeće pravilo: "Ako je prihod klijenta preko 25 000 godišnje i starosna granica je između 45 i 55 i klijent živi u xyz delu grada. Indukovani model sadrži paterne koji su bitni za razlikovanje klasa. data mining operacije otkrivaju devijacije kao sekundarne rezultate.3 Data mining tehnike Iako sa jedne strane postoje samo četiri osnovne data mining operacije.data mining-a. Operacija kreiranja modela za predviđanje podržana je tehnikama kontrolisane indukcije. Idealan primer primene kontrolisane indukcije je analiza kreditnih kartica. "srednji " i "loš".5. Slogovi od kojih se sastoji "trenirajući skup" mora da bude iz malog skupa klasa koje su analitičari predefinisali. čuvaju podatke o klijentima. Kompanije koje izdaju kreditne kartice. tako da model može automatski da predvidi klasu drugih neklasifikovanih slogova. Pored ovih u širokoj primeni su pre svega stabla odlučivanja i neuronske mreže. Poslovne aplikacije koje podržavaju otkrivanje devijacija. njihovih glavnih analiza.

Neuronske i simboličke metode se razlikuju u sledećem: • • Tipovima vrednosti atributa koji su dozvoljeni za svaki slog (numerički.5. strukuitrani objekti). Otkrivanje asocijacija može uključivati neograničen broj predmeta sa obe strane asocijacije. Ovakva situacija je tipična za aplikacije za on-line katalošku prodaju. Procenat pojavljivanja se naziva "faktor poverenja" asocijacije. za svakog kupca postoje podaci o njegovim kupovinama. Tipična aplikacija koja koristi ovu tehniku je analiza potrošačke korpe. Načinu na koji je svaki klaster predstavljen. B i C.2 Otkrivanje asocijacija Ako je dat skup predmeta i niz zapisa baze od kojih svaki sadrži određen broj ovih predmeta. gde se može iskoristiti za pronalaženje medicinskih procedura koje se često ponavljaju kod pacijenta. 4. takođe sadrže i D i E". Konkretno paterni koji su indukovani mogu da budu zasnovani na pojedinačnim pojavama.3. otkrivanje asocijacija predstavlja operaciju nad ovim nizom zapisa koji otkriva veze koje postoje između elemenata ovog skupa predmeta.5.4 Konceptualni klastering Klastering se koristi za segmentisanje baze bodataka u podskupove. Takođe.5. klastere. Rezultat klasteringa se koisti na dva načina. Prvi. za sumiranje sadržaja baze prema karakteristikama svakog klastera. a ne svakog sloga u bazi.Tehnike kontrolisane indukcije imaju nekoliko prednosti u odnosu na metode statističkog kreiranja modela. Kod ovih aplikacija.3. dok neke statističke veličine mogu samo da uoče promene koje se odražavaju na celokupnu populaciju i to samo ukolko je poznata raspodela. . Ove veze mogu da budu predstavljene u obliku pravila kao što je : "72% zapisa koji sadrže predmete A. nominalni. Ukoliko bi identitet bio poznat bilo bi moguće formirati slogove u bazi koji bi sadržali kupce koji su više puta kupili isti proizvod. Ako se kao skup predmeta uzme skup svih procedura koje se mogu izvesti a zapise predstavljaju pojedinačni formulari.3 Otkrivanje doslednosti U bazi koja sadrži podatke o kupcima. Drugi. gde članovi svakog klastera sadrže određen broj zajedničkih atributa. Još jedan primer korišćenja funkcije otkrivanja asocijacija je aplikacija koja analizira formulare zdravstvenog osiguranja. B i C na suprotnoj strani asocijacije u odnosu na D i E. Takođe se može reći i da su A. 4. tada aplikacija može odrediti koje su se medicinske procedure najčešće izvodile zajedno. Svaki formular sadrži niz medicinskih procedura izvedenih na svakom pacijetu tokom svake posete. na osnovu čega funkcija otkrivanja doslednosti može pronaći šablone koji postoje kod određenih kupaca u pogledu kupovine određenih proizvoda. i na taj način pomoći u otkrivanju slučajeva prevare. 4. obično ne postoje podaci koji određuju identitet kupca.3. Klasteri se mogu kreirati statistički ili korišćenjem neuronskih ili simboličkih metoda nekontrolisane indukcije. kao ulaz za druge metode kao što je kontrolisana indukcija. ova funkcija se može koristiti i u oblasti zdravstvenog osiguranja.

. u okviru skupa podataka nad kojim se vrši klastering. Atraktivnost ove metode je u tome što stablo sadrži pravila koja su veoma čitljiva i razumljiva. Svaki čvor sadrži kriterijum koji se ponaša kao putokaz za dalje kretanje kroz stablo. vrste i dr. neophodno je krenuti od korena stabla. dok kod striktno binarnih stabala svaki čvor. Neuronske klastering metode prikazuju klaster kao prototip sa kojim se povezuje podskup instanci. čak i kada je ta klasifikacija učinjena na različit način. Tipičan primer je deljenje živog sveta na klase. Postoje različiti algoritmi za izbor kriterijuma. ali cilj je uvek isti: "izabrati kriterijum koji je najbolji diskriminator između ciljnih klasa". Stablo se sastoji od skupa pravila za deljenje heterogene populacije na manje homogenije grupe. dok se završni čvorovi nazivaju listovi (leaves). Veoma je teško odrediti kada novi primer treba dodati u klaster. osim lista. Taj put oslikava pravilo koje je korišćeno za klasifikaciju objekata. Specijalan slučaj stabla sa binarnom ciljnom promenljivom se naziva binarno stablo. Ovaj problem se može izbeći tako što će se omogućiti korisniku da naloži klastering komponenti da ignoriše podskup atributa koji opisuje svaku instancu. Takođe se može koristiti za estimaciju kontinualne promenljive. Ovaj proces se ponavlja dok objekat ne dođe do lista stabla. Čvor koji je najviši u hijerarhijij obično se naziva koren (root). redove. Ciljna promenljiva je obično deskriptivna. familije. One razmatraju sve atribute koji opisuju svaku instancu. Koristi se za mining nad podacima. Da bi se određeni objekat rasporedio u stablu. zvog toga što je teško odrediti način za merenje razlike između novih instanci i onih koje već postoje u klasteru. Klastering se razlikuje od ostalih data mining tehnika po tome što je obično mnogo manje precizan.5 Stabla odlučivanja Stabla odlučivanja se najčešće koriste za klasifikaciju i predviđanje. dodeljivanjem niza jednostavnih pravila. među kojima postoji velika povezanost.• Načinu organizacije nizova klastera (hijerarhijski ili u flat fajlove). Simboličke klastering metode obično operišu sa instancama sa nominalnim vrednostima. Stablo odlučivanja je struktura koja se koristi za deljenje velikih kolekcija objekata na manje skupove.5. kod koga svaki čvor roditelj mora da ima najviše dva čvora deteta. Statistički metod predstavlja klaster kao skup instanci. Postoji jedinstveni put od čvora do lista. Stablo ima svoju grafičku predstavu kao hijerarhijski uređeni skup čvorova. tako da se stablo koristi za računanje verovatnoće pripadnosti objekta svakoj od kategorija klasa ili za klasifikovanje objekata razvrstavajući ih u klase kojima najviše pripadaju. Ostali čvorovi (nodes) koji imaju svoje naslednike nemaju specijalan naziv. Takođe je teško odrediti atribute članova klastera. Jedinstveni put od korena do lista se naziva pravilo. mora da ima tačno dva podčvora. rodove. 4. Stablo se crta odozgo na dole ili sa desna ulevo. Svakom čvoru se dodeljuje nivo na kome se nalazi počevši od korena kome se dodeljuje nivo 0. Različiti listovi ukazuju na istu klasifikaciju. jer je osetljiv na redudantne i nebitne karakteristike. i koriste sisteme za pretraživanje zasnovane na veštačkoj inteligenciji za kreiranje podnizova ovih atributa koji opisuju svaki klaster koji je kreiran. ili dodeljivanjem težinskih koeficijenata svakom atributu. Postupkom deljenja rezultujući skup postaje sve jednostavniji.3. Kod ovog metoda vrednost atributa se određuje primenom statističkih procedura na ceo skup podataka.

• deljenje u prisustvu nedostajućih vrednosti. Ipak je poželjno da se izbace objekti sa takvim vrednostima ili ubace umesto njih neke druge vrednosti. Za poređenje značaja distribucija koristi se X test. a ne i apsolutne vrednosti.pri čemu se posmatra se procenat tačno klasifikovanih objekata.KOREN ČVOR ČVOR LIST LIST LIST LIST Slika 15 Stablo odlučivanja Broj objekata željene klase se koristi kao skor. bilo numeričkim ili deskriptivnim. Ovaj način deljenja se koristi u nekim softverskim paketima. 2 Jedna od najznačajnijih prednosti stabala odlučivanja jeste sposobnost rada sa nedostajućim vrednostima. • deljenje nad deskriptivnim ulazima. Svi objekti čija je vrednost kriterijuma X manja od neke konstante N se šalje u jedan podčvor. Prvi korak je pronalaženje skupa atributa kojima se vrši najbolje razvrstavanje. Izbacivanje objekata sa nedostajućim vrednostima za posledicu ima neuravnotežen trenirajući skup. jer se ne radi po slučajnom uzorku. Cilj iterativnog procesa deljenja populacije je kreiranje stabla koje svaki novi objekat na osnovu njegovih karakteristika dodeljuje predefinisanoj klasi ili dodeljuje verovatnoću pripadnosti svakoj klasi. žuta. Ako se distribucije ulaznih promenljivih dve klase ne razlikuju od distribucije izlaznih promenljivih onda se te dve klase grupišu. Važna karakteristika stabla odlučivanja je neosetljivost na "outliere" i lošu distribuciju numeričkih promenljivih gde stablo koristi samo njihove rangove. a objekti čija je vrednost X>N ili X=N se šalju u drugi. Najjednostavniji algoritam za deljenje nad deskriptivnim ulaznim promenljivim je kreiranje nove grane za svaku klasu. Razvrstavanje objekata u slučaju numeričkih vrednosti promenljivih se zasniva na uslovu X<N. narandžasta. Na primer ako se deljenje objekata vrši prema njihovoj boji i skup mogućih vrednosti te promenljive {crvena. Češće korišćeni postupak je grupisanje prema sličnim izlazima. Efektivnost stabla odlučivanja se meri sagledavanjem rezultata koji se dobijaju primenom stabla na skup objekata za testiranje. Najbolji klasifikator je onaj koji povećava razumljivost svakog objekta. plava} tada će se kreirati pet novih čvorova na nižem nivou stabla. zelena. ali daje slabe rezultate. obično pri klasifikaciji. Postoje tri slučaja deljenja polaznog skupa objekata zavisno od karaktera ulaznih promenljivih: • deljenje nad numeričkim ulazima. Ovaj .

može se odrediti: • broj objekata koji ulaze u čvor • broj objekata koji pripadaju svakoj klasi • procenat objekata koji su tačno klasifikovani za određeni čvor • varijansa raspodele između skupa za treniranje i skupa za testiranje Algoritmi razvijeni mašinskim učenjem su fokusirani na povećanje jasnosti rezultujuće podele. 90-ih godina doprinelo je nekoliko faktora: • Moć računara. Najefikasnije neuronske mreže su biološkog karaktera. posebno u poslovnoj sferi gde su najveći resursi podataka.pokazatelj je integralnog karaktera jer na njega utiču pojedinačne grane stabla koje predstavljaju pravila.test. Pravila su različitog kvaliteta. Kriterijumi za formiranje klasa sa deskriptivnom ciljnom promenljivom su: • Gini (populaciona različitost) • Entropija (korist od informacija) • Koeficijent koristi od informacija • . • Analitičari su upoznali neuronske mreže jer su shvatili da su one blisko povezane sa poznatim statističkim metodama. Sve većoj popularnosti neuronskih mreža.3. . χ2 U slučaju numeričke ciljne promenljive kao kriterijumi se koriste: • Smanjenje varijanse • F – test. bilo da je list ili čvor neke grane. Rađene su po uzoru na ljudski mozak koji zaključuje na osnovu iskustva. Dakle izbor odgovarajuće mere razumljivosti zavisi od tipa ciljne promenljive ne i od ulaznih promenljivih. 4. Ova sposobnost je veoma korisna u Data Mining-u i zbog toga su neuronske mreže veoma atraktivna oblast istraživanja s obzirom da obećavaju nove i bolje rezultate u budućnosti. One na neki način predstavljaju most između digitalnog računara i ljudskog mozga. dok računar to radi na osnovu eksplicitnog skupa instrukcija. Kao kriterijum podele koristi se povećanje razumljivosti među objektima. dok je kod modela razvijenih statističkim metodama akcenat na razlike između distribucija podčvorova. Mogu se primeniti za predviđanje. • Težnja da se njihove prednosti iskoriste pri projektovanju ekspertnih sistema. Mera razumljivosti uzima vrednosti od 0 ( kada ne postoje dva objekta koja pripadaju istoj klasi) do 1 (kada svi objekti uzorka pripadaju istoj klasi). Za sada su modeli zasnovani na neuronskim mrežama najpribližniji crnoj kutiji koja vrši obradu kao što čini i ljudski mozak. • Automatsko skladištenje podataka. Za svaki čvor.5.6 Neuronske mreže Neuronske mreža su veoma popularne jer su se dobro pokazale u većini Data Mining aplikacijama i drugim aplikacijama vezanim za donošenje odluka. klasifikaciju i određivanje klastera. Nad dobro definisanim domenima podataka one imaju sposobnost da zaključuju i uče.

Neuronske mreže su nastale po uzoru na nervne ćelije. • Izlazi su dobro definisani (poznato je šta pokušavamo da modelujemo). čiji izlaz uzima veoma male vrednosti dok kombinacija ulaza ne dostigne prag osetljivosti. Najčeše primene neuronskih mreža su pri izradi modela za klasifikaciju ili predviđanje. Sigmoidne funkcije imaju oblik slova S. a takve su i logistička i hiperbolički tangens. Takvo ponašanje se naziva nelinearno. dok je kod hiperboličkog tangensa od . Drugi deo aktivacione funkcije je prenosna funkcija koja je dobila naziv po tome što prenosi vrednost kombinacione funkcije do izlaza jedinice. koji se koriste za treniranje mreže).Neuronske mreže su dobre za predviđanje i estimaciju problema koji imaju sledeće karakteristike: • Ulazi su dobro definisani (poznati su važni podaci). linearna i hiperbolički tangens. Nasuprot tome moguće je da velike promene ulaza izazovu male promene izlaza. Aktivacione funkcije se sastoje iz dva dela jedan je kombinaciona funkcija koja preslikava sve ulaze u jednu vrednost. Jednostavna neuronska mreža koja četiri ulaza transformiše u izlaz. Najčešći oblik kombinacione funkcije je ponderisana suma. Zadržano je svojstvo da male promene ulaza kombinovanjem sinergetski daju relativno velike izlazne efekte. gde se svaki ulaz množi težinskim faktorom a zatim se svi sabiraju. svaki ulaz ima sopstvenu težinu. Linearne prenosne funkcije odgovaraju kombinacionoj funkciji koja je u obliku ponderisane sume. rezultat je ekvivalentan statističkoj metodi koja se naziva logistička regresija Mreža koja u srednjem sloju sadrži skrivene nervne jedinice koje povećavaju sposobnost mreže da otkriva više paterna Slika 16 Neuronska mreža Jedinica je veštački neuron koji skup ulaznih vrednosti prevodi u jednu vrednost koju zatim transformiše u izlaz. Kada se ostvari taj prag jedinice se aktiviraju i izlaz se povećava. tako da imaju grafičku interpretaciju u vidu grafa koji se sastoji od nervnih jedinica i veza. Sa naše tačke gledišta linearna funkcija je najmanje interesantna. Ta transformacija je opisana aktivacionom funkcijom. Najčešće aktivacione funkcije su zasnovane na biološkom modelu. Najčešći oblici prenosne funkcije su sigmoidna (logistička). Glavna razlika između njih je opseg izlaznih vrednosti kod logističke funkcije opseg je interval od 0 do 1. • Postoji iskustvo (poznato je mnoštvo primera sa poznatim ulazima i izlazima.

Rezultat je jedna vrednost koja zahteva mapiranje unazad. • Proces konvergencije može voditi ka inferiornom rešenju. Svaka jedinica izlaznog sloja je vezana sa svim jedinicama skrivenog sloja. tako da je izlaz ponderisana linearna kombinacija ulaza. Jedinice skrivenog sloja računaju izlaze tako što se vrednost svakog ulaza množi odgovarajućim ponderom. Izlazni sloj može da ima više izlaznih jedinica. koja obično uzima vrednost od -1 do 1. Korišćenje linearne prenosne funkcije. Zadatak svake ulazne jedinice je kopiranje ulazne vrednosti u odgovarajući izlaz. Kada je ponderisana suma svih ulaza bliska 0 onda ove funkcije aproksimiraju linearnu funkciju. Neuronske jedinice su organizovane po slojevima. Svaka jedinica ovog sloja može da ima dodatni ulaz koji je konstantan. Kako se ponderisana suma povećava tako prenosna funkcija postepeno teži ka 0 i 1 kod logističke.-1 do 1. ali je dovoljan jedan. Greška je povratna informacija mreže i proračunavaju se novi ponderi kojima se minimizuje greška. Na taj način mreža pamti paterne. Ove dve funkcije su nelinearne i slično se ponašaju. 2. Taj cilj se realizuje korišćenjem trenirajućeg skupa za računanje pondera. skoro linearnih i nelinearnih. • Dostupne su u većini softverskih paketa Slabosti su: • Zahtevaju da je vrednost ulaza iz opsega 0 do 1.6 Data mining nestrukturiranih vrsta podataka . odnosno -1 i 1 kod hiperboličkog tangensa. Zato skriveni sloj ne sme da bude veliki. Neuronska mreža može imati više skrivenih slojeva. Učenje neuronske mreže je proces korigovanja i izbora najboljih pondera grana koje povezuju sve jedinice mreže. Širenjem tog skrivenog sloja se povećava kapacitet mreže za prepoznavanje paterna. pri čemu se teži da izlaz mreže bude blizak željenom izlazu za većinu objekata trenirajućeg skupa. Sledeći sloj se naziva skriveni sloj jer nije vezan ni za ulaze ni za izlaze mreže. Neuronske mreže se mogu koristiti za modeliranje 3 vrste problema: linearnih. Neke od glavnih prednosti i mana neuronskih mreža: Prednosti su: • Mogu se primeniti za rešavanje širokog spektra problema • Daje dobra rešenja čak i nad kompleksnim domenima • Rade i sa diskretnim i sa kontinualnim promenljivim. ne zahteva povratno mapiranje izlaza. koristi postojeće pondere i proračunava izlaze. zatim se vrši sabiranje i prosleđuje do prenosne funkcije. jer je vezan za izlaze mreže. Svaka jedinica ulaznog sloja je povezana sa tačno jednim izvornim poljem tabele podataka. Cilj nije da mreža pamti nego da nauči da prepoznaje paterne trenirajućeg skupa. Kretanjem unazad se računa greška kao razlika između proračunatih i očekivanih vrednosti. 4. • Ne objašnjavaju rezultate. Treći sloj je izlazni sloj. Postupak treniranja je: 1. Mreža uzima trenirajući skup. 3. prvi levi sloj je vezan za ulaze i naziva se ulazni sloj.

Međutim.Uobičajeno. Postoji veliki broj metoda grupisanja i ova činjenica generiše veliki broj tipova ili šema grupisanja. audio i video u slobodnoj formi su najčešći oblici nestrukturiranih podataka. ne postoji formalan oblik takvih podataka. poslovna inteligencija je koncentrisana na analizu podataka prikupljenih od sistema za obradu poslovnih transakcija. Landau i Leese (2001) na hijerarhijsko i nehijerarhijsko (ili delimično grupisanje): . Nedavna dostignuća u računarskoj lingvistici kao i razvoj Interneta. analitičari smatraju da moraju da prošire opseg svojih podataka kako bi uključili i nestrukturiran tekst. Data mining nestrukturiranih podataka se na osnovu vrste podataka koji se koriste kao ulaz mogu okvirno podeliti na: • • • Tekst mining Web mining Data mining multimedije i dr. Kategorije ili klase su veoma važne budući da su one osnovni elementi na kojima se grade novi koncepti. Strukturirani izvori podataka primenjuju dobro definisane.1 Text mining Kako tražnja za uspešnijim tehnikama poslovne inteligencije raste. počinjući od grupe podataka relevantnih za rešenje specifičnog problema. 4. Nestrukturirani podaci su preobimni u većini organizacija. neophodne su tehnike kao što je tekst mining. U ovom delu. traži zanimljive i prethodno nepoznate šablone. Metode grupisanja su u mogućnosti da daju sugestije u vezi kako se specifične grupe podataka organizuju ili su u korelaciji. kao što su planiranje resursa preduzeća (ERP). ali relativno ograničene modele podataka. Nakon ljudske interpretacije ovih šablona. Kako samo ime kaže. Relacione i objektno orjentisane baze podataka se obično koriste za primenu ovih modela. konstruisati klase ili kategorije. opisane su glavne metode grupisanja i algoritama uključenih u proces analize grupa tekstualnih podataka. Nešto manje strukturirani i fleksibilniji su polustrukturirani izvori podataka. važno znanje koje vodi ka rešenju tog problema može biti otkriveno. na osnovu toga. Kao i strukturirani. čišćenja i transformacije. ali se ne koriste kao izvori za primenu poslovne inteligencije. Tekst. ovi modeli su dobro definisane strukture relativno ograničene opsegom. upravljanje odnosima sa kupcima (CRM). a koncepti su osnova ljudskog znanja. Otkrivanje znanja podrazumeva zadatke sakupljanja podataka. kao što su modeli zasnovani na XML-u. Text mining je lociran na istom nivou data mining-a ali obuhvata ekstrahovane šablone iz tekstualnih informacija. i aktivnosti interpretacije postprocesnog šablona. ali omogućavaju veću fleksibilnost u obuhvatanju i sređivanju elemenata podataka. obrada zahteva i drugi strukturirani izvori podataka. Ovde će biti prezentovana klasifikacija metoda grupisanja prema kategorijama predloženim od strane Schütze i Silverstein (1997) i Everitt. javlja se sve veća potreba za obradom nestrukturiranih podataka. Ove prednosti se široko koriste za tekst mining.6. koji je definisan kao analiza teksta na prirodnom jeziku u cilju izvlačenja termina. Data Mining je zadužen za ekstrakciju šablona iz strukturisanih podataka. Moguće je identifikovati sličnost i različitosti među mnogim objektima ili šablonima podataka i. Text mining je deo šireg polja otkrivanja znanja koje. učinili su integrisanje nestrukturiranih podataka u infrastrukturu poslovne inteligencije izvodljivom i uspešnom. Da bi iskoristili ove informacione resurse. entiteta i odnosa između tih termina i entiteta.

Hijerarhijsko i delimično grupisanje Kao što je već navedeno. odnosno oni koji nisu grupisani se ignorišu ili dodeljuju izolovanoj grupi – jednoj za svaki element. šema rezultata grupisanja je veoma slična stablu (slika 17). Algoritam počinje sa odabirom bilo kog elementa u grupi elemenata. povezujući ih zajedno. Posrednički klasteri su klasteri klastera a listovi su objekti. Svaki čvor predstavlja klaster. To znači da drugi elementi moraju biti blizu ili slični ovom centralnom elementu ali nije neophodno i drugim elementima. postoji veliki broj metoda grupisanja. centar zvezde je element koji ima odnos sa svim drugim objektima u grupi. više će biti slični jedni sa drugima. Veći prag sličnosti među svim elementima u relaciji sa centrom čini grupu koherentnijom. U ovom slučaju. definisan od strane korisnika i element koji se upoređuje sa centrom dodeljuje se grupi.Kada se radi sa nehijerarhijskim klastering-om. Elementi u kojima sličnost sa drugim elementom nije veća od utvrđenog praga sličnosti.Ovaj algoritam analizira objekte i pokušava da pronađe grupe sličnih elemenata gde je rezultujući oblik sličan zvezdi objekata koji su u relaciji. Odnos između klastera je od velike važnosti budući da pokazuje specifičnosti i apstrakcije među grupama objekata. Nehijerarhijsko ili delimično grupisanje . Tada se ovaj element upoređuje sa drugim elementima koji još nisu grupisani. ukoliko korisnik sagleda stablo odozgo na dole više specifičnih grupa će biti identifikovano dok se ne dostignu sami objekti. Ovaj odabir može biti izvršen nasumice ili po bilo kojoj drugoj metodi. Ukoliko se odnos pronađe znači da je prag sličnosti veći nego prethodni. Ukoliko korisnik sagleda stablo klastera na gore. . Međutim. definiše se prag sličnosti. 5 4 1 2 3 A A B C C C F F F F Slika 17. moguće je identifikovati više apstraktne ili generičke grupe. redosled odabira utiče na rezultat šeme grupisanja.• • Hijerarhijsko grupisanje . objekti su dodeljeni u izolovane klastere i nikakav odnos između klstera ne može biti pronađen. Neke od nejčešće korišćenih su: • Algoritam zvezde . Sa druge strane. Što su više sličniji sa centrom (ili bliži centru). Ovaj tip grupisanja takođe je poznat kao delimično grupisanje i kaže se da generiše ravne (bez strukture) particije klastera. Jednom kada se se svi elementi uporede sa centrom zvezde. Odabrani element se tada bira kao centar zvezde (centar grupe). Za minimizovanje različitosti između elementa koji je sa jedne strane zvezde i elementa koji je sa druge strane zvezde. drugi element koji nije grupisan se odabira i proces se nastavlja sve dok svi elementi ne budu analizirani.U hijerarhijskom grupisanju.

često korišćene reči. Poslednji korak je izračunavanje vrednosti svakog preostalog pojma u dokumentu. Grupe(Cliques) . Postoje mnoge metode za izračunavanje ovih vrednosti. Svi algoritmi koji su navedeni dodeljuju element najbližem klasteru. Kao i sve druge tehnike tekst mininga. dok veliki IUD faktor smanjuje tu vrednost. Najjednostavnija struktura podataka u tekst mining-u je vektor karakteristika. Vektori karakteristika se primenjuju u nekoliko slučajeva . reči "telefonirati" i "telefonirano" su skraćene na "telefon". U ovom slučaju korisnik ne mora da utvrdi prag sličnosti. Opšta pretpostavka celog ovog metoda je da termini koji se često pojavljuju u dokumentima (visok UT faktor) razlikuju jedne dokumente od drugih osim ako se ti termini često pojavljuju u svim tekstovima u skupu dokumenata (visok IUD faktor). sistemi za tekst mining izvršavaju nekoliko operacija. reči su skraćene na njihove korene. Međutim. poznate kao "stop" reči (npr. Pune zvezde . procenjena lista reči koje se pojavljuju u tekstu i pruža odgovarajući opis teksta. • • 4. elemetni su tesnije povezani i kvalitet rezultata grupisanja je bolji. Time je omogućena analiza učestalosti korena reči koji daju smisao bez sintaksnih variranja. Izvlačenje termina Izvlačenje termina je osnovni oblik tekst mining-a. Ovaj algoritam dodeljuje elemente svim klasterima sa kojima je sličnost veća nego prag sličnosti koji je utvrđen od strane korisnika. Drugo. Veliki UT faktor povećava vrednost termina. ova tehnika prenosi informaciju iz nestrukturiranog podatka u strukturirani oblik. ili.Ovaj algoritam je najsličniji zvezdanom algoritmu.• Najbolja zvezda-Najveći problem zvezdanog algoritma je taj što red po kojem se elementi biraju kao centri utiče na rezultate klasteringa. Najbliži centru zvezde). dodeljujući element. U ovom slučaju. Prvo. Ovo su najveći problemi analize grupisanja koja koristi ovakvu vrstu algoritama. ali najčešće korišćeni algoritmi upotrebljavaju merenje učestalosti termina u dokumentu (učestalost termina ili UT faktor) i učestalost reči u celom skupu dokumenata (inverzna učestalost dokumenata ili IUD faktor). 1.Ponekad korisnici moraju znati sve klastere kojima će jedan element biti dodeljen. Najboji zvezdani algoritam ima tendenciju da reši ove probleme. Na primer. čak i ako je već grupisan. Drugi problem je to što korisnik mora odabrati prag minimalne sličnosti između objekata i centra. 6. i. ostali) se uklanjaju. zvezdi sa kojom ima najviše sličnosti (najbližoj zvezdi). Da bi identifikovali ključne termine. a elementi će biti ponovo dodeljeni klasteru gde su najsličniji (npr. 1 Tehnike text mining-a Postoje tri ključne tehnike tekst mining-a: • Izvlačenje termina • Izvlačenje informacija • Analiza veza. ovde se elementi dodaju samo ako zadovoljavaju prag sličnosti među svim elementima koji su već u klasteru a ne samo centralnim elementima. i što nema optimalnog praga koji će se koristiti kao uobičajena vrednost već svaki podatak mora imati drugačiji prag.

ne smanjuje se kvalitet funkcionisanja kod negramatičkih tekstova. novčani iznosi i lokacije. ugao između dva vektora pokazuje sličnost između dokumenata. Konačno. Za razliku od izvlačenja termina koje se koncentriše na pojmove. Prvi korak u izvlačenju informacija je da se XML-u doda tekst kao u izvlačenju karakteristika. ” Koristeći tehniku izvlačenja karakteristika. Ako posmatramo taj vektor kao liniju u višedimenzionalnom prostoru. epizoda ili stanja u tekstu. Izvlačenje podataka se može primeniti na niz tekstualnih izvora i. kao što su imena preduzeća. Koriste se za merenje sličnosti između dokumenata. ovu priču možemo smestiti u XML šemu kao što je sledeća: <novinarska-prica> <imenovani entitet>Alpha Industries</imenovani entitet> <imenovani entitet>Beta Enterprises</imenovani identitet> <novcani iznos> <iznos>50 miliona</iznos> <valuta>USD</valuta> </novcani iznos> <imenovanientitet>Agencija za Hranu i Lekove(AHL)</imenovanientitet> </novinarska prica> Ključni nedostatak ovakvog prikaza je odnos tri imenovana entiteta i svrha novčanog iznosa. Izvlačenje informacija Sledeći nivo složenosti tekst mining-a je izvlačenje informacija. Na primer. pojmova. Izvlačenje pojmova je dovoljno u mnogim situacijama. vladinih agencija. datumi. Pošto vektori karakteristika sadrže najvažnije termine. interpunkcije i specijalnih znakova za uparivanje obrazaca. Izvlačenje karakteristika je slično izvlačenju termina samo što umesto korišćenja leksičkih sredstava kao što je razmak ili interpunkcija za identifikovanje termina. oni mogu da upravljaju izborom najvažnijih rečenica u dokumentu za potrebe kreiranja sižea.u sistemima za tekst mining. izvlačenje karakteristika koristi sintetička svojstva da identifikuje entitete. Tehnika izvlačenja karakteristika pruža više detalja u vezi sa semantičkim atributima nego izvlačenje termina. izvlačenje informacija se koncentriše na skup činjenica koje čine događaj ili stanje. aprila 2008. Ovi . ali joj nedostaje važna informacija o odnosima između termina. novinarska priča kao što je sledeća opisuje osnovne činjenice o fuziji kompanija: "Alpha Industries" je danas najavila kupovinu "Beta Enterprises" za 50 miliona dolara 1. za razliku od ostalih tehnika tekst mining-a. Tehnika izvlačenja informacija rešava ovaj problem upoređujući obrasce događaja. Pripajanje zavisi od regulacionog odobrenja agencije za hranu i lekove(AHL). ali kategorisanje i drugi viši nivoi operacija u tekst mining-u se poboljšavaju upotrebom izvlačenja karakteristika. Zbog toga se na sledećem nivou analize moraju koristiti tehnike izvlačenja informacija. ovi vektori pružaju osnovu za klasifikovanje i grupisanje dokumenata. Obrasci se konstruišu upotrebom entiteta.

Ovim nizom poklapanja. Pošto kupovna fraza koristi aktivni oblik glagola. dok se drugi odnosi na kupljenu kompaniju (da je glagol u pasivnom obliku. Kupovnoj frazi: <aktivna kupovna fraza>kupovinu</aktivna kupovna fraza>. izvučeno je više informacija. troškove pripajanja. Regulatornom obrascu: <regulatorna fraza>regulatornog odobrenja</regulatorna fraza>. da li je isplata u gotovini. kao što su ime kompanije i novčani iznosi kao i glagolske fraze kao što je "fuzionisan"ili "stecen". 2008</datum> . Posle tog dodavanja. Jednostavan obrazac koji bi obuhvatio gornju priču je: <imenovani entitet><aktivna kupovna fraza><imenovani entitet> "za"<novcani iznos>*<regulatorna fraza>*. Prvom imenovanom entitetu odgovara: <imenovani entitet>Alpha Industries</imenovani entitet>. deonicama ili u drugom obliku i da li je potrebna regulatorna dozvola. kao što su <novcani iznos>i <regulatorna fraza>. kompaniju koja je prodata. Drugom imenovanom entitetu: <imenovani entitet>Beta Enterprises</imenovani entitet>.dodaci identifikuju entitete. • • • • • • Zvezdica označava bilo koji broj reči između entiteta. kao što su: <prica o spajanju> <kompanija kupac>Alpha Industries</kompanija kupac> <kupljena kompanija>Beta Enterprises</kupljena kompanija> <iznos kupovine> . prvi imenovani entitet obeležava kompaniju kupca. gornja priča bi glasila: <imenovani entitet>Alpha Industries</imenovani entitet> <aktivna najavna fraza>najavila je danas</aktivna najavna fraza> svoju <aktivna kupovna fraza>kupovinu</aktivna kupovna fraza> <imenovani entitet>Beta Enterprises</imenovani entitet> za <novcani iznos> <iznos>50 miliona $</iznos> <valuta>USD</valuta> </novcani iznos> <datum>1 aprila. uloge bi bile obrnute). Pripajanje zavisi od <regulaciona fraza>regulacionog odobrenja</regulaciona fraza> <imenovani entitet>Agencije za Hranu i Lekove(AHL)<imenovani entitet>. Obrascu novcanog iznosa:<novcani iznos><iznos>50 miliona $ <valuta> USD </valuta> </novcani iznos>. Obrazac za identifikovanje informacije o pripajanju trebao bi da uključi kompaniju kupca.

merimo koliko često se dva termina pojavljuju zajedno. novčani iznos). datum. nego u slucaju izvlačenja karakteristika. preduslov za D. sa složenim vezama ili koracima. U slučaju zajedničkog pojavljivanja termina i entiteta. kako se pretpostavlja. analizirani tekst je obeležen semantičkim atributima kao sto su kompanija kupac i iznos kupovine. kao što su novinarske priče. Telekomunikacije su tipičan primer sistema na koje se primenjuje analiza veza. jer povećanje B će. pored sintaksnih atributa (imenovani entitet. A → B 0.<iznos>50 miliona</iznos> <finansijski instrument>USD</finansijski instrument> </iznos kupovine> <dozvola potrebna>da</dozvola potrebna> </prica o spajanju> Primenom sofisticiranijih metoda dodavanja. A izaziva B. mogu se identifikovati glagolske fraze. Pozivi telefonom i mrežni paketi počinju od određene tačke i kreću se preko složenih veza na svom putu ka krajnjem odredištu. ili medicinski izveštaji. izvlačenje informacija. Na taj način gradi se osnovna struktura veza. baza podataka o patentima. pruža dodatne semantičke informacije koje nedostaju u primerima zajedničkog pojavljivanja. koje određuju uloge entiteta u rečenici. Analiza veza Analiza veza je skup tehnika za sticanje uvida u odnose između višestrukih entiteta. 8 B → C 0. što nam omogućava da identifikujemo potencijalno zanimljive odnose. 75 Zajedničko pojavljivanje termina i entiteta ne otkriva tip odnosa. npr. Razmotrimo sledeći skup obrazaca: A B D aktivira koči zahteva B C C Iz ovoga se može zaključiti da povećavanje A izaziva smanjivanje D. ili C obuhvata D. B i C su snažno povezani. smanjiti C. . Analiza veza ipak. Analiza veza počinje sa velikom grupom podataka o učestalosti zajedničkog pojavljivanja činjenica ili termina i entiteta. Ova vrsta analize veza je posebno važna u bioinformatici i farmaciji. • Predobrada sadržaja i dodavanje osnovnih sintaksnih i semantičkih dodataka. analiza tržista u finansijskim uslugama i upravljanje naukom i tehnologijom su takođe pogodni za ovu vrstu analize. kao što su odnosi između A i D u sledećem skupu frekventnosti zajedničkog pojavljivanja. kao i C i D. Konkurentno obaveštavanje u vertikalnim industrijama. Sada. A i B su snažno povezani. a sve ovo ukazuje na moguću logičku vezu između A i D. 7 C → D 0. Osnovni koraci u analizi veza su: • Određivanje izvora sadržaja.

Mining korišćenja web-a. konkurentno obaveštavanje i analizu tržišta. Neke aplikacije ove vrste mininga Web sadržaja uključuju i pronalaženje modela za on-line baze podataka. Ovo uključuje obradu Web tekst dokumenata.• • U slučaju izvlačenja informacija. U ovoj oblasti. jer je Internet moćan izvora informacija.2 Web mining Web mining je oblast data mininga koja naviše obećava. selekcija i obrada informacija sa interneta. izračunava se koliko se često termini pojavljuju zajedno. koji su vezani za korišćenje interneta. hipertekst je osnovna informacija koja se analizira. računarskoj lingvistici. postoje i različiti pristupi pri rešavanju ovih problema. uključujući agente i akcije. koristi većinu tehnika koje se koriste i za strukturirane podatke. Web mining može biti kategorizovan u tri oblasti • Mining web sadržaja. izvlačenje činjenica. najbolji pristup je da se internet prezentacija posmatra kao baza podataka. Web mining je izvlačenje interesantnih i korisnih šablona i implicitnih informacija iz aktivnosti vezanih za WWW (World Wide Web). Oblast prikupljanja informacija je predviđena da radi kako sa nestrukturiranim (novinski članci). U slučaju zajedničkog pojavljivanja termina ili karakteristike. Drugi pristup. kao i izgradnju posebno strukturiranih sadržaja podataka. naravo uz dodatan napor da se obrade informacije koje imaju razne multimedijalne sadržaje. Primena pogodna za analizu veza se može lako preneti na strukturu čvorova i veza usmerenih grafikona. Takođe postoje aplikacije koje se fokusiraju na dizajniranje novih . Primeri uključuju biomedicinska istraživanja. Prema Kosala i Blockeel (2000). pronalaženje i analiza šablona na sajtovima ili između sajtova. Kvalitet analize veza dosta zavisi od kvaliteta analize teksta i sposobnosti za pravilno identifikovanje odnosa. i • Mining korišćenja web-a Mining web sadržaja je proces izvlačenja znanja iz sadržaja dokumenata ili njihovih rezimea. klasifikaciji i pronalaženju šablona. koji se koristi za polustrukturirana dokumenta. mining web strukture je proces prikupljanja podataka sa web stranica organizacija. i cilj je transformisati podatke pronađene na internet sajtu u neku organizovaniju formu. je proces pronalaženja šablona iz log fajlova provajdera. kao i prikupljanje i obrada drugih podataka od interesa. Web mining je usko povezan sa istraživanjem informacija (IR) i izvlačenjem informacija (IE). Unutar nje. Glavni zadatak koji obavlja web mining je dobavljanje web dokumenata. Web mining se nekada posmatra kao inteligenta forma istraživanja informacija. a izvlačenje informacija je povezano sa izvlačenjem informacija iz web dokumenata. tako i polustrukturiranim dokumentima (HTML) u pokušaju da pronađe šablone i modele zasnovane na analizi dokumenata. 4. uključujući one koji se oslanjaju na baze podataka ili korišćenje inteligentnih softverskih paketa. postoje dva glavne oblasti mininga web sadržaja: oblast prikupljanja informacija i oblast baze podataka.6. Pored ova tri pomenuta tipa. poznat još kao mining web logova. Mnoge od ovih studija su usko povezane sa text miningom. • Mining web strukture.

sekvenciona patern analiza. Mining korišćenja web-a je još jedna od bitnih oblasti u širokom spektru oblasti web mininga. Podaci sa korisničkog nivoa su najčešće oni podaci do kojih dolazi sam internet browser koji se nalazi na korisničkoj mašini. Istraživači su razvili mnoge "Internet – orijentisane" jezike upita koji pokušavaju da nadograde standardne jezike upita kao što su SQL. već takođe i podatke o sadržaju stranica koje je korisnik posećivao. Predprocesiranje adaptira podatke u formu koja je pogodnija za analiziranje šablona i mining korišćenja web-a. U oba slučaja. U prvom slučaju. U opštem slučaju. Na primer. Tri bitne komponente procesa mininga korišćenja web-a uključuju predprocesiranje. odnosno. klasifikacija. kako bi bilo lakše otkriti tačnu vrstu sadržaja na koje link ukazuje. on pokušava da istraži strukture koja postoje između dokumenata i internet prezentacije. Pronalaženje šablona uključuje takve analize kao što su grupisanje. Mining web stukture ima za cilj pronalaženje znanja u strukturi internet prezentacija. podatke koji se dobijaju iz interakcije korisnika. WebSQL podržava širok opseg operacija koje vrše restrukturiranje podataka. Na primer. kompleksnost i raznovrsnost tema koje pokriva. mining korišćenja web-a ima dva glavna pristupa: analiziranje logova direktno ili. To uključuje uzimanje sirovih log podataka i njihova konverzija u korisne (ali još ne i analizirane) informacije. tj. WebSQL je "logički – orijentisan" jezik upita koji se koristi za restuktuiranje prikupljenih informacija sa Interneta. alternativno. koji su se najviše koriste od sve tri vrste. Podaci sa server nivoa su informacije sakupljenje sa internet servera. i dependency modeling. U slučaju podataka o korišćenju Web-a. a ne pretraživanje samog teksta i podataka koji se nalaze na toj prezentaciji. linkovi koje sadrže jedan dokument pokazuju njegovu popularnost. web serveri čuvaju i prikupljaju podatke o interakcijama korisnika sa resursima koji se na njima nalaze. Takođe je bitno ne samo imati logove sa servera.programskih jezika koji obezbeđuju bolje upite za baze podataka koje sadrže podatke prikupljene sa interneta. Podaci sa proxy nivoa. deskriptivna statistika. Tačnije. kao što su hiper-linkovi ili neke druge vrste linkova. i samim tim poboljšavaju dizajn ovakve kolekcije podataka. a u drugom slučaju. . Mining korišćenja web-a se fokusira na ponašanje internet korisnika. Analize Web access logova sa različitih internet prezentacija nam omogućuju bolje razumevanje ponašanja korisnika i Web strukture. mapiranje podataka u relacione tabele. Umesto da gleda sadržaj ili strukturu internet stranica. Ovo je kontrast prema podacima sa server nivoa. otkrivanje šablona i analiziranje šablona. Izvori informacija o korišćenju interneta mogu se podeliti u tri osnovne kategorije: korisnični nivo. uključujući server logove. The PageRank i CLEVER metode koriste informacije koje im pruža link u pronalaženju izvornih Web stranica. mogu dati informacije o navikama korisnika interneta koji koristi isti proxy server. fokusira se na stvarnje modela i predviđanja interakcije između korisnika i interneta. a zatim i indentifikovanjem korisnikovih sesija. neophodno je adaptirati i kodirati informacije u formu koja može biti uneta u bazu podataka. kao i logove koji se dobijaju od cookie-ja i upita. serverski nivo i proxy nivo. kako bi na najbolji način sakupili podatke sa Interneta. Java apleti ili java skript programi takođe mogu prikupljati podatke nezavisno od Internet browser-a. veoma je bitno da se obezbedi tačnost i definisanost korisnika i sesija koje se nalaze u kešu i proxy serverima. ova forma mininga proučava sekundarne podatke. Uopšteno. potrebno je specijalno pretprocesiranje. bilo bi neophodno uzeti sirove log informacije i krenuti sa idetifikovanjem korisnika.

Analizom ovih podataka može može se uvideti šablon prilikom posete prezentaciji od strane određene vrste korisnika. boju i druge relevantne atribute. traženje sličnosti itd. da li postoje različiti koraci kroz koje bi kupac želeo da prolazi za vreme korišćenja e-komerc prezentacije (kao što su pretraživanje. moguće je trasformisati šablone u ritam. oblik. ali to zahteva veliku koncentraciju i može postati monotono. na primer. tempu ili nekom instrumentu. ali se od nje mnogo očekuje u budućnosti. i samim tim budu isključeni iz dalje analize. određena vrsta podataka u nizu može biti praćena nekom drugom određenom vrstom podataka. 4. . video snimaka do animacija. Mnoge metode za opis informacija u pomenutim oblastima takođe mogu da se primene i na multimedijalni data mining. Dependency modeling pokušava da utvrdi da li postoje neke zavisnosti između varijabli u podacima o korišćenju web-a. logično je da su ove oblasti usko povezane. grupisanje.6. To bi moglo pomoći pri identifikaciji. od fotografija. Ali kada se podaci prikažu kao zvuk. već se takođe mogu grupisati i stilovi. melodiju i harmoniju kako bi se okrilo nešto zanimljivo ili neobično. zbog svoje prirode koju čine velike kolekcije multimedijalnih objekata. Ova oblast je nova.Sekvenciona patern analiza pokušava da identifikuje šablone koje formiraju sekvencu. Osnovna prednost audio data mininga je u tome što kada koristimo tehnike kao što su vizuelni data mining. Iz razloga što multimedijalni data mining u sebi sadrži i delove text mininga i hypertext mininga. ton. Ne samo da je moguće grupsati melodije. Ovaj korak je neophodan kako bi se izbeglo gubljenje vremena i truda utrošenog na šablone koji ne bi dali produktivne rezultate. Multimedijalne informacije. one moraju biti predstavljenje različito od konvencionalnih formi podataka. Takođe olakšaće ciljno oglašavanje time što će se određene vrste promocije ponuditi korisnicima koji će ih najviše ceniti. Još jedna oblast multimedijalnog data mininga koja se neprestano razvija je i audio data mining (mining music). na primer. kupovina) kako bi postao stalan kupac. Analiza šablona ima za cilja da odstrani sve šablone koje se učine neinteresantnim. Jedan od pristupa je da se formira multimedijalna kocka podataka koja će se koristiti za konverziju podataka multimedijalnog tipa u podatke čija forma je podesnija za analizu preko neke od klasičnih data-mining tehnika ali.3 Data mining multimedije Data mining multimedije je mining i analiza raznih tipova podataka. asocijacija. zasnovano na tonu. Ideja o data miningu podataka koji sadrže različite vrste informacija je glavni cilj multimedijalnog data mininga. Na multimedijalnim bazama podataka mogu se izvršiti sledeće analize: klasifikacija. imajući i dalje u vidu posebne karakteristike koje sadrže ovi podaci. može se zasigurno doći do otkrivanja interesantnih šema prilikom posmatranja grafike. Ovo može uključiti mere i dimenzije tekstura. bazirano na šablonima koji se ponavljaju u taktovima. Ideja je da se koristi audio signal kako bi se pronašli šabloni u podacima.

U ovom poglavlju biće prikazan jednostavan primer mogućnosti primene nekih od tehnika poslovne inteligencije u elektronskom obrazovanju. Izrada modela. Istraživanje podataka.1 Metodologija primene poslovne inteligencije Kao što je već više puta pomenuto mogućnosti primene poslovne inteligencije i njenih alata i tehnika je ogromna. .5. Validacija modela. poslovna inteligencija je našla primenu i u mnogim drugim oblastima kao što su e-government i elektronsko obrazovanje. Primena i praćenje modela. za upravljanje različitim procesima i oblastima poslovanja.Primena poslovne inteligencije 5. a koja se sastoji iz sledećih koraka: • • • • • • Definisanje problema. Priprema podataka. Pored osnovne primene u savremenom poslovanju. korišćenjem MS SQL Server-a 2005 i njegovih alata za poslovnu inteligenciju koji se nalaze u modulu SQL Server Business Intelligence Development Studio. biće prikazan način kreiranja kocki podataka (data cubes) i više različitih data mining modela. Takođe će biti prikazani i rezultati analiza nad kreiranim data mining modelima na osnovu raspoloživih izvornih podataka. Konkretno. za predviđanje. biće upotrebljena “open source” baza podataka aplikacije za učenje na daljinu – "Moodle". za podršku odlučivanju i realizaciju složenih analiza. Posebno bi trebalo napomenuti i da će za realizaciju navedenog primera biti korišćena metodologija koju predlaže Microsoft. Kao izvor podataka na osnovu kojih će se kreirati navedeni data mining modeli.

svaki korak ne mora obavezno da vodi ka sledećem. Data mining metodologija Na prethodnom dijagramu opisane su veze koje postoje između svih koraka u metodologiji data mininga. potrebno je formirati različite data mining modele nad podacima iz relacione baze podataka aplikacije za učenje na daljinu. potrebno je sprovesti procenu o dostupnosti podataka. i definisanje krajnjeg cilja data mining projekta. iako je na dijagramu proces kreiranja i implementacije data mining modela. 5.D e f i n i s a n je p r o b l e m a P r i m e n a p r a ć e n j e m o d e l a i P r ip r e m a p o d a t a k a V m a li d a c i ja o d e l a I s t r a ž iv a n j e p o d a t a k a I z r a d a m o d e la Slika 18. U konkretnom primeru. konkretnije podaci o gradovima iz kojih dolaze studenti. Treba napomenuti i da je procenom dostupnosti podataka koji se nalaze u navedenoj bazi podataka. Ovi zadaci se mogu prevesti u niz odgovarajućih pitanja kao što su: • Šta je potrebno dobiti kao razultat analize? • Koji su to atributi čije vrednosti želimo da predvidimo? • Koje vrste relacija želimo da otkrijemo? • Da li na osnovu modela želimo da vršimo predviđanja ili samo tražimo interesantne paterne i asocijacije? • Kako su podaci raspodeljeni? itd. Kreiranje data mining modela je dinamičan i iterativan proces koji zahteva da se pojedini koraci ponove onoliko puta koliko je potrebno da bi se dobio model potrebnog kvaliteta. utvrđeno da podaci koji su dostupni nisu dovoljno kvalitetni i obimni za sprovođenje analize koja bi dala . definisanja mera na osnovu kojih će se ocenjivati valjanost modela. Treba naglasiti da. prikazan kao kružni proces. Podaci nad kojima će biti izvršena analiza su podaci o studentima. i izvršiti analizu dobijenih modela. kako bi se utvrdilo da li su potrebe korisnika u skladu sa raspoloživim podacima.1 Definisanje problema U ovom koraku vrši se analiza potreba. Kako bi se odgovorilo na ova pitanja.1.

2 Priprema podataka U drugom koraku vrši se konsolidacija i „čišćenje“ podataka koji su identifikovani u prvom koraku. Kao ilustracija strukture originalne baze podataka.Tako se naprimer može dogoditi postoje podaci da je kupac kupio proizvod pre nego što je rođen.1. i sadrže netačne unose. obzirom da su podaci koji su nam dostupni najčešće u različitim formatima. može poslužiti deo relacione šeme baze podataka koji se odnosi na podatke koji su predmet modelovanja i analize u ovom konkretnom primeru. Nakon konverzije iz jednog formata u drugi javio se problem gubitka primarnih i spoljnih ključeva i veza između tabela te je bilo potrebno ponovo analizirati strukturu originalne baze i na osnovu postojeće relacione šeme odrediti primarne i spoljne ključeve i realizovati veze unutar baze.Upravo iz tog razloga potrebno je uočiti i ispraviti ovakve nekonzistentnosti podataka. bio je format baze podataka. ili da potrošač redovno kupuje u prodavnici koja je udaljena 2000 km od njegove kuće. . Originalna „open source“ baza bila je „Postgre“ baza podataka tako da je bilo potrebno izvšiti konverziju iz Postgre u Microsoft SQL Server bazu. 5. kako bi se mogli iskoristiti alati u SQL Server Business Intelligence Development Studio modulu.reprezentativne rezultate. te stoga dobijene rezultate treba posmatrati samo kao ilustraciju mogućnosti primene data mining alata u praksi. Prvi problem vezan za relacionu bazu nad kojom su kreirani kocka podataka i data mining modeli.

3 Istraživanje podataka .1. prečistiti i konsolidovati podatke kako bi dobijeni modeli i rezultati analiza bili tačni i upotrebljivi.Slika 19. pre početka modelovanja potrebno je pripremiti. 5. Deo relacione šeme originalne relacione baze podataka Kao što je već napomenuto. Zbog toga je. u realnim uslovima on ipak neophodan za adekvatnu realizaciju ostalih koraka data mining metodologije. iako je to veoma obiman i dugotrajan postupak.

Na slici 20 dat je prikaz Data Source Designer prozora.2 Pogled na izvor podataka (data source view) .3. za kreiranje izvora podataka (data source).1 Izvor podataka (data source) Data Source (izvor podataka) je konekcija sa podacima koja je snimljena i sa kojom se upravlja u okviru projekta.3. Nakon ovog koraka može se utvrditi da li zapisi u bazi sadrže nekorektne podatke i na osnovu toga definisati strategija za rešavanje problema. Pod ovim se podrazumeva određivanje minimalnih i maksimalnih vrednosti. Slika 20. Izgled Data Source Designer prozora 5. U ovom koraku biće prikazano korišćenje Data Source Designer-a iz SQL Server Business Inteligence Development Studio modula. 5.1. potrebno je razumeti podatke koji se nalaze u izvorima.1. pogleda na izvor podataka (data source view) i kocke podataka (data cube) koji će u sledećem koraku biti iskorišćeni za kreiranje data mining modela. oderđivanje odstupanja od očekivanih vrednosti i određivanje raspodele.Kako bi donele odgovarajuće odluke prilikom kreiranja modela. kao i druge parametre vezane za konekciju. Sadrži ime servera i bazu podataka gde se nalaze izvorni podaci.

Za kreiranje data source view-a konkretnog primera biće iskorišćene sledeće tabele iz izvorne baze podataka: • Mdl_user • Mdl_user_students • Mdl_user_coursecreators • Mdl_chat_user • Mdl_user_admins • Mdl_user_preferences • Mdl_user_teachers Na slici 21 dat je izgled Data Source View prozora. Koristeći data source poglede. mogu se izabrati samo tabele koje imaju veze konkretnim projektom. Slika 21 Izgled Data Source View prozora za konkretan primer . i omogućava da se modifikuje struktura podataka kako bi ona bila relevantnija za projekat.Data source pogled predstavlja apstrakciju izvora podataka. koji prikazuje relacionu šemu između navedenih tabela. uspostaviti veze između tabela i dodati proračunate kolone i imenovane poglede bez izmene originalnog izvora podataka.

Slika 22.3. Kocke podataka su fleksibilne sa aspekta informacija koje sadrže i kalkulacija koje se nad njima mogu izvršiti.1. Kocka podataka predstavlja skup mera koje predstavljaju činjenice i dimenzija koje predstavljaju područja od interesa kao što su vreme. Kocka podataka se može posmatrati i kao kolekcija komponenata koje mogu da se kombinuju da bi se dobio neki specifičan izveštaj.3 Kocka podataka (data cube) Organizovanjem izabranih podataka iz data warehouse-a. OLAP izveštaji se izrađuju na bazi kocaka podataka. dok su kao dimenzije izbrane ostale tebele. kupac. Na slici 22 dat je izgled prozora koji sadrži "star-join" šemu dobijene kocke podataka. od informacija u kocki podataka se može dobiti veliki broj različitih izveštaja. Pošto svaka kocka podataka sadrži više dimenzija i mera. proizvod i dr. i drugih izvora podataka u multidimenzionalne nizove podataka dobijaju se kocke podataka. Na osnovu podataka u data source view-u. U Microsoft SQL Serveru 2005 kocke podataka se projektuju na osnovu tabela i pogleda koji su kreirani u Data Source View-u. Kocke podataka predstavljaju modele složenih procesa i korisnici njihovom upotrebom mogu da mere performanse tih procesa i upravljaju njima.5. relacionih baza podataka. i uz pomoć wizard-a kreirana je kocka podataka gde je kao tabela činjenica izabrana je tabela mdl_user. Prikaz "star-join" šeme kocke podataka za konkretan primer .

vrši se njegovo procesiranje. Na slici 23 prikazan je izgled strukture data mining strukture na osnovu koje će se primenom različitih algoritama data mining-a. i na taj način popunjavanje prazne strukture oblicima ponašanja koji opisuju dati model. u ovoj fazi biće prikazano kreiranje data mining modela na osnovu tri vrste algoritama: • Stabla odlučivanja (Decision Trees).4. Ovakav model naziva se "trening model". Slika 23 Prikaz strukture mining modela 5.1.1.1 Stabla odlučivanja (Decision Trees) .4 Izrada data mining modela Na osnovu podataka iz prethodnog koraka može se pristupiti projektovanju i izradi data mining modela. Skup trening podataka se koristi za izradu data mining modela. Na osnovu kocke podataka kreirane nad podacima u Data Source View-u. Nakon definisanja strukture modela. • Naive Bayes algoritam.5. kreirati odgovarajući model. dok se skup podataka za testiranje koristi za evaluaciju tačnosti modela. • Klastering (Clustering). Pre nego što se pređe na izradu konkretnih modela potrebno je prethodno pripremljene podatke razvrstati u skupove podataka za trening i testiranje.

Koristi se za mining nad podacima. dobijen je graf stabla odlučivanja koji predstavlja histogram raspodele populacije u odnosu na grad u kome žive studenti koji su učestvovali u programu učenja na daljinu. Stabla odlučivanja se najčešće koriste za klasifikaciju i predviđanje. Ako ulazni atribut utiče da predviđeni atribut više teži ka jednom u odnosu na drugo stanje. Atraktivnost ove metode je u tome što stablo sadrži pravila koja su veoma čitljiva i razumljiva. na čijim krajevima se nalaze čvorovi (nodovi). Obzirom da dobijeni graf sadrži samo jedan nod (čvor). . algoritam ispituje kako svaki ulazni atribut u skupu podataka utiče na rezultat predviđenog atributa i zatim koristi unete atribute sa najjačim vezama da kreira seriju grana. Model nastavlja da raste sve dok nijedan od preostalih atributa više ne stvara podelu koja bi pružila bolje predviđanje u odnosu na postojeći nod. Nakon kreiranja data mining modela zasnovanog na algoritmu stabla odlučivanja. Nod na vrhu stabla opisuje raspodelu predviđenih atributa u celokupnoj populaciji. među kojima postoji velika povezanost.Algoritam stabla odlučivanja podržava i klasifikaciju i regresiju i daje dobre rezultate pri izradi modela za predviđanje. modelu se dodaje novi nod. Koristeći algoritam. mogu se predvideti i diskretni i kontinualni atributi. Svaki dodatni nod se kreira na osnovu raspodele stanja predviđenih atributa u poređenju sa ulaznim atributima. može se zaključiti da su podaci na osnovu kojih je formiran model nepotpuni i neadekvatni za ovaj algoritam. Iz datog zaključujemo da je najveći broj studenata koji je učestvovao u ovom programu iz Beograda. Kako se novi nodovi dodaju modelu. struktura stabla počinje da se formira. te je potrebno ponovo proći kroz korak pripreme podataka i izvršiti odgovarajuće korekcije. Na slici 24 dat je izgled Mining Model Viewer prozora za model zasnovan na algoritmu stabla odlučivanja. Prilikom izrade modela. gde je za predviđajuću promenljivu izabran atribut "grad".

ako se uzme grupa ljudi koji žive u istom kraju. Na primer. 5.1. Slika 24 Dijagram veza između klastera data mining modela . Određivanje klastera se obično koristi kao prvi korak data mininga. Na osnovu podataka iz Data Source View-a kreiran je model zasnovan na klastering alogoritmu. učeći o odnosima koji postoje. jedu istu vrstu hrane i kupuju sličnu verziju proizvoda.Slika 23 Izgled Mining Model Viewer prozora za model zasnovan na algoritmu stabla odlučivanja.2 Klastering (Clustering) Microsoft klastering algoritam koristi iterativne tehnike da grupiše zapise iz skupa podataka u klastere koji sadrže slične karakteristike.4. na primer to može biti prvi korak segmentacije tržišta tako što kupce svrstavamo u klastere prema njihovim kupovnim navikama. Koristeći ove klastere. Izgled dobijenog modela dat je na sledećoj slici. a koje možda nije tako lako uočiti uobičajenim posmatranjem. I u ovom slučaju kao predviđajuća promenljiva uzet je atribut "grad". voze istu vrstu automobila. Dodatno. a zatim određujemo koji tip promocije je najbolji za svaku vrstu kupaca. Ovo je klaster podataka. može se bolje razumeti kako zapisi u skupu podataka reaguju međusobno. kao i kako ta interakcija utiče na ishod predviđenog atributa. mogu se istraživati podaci. se mogu kreirati predviđanja iz klastering modela koje je kreirao algoritam. Posmatrajući raspodelu ovih klastera.

on sadrži kolonu za svaki klaster. Linije između klastera predstavljaju bliskost. Linije su osenčene različito. Boja klastera predstavlja frekvenciju promenljive. mogu se prikazati veze između klastera koje su otkrivene algoritmom. Raspodela diskretnih varijabli je prikazana kao obojena linija dok se kontinualni atributi prikazuju pomoću “karo” grafika.4. On proračunava verovatnoće za svako moguće stanje ulaznog atributa.Koristeći klaster dijagram. koji predstavlja očekivanje i standardnu devijaciju svakog klastera. uzimajući u obzir svako stanje predviđajućeg atributa. Cluster Profiles prozor pruža detaljniji izveštaj o modelu. Kao što je prikazano na slici 25.3 Naive Bayes algoritam Naïve Bayes algoritam brzo gradi mining modele koji mogu da se koriste za klasifikaciju i predviđanje. a da je najjača veza između klastera 5 i 6. Raspodela stanja nekog atributa za svaki klaster je element matrice. u zavisno od jačine veza koja postoji među klasterima. Na sledećoj slici prikazan je izgled cluster profiles prozora za prethodni model. Slika 25 Sadržaj cluster profiles prozora za konkretan model 5. Na osnovu dijagrama koji je prikazan može se zaključiti da klaster jedan ima najveću frekvenciju. koje kasnije mogu da se koriste za predviđanje rezultata željenog atributa na osnovu poznatih ulaznih atributa.1. Prvu kolonu čine atributi koji su povezani sa bar jednim klasterom. Verovatnoće koje se koriste za generisanje modela se računaju i čuvaju tokom .

proračunavanja kocke. Algoritam podržava samo diskretne i diskretizovane atribute i smatra da su svi ulazni atributi nezavisni. Naïve Bayes algoritam stvara jednostavan mining model koji može da bude početna tačka u data mining procesu. Zato što se većina proračuna koji se koriste u kreiranju modela generiše tokom proračuna kocke, rezultati se dobijaju brzo. Ovo čini ovaj model dobrom opcijom za istraživanje podataka i otkrivanje kako su razni ulazni atributi raspoređeni u raznim stanjima predviđenog atributa. Za prethodno kreiranu kocku podataka, kreiran je novi data mining model zasnovan na Naive Bayes algoritmu. Model je predstavljen mrežom zavisnosti (Dependency Network) koja pokazuje povezanost između atributa koji doprinose predviđačkoj sposobnosti modela. Centralni čvor, predstavlja atribut odluke modela. Svi koji ga okružuju predstavljaju atribute koji utiču na konačnu vrednost atributa odluke. Slika 26 prikazuje mrežu zavisnosti za prethodno kreirani model.

Slika 26 Mreža zavisnosti za kreirani Naive Bayes model

5.1.5 Validacija modela
Peti korak u procesu data mining-a je validacija modela u kome se vrši ispitivanje izrađenih modela i njihove efektivnosti. Ovaj korak je neophodan kako bi se proverilo koliko dobro funkcioniše model koji je kreiran, ili ukoliko je izrađeno više različitih

modela, koji od njih pokazuje najbolje performanse. Ukoliko se utvrdi da model ne postiže zadovoljavajuće rezultate, potrebno je vratiti se na prethodne korake data mining procesa i izvršiti odgovarajuće korekcije. Korišćenjem Mining Accuracy Chart-a, može se izračunati koliko je svaki od ovih modela dobar za predviđanje i moguće je njihovo unakrsno upoređivanje uspešnosti. Ovaj metod poređenja se naziva lift grafik. Mining Accuracy Chart koristi poseban skup podataka nezavisan od trenirajućih podataka za poređenje rezultata predviđanja. Rezultati se sortiraju i iscrtavaju na grafiku zajedno sa idealnim modelom. Idealni model predstavlja grafik za teoretski model koji predviđa rezultate sa stopostotnom tacnošću tokom vremena. Lift chart je vazan jer omogućava razlikovanje veoma sličnih modela po strukturi, određujući koji je najbolji. Takođe prikazuje koji tip algoritma je najpogodniji za predviđanje u datoj situaciji. Moguće je napraviti dva tipa grafika tačnosti. Ako se selektuju predviđajuće vrednosti dobiće se grafik koji prikazuje lift model predviđanja, a ako se ne uključe predviđajuće vrednosti, dobiće se grafik tačnosti modela. Primer grafika tačnosti dat je na sledećoj slici.

Slika 27 Grafik tačnosti modela

5.1.6 Primena i praćenje modela
Nakon uspešne izrade modela sledi njihova primena u praksi, gde mogu obavljati različite zadatke u zavisnosti od potrebe. Neke od mogućih primena su:

• • •

Korišćenje modela za predviđanja, koja se zatim mogu iskoristiti za donošenje odluka. Ugrađivanje data mining funkcionalnosti direktno u aplikacije. Kreiranje izveštaja koji omogućuju korisnicima da postavljaju direktne upite nad data mining modelom.

Pored svega navedenog, postoje neograničene mogućnosti primene data mining modela o čemu je već bilo reči u prethodnim poglavljima ovog rada. Treba međutim naglasiti važnost veze između projektovanja i primene data mining modela, obzirom da su vrsta modela i način izrade modela u velikoj meri određeni svrhom u koju će model biti upotrebljen. Praćenje i nadogradnja modela je takođe značajan deo primene data mining-a. Kako se u praksi količina podataka koje data mining model obrađuje, stalno uvećava, neophodno je vršiti stalno praćenje funkcionisanja modela, i njegovo prilagođavanje konkretnim uslovima primene.

5.2

Primer primene poslovne inteligencije

U primeru koji sledi biće prikazane neke od mogućnosti korišćenja alata i tehnika poslovne inteligencije nad podacima dobijenim iz baze podataka informacionog sistema poslediplomskih studija Fakulteta Organizacionih nauka u Beogradu. Primer će biti realizovan korišćenjem Microsoft SQL Server 2005 Business Intelligence Development Studio. 5.2.1 Definisanje problema Potrebno je formirati kocku podata i kreirati data mining model nad podacima iz relacione baze podataka informacionog sistema poslediplomskih studija, i izvršiti analizu dobijenih rezultata. Osnovni zadatak je utvrđivanje korelacije između podataka, analiza ovih međuzavisnosti po različitim kriterijumima i donošenje zaključaka na osnovu njih. 5.2.2 Izbor odgovarajućih podataka Pri izboru podataka koji će se koristiti za formiranje kocke podataka i data mining modele potrebno je izdvojiti podatke o studentima, ispitima, profesorima, smerovima i gradovima iz kojih studenti dolaze. Ostali podaci nisu predmet interesovanja u ovom primeru tako da se mogu zanemariti. Od mnoštva tabela u bazi za potrebe primera uzeto je šest: • • • • • • Student, SmeroviStudija, Grad, Predmet, Nastavnik, Ispit.

Obzirom da će se za kreiranje kocke podataka i data mining modela koristiti MS SQL Server 2005 Business Intelligence Development Studio o kome je bilo više reči u poglavlju 5.1, potrebno je najpre formirati konekciju sa bazom podataka, odnosno Data Source a zatim i Data Source View koji predstavlja apstrakciju podataka iz baze nad kojima će se kreirati kocka podataka i data mining model. Takođe Data Source View omogućava da se odaberu samo tabele koje su od značaja za projektovanje potrebnih struktura i sprovođenje željenih analiza. Pošto su izabrane tabele koje su neophodne za potrebe primera napravljen je Data Source View čiji je izgled prikazan na sledećoj slici.Na njoj je prikazan deo relacione šeme baze podataka, koji će biti korišćen za potrebe primera.

Slika 28 Deo relacione šeme baze podataka upotrebljene u primeru

5.2.3

Kreiranje kocke podataka

za potrebe ovog primera biće uzeta tabela Ispit kao tabela činjenica. Kreiranje kocke podataka realizuje se pomoću Data Cube Wizard-a koji predstavlja jednostavno i praktično softversko rešenje SQL Servera 2005. Nakon izbora tabele činjenica i dimenzionih tabela potrebno je izabrati odgovarajuću šemu.Kako bi se kreirala kocka podataka potrebno je najpre definisati tabelu činjenica i tabele dimenzija.Obzirom da se za tabelu činjenica uzima ona tabela koja sadrži najdetaljnije podatke. Grad.4 Kreiranje i analiza data mining modela . Ona povezuje ostale tabele. Slika 28 Pahuljičasta šema kocke podataka 5. SmeroviStudija. Označavanjem tabele činjenica i dimenzionih tabela. i podešavanjem nekoliko jednostavnih parametara u samom wizard-u. Izborom šeme obezbedili su se svi potrebni uslovi za kreiranje kocke podatak te se pristupa njenoj implementaciji.2.Kao racionalno rešenje nameće se pahuljasta šema zbog kompleksnosti posmatranog problema. Nastavnik i Predmet mogu posmatrati kao dimenzione tabele. na osnovu datih podataka dobija se kocka podataka čija je pahuljičasta šema prikaza na slici 28. odnosno tabele Student. tako da se tabele koje su u direktnoj vezi sa njom. Nad dobijenom kockom se mogu postavljati upiti za potrebe analiza ili se mogu iskoristit za kreiranje i analizu data mining modela.

Nod na vrhu stabla opisuje raspodelu predviđenih atributa u celokupnoj populaciji Koristeći kocku podataka kreiranu u prethodnom koraku kao izvor ulaznih podataka. i označavanjem atributa "ocena" kao predviđajuće promenljive. kreira se data mining model koji ima za cilj da predvidi ocene koje studenti na poslediplomskim studijama dobijaju u zavisnosti od različitih parametra. Za potrebe ovog primera koristiće se algoritam stabla odlučivanja (Decision Tree). Prilikom izrade modela. odnosno oni koji su na početku studija obično dobijaju veće ocene od onih koji su pri kraju studija. Naime može se zaključiti da studenti koji su položili manje ispita. Na osnvu ovoga se može zaključiti da studenti srednjih godina postižu bolje rezultate i od starijih i od mladjih studenata. Ovaj rezultat je posledica toga što je većina studenata prijavila Beograd kao mesto prebivališta bez obzira na stvarno mesto stanovanja i mesto rođenja. struktura stabla počinje da se formira.Na osnovu podataka iz prethodnog koraka može se pristupiti projektovanju i izradi data mining modela. • • Izgled stabla odlučivanja za dati primer dat je na slici 29. Na osnovu dobijenih podataka može se zaključiti sledeće: • Postoji jaka zavisnost između ocene koji studenti dobijaju i broja ispita koje su položili. na čijim krajevima se nalaze čvorovi (nodovi). Postoji vrlo slaba ili uopšte ne postoji povezanost između mesta rodjenja i mesta stanovanja studenata i ocena koje dobijaju. algoritam ispituje kako svaki ulazni atribut u skupu podataka utiče na rezultat predviđenog atributa i zatim koristi unete atribute sa najjačim vezama da kreira seriju grana. izborom Decision Tree algoritma. Kako se novi nodovi dodaju modelu. . Postoji slabija korelacija između starosne strukture studenata i ocene koju dobijaju.

• Mesta prebivališta. ocene i mesta rođenja i najslabija zavisnost postoji između ocene i mesta prebivališta (grada u kome student živi).Slika 29 Data mining model zasnovan na algoritmu stabla odlučivanja Pored analize stabla odlučivanja moguće je na osnovu datog modela izvršiti i analizu zavisnosti za dobijenu ocenu. zatim između. • Datuma rodjenja. Analizom zavisnosti utvrđeno je da ocena zavisi od četiri ključna parametra: • Broja položenih ispita. . Analiza pokazuje zavisnost ocene od određenih parametara za koje je utvrđeno da imaju izuzetan uticaj na predviđajuću promenljivu. zatim između ocene i datuma rođenja. u ovom slučaju ocenu. • Mesta rođenja. Posmatranjem značajnosti (jačine) veza između parametara i ocene studenta utvrđeno je da najjača veza (zavisnost) postoji između ocene i broja ploženih ispita. Uporedan prikaz značajnosti između ocene i ostalih parametara dat je na sledećoj slici.

budućih radova.Slika 30 Prikaz analize zavisnosti za dobijenu ocenu Prethodno prikazan primer predstavlja samo mali deo mogućih modela i analiza koje je moguće realizovati uz pomoć alata poslovne inteligencije. Zaključak . Ipak zbog neophodnih ograničenja oni neće biti prikazani u ovom radu i biće predmet nekih drugih.

• Prikazu problema koji se javljaju i načinima rešavanja istih. veoma je važno kako se poslovna inteligencija sakuplja. • Prikazu primene data mining modela u praksi. Ono što sadržaj ovog rada omogućava je: • Efikasno rešavanje analize podataka u poslovnim sistemima. • Pronalaženje važnih informacija koje se ne mogu otkriti pomoću klasičnih OLTP sistema • Brz i efikasan pristup znanju i "podacima ispod podataka". metodologija projektovanja i povezanost sa ostalim tipovima organizacije i pristupa podacima. • Prikazu oblasti primene ovih sistema. takodje je opisana kroz osnovne karakteristike. Savremeno elektronsko poslovanje danas je nezamislivo bez savremenih alata poslovne inteligencije. Najpoznatiji primeri su Oracle.Tehnološki napredak načinjen u nekoliko poslednjih decenija je omogućio organizacijama da sakupe veliki broj podataka. Osnovna premisa je da je stvorena inteligencija dobra samo onoliko koliko su dobri podaci i sistem / ljudi koji ih obradjuju. Prikazan je istorijski razvoj informacionih sistema poslovanja počevši od sistema za automatsku obradu podataka do složenih savremenih sistema koji se baziraju na veštačkoj inteligenciji. nameće se činjenica da primena poslovne inteligencije postaje imperativ za uspešno i konkuretno poslovanje. Ovi podaci. nastaje i razume. od strane poslovnih korisnika. Opisana je struktura data warehouse sistema. bilo da se koristi data mining za pronalaženje znanja i paterna sakrivenih u poslovnim informacijama.Takođe su detaljno prikazani koncepti data warehouse-a i data mininga. U skorijoj budućnosti očekuje se prava ekspanzija alata poslovne inteligencije. • Prikazu metodološkog postupka u projektovanju DataMining sistema. Potvrda ovakvog stava leži i u činjenici da se u poslednje vreme javlja tendencija razvoja i implementacije alata poslovne inteligencije kod proizvođača sistema za upravljanje bazama podataka. U svrhu ilustracije prikazan je i primer kreiranja kocke podataka i data mining modela nad realnim podacima iz baze podataka informacionog sistema za poslediplomske studije Fakulteta Organizacionih Nauka u Beogradu. otkrivaju veoma vredne informacije. kada se interpretiraju. metodologiju razvoja i klasifikaciju data mining modela. Data je definicija pojma poslovne inteligencije. . Oni posebnu pažnju posvećuju razvoju Data Warehouse i Data Mining alata koje ugrađuju u sopstvene proizvode. Na osnovu modela izvršena je analiza dobijenih podataka iz kojih se doslo do zaključaka o zavisnosti ocena studenata na poslediplomskim studijama od pojedinih parametara. Prema tome. Ono što je postignuto ovim radom ogleda se pre svega u: • Prikazu metodološkog postupka projektovanja Data Warehouse sistema. Bilo da se koristi data warehouse kao nov način organizacije podataka koji omogućuje lakši i efikasniji pristup poslovnim informacijama od strane poslovnih korisnika. osnovne karakteristike i alati. U prethodnim poglavljima predstavljeni su osnovni koncepti poslovne inteligencije i njenih alata. SQL Server i DB2. Data mining kao jedna od najviše upotrebljavanih tehnika poslovne inteligencije.

e-book. FON. Data Modeling Techniques for Data Warehousing. [7] Seth Paul. 2005. Scott Oveson. Business Intelligence in the Digital Economy: Opportunities. [3] Joerg Reinschmidt. Allison Francoise. Projektovanje i implementacija Data Warehouse i Data Mining sistema.yu/~ilicv/neuro. [9] Books On Line. 2005. [5] Grupa autora.eunet. e-book. 2006. 2004. [8] Velibor Ilić. [4] Bojan Ćirić. Jamie MacLennan. http://solair. help uz Microsoft SQL Server 2005. Microsoft Corporation. 2003. .html. 2001. Data Mining with SQL Server. 2001. 1999. [2] Darko Krulj.Literatura [1] Mahesh Raisinghani. IBM Redbooks. [6] ZaoHui Tang and Jamie Mac Lennan. Magistarski rad. Data Mining Tutorial. Zhaohui Tang. Business Intelligence Certification Guide. 2005. Poslovna inteligencija. ebook. Microsoft Corporation. IBM Redbooks. Limitations and Risks. Idea Group Publishing. Data status. Neuronske mreže.

Sign up to vote on this title
UsefulNot useful