You are on page 1of 18

SADRAJ

SADRAJ..........................................................................................................................1
UVOD................................................................................................................................2
1. POSLOVNA INTELIGENCIJA...................................................................................3
1.1.ta je to znanje?.......................................................................................................3
1.2.Definicija poslovne inteligencije.............................................................................3
1.3.Razvoj poslovnih informacionih sistema................................................................5
1.4.Infrastruktura za realizaciju poslovne inteligencije.................................................6
2. PROCES OTKRIVANJA ZNANJA.............................................................................7
3. OSNOVE DATA MINIMG-A....................................................................................10
3.1. Data mining (DM) pojam i sinonimi.................................................................10
3.2. Data mining i data warehouse..............................................................................11
3.3. Proces data mining................................................................................................12
3.3.1. Definisanje poslovnog problema...................................................................14
3.3.2. Kreiranje data mining baze podataka............................................................14
3.3.3. Istraivanje podataka.....................................................................................15
3.3.4. Priprema podataka za modeliranje................................................................15
3.3.5. Kreiranje modela...........................................................................................15
3.3.6. Ocena i interpretacija ....................................................................................16
3.3.7. Implementacija modela i rezultati.................................................................16
ZAKLJUAK..................................................................................................................17
LITERATURA................................................................................................................18

UVOD
Poslovna inteligencija predstavlja opti naziv za sve procese, tehnike i alate, koji
podravaju donoenje poslovnih odluka, a zasnovani su na informacionim
tehnologijama. Ona je rezultat prirodne evolucije poslovnih informacionih sistema.
Proces otkrivanja znanja (KDD) je netrivijalni, iterativni i interaktivni proces
identifikovanja novih, validnih, potencijalno upotrebljivih i razumljivih informacija iz
postojeih podataka. Rezultat ovog procesa je znanje, koje predstavlja ureenu trojku
(problem, kontekst, reenje).
Data mining moe da se definie kao oblast poslovne inteligencije i kao faza KDD
procesa. To je jedan savremeni koncept u poslovnom odluivanju. Meutim, Data
mining nije reenje problema, ve samo tehnologija koja obezbeuje informacije na
osnovu kojih se donose odluke.

1. POSLOVNA INTELIGENCIJA
U osnovi poslovne inteligencije nalaze se podaci i informacije. Poznato je da
informaciju ine obraeni (interpretirani) podaci. Podatak je samo kodirana injenica iz
poslovnog okruenja. Interpretacijom podataka dobijaju se informacije. Znanje je neto
to predstavlja nadgradnju.

1.1.

ta je to znanje?

Znanje predstavlja osnovu za donoenje poslovnih odluka. Oko definicije znanja ne


postoji opta saglasnost. Znanje moe da se definie kao razumevanje steeno
iskustvom ili uenjem. Ova definicija znanje posmatra kao razumevanje.
Znanje se sastoji iz skupa injenica, proceduralnih pravila (pravila tipa ako-tada) i
heuristika (zapisa iskustva koji omoguavaju uoavanje pravila). Znanje se sastoji od
odreenog skupa injenica i odreene organizacije meu tim injenicama.
Znanje ima osobinu da je vezano za kontekst, a to znai da znanje koje vai u
odreenom kontekstu ne mora da vai u drugom kontekstu. Kada se javi odreeni
problem koji treba da se rei, bitan je kontekst u kome se javlja, jer on zajedno sa
problemom odreuje reenje.
Trojka problem, kontekst i reenje, predstavlja znanje (patern). Znanje se vezuje za
ljude, to znai da se znanja pojedinaca razlikuju, jer svako posmatra svet kroz svoj
sistem vrednosti i verovanja.
Inteligencija je sposobnost prihvatanja i primene znanja od strane pojedinaca. Da li
inteligencija i poslovna inteligencija imaju slinosti i jesu li to isti pojmovi?

1.2.

Definicija poslovne inteligencije

Re inteligencija u terminu poslovna inteligencija, izvorno oznaava obavetavanje


namenjeno podrci odluivanju. Ovako koncipirana, ova inteligencija pospeuje
snalaenje u novim situacijama i brzinu i tanost reavanja problema, pri emu se od
dominantne, psiholoke upotrebe termina inteligencija razlikuje po tome to se ne
odnosi na sposobnost linosti kojom se slui pojedinac, ve na tehnoloko reenje koje
koristi organizacija.
Poslovna inteligencija (Business Intelligence- BI) je opti naziv za sve procese, tehnike
i alate, koji podravaju donoenje poslovnih odluka, a zasnovani su na informacionim
tehnologijama.

Poslovna inteligencija kao reenje, sadri tehnologije i proizvode iji je cilj da obezbede
informacionu podrku ukoliko postoje poslovne nedoumice kada treba doneti operativne
i strateke poslovne odluke. Koristi se na svim nivoima menadmenta (operativnom,
stratekom), to je razumljivo jer je znanje imanentno odluivanju.
Prema analizama Gartner grupe tipino preduzee je u stanju da analizira samo deset
posto prikupljenih podataka. Najvea prepreka da se pristupi analizi preostalih 90% nije
informaciona tehnologija nego nedostatak apetita i pored oigledne potrebe od strane
menadmenta jednostavno nema stalne i velike potranje za informacijama.
Postoje dva vana razloga za nedostatak apetita kada je u pitanju poslovna inteligencija:

previe nade se polae na intuiciju


ignorie se injenica da su podaci (ma koliko ih mnogo bilo) samo podaci, a
primenjeno znanje je mo.

Poslovna inteligencija je najee korieni termin za oznaavanje kompjuterske


podrke odluivanju u organizaciji. Poslovna inteligencija je deo informacionog sistema
organizacije namenski razvijen da omogui upravljanje performansama organizacije.
Tehnike poslovne inteligencije (data warehousing, reporting, OLAP, data mining,
dashboards i dr.) ekstrahuju podatke iz postojeeg informacionog sistema i transformiu
ih u oblik pogodan za odluivanje. Implementacija tehnika poslovne inteligencije
znatno poveava upotrebnu vrednost postojeeg informacionog sistema organizacije,
usled ega je interesovanje za poslovnom inteligencijom veliko i stalno raste.
Pojam poslovne inteligencije objedinjava metodologije, tehnologije i platforme za
skladitenje podataka (Data Warehousing), procesiranje podataka (On-line Analytical
Processing) i rudarenje po podacima (Data Mining), koje omoguavaju kreiranje
korisnih upravljakih informacija iz podataka o poslovanju.
Reenja Poslovne Inteligencije olakavaju efikasno usvajanje pravih poslovnih odluka.
Naime, bogatstvo podataka poslovnih (ERP) sistema i drugih baza podataka se
efikasnim analizama pretvaraju u riznicu promiljenih, delotvornih i pre svega
pravovremenih odluka. Jedinstvena struktura izvetavanja omoguava bre, fleksibilnije
i delotvornije odluivanje i doprinosi unapreenju svih poslovnih procesa. Poslovna
inteligencija je nadgradnja osnovnog informacionog sistema preduzea i moe
odluujue da doprinese uspenosti preduzea.
Poslovna inteligencija je upotrebljiva onoliko koliko su kvalitetni podaci na kojima se
temelji.
Kvalitet informacija
Kvalitet podataka podrazumeva njihovu kompletnost, tanost, konzistentnost i
blagovremenost. Sve dostupne informacije (interne i eksterne) moraju biti osigurane
kako bi se omoguila ira perspektiva. Informacije iz razliitih izvora moraju biti
homogenizovane kako bi osigurale jedinstvenu polaznu osnovu za sve korisnike.

Kao sindrom javlja se nesposobnost razlikovanja podataka od informacija koje stvaraju


dodatu vrednost. U informatici je postalo uveno GIGO (garbage in - garbage out
-"ubre u raunar, ubre iz raunara)" pravilo. Dok neka nekonvencionalna seoska
biblioteka moe do izvesne granice da ne obraa panju na bitne vrednosti dokumenata
koje sakuplja i da ostavi korisniku da sam odvaja ito od kukolja, informaciona osnova
na kojoj poiva poslovna inteligencija to sebi nipoto ne moe dozvoliti. Kod nje je
presudan kvalitet informacije koja je ula u memoriju bez obzira da li je ona nauna,
tehnika, socijalna, ekonomska, demografska ili politika. Informatiki podranu
poslovnu inteligenciju moemo da zamislimo kao ogromnu mainu za sortiranje,
analiziranje, kritikovanje, ocenjivanje i sintezu neobraenih podataka koji na kraju tih
procesa postaju sama sutina ljudskog znanja.
Vanost posedovanja kvalitetnih informacija posebno raste u novim i neoekivanim
situacijama, u kojima preduzee mora imati mogunost da se brzo i bezbolno snae, i
izvue za sebe maksimalnu korist. Za menadera je kvalitetna ona informacija koja mu
je na raspolaganju u momentu kad mu je potrebna, u koju se moe pouzdati kao tanu, i
koja mu nosi novu vrednost, odnosno koja ima smisla u njegovom poslovnom
okruenju i koju moe upotrebiti u korist preduzea. Ovakav nain ponaanja modernog
menadmenta naziva se poslovnom inteligencijom.
Poslovna inteligencija je umetnost postizanja poslovne prednosti iz podataka. Ona daje
odgovor na pitanja kao to su:

1.3.

Ko su nai najbolji i najgori kupci?


Koji parametri utiu na nau prodaju?
Koje prednosti moja kompanija prua korisnicima ili kupcima u odnosu na
konkurenciju?
Gde dobijamo a gde gubimo novac?

Razvoj poslovnih informacionih sistema

Evolucija poslovnih informacionih sistema tekla je u tri globalne faze:

Host bazirani upiti i izvetavanje,


Data warehouse i
Poslovna inteligencija.

BI
D a ta
w a re h o u s e

H o s t s is t e m i

Slika 1. Evolucija poslovnih informacionih sistema


Izlazi iz host sistema uglavnom su bile gomile papira iz kojih su korisnici detaljnom
analizom morali da nau odgovore na svoje poslovne probleme.
Data Warehouse predstavlja kolekciju informacija organizovanih tako da se mogu lako
analizirati, izdvojiti, sintetizovati i na drugi nain koristiti da bi se razumela sutina tih
informacija.
Poslovna inteligencija je rezultat prirodne evolucije poslovnih informacionih sistema,
takozvanih ERP sistema. Veina organizacija informacione sisteme ve koristi za
beleenje i uvanje podataka generisanih svakodnevnim procesima kao to su
naruivanje, isporuka, skladitenje ili fakturisanje. Ove informacije preduzea neretko
se uvaju u mnotvu raznih baza podataka i na razliitim lokacijama. Funkcionalnosti
dobijene alatima za poslovnu inteligenciju omoguavaju da se nagomilani podaci
proizvoljno pretrauju, agregiraju i vizuelizuju.
Poto je poslovna inteligencija rezultat prirodne evolucije ERP sistema, logino je da
postoje mnoge savremene oblasti koje je sainjavaju. Neke od ovih oblasti mogu da se
definiu preko infrastrukture koja je potrebna da bi se realizovala poslovna inteligencija.

1.4.

Infrastruktura za realizaciju poslovne inteligencije

Osnovna infrastruktura potrebna za realizaciju koncepta poslovne inteligencije odnosi


se na:

Primenu skladita podataka Data Warehouse (DW),


Primenu alata za izvoenje znanja iz podataka OLAP (On-line Analytical
Processing),
Metode rudarenja podataka Data mining (DM) i
Formalizovanje otkrivenog znanja.

Data Warehouse. Moe se rei da DW predstavlja bazu podataka dizajniranu za


potrebe podrke odluivanju, uz optimizaciju vremena upita. Ova baza je odvojena od
transakcionih baza podataka. Znaajan sastavni deo Data Warehouse su Data Marts
(DM) modeli koji predstavljaju poslovna podruja koja slede iz konkretnih aktivnosti
(na primer, iz aktivnosti banke i zadataka banke).
Alati za izvoenje znanja iz podataka-OLAP. Model se zasniva na metodologiji
multidimenzionalne analize, to praktino znai da je mogue imati pogled na podatke
kroz vei broj filtera, odnosno dimenzija. Multidimenziona analiza slui za izvravanje
znatno sloenijih upita- multidimenzionih upita. Na primer, koji je procenat promene u
ukupnoj prodaji ako se uporedi sa periodom od prole godine, za svaki od 10 najboljih
proizvoda, za svakog od 10 najboljih kupaca, baziranog na procentu promene ukupne
prodaje za sve kupce ove godine prema prodaji za isti period prethodne godine.

2. PROCES OTKRIVANJA ZNANJA


Otkrivanje znanja u bazama podataka tj. KDD (skraeno od Knowledge Database
Discovery) predstavlja netrivijalni, iterativni i interaktivni proces identifikovanja novih,
validnih, potencijalno upotrebljivih i razumljivih informacija iz postojeih podataka.
Slino, ovaj pojam se definie kao netrivijalna ekstrakcija implicitnih, prethodno
nepoznatih i potencijalno korisnih informacija iz podataka.
Termin KDD se prvi put upotrebljava 1989. godine kada je odran prvi seminar iz ove
oblasti. Statistiari, osobe koje se bave analizom podataka ili implementacijom sistema
za podrku odluivanju, ee koriste termin Data mining (DM). Stoga se, logino
postavlja pitanje da li su KDD i DM sinonimi?
Neki autori smatraju da je odgovor da, tj. izjednaavaju pojmove DM i otkrivanje
znanja smatrajui da oba oznaavaju automatizovani proces koji proizvodi znanje bez
ukljuivanja saznavaoca u taj proces. Sa druge strane, drugi istiu da je DM samo jedna
faza u procesu otkrivanja znanja. Fayyad, Piatetsky-Shapiro i Smyth istiu da je DM
korak u procesu KDD, koji podrazumeva primenu algoritama analize podataka i
pronalaenja znanja u cilju identifikacije razliitih paterna.
Proces KDD je obuhvatniji od DM, jer ukljuuje i faze interpretacije i evaluacije
rezultata DM, a podrazumeva i interakciju sa korisnikom. On obuhvata i pripremu
podataka za potrebe DM, ali i preciziranje akcija koje e se preduzeti nakon to je DM
obavljen.
Proces otkrivanja znanja se sastoji od nekoliko faza, pa tako veina autora navodi od 4
do 12 koraka u procesu KDD-a. Fayyad, Piatetsky-Shapiro i Smyth posmatraju KDD na
nain prikazan na slici.
Selekcija

Transformac ija

Predprocesiranje

Interpretacija i
evaluac ija

DM

Predproc esirani
Podaci

Podaci

Znanje

Transform isani
podaci

Ciljni podac i

Pa terni

Slika 2. Proces otkrivanja znanja KDD


Iz baze podataka se vri selekcija podataka nad kojima e se vriti KDD proces. Ovako
dobijeni ciljni podaci se predprocesiraju radi dobijanja preienih podataka koji se
dalje transormiu u oblik pogodan za vrenje DM-a. DM predstavlja sledeu fazu
procesa otkrivanja znanja, koja za rezultat daje pronaene paterne. Nisu svi paterni

korisni, pa je stoga radi generisanja znanja potrebno vriti njihovu interpretaciju i


evaluaciju bez uea korisnika.
R. Roiger i M. Geatz smatraju da se proces otkrivanja znanja realizuje u okviru sedam
koraka:
1. Identifikacija ciljeva. U ovom koraku treba posebnu panju posvetiti odreivanju
podruja otkrivanja znanja. Treba precizno definisati ta se procesom KDD eli otkriti,
pa se u ovoj fazi odreuju polazne hipoteze. Donose se odluke o alokaciji resursa,
utvruju mere kojima e se odrediti stepen uspenosti otkrivanja znanja, precizira se
koji e se DM alati koristiti. Treba dati i procenu trokova izvoenja projekta i
precizirati termine njegove realizacije.
2. Odreivanje skupa ciljnih podataka. Koristei znanja eksperata, ali i alata za
otkrivanje znanja, bira se skup podataka nad kojima e se vriti analiza. Podaci mogu
poticati ne samo iz baza podataka, ve i iz DW-a, ali i ravnih datoteka.
3. Predprocesiranje podataka. U ovoj fazi se tei otklanjanju uma. Zato se esto
govori o ienju podataka. Ono po pravilu podrazumeva: pronalaenje dupliranih
slogova, neispravno unetih vrednosti atributa, identifikovanje tzv. outlier-a i
odreivanje naina njihove obrade. Mora se doneti takva odluka kako e se tretirati
neodreene vrednosti u podacima: da li e takvi slogovi biti iskljueni iz dalje analize,
da li neodreene vrednosti zameniti prosenom vrednou?
Efekti DM-a zasnivaju se na kvalitetu podataka koji zavisi, kako od izvora, tako i od
postupka ienja i predprocesiranja podataka. U praksi analitiari najvie vremena
provode u ovoj fazi. Ukoliko se koristi skladite podataka, posao analitiara se znatno
olakava. Meutim, skladite esto ne poseduje sve relevantne podatke, ili pak ne
postoji organizovano skladite podataka, tako da analitiar mora koristiti izvorne
podatke iz transakcionih baza. Ovim podacima mogu nedostajati atributi, ili mogu biti
nekonzistentni u oznaavanju pojedinih klasa podataka.
Svi ovi podaci moraju proi fazu predprocesiranja u kojoj se mogu koristiti razliiti
metodoloki postupci, od kojih pominjemo najvanije: pronalaenje ekstremnih
vrednosti, metode predvianja nedostajuih vrednosti, uzorkovanje, grupisanje
(saimanje) podataka i dr.
4. Transformacija podataka. Odreene instance i atributi se iskljuuju iz dalje analize.
Definiu se metode normalizacije, konverzije i ujednaavanja podataka.
5. DM. U ovom koraku se primenjuje jedan ili vie DM algoritama. Data mining je faza
u otkrivanju znanja u velikim bazama podataka, tokom koje se vri priprema podataka
(unoenje preienih, transformisanih podataka), upotreba algoritama koji koriste ove
podatke i dobijanje proizvoda, nakon ega se pristupa interpretaciji i evaluaciji u
procesu otkrivanja znanja.
6. Interpretacija i evaluacija. Posmatraju se rezultati iz prethodnog koraka, da bi se
otkrilo koji su paterni interesantni i korisni. Takoe, potrebno je odluiti da li postoji
potreba za ponovnim sprovoenjem prethodnih koraka, ovaj put sa nekim drugim

instancama i atributima. Za ove potrebe koriste se razliite analize: statistike,


heuristike, eksperimentalne i manuelne analize.
7. Sprovoenje akcija. Ako se generisano znanje pokae korisno, potrebno ga je
primeniti u cilju reenja prethodno uoenih problema. Takoe je korisno objaviti
rezultate sprovedenog istraivanja.

3. OSNOVE DATA MINIMG-A


Na samom poetku, naglasili smo da je Data Mining jedna od oblasti poslovne
inteligencije. Odlika savremenog poslovanja je rad sa velikom koliinom podataka. U
toj ogromnoj koliini podataka kriju se informacije strateki znaajne za preduzee.
Reenje tog problema predstavlja nova tehnologija, Data Mining.

3.1. Data mining (DM) pojam i sinonimi


Inovativne organizacije u svetu ve koriste data mining da bi pronale vane kupce, da
bi poveale prodaju ili smanjile gubitke usled nedostatka u proizvodnji.
Data mining je proces koji koristi razliite vrste alata za analizu podataka da bi se
otkrile zakonitosti i veze meu podacima koje se mogu iskoristiti za izradu validnih
projekcija.
U osnovi, sve data mining aplikacije imaju identian cilj: poboljanje poslovanja
preduzea pomou otkrivanja impicitnih, do tada nepoznatih, a potencijalno korisnih
informacija iz podataka kojima preduzee raspolae. Data mining nije reenje problema,
ve samo tehnologija koja obezbeuje informacije na osnovu kojih se donose odluke.
Prevedeno sa izvornog, engleskog jezika, pojam data mining oznaava rudarenje
podataka . Sintagma rudarenje podataka objedinjava skup metoda i postupaka sa ciljem
otkrivanja zakonitosti u masi podataka. Rudarenje podataka je automatizovani,
analitiki proces namenjen otkrivanju, vrednovanju i korienju znaajnih skrivenih
informacija u velikim skupovima podataka. Na sledeoj slici mogu se videti sinonimi
Data mining-a, koji se koriste u razliitoj literaturi.
Podacima vo eno
otkrivanje
Iskopavanje
podataka

Istraivanje
poda taka
Data Mining

Rudarenje po
podacima

Istraivaka
analiza podataka

Slika 3. Sinonimi DM-a

10

Data mining je proces rovarenja po sirovim informacijama uz pomo kompjutera.


Zahvaljujui data mining-u, mogue je predvideti trend trita ili ponaanje potroaa i
na taj nain obezbediti uspeh firme ili proizvoda. To se postie analizom podataka iz
raznih perspektiva i pronalaenjem veza i odnosa izmeu naizgled nepovezanih
informacija. Analogija s rudarstvom je oigledna. U potrazi za plemenitom rudom koja
je sakrivena negde duboko u planini, neophodno je duboko kopati, izbaciti velike
koliine zemlje i kamena (jalovine), a kada se jednom naie na ilu, neophodno je
pratiti je celom duinom.
Zakonitosti u podacima pronalaze se primenom metoda iji su koreni u razliitim
podrujima, kao na primer u: statistici, matematici, teoriji verovatnoe, vetakoj
inteligenciji, bazama podataka, ekspertnim sistemima, teoriji informacija, logici i dr.[2]
Oigledno da je rudarenje podataka multidisciplinarno podruje, tako da analitiar koji
istrauje podatke mora imati irok spektar znanja. U principu, rudarenje podataka
primenljivo je u svim podrujima koja raspolau velikim obimom podataka, u kojima se
ele otkriti odreene zakonitosti. Treba naglasiti, da je rudarenje podataka nezavisno od
podruja primene, s obzirom da se naglasak stavlja na podatke a ne na podruje na koje
se odnosi analiza.
Data mining se bazira na konceptu Data warehouse. Ova dva koncepta, koja ine
infrastrukturu poslovne inteligencije, imaju poseban odnos koji je potrebno analizirati.

3.2. Data mining i data warehouse


Data warehouse (DW) je definisan kao skup informacija organizovanih tako da se mogu
lako analizirati, izdvojiti, spojiti i na druge naine koristiti da bi se razumela njihova
osnovna sutina. Posebnu aktuelnost Data mining-u daje Data warehouse, koji
predstavlja izuzetno pogodno okruenje za njegove procese.
Podaci koji se obrauju kroz data mining, vrlo esto potiu iz baze podataka preduzea,
koja je organizovana po modelu data warehouse. Postupci organizovanja podataka za
DM i DW su veoma slini. To znai da ako su podaci organizovani po modelu DW,
nema potrebe za dodatnom organizacijom podataka jer se tako organizovani podaci
mogu koristiti i za DM. Data mining baza podataka predstavlja logiki podskup (ne
fiziki podskup) data warehouse baze podataka.
Data mining, po pravilu, je efikasnije ukoliko je podrano skladitem podataka DW,
mada nije neizbeno, pogotovu to skladite podataka za sada na naim prostorima jo
nije esto u upotrebi. Efikasnost pri korienju skladita podataka ogleda se u utedi
vremena, s obzirom da se podaci iz skladita mogu brzo selektovati, imajui u vidu da
su ve preieni.

11

Data sources

Data
Warehouse

Data Mining
Data Ma rt

Slika 4. Data mining izdvojen iz Data warehouse


Data Mart u prevodu znai trite podataka. On predstavlja logiki segment (deo)
podataka iz data warehouse baze podataka koji se odnosi na neku specifinu oblast
poslovanja.
Meutim, data warehouse nije neophodan (ne predstavlja zahtev) za data mining.
Razvoj velike data warehouse baze podataka koja usklauje podatke iz vie izvora,
reava probleme integriteta podataka i uitava podatke u bazu za upite, moe biti
mukotrpan, dug i veoma skup poduhvat. Sadraj skladita podataka moe biti
nedovoljan, pa se esto pristupa izvornim podacima, tj. matinim bazama podataka,
odnosno transakcionim bazama podataka (Data sources). Meutim, data mining
tehnologija se moe primeniti i nad operativnim transakcionim bazama podataka.
Data sourc es

Data Mining
Data Mart

Slika 5. Data mining izdvojen iz operativne baze podataka


U procesu KDD (u drugom poglavlju) smo zapazili da Data mining predstavlja samo
jednu fazu. Da li je DM zaista samo jedna faza ili zapravo itav proces?

3.3. Proces data mining


Na sve veu primenu DM uticala su tri vana faktora:

Mogunost skladitenja velikih koliina podataka,


Upotreba multiprocesorskih raunara i
Raspoloivost veeg broja DM algoritama.

DM predstavlja proces koji se realizuje kroz odreen broj koraka. R. Roiger i M. Geatz
navode sledee faze DM:
1. Prikupljanje podataka koji e se analizirati,
2. Analiza podataka od strane DM softvera,

12

3. Interpretacija rezultata i
4. Primena dobijenih rezultata u cilju reenja problema.
ravne
datoteke

BP

interpretac ija/
evaluac ija

DM

primena
rezultata

DW

Slika 6. Proces DM
Poto DM podrazumeva, kao to je ve reeno, otkrivanje paterna, neophodno je najpre
obezbediti podatke unutar kojih e se paterni pronai. Pri tome se obino podrazumeva
da se algoritmi DM izvravaju nad velikim skupom podataka. Ovi podaci se mogu
nalaziti u okviru Data warehouse, relacionih baza podataka, ravnih datoteka ili unutar
spreadsheet file-ova (npr. Excel-ova radna sveska). Nakon to su podaci prikupljeni
moe se vriti samo otkrivanje paterna tj. DM, korienjem nekog od raspoloivih
softverskih paketa. Nakon toga se vri evaluacija dobijenih rezultata. Ukoliko se pokae
da oni nisu optimalni, itav proces DM moe se ponoviti. Osnovni cilj DM-a je,
naravno, primena rezultata.
Najpoznatiji model procesa DM je definisan praktinom primenom metodologije u
vodeim svetskim kompanijama i nazvan je CRISP-DM (Cross Industry Standard
Process for Data Mining). Ovaj model podrazumeva da se DM odvija u okviru est faza:
1. Razumevanje poslovanja. DM za cilj ima unapreenje poslovanja preduzea.
Stoga se u ovoj fazi definie cilj DM i izrauje se inicijalni plan njegove
realizacije.
2. Razumevanje podataka. Ova faza podrazumeva inicijalno prikupljanje podataka
i sagledavanje njihovog kvaliteta. Formuliu se i poetne hipoteze.
3. Priprema podataka. Vri se selekcija podataka koji e biti analizirani tj.
Odreuje se koje e se tabele, slogovi i atributi koristiti za potrebe DM. Obino
se faza pripreme podataka vri vie puta. Ovde se vri i ienje podataka.
4. Modeliranje. U ovoj fazi se vri odabir i primena DM tehnike.
5. Evaluacija. U ovoj fazi treba pokazati da li je model do koga se dolo zaista
podesan za reavanje poslovnih problema. Precizira se i na koji nain e se
model upotrebljavati u budunosti.
6. Primena modela. Kreiranje modela ne oznaava kraj zapoetog projekta.
Potrebno je definisati plan aktivnosti primene razvijenog modela.
esto se deava da je potrebno, u toku realizacije DM projekta, da se vratimo na neku
od prethodnih faza. Proces DM je cikline prirode, to simbolizuje spoljanji krug
prikazan na slici.

13

razum evanje
poslova nja

razum evanje
prob lema

priprem a
podataka

prim ena
modela

Podaci
Modeliranje

Eva luac ija

Slika 7. CRISP-DM model


Postoje razliiti pristupi u modeliranju data mining projekata. Manje- vie, svi su slini i
razlikuju se veoma malo. Osnovni koraci koji se izdvajaju u svakom pristupu kada je u
pitanju neki data mining projekat su:
1.
2.
3.
4.
5.
6.
7.

definicija poslovnog problema,


kreiranje data mining baze podataka,
istraivanje podataka,
priprema podataka za modelovanje,
kreiranje modela,
ocena modela i
implementacija modela i rezultati.

3.3.1. Definisanje poslovnog problema


Prvi i osnovni korak u otkrivanju znanja jeste razumevanje sopstvenih podataka i
sopstvenog poslovanja. Bez toga ne postoji algoritam koji e dati zadovoljavajue
rezultate. Takoe, bez te osnove ne mogu se utvrditi problemi koje treba reavati,
pripremiti podaci za istraivanje ili korektno interpretirati rezultati. Da bi korienje
data mining tehnologije bilo svrsishodno, moraju jasno da se utvrde ciljevi koje treba
dostii. Zavisno od utvrenih ciljeva bie primenjen odgovarajui model, a definicije
ciljeva takoe odreuju i nain na koji e biti mereni rezultati projekta.

3.3.2. Kreiranje data mining baze podataka


Ovaj korak u sprezi sa sledea dva ini proces pripreme podataka. Proces pripreme
podataka ini 50-90% vremena i energije itavog data mining projekta.
Podaci za data mining projekat moraju da budu smeteni u bazu podataka. Ideja o
korienju korporacijske data warehouse baze podataka nije preporuljiva za ovu svrhu.
Bolje reenje je napraviti poseban data mart. Osnovni razlog je u tome da je data mining
proces veoma zahtevan u pogledu intenziteta pristupa bazi i alokaciji resursa i moe da
14

narui performanse data warehouse sistema. U svakom sluaju za potrebe data mining
projekta potrebno je preinaiti podatke iz data warehouse sistema.
Aktivnosti u formiranju baze podataka za potrebe data mining projekta su sledee:
1.
2.
3.
4.
5.
6.
7.
8.

prikupljanje podataka,
opis podataka,
odabir,
obezbeenje kvaliteta podataka,
konsolidacija i integracija,
konstrukcija metapodataka,
uitavanje data mining baze podataka i
odravanje data mining baze podataka.

Navedene aktivnosti nisu strogo sekvencijalne to znai da se neke od njih mogu


odvijati i paralelno.

3.3.3. Istraivanje podataka


Osnovni cilj u ovom koraku je da se utvrde varijable koje se koriste u procesu
predvianja. U bazi podataka sa velikim brojem tabela, kolona, zapisa, taj posao moe
biti naporan i dugotrajan.

3.3.4. Priprema podataka za modeliranje


Ovo je poslednji korak pripreme podataka pre izrade samog modela. Postoje etiri
glavne faze u ovom koraku:
1.
2.
3.
4.

odabir varijabli,
odabir zapisa,
konstrukcija novih varijabli i
preobraaj varijabli.

3.3.5. Kreiranje modela


Najvanije u procesu modelovanja jeste njegov iterativni karakter. Potrebno je istraiti
razliite varijante dok se ne pronae odgovarajua koja e reiti poslovni problem.
Potrebno je izabrati tip modela za predvianje. Izbor moe biti stablo odluivanja ili
neuronske mree.
Izrada modela podrazumeva da su podaci podeljeni u dve grupe. Jedna grupa podataka
slui za izradu samog modela (uzorak za uenje), a druga za testiranje i validaciju
samog modela (uzorak za testiranje). Na uzorku za uenje primenjuju se algoritmi koji
na osnovu podataka raspoznaju uzorke, pravilnost, vrednost koeficijenta postavljenog
modela. Uzorkom za testiranje vri se provera pouzdanosti dobijenog reenja. Ukoliko
se pojavi znatno odstupanje dobijeno uzorkom za testiranje, ponavlja se postupak sve
dok se ne doe do zadovoljavajuih rezultata.

15

3.3.6. Ocena i interpretacija


Prvi rezultati Data mining-a pojavljuju se u formi modela otkrivanja znanja, koji se
testiraju na pouzdanost. Ukoliko rezultat ne zadovoljava, pristupa se iterativnom
postupku sve dotle dok se ne dobije zadovoljavajui rezultat.
Validacija modela. Nakon izrade modela potrebno je evaluirati rezultate i interpretirati
njihovo znaenje. Potrebno je imati u vidu da je procenat pouzdanosti modela, dobijen u
procesu verifikacije modela, baziran na podacima koji su bili osnova za izradu modela.
U stvarnosti, procenat pouzdanosti modela moe da varira u zavisnosti od podataka nad
kojima se primenjuje. Vano je naglasiti da pouzdanost modela nije odluujui faktor u
izboru najboljeg modela. Za dobar izbor potrebna je i detaljna analiza tipova greaka i
trokova koji iz njih proizilaze.
Eksterna validacija. Procenjena pouzdanost modela ne daje garanciju da e se isti
rezultati dobiti i u realnom sistemu. Iz tih razloga, neophodno je testirati model u
realnom sistemu. Na primer, ako je svrha modela da se predvidi rizik kredita, treba
probati model na malom broju kandidata za kredit, pre nego to se model pone
predstavljati.

3.3.7. Implementacija modela i rezultati


Praenje modela tokom njegovog korienja je veoma vaan proces. ak i ako se utvrdi
da model radi dobro, potrebno je neprekidno pratiti njegove performanse. S protokom
vremena svi sistemi se menjaju. Zbog toga je vremenom potrebno neprekidno pratiti
ponaanje modela, usklaivati s promenama u okruenju ili samom sistemu, a katkad se
moe ukazati potreba i za potpuno novim projektovanjem modela.
Iz svega navedenog vidimo, da proces DM-a, treba da na odreeni nain ukalupi
podatke u odreeni model.

16

ZAKLJUAK
Data mining prestavlja pravi izbor kad je u pitanju pomo u otkrivanju zakonitosti koje
su skrivene u gomili podataka u preduzeu, a u tom smislu, i kada je u pitanju njihovo
korienje za predvianje ponaanja kupaca, proizvoda ili procesa. Meutim, data
mining proces moraju voditi ljudi koji poznaju poslovanje, postojee podatke i prirodu
analitikih metoda koje se koriste.
Normalno, DM se isplati samo ako su trokovi postupka manji od koristi koja se dobija
primenom pravila. Razvojem tehnologija trokovi samog postupka se smanjuju, pa ona
postaje sve pristupanija i manjim preduzeima. Ali, logian redosled ipak nalae prvo
uspostavljanje efikasnog rukovanja podacima unutar firme, odnosno informacionog
sistema, a naknadno realizacije DM projekata.
Naravno, Data Mining se ne zavrava na ovoj prii, jer njegove tendencije su primena u
nekim segmentima realnog ivota, kao to su:

Web mining,
Primena DM u biomedicini i
Multimedijalni DM.

Pored svih uzbudljivih i neogranienih mogunosti ove tehnologije, ona sa sobom nosi i
potencijalne opasnosti. Najvei problem je pitanje privatnosti. Ovo je sasvim realan
problem poto smo ve rekli da su baze podataka sve vee i vee. Kada svaki raun koji
napravite sa listom kupljenih proizvoda ue u bazu, kada su u bazi zabeleeni svi
telefonski razgovori, kada kompjuter zabelei svaku Internet stranicu koju posetite,
kada svaka vaa poseta lekaru i svaka bolest bude zabeleena, onda e sve to je u vezi
sa vama biti nadohvat ruke bilo kome. Iako je to na prvi pogled gomila beznaajnih
podataka vezanih za ogroman broj stanovnika nekog grada ili drave, to ne predstavlja
problem specijalizovanim alatima za pretragu.

17

LITERATURA
1. iri, Bojan, Poslovna inteligencija, Beograd: Data status, 2006.
2. Bonjak, Zita, Inteligentni sistemi i poslovna primena, Subotica: Ekonomski
fakultet, 2006.
3. Krulj, Darko, Suknovi, Milija, upi, Milutin, Marti, Milan, Primena
algoritama data mining-a u poslovnom odluivanju, Fakultet Organizacionih
nauka

18