You are on page 1of 38

Data Mining

Velida Kijevanin - aban Graanin

UNIVERZITET U KRAGUJEVCU

SAMOSTALNI ISTRAIVAKI RAD


TEMA: DATA MINING
Sve je u podacima, samo treba nai

Mentor: Prof. dr Miodrag Lovri

Doktoranti: Velida Kijevanin


aban Graanin

Kragujevac, 20.05.2009.godine
1

Data Mining

Velida Kijevanin - aban Graanin

DATA MINING
Sve je u podacima, samo treba nai

UVOD
U savremenim uslovima poslovanja koje karakterie izrazit proces globalizacije,
neizvesnost, rizik i konkurencija, preduzea moraju da se svakodnevno bore za
odravanje trinog uea i ostvarivanje boljih poslovnih rezultata. Da bi se to postiglo
preduzea moraju uvek biti korak ispred konkurencije, tj. moraju da predvide potrebe
svojih klijenata i svakom klijentu moraju pristupati individualno.
Usled intenzivnog razvoja informatike infrastrukture skoro sve firme, a posebno
one vee, uvaju velike koliine podataka o poslovanju, svakom klijentu i kretanjima u
okruenju. Dnevni unos informacija koje velike firme pohranjuju u svoje baze podataka,
meri se terabajtima. Rei emo samo da u jedan terabajt stane dovoljno teksta za oko dva
miliona knjiga. Izvori tih informacija su razliiti (interni, eksterni, analitiki), informacije
mogu biti atributivne ili numerike, mogu se odnositi na faktore koje utiu na poslovanje
firme, interne procedure, na korisnike usluga preduzea (potroae), poslovanje
konkurencije, poslovnu okolinu. Meutim, ovako sirovi podaci, neadekvatno
strukturirani, razliitih formata, nemaju preterano veliku upotrebnu vrednost. Neophodno
ih je pripremiti, analizirati i na osnovu toga doi do informacija (znanja) koja mogu
preduzeu obezbediti ostvarenje poslovnog uspeha.
Obzirom na injenicu da se radi o velikim koliinama podataka, prosto je
nemogue da ovek sam vri analize. Analize se preputaju za to posebno razvijenim
programima. Nova vrsta tehnologije iji cilj je upravo reavanje problema sa kojim su se
firme suoile jeste Business Intelligence. Business Inteligence (BI) obuhvata iroki skup
aplikacija i tehnologija za prikupljanje podataka, lak pristup podacima i ekspertsku
analizu podataka, a u cilju obezbeivanja adekvatne podrke procesu odluivanja. BI
predstavlja familiju proizvoda u koju spadaju : OLAP (Online Analytical Processing)
proizvodi, Data mining proizvodi i proizvodi za kreiranje izvetaja.1

Z. Tang, J MacLennan, Data Mining with SQL Server 2005, Indianapolis: Wilez Publishing Inc., 2005.

Data Mining

Velida Kijevanin - aban Graanin

1.1. Upoznavanje sa pojmom Data mining-a


Data mining je najvaniji proizvod iz familije Business Intelligence proizvoda ,
ija je svrha pronalaenje skrivenih obrazaca u podacima, poveavanje njihove
upotrebljivosti i transformacija tih podataka u korisno znanje.
Postoji nekoliko definicija Data Mininga. Data Mining ( DM ) se moe definisati
kao proces pronalaenja skrivenih zakonitosti i veza meu podacima. To je tehnika
pretraivanja podataka u cilju identifikacije traenih uzoraka i njihovih meusobnih
relacija. Jednostavno reeno, DM je postupak izdvajanja interesantnih, novih i
potencijalno korisnih informacija ili uzoraka, sadranih u velikim bazama podataka, a sve
u cilju donoenja ispravnih poslovnih odluka.
Data Mining je multidisiplinarno podruje koje obuhvata: baze podataka,
ekspertne sisteme, teoriju informacija, statistiku, matematiku, logiku i itav niz drugih
podruja.
Data mining se zove i Knowledge Discovery in Databases (KDD) otkrivanje
znanja u bazama podataka. . To je proces analize koji omoguuje korisnicima da shvate
sisteme i veze izmeu njihovih podataka. On omoguava sagledavanje informacija na
nain koji ranije nije bio mogu.

Osnovni cilj DM jeste otkrivanje do sada nepoznatih odnosa izmedju podataka.


Analizom ogromnih baza podataka, upotrebom DM definiemo relacije, obrasce ili forme
ponaanja, neophodne za odluivanje i predvidjanje. Prilikom same pretrage podataka
DM softver pomae analitiaru da rei neke od sledeih problema :
1) Klasifikacija - analiziraju se skupovi podataka, otkrivaju skrivene veze i utvruju
elementi ( funkcije ) za njihovo grupisanje u jednu od nekoliko klasa.
2) Asocijacija podataka utvruju se osobine koje se javljaju zajedno kod vie
uzoraka, odnosno veze meu proizvoljnim atributima. Npr koji se proizvodi kupuju
zajedno u jednoj kupovini.
3) Grupisanje ( Klastering ) proces odreivanja grupa podataka koji su meusobno
slini, ali razliiti od ostalih grupa podataka. Pri tome se indentifikuju i promenljive po
kojima se vri najbolje grupisanje.
3

Data Mining

Velida Kijevanin - aban Graanin

4) Predvianje ( Numeric prediction ) otkriva se ponaanje objekta posmatranja


tokom vremena, i vre se predvianja. Utvruju se pravilnosti iz primera i na
osnovu toga odreuju oekivane numerike vrednosti.
1.2. Evolucija Data mininga
Data mining je nova tehnologija, koja se naglo razvila zahvaljujui razvoju
raunarske tehnologije. Iako kao zaseban pojam postoji tek od pre nekih 15 godina,
razvoj Data Mining-a zapoet je jos 50-tih godina proslog veka, sa razvojem naunih
tehnika i raunarskih programa i metoda. Iako ove metode tada nisu nazvane Data
Mining tehnikama, one su primenjivane u velikoj meri i to uglavnom u svrhu naunih
istraivanja i eksperimenata.
Sa razvojem raunarske tehnologije, preduzea su mogla uvati sve vee koliine
podataka u svojim bazama, tako da je omoguena komercijalna upotreba velikog broja
data mining tehnika u svrhe poslovnog odluivanja.
DM podrazumeva korienje sofisticiranih alata za analizu, a oni mogu
ukljuivati statistike modele, matematike algoritme, metodu mainskog uenja, baze
podataka i sl.
Proces evolucije od podataka do korisnih informacija i novih saznanja iao je
korak po korak.
Tabela 1. Prikaz etiri revolucionarna koraka koja su pruila mogunost brzih i preciznih odgovora kakve
danas zahteva savremeno poslovanje

Izvor: Panian, ., Klepac, G.,: Poslovna inteligencija, MASMEDIA, Zagreb, 2003., str 782

Panian, ., Klepec, G., : Poslovna inteligencija, MASMEDIA, Zagreb, 2003., str. 78

Data Mining

Velida Kijevanin - aban Graanin

Danas informacije predstavaljaju blago i onaj ko najbolje bude umeo da


iskoristi sve tehnike Data Mininga, imae potrebno znanje za donoenje efikasnih
poslovnih odluka.
1.3. Data Mining vs Tradicionalni statistiki modeli
Kao sofisticirani sistem za podrku odluivanju, DM koristi najsavremenije
statistike i matematicke modele za analizu podataka o poslovanju preduzea i njegovim
potroaima, kako bi se otkrili potencijalni problemi i anse. Pomou DM menaderi
dolaze do korisnih informacija i znanja, neophodnih za efikasno upravljanje. Data mining
se razlikuje od klasinih statistikih metoda po tome to se ne odvija po unapred
utvrenim pravilima, ve pokazuje kreativnost u analizi podataka i na taj nain moe da
otkrije nova, neoekivana pravila.3
Data Mining je proces otkrivanja novih znanja i informacija , iz podataka koje
prikupljamo. Moemo pomisliti da isto ovo radimo i upotrebom klasinih statistikih
metoda za analiziranje podataka. Ali, mi u stvari samo stvaramo odredjene pretpostavke ,
tvrdnje (hipoteze), i pokuavamo da ih dokaemo traenjem podataka koje e ih potvrditi
ili osporiti. Sa druge strane, upotreba Data Mining-a podrazumeva analizu podataka, a da
pre te analize istraiva nije definisao odredjene tvrdnje ili pretpostavke vezano za pojavu
koju analiziramo. Jednostavno se postavlja pitanje na koje traimo odgovor, a preputa se
Data Mining algoritmima da definiu obrasce, i prue odgovore.
DM pri tome podrazumeva analizu podataka koje potiu iz razliitih izvora, iz
razliitih organizacionih jedinica preduzea (prodaje, proizvodnje, finansija) i razliitih
informacionih sistema (platformi). DM ne samo da omoguava izvlaenje, transformaciju
i uitavanje razlicitih informacija u jedinstvenu bazu podataka, ve omoguava
preduzeima i menaderima da analiziraju npr. ponaanje potroaa na bazi 100 i vie
obeleja, dok tradicionalni statistiki modeli omoguavaju istovremeno posmatranje 3 ili
4 ovakva obeleja.
Dok tradicionalne statistike analize poivaju na testiranju hipoteza, DM se
oslanja na softversko modeliranje, kojim se utvruju veze i meuzavisnosti velikog broja
pojava, i obezbeuje znanje za reavanje problema, unapreivanje poslovanja i
predvianje.
Neke tehnike i modeli DM su usko povezani sa onima u statistici, kao npr. modeli
linearne regresije i vremenskih serija, ali se uglavnom upotrebljavaju dosta sloeniji i
fleksibilniji programi i na njima zasnovani modeli. Dve tehnike DM, neuronske mree i
stablo odluivanja, mogu analizirati istovremeno i do 200 nezavisnih promenjivih. Sa
druge strane, ovo nije mogue sa modelima npr. viestruke regresije.
Koristei tradicionalne statistike metode, analitiar sebi moe da postavi pitanje :
Jesu li potroai sa veim prihodima lojalniji nekom supermarketu od onih koji imaju
nie prihode ? - nulta hipoteza e biti odbaena ili nee. DM sa druge strane, moe
omoguiti znatno vie podataka i bolji uvid u faktore koji utiu na lojalnost, od onih koje
saznajemo testiranjem hipoteza. Analizom podataka putem DM, moemo dobiti
3

Pang-Ning Tan, Michael Steinbac, Vipin Kumar, : Introduction to Data Mining, ISBN 0-321-20448-4

Data Mining

Velida Kijevanin - aban Graanin

grupisane podatke o potroaima prema tome : da li imaju Klubsku kreditnu karticu, ive
dalje od 10 milja od marketa, imaju 2 automobila... i njihovoj lojalnosti prema grupama.
Svi DM modeli se uglavnom sastoje iz Nezavisnih promenjivih ( predictors ) i
Zavisnih promenjivih ( responses ). Tako npr, kompanije za osiguranje automobila mogu
skupljati podatke o potroaima, o veliini njihove porodice, kreditnom rejtingu. Ove
informacije ( nezavisne promenjive ) mogu se upotrebiti da se predvide gubici po
pojedinim grupama potroaa, ili da se odredi koji potroai e najverovatnije kupiti novi
prozivod firme ( zavisne promenjive ).
1.4. Neophodna infrastruktura za upotrebu DM
Sam proces DM je neraskidivo vezan za raunare. Uz pomo posebnih programa,
analiziraju se podaci iz razliitih uglova. Treba meutim uvek imati u vidu da su softveri
samo alatka, i da je i dalje neophodno prisustvo ljudskih eksperata. Ipak, kompjuterski
sistemi su nezamenjivi, zbog brzine, a prevashodno zbog izbegavanja predrasuda koje
inae postoje kod ljudi. Kompjuterske greke nisu mogue, a pri analizi ovek ne bi ni
primetio neke veze izmeu podataka, jer se one nalaze izvan njegovih oekivanja.
Zanimljiv primer je lanac supermarketa Wal Mart u Americi, koji je koristei SPSS-ov
Clementine softver za DM, otkrio da su mukarci koji kupuju etvrtkom da bi izbegli
vikend guve, uz pelene za decu kupovali i Coca Colu. Coca cola se kupovala da bi se
pripremili za predstojei vikend. Zahvajlujui ovoj informaciji, poveani su prihodi u
supermarketima tako to je vitrina sa Coca Colom pomerena blie polici sa pelenama.
Danas su ovi programi pristupani za velike sisteme, kao i za PC-e. Cena softvera
varira, od nekoliko hiljada dolara do nekoliko miliona dolara. Dva osnovna uslova za
izbor softvera su veliina baze podataka, i kompleksnost pitanja na koje traimo
odgovore. Jasno je da za vee koliine podataka koje analiziramo i sloenija pitanja za
koja traimo odgovore , moramo koristiti monije programe.
DM se moe primeniti u svim onim oblastima gde se raspolae velikim
koliinama podataka ijom analizom se ele otkriti odreena pravila, zakonitosti i veze.
Stoga treba pomenuti i koncept Data Werhousing-a, koji koriste sve velike svetske
kompanijeu u cilju integracije podataka u jednu bazu, na osnovu koje krajnji korisnici
mogu sprovoditi ad-hock analize, praviti izvetaje, predvidjati i donositi odluke. Koncept
Data Werhousing-a ( Skladitenja podataka ) ima za cilj prikupljanje i distribuciju
informacija kroz preduzee, uz omoguavanje multidimenzionalnog pristupa podacima
kakav je danas neophodan za donoenje poslovnih odluka.
1.5. Faze u procesu Data Mining-a
ivotni ciklus jednog data mining projekta se sastoji iz sledeih osam koraka :
1. Sakupljanje podataka je obino prvi korak u data mining projektu. Poslovni podaci
su uskladiteni u brojnim sistemima , internetu, bazama podataka kompanija, i prvi
korak obino predstavlja prenos relevantnih podataka u bazu podataka gde se podaci

Data Mining

Velida Kijevanin - aban Graanin

analiziraju. Ponekad postoji i skladite podataka to olakava dalji rad ali u velikom
broju sluajeva podaci koji su sakupljeni mogu biti nedovoljno korisni za analizu te se
zbog toga neophodni podaci moraju sakupiti iz drugih izvora. Nakon to se sakupe,
podaci se mogu semplovati da bi se smanjila veliina trening skupa podataka. U
mnogim sluajevima, obrasci koji su pronaeni na skupu od 50 000 kupaca su isti kao
i oni pronaeni na trening skupu od 1 000 000 kupaca.
2. Filtiriranje podataka i transformacija je najintenzivniji korak u data mining
projektu kad su resursi u pitanju. Cilj filtriranja podataka je odstranjivanje irelevantnih
i suvinih informacija iz skupa podataka. To podrazumeva uklanjanje duplih i
nepotpunih podataka, njihovu tranformaciju i jedinstven sistem podataka, izabiranje
podgrupa podataka, odredjivanje broja promenjivih sa kojima je moguce raditi. Cilj
transformacije podataka je promena izvornog podatka u drugaiji format tipa
podataka. Postoje razliiti tehnike koje se mogu primeniti za korak filtriranja i
transformaciju podataka, a najee koriene su; transformacija tipova podataka,
neprekidna transformacija kolona, grupisanje, rad sa vrednou koja nedostaje,
brisanje abnormalnih sluajeva itd.
3. Kreiranje i izbor modela je trei korak koji se primenjuje nakon filtriranja i
transformacije podataka. Tek kada se podaci filtriraju i kada se promenljive
transformiu u pogodne tipove podataka, moe se zapoeti sa kreiranjem modela. Pre
kreiranja modela treba da razumemo cilj data mining projekta i vrstu data mining
zadatka koji e se koristiti. Za svaki data mining problem postoji nekoliko
odgovarajuih algoritama. Preciznost algoritma zavisi od prirode podataka kao to su;
broj stanja atributa koji se koriste za predvianje, prenos vrednosti svakog atributa,
veza izmeu atributa itd. U ovom poetnom delu projekta potrebno je sastaviti tim
poslovnih analitiara koji su eksperti u odreenoj oblasti.
4. Procena kvaliteta modela U delu kreiranja modela mi kreiramo skup modela
koristei algoritme i tehnike DM-a , ali nakon kreiranja moramo izvriti i evaluaciju
tog modela. Postoji nekoliko popularnih alata za evaluaciju kvaliteta modela.
Najpoznatiji je lift dijagram. On koristi ve istreniran model kako bi predvideo
vrednosti koje e se dobiti iz skupa podataka koji se testira. Na osnovu vrednosti koje
se dobiju i verovatnoe on grafiki prikazuje model na dijagramu.
5. Kreiranje izvetaja Nakon kreiranja modela i evaluacije kvaliteta tog modela vri se
kreiranje izvetaja koji se dostavljaju menaderima na uvid. Veina data mining alata
ima osobinu kreiranja izvetaja koji omoguuje korisnicima da generiu prethodno
definisan izvetaj sa tekstualnim i grafikim detaljima data mining modela. Postoje
dva osnovna tipa izvetaja: izvetaji o pronaenim obrascima i izvetaji o predvienim
vrednostima modela.
6. Ocenjivanje modela U mnogim data mining projektima, pronalaenje obrazaca i
modela je samo pola posla; konani cilj je upotreba tog modela za predvianje.
Predvianje se jo naziva i scoring u data mining terminologiji. Da bi dobili
predviene vrednosti moramo da imamo ve istrenirani model i skup novih podataka.

Data Mining

Velida Kijevanin - aban Graanin

7. Integracija data mining modela u aplikaciju Integrisanje data mining modela u


poslovne aplikacije predstavlja ponovnu primenu poslovne inteligencije na poslovni
sistem tj. zatvaranje petlje za analizu. Sve vie poslovnih aplikacija ukljuuje i data
mining komponentu a prednosti data mining-a su velike. Na primer CRM (Customer
Relationship Management) aplikacije mogu imati data mining osobine koje grupie
kupce u segmente, ERP (Enterprise Resource Planning) aplikacije mogu imati data
mining osobine koje im koriste da predvide obim proizvodnje. On-line knjiara moe
dati potencijalnim kupcima preporuke knjiga. Integrisanje data mining osobina,
pogotovo komponente za predvianje u aplikacije jedan je od bitnijih koraka data
mining projekta. Ovo je kljuni korak za uvoenje data mining-a u masovnu upotrebu
8. Upravljanje modelom Odravanje statusa data mining modela predstavlja pravi
izazov. Svaki data mining model ima svoj ivotni ciklus. U nekim oblastima primene
obrasci su relativno stabilni i modeli ne zahtevaju uestalo ponovno treniranje
modela. Ali u mnogim oblastima obrasci se menjaju esto. Trajanje jednog data
mining modela je ogranieno. Nova verzija modela se mora praviti esto.
Odreivanje preciznosti modela i kreiranje novih verzija ovog modela bi trebalo biti
postignuto korienjem automatizovanih procesa.

1.6. Tehnike i Metode Data mininga

Analitike tehnike koje se koriste u DM , u velikom broju sluajeva su odavno


poznate matematike tehnike i algoritmi koje su koriene godinama pre toga. Iako je
DM mlada tehnologija, dosta se koriste ranija saznanja. Tehnike koje se najee
primenjuju uglavnom su izvedene iz tri glavne oblasti: statistike, mainskog uenja i baza
podataka.
Odreeni algoritmi poput regresije i stabla odluivanja preuzeti su iz statistike. S
obzirom da se data mining bazira na otkrivanju obrazaca ponaanja iz analiziranih
podataka neki algoritmi su preuzeti iz oblasti mainskog uenja poput neuronskih mrea
koje se izuzetno uspeno primenjuju kod klasifikacije i regresije i onda kada su veze
meu atributima nelinearnog tipa. Genetski algoritmi prestavljaju jo jednu tehniku koja
se koristi za klasifikaciju i klasterovanje. Ali je razvijeno i mnogo novih algoritama,
metoda i softvera. Takoe postoji i nekoliko skalabilnih verzija algoritama klasifikacije i
klasterovanja koji koriste tehnike baza podataka, ukljuujui i Microsoft-ov algoritam
klasterovanja.4
Uopteno govorei, sve Data Mining tehnike se mogu podeliti u dve grupe :
1)
2)
4

Discovery data mining tehnike za otkrivanje novih znanja ( informacija )


Predictive data mining tehnike za predvidjanja

I.H. Witten., E. Frank., : Practical Machine Learning Tools and Techniques, Elsevier Inc., 2005

Data Mining

Velida Kijevanin - aban Graanin

Kako bi se problemi reavali to bre i tanije, razvijen je veliki broj tehnika,


algoritama i metoda DM-a, u nekoliko poslednjih godina. Sve su one svrstane pod istim
nazivom Data Mining tehnike. Neke od tehnika DM su :
1) Stablo odluivanja ( Decision Tree )
Decision Tree je veoma popularan metod za klasifikaciju i odluivanje. To je
tehnika odluivanja koja se temelji na odnosima izmeu strategija i stanja, a koristi se za
reavanje problema u finansijama, bankarstvu, merketingu, osiguranju.. Korienjem
serije pitanja i pravila za kategorizaciju podataka, predvidjaju se ishodi.
Stablo odluivanja nastaje grananjem kao posledica ispunjenja uslova
klasifikacijskih pitanja. Svako pitanje e podeliti podatke u podskupove koji su
homogeniji nego vii skup. Ako pitanje ima dva odgovora, tada e kao odgovor na pitanje
nastati dva podskupa (binarno stablo). Koliko pitanje ima odgovora toliko e podskupova
nastati. Samim tim vri se klasifikacija pojedinih podataka. Predvianje ponaanja
pojedinog klijenta moe se izvesti na temelju njegovog pripadanja pojedinom skupu (u
koji je svrstan na osnovu niza pitanja i uslova ), za koji se zna kako e se ponaati.
Prilikom izgradnje stabla odluivanja vano je znati postaviti pravo pitanje.
Pitanje je utoliko bolje, ukoliko e se njime bolje organizovati podaci, odnosno ukoliko
e se nakon toga stvoriti podskupovi koji su homogeniji. Modeli koji se baziraju na stablu
odluivanja razlikuju se po algoritmima koji zahtevaju obeleja pojedinih podataka na
bazi kojih se kreiraju pitanja. Stabla odluivanja se veoma primenjuju na relacijskim
bazama podataka (npr. SQL).
Primer stvaranja stabla odluivanja prikazan je na slici 1.

Data Mining

Velida Kijevanin - aban Graanin

2) Metoda najblieg Suseda (Nearest neighbor classification)


Nearest neighbour classification jedna od najstarijih tehnika koja se primenjuje u
data miningu za klasifikaciju podataka. Zbog svog naina rada, koji je slian ljudskom
nainu razmiljanja, ova metoda je jedna od najjednostavnijih. Temelji se na traenju
podataka koji imaju najsliinija svojstva i poznato ponaanje. Podatak koji ima najslinija
svojstva je najblii sused, pa se pretpostavlja da e se slino i ponaati. Pitanje algoritma
je kako odrediti ko je najblii sused. Jedan od najjednostavnijh naina je upotreba
euklidske geometrije u n-dimenzionalnom prostoru. Pri tome treba napomenuti da svaka
varijabla ne nosi istu teinu (npr. prilikom raunanja udaljenosti dob klijenta uzimamo s
teinom 1, a zemlju porekla s teinom 0.1).
Kako bi metoda bila to tanija, potrebno je u bazi podataka nai to sliniji
podatak (za koji je potrebno to tanije poznavati ponaanje), to zahteva velike koliine
podataka.
Za razliku od ostalih tehnika , ovde ne postoji proces uenja kako bi se kreirao model.
Podaci koji se koriste za uenje su u stvari model. Kada se pojavi novi podatak, algoritam
analizira sve podatke u bazi, kako bi naao podgrupu sluajeva koja najbolje odgovara
tom sluaju, i na osnovu toga vri predvidjanje.
3) Neuronske mree ( Neural networks )
To je tehniga DM zamiljena da deluje slino ljudskom mozgu. Kao to ljudski
mozak nakon procesa uenja izvlai odreene pretpostavke na osnovu ranijih zapaanja,
tako i ove mree predviaju promene i deavanja u sistemu nakon procesa uenja. DM na
osnovu ove tehnike poinje uenjem mree pomou podataka koji su ve poznati, a
koji se odnose na vrednost koju elimo prognozirati. Nakon toga znanje se proverava, sve
dotle dok rezultati provere ne budu zadovoljavajuci. Ceo proces se u osnovi svodi na
sledee : Prvo se neuronskoj mrei daju odreeni podaci za koje ve znamo izlazne
vrednosti. Na osnovu ovih podataka neuronske mree prepoznaju obrasce i pravila.
Zatim se na oznovu ovih obrazaca i funkcija istrauju gomile podataka koje preduzea
imaju u svojim bazama. 5
Primer Kompanije koje se bave izdavanjem platnih kartica raspolau ogromnim
podacima o svojim korisnicima, procesu odobravanja i transakcijama. DM omoguava
utvrivanje veza i pravila meu podacima. Ako kompanija npr. zna da od 3000 zahteva za
kartice postoji 100 pokuaja prevare, korienjem neuronskih mrea, utvruju se obrasci
na osnovu kojih se prepoznaju ovi pokuaji. Ovi obrasci se nakon toga koriste za
ispitivanje svih baza podataka kompanije, utvrdjivanje i prepoznavanje prevara.
Takoe, proveravaju se i same transakcije pri plaanjima. Na osnovu utvrenih ema
ponaanja potroaa ( ta kupuje, gde kupuje, koliko troi.. ), sistem odreuje
verovatnou svake transakcije i alje kontrolorima poruku u koliko treba neku od
transakcija proveriti.
5

Max Bramer, British Library Cataloguing in Publication data, Springer-Verlag London limited, 2007

10

Data Mining

Velida Kijevanin - aban Graanin

Neuronske mree su najkomplikovanija metoda (kako za upotrebu, tako i za


primenu), ali daju najtanije modele. Nuronske mree nastale su prouavanjem i
pokuajima imitiranja rada mozga i nervnog sistema oveka (i drugih ivotinja). Osnovna
elija neuronskih mrea (neuron) prikazana je na slici 2.

Neuron svoj izlaz temelji na kombinaciji niza ulaza pomnoenih s odgovarajuim


teinama. Neuronska mrea sastoji se od niza neurona koji su meusobno povezani.
Prilikom projektovanja neuronske mree potrebno je odrediti strukturu (broj neurona i
njihove meusobne veze). Da bi stvorili model predvianja upotrebom neuronskih mrea
potrebno je definisati teine pojednih veza. To se postie treningom neuronske mree.
Daju joj se testni podaci i zatim se koriguje odgovor koji daje, ako je netaan. Neuronska
mrea e tada korigovati teine pojednih veza izmeu neurona. Ako je prethodni neuron
dao taan odgovor vezi prema njemu, teina e se poveati, dok e se u suprotnom
smanjiti. S vremenom neuronska mrea ui, pa sa poveanjem broja treninga daje sve
tanije rezultate.

11

Data Mining

Velida Kijevanin - aban Graanin

4) Fuzzy Logika ( Fuzzy logic )


ta je Fuzzy logika? Da bi najlake objasnili ovaj pojam, uporediemo ga sa
konvencijalnom logikom. Osnova klasine logike, koju je definisao Aristotel, zasniva se
na jasnim i precizno utvrenim pravilima, a poiva na teoriji skupova. Skupovi imaju
jasno definisane granice. Neki element moe da pripada nekom skupu ili da ne pripada. I
ovakvi skupovi se definisu kao Crisp tj .jasni, bistri.
Kod Fuzzy logike, nije jasno definisana pripadnost elementa nekom skupu, ve se
meri u procentima. Skalirani, ovi procenti uzimaju vrednost od 0 do 1. Kao primer
moemo uzeti dane u nedelji, i pokuati da napravimo dva podskupa radne dane i
vikend. Po Crisp logici ponedeljak, utorak, sreda, etvrtak i petak pripadaju radnim
danima, i njih bi obeleavali brojem 1. U vikend dane spadaju subota i nedelja, i
obeleavamo ih sa 0. Po Fuzzy logici, situacija bi bila drugacija. Petak, je jednim delom
radni dan, a drugim delom poetak vikenda, tako da on pripada jednim delom ( npr 0,75 )
radnom danu, a drugim delom ( 0,25) vikend danima. Slina je situacija i za nedelju, jer
se nedeljom uvee ljudi pripremaju za radnu nedelju. Tako da se istinitost svake tvrdnje u
Fuzzy logici meri u procentima. Ova logika je jako bliska ljudskoj percepciji o mnogim
stvarima u ivotu.
Sama tehnika se sprovodi kao simulacija ljudskog rezonovanja i razmiljanja, pri
emu se dozvoljava raunaru da se ponaa manje precizno. Koristi se za donoenje
odluka u sivoj zoni.
5) Memorijski zasnovano rasuivanje ( Memory based reasoning )
Memorijski zasnovano rasuivanje je tehnika DM koja se koristi za predvianje i
klasifikaciju. Slina je tehnici neuronskih mrea, sa razlikom to MBR trai sline
podatke, ali pri tom ne utvruje obrasce i pravilnosti u podacima. Primer upotrebe
Ukoliko doktor ima pacijenta sa slinim simptomima bolesti kao i kod ranijih pacijenata,
on ce na osnovu iskustva dati dijagnozu.
6) Clastering ( Clustering )
Tehnika grupisanja koja omoguava grupisanja podataka koji su slini. Grupisanja
su u stvari razvrstavanja elemenata u skupove, u kojima se postie najvea slinost
podataka ( segmentacija kupaca po starosti, zanimanju, dohotku, potronji ..).
Pri podeli moraju biti zadovoljena 2 kriterijuma :
1) svaka grupa predstavlja homogen skup slini podaci
2) svaki skup se mora razikovati od ostalih skupova znaajne razlike u
podacima

12

Data Mining

Velida Kijevanin - aban Graanin

7) Analiza potroake korpe ( Market Basket Analysis )


MBA esto se naziva i grupisanje po slinosti. Koristi se za pronalaenje grupa
artikala koji se najee zajedno kupuju u jednoj transakciji. Analizom potroake korpe,
utvruje se verovatnoa da ce potroa kupiti proizvod B, ukoliko je pri jednoj kupovini
ve kupio proizvod A. Model se iroko upotrebljava u trzinim centrima i
supermarketima.
Kao primer navodimo DM koje je sproveo Wall Mart. Analiziranje prodaje
izmeu 17-19 h popodne, utvreno je da su dva prozivoda koja su najee zajedno
kupovano Pivo i Pelene. Na bazi ovog podatka, menaderi si zahtevali izmetanje vitrine
sa Pivom blie policama sa Pelenama. Kao rezultat prodaja je poveana za 15%.
Ova metoda se takoe koristi za analize prodaje u marketima na razliitim
lokacijama, prodajama po razliitim danima, godinjim dobima.. a sve u cilju
prilagoavanja arsortimana i usluga kako bi se uveala prodaja.

8) Rule indication
Upotreba ove metode zasniva se na prolasku kroz bazu podataka upotrebljavajui
logike funkcije na varijablama, i raunajui verovatnou pojave takvog dogaaja,
pojedinih zapisa, kako bi se dolo do skrivenih informacija. Kako bi se moglo doi do
skrivenih informacija, potrebno je proi kroz to vie moguih meusobnih kombinacija
varijabli (sve kombinacije), to drastino usporava i poskupljuje ovu metodu. Ako
odbacujemo pojedine varijable kao nevane, tada postoji mogunost da neemo videti
vezu izmeu pojedinih podataka i model uiniti manje tanim. Osim s tehnike strane,
pretraivanje slinosti pojednih podataka po svim varijablama esto daje ogroman broj
povezanosti izmeu pojedinih podataka, pa je ponekad potreban jo jedan prolaz kroz
dobijeni rezultat kako bi se izolovali oni zakljuci koji su najinteresantniji.
Modeli koji se baziraju na upotrebi rule inidication pokazali su se meu tanijima
(tanije daju neuronske mree), ali su za razliku od neuronskih mrea jednostavniji za
korienje.
9) Metoda K Najblizeg Suseda ( K Nearest neighbors )
Poboljanje u odnosu na metodu najblieg suseda je u tome to se posmatra
ponaanje nekoliko slinih podataka, a ne samo jedan. Samim tim (statistiki) moi emo
tanije predvideti ponaanje i svojstva pojedinog podatka. Ovakav algoritam je vrlo lako
implementirati.

13

Data Mining

Velida Kijevanin - aban Graanin

10) Ostali algoritmi


Postoji niz drugih algoritama na kojima se temelje modeli za data mining, ali oni
se manje koriste od gore navedenih. Neki od njih su:

K-means clustering
Genetski algoritmi
Samoorganizujue mape (engl. Self organized maps)
Kao metoda se moda moe spomenuti i statistika, ali ona vie daje pogled na
povezanost varijabli u prolosti, nego to daje pogled u budunost.

1.7. Korienje Data mining-a i najnoviji trendovi


Ako izuzmemo najvece svetske kompanije danas, mnoga preduzeca i dalje ne
koriste Data Minig metode kao podrsku procesu odlucivanja. Razlozi koji se najcesce
pominju su visoki troskovi, nedostatak kvalifikovanog osoblja, nerazumevanje samog
koncepta DM. Cesto se desava da i one kompanije koje imaju svoje baze podataka i
koriste DM metode, nisu u stanju da iskoriste sve njegove pozitivne efekte. Prema
istrazivanju Cutter Korporacije iz 2003 godine, IT konsulting korporacije u USA, samo
15% preduzeca smatra da je koriscenje metoda DM doprinelo poboljsanju njihovog
poslovanja. Jedna od najvecih Britanskih agencija za Direktni marketing, Rapp Collins,
navodi podatak da se pri analizama baza podataka putem DM koristi prosecno samo 18%
informacija iz postojecih baza. Medjutim, napredak u oblasti racunarske tehnologije i
razvoj novih mikroprocesora u poslednjih nekoliko godina, povecali su efikasnost i
isplativost koricscenja Data Mining-a.
Pre svega treba pomenuti da su preduzecima danas dostupni jeftiniji DM
programi i softveri. Neki od najpoznatijih su IBM-ov Intellgent Miner, Oracle-ov
Darwin, SAS-ov Institute Enterprise Miner i SPSS-ov Clementine. Cene ovih programa
se krecu u rasponu od nekoliko desetina hiljada Dolara ( za kompleksnije i do nekoliko
miliona $ ). Ova nova generacija DM programa ne zahteva angazovanje eksperata, i ne
zahteva od Menadzera detaljno poznavanje statistike. Njihovo koriscenje i primena je
danas dosta pojednostavljeno.
Drasticno su smanjeni i troskovi pripreme i transformacije podataka. Kako svaka
baza podataka ima svoje formate zapisa, a pojedina reenja algoritama koja se koriste za
DM koriste svoje formate zapisa, esto je prenoenje podataka iz baze podataka u
algoritam za data minig procedura koja je ranije oduzimala dosta vremena. Tokom 90-tih
godina, cak 80% truda odnosilo se na pripremu podataka.).

14

Data Mining

Velida Kijevanin - aban Graanin

Grafik pokazuje da se cak 80% ukupnog truda odnosilo na prikupljanje, obradu I


pripremu podataka za Data Mining analizu. Samo 20% , odnosilo se na sam postupak
analize podataka, definisanje modela i upotrebu Data Mining modela za predvidnjanja i
odlucivanje.
Danas je ovaj procenat smanjen na 15%, a razvijeni su i novi programi za automatsku
analizu tekstova ( Text Mining).
Zbog velike koliine informacija koja je potrebna o svakome korisniku za
stvaranje modela, to moe ukljuivati njegovu dob, dohodak, da li ivi na selu ili gradu,
kui ili stanu, da li je oenjen/udata ili ne, pogotovo u zadnje vreme, postavlja se pitanje
privatnosti korisnika. Ljudi postaju sve osetljiviji na svoje privatne podatke, te ne vole da
se oni zloupotrebe za profit drugih. Mnoge drave uvode zakone koje ograniavaju
skupljanje takvih podataka. Samim time moe se dogoditi da za postavljanje tanih
modela relevantni podaci budu nedostupni. Treba uzeti u obzir i da bi sam korisnik
mogao u pojedinim situacijama, da zatiti svoju privatnost, upisati pogrene podatke, to
bi dovelo do korumpiranosti podataka u bazi i do netanih modela.
Danas se stoga pokuavaju napraviti odreeni standardi, kao i vizualizacija
dobijenih rezultata kako bi se olakalo :
1) ocenjivanje primenjenih modela data mining-a
2) poredjenje razlicitih modela koje istrazivacu stoje na raspolaganju.
Najcesce korisceni alati za ocenjivanje DM modela su :
- Graficko prikazivanje rezultata - Lift Charts
- Tabelarno prikazivanje rezultata - Classification Matrix
Takozvane ROC krive ( Receiver Operating Characteristic ) , najcesce se koriste
za graficko prikazivanje promena ( poboljsanja ) koje se desavaju usled koriscenja Data
Mining metoda , ali I za poredjenje efikasnosti pojedinih DM modela.

15

Data Mining

Velida Kijevanin - aban Graanin

Na primer, Marketing odeljenje zeli da sprovede kampanju slanja ponuda svojim


kupcima putem e-maila. Iz ranije sprovedenih kampanja poznato je da na ovakve ponude
reaguje prosecno 10% svih kontaktiranih kupaca. U bazi postoje podaci o ukupno
10.000 kupaca. Na osnovu iskustva, kontaktiranjem svih kupaca, samo ce 1000 njih
prihvatiti ponudu I kupiti proizvode koje preduzce nudi. Medjutim, sta ako preduzece
nema dovoljno sredstava predvidjenih budzetom da kontaktira sve kupce iz baze
podataka, vec samo njih 5000. Tada se mora doneti odluka :
- Slucajnim izborom odabrati 5000 kupaca I njima poslati ponude
- Korisititi Data Mining model, za izbor 5000 kupaca koji ce najverovatnije
prihvatiti ponudu
Ocenjivanje DM modela pomou ROC krive svodi se na sljedee :
I) Ako preduzece slucajno izabere 5000 kupaca kojima e pokuati prodati neki
proizvod putem e-mail kampanje, samo njih 500 tj. 10% se ocekuje da ce prihvatiti
ponudu. Prihod ce se poveati linearno s brojem potencijalnih kupaca kojima smo
pristupili putem e-maila. Ovakva situacija je prikazana plavom linijom na grafikonu.
II) Medjutim, ako Marketing odeljenje priliko izbora kupaca koristi Data Mining
metode ocekuje se veci odziv kupaca jer se kontaktiraju samo oni koji ce najverovatnije
da private ponudu.
a) Ako je izabran idealan DM model za izbor kupaca, kompanija moze da ocekuje
da ce svih 1000 kupaca obuhvacenih e-mail kampanjom prihvatiti ponude. Taj slucaj je
predstavljen Ljubiastom pravom - model bi bio idealan kada bi svaki kupac, za kojeg je
predvieno da e kupiti proizvod, zaista taj proizvod i kupio.
b) U stvarnosti medjutim, modeli Data mining-a omogucavaju ostvarivanje
rezultata koji se nalaze izmedju ove dve krajnosti, a koji su prikazani krivama izmedju
ova dva extremna slucaja. Tako da svaka kriva iznad linije slucajnog izbora predstavlja
poboljsanje ( lift) usled upotrebe Data Mininga. Otuda I naziv Lift Charts za ove
grafikone.

16

Data Mining

Velida Kijevanin - aban Graanin

Primer je prikazan na slici :

1.8. Upotreba Data mining-a


Data mining je naao iroku primenu u oblasti poslovanja preduzea, ekonomije,
mehanike, medicine, genetike,, saobracaja, kriminalistike i sl. Data mining se moe
primeniti u svim onim oblastima gde se raspolae velikim koliinama podataka ijom
analizom se ele otkriti odreena pravila, zakonitosti i veze.
Tipicni primeri Data Minig-a su :
Bankarstvo Predvidjanje nivoa losih plasmana, utvrdjivanje rizika kod kreditnih
kartica, predvidanja zarade od novih klijenata..
Osiguranje Predvidjanje nivoa odstetnih zahteva, sprecavanje prevara..
Trgovina projekcije prodaje, sprecavanje kradja i prevara, utvrdjivanje plana
snabdevanja maloprodaja, odredjivanje optimalnih zaliha..
Policija Pracenje sema zlocina, predvidjanje kriminalnog ponasanja pojedinaca,
lociranje zlocinaca...
Marketing predvidjanje prodaja, utvrdjivanje trendova, predvidjanje ponasanja
potrosaca, unapredjivanje prodaje, utvrdjivanje metoda za sprovodjenje direktnog
martketinga, cross-seling, akvizicija kupaca, utvrdjivanje optimalnog prodajnog
asortimana, cost-benefit analize..

17

Data Mining

Velida Kijevanin - aban Graanin

Jos neki od zanimljivih primera upotrebe DM su :


1) Njujorska policija , preko baze podataka o zlocinima, zlocincima i
lokacijama zlocina, i metoda DM resava 60% svih slucajeva.
2) Harrah Entertainment, veliki Casino operater, koristi DM za
unapredjivanje poslovanja i privlacenje potrosaca. Osnova sa analize i
donosenje odluka je ogromna baza podataka u koju Harrah svakodnevno
ubacuje podatke o activnostima svojih klijenata. Prikupljaju se svi
dostupni podaci, ne samo o klijentima ( imena, godine, pol..) vec i podaci
o njihovim potrosackim preferencijama. Istrazivanjem ovih podataka,
Harrah je saznao da samo 26% svih klijenata generise 82% ukupnih
prihoda. Iznenadjujuce je to se tih 26% ne odnosi na najbogatije klijenta,
vec na starije osobe i to profesore, doktore, bankare.. Harah je iskoristio
ove podatke za kreiranje specijalnih ponuda za ovu grupu klijenata.
Takodje, DM modelima Harrah vrsi precizna predvidjanja nivoa potrosnje
pojedinih grupa klijenata.
3) Americka agencija za vazdusni prevoz, istrazivala je podatke o
uzrocima padova aviona. Upotrebom DM metoda doslo se do obrazaca
nastajanja gresaka pri prevozu putnika. Ispravljanjem ovih gresaka
smanjen je broj nesreca i spaseni zivoti mnogih ljudi.

18

Data Mining

Velida Kijevanin - aban Graanin


ZAKLJUAK

Menadzeri svakog dana pokusavaju da u velikim bazama podataka pronadju


informacije ( znanje ) za donosenje poslovnih odluka. Cesto se desava da kasno uvide da
je resenje za njihove probleme bilo ispred nosa i da je konkurencija vec iskoristila ova
saznanja. Data Minig, kroz bolje upravljanje i analizu podataka, moze pomoci
preduzecima da ostvare vece profite. Stoga je veoma bitno da se Menadzeri upoznaju sa
pojmom i tehnikama DM, jer se kolicine dostupnih informacija u buducnosti sigurno
rasti, a nece postati jasnije i lakse za razumevanje i donosenje odluka. Jasno je da ni
konkurencija nece sedeti skrstenih ruku, i ignorisati koristi koje ove tehnike mogu da
donesu.
Upravo zbog toga se sto pre treba upoznati sa konceptom Data Mining-a. Sa
druge strane , ne treba imati nerealna ocekivanja. Data Mining ne moze resiti sve
probleme koje preduzece i njegovi menadzeri pokusavaju da rese. Neke kompanije su
upravo smatrajuci DM metode univerzalnim lekom svu paznju usmerile na razvijanje
novih algoritama i softvera, ne povezujuci ih sa stvarnim problemima sa kojima se
suocavaju.
Da bi se izbegla nerealna ocekivanja, uvek treba imati u vidu da DM nije alatka za
definisanje problema ili otkrivanje sansi na trzistu. To su problemi koje Menadzeri
kompanija moraju da rese. DM samo odredjuje obrasce u podacima, nova saznanja, koja
ce pomoci Menadzerima u odlucivanju, nakon sto oni utvrde probleme koje zele da rese
ili sanse koje zele da iskoriste. Data Mining metode nisu zamena za efikasan
Menadzment.

LITERATURA:

1) Z. Tang, J MacLennan, Data Mining with SQL Server 2005, Indianapolis:


Wilez Publishing Inc., 2005.

2) Panian, ., Klepac, G.,: Poslovna inteligencija, MASMEDIA, Zagreb, 2003.,


str 78
3) Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data
Mining, ISBN 0-321-20448-4
4) I.H.Witten, E. Frank, Data Mining: Practical Machine Learning Tools and
Techniques, Elsevier Inc., 2005
5) Max Bramer, British Library Cataloguing in Publication Data, SpringerVerlag London Limited 2007

19

Data Mining

Velida Kijevanin - aban Graanin

PRIMER 1
Upotreba DM u analizi kriminalnih mreza
Kriminalne grupe cesto razvijaju svoje mreze, u okviru kojih se organizuju
podgrupe I bande kako bi se izvodile razne vrste kriminalnih aktivnosti. Data Mining se
moze iskoristiti za indentifikovanje ovih podgrupa ( bandi ), I utvrdjivanje nacina
komuniciranja I interakcije izmedju njih, kako bi se sprecile mnoge ilegalne aktivnosti I
zlocini.
Analizirajuci bazu podataka 272 Policijske Stanice u Tusonu, predstavnici
Univerziteta u Arizoni I Hong Kongu, analizirali su Izvestaje o 164
zlocina pocinjena u periodu od 1985 do 2002. Koriscen je prostorni
koncept ( tehnika ) , kako bi se utvrdile veze izmedju podgrupa I
definisala mreza bandi. Stepen povezanosti izmedju pojedinih
podgrupa meren je prema prema tome koliko su se cesto njihova
imena zajedno pominjala u istim zlocinima. Koriscena je metoda
Clastering-a, kako bi se cela kriminalna mreza na tom podrucju podelila
na podgrupe ( bande ), I block-modeling pristup za utvrdjivanje veza I
komunikacije izmedju istih. Isti pristup je koriscen I za utvrdjivanje
vodja bandi . Dobijeni su sledeci rezultati :
Grafikon 1 - Pokazuje da je koriscenjem DM utvrdjeno 16 vodja
kriminalnih grupa,cija su imena obelezena crvenim slovima, kao I
mesta na kojima su se desavali zlocini.

20

Data Mining

Velida Kijevanin - aban Graanin

Grafikon 2 - Pokazuje koje su kriminalne podgrupe utvrdjene, ukupno


njih 16. Grupe su nazvane po imenima njihovih lidera. Obim krugova
pokazuje broj clanova koji pripadaju svakoj grupi, tj velicinu grupa I
podrucje njihovog delovanja. Debljim linijama prikazano je izmedju
kojih podgrupa postoji veci obim komunikacije I cvrsce veze.

21

Data Mining

Velida Kijevanin - aban Graanin

Nakon sprovedenog istrazivanja, dobijeni rezultati su analizirani


od strane 3 eksperta iz Policijske Stanice u Tusonu, koji su uporedjivali
ove podatke sa informacijama koje imaju sa terena. Eksperti su
potvrdili rezultate dobijene DM. Podaci realno prezentuju stvarno stanje
na terenu. Podaci o dve najvece kriminalne podgrupe su takodje tacni,
a I jacina veza koja postoji izmedju njih. Te dve podgrupe su smatrane
za dve najvece mreze za prodaju narkotika u regionu. Imena vodja
grupa su takodje ispravna, a ispostavilo se da su vodje dve najvece
podgrupe dobri prijatelji.
Eksperti su potvrdili da DM system koji je razvijen tokom ovog
istrazivanja, moze u velikoj meri da pomogne u definisanju kriminalnih
mreza I njihovih struktura, ali I da pomognu u sprecavanju odredjenih
kriminalnih aktivnosti I zlocina. Pomocu ovakvih modela, mogu se u
velikoj meri ograniciti komunikacije izmedju podgrupa , I suziti podrucje
njihovog delovanja.

22

Data Mining

Velida Kijevanin - aban Graanin

PRIMER 2
Zavisnost kvaliteta poslovanja od starosne strukture prodavaca

Uvod
Uspesnost malih i srednjih preduzeau velikoj meri zavisi od starosne strukture zaposlenih a
posebno od prodavaca u maloprodajnim objektima. Ova preduzea nemaju posebne slube koje
se bave upravljanjem kadrova i strategijom zapoljavanja i po pravilu se oslanjaju na iskustvo
vlasnika preduzea i opte-prihvaena miljenja koja nisu uvek tana. Pogrean izbor zaposlenih
moe imati veoma negativan uticaj na poslovanje preduzea a da vlasnici nisu svesni uzroka loih
poslovnih rezultata. Mnoga istraivanja i postojeci savremeni softverskih paketi esto nisu
dostupni malim i srednjim preduzeima iako bi njihova primena mogla da ima znaajan uticaj na
ostvarivanje dobrih poslovnih rezultata.
Cilj ovog istrazivanja je da se uradi analiza uticaja starosne structure prodavaca u malim I
srednjim preduzeima na poslovanje, primenom odgovarajueg softverskog paketa I tehnike
data mining-a. Na osnovu analize odreen je kriterijum pri zapoljavanju novih radnika u
maloprodajnim preduzeima. Izvrena je analiza zavisnosti kvaliteta prodaje od starosne strukture
prodavaca na uzorku od 414 razliitih maloprodajnih firmi ije je poslovanje praeno
polugodinjim izvetajima u vremenskom periodu od tri godine (2004-2006).
Istraivanje je vreno neuralnim klasterovanjem jednom od tehnika data mining-a. Kao
rezultat dobijamo ablone u obliku klastera sa odgovarajuim karakteristikama koje mogu
opisivati dobru ili lou prodaju i odgovarajuom starosnom strukturom prodavaca koja je za to
odgovorna.
Kako jo uvek nije dostupna realna baza o poslovanju preduzea u Novom Pazaru rad je
realizovan nad modelom i bazom podataka o poslovanju maloprodajnih preduzea iz razliitih
zemlja koja je uesnicima uprojektu bila dostupna preko interneta.
Alat koji je korien za istraivanje je softverski paket DB2 Inteligent Minner firme IBM. Ovaj
alat nam omoguava korienje niza tehnika data mining-a, statistikih metoda itd., kao i
mogunost vizuelnog predstavljanja rezultata koji su dobijeni.

1. Problem i cilj
Problem: Analiza uticaja staosne strukture prodavaca na poslovanje maloprodajnih preduzeca.
Polazne informacije potrebne za reenje problema:
-podela u grupe po godinama zaposlenih ( tabela AGE-GROUP )
-informacije o vrsti posla kojom se bavi svaka firma ( tabela RETAILERHEADQUARTERS )
-podaci o vrsti artikala koji se prodaju u kom objektu (tabela RETAILER-SEGMENT)
-struktura prodaje po pripadnosti prodavaca odredjenom starosnom dobu ( tabela
SALES_DEMOGRAPHIC)
-polugodisnji izvestaji o poslovanju za prodavce ( tabela SEMI-ANNUAL-REPORT )

23

Data Mining

Velida Kijevanin - aban Graanin

Pitanje kvaliteta poslovanja je diskutabilno i moe se posmatrati iz vie uglova. Problem


je odrediti tanu definiciju ta pozdrazumeva kvalitetnije poslovanje. U svakom sluaju,
poslovanje je bolja ako je neto zarada veca, dugorona dugovanja manja, stalna imovina vea,
trenutno neizvrene obaveze manje. Ukupan prihod i ukupne trokove moemo posmatrati
spojeno jer njihova razlika daje neto zaradu.
Ono to je potrebno nai je razlika izmeu prodavaca koji rade u slinim firmama po
velicini i dati njihove razlike zavisno od godina. Dakle ako imamo grupu onih koji ne zaraju
mnogo meu njima treba uvideti one koji su skloni velikim kreditima i one sa manjim
dugoronim dugovanjma.
Cilj ovog projekta bi bio pomo poslodavcima prilikom zapoljavanja. Ako se na
primer pokae da se starije osobe manje zaduuju a da mlae prave vee promete da odrede na
koji e nain birati zaposlene.
2.Reenje problema
2.1.Pregled prodaje po starosnim grupama na celom uzorku
Grupisanjem prodavaca po starosnoj grupi i odreivanjem prosenog procenta uea u
prodaji za svaku starosnu grupu pomou dalje prikazanog sql upita dobijamo rezultate date u
tabeli 5.1.
connect to gomr;
create view gomr.avg_age (age,avgsales) as
select s.AGE_GROUP_CODE, avg(s.SALES_PERCENT)
from gomr.SALES_DEMOGRAPHIC as s
group by s.AGE_GROUP_CODE; connect reset;

1
2
3
4
5
6

% Ucesce starosnih gurpa u prodaji


AGE_GROUP_CODE
AVG_SALES_PERCENT
do 20 godina
14
od 21 do 30
26
od 31 do 40
19
od 41 do 50
17
od 51 do 60
13
preko 61 god
8
Tabela 5.1.

Iz tabele se moe zakljuiti da najvie udela u prodaji na posmatranom uzorku imaju


prodavci starosti od 21 do 30 godina pa se mogu smatrati radno najaktivnijom starosnom grupom.
Dalje 19 i 17 pripada treoj i etvrtoj generaciji ili prodavcima od 31 do 50. Neto manje udela ,
13 i 14 procenata, imaju prodavci od 51 do 60 procenata i oni do 20 godina starosti. I naravno
prodavaca sa vie od 61 godina imaju svega 8 procenata.
Pogledajmo dalje koliki je prosek po nekim parametrima kvaliteta poslovanja koji su
nam bili ponudjeni, srazmerno njihovom udelu u firmama za svaku od ovih generacija.

24

Data Mining

Velida Kijevanin - aban Graanin

Slede sql upit za dobijanje ovog pogleda i tabela rezultata (Tabela 5.2).
connect to gomr;
create view gomr.avg_sales_age (age_group_code, fixed_assets, current_liabilitie,
long_term_debt, total_net_income) as
select sd.AGE_GROUP_CODE, avg(sd.SALES_PERCENT*sar.FIXED_ASSETS/100),
avg(sd.SALES_PERCENT*sar.CURRENT_LIABILITIES/100),
avg(sd.SALES_PERCENT*sar.LONG_TERM_DEBT/100),
avg(sd.SALES_PERCENT*sar.TOTAL_NET_INCOME/100)
from gomr.SALES_DEMOGRAPHIC as sd, GOMR.SEMI_ANNUAL_REPORT as sar
where sd.RETAILER_CODEMR=sar.RETAILER_CODEMR
group by sd.AGE_GROUP_CODE;
Kretanje parametara uspesnosti poslovanja po starosnim grupama
Table 1

age_group_code
1
2
3
4
5
6

fixed_assets current_liabilitie long_term_debt total_net_income


50.550.000
25.700.000
69.740.000
4.640.659
95.690.000
49.400.000
133.600.000
8.929.065.
62.970.000
32.800.000
89.950.000
6.309.459
59.120.000
29.800.000
83.140.000
5.703.743
46.700.000
23.700.000
64.780.000
4.349.081
30.180.000
15.200.000
41.370.000
2.665.142
Tabela 5.2.

Iz tabele je lako uoljivo da je druga starosna grupa prodavaca sa svojih oko 95 miliona
fiksne imovine i prihoda oko 9 miliona najprofitabilnija, ali sa druge strane ona je i najzaduenija
sa trenutnim dugovanjma od blizu 50 miliona i oko 133 miliona dugoronih dugovanja. Prodavci
stari od 31 do 50 godina su dosta iza prve grupe sa oko 60 miliona stalne imovine i oko 6 miliona
neto prihoda, njihova dugovanja su srazmerno njihovoj zaradi manja, trenutna dugovanja su im
oko 31 milion i 85 miliona dugoronih dugovanja. U treu grupu moemo smestiti prodavce od
51 do 60 godina i one mlae od 21 godinu. Njihova fiksna imovina se kree oko 49 miliona a
prihod im je priblino 4,5 miliona ,dok su im trenutna zaduzenja 25 miliona a dugorna
dugovanja 67 miliona to odgovara njihovoj procentualnoj zastupljenosti u prodaji. Najmanje
prihoda ali i dugovanja ostvaruju najstariji prodavci sa preko 60 godina i to stalna imovina je
priblino 30 miliona , neto prihod 2,6 miliona, trenutna dugovanja 15 miliona i dugorona
dugovanja 41 milion. Ono to smo iz ovoga zakljuili jeste aktivnost po starosnim generacijama
uopte . Dalje ulazimo u malo dublju analizu da bi videli na koji nain bi promenom starosne
strukture mogli poboljati prodaju to jeste ko ume da napravi ravnoteu izmedju prihoda i
dugovanja.

5.2.Primena metode klasterovanja na dati problem

25

Data Mining

Velida Kijevanin - aban Graanin

Za reavanje napraviemo mininig base u IBM Intelligent Miner programu za israivanje


podataka. Prvo klasterovanje izvriemo na osnovu promenljive neto zarada. Taj mining emo
nazvati CLUSTER_TOTAL-_NETO_INCOME. Ulazni podaci e biti iz tabele
AVG_SEMI_ANNUAL_REPORT i kreiraemo tabelu CLUSTER_TOTAL_NETO_INCOME u
kojoj emo smestiti rezultate tog klasterovanja kako bih mogli dalje da ih ispitujemo.
Kao rezultat dobijamo sledei grafik:

CLUSTER_TOTAL_NET_INCOME

36

AVG_ TOTAL_ NET_ INCOM E

AVG_ TOTAL_ NET_ INCOM E

25

AVG_ TOTAL_ NET_ INCOM E

21

18

AVG_ TOTAL_ NET_ INCOM E

Dobijamo 4 klastera kojima procentualno pripada:


0.klaster - 25% - zarada od 30 do 60 mil
1.klaster - 18% - zarada od 60 do 110 mil
2.klaster - 36% - zarada od -30 do 10 mil
3.klaster - 21% - zarada od 10 do 30 mil

Evo i statistikih detalja dobijenih o klasterovanju (broj klastera, broj prolaza,.,


minimalna i maksimalna vrednost ,standardna devijacija,)

26

Data Mining

Velida Kijevanin - aban Graanin

C L U S T E R _ T O T A L _ N E T _ IN C O M E
R e s u lt cre a te d : 0 2 /0 7 /0 8 1 6 :25 :5 6
R e s u lt F ile
M od e
U s e r S p e c ifie d P a ra m e te rs
M a xim u m N um b e r o f P a s s e s
M a xim u m N um b e r o f C lus te rs
M inin g R u n O u tp u ts
N um b e r o f P a s s e s P e rfo rm e d
N um b e r o f C lu s te rs
D e v ia tio n

:
:

C :\D O C U M E ~1 \U K IC A ~1 .L A P \ L O C A L S ~ 1 \ T e m p \L 0 7 J L X
T ra in in g

:
:

20
4

:
:
:

20
4
0 .00 1 5 8 85 7

C lu s te r C h a ra c te r is tic s :
Id

C lus te r S iz e
A b s o lu te
R e la tiv e (% )

0
1

105
73

|
|
|
|
|

2 5 .3 6
1 7 .6 3

Id

C lus te r
A b s o lu te

2
3

151
85

R e fe re n c e F ie ld C ha r a c te ris tic s ( F o r A ll F ie ld T yp e s ) :

(F ie ld T yp e s : [ ]=S u p p le m e nta ry . C A =C a te g o ric a l, C O =C o n tin u o us N u m e ric , D N =D is c re te N u m e ric )


Id

N am e

T yp e

A V G _ T O T A L _ N E T _ IN C O MCEO

M od a l
V a lu e

M od a l
F re q u e nc y (% )

5E 6

2 0 .0 5

N o . o f P o s s ib le
V a lu e s / B u c k e ts
14

R e fe re n c e F ie ld C ha r a c te ris tic s ( F o r N u m e r ic F ie ld s O nly ) :


Id

N am e

M inim u m
V a lu e

A V G _ T O T A L _ N E T _ IN C O M-2
E .68 7 2 E 7

M a xim u m
V a lu e

M ea n

S ta n d a rd
D e v ia tio n

1 .35 1 0 3 E 8

3 .25 9 7 4 E 7

3 .44 6 0 3 E 7

Kao to moemo videti izvreno je prosto grupisanje po vrednosti neto zarade na etiri
grupe od kojih se u prvoj neto zarada kree od -30 miliona do 10 miliona (klaster 2) tu su oni koji
ostvaruju najniu zaradu, sledee dve grupe su od 10 do 30 miliona i druga od 30 do 60 miliona
(klasteri 3 i 0) i na kraju oni sa najveom neto zaradom od 60 miliona do 110 miliona (klaster 1)
Moemo sada na osnovu dobijenih rezultata obliku tabele pogledati kakva je starosna
struktura dobijenih klastera. Kreirajmo pogled nad ovom tabelom i tabelom
SALES_DEMOGRAPHIC.
connect to gomr;
create view gomr.cluster_tni_avg_age (age_group, precent, cluster)
as
select s.age_group_code,avg(s.sales_percent), c.cluster
from gomr.cluster_total_net_income as c, gomr.sales_demographic as s
where c.retailer_codemr = s.retailer_codemr
group by s.age_group_code, c.cluster;

27

Data Mining

Velida Kijevanin - aban Graanin

Rezultati dobijeni u ovoj tabeli su sledei:


Age_group
1
2
3
4
5
6

Cluster 0***
14
25
20
16
14
8

Cluster 1****
14
28
18
17
12
8

Cluster 2*
14
26
19
18
13
7

Cluster 3**
12
27
20
17
13
8

Sa zelenom bojom smo oznaili ako je procenat date starosne grupe u jednom klasteru
nii od veine drugih a crveno ako je vei. Zvedice pored klastera oznaavaju veliinu neto
zarade njegovih pripadnika. Moemo primetiti da se u klasteru 1 kome pripadaju prodavci sa
velikom neto zaradom nalaze minimumi po 3. i 5. starosnoj grupi i maksimumi po drugoj sto bi
moglo da se proita da mlai (starosne grupe 1. i 2. ) ostvaruju veu neto zaradu. Klasteri 0
ostvaruje maksimume po 3 i 5 a minimume po 2 i 4. starosnoj grupi to bi moglo ukazivati da
pomeranjem starosne granice na gore praeno je smanjenjem neto prihoda. Klaster broj 3 sa dve
zvezdice i minimumom najmlaih a maksimumom 3 genracije potvrdjuje ovaj zakljuak.
Takodje, i oni koji imaju najmanji prihod sa maksimumom po etvrtoj generaciji uklapaju
se u ovu sliku. Meutim iz tabele je jasno vidljivo da su procentualno jako slino rasporeene
starosne grupe po klasterima to jeste da su razlike jako male pa i gore navedeni zakljuci
preuranjeni.
Pogledaemo kakvo je stanje sa dugovima na celoj populaciji. Izviemo klasterovanje
na osnovu vrednosti atributa dugorocni dugovi. Evo rezulata klasterovanja
CLUST ER_LONG__TERM_DEBT

33

A VG_ LONG_ TER M _ DEB T

A VG_ LONG_ TER M _ DEB T

32

A VG_ LONG_ TER M _ DEB T

18

17

A VG_ LONG_ TER M _ DEB T

Dobijamo 4 klastera kojima procentualno pripada:


0.klaster - 33%
1.klaster - 18%
2.klaster - 32%
3.klaster -17%

28

Data Mining

Velida Kijevanin - aban Graanin

Evo i statistikih rezultata koje smo dobili. Kao i u prethodnom sluaju izvriemo
pogled nad dobijenim izlazom i tabelom SALES_DEMOGRAPHIC kako bih dobili pregled
starosne strukture u klasterima izraene u procentima.Rezultat dobijamo datim SQL upitom:
connect to gomr;
create view gomr.cluster_ltd_avg_age (age_group,precent,cluster) as
select s.age_group_code,avg( s.sales_percent), c.cluster
from gomr.sales_demographic as s, gomr.cluster_long__term_debt as c
where s.retailer_codemr = c.retailer_codemr
group by c.cluster, s.age_group_code;
connect reset;
Age_group

Cluster 0***

Cluster 1****

Cluster 2*

Cluster 3**

1
2
3
4
5
6

14
27
19
17
13
7

14
28
18
16
13
8

14
26
19
17
13
7

11
24
20
18
14
8

Zadrali smo iste oznake u tabeli i moemo na osnovu nje zakljuiti da je dugovanje
vee kod mlaih osoba(maksimum po prvoj i drugoj a minimumi po treoj i etvrtoj satarosnoj
grupi u koloni klastera 1.) a da je kod starijih dugorono dugovanje manje (maksimumi po
treoj,etvrtoj , petoj i estoj a minimumi po prvoj i drugoj satarosnoj grupi u koloni klastera 3).
Ako izvrimo klasterovanje nad istom tabelom ali po oba gore koriena argumenta dobijamo
sledei grafik:
CLUSTER_LTD_TNI

41

AVG_ LONG_ TERM _ DEB T

AVG_ TOTAL_ NET_ INCOM E

AVG_ TOTAL_ NET_ INCOM E

AVG_ LONG_ TERM _ DEB T

21

AVG_ LONG_ TERM _ DEB T

AVG_ TOTAL_ NET_ INCOM E

19

19

AVG_ LONG_ TERM _ DEB T

AVG_ TOTAL_ NET_ INCOM E

29

Data Mining

Velida Kijevanin - aban Graanin

Iz ovog grafika ne moemo zakljuiti nita o kvalitetu prodaje jer u onim klastrima iji
pripadnici imaju velike prihode oni i velike dugove i obrnuto to nam govori samo kvatitetu
prodaje ali ne i o njenom kvalitetu pa zakljuci koje smo prethodno doneli odnose se iskljuivo
na kvalitet.
Spojimo
tabele
CLUSTER_TOTAL_NET_INCOME
,
PROSEK_GOD
RETAILER_HEADQUARTERS i uzmimo samo one prodavce koji pripadaju 0-tom klasteru.

cluster_tni0
create view gomr.cluster_tni0
(avg_cost_of_goods_sold,avg_current_assets,avg_current_liabilities,avg_fixed_assets,
avg_long_term_debt,avg_total_net_income, avg_total_op_expenses,avg_total_revenue,
retailer_codemr,avg_age,segment_code )
as
select c.avg_cost_of_goods_sold, c.avg_current_assets, c.avg_current_liabilities,
c.avg_fixed_assets, c.avg_long_term_debt, c.avg_total_net_income, c.avg_total_op_expenses,
c.avg_total_revenue, c.retailer_codemr, p.avg_age, r.segment_code
from gomr.cluster_total_neto_income as c, gomr.prosek_god_poslovanje as p,gomr.
retailer_headquarters as r
where r.retailer_codemr =c.retailer_codemr and p.retailer_codemr =c.retailer_codemr and
c.cluster = '0'
Slino napravimo i poglede u kojima e biti smeteni prodavci koji pripadaju prvom,drugom i
trem klasteru. Evo upit i za ta tri pogleda:
cluster_tni1
create view gomr.cluster_tni1
((avg_cost_of_goods_sold,avg_current_assets,avg_current_liabilities,avg_fixed_assets,
avg_long_term_debt,avg_total_net_income, avg_total_op_expenses,avg_total_revenue,
retailer_codemr,avg_age,segment_code )
as
select c.avg_cost_of_goods_sold, c.avg_current_assets, c.avg_current_liabilities,
c.avg_fixed_assets,c.avg_long_term_debt, c.avg_total_net_income, c.avg_total_op_expenses,
c.avg_total_revenue, c.retailer_codemr, p.avg_age, r.segment_code
from gomr.cluster_total_neto_income as c, gomr.prosek_god_poslovanje as p,
gomr.retailer_headquarters as r
where r.retailer_codemr =c.retailer_codemr and p.retailer_codemr =c.retailer_codemr and
c.cluster = '1 '
cluster_tni2
create view gomr.cluster_tni2
(avg_cost_of_goods_sold,avg_current_assets,avg_current_liabilities,avg_fixed_assets,
avg_long_term_debt,avg_total_net_income, avg_total_op_expenses,avg_total_revenue,
retailer_codemr,avg_age,segment_code )
as
select c.avg_cost_of_goods_sold, c.avg_current_assets, c.avg_current_liabilities,
c.avg_fixed_assets, c.avg_long_term_debt, c.avg_total_net_income, c.avg_total_op_expenses,
c.avg_total_revenue, c.retailer_codemr, p.avg_age, r.segment_code
from gomr.cluster_total_neto_income as c, gomr.prosek_god_poslovanje as p,gomr.
retailer_headquarters as r

30

Data Mining

Velida Kijevanin - aban Graanin

where r.retailer_codemr =c.retailer_codemr and p.retailer_codemr =c.retailer_codemr and


c.cluster = '2 '
cluster_tni3
create view gomr.cluster_tni3
(avg_cost_of_goods_sold,avg_current_assets,avg_current_liabilities,avg_fixed_assets,
avg_long_term_debt,avg_total_net_income, avg_total_op_expenses,avg_total_revenue,
retailer_codemr,avg_age,segment_code )
as
select c.avg_cost_of_goods_sold, c.avg_current_assets, c.avg_current_liabilities,
c.avg_fixed_assets, c.avg_long_term_debt, c.avg_total_net_income, c.avg_total_op_expenses,
c.avg_total_revenue, c.retailer_codemr, p.avg_age, r.segment_code
from gomr.cluster_total_neto_income as c, gomr.prosek_god_poslovanje as p,gomr.
retailer_headquarters as r
where r.retailer_codemr =c.retailer_codemr and p.retailer_codemr =c.retailer_codemr and
c.cluster = '3 '
Dalje emo izvriti klasterovanje po dve promenljive dugorona dugovanja i neto zarada.
Isto emo uraditi i za klastere
0, 1,2 i 3. Rezultate uvamo u dokumentima:
CLUSTER_TNI0_LTD,
CLUSTER_TNI1_LTD,
CLUSTER_TNI2_LTD
i
CLUSTER_TNI3_LTD.
Klaster 0 . Evo i rezultata u obliku grafika koje emo analizirati. Pogledajmo
klasterovanje CLUSTER_TNI0_LTD. Potsetimo se da klasteru 0 pripadaju oni prodavci iji
neto prihod je izmedju 30 i 60 miliona odnosno da su oni druga grupa po veliini neto zarade,
takoe u njoj u njoj su procentualno ostvareni minimumi po drugoj i etvrtoj a maksimumi po
treoj i petoj starosnoj grupi to govori o malo starijoj starosnoj strukturi ovog klastera. Da
vidimo kakvo je stanje posle novog klasterovanja ko je sada bolji prodavac u okviru ove grupe.

CLUSTER_TNI0_LTD

3
4
2

36

AVG_ LONG_ TERM _ DEB T

AVG_ TOTAL_ NET_ INCOM E

[AVG_ AGE]

0
4
2

AVG_ LONG_ TERM _ DEB T

AVG_ TOTAL_ NET_ INCOM E

[AVG_ AGE]

24
1
4
2

AV G_ TOTAL_ NET_ INCOM E

AV G_ LONG_ TERM _ DEBT

21

[AVG_ AGE]

4
2

19

AVG_ LONG_ TERM _ DEB T

AVG_ TOTAL_ NET_ INCOM E

[AVG_ AGE]

31

Data Mining

Velida Kijevanin - aban Graanin

Pogledajmo prvi grafik u njemu vidimo etiri klastera koji su dobijeni po dugoronim dugovima i
neto prihodu.
Iz klastera 3. i 0. Ne saznajemo nita novo .Klaster 3 grupie one poslodavce kod kojih su i
prihodi i dugovanja srazmerno niski tako da nam ne daje opis ni dobrog ni loeg poslovanja.Kod
klastera 0 situacija je slina samo imamo srazmerno visoke prihode i dugovanja.
Nama su interesantni klasteri 1 i 2. U klasteru 2 imamo visoku neto zaradu i niska dugovanja
a u klasteru 1 nisku neto zaradu a visoka dugovanja. Pogledajmo njihove starosne strukture:
CLUSTER_TNI0_LTD Cluster 1

20.95% of population

1 (5%)

3 (27%)

4 (9%)

CLUSTER_TNI0_LTD Cluster 2

19.05% of population

4 (20%)

3 (30%)

2 (50%)

2 (59%)

[AVG_AGE]

[AVG_AGE]

U klasterima 3 i 0 veina poslodavaca pripada treoj prosenoj starosnoj generaciji.


Kod prvog klastera imamo veinski udeo druge starosne generacije dok kod drugog klastera pola
pripada drugoj 30 procenata treoj i ak 20 etvroj starosnoj generaciji to pomera starosnu
granicu na gore.Kod ovog poslovanja moemo zakljuiti da je iskustvo starijih radnika dovelo
do poboljanja rezultata .

Klaster 1 iz klasterovanja CLUSTER_TOTAL_NET_INCOME sadri one sa najveom neto


zaradom od 60 do 110 miliona.Evo kako izgleda novo klasterovanje izvreno na ovom poskupu
ukupne populacije.

32

Data Mining

Velida Kijevanin - aban Graanin

CLUSTER_TNI1_LTD

3
4
2

29

AVG_ LONG_ TERM _ DEB T

1
3

[AVG_AGE]

AVG_ TOTAL_ NET_ INCOM E

0
4
2

25

AVG_ LONG_ TERM _ DEB T

[AVG_AGE]

AVG_ TOTAL_ NET_ INCOM E

2
4
2

25

AV G_ TOTAL_ NET_ INCOM E

[AVG_AGE]

AVG_ LONG_ TERM _ DEBT

4
2

22

AV G_ TOTAL_ NET_ INCOM E

[AVG_AGE]

AVG_ LONG_ TERM _ DEBT

Slina situacij kao na prethodnom grafiku klasteri 3 i 0 imaju srazmerno male odnosno velike
prihode i dugovanja.
Klaster 2 prikazuje one koji dobro posluju ,velika neto zarada a mala dugorona dugovanja a oni
iz klastera jedan imaju najloije poslovanje.Pogledajmo starosne strukture ovih klastera.

CLUSTER_TNI1_LTD Cluster 3

28.77% of population

CLUSTER_TNI1_LTD Cluster 0

4 (14%)

1 (5%)

4 (17%)

2 (43%)

3 (38%)

2 (50%)

[AVG_AGE]

24.66% of population

3 (33%)

[AVG_AGE]

33

Data Mining

Velida Kijevanin - aban Graanin

CLUSTER_TNI1_LTD Cluster 2

24.66% of population

4 (11%)

3 (44%)

2 (44%)

CLUSTER_TNI1_LTD Cluster 1

21.92% of population

4 (13%)

3 (31%)

2 (56%)

[AVG_AGE]

[AVG_AGE]

Moemo primetiti da u sva etiri klastera najvei deo firmi ima prosenu starost prodavaca druge
i tree starosne grupe. One firme koje imaju najmladje poslodavce sve su ule u klaster 3 koji
ima i nisku zaradu i mala dugovanja.U klasteru nula koji ima visoku zaradu i velike dugove pola
pripada drugoj a pola treoj i etvrtoj grupi .
Klasteri 1 i 2 mogu svojom starosnom strukturom indukovati zakljuak da je pomeranje
starosne granice na gore u klasteru dva je poboljalo poslovanje.Naime, u klasteru 2 kod koga
je poslovanje bilo dobro imamo 44% procenta u drugoj i isto toliko u treoj starosnoj grupi dok je
ostalih 11% jo starije i pripada etvrtoj grupi .S druge strane kod klastera 1 koji ima loe
poslovanje imamo 12% vie druge generacije to dovelo do preovlaivanja
mlaih
poslodavaca.Dakle ovde bi bio zakljuak to starije to iskusnije i prodaja je bolja.
Ovo je bilo istraivanje nad 43% ukupne populacije i to onih 43% koji ostvaruju zaradu i imaju
zaduenja vea od prosenih zarada i zaduenja.Kakva je situacija sa drugom polovinom
videemo u nastavku.
Klaster 2 klasterovanja CLUSTER_TOTAL_NETO_INCOME obuhvata poslodavce sa neto
zaradom od -30 do 10 miliona to su oni koji ostvaruju najniu zaradu .Sa grafika moemo
videti da je u klasteru 3 mala zarada i dugovanja a u nultom visoka i zarada i dugovanja. Kako
nam se ponavlja odnos traenih promenljivih u klasterima
Opet emo razmotriti prvi i drugi klaster i na osnovu njihovih starosnih struktura ovog puta
moemo zakjuiti da je dolo pomeranja granice na dole a poboljanja kvaliteta prodaje.

34

Data Mining

Velida Kijevanin - aban Graanin

CLUSTER_TNI2_LTD

3
2

AVG_ TOTAL_ NET_ INCOM E

3
4

[AVG_AGE]

AVG_ LONG_ TERM _ DEBT

59

AVG_ TOTAL_ NET_ INCOM E

3
4

[AVG_AGE]

AVG_ LONG_ TERM _ DEBT

2
2

AVG_ TOTAL_ NET_ INCOM E

3
4

[AVG_AGE]

AVG_ LONG_ TERM _ DEBT

23

2
4

11
AVG_ TOTAL_ NET_ INCOM E

[AVG_AGE]

AVG_ LONG_ TERM _ DEBT

Pogledajmo grafike njihovih starosnih struktura. Moemo primetiti da u klasteru 2 koji


ima najbolje poslovanje u grupi procenat mlaih poslodavaca je porastao za 7% u odnosu na prvi
klaster gde je poslovanje najneuspenije.
CLUSTER_TNI2_LTD Cluster 2

11.26% of population

2 (47%)

[AVG_AGE]

CLUSTER_TNI2_LTD Cluster 1

3 (35%)

2 (40%)

4 (18%)

4 (20%)

6.62% of population

3 (40%)

[AVG_AGE]

35

Data Mining

Velida Kijevanin - aban Graanin

CLUSTER_TNI3_LTD

0
2

32

AVG_ LONG_ TERM _ DEB T

4
3

[AVG_AGE]

AVG_ TOTAL_ NET_ INCOM E

3
2

AVG_ TOTAL_ NET_ INCOM E

4
3

[AVG_AGE]

AVG_ LONG_ TERM _ DEB T

31

1
2

AVG_ LONG_ TERM _ DEB T

4
3

[AVG_AGE]

AVG_ TOTAL_ NET_ INCOM E

22
2

15

AVG_ LONG_ TERM _ DEB T

4
3

[AVG_AGE]

AVG_ TOTAL_ NET_ INCOM E

I na kraju klaster 3 sa zaradom od 10 do 30 miliona I ovde dojamo 3. I 0. Klaster koji nam ne


daju bitne informacije i klaster 2 sa najboljim poslovanjem i njemu nasuprot klaster 1. sa
loim poslovanjem.
CLUSTER_TNI3_LTD Cluster 1

22.35% of population

2 (42%)

4 (21%)

CLUSTER_TNI3_LTD Cluster 2

15.29% of population

2 (62%)

4 (15%)

3 (37%)

[AVG_AGE]

3 (23%)

[AVG_AGE]

Kao i u prethodno i ovde je porast mlaeg stanovnitva uticao na bolju prodaju. ak je 20%
vie je poslodavaca iz generacije 2 u klasteru 2 u odnosu na klaster 1.Kao to vidimo polovina
populacije koja ima manje prihode bolje posluje ako ima vie mladih prodavaca.

36

Data Mining

Velida Kijevanin - aban Graanin

6.Zakljuak
Iz prethodnog videli smo ko najvie radi i ko najvie troi , i to su ubedljivo prodavci od
21. do 30. godina. Ono to je vidljivo da im se odmah pridruuje starosna sredina a da su
najmanje aktivni oni najmlai i najstariji.
Daljim istraivanjem dobili smo i informacije u kome odgovaraju sitnije a kome vee
firme. Moemo doneti zakljuak da u firmama sa jako velikim prihodima i profitima bolje se
pokazuju stariji prodavci dok u firmama u kojima su niski prihodi i profiti bolje se pokazuju
mladji prodavci. Pa bi generalno za vei obrt novca trebalo angaovati osobe sa vie iskustva
dok za manje firme predlog bi bi bio da treba zaposliti mlae energinije prodavce. Ovakva
istraivanja ima smisla izvoditi i na osnovu njih bi poslodavci mogli da sa velikom sigurnou
biraju prodavce koji e imati najbolje poslovanje.

Literatura koriena za rad:


1) Z. Tang, J MacLennan, Data Mining with SQL Server 2005, Indianapolis:
Wilez Publishing Inc., 2005.
2) Panian, ., Klepac, G.,: Poslovna inteligencija, MASMEDIA, Zagreb,
2003., str 78
3) Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data
Mining, ISBN 0-321-20448-4
4) I.H.Witten, E. Frank, Data Mining: Practical Machine Learning Tools and
Techniques, Elsevier Inc., 2005
5) Max Bramer, British Library Cataloguing in Publication Data, SpringerVerlag London Limited 2007

Literarura koriena za primer 1:


Research future, Crime Data Mining: A General Framework and Some Examples,
Rutgers University, Maj 2009

Literatura koriena za primer 2:

Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data


Mining, ISBN 0-321-20448-4
IBM DB2 Intelligent Miner Visualization,Using the Intelligent Miner
Visualizers

37

Data Mining

Velida Kijevanin - aban Graanin

IBM DB2 Intelligent Miner for Data, Using the Intelligent Miner for Data

38

You might also like