Professional Documents
Culture Documents
Data Mining
Data Mining
UNIVERZITET U KRAGUJEVCU
Kragujevac, 20.05.2009.godine
1
Data Mining
DATA MINING
Sve je u podacima, samo treba nai
UVOD
U savremenim uslovima poslovanja koje karakterie izrazit proces globalizacije,
neizvesnost, rizik i konkurencija, preduzea moraju da se svakodnevno bore za
odravanje trinog uea i ostvarivanje boljih poslovnih rezultata. Da bi se to postiglo
preduzea moraju uvek biti korak ispred konkurencije, tj. moraju da predvide potrebe
svojih klijenata i svakom klijentu moraju pristupati individualno.
Usled intenzivnog razvoja informatike infrastrukture skoro sve firme, a posebno
one vee, uvaju velike koliine podataka o poslovanju, svakom klijentu i kretanjima u
okruenju. Dnevni unos informacija koje velike firme pohranjuju u svoje baze podataka,
meri se terabajtima. Rei emo samo da u jedan terabajt stane dovoljno teksta za oko dva
miliona knjiga. Izvori tih informacija su razliiti (interni, eksterni, analitiki), informacije
mogu biti atributivne ili numerike, mogu se odnositi na faktore koje utiu na poslovanje
firme, interne procedure, na korisnike usluga preduzea (potroae), poslovanje
konkurencije, poslovnu okolinu. Meutim, ovako sirovi podaci, neadekvatno
strukturirani, razliitih formata, nemaju preterano veliku upotrebnu vrednost. Neophodno
ih je pripremiti, analizirati i na osnovu toga doi do informacija (znanja) koja mogu
preduzeu obezbediti ostvarenje poslovnog uspeha.
Obzirom na injenicu da se radi o velikim koliinama podataka, prosto je
nemogue da ovek sam vri analize. Analize se preputaju za to posebno razvijenim
programima. Nova vrsta tehnologije iji cilj je upravo reavanje problema sa kojim su se
firme suoile jeste Business Intelligence. Business Inteligence (BI) obuhvata iroki skup
aplikacija i tehnologija za prikupljanje podataka, lak pristup podacima i ekspertsku
analizu podataka, a u cilju obezbeivanja adekvatne podrke procesu odluivanja. BI
predstavlja familiju proizvoda u koju spadaju : OLAP (Online Analytical Processing)
proizvodi, Data mining proizvodi i proizvodi za kreiranje izvetaja.1
Z. Tang, J MacLennan, Data Mining with SQL Server 2005, Indianapolis: Wilez Publishing Inc., 2005.
Data Mining
Data Mining
Izvor: Panian, ., Klepac, G.,: Poslovna inteligencija, MASMEDIA, Zagreb, 2003., str 782
Data Mining
Pang-Ning Tan, Michael Steinbac, Vipin Kumar, : Introduction to Data Mining, ISBN 0-321-20448-4
Data Mining
grupisane podatke o potroaima prema tome : da li imaju Klubsku kreditnu karticu, ive
dalje od 10 milja od marketa, imaju 2 automobila... i njihovoj lojalnosti prema grupama.
Svi DM modeli se uglavnom sastoje iz Nezavisnih promenjivih ( predictors ) i
Zavisnih promenjivih ( responses ). Tako npr, kompanije za osiguranje automobila mogu
skupljati podatke o potroaima, o veliini njihove porodice, kreditnom rejtingu. Ove
informacije ( nezavisne promenjive ) mogu se upotrebiti da se predvide gubici po
pojedinim grupama potroaa, ili da se odredi koji potroai e najverovatnije kupiti novi
prozivod firme ( zavisne promenjive ).
1.4. Neophodna infrastruktura za upotrebu DM
Sam proces DM je neraskidivo vezan za raunare. Uz pomo posebnih programa,
analiziraju se podaci iz razliitih uglova. Treba meutim uvek imati u vidu da su softveri
samo alatka, i da je i dalje neophodno prisustvo ljudskih eksperata. Ipak, kompjuterski
sistemi su nezamenjivi, zbog brzine, a prevashodno zbog izbegavanja predrasuda koje
inae postoje kod ljudi. Kompjuterske greke nisu mogue, a pri analizi ovek ne bi ni
primetio neke veze izmeu podataka, jer se one nalaze izvan njegovih oekivanja.
Zanimljiv primer je lanac supermarketa Wal Mart u Americi, koji je koristei SPSS-ov
Clementine softver za DM, otkrio da su mukarci koji kupuju etvrtkom da bi izbegli
vikend guve, uz pelene za decu kupovali i Coca Colu. Coca cola se kupovala da bi se
pripremili za predstojei vikend. Zahvajlujui ovoj informaciji, poveani su prihodi u
supermarketima tako to je vitrina sa Coca Colom pomerena blie polici sa pelenama.
Danas su ovi programi pristupani za velike sisteme, kao i za PC-e. Cena softvera
varira, od nekoliko hiljada dolara do nekoliko miliona dolara. Dva osnovna uslova za
izbor softvera su veliina baze podataka, i kompleksnost pitanja na koje traimo
odgovore. Jasno je da za vee koliine podataka koje analiziramo i sloenija pitanja za
koja traimo odgovore , moramo koristiti monije programe.
DM se moe primeniti u svim onim oblastima gde se raspolae velikim
koliinama podataka ijom analizom se ele otkriti odreena pravila, zakonitosti i veze.
Stoga treba pomenuti i koncept Data Werhousing-a, koji koriste sve velike svetske
kompanijeu u cilju integracije podataka u jednu bazu, na osnovu koje krajnji korisnici
mogu sprovoditi ad-hock analize, praviti izvetaje, predvidjati i donositi odluke. Koncept
Data Werhousing-a ( Skladitenja podataka ) ima za cilj prikupljanje i distribuciju
informacija kroz preduzee, uz omoguavanje multidimenzionalnog pristupa podacima
kakav je danas neophodan za donoenje poslovnih odluka.
1.5. Faze u procesu Data Mining-a
ivotni ciklus jednog data mining projekta se sastoji iz sledeih osam koraka :
1. Sakupljanje podataka je obino prvi korak u data mining projektu. Poslovni podaci
su uskladiteni u brojnim sistemima , internetu, bazama podataka kompanija, i prvi
korak obino predstavlja prenos relevantnih podataka u bazu podataka gde se podaci
Data Mining
analiziraju. Ponekad postoji i skladite podataka to olakava dalji rad ali u velikom
broju sluajeva podaci koji su sakupljeni mogu biti nedovoljno korisni za analizu te se
zbog toga neophodni podaci moraju sakupiti iz drugih izvora. Nakon to se sakupe,
podaci se mogu semplovati da bi se smanjila veliina trening skupa podataka. U
mnogim sluajevima, obrasci koji su pronaeni na skupu od 50 000 kupaca su isti kao
i oni pronaeni na trening skupu od 1 000 000 kupaca.
2. Filtiriranje podataka i transformacija je najintenzivniji korak u data mining
projektu kad su resursi u pitanju. Cilj filtriranja podataka je odstranjivanje irelevantnih
i suvinih informacija iz skupa podataka. To podrazumeva uklanjanje duplih i
nepotpunih podataka, njihovu tranformaciju i jedinstven sistem podataka, izabiranje
podgrupa podataka, odredjivanje broja promenjivih sa kojima je moguce raditi. Cilj
transformacije podataka je promena izvornog podatka u drugaiji format tipa
podataka. Postoje razliiti tehnike koje se mogu primeniti za korak filtriranja i
transformaciju podataka, a najee koriene su; transformacija tipova podataka,
neprekidna transformacija kolona, grupisanje, rad sa vrednou koja nedostaje,
brisanje abnormalnih sluajeva itd.
3. Kreiranje i izbor modela je trei korak koji se primenjuje nakon filtriranja i
transformacije podataka. Tek kada se podaci filtriraju i kada se promenljive
transformiu u pogodne tipove podataka, moe se zapoeti sa kreiranjem modela. Pre
kreiranja modela treba da razumemo cilj data mining projekta i vrstu data mining
zadatka koji e se koristiti. Za svaki data mining problem postoji nekoliko
odgovarajuih algoritama. Preciznost algoritma zavisi od prirode podataka kao to su;
broj stanja atributa koji se koriste za predvianje, prenos vrednosti svakog atributa,
veza izmeu atributa itd. U ovom poetnom delu projekta potrebno je sastaviti tim
poslovnih analitiara koji su eksperti u odreenoj oblasti.
4. Procena kvaliteta modela U delu kreiranja modela mi kreiramo skup modela
koristei algoritme i tehnike DM-a , ali nakon kreiranja moramo izvriti i evaluaciju
tog modela. Postoji nekoliko popularnih alata za evaluaciju kvaliteta modela.
Najpoznatiji je lift dijagram. On koristi ve istreniran model kako bi predvideo
vrednosti koje e se dobiti iz skupa podataka koji se testira. Na osnovu vrednosti koje
se dobiju i verovatnoe on grafiki prikazuje model na dijagramu.
5. Kreiranje izvetaja Nakon kreiranja modela i evaluacije kvaliteta tog modela vri se
kreiranje izvetaja koji se dostavljaju menaderima na uvid. Veina data mining alata
ima osobinu kreiranja izvetaja koji omoguuje korisnicima da generiu prethodno
definisan izvetaj sa tekstualnim i grafikim detaljima data mining modela. Postoje
dva osnovna tipa izvetaja: izvetaji o pronaenim obrascima i izvetaji o predvienim
vrednostima modela.
6. Ocenjivanje modela U mnogim data mining projektima, pronalaenje obrazaca i
modela je samo pola posla; konani cilj je upotreba tog modela za predvianje.
Predvianje se jo naziva i scoring u data mining terminologiji. Da bi dobili
predviene vrednosti moramo da imamo ve istrenirani model i skup novih podataka.
Data Mining
I.H. Witten., E. Frank., : Practical Machine Learning Tools and Techniques, Elsevier Inc., 2005
Data Mining
Data Mining
Max Bramer, British Library Cataloguing in Publication data, Springer-Verlag London limited, 2007
10
Data Mining
11
Data Mining
12
Data Mining
8) Rule indication
Upotreba ove metode zasniva se na prolasku kroz bazu podataka upotrebljavajui
logike funkcije na varijablama, i raunajui verovatnou pojave takvog dogaaja,
pojedinih zapisa, kako bi se dolo do skrivenih informacija. Kako bi se moglo doi do
skrivenih informacija, potrebno je proi kroz to vie moguih meusobnih kombinacija
varijabli (sve kombinacije), to drastino usporava i poskupljuje ovu metodu. Ako
odbacujemo pojedine varijable kao nevane, tada postoji mogunost da neemo videti
vezu izmeu pojedinih podataka i model uiniti manje tanim. Osim s tehnike strane,
pretraivanje slinosti pojednih podataka po svim varijablama esto daje ogroman broj
povezanosti izmeu pojedinih podataka, pa je ponekad potreban jo jedan prolaz kroz
dobijeni rezultat kako bi se izolovali oni zakljuci koji su najinteresantniji.
Modeli koji se baziraju na upotrebi rule inidication pokazali su se meu tanijima
(tanije daju neuronske mree), ali su za razliku od neuronskih mrea jednostavniji za
korienje.
9) Metoda K Najblizeg Suseda ( K Nearest neighbors )
Poboljanje u odnosu na metodu najblieg suseda je u tome to se posmatra
ponaanje nekoliko slinih podataka, a ne samo jedan. Samim tim (statistiki) moi emo
tanije predvideti ponaanje i svojstva pojedinog podatka. Ovakav algoritam je vrlo lako
implementirati.
13
Data Mining
K-means clustering
Genetski algoritmi
Samoorganizujue mape (engl. Self organized maps)
Kao metoda se moda moe spomenuti i statistika, ali ona vie daje pogled na
povezanost varijabli u prolosti, nego to daje pogled u budunost.
14
Data Mining
15
Data Mining
16
Data Mining
17
Data Mining
18
Data Mining
LITERATURA:
19
Data Mining
PRIMER 1
Upotreba DM u analizi kriminalnih mreza
Kriminalne grupe cesto razvijaju svoje mreze, u okviru kojih se organizuju
podgrupe I bande kako bi se izvodile razne vrste kriminalnih aktivnosti. Data Mining se
moze iskoristiti za indentifikovanje ovih podgrupa ( bandi ), I utvrdjivanje nacina
komuniciranja I interakcije izmedju njih, kako bi se sprecile mnoge ilegalne aktivnosti I
zlocini.
Analizirajuci bazu podataka 272 Policijske Stanice u Tusonu, predstavnici
Univerziteta u Arizoni I Hong Kongu, analizirali su Izvestaje o 164
zlocina pocinjena u periodu od 1985 do 2002. Koriscen je prostorni
koncept ( tehnika ) , kako bi se utvrdile veze izmedju podgrupa I
definisala mreza bandi. Stepen povezanosti izmedju pojedinih
podgrupa meren je prema prema tome koliko su se cesto njihova
imena zajedno pominjala u istim zlocinima. Koriscena je metoda
Clastering-a, kako bi se cela kriminalna mreza na tom podrucju podelila
na podgrupe ( bande ), I block-modeling pristup za utvrdjivanje veza I
komunikacije izmedju istih. Isti pristup je koriscen I za utvrdjivanje
vodja bandi . Dobijeni su sledeci rezultati :
Grafikon 1 - Pokazuje da je koriscenjem DM utvrdjeno 16 vodja
kriminalnih grupa,cija su imena obelezena crvenim slovima, kao I
mesta na kojima su se desavali zlocini.
20
Data Mining
21
Data Mining
22
Data Mining
PRIMER 2
Zavisnost kvaliteta poslovanja od starosne strukture prodavaca
Uvod
Uspesnost malih i srednjih preduzeau velikoj meri zavisi od starosne strukture zaposlenih a
posebno od prodavaca u maloprodajnim objektima. Ova preduzea nemaju posebne slube koje
se bave upravljanjem kadrova i strategijom zapoljavanja i po pravilu se oslanjaju na iskustvo
vlasnika preduzea i opte-prihvaena miljenja koja nisu uvek tana. Pogrean izbor zaposlenih
moe imati veoma negativan uticaj na poslovanje preduzea a da vlasnici nisu svesni uzroka loih
poslovnih rezultata. Mnoga istraivanja i postojeci savremeni softverskih paketi esto nisu
dostupni malim i srednjim preduzeima iako bi njihova primena mogla da ima znaajan uticaj na
ostvarivanje dobrih poslovnih rezultata.
Cilj ovog istrazivanja je da se uradi analiza uticaja starosne structure prodavaca u malim I
srednjim preduzeima na poslovanje, primenom odgovarajueg softverskog paketa I tehnike
data mining-a. Na osnovu analize odreen je kriterijum pri zapoljavanju novih radnika u
maloprodajnim preduzeima. Izvrena je analiza zavisnosti kvaliteta prodaje od starosne strukture
prodavaca na uzorku od 414 razliitih maloprodajnih firmi ije je poslovanje praeno
polugodinjim izvetajima u vremenskom periodu od tri godine (2004-2006).
Istraivanje je vreno neuralnim klasterovanjem jednom od tehnika data mining-a. Kao
rezultat dobijamo ablone u obliku klastera sa odgovarajuim karakteristikama koje mogu
opisivati dobru ili lou prodaju i odgovarajuom starosnom strukturom prodavaca koja je za to
odgovorna.
Kako jo uvek nije dostupna realna baza o poslovanju preduzea u Novom Pazaru rad je
realizovan nad modelom i bazom podataka o poslovanju maloprodajnih preduzea iz razliitih
zemlja koja je uesnicima uprojektu bila dostupna preko interneta.
Alat koji je korien za istraivanje je softverski paket DB2 Inteligent Minner firme IBM. Ovaj
alat nam omoguava korienje niza tehnika data mining-a, statistikih metoda itd., kao i
mogunost vizuelnog predstavljanja rezultata koji su dobijeni.
1. Problem i cilj
Problem: Analiza uticaja staosne strukture prodavaca na poslovanje maloprodajnih preduzeca.
Polazne informacije potrebne za reenje problema:
-podela u grupe po godinama zaposlenih ( tabela AGE-GROUP )
-informacije o vrsti posla kojom se bavi svaka firma ( tabela RETAILERHEADQUARTERS )
-podaci o vrsti artikala koji se prodaju u kom objektu (tabela RETAILER-SEGMENT)
-struktura prodaje po pripadnosti prodavaca odredjenom starosnom dobu ( tabela
SALES_DEMOGRAPHIC)
-polugodisnji izvestaji o poslovanju za prodavce ( tabela SEMI-ANNUAL-REPORT )
23
Data Mining
1
2
3
4
5
6
24
Data Mining
Slede sql upit za dobijanje ovog pogleda i tabela rezultata (Tabela 5.2).
connect to gomr;
create view gomr.avg_sales_age (age_group_code, fixed_assets, current_liabilitie,
long_term_debt, total_net_income) as
select sd.AGE_GROUP_CODE, avg(sd.SALES_PERCENT*sar.FIXED_ASSETS/100),
avg(sd.SALES_PERCENT*sar.CURRENT_LIABILITIES/100),
avg(sd.SALES_PERCENT*sar.LONG_TERM_DEBT/100),
avg(sd.SALES_PERCENT*sar.TOTAL_NET_INCOME/100)
from gomr.SALES_DEMOGRAPHIC as sd, GOMR.SEMI_ANNUAL_REPORT as sar
where sd.RETAILER_CODEMR=sar.RETAILER_CODEMR
group by sd.AGE_GROUP_CODE;
Kretanje parametara uspesnosti poslovanja po starosnim grupama
Table 1
age_group_code
1
2
3
4
5
6
Iz tabele je lako uoljivo da je druga starosna grupa prodavaca sa svojih oko 95 miliona
fiksne imovine i prihoda oko 9 miliona najprofitabilnija, ali sa druge strane ona je i najzaduenija
sa trenutnim dugovanjma od blizu 50 miliona i oko 133 miliona dugoronih dugovanja. Prodavci
stari od 31 do 50 godina su dosta iza prve grupe sa oko 60 miliona stalne imovine i oko 6 miliona
neto prihoda, njihova dugovanja su srazmerno njihovoj zaradi manja, trenutna dugovanja su im
oko 31 milion i 85 miliona dugoronih dugovanja. U treu grupu moemo smestiti prodavce od
51 do 60 godina i one mlae od 21 godinu. Njihova fiksna imovina se kree oko 49 miliona a
prihod im je priblino 4,5 miliona ,dok su im trenutna zaduzenja 25 miliona a dugorna
dugovanja 67 miliona to odgovara njihovoj procentualnoj zastupljenosti u prodaji. Najmanje
prihoda ali i dugovanja ostvaruju najstariji prodavci sa preko 60 godina i to stalna imovina je
priblino 30 miliona , neto prihod 2,6 miliona, trenutna dugovanja 15 miliona i dugorona
dugovanja 41 milion. Ono to smo iz ovoga zakljuili jeste aktivnost po starosnim generacijama
uopte . Dalje ulazimo u malo dublju analizu da bi videli na koji nain bi promenom starosne
strukture mogli poboljati prodaju to jeste ko ume da napravi ravnoteu izmedju prihoda i
dugovanja.
25
Data Mining
CLUSTER_TOTAL_NET_INCOME
36
25
21
18
26
Data Mining
C L U S T E R _ T O T A L _ N E T _ IN C O M E
R e s u lt cre a te d : 0 2 /0 7 /0 8 1 6 :25 :5 6
R e s u lt F ile
M od e
U s e r S p e c ifie d P a ra m e te rs
M a xim u m N um b e r o f P a s s e s
M a xim u m N um b e r o f C lus te rs
M inin g R u n O u tp u ts
N um b e r o f P a s s e s P e rfo rm e d
N um b e r o f C lu s te rs
D e v ia tio n
:
:
C :\D O C U M E ~1 \U K IC A ~1 .L A P \ L O C A L S ~ 1 \ T e m p \L 0 7 J L X
T ra in in g
:
:
20
4
:
:
:
20
4
0 .00 1 5 8 85 7
C lu s te r C h a ra c te r is tic s :
Id
C lus te r S iz e
A b s o lu te
R e la tiv e (% )
0
1
105
73
|
|
|
|
|
2 5 .3 6
1 7 .6 3
Id
C lus te r
A b s o lu te
2
3
151
85
R e fe re n c e F ie ld C ha r a c te ris tic s ( F o r A ll F ie ld T yp e s ) :
N am e
T yp e
A V G _ T O T A L _ N E T _ IN C O MCEO
M od a l
V a lu e
M od a l
F re q u e nc y (% )
5E 6
2 0 .0 5
N o . o f P o s s ib le
V a lu e s / B u c k e ts
14
N am e
M inim u m
V a lu e
A V G _ T O T A L _ N E T _ IN C O M-2
E .68 7 2 E 7
M a xim u m
V a lu e
M ea n
S ta n d a rd
D e v ia tio n
1 .35 1 0 3 E 8
3 .25 9 7 4 E 7
3 .44 6 0 3 E 7
Kao to moemo videti izvreno je prosto grupisanje po vrednosti neto zarade na etiri
grupe od kojih se u prvoj neto zarada kree od -30 miliona do 10 miliona (klaster 2) tu su oni koji
ostvaruju najniu zaradu, sledee dve grupe su od 10 do 30 miliona i druga od 30 do 60 miliona
(klasteri 3 i 0) i na kraju oni sa najveom neto zaradom od 60 miliona do 110 miliona (klaster 1)
Moemo sada na osnovu dobijenih rezultata obliku tabele pogledati kakva je starosna
struktura dobijenih klastera. Kreirajmo pogled nad ovom tabelom i tabelom
SALES_DEMOGRAPHIC.
connect to gomr;
create view gomr.cluster_tni_avg_age (age_group, precent, cluster)
as
select s.age_group_code,avg(s.sales_percent), c.cluster
from gomr.cluster_total_net_income as c, gomr.sales_demographic as s
where c.retailer_codemr = s.retailer_codemr
group by s.age_group_code, c.cluster;
27
Data Mining
Cluster 0***
14
25
20
16
14
8
Cluster 1****
14
28
18
17
12
8
Cluster 2*
14
26
19
18
13
7
Cluster 3**
12
27
20
17
13
8
Sa zelenom bojom smo oznaili ako je procenat date starosne grupe u jednom klasteru
nii od veine drugih a crveno ako je vei. Zvedice pored klastera oznaavaju veliinu neto
zarade njegovih pripadnika. Moemo primetiti da se u klasteru 1 kome pripadaju prodavci sa
velikom neto zaradom nalaze minimumi po 3. i 5. starosnoj grupi i maksimumi po drugoj sto bi
moglo da se proita da mlai (starosne grupe 1. i 2. ) ostvaruju veu neto zaradu. Klasteri 0
ostvaruje maksimume po 3 i 5 a minimume po 2 i 4. starosnoj grupi to bi moglo ukazivati da
pomeranjem starosne granice na gore praeno je smanjenjem neto prihoda. Klaster broj 3 sa dve
zvezdice i minimumom najmlaih a maksimumom 3 genracije potvrdjuje ovaj zakljuak.
Takodje, i oni koji imaju najmanji prihod sa maksimumom po etvrtoj generaciji uklapaju
se u ovu sliku. Meutim iz tabele je jasno vidljivo da su procentualno jako slino rasporeene
starosne grupe po klasterima to jeste da su razlike jako male pa i gore navedeni zakljuci
preuranjeni.
Pogledaemo kakvo je stanje sa dugovima na celoj populaciji. Izviemo klasterovanje
na osnovu vrednosti atributa dugorocni dugovi. Evo rezulata klasterovanja
CLUST ER_LONG__TERM_DEBT
33
32
18
17
28
Data Mining
Evo i statistikih rezultata koje smo dobili. Kao i u prethodnom sluaju izvriemo
pogled nad dobijenim izlazom i tabelom SALES_DEMOGRAPHIC kako bih dobili pregled
starosne strukture u klasterima izraene u procentima.Rezultat dobijamo datim SQL upitom:
connect to gomr;
create view gomr.cluster_ltd_avg_age (age_group,precent,cluster) as
select s.age_group_code,avg( s.sales_percent), c.cluster
from gomr.sales_demographic as s, gomr.cluster_long__term_debt as c
where s.retailer_codemr = c.retailer_codemr
group by c.cluster, s.age_group_code;
connect reset;
Age_group
Cluster 0***
Cluster 1****
Cluster 2*
Cluster 3**
1
2
3
4
5
6
14
27
19
17
13
7
14
28
18
16
13
8
14
26
19
17
13
7
11
24
20
18
14
8
Zadrali smo iste oznake u tabeli i moemo na osnovu nje zakljuiti da je dugovanje
vee kod mlaih osoba(maksimum po prvoj i drugoj a minimumi po treoj i etvrtoj satarosnoj
grupi u koloni klastera 1.) a da je kod starijih dugorono dugovanje manje (maksimumi po
treoj,etvrtoj , petoj i estoj a minimumi po prvoj i drugoj satarosnoj grupi u koloni klastera 3).
Ako izvrimo klasterovanje nad istom tabelom ali po oba gore koriena argumenta dobijamo
sledei grafik:
CLUSTER_LTD_TNI
41
21
19
19
29
Data Mining
Iz ovog grafika ne moemo zakljuiti nita o kvalitetu prodaje jer u onim klastrima iji
pripadnici imaju velike prihode oni i velike dugove i obrnuto to nam govori samo kvatitetu
prodaje ali ne i o njenom kvalitetu pa zakljuci koje smo prethodno doneli odnose se iskljuivo
na kvalitet.
Spojimo
tabele
CLUSTER_TOTAL_NET_INCOME
,
PROSEK_GOD
RETAILER_HEADQUARTERS i uzmimo samo one prodavce koji pripadaju 0-tom klasteru.
cluster_tni0
create view gomr.cluster_tni0
(avg_cost_of_goods_sold,avg_current_assets,avg_current_liabilities,avg_fixed_assets,
avg_long_term_debt,avg_total_net_income, avg_total_op_expenses,avg_total_revenue,
retailer_codemr,avg_age,segment_code )
as
select c.avg_cost_of_goods_sold, c.avg_current_assets, c.avg_current_liabilities,
c.avg_fixed_assets, c.avg_long_term_debt, c.avg_total_net_income, c.avg_total_op_expenses,
c.avg_total_revenue, c.retailer_codemr, p.avg_age, r.segment_code
from gomr.cluster_total_neto_income as c, gomr.prosek_god_poslovanje as p,gomr.
retailer_headquarters as r
where r.retailer_codemr =c.retailer_codemr and p.retailer_codemr =c.retailer_codemr and
c.cluster = '0'
Slino napravimo i poglede u kojima e biti smeteni prodavci koji pripadaju prvom,drugom i
trem klasteru. Evo upit i za ta tri pogleda:
cluster_tni1
create view gomr.cluster_tni1
((avg_cost_of_goods_sold,avg_current_assets,avg_current_liabilities,avg_fixed_assets,
avg_long_term_debt,avg_total_net_income, avg_total_op_expenses,avg_total_revenue,
retailer_codemr,avg_age,segment_code )
as
select c.avg_cost_of_goods_sold, c.avg_current_assets, c.avg_current_liabilities,
c.avg_fixed_assets,c.avg_long_term_debt, c.avg_total_net_income, c.avg_total_op_expenses,
c.avg_total_revenue, c.retailer_codemr, p.avg_age, r.segment_code
from gomr.cluster_total_neto_income as c, gomr.prosek_god_poslovanje as p,
gomr.retailer_headquarters as r
where r.retailer_codemr =c.retailer_codemr and p.retailer_codemr =c.retailer_codemr and
c.cluster = '1 '
cluster_tni2
create view gomr.cluster_tni2
(avg_cost_of_goods_sold,avg_current_assets,avg_current_liabilities,avg_fixed_assets,
avg_long_term_debt,avg_total_net_income, avg_total_op_expenses,avg_total_revenue,
retailer_codemr,avg_age,segment_code )
as
select c.avg_cost_of_goods_sold, c.avg_current_assets, c.avg_current_liabilities,
c.avg_fixed_assets, c.avg_long_term_debt, c.avg_total_net_income, c.avg_total_op_expenses,
c.avg_total_revenue, c.retailer_codemr, p.avg_age, r.segment_code
from gomr.cluster_total_neto_income as c, gomr.prosek_god_poslovanje as p,gomr.
retailer_headquarters as r
30
Data Mining
CLUSTER_TNI0_LTD
3
4
2
36
[AVG_ AGE]
0
4
2
[AVG_ AGE]
24
1
4
2
21
[AVG_ AGE]
4
2
19
[AVG_ AGE]
31
Data Mining
Pogledajmo prvi grafik u njemu vidimo etiri klastera koji su dobijeni po dugoronim dugovima i
neto prihodu.
Iz klastera 3. i 0. Ne saznajemo nita novo .Klaster 3 grupie one poslodavce kod kojih su i
prihodi i dugovanja srazmerno niski tako da nam ne daje opis ni dobrog ni loeg poslovanja.Kod
klastera 0 situacija je slina samo imamo srazmerno visoke prihode i dugovanja.
Nama su interesantni klasteri 1 i 2. U klasteru 2 imamo visoku neto zaradu i niska dugovanja
a u klasteru 1 nisku neto zaradu a visoka dugovanja. Pogledajmo njihove starosne strukture:
CLUSTER_TNI0_LTD Cluster 1
20.95% of population
1 (5%)
3 (27%)
4 (9%)
CLUSTER_TNI0_LTD Cluster 2
19.05% of population
4 (20%)
3 (30%)
2 (50%)
2 (59%)
[AVG_AGE]
[AVG_AGE]
32
Data Mining
CLUSTER_TNI1_LTD
3
4
2
29
1
3
[AVG_AGE]
0
4
2
25
[AVG_AGE]
2
4
2
25
[AVG_AGE]
4
2
22
[AVG_AGE]
Slina situacij kao na prethodnom grafiku klasteri 3 i 0 imaju srazmerno male odnosno velike
prihode i dugovanja.
Klaster 2 prikazuje one koji dobro posluju ,velika neto zarada a mala dugorona dugovanja a oni
iz klastera jedan imaju najloije poslovanje.Pogledajmo starosne strukture ovih klastera.
CLUSTER_TNI1_LTD Cluster 3
28.77% of population
CLUSTER_TNI1_LTD Cluster 0
4 (14%)
1 (5%)
4 (17%)
2 (43%)
3 (38%)
2 (50%)
[AVG_AGE]
24.66% of population
3 (33%)
[AVG_AGE]
33
Data Mining
CLUSTER_TNI1_LTD Cluster 2
24.66% of population
4 (11%)
3 (44%)
2 (44%)
CLUSTER_TNI1_LTD Cluster 1
21.92% of population
4 (13%)
3 (31%)
2 (56%)
[AVG_AGE]
[AVG_AGE]
Moemo primetiti da u sva etiri klastera najvei deo firmi ima prosenu starost prodavaca druge
i tree starosne grupe. One firme koje imaju najmladje poslodavce sve su ule u klaster 3 koji
ima i nisku zaradu i mala dugovanja.U klasteru nula koji ima visoku zaradu i velike dugove pola
pripada drugoj a pola treoj i etvrtoj grupi .
Klasteri 1 i 2 mogu svojom starosnom strukturom indukovati zakljuak da je pomeranje
starosne granice na gore u klasteru dva je poboljalo poslovanje.Naime, u klasteru 2 kod koga
je poslovanje bilo dobro imamo 44% procenta u drugoj i isto toliko u treoj starosnoj grupi dok je
ostalih 11% jo starije i pripada etvrtoj grupi .S druge strane kod klastera 1 koji ima loe
poslovanje imamo 12% vie druge generacije to dovelo do preovlaivanja
mlaih
poslodavaca.Dakle ovde bi bio zakljuak to starije to iskusnije i prodaja je bolja.
Ovo je bilo istraivanje nad 43% ukupne populacije i to onih 43% koji ostvaruju zaradu i imaju
zaduenja vea od prosenih zarada i zaduenja.Kakva je situacija sa drugom polovinom
videemo u nastavku.
Klaster 2 klasterovanja CLUSTER_TOTAL_NETO_INCOME obuhvata poslodavce sa neto
zaradom od -30 do 10 miliona to su oni koji ostvaruju najniu zaradu .Sa grafika moemo
videti da je u klasteru 3 mala zarada i dugovanja a u nultom visoka i zarada i dugovanja. Kako
nam se ponavlja odnos traenih promenljivih u klasterima
Opet emo razmotriti prvi i drugi klaster i na osnovu njihovih starosnih struktura ovog puta
moemo zakjuiti da je dolo pomeranja granice na dole a poboljanja kvaliteta prodaje.
34
Data Mining
CLUSTER_TNI2_LTD
3
2
3
4
[AVG_AGE]
59
3
4
[AVG_AGE]
2
2
3
4
[AVG_AGE]
23
2
4
11
AVG_ TOTAL_ NET_ INCOM E
[AVG_AGE]
11.26% of population
2 (47%)
[AVG_AGE]
CLUSTER_TNI2_LTD Cluster 1
3 (35%)
2 (40%)
4 (18%)
4 (20%)
6.62% of population
3 (40%)
[AVG_AGE]
35
Data Mining
CLUSTER_TNI3_LTD
0
2
32
4
3
[AVG_AGE]
3
2
4
3
[AVG_AGE]
31
1
2
4
3
[AVG_AGE]
22
2
15
4
3
[AVG_AGE]
22.35% of population
2 (42%)
4 (21%)
CLUSTER_TNI3_LTD Cluster 2
15.29% of population
2 (62%)
4 (15%)
3 (37%)
[AVG_AGE]
3 (23%)
[AVG_AGE]
Kao i u prethodno i ovde je porast mlaeg stanovnitva uticao na bolju prodaju. ak je 20%
vie je poslodavaca iz generacije 2 u klasteru 2 u odnosu na klaster 1.Kao to vidimo polovina
populacije koja ima manje prihode bolje posluje ako ima vie mladih prodavaca.
36
Data Mining
6.Zakljuak
Iz prethodnog videli smo ko najvie radi i ko najvie troi , i to su ubedljivo prodavci od
21. do 30. godina. Ono to je vidljivo da im se odmah pridruuje starosna sredina a da su
najmanje aktivni oni najmlai i najstariji.
Daljim istraivanjem dobili smo i informacije u kome odgovaraju sitnije a kome vee
firme. Moemo doneti zakljuak da u firmama sa jako velikim prihodima i profitima bolje se
pokazuju stariji prodavci dok u firmama u kojima su niski prihodi i profiti bolje se pokazuju
mladji prodavci. Pa bi generalno za vei obrt novca trebalo angaovati osobe sa vie iskustva
dok za manje firme predlog bi bi bio da treba zaposliti mlae energinije prodavce. Ovakva
istraivanja ima smisla izvoditi i na osnovu njih bi poslodavci mogli da sa velikom sigurnou
biraju prodavce koji e imati najbolje poslovanje.
37
Data Mining
IBM DB2 Intelligent Miner for Data, Using the Intelligent Miner for Data
38