GR BI Stablo Odlučivanja II - Compatibility Mode

11/3/2014
Uvod
Stabla odluivanja Decision Tree (DT)
su vrlo mone i popularne
tehnike modeliranja
za probleme klasifikacije i predikcije
Poslovna Inteligencija
DM
Stablo odluivanja
Pripremila
prof. dr Gordana Radi
DM - Stablo odluivanja
Uvod
Uvod
Korienjem
Stablo
serije pitanja i pravila za

kategorizaciju podataka, moe se
predvideti da e izvesni tipovi imati
specifine ishode.
odluivanja predstavlja tehniku

odluivanja koja se temelji na odnosima
izmeu strategije i stanja, a koristi se za
reavanje sloenih problema finansija,
marketinga, uvoenja novih proizvoda i
slino.
Uvod
Uvod
Primer stabla odluivanja
kod analize rizika poslovanja.
Stablo odluivanja je
tehnika modeliranja podataka kojom se
stvaraju modeli u obliku stabla (grafikona),
odnosno hijerarhijski organizovanih pravila
koja omoguavaju
klasifikaciju novih primera.
11/3/2014
Uvod
Uvod
Privlanost stabla odluivanja lei u injenici da,

u odnosu na na primer neuralne mree,
nude modele podataka u itljivom,
razumljivom obliku - ustvari
u obliku pravila.
Ta pravila mogu se lako

direktno interpretirati obinim jezikom,
ili pak koristiti u nekom od jezika
za rad s bazama podataka (SQL),
tako da se odreeni primeri iz baze
mogu izdvojiti korienjem pravila
koja su generisana stablom odluivanja.
Uvod
Uvod
Za neke probleme od kljune vanosti je samo

tanost klasifikacije ili predikcije modela.
U takvim sluajevima itljivost modela nije od

presudne vanosti.
U nekim drugim situacijama upravo sposobnost

interpretacije modela ljudskim jezikom je od
kljune vanosti.
U marketingu je potrebno dobro opisati razliite

segmente populacije kupaca za marketinke
strunjake kako bi oni mogli organizovati
efeikasnu kampanju radi poveanja prometa
odreenih proizvoda.
Generisani modeli moraju biti itljivi za eksperte

iz domena problema i oni moraju prepoznati i
odobriti primenu znanja sadranog u novim
modelima.
Uvod
10
Stablo odluivanja
Postoji
itav niz razliitih algoritama za

konstruisanje stabla odluivanja koji imaju
osnovne kvalitete ove tehnike.
11
Sa aspekta poslovanja stablo

odluivanja moemo posmatrati kao
kreiranje segmentacije originalnog seta
podataka.
Svaki segment podataka predstavlja list

u stablu odluivanja.
12
11/3/2014
Stablo odluivanja
Segmentaciju kupaca, proizvoda i

regiona prodaje su aktivnosti kojima se
marketing menaderi godinama bavili.
Ova segmentacija se radi zbog toga da bi

se mogli predvideti neki vani delovi
informacija.
Stablo odluivanja
13
Stablo odluivanja
15
Stablo odluivanja
Stabla odluke su tehnologije DM-a vie od 20

godina a prvi algoritmi su se pojavili jo 60
godina.
Ove tehnologije su razvili statistiari da bi

automatizovali procese odreivanja korisnih
podataka ili koleracija sa odreenim
problemom koje treba razumeti.
14
Stablo odluivanja
Zbog njegove strukture i jednostavnog

generisanja pravila, stablo odluivanja
je najpodesnija tehnika za izgradnju
razumljivog modela.
Stablo odluke i algoritmi za njegovo

kreiranje mogu biti kompleksni a
rezultati se mogu prikazati tako da se
lako mogu razumeti i koristiti u
poslovne svrhe.
Zbog visokog nivoa automatizacije i

jednostavne transformacije modela
stabla odluke u SQL za razvijanje
tehnologija sa kojima se lako integriu
postojei IT procesi za Data Mining.
16
Stablo odluivanja - istraivanje
17
Stabla odluke se koriste za istraivanje seta

podataka i poslovnih problema.
Istraivanje se bazira na iznalaenju

prediktora i vrednosti za svako pojedinano
stablo.
18
11/3/2014
Stablo odluivanja obrada podataka
Stabla odluke se koriste za predprocesiranje

za neke druge prediktivne algoritme.
Algoritmi su prilino robusni respektivno od

tipa prediktora i stoga mogu brzo razviti
stablo odluke koja se mogu koristiti u prvom
prolazu izvoenja DM-a da bi se kreirao
podskup korisnih prediktora sa kojima e se
puniti, npr. neuronske mree.
Stablo odluivanja predikcija
19
Neki oblici stabla odluivanja inicijalo su bili

razvijeni kao istraivaki alati za preradu i
predprocesiranje podataka za veinu
standardnih statistikih tehnika.
Stablo odluivanja
20
Stablo odluivanja
Kada prestati sa rastom stabla?
Prvi korak je razvoj stabla odluivanja.

a.
Potrebno je nai najbolje pitanje za svaki

granu stabla na koje treba pronai odgovor.
b.
Moe postojati i vie pitanja na koja treba

dati odgovor kod kreiranja stabla
odluivanja
21
ta je stablo odluivanja ?
krajnji vor (leaf node) - kojim zavrava odreena

grana stabla. Krajnji vorovi definiu klasu kojoj
pripadaju primeri koji zadovoljavaju uslove na toj
grani stabla;
vor odluke (decision node) - ovaj vor definie
odreeni uslov u obliku vrednosti odreenog atributa
(varijable), iz kojeg izlaze grane koje zadovoljavaju
odreene vrednosti tog atributa.
Svi zapisi u segmentu imaju identine karakteristike (nema

svrhe i dalje postavljati pitanja sgmentiranja poto su svi
preostali zapisi identini)
Poboljanje nije odrivo i ne opravdava daljnje grananje.

22
Stablo odluivanja je klasifikacioni algoritam u

obliku strukture stabla u kojoj se razlikuju dva
tipa vorova povezanih granama:
Mnogi algoritmi zavravaju rast stabla kada se ispune

sledei kriterijumi:
Segment sadri samo jedan slog (nema vie pitanja koje bi
rafiniralo segment do jedan)
23
Stablo odluivanja je:

tehnika modeliranja podataka kojom se
stvaraju modeli u obliku stabla (grafikona),
odnosno hijerarhijski organizovanih pravila
koja omoguavaju
klasifikaciju novih primera.
24
11/3/2014
Stablo odluivanja se zasniva na etiri osnovne

varijable:
kostur stabla odluivanja, koji pomou grafikona
prikazuje strategije, mogue posledice svake
strategije i identifikovano stanje,
2. verovatnoa razliitih posledica izabrane strategije,
3. uslovna vrednost (trokovi) pripadajue posledice i
4. oekivana vrednost za pripadajue plaanje ili
trokove.
1.
25
Algoritmi stabla odluivanja
Veina
Greedy pohlepni metod koristi se za reavanje

problema optimizacije, odnosno problema u
kojima se pretrauje skup nekih konfiguracija da
bi se pronala ona koja minimizuje ili maksimizuje
ciljnu finkciju definisanu nad svim
konfiguracijama.
Ovakva konfiguracija se naziva optimalno reenje.
postojeih algoritama stabla

odluivanja su varijacije osnovnog
algoritma koji poseduje jednostavne
karakteristike greedy, top-down
metode pretraivanja prostora reenja.
27
Greedy pohlepni metod
Ukratko, problem optimizacije je onaj u

kojem elimo da naemo ne samo
proizvoljno reenje ve ono koje je najbolje .
29
28
Glavna ideja pohlepnog metoda jeste da se

pomou pohlepnih koraka konstruie optimalno
reenje za dati problem
Da bismo reili neki problem optimizacije, njegovo
reenje gradimo korak pokorak pravei niz izbora.
26
Ovaj niz poinje od neke jednostavne poetne

konfiguracije, a zatim se proiruje konfiguracijama koje
se iterativno biraju kao najbolji od onih moguih u
svakom koraku.
30
11/3/2014
Ovaj metod se naziva pohlepni jer podsea na

postupke kojima se esto reavaju svakodnevne
ivotne situacije - u svakom trenutku biramo ono
to nam se ini najbolje, ime emo dobiti
najoptimalniji rezultat.
Ako je bilo koji najbolji kandidat i obeavajui on

se prikljuuje reenju i nikad se ne proverava.
31
Obeavajui kandidat je onaj ijim se

prikljuivanjem aktuelno delimino reenje
proiruje u izvodljivo reenje.
Izvodljivo reenje je delimino reenje koje se moe
kompletirati do bar jednog globalnog reenja.
U pohlepnom reenju nikad se ne menja miljenje.
Ako se neki kandidat odbaci u odreenom trenutku,
on se vie nikada ponovo ne razmatra.
33
Pohlepni algoritam uvek bira kandidata koji

izgleda najbolji u datom trenutku, ali to ne znai
da pohlepni algoritam daje uvek optimalno
reenje.
Kao i u stvarnom ivotu pohlepa daje trenutno
zadovoljavajue reenje.
Primer: problem vraanja kusura.

Na raspolaganju imamo neogranien broj
novia ije su vrednosti 1, 5, 10 i 25 jedinica.
Neki novani iznos n 0 jedinica treba da
usitnimo sa minimalnim brojem novia.

Skoro bez razmiljanja prvo bismo izabrali
najvei novi ija vrednost nije vea od n
Zatim bismo izabrali novi ija vrednost nije
vea od razlike iznosa n i vrednosti prvog
novia itd.
32
Preciznije, optimalni rezultat se gradi postupno od

deliminih reenja, pri emi se u svakom trenutku
bira jedan od najboljih kandidata u tom trenutku.
35
34
36
11/3/2014

Ako je n=68 KM prvo biramo novi od 25 feninga (on
je najvei i ne prelazi iznos od 68) i oduzimamo njegovu
vrednost od 68. Sledi:

Ovaj algoritam primenjije pohlepni pristup
poto bira najvei obeavajui novi u svakom
koraku.
Obeavajui kandidat u ovom sluaju je novi
ija vrednost ne prelazi aktuelni iznos koji treba
usitniti.
68 25 = 43
43 25 = 18
18 10 = 8
85 =3
31=2
21=2
11=0
Dva novia vrednosti 25

Jedan novi vrednosti 10
Jedan novi vrednosti 5
Tri novia vrednosti 1
37

Na pseudo jeziku sledei pohlepni algoritam
usitnjuje iznos nenegativnog broja n0.
Broj novia:

Make change (n)
g1 = 0; g2 = 0; g3 = 0; g4 = 0;
while n 25 do g4 = g4 + 1 n = n - 25;
while n 10 do g3 = g3 + 1, n = n - 10;
while n 5 do g2 = g2 + 1, n = n - 5;
while n 5 do g1 = g1 + 1, n = n - 1;
return g1,, g2, g3, g4;
od 1 jedinice se izraunava u promenljivoj g1,

od 5 jedinica se izraunava u promenljivoj g2,
od 10 jedinica se izraunava u promenljivoj g3,
od 1 jedinice se izraunava u promenljivoj g4.
38
39
40

Algoritam Make change verno oslikava
prethodno opiasni postupak koji se obino i
primenjuje u stvarnom ivotu
U while petlji se ustvari izraunavaju ostaci pri
deljenju odgovarajuih novanij iznosa sa
vrednostima novia 25, 10, 5 i 1.

Zato while petlji moemo zameniti nizom
naredbi u obliku:
g4 = [n/25];
g3 = [(n-25 g4)/10];
g2 = [(n-25 g4-10g3 )/5];
g1 = n-25 g4-10g3 - 5g2;
Ovaj algoritam se izvrava u konstantno vreme

41
42
11/3/2014
ID3 algoritam

mora da bude i optimalno
reenje, u mnogim sluajevima nije odmah
jasno da li je reenje optimalno ili ne.
Stoga je u mnogim sluajevima potrebno
formalno utvrditi optimalnost pohlepnog
reenja ili nai kontraprimer koji to opovtgava
J. Ross Quinlan sa Univerziteta u Sidneju, razvio

je svoj ID3 algoritam i prikazao ga u svojoj knjizi
iz 1975. godine (Machine Learning, vol. 1).
ID3 algoritam baziran je na tzv. Concept

Learning System (CLS) algoritmu
Pohlepno reenje ne
43
ID3 algoritam
44
ID3 algoritam
ID3 pretrauje preko atributa svih primera u

skupu podataka, te nalazi atribut koji najbolje
odvaja primere odreene klase.
Ukoliko atribut savreno razdvaja klase ID3

algoritam se zaustavlja; inae se rekurzivno
izvrava na m podskupova (m - oznaava broj
moguih vrednosti atributa), traei najbolje
atribute za njihovo razdvajanje.
Algoritam koristi greedy pristup, t.j. trai

trenutno najbolji atribut i nikad ne gleda
unatrag, da bi provjerio ispravnost prethodnih
izbora, odnosno razdvajanja.
Treba imati na umu da ID3 moe generisati

stabla koja rade i pogrene klasifikacije na skupu
primera za uenje.
45
ID3 algoritam
46
ID3 algoritam
Centralni deo algoritma jeste selekcija atributa

za stvaranje vora odluivanja, tj. atributa koji e
posluiti za razdvajanje odreene grane stabla.
Za selekciju atributa sa najheterogenijom

strukturom vrednosti ciljnog atributa, algoritam
koristi koncept entropije.
47
Kriterijum kvaliteta u algoritmu stabla

odluivanja vezan je uz selekciju atributa koji e
posluiti kao kriterijum za razdvajanje primera u
odreenom voru odluivanja stabla.
Cilj je odabrati atribut koji je najupotrebljiviji s

obzirom na osnovni cilj, klasifikaciju primera.
48
11/3/2014
ID3 algoritam
ID3 algoritam
Dobra kvantitativna mera vrednosti atributa u

tom smislu je statistika vrednost nazvana
informacioni dobitak (information gain),
kojom se meri kako dobro dati atribut
(prediktor) razdvaja primere prema njihovoj
klasifikaciji.
Ova se mera koristi da bi se odabrao najbolji

kandidat, odnosno atribut, u svakom novom
koraku stvaranja stabla odluivanja.
49
ID3 algoritam
Informacioni dobitak (information gain), je

mera kaja se koristi za izbor testnog atributa u
svakom voru za vreme konstruisanja stabla
odluke (DT).
50
Entropija
Entropija - mera homogenosti skupa primera.
Da bi precizno definisali informacioni dobitak,

potrebno je definisati meru, koja se esto koristi
u teoriji informacija, a naziva se entropija.
Entropija karakterie istou nekog skupa

primera.
U stablu odluivanja entropija

pojedinih atributa se tipino koristi
za izbor para atribut vrednost
(minimalna entropija) u vorovima
osluivanja.
51
C4.5 algoritam
52
DM trees
Postoje sledee kategorije DM stabla
odluivanja:
C4.5 poboljava ID3 algoritam u sledeim

vanim oblastima:
Prediktori koji nemaju vrednost i dalje se mogu
koristiti,
Prediktor koji imaju stalnu vrednost i dalje se mogu
koristiti,
Pruning rezanje stabla odluivanja, eliminacija
grana na niem nivou,
Pravilo derivacije.
Classification tree analysis - predvieni

rezultati su klase kojoj prpadaju podaci.
Regression Tree analysis - predvieni
rezultati su realni brojevi (npr. cena kue)
CART - Clasification and Regression Tree je
kombinacija gornje dve procedure
53
54
11/3/2014
DM trees
CART algoritam
Postoje sledee kategorije DM stabla

odluivanja:
CART - Clasification and Regression Tree (1984)

Algoritam stabla odluivanja koji automatizuje
...
pruning proces uz pomo Cross-validation i drugih

tehnika
Cross-validation test set validation, test
tanosti modela koji simulira realni model.
CHi-squared Automatic Interaction Detector

(CHAID) izvrava multi level razdvajanja u
procesu izraunavanja stabla...
Random Forest klasifikator sastoji se od
vie stabla odluivanja...
55
56
Poslovna Inteligencija
DM
Stablo odluivanja
Pripremila
prof. dr Gordana Radi
10

GR BI Stablo Odlučivanja II - Compatibility Mode

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

GR BI Stablo Odlučivanja II - Compatibility Mode

Uploaded by

Copyright:

Available Formats

11/3/2014

serije pitanja i pravila za

odluivanja predstavlja tehniku

Privlanost stabla odluivanja lei u injenici da,

Ta pravila mogu se lako

Za neke probleme od kljune vanosti je samo

U takvim sluajevima itljivost modela nije od

U nekim drugim situacijama upravo sposobnost

U marketingu je potrebno dobro opisati razliite

Generisani modeli moraju biti itljivi za eksperte

itav niz razliitih algoritama za

Sa aspekta poslovanja stablo

Svaki segment podataka predstavlja list

Segmentaciju kupaca, proizvoda i

Ova segmentacija se radi zbog toga da bi

Stabla odluke su tehnologije DM-a vie od 20

Ove tehnologije su razvili statistiari da bi

Zbog njegove strukture i jednostavnog

Stablo odluke i algoritmi za njegovo

Zbog visokog nivoa automatizacije i

Stablo odluivanja - istraivanje

Stabla odluke se koriste za istraivanje seta

Istraivanje se bazira na iznalaenju

Stablo odluivanja obrada podataka

Stabla odluke se koriste za predprocesiranje

Algoritmi su prilino robusni respektivno od

Stablo odluivanja predikcija

Neki oblici stabla odluivanja inicijalo su bili

Prvi korak je razvoj stabla odluivanja.

Potrebno je nai najbolje pitanje za svaki

Moe postojati i vie pitanja na koja treba

krajnji vor (leaf node) - kojim zavrava odreena

Svi zapisi u segmentu imaju identine karakteristike (nema

Poboljanje nije odrivo i ne opravdava daljnje grananje.

Stablo odluivanja je klasifikacioni algoritam u

Mnogi algoritmi zavravaju rast stabla kada se ispune

Stablo odluivanja je:

Stablo odluivanja se zasniva na etiri osnovne

Algoritmi stabla odluivanja

Algoritmi stabla odluivanja

Greedy pohlepni metod koristi se za reavanje

postojeih algoritama stabla

Algoritmi stabla odluivanja

Algoritmi stabla odluivanja

Greedy pohlepni metod

Greedy pohlepni metod

Ukratko, problem optimizacije je onaj u

Glavna ideja pohlepnog metoda jeste da se

Ovaj niz poinje od neke jednostavne poetne

Algoritmi stabla odluivanja

Algoritmi stabla odluivanja

Greedy pohlepni metod

Greedy pohlepni metod

Ovaj metod se naziva pohlepni jer podsea na

Ako je bilo koji najbolji kandidat i obeavajui on

Algoritmi stabla odluivanja

Greedy pohlepni metod

Obeavajui kandidat je onaj ijim se

Pohlepni algoritam uvek bira kandidata koji

Algoritmi stabla odluivanja

Algoritmi stabla odluivanja

Greedy pohlepni metod

Greedy pohlepni metod