You are on page 1of 10

11/3/2014

Uvod
Stabla odluivanja Decision Tree (DT)
su vrlo mone i popularne
tehnike modeliranja
za probleme klasifikacije i predikcije

Poslovna Inteligencija
DM
Stablo odluivanja
Pripremila
prof. dr Gordana Radi

DM - Stablo odluivanja

Uvod

Uvod

Korienjem

Stablo

serije pitanja i pravila za


kategorizaciju podataka, moe se
predvideti da e izvesni tipovi imati
specifine ishode.

DM - Stablo odluivanja

odluivanja predstavlja tehniku


odluivanja koja se temelji na odnosima
izmeu strategije i stanja, a koristi se za
reavanje sloenih problema finansija,
marketinga, uvoenja novih proizvoda i
slino.

Uvod

DM - Stablo odluivanja

Uvod
Primer stabla odluivanja
kod analize rizika poslovanja.

Stablo odluivanja je
tehnika modeliranja podataka kojom se
stvaraju modeli u obliku stabla (grafikona),
odnosno hijerarhijski organizovanih pravila
koja omoguavaju
klasifikaciju novih primera.

DM - Stablo odluivanja

DM - Stablo odluivanja

11/3/2014

Uvod

Uvod

Privlanost stabla odluivanja lei u injenici da,


u odnosu na na primer neuralne mree,
nude modele podataka u itljivom,
razumljivom obliku - ustvari
u obliku pravila.

DM - Stablo odluivanja

Ta pravila mogu se lako


direktno interpretirati obinim jezikom,
ili pak koristiti u nekom od jezika
za rad s bazama podataka (SQL),
tako da se odreeni primeri iz baze
mogu izdvojiti korienjem pravila
koja su generisana stablom odluivanja.

Uvod

DM - Stablo odluivanja

Uvod

Za neke probleme od kljune vanosti je samo


tanost klasifikacije ili predikcije modela.

U takvim sluajevima itljivost modela nije od


presudne vanosti.

U nekim drugim situacijama upravo sposobnost


interpretacije modela ljudskim jezikom je od
kljune vanosti.
DM - Stablo odluivanja

U marketingu je potrebno dobro opisati razliite


segmente populacije kupaca za marketinke
strunjake kako bi oni mogli organizovati
efeikasnu kampanju radi poveanja prometa
odreenih proizvoda.

Generisani modeli moraju biti itljivi za eksperte


iz domena problema i oni moraju prepoznati i
odobriti primenu znanja sadranog u novim
modelima.

Uvod

DM - Stablo odluivanja

10

Stablo odluivanja

Postoji

itav niz razliitih algoritama za


konstruisanje stabla odluivanja koji imaju
osnovne kvalitete ove tehnike.

DM - Stablo odluivanja

11

Sa aspekta poslovanja stablo


odluivanja moemo posmatrati kao
kreiranje segmentacije originalnog seta
podataka.

Svaki segment podataka predstavlja list


u stablu odluivanja.
DM - Stablo odluivanja

12

11/3/2014

Stablo odluivanja

Segmentaciju kupaca, proizvoda i


regiona prodaje su aktivnosti kojima se
marketing menaderi godinama bavili.

Ova segmentacija se radi zbog toga da bi


se mogli predvideti neki vani delovi
informacija.
DM - Stablo odluivanja

Stablo odluivanja

13

Stablo odluivanja

15

Stablo odluivanja

Stabla odluke su tehnologije DM-a vie od 20


godina a prvi algoritmi su se pojavili jo 60
godina.

Ove tehnologije su razvili statistiari da bi


automatizovali procese odreivanja korisnih
podataka ili koleracija sa odreenim
problemom koje treba razumeti.

DM - Stablo odluivanja

DM - Stablo odluivanja

14

Stablo odluivanja

Zbog njegove strukture i jednostavnog


generisanja pravila, stablo odluivanja
je najpodesnija tehnika za izgradnju
razumljivog modela.

DM - Stablo odluivanja

Stablo odluke i algoritmi za njegovo


kreiranje mogu biti kompleksni a
rezultati se mogu prikazati tako da se
lako mogu razumeti i koristiti u
poslovne svrhe.

Zbog visokog nivoa automatizacije i


jednostavne transformacije modela
stabla odluke u SQL za razvijanje
tehnologija sa kojima se lako integriu
postojei IT procesi za Data Mining.

DM - Stablo odluivanja

16

Stablo odluivanja - istraivanje

17

Stabla odluke se koriste za istraivanje seta


podataka i poslovnih problema.

Istraivanje se bazira na iznalaenju


prediktora i vrednosti za svako pojedinano
stablo.

DM - Stablo odluivanja

18

11/3/2014

Stablo odluivanja obrada podataka

Stabla odluke se koriste za predprocesiranje


za neke druge prediktivne algoritme.

Algoritmi su prilino robusni respektivno od


tipa prediktora i stoga mogu brzo razviti
stablo odluke koja se mogu koristiti u prvom
prolazu izvoenja DM-a da bi se kreirao
podskup korisnih prediktora sa kojima e se
puniti, npr. neuronske mree.
DM - Stablo odluivanja

Stablo odluivanja predikcija

19

Neki oblici stabla odluivanja inicijalo su bili


razvijeni kao istraivaki alati za preradu i
predprocesiranje podataka za veinu
standardnih statistikih tehnika.

DM - Stablo odluivanja

Stablo odluivanja

20

Stablo odluivanja
Kada prestati sa rastom stabla?

Prvi korak je razvoj stabla odluivanja.


a.

Potrebno je nai najbolje pitanje za svaki


granu stabla na koje treba pronai odgovor.

b.

Moe postojati i vie pitanja na koja treba


dati odgovor kod kreiranja stabla
odluivanja
DM - Stablo odluivanja

21

ta je stablo odluivanja ?

krajnji vor (leaf node) - kojim zavrava odreena


grana stabla. Krajnji vorovi definiu klasu kojoj
pripadaju primeri koji zadovoljavaju uslove na toj
grani stabla;
vor odluke (decision node) - ovaj vor definie
odreeni uslov u obliku vrednosti odreenog atributa
(varijable), iz kojeg izlaze grane koje zadovoljavaju
odreene vrednosti tog atributa.
DM - Stablo odluivanja

Svi zapisi u segmentu imaju identine karakteristike (nema


svrhe i dalje postavljati pitanja sgmentiranja poto su svi
preostali zapisi identini)

Poboljanje nije odrivo i ne opravdava daljnje grananje.


DM - Stablo odluivanja

22

ta je stablo odluivanja ?

Stablo odluivanja je klasifikacioni algoritam u


obliku strukture stabla u kojoj se razlikuju dva
tipa vorova povezanih granama:

Mnogi algoritmi zavravaju rast stabla kada se ispune


sledei kriterijumi:
Segment sadri samo jedan slog (nema vie pitanja koje bi
rafiniralo segment do jedan)

23

Stablo odluivanja je:


tehnika modeliranja podataka kojom se
stvaraju modeli u obliku stabla (grafikona),
odnosno hijerarhijski organizovanih pravila
koja omoguavaju
klasifikaciju novih primera.

DM - Stablo odluivanja

24

11/3/2014

ta je stablo odluivanja ?

ta je stablo odluivanja ?

Stablo odluivanja se zasniva na etiri osnovne


varijable:
kostur stabla odluivanja, koji pomou grafikona
prikazuje strategije, mogue posledice svake
strategije i identifikovano stanje,
2. verovatnoa razliitih posledica izabrane strategije,
3. uslovna vrednost (trokovi) pripadajue posledice i
4. oekivana vrednost za pripadajue plaanje ili
trokove.
1.

DM - Stablo odluivanja

25

DM - Stablo odluivanja

Algoritmi stabla odluivanja

Algoritmi stabla odluivanja

Veina

Greedy pohlepni metod koristi se za reavanje


problema optimizacije, odnosno problema u
kojima se pretrauje skup nekih konfiguracija da
bi se pronala ona koja minimizuje ili maksimizuje
ciljnu finkciju definisanu nad svim
konfiguracijama.
Ovakva konfiguracija se naziva optimalno reenje.

postojeih algoritama stabla


odluivanja su varijacije osnovnog
algoritma koji poseduje jednostavne
karakteristike greedy, top-down
metode pretraivanja prostora reenja.

DM - Stablo odluivanja

27

DM - Stablo odluivanja

Algoritmi stabla odluivanja

Algoritmi stabla odluivanja

Greedy pohlepni metod

Greedy pohlepni metod

Ukratko, problem optimizacije je onaj u


kojem elimo da naemo ne samo
proizvoljno reenje ve ono koje je najbolje .

29

28

Glavna ideja pohlepnog metoda jeste da se


pomou pohlepnih koraka konstruie optimalno
reenje za dati problem
Da bismo reili neki problem optimizacije, njegovo
reenje gradimo korak pokorak pravei niz izbora.

DM - Stablo odluivanja

26

Ovaj niz poinje od neke jednostavne poetne


konfiguracije, a zatim se proiruje konfiguracijama koje
se iterativno biraju kao najbolji od onih moguih u
svakom koraku.
DM - Stablo odluivanja

30

11/3/2014

Algoritmi stabla odluivanja

Algoritmi stabla odluivanja

Greedy pohlepni metod

Greedy pohlepni metod

Ovaj metod se naziva pohlepni jer podsea na


postupke kojima se esto reavaju svakodnevne
ivotne situacije - u svakom trenutku biramo ono
to nam se ini najbolje, ime emo dobiti
najoptimalniji rezultat.

DM - Stablo odluivanja

Ako je bilo koji najbolji kandidat i obeavajui on


se prikljuuje reenju i nikad se ne proverava.

31

Algoritmi stabla odluivanja

DM - Stablo odluivanja

Greedy pohlepni metod

Obeavajui kandidat je onaj ijim se


prikljuivanjem aktuelno delimino reenje
proiruje u izvodljivo reenje.
Izvodljivo reenje je delimino reenje koje se moe
kompletirati do bar jednog globalnog reenja.
U pohlepnom reenju nikad se ne menja miljenje.
Ako se neki kandidat odbaci u odreenom trenutku,
on se vie nikada ponovo ne razmatra.

33

Pohlepni algoritam uvek bira kandidata koji


izgleda najbolji u datom trenutku, ali to ne znai
da pohlepni algoritam daje uvek optimalno
reenje.
Kao i u stvarnom ivotu pohlepa daje trenutno
zadovoljavajue reenje.

DM - Stablo odluivanja

Algoritmi stabla odluivanja

Algoritmi stabla odluivanja

Greedy pohlepni metod

Greedy pohlepni metod

Primer: problem vraanja kusura.


Na raspolaganju imamo neogranien broj
novia ije su vrednosti 1, 5, 10 i 25 jedinica.
Neki novani iznos n 0 jedinica treba da
usitnimo sa minimalnim brojem novia.

Primer: problem vraanja kusura.


Skoro bez razmiljanja prvo bismo izabrali
najvei novi ija vrednost nije vea od n
Zatim bismo izabrali novi ija vrednost nije
vea od razlike iznosa n i vrednosti prvog
novia itd.

DM - Stablo odluivanja

32

Algoritmi stabla odluivanja

Greedy pohlepni metod

DM - Stablo odluivanja

Preciznije, optimalni rezultat se gradi postupno od


deliminih reenja, pri emi se u svakom trenutku
bira jedan od najboljih kandidata u tom trenutku.

35

DM - Stablo odluivanja

34

36

11/3/2014

Algoritmi stabla odluivanja

Algoritmi stabla odluivanja

Greedy pohlepni metod

Greedy pohlepni metod

Primer: problem vraanja kusura.


Ako je n=68 KM prvo biramo novi od 25 feninga (on
je najvei i ne prelazi iznos od 68) i oduzimamo njegovu
vrednost od 68. Sledi:

Primer: problem vraanja kusura.


Ovaj algoritam primenjije pohlepni pristup
poto bira najvei obeavajui novi u svakom
koraku.
Obeavajui kandidat u ovom sluaju je novi
ija vrednost ne prelazi aktuelni iznos koji treba
usitniti.

68 25 = 43
43 25 = 18
18 10 = 8
85 =3
31=2
21=2
11=0

Dva novia vrednosti 25


Jedan novi vrednosti 10
Jedan novi vrednosti 5
Tri novia vrednosti 1

DM - Stablo odluivanja

37

Algoritmi stabla odluivanja

DM - Stablo odluivanja

Algoritmi stabla odluivanja

Greedy pohlepni metod

Greedy pohlepni metod

Primer: problem vraanja kusura.


Na pseudo jeziku sledei pohlepni algoritam
usitnjuje iznos nenegativnog broja n0.
Broj novia:

Primer: problem vraanja kusura.


Make change (n)

g1 = 0; g2 = 0; g3 = 0; g4 = 0;
while n 25 do g4 = g4 + 1 n = n - 25;
while n 10 do g3 = g3 + 1, n = n - 10;
while n 5 do g2 = g2 + 1, n = n - 5;
while n 5 do g1 = g1 + 1, n = n - 1;
return g1,, g2, g3, g4;

od 1 jedinice se izraunava u promenljivoj g1,


od 5 jedinica se izraunava u promenljivoj g2,
od 10 jedinica se izraunava u promenljivoj g3,
od 1 jedinice se izraunava u promenljivoj g4.
DM - Stablo odluivanja

38

39

Algoritmi stabla odluivanja

DM - Stablo odluivanja

40

Algoritmi stabla odluivanja

Greedy pohlepni metod

Greedy pohlepni metod

Primer: problem vraanja kusura.


Algoritam Make change verno oslikava
prethodno opiasni postupak koji se obino i
primenjuje u stvarnom ivotu
U while petlji se ustvari izraunavaju ostaci pri
deljenju odgovarajuih novanij iznosa sa
vrednostima novia 25, 10, 5 i 1.

Primer: problem vraanja kusura.


Zato while petlji moemo zameniti nizom
naredbi u obliku:

g4 = [n/25];
g3 = [(n-25 g4)/10];
g2 = [(n-25 g4-10g3 )/5];
g1 = n-25 g4-10g3 - 5g2;

Ovaj algoritam se izvrava u konstantno vreme


DM - Stablo odluivanja

41

DM - Stablo odluivanja

42

11/3/2014

Algoritmi stabla odluivanja

ID3 algoritam

Greedy pohlepni metod


mora da bude i optimalno
reenje, u mnogim sluajevima nije odmah
jasno da li je reenje optimalno ili ne.
Stoga je u mnogim sluajevima potrebno
formalno utvrditi optimalnost pohlepnog
reenja ili nai kontraprimer koji to opovtgava

J. Ross Quinlan sa Univerziteta u Sidneju, razvio


je svoj ID3 algoritam i prikazao ga u svojoj knjizi
iz 1975. godine (Machine Learning, vol. 1).

ID3 algoritam baziran je na tzv. Concept


Learning System (CLS) algoritmu

Pohlepno reenje ne

DM - Stablo odluivanja

43

ID3 algoritam

DM - Stablo odluivanja

44

ID3 algoritam

ID3 pretrauje preko atributa svih primera u


skupu podataka, te nalazi atribut koji najbolje
odvaja primere odreene klase.

Ukoliko atribut savreno razdvaja klase ID3


algoritam se zaustavlja; inae se rekurzivno
izvrava na m podskupova (m - oznaava broj
moguih vrednosti atributa), traei najbolje
atribute za njihovo razdvajanje.

DM - Stablo odluivanja

Algoritam koristi greedy pristup, t.j. trai


trenutno najbolji atribut i nikad ne gleda
unatrag, da bi provjerio ispravnost prethodnih
izbora, odnosno razdvajanja.

Treba imati na umu da ID3 moe generisati


stabla koja rade i pogrene klasifikacije na skupu
primera za uenje.

45

ID3 algoritam

DM - Stablo odluivanja

46

ID3 algoritam

Centralni deo algoritma jeste selekcija atributa


za stvaranje vora odluivanja, tj. atributa koji e
posluiti za razdvajanje odreene grane stabla.

Za selekciju atributa sa najheterogenijom


strukturom vrednosti ciljnog atributa, algoritam
koristi koncept entropije.

DM - Stablo odluivanja

47

Kriterijum kvaliteta u algoritmu stabla


odluivanja vezan je uz selekciju atributa koji e
posluiti kao kriterijum za razdvajanje primera u
odreenom voru odluivanja stabla.

Cilj je odabrati atribut koji je najupotrebljiviji s


obzirom na osnovni cilj, klasifikaciju primera.

DM - Stablo odluivanja

48

11/3/2014

ID3 algoritam

ID3 algoritam

Dobra kvantitativna mera vrednosti atributa u


tom smislu je statistika vrednost nazvana
informacioni dobitak (information gain),
kojom se meri kako dobro dati atribut
(prediktor) razdvaja primere prema njihovoj
klasifikaciji.

Ova se mera koristi da bi se odabrao najbolji


kandidat, odnosno atribut, u svakom novom
koraku stvaranja stabla odluivanja.
DM - Stablo odluivanja

49

ID3 algoritam

Informacioni dobitak (information gain), je


mera kaja se koristi za izbor testnog atributa u
svakom voru za vreme konstruisanja stabla
odluke (DT).

DM - Stablo odluivanja

50

Entropija

Entropija - mera homogenosti skupa primera.

Da bi precizno definisali informacioni dobitak,


potrebno je definisati meru, koja se esto koristi
u teoriji informacija, a naziva se entropija.

Entropija karakterie istou nekog skupa


primera.

DM - Stablo odluivanja

U stablu odluivanja entropija


pojedinih atributa se tipino koristi
za izbor para atribut vrednost
(minimalna entropija) u vorovima
osluivanja.

51

C4.5 algoritam

DM - Stablo odluivanja

52

DM trees
Postoje sledee kategorije DM stabla
odluivanja:

C4.5 poboljava ID3 algoritam u sledeim


vanim oblastima:
Prediktori koji nemaju vrednost i dalje se mogu
koristiti,
Prediktor koji imaju stalnu vrednost i dalje se mogu
koristiti,
Pruning rezanje stabla odluivanja, eliminacija
grana na niem nivou,
Pravilo derivacije.

DM - Stablo odluivanja

Classification tree analysis - predvieni


rezultati su klase kojoj prpadaju podaci.
Regression Tree analysis - predvieni
rezultati su realni brojevi (npr. cena kue)
CART - Clasification and Regression Tree je
kombinacija gornje dve procedure

53

DM - Stablo odluivanja

54

11/3/2014

DM trees

CART algoritam

Postoje sledee kategorije DM stabla


odluivanja:

CART - Clasification and Regression Tree (1984)


Algoritam stabla odluivanja koji automatizuje

...

pruning proces uz pomo Cross-validation i drugih


tehnika
Cross-validation test set validation, test
tanosti modela koji simulira realni model.

CHi-squared Automatic Interaction Detector


(CHAID) izvrava multi level razdvajanja u
procesu izraunavanja stabla...
Random Forest klasifikator sastoji se od
vie stabla odluivanja...

DM - Stablo odluivanja

55

DM - Stablo odluivanja

56

Poslovna Inteligencija
DM
Stablo odluivanja
Pripremila
prof. dr Gordana Radi

10

You might also like