Professional Documents
Culture Documents
Stabla Odlučivanja
Stabla Odlučivanja
STABLA ODLUČIVANJA
SEMINARSKI RAD
Mentor: Student:
Doc.dr. Muhamed Ćosić Imran Lokmić Broj indeksa: PT-09/18
Travnik, novembar 2021.
SADRŽAJ
1. UVOD..........................................................................................................................................1
2. STABLA ODLUČIVANJA.........................................................................................................2
2.1. Vrste stabla i tehnike kreiranja stabla...................................................................................3
2.1.1 Usporedba metoda..........................................................................................................6
2.2. Algoritmi...............................................................................................................................7
2.2.1. ID3 i C4.5 algoritam......................................................................................................8
2.2.2. CART algoritam............................................................................................................8
3. PREDNOSTI I MANE................................................................................................................9
4. VARIJACIJE STABLA ODLUČIVANJA...............................................................................11
4.1. Zaboravna stabla.................................................................................................................11
4.2. Fuzzy stabla odlučivanja (FDT).........................................................................................11
5. ZAKLJUČAK............................................................................................................................13
6. POPISI.......................................................................................................................................14
7. REFERENCE............................................................................................................................15
1. UVOD
Stablo odlučivanja je struktura koja uključuje korijenski čvor, grane i čvorove lista. Svaki
unutrašnji čvor označava test na atributu, svaka grana označava ishod testa, a svaki listni čvor
sadrži oznaku klase. Najviši čvor u stablu je korijenski čvor. [3]
Poznati
medicinski
Visok problemi
rizik
Visok Nizak
rizik rizik
Postoje dvije vrste stabla odlučivanja: stablo klasifikacije i stablo regresije. Analiza
stabla klasifikacije je kada predviđeni rezultat je u klasi kojoj podaci pripadaju. Analiza
regresivnog stabla je kada predviđeni rezultat se može smatrati realnim brojem. Prije svega,
postoje dvije fundamentalne razlike između stabala klasifikacije i regresije. Klasifikaciono stablo
dijeli varijablu odgovora na uglavnom dvije klase, Da ili Ne, također se može numerički
kategorizirati kao 1 ili 0. Stabla regresije se koriste u slučajevima kada je varijabla odgovora ili
kontinuirana ili numerička, ali nije kategorička. Stabla regresije mogu se primijeniti u slučaju
cijena, količina ili podataka koji uključuju količine itd. Stabla regresije i klasifikacije su metode
mašinskog učenja za izgradnju modela predviđanja iz specifičnih skupova podataka. Podaci se
dijele na više blokova rekurzivno i model predviđanja odgovara svakoj od takvih particija
modela predviđanja. Svaka particija predstavlja podatke kao grafičko stablo odlučivanja.
Primarna razlika između klasifikacionih i regresijskih stabala odluka je u tome što su stabla
odluka o klasifikaciji izgrađena sa neuređenim vrijednostima sa zavisnim varijablama. Stabla
odlučivanja o regresiji uzimaju uređene vrijednosti s kontinuiranim vrijednostima. [5]
Metode sastavljanja su metode koje kombinuju nekoliko stabala odluka da bi se proizvele bolje
prediktivne performanse od korištenja jednog stabla odlučivanja. Glavni princip koji stoji iza
modela sastavljanja je da se grupa slabih učenika udruži kako bi formirala jakog učenika.
„Boosted“ tehnika je tehnika mašinskog učenja koja se, između ostalog, koristi u
zadacima regresije i klasifikacije. Ona daje model predviđanja u obliku ansambla slabih modela
predviđanja, koji su tipično stabla odlučivanja. Kada je stablo odlučivanja slabo, rezultujući
algoritam se zove stablo sa gradijentom. Stablo sa gradijentom obično nadmašuje slučajnu šumu.
Model stabla s pojačanim gradijentom je izgrađen na način po fazama kao i u drugim metodama
povećanja, ali generalizira druge metode omogućavajući optimizaciju proizvoljne diferencijalne
funkcije gubitka. U ovoj tehnici, učenici se uče uzastopno s ranim učenicima koji prilagođavaju
jednostavne modele podacima, a zatim analiziraju podatke za greške. Drugim riječima, uklapamo
uzastopna stabla (slučajni uzorak) i na svakom koraku cilj je riješiti neto grešku iz prethodnog
stabla. [6]
„Boosted aggregation“ koja se naziva i bagging, je meta-algoritam ansambla mašinskog
učenja dizajniran da poboljša stabilnost i tačnost algoritama mašinskog učenja koji se koriste u
statističkoj klasifikaciji i regresiji. Također smanjuje varijansu i pomaže u izbjegavanju
prekomjernog uklapanja. Iako se obično primjenjuje na metode stabla odlučivanja, može se
koristiti sa bilo kojom vrstom metoda. Bagging je poseban slučaj pristupa usrednjavanju modela.
Bagging se koristi kada je naš cilj smanjiti varijansu stabla odlučivanja. Ovdje je ideja da se
kreira nekoliko podskupova podataka iz uzoraka za obuku odabranih nasumično sa zamjenom.
Sada se svaka zbirka podataka podskupa koristi za obuku njihovih stabala odlučivanja. Kao
rezultat, dobijamo komplet različitih modela. Koristi se prosjek svih predviđanja iz različitih
stabala koji je robusniji od jednog stabla odluka. Random Forest je proširenje bagging-a.
Potreban je jedan dodatni korak gdje pored uzimanja nasumičnih podskupa podataka, on također
uzima slučajni odabir karakteristika umjesto da koristi sve karakteristike za ansambl stabla. [6]
2.2. Algoritmi
ID3 i C4.5
CART
CHAID
MARS
2.2.1. ID3 i C4.5 algoritam
1. Stabla odlučivanja su sama po sebi razumljiva i kada su zbijena lako ih je pratiti. Drugim
riječima, ako drvo odlučivanja ima razuman broj listova, neprofesionalni korisnici ga
mogu shvatiti. Nadalje, stabla odlučivanja mogu se pretvoriti u skup pravila. Stoga se
ovaj prikaz smatra razumljivim.
1. Većina algoritama (poput ID3 i C4.5) zahtijevaju da ciljni atribut ima samo diskretne
vrijednosti.
2. Kako stabla odlučivanja koriste metodu „zavadi pa vladaj“, ona imaju tendenciju da rade
dobro ako postoji nekoliko veoma relevantnih atributa, ali manje ako je prisutno mnogo
složenih interakcija. Jedan od razloga za to je taj što drugi klasifikatori mogu kompaktno
opisati klasifikator koji bi bilo vrlo teško predstaviti korištenjem stabla odlučivanja.
Budući da većina stabala odlučivanja dijeli prostor instance na međusobno isključive
regije kako bi predstavljala koncept, u nekim slučajevima stablo bi trebalo sadržavati
nekoliko duplikata istog podstabla kako bi predstavljalo klasifikator.
3. Pohlepna karakteristika stabala odlučivanja dovodi do još jednog nedostatka koji treba
istaći. To je njegova preosjetljivost na set za obuku, na nebitne atribute i na buku.[1]
4. VARIJACIJE STABLA ODLUČIVANJA
Stablo zaborava je stablo odluka koje se uzgaja simetrično. Ovo su stabla za koje su iste
karakteristike odgovorne za podjelu instanci učenja na lijevu i desnu particiju za svaki nivo
stabla. Zaboravna stabla su posebno zanimljiva jer se mogu svesti na tabelu odlučivanja sa 2 d
ćelija, gdje je d dubina stabla. Ovo prilično uredno pojednostavljuje stvari. Svako zaboravno
stablo odluka (ODT) daje jedan od 2d odgovora, gdje je d dubina stabla. Ovo se radi upotrebom d
kombinacija obilježja-prag, koje su parametri ODT-a.[12]
[1] Rokach, L., & Maimon, O. (2013). Data mining with decision trees. Series in Machine
Perception and Artificial Intelligence, 165–192. https://doi.org/10.1142/9097
[2] Shubham. (2019, July 9). Decision tree tutorials & notes: Machine learning. HackerEarth.
Pristupljeno: 11 Novembra,, 2021,
https://www.hackerearth.com/practice/machine-learning/machine-learning-algorithms/ml-
decision-tree/tutorial/.
[3] Tutorialspoint. (2021). Data Mining - Decision Tree Induction. Pristupljeno: 22 Novembra,
2021, https://www.tutorialspoint.com/data_mining/dm_dti.htm.
[4] Shalev-Shwartz, S., &; Ben-David, S. (2019). Understanding machine learning: From theory
to algorithms. Cambridge University Press.
[5] Pulipaka, D. G. P. (2016, June 6). An essential guide to classification and regression trees in
R language. Medium. Pristupljeno 25 Novembra,, 2021, https://medium.com/@gp_pulipaka/an-
essential-guide-to-classification-and-regression-trees-in-r-language-4ced657d176b.
[6] Nagpal, A. (2017, October 18). Decision tree ensembles- bagging and boosting. Medium.
Pristupljeno 25 Novembra,, 2021, https://towardsdatascience.com/decision-tree-ensembles-
bagging-and-boosting-266a8ba60fd9.
[7] Chakraborty, S. (2018, March 9). Random to "rotation forest": A new classifier ensemble
method. LinkedIn. Pristupljeno 25 Novembra, 2021, https://www.linkedin.com/pulse/random-
rotation-forest-new-classifier-ensemble-method-chakraborty.
[8] What is the difference between bagging and boosting? Quantdare. Quantdare. (2020,
November 3). Pristupljeno 25 Novembra, 2021, https://quantdare.com/what-is-the-difference-
between-bagging-and-boosting/.
[9] Xiaohu, W., Lele, W., & Nianfeng, L. (2012). An application of decision tree based on
ID3. Physics Procedia, 25, 1017–1021. https://doi.org/10.1016/j.phpro.2012.03.193
[10] Wang, X., Zhou, C., & Xu, X. (2019). Application of C4.5 decision tree for scholarship
evaluations. Procedia Computer Science, 151, 179–184.
https://doi.org/10.1016/j.procs.2019.04.027
[11] Deepankar. (2021, April 22). Decision trees with CART algorithm. Medium. Pristupljeno 29
Novembra, 2021,
https://medium.com/geekculture/decision-trees-with-cart-algorithm-7e179acee8ff.
[12] Joseph, M. (2021, February 25). Neural oblivious decision ensembles(node) – a state-of-the-
art deep learning algorithm for Tabular Data. Deep & Shallow. Pristupljeno 29 Novembra,
2021,
https://deep-and-shallow.com/2021/02/25/neural-oblivious-decision-ensemblesnode-a-state-of-
the-art-deep-learning-algorithm-for-tabular-data/
[13] Fuzzy decision trees (artificial intelligence). whatwhenhow RSS. (2013, June 15).
Pristupljeno 29 Novembar, 2021,
http://what-when-how.com/artificial-intelligence/fuzzy-decision-trees-artificial-intelligence/.
[14] Li, S., Zeng, S., & Wu, J. (2021). A Comparison Analysis on Decision Tree Algorithms.
Boston University.