You are on page 1of 7

ARBORI DE DECIZIE

Un arbore de decizie este o structur sub forma unui arbore care conine dou tipuri de noduri:
- noduri terminale sau frunze
- noduri decizionale
Fiecare nod decizional reprezint de fapt un test pentru o anumit proprietate (caracteristic,
atribut), fiecare arc, care pleac dintr-un astfel de nod, fiind o valoare a proprietii respective. n
schimb, fiecare frunz reprezint o clas.

Arborii de clasificare sunt utilizai n prognoza apartenenei unor obiecte la diferite clase tinnd
cont de una sau mai multe variabile ce caracterizeaz obiectele respective. De asemenea, sunt cea
mai popular metod de clasificare i predicie.

Flexibilitatea acestei tehnici o face deosebit de atractiv, mai ales datorit faptului c prezint i
avantajul unei vizualizri sugestive (arborele ce sintetizeaz clasificarea obinut).

Figura 3- 1: Exemplu de arbore de decizie


(Sursa: Tutorial SPSS)

Arborii de decizie se mpart n 3 categorii:


Arbori de clasificare, termen folosit atunci cnd rezultatul prediciei este clasa de apartenen
a datelor
Arbori de regresie, atunci cnd rezultatul prognozat poate fi considerat un numr real (preul
petrolului, preul unei aciuni, valoarea unei case etc.)
CART (C&RT), adic Classification And Regression Tree (Breiman, 1984), atunci cnd
suntem n ambele situaii de mai sus.

Construcia unui arbore de decizie


n principiu, se pot construi mai muli arbori de decizie avnd dat un set de atribute, dar unii
dintre ei au o precizie mai mare de clasificare dect alii. Astfel, exist o serie de algoritmi care
pot fi folosii pentru obinerea de arbori cu o acuratee ct mai mare. Cei mai cunoscui algoritmi
sunt: algoritmul Hunt, CART( Classification and Regression Tree), ID3, C4.5, CHAID, SLIQ,
SPRINT, QUEST, FACT, THAID.

Algoritmul Hunt st la baza celorlali algoritmi de creare a arborilor de decizie. Vom considera
Dt mulimea elementelor care se gsesc n nodul t, iar C={C1, C2,..., Ck} este mulimea
etichetelor claselor corespunztoare nodului t, astfel vom avea 2 situaii :
dac Dt conine elemente ce aparin aceleiai clase Ct, atunci t este o frunz etichetat
Ct
dac Dt conine elemente ce aparin la mai mult de o clas, atunci se alege un atribut
test pentru a mpri mulimea Dt n submulimi (noduri).
Procedeul se aplic recursiv fiecrui nod.

O problem fundamental n construcia unui arbore o constituie modul n care sunt selectate
atributele pentru fiecare nod din arbore. Se urmrete realizarea celei mai adecvate divizri a
unui subset de date din cadrul unui nod, astfel nct s se obin un grad ct mai mare de puritate
a nodurilor-fii. Astfel, alegerea atributelor n vederea realizrii celei mai adecvate clasificri se
bazeaz pe gradul de puritate a nodurilor-fii. Pentru a determina gradul de impuritate se folosesc
urmtoarele modaliti de calcul a impuritii:
1. Entropia: arat ct de dezordonat este un set de date:
c
Entropia( S ) pi / S log 2 pi / S
i 1

unde S setul de obiecte


pi/S ponderea elementelor i din setul S
c numrul de clase
Dac entropia este 0 atunci toate obiectele lui S aparin aceleiai clase. Dac entropia este 1
exist un numr egal de elemente n fiecare clas, iar dac aceasta este ntre 0 i 1 numrul de
obiecte difer de la o clas la alta.
2. Indexul Gini (Gini index): utilizat cu predilecie n CART i SPRINT, se bazeaz pe
selectarea acelui atribut de partiionare care minimizeaz impuritatea divizrii:

c
I G (S ) 1 pi2/ S
j 1

Partiionarea optim a nodului i este aceea care asigur cea mai mic valoare a indexului GINI de
partiionare.

3. Ctigul de informaie (information gain): utilizat cu predilecie n ID3, C4.5 i C5.0,) i se


calculeaz ca diferen ntre gradul de impuritate al nodului-printe i gradul de impuritate
ale nodurilor-fii. Cu ct este mai mare diferena cu att mai bun este atributul de clasificare
ales.

k N (v j )
Gain( S ) Entropia( S ) Entropia(v j )
j 1 N
unde
Entropia (S) entropia nodului printe S
N numrul de obiecte din nodul printe
k numrul stri ale atributului ales pentru clasificare
N(vj) numrul de obiecte ce aparin nodului-fiu vj
Entropia(vj) entropia nodului-fiu vj

4. Msura de clasificare greit (misclassification measure): utilizat cteodat la msurarea


impuritii nodului:

Miclassifi cation _ error ( S ) 1 max pi / S


i

Figura 3- 2: Comparaie ntre modalitile de calcul a impuritii pentru o clasificare


binar
(Sursa: Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining,
Pearson Education, 2006, pag. 159)

p indica proporia obiectelor care aparin uneia din cele 2 clase. Se observ c toate ce le trei
modaliti de calcul ating valoarea maxim atunci cnd distribuia clasei este uniform (p = 0.5),
iar valoarea minim se atinge atunci cnd toate nregistrrile aparin aceleiai clase (cnd p = 0
sau p = 1).

Alegerea criteriului de oprire

Dup stabilirea criteriului de partiionare a nodurilor, se pune problema alegerii criteriului de


oprire a acestui proces.

Procesul de partiionare se deruleaz pn cnd toate nodurile terminale (frunzele) sunt pure
din punct de vedere al elementelor constitutive, atta timp ct nu exist o condiie de stopare a
creterii arborelui.

Reguli de stop:
a) Minimul n, se refer la condiia de stop care specific un numr minim de obiecte care s
fie coninute n nodurile terminale. n aceste condiii, divizarea unui nod ia sfrit atunci
cnd fie nodul este pur, fie nu conine mai mult dect numrul specificat de obiecte.
b) Proporia de obiecte, se refer la condiia de stop care impune ca divizarea unui nod s ia
sfrit atunci cnd fie nodul este pur, fie nu conine mai multe obiecte dect o proporie
(procentaj) minim din mrimea uneia sau mai multor clase.

Odat construit arborele de clasificare i decizie, pe baza setului de obiecte de antrenament,


acesta va reflecta caracteristicile acestei mulimi.

Deoarece un arbore se construiete pentru a putea fi aplicat la diverse alte seturi de date, este
necesar evitarea acestei potriviri prea accentuate (overfitting) cu mulimea pe care s-a fcut
antrenamentul. n acest caz se utilizeaz metoda de fasonare(pruning) a arborelui.

Fasonarea prealabil (pre-pruning) nseamn c se oprete practic creterea arborelui n


timpul procesului de inducie, prin decizia de a se sista divizarea nodului, astfel nct acesta va
deveni o frunz etichetat cu numele clasei cu cele mai multe
elemente. Principalele condiii de stopare sunt fie atunci cnd nodul e pur, fie cnd toate
valorile atributelor sunt egale.

Fasonarea ulterioar (post-pruning) are loc dup terminarea creterii arborelui, fiind un
proces de jos n sus, bazat pe msurarea erorii de clasificare a arborelui. Astfel, un nod va fi
fasonat prin renunarea la ramurile sale, el devenind o frunz etichetat n aceeai manier ca
mai sus, dac eroarea de clasificare se diminueaz prin aceast operaie.

Avantajele i dezavantajele folosirii arborilor decizionali


Avantaje:
- sunt uor de neles i interpretat, forma lor grafic reprezentnd un atu puternic n acest
sens;
- necesit un volum mic de pregtire a datelor n raport cu alte tehnici;
- permit utilizarea att a datelor nominale ct i a celor categoriale, fr nicio restricie;
- reprezint modele de tip cutie alb (white-box), n care logica deciziei poate fi
urmrit uor, regulile de clasificare fiind la vedere. Spre deosebire de arborii de
decizie, alte tehnici utilizate i n clasificare, ca de exemplu reelele neuronale
artificiale, acioneaz ca nite cutii negre (black-box), nefurniznd direct utilizatorului
regulile de clasificare;
- fac posibil utilizarea unor tehnici statistice clasice pentru validarea modelului;
- sunt robuste, rapide i lucreaz bine cu seturi mari de date
Dezavantaje:
- nu sunt recomandate pentru sarcinile de apreciere unde scopul este s prezic valoarea
unui atribut continuu
- nu sunt recomandai n clasificri cu multe clase i numr relativ mic de exemple
- nu trateaz bine regiunile nerectangulare; majoritatea algoritmilor ce folosesc arbori de
decizie examineaz doar un singur cmp la un moment dat, acest lucru ar putea duce la
o clasificare care s-ar putea s nu corespund cu distribuirea existent a nregistrrilor n
spaiul de decizie
- nu poate captura corelaiile dintre atribute