You are on page 1of 7

ARBORI DE DECIZIE Un arbore de decizie este o structur sub forma unui arbore care conine dou tipuri de noduri:

- noduri terminale sau frunze - noduri decizionale Fiecare nod decizional reprezint de fapt un test pentru o anumit proprietate (caracteristic, atribut), fiecare arc, care pleac dintr-un astfel de nod, fiind o valoare a proprietii respective. n schimb, fiecare frunz reprezint o clas. Arborii de clasificare sunt utilizai n prognoza apartenenei unor obiecte la diferite clase tinnd cont de una sau mai multe variabile ce caracterizeaz obiectele respective. De asemenea, sunt cea mai popular metod de clasificare i predicie. Flexibilitatea acestei tehnici o face deosebit de atractiv, mai ales datorit faptului c prezint i avantajul unei vizualizri sugestive (arborele ce sintetizeaz clasificarea obinut). Figura 3- 1: Exemplu de arbore de decizie

(Sursa: Tutorial SPSS) Arborii de decizie se mpart n 3 categorii: Arbori de clasificare, termen folosit atunci cnd rezultatul prediciei este clasa de apartenen a datelor Arbori de regresie, atunci cnd rezultatul prognozat poate fi considerat un numr real (preul petrolului, preul unei aciuni, valoarea unei case etc.) CART (C&RT), adic Classification And Regression Tree (Breiman, 1984), atunci cnd suntem n ambele situaii de mai sus.

Construcia unui arbore de decizie n principiu, se pot construi mai muli arbori de decizie avnd dat un set de atribute, dar unii dintre ei au o precizie mai mare de clasificare dect alii. Astfel, exist o serie de algoritmi care pot fi folosii pentru obinerea de arbori cu o acuratee ct mai mare. Cei mai cunoscui algoritmi sunt: algoritmul Hunt, CART( Classification and Regression Tree), ID3, C4.5, CHAID, SLIQ, SPRINT, QUEST, FACT, THAID. Algoritmul Hunt st la baza celorlali algoritmi de creare a arborilor de decizie. Vom considera Dt mulimea elementelor care se gsesc n nodul t, iar C={C1, C2,..., Ck} este mulimea etichetelor claselor corespunztoare nodului t, astfel vom avea 2 situaii : dac Dt conine elemente ce aparin aceleiai clase Ct, atunci t este o frunz etichetat Ct dac Dt conine elemente ce aparin la mai mult de o clas, atunci se alege un atribut test pentru a mpri mulimea Dt n submulimi (noduri). Procedeul se aplic recursiv fiecrui nod. O problem fundamental n construcia unui arbore o constituie modul n care sunt selectate atributele pentru fiecare nod din arbore. Se urmrete realizarea celei mai adecvate divizri a unui subset de date din cadrul unui nod, astfel nct s se obin un grad ct mai mare de puritate a nodurilor-fii. Astfel, alegerea atributelor n vederea realizrii celei mai adecvate clasificri se bazeaz pe gradul de puritate a nodurilor-fii. Pentru a determina gradul de impuritate se folosesc urmtoarele modaliti de calcul a impuritii: 1. Entropia: arat ct de dezordonat este un set de date:
Entropia( S ) pi / S log 2 pi / S
i 1 c

unde S setul de obiecte pi/S ponderea elementelor i din setul S c numrul de clase Dac entropia este 0 atunci toate obiectele lui S aparin aceleiai clase. Dac entropia este 1 exist un numr egal de elemente n fiecare clas, iar dac aceasta este ntre 0 i 1 numrul de obiecte difer de la o clas la alta.

2. Indexul Gini (Gini index): utilizat cu predilecie n CART i SPRINT, se bazeaz pe selectarea acelui atribut de partiionare care minimizeaz impuritatea divizrii:
I G ( S ) 1 pi2/ S
j 1 c

Partiionarea optim a nodului i este aceea care asigur cea mai mic valoare a indexului GINI de partiionare. 3. Ctigul de informaie (information gain): utilizat cu predilecie n ID3, C4.5 i C5.0,) i se calculeaz ca diferen ntre gradul de impuritate al nodului-printe i gradul de impuritate ale nodurilor-fii. Cu ct este mai mare diferena cu att mai bun este atributul de clasificare ales.

Gain( S ) Entropia(S )
j 1

N (v j ) N

Entropia(v j )

unde Entropia (S) entropia nodului printe S N numrul de obiecte din nodul printe k numrul stri ale atributului ales pentru clasificare N(vj) numrul de obiecte ce aparin nodului-fiu vj Entropia(vj) entropia nodului-fiu vj 4. Msura de clasificare greit (misclassification measure): utilizat cteodat la msurarea impuritii nodului:

Miclassification _ error (S ) 1 max pi / S


i

Figura 3- 2: Comparaie ntre modalitile de calcul a impuritii pentru o clasificare binar

(Sursa: Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, Pearson Education, 2006, pag. 159) p indica proporia obiectelor care aparin uneia din cele 2 clase. Se observ c toate cele trei modaliti de calcul ating valoarea maxim atunci cnd distribuia clasei este uniform (p = 0.5), iar valoarea minim se atinge atunci cnd toate nregistrrile aparin aceleiai clase (cnd p = 0 sau p = 1). Alegerea criteriului de oprire Dup stabilirea criteriului de partiionare a nodurilor, se pune problema alegerii criteriului de oprire a acestui proces. Procesul de partiionare se deruleaz pn cnd toate nodurile terminale (frunzele) sunt pure din punct de vedere al elementelor constitutive, atta timp ct nu exist o condiie de stopare a creterii arborelui. Reguli de stop: a) Minimul n, se refer la condiia de stop care specific un numr minim de obiecte care s fie coninute n nodurile terminale. n aceste condiii, divizarea unui nod ia sfrit atunci cnd fie nodul este pur, fie nu conine mai mult dect numrul specificat de obiecte.

b) Proporia de obiecte, se refer la condiia de stop care impune ca divizarea unui nod s ia sfrit atunci cnd fie nodul este pur, fie nu conine mai multe obiecte dect o proporie (procentaj) minim din mrimea uneia sau mai multor clase. Odat construit arborele de clasificare i decizie, pe baza setului de obiecte de antrenament, acesta va reflecta caracteristicile acestei mulimi. Deoarece un arbore se construiete pentru a putea fi aplicat la diverse alte seturi de date, este necesar evitarea acestei potriviri prea accentuate (overfitting) cu mulimea pe care s-a fcut antrenamentul. n acest caz se utilizeaz metoda de fasonare(pruning) a arborelui. Fasonarea prealabil (pre-pruning) nseamn c se oprete practic creterea arborelui n timpul procesului de inducie, prin decizia de a se sista divizarea nodului, astfel nct acesta va deveni o frunz etichetat cu numele clasei cu cele mai multe elemente. Principalele condiii de stopare sunt fie atunci cnd nodul e pur, fie cnd toate valorile atributelor sunt egale. Fasonarea ulterioar (post-pruning) are loc dup terminarea creterii arborelui, fiind un proces de jos n sus, bazat pe msurarea erorii de clasificare a arborelui. Astfel, un nod va fi fasonat prin renunarea la ramurile sale, el devenind o frunz etichetat n aceeai manier ca mai sus, dac eroarea de clasificare se diminueaz prin aceast operaie. Avantajele i dezavantajele folosirii arborilor decizionali Avantaje: - sunt uor de neles i interpretat, forma lor grafic reprezentnd un atu puternic n acest sens; - necesit un volum mic de pregtire a datelor n raport cu alte tehnici; - permit utilizarea att a datelor nominale, categoriale, ct si a celor numerice fr nicio restricie; - reprezint modele de tip cutie alb (white-box), n care logica deciziei poate fi urmrit uor, regulile de clasificare fiind la vedere. Spre deosebire de arborii de decizie, alte tehnici utilizate i n clasificare, ca de exemplu reelele neuronale artificiale, acioneaz ca nite cutii negre (black-box), nefurniznd direct utilizatorului regulile de clasificare; - fac posibil utilizarea unor tehnici statistice clasice pentru validarea modelului;

- sunt robuste, rapide i lucreaz bine cu seturi mari de date Dezavantaje: - nu sunt recomandate pentru sarcinile de apreciere unde scopul este s prezic valoarea unui atribut continuu - nu sunt recomandai n clasificri cu multe clase i numr relativ mic de unitati - nu trateaz bine regiunile nerectangulare; majoritatea algoritmilor ce folosesc arbori de decizie examineaz doar un singur cmp la un moment dat, acest lucru ar putea duce la o clasificare care s-ar putea s nu corespund cu distribuirea existent a nregistrrilor n spaiul de decizie nu poate pune in evidenta corelaiile dintre variabile