You are on page 1of 4

Arbori de clasificare

Descoperirea de cunotine din bazele de date sau extragerea de


date reprezint efortul de a nelege, analiza i eventual de a utiliza
o cantitate imensa de date disponibile. Descoperirea de cunotine
n baze de date este considerat un proces nsemnat de identificarea
unor tipare de validare a unor noi date, potenial folositoare care pot
fi nelese. Asyfel, pentru a descoperi noi informaii, se parcurg
urmtoarele etape:

1. selectarea datelor iniiale

2. preprocesarea datelor

3. transformarea datelor

4. extragerea datelor

5. interpretarea sau evaluarea datelor

Data Mining-ul poate fi definit, ntr-o prim instan, ca fiind


totaliatatea proceselor de cutare i manipulare a datelor din baze
de date. Marketing-ul modern folosete datele obinute ca urmare a
analizelor din data mining.

Funcia principal a data mining-ului este de a extrage cunotine


din baze de date. Pentru aceasta, data mining-ul folosete o serie de
algoritmi:

a) modelul de alegere a datelor semnificative din baza de date cere


ca orice model informatic se reprezint printr-o funie ntr-un spaiu
unidimensional sau multidimensional depinznd de parametri.
Obinerea modelului se realizeaz prin divesi algoritmi, precum cei
de clusterizare.

b) criteriile de preferin se bazeaz pe cea mai bun aproximare.

c) algoritmi de selecie
d) stabilirea abaterilor

Metodele de data mining pot fi mprtite n dou categorii:

1. metode descriptive: permit descrierea i explicarea


fenomenelor caracteristice sistemului studiat pe baza
metodelor descoperie Baza de date a acestui tip de data
mining are coninut neschimbat din punct de vedere temporal.

2. Metode predictive: permit realizarea de previziuni referitoare


la sistemulsau fenomenul studiat. Aceste metode sunt folosite
n cazul n care baza de date sau depozitul de date are un
coninut variabil n timp n funcie de evoluia fenomenului
studiat (de exemplu, previziune meteorologice)

Fiecare categorie conine metode ce conduc la obinerea modelului:

a) metode nesupervizate de nvtare: se folosesc date fr o


etichetare prealabil a obiectelor de ctre un agent extern. Din
aceast categorie fac parte urmtoarele metode: clusterizare,
descoperirea regulilor de asociere

b) metode supervizate de nvtare: metodele statistice, arborii de


decizie, retele neuronale.

Despre metode detalii:

1. Regresia: anticipeaz valoarea unui rspuns cu una sau mai


multe variabile predictive.

2. Modele liniare generalozate: cuprind regresia logic si regresia


Poisson

3. Arborii de regresie: pot fi de clasificare i predicie.

4. Analiza variabilittii: ANOVA


Putem face o clasificare, punnd un ir de ntrebri, ir n care fiecare
ntrebare este formulate n funcie de cea precedent. Acest
procedeu merit a fi folosit n analiza datelor non-parametrice, n
sensul c de obiecei rspunsurile la ntrebri vor fi da/nu,
adevrat/fals.

Setul de ntrebri referitoare la atributele obiectelor ce


urmeaz a fi clasificate se reprezint printr-un arbore de
clasificare, care este un arbore n sens informatic.

Nodul de decizie sau nodul rdcin se af n vrf i este legat prin


ramuri de nodurile interne sau noduri de decizie. Clasificarea unui
anumit element ncepe din nodul rdcin unde este pus o anumit
ntrebare relativ la o proprietate specific.

Frunzele reprezint acele noduri terminale crora nu le mai


corespund nici o ntrebare, i care astfel nu mai au ramuri. Unui nod
frunz i corespunde o anumit categorie sau clas.

Un arbore de clasificare este utilizat n luarea unei decizii,


motiv pentru care este folosit sintagma arbore de
clasificare i decizie. Acesta partiioneaz n mod recursiv
mulimea de antrenament pn la obinerea nodurilor finale, care
conin fie numai elemente din aceeai categorie, fie elemente dintr-o
categorie dominant. Putem interpreta decizia pentru orice
clasificare ca fiind suma deciziilor de-a lungul drumului dintre nodul
rdcin i nodul frunz.

Arborele construit se folosete pentru a clasifica exemple necunoscute, n


sensul de a decide dac acestea aparin sau nu unei anumite clase. Un
arbore de clasificare i decizie poate fi interpretat ca o reprezentare grafic a
unui procedeu de clasificare, nodurile interne fiind testele pentru atribute iar
frunzele fiind clase.
n construcia unui arbore se urmrete:

- Acurateea clasificrii;

- Abilitatea explicrii motivului lurii unei decizii;

Arborii de clasificare i decizie au trei denumiri clasice:

1. Arbori de clasificare- termen utilizat atunci cnd rezultatul prediciei


este clasa de apartenen a datelor

2. Arbori de regresie- atunci cnd rezultatul prognozat poate fo


sonsiderat un numr real.

3. CART atunci cnd suntem n ambele situaii.

Unul dintre primii algoritmi de construire a unui arbore de clasificare poart


denumirea de HUNT.

Avantajul tehnicii este dat de faptul c se poate utiliza pentru orice tip de date.

Comparaie: