You are on page 1of 34

´ a la Miner´ Aux 6.

Introduccion ıa de Datos
´ L’Huillier1,2 , Richard Weber2 Gaston glhuilli@dcc.uchile.cl
1 Departamento

´ de Ciencias de la Computacion Universidad de Chile

2 Departamento

de Ingenier´ ıa Industrial Universidad de Chile

2010

G. L’Huillier, R. Weber

´ - Redes Neuronales IN643 - Arboles de Decision

Auxiliar 6

´ ´ Arboles de Decision ´ ´ Tipos de arboles de decision ´ e´ Splits: Entrop´ ıa, Ganancia de Informacion ındice de Gini Poda: Pre-poda y Post-poda Propiedades Uso en Rapidminer v5.0 Redes Neuronales Perceptron, ´ multi-capa Red Neuronal Perceptron

G. L’Huillier, R. Weber

´ - Redes Neuronales IN643 - Arboles de Decision

Recuerdo: Aprendizaje Supervisado
Dataset    X =  x1,1 x2,1 . . . ... ... . . . x1,A x2,A . . . xN , A       , Y =     y1 y2 . . . yN     

xN,1 . . .

X = {xi }N i=1 , xi = (xi,1 , . . . , xi,A ) , ∀i ∈ {1, . . . , N } Y = (y1 , . . . , yN )T Probabilidad que clientej pague el credito y = f (X ) ⇒ yi = P( pague el credito |xi )
G. L’Huillier, R. Weber ´ - Redes Neuronales IN643 - Arboles de Decision

.Arboles de Decision .) (+ adelante) ´ log´ Regression ıstica Nearest Neighbor .! G.´ Tecnicas Aprendizaje Supervisado ´ (aux 6) Arboles de Decision ´ (aux 6) Perceptron ´ Multi-capa) (aux 6) Redes Neuronales (Perceptron Redes Bayesianas Na¨ ıve Bayes (+ adelante) Support Vector Machines (+ adelante) Mutliples-clasificadores (Boosting.Redes Neuronales IN643 .. Bagging. L’Huillier. etc. R. Weber ´ .

Diagnosis medicas. G. etc. L’Huillier.g. R. analisis de credito.Arboles de Decision .´ ´ Arboles de Decision ´ Representacion Cada nodo interno es un atributo Cada rama corresponde a un valor del atributo ´ Cada nodo hoja asigna una clasificacion ´ Cuando deber´ ıamos considerar esta tecnica Cuando los objetos se pueden describir por variables binarias Variable objetivo toma valores discretos Datos de entrenamiento con potencial ruido ´ ´ ´ ´ e. Weber ´ .Redes Neuronales IN643 .

Weber ´ .´ ´ Arboles de Decision Algoritmo ID3 (Iterative Dichotomiser 3) [Quinlan.Arboles de Decision . G. 1993] ´ Basicamente el mismo algoritmo ID3. L’Huillier. Se generan rangos que permiten manejar los valores continuos como ´ valores categoricos. Algoritmo C4.Redes Neuronales IN643 . ´ Solamente permite clasificar base de datos con atributos categoricos. pero considera la posibilidad de clasificar con atributos con valores continuos. 1986].5 [Quinlan. R.

Redes Neuronales IN643 . 1984] Ramificaciones de los atributos (splits) binarias. G.. R.´ ´ Arboles de Decision CART “Classification and Regression Tree” [Breiman et al.Arboles de Decision . Weber ´ . CHAID [Hartigan. 1975] Basado en el algoritmo “Automatic Interaction Detection” (AID) ˜ 1963 publicado el ano Chi-square Automatic Interaction Detection. L’Huillier.

. Weber ´ .Arboles de Decision .. L’Huillier.´ ´ La idea.Redes Neuronales IN643 . Arboles de decision: ´ ´ Figura: Idea principal de los arboles de decision G. R.

Arboles de Decision . L’Huillier.Algoritmo ID3 Figura: Algoritmo ID3 G.Redes Neuronales IN643 . Weber ´ . R.

Redes Neuronales IN643 .Algoritmo ID3 Figura: “Atributo que mejor clasifica” ⇒ Mejor “Split” G.Arboles de Decision . L’Huillier. Weber ´ . R.

Weber ´ . L’Huillier.Redes Neuronales IN643 .Arboles de Decision .´ ´ Arboles de Decision ´ de los Splits Evaluacion Lo ideal es encontrar los splits que generen nuevas ramas cuyos nodos ´ limpios posible (o menor impureza posible) tengan sean lo mas ´ Ratio (porcion) ´ Ganancia de Informacion Test Chi2 ´ Entrop´ ıa (Ganancia de Informacion) ´ Indice de Gini G. R.

Mientras menor el ´ ındice de Gini.Arboles de Decision . Weber ´ . Gini(n) es la probabilidad de no sacar dos registros de la misma clase del mismo nodo. mejor es la pureza del split.Gini Split Indice de Gini Gini(n) = 1 − X x∈X P(n. S ) = X | s| Gini(s) |n| s∈S n ⇒ Seleccionamos para ramificar. . donde |n| es la cardinalidad de elementos en el nodo n. GiniSplit(n. R. G. .Redes Neuronales IN643 . Sk } del nodo n. aquel split con menor GiniSplit. Gini Split Dado un split Sn = {S1 . . . x) = Probabilidad de ocurrencia de la clase x en el nodo n. x)2 P(n. L’Huillier.

Arboles de Decision . R.Redes Neuronales IN643 . L’Huillier.Ejemplo Gini Split Figura: Base de datos “Weather” G. Weber ´ .

48 = 0.48 + × 0.Gini Split Ejemplo „ «2 „ «2 2 3 − = 0.48 5 5 „ « „ « „ « 5 4 5 × 0.0 Gini(overcast) = 1 − 4 4 „ «2 „ «2 3 2 Gini(rainy) = 1 − − = 0.0 + × 0.48 5 5 „ «2 „ «2 0 4 − = 0.Arboles de Decision . Weber ´ . L’Huillier.343 GiniSplit(Outlook) = 14 14 14 Gini(sunny) = 1 − G.Redes Neuronales IN643 . R.

Arboles de Decision . .Redes Neuronales IN643 . . x)log2 P(n. x)2 ´ La entrop´ ıa mide la impureza de los datos S (mide la informacion (numero de bits) promedio necesaria para codificar las clases de los ´ datos en el nodo) ´ con la mayor ganancia de informacion ´ (Gain) El criterio de seleccion Gain Split Dado un split Sn = {S1 . G. R. . S ) = Entropia(n) − X |s| Entropia(s) |n| s∈S n ⇒ Seleccionamos para ramificar. Gain(n. Weber ´ . donde |n| es la cardinalidad de elementos en el nodo n. Sk } del nodo n. . aquel split con menor GiniSplit.Entrop´ ıa Split Entrop´ ıa Entropia(n) = − X x∈X “ ” P(n. L’Huillier.

Gain Split Ejemplo Entropy(Outlook) = − « „ « „ « „ « 9 9 5 5 log2 − log2 = 0.Redes Neuronales IN643 . L’Huillier.97 5 5 5 5 „ « „ « „ « „ « 4 4 0 0 Entropy(overcast) = − log2 − log2 = 0.94− × 0.25 14 14 14 G.94 14 14 14 14 „ « „ « „ « „ « 2 2 3 3 Entropy(sunny) = − log2 − log2 = 0.Arboles de Decision .97 5 5 5 5 „ „„ « „ « „ « « 5 4 5 Gain(Outlook) = 0. R. Weber ´ .0 + × 0.97 = 0.0 4 4 4 4 „ « „ « „ « „ « 3 3 2 2 Entropy(rainy) = − log2 − log2 = 0.97 + × 0.

Al plantear el problema ´ por el momento solo se deben como un modelo de optimizacion. Post-poda ´ ´ completo. G.Arboles de Decision .Redes Neuronales IN643 . R. Twoing TestChi2 No expandir segun ´ algun ´ criterio: ´ Detener el crecimiento del arbol dado un numero m´ ınimo de muestras ´ presentes en un nodo. Remover las ramas de un arbol de decision Se debe utilizar un conjunto de datos distinto que el de entrenamiento ´ para decidir cual es el mejor “Arbol podado”.Sobre-Ajuste del Modelo Pre-poda ´ de un arbol ´ Parar la construccion antes que se termine de construir. Weber ´ . L’Huillier.s Entrop´ ıa ´ Indice de Gini. considerar Heur´ ısticas dado que es un problema NP-hard.

Weber ´ . R.Redes Neuronales IN643 .. Es un modelo transparente. utiles ´ para implementar al momento que se necesitan reutilizar las reglas ´ ´ obtenidas para un determinado arbol de decision. ´ de los tipos de datos necesarios para poder No existe una restriccion ´ ´ construir el arbol de decision. [1] ´ Son modelos de tipo supervisado faciles de entender e interpretar.. en el cual se pueden seguir cada ´ obtenida mediante las reglas logicas.Arboles de Decision . ´ clasificacion ´ Pueden clasificar utilizando tanto datos categoricos como cont´ ınuos. G.En resumen. L’Huillier. ´ ´ Son facilmente convertidos en un conjunto de reglas logicas .

donde dos categor´ ıas tienen un porcentaje sumamente mayor de datos al de la tercera categor´ ıa (47 %. permite una facil integracion ´ de la empresa. para poder entrenar un arbol de decision significancia estad´ ıstica. A diferencia de otros modelos. [2] ´ ´ Se pueden generar las reglas logicas obtenidas en codigo SQL. “Embedded Feature Selection”. cantidad de informacion Es necesaria una cantidad representativa de datos del conjunto que ´ ´ con se desea modelar. en sistemas de informacion Permiten identificar aquellos atributos que permiten entregar una mayor ´ al modelo..Redes Neuronales IN643 . G. Si se tiene una muestra que se desea modelar para clasificar en tres categor´ ıas. se tienen problemas para que el arbol ´ pueda generar las reglas logicas que permitan discriminar la tercera categor´ ıa. ´ 50 % y 3 % respectivamente). R.En resumen.. de manera de integrarlas en los sistemas de bases de datos de una ´ ´ empresa.Arboles de Decision . L’Huillier. Weber ´ .

Redes Neuronales IN643 .. [3] Es necesario tener presente el sobre ajuste y podar (pre y post poda) ´ ´ Distintos valores para los parametros ´ un arbol de decision.. y la jerarqu´ ıa de las variables presentes en los nodos del arbol. L’Huillier. se pueden obtener arboles de decision completamente distintos. R. reordenando el orden de la jerarqu´ ıa de las ´ variables presentes en los nodos del arbol. ´ ´ logicas . Weber ´ . ´ Dependiendo de los ´ ındices de medidas de ganancia de informacion ´ ´ (criterios de pre-poda). pueden generar distintas alturas en ´ ´ pero no reordenar el orden de las reglas los arboles de decision. G. relacionados con la post-poda.En resumen.Arboles de Decision .

L’Huillier. Weber ´ . R.Arboles de Decision .Redes Neuronales IN643 .´ en RapidMiner v5.0 Arbol de Decision ´ Figura: Arboles en RapidMiner (v5.0) G.

Ganancia de Informacion ındice de Gini Poda: Pre-poda y Post-poda Propiedades Uso en Rapidminer v5.Auxiliare 6 ´ ´ Arboles de Decision ´ ´ Tipos de arboles de decision ´ e´ Splits: Entrop´ ıa. R.Redes Neuronales IN643 .Arboles de Decision .0 Redes Neuronales Perceptron ´ multi-capa Red Neuronal Perceptron G. L’Huillier. Weber ´ .

Weber ´ .Arboles de Decision . Metodo de regresion Las redes neuronales pertenecen al conjunto de herramientas de ´ y regresion ´ no lineal. particular utilizando un perceptron La habilidad de la red neuronal de aprender a partir de un conjunto de ejemplos es un modelo adecuado para abordar un gran numero de ´ problemas dado que puede aproximar funciones no lineales. entre otras aplicaciones. filtrar ruido en los datos.Redes Neuronales IN643 . G. clasificacion Se ha demostrado que es un “aproximador” universal: Cualquier ´ continua se puede aproximar por una red neuronal (en funcion ´ multicapa MLP).Redes Neuronales Conceptos generales ´ ´ y clasificacion ´ de aprendizaje supervisado. L’Huillier. R.

Solo ´ puede clasificar datos que sean linealmente separables. G.Redes Neuronales IN643 . Weber ´ . Puede representar cualquier l´ ımite de decision ´ permite entradas binarias.Or´ ıgen de las Redes Neuronales ´ (Rosemblatt. L’Huillier. −1}. R.Arboles de Decision . ´ lineal. 1958) Perceptron ´ que define un l´ ´ (hiperplano) Modelo de clasificacion ımite de decision para clases y ∈ {+1. ya que Solo ´ se entrena el modelo solo ´ converge si se el algoritmo mediante el cual ´ tiene tal propiedad (teorema de convergencia del perceptron).

L’Huillier.´ [1] Perceptron Figura: Estructura general del perceptron. G.Arboles de Decision . R. Weber ´ .Redes Neuronales IN643 .

´ [2] Perceptron ´ logica ´ Figura: Funcion AND. Weber ´ . G.Redes Neuronales IN643 . L’Huillier. R.Arboles de Decision .

Weber ´ . R.Arboles de Decision .Redes Neuronales IN643 . G. L’Huillier.´ [3] Perceptron ´ logica ´ Figura: Funcion OR.

G.Arboles de Decision .Redes Neuronales IN643 . R. L’Huillier. Weber ´ .´ [4] Perceptron ´ logica ´ Figura: Funcion XOR.

1 − t · o) ∂ E(t. Se detiene cuando se obtiene un error m´ ınimo e. o) = −t · xi ∂ wi G. Weber ´ . Sea η > 0 una tasa de aprendizaje.´ [5] Perceptron ´ (Algoritmo) Perceptron Se inicializa el algoritmo con todos los pesos w = 0. −1}. x) = b + w · x = b + X i wi xi E(t. w). o se alcanza el l´ ımite ´ de epocas fijadas inicialmente. o((b.Arboles de Decision . o) = m´ ax(0. R. L’Huillier.Redes Neuronales IN643 . t ∈ {+1.

L’Huillier.Redes Neuronales IN643 .Arboles de Decision . R. G. Weber ´ .´ [6] Perceptron ´ Figura: Algoritmo Perceptron.

Weber ´ . ´ Figura: Evaluacion G.Arboles de Decision . L’Huillier.Redes Neuronales IN643 . R.´ [7] Perceptron ´ del perceptron.

la capa de salida: actua ´ como salida de la red.Perceptron Artificial Neural Net MultiLayer Perceptron La arquitectura de la red neuronal se caracteriza porque tiene sus neuronas agrupadas en capas de diferentes niveles.Arboles de Decision . L’Huillier.Redes Neuronales IN643 . G. para cada uno de los patrones de entrada. Cada una de las capas esta formada por un conjunto de neuronas y se distinguen entre ellas en 3 niveles de capas distintas: ˜ la capa de entrada: se encargan de recibir las senales o ˜ patrones que proceden del exterior y propagar las senales a todas las otras neuronas de la siguiente capa ´ de realizar el las capas ocultas: son las que tienen la mision procesamiento no lineal de los patrones recibidos. proporcionando al exterior la respuesta de la red. Weber ´ .´ Multicapa Red Neuronal . R.

Weber ´ . R.´ Multicapa Red Neuronal .Perceptron Figura: Diagrama Red Neuronal. L’Huillier. G.Arboles de Decision .Redes Neuronales IN643 .

5: programs for machine learning.. R. R. CA. (1975). C4. R. Wiley. Induction of decision trees. J...Redes Neuronales IN643 . Classification and Regression Trees. Learn.. Hartigan. (1984). (1993). L’Huillier. New York.Arboles de Decision . Clustering Algorithms. Mach. San Francisco. 1 edition. Morgan Kaufmann Publishers Inc. A. J. and Olshen. L. J. 1(1):81–106. G. Chapman and Hall/CRC. R.References I Breiman.. USA. (1986). Stone. J. Weber ´ . J. Quinlan. C. Friedman. Quinlan.