Aplicación de Técnicas de Inducción de Árboles de Decisión A Problemas de Clasificación Mediante El Uso de Weka (Waikato Environment For Knowledge Analysis) .

APLICACIN DE TCNICAS DE INDUCCIN DE RBOLES DE DECISIN A PROBLEMAS DE CLASIFICACIN MEDIANTE EL USO DE WEKA (WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS).
FUNDACIN UNIVERSITARIA KONRAD LORENZ FACULTAD DE INGENIERA DE SISTEMAS BOGOT 2008
APLICACIN DE TCNICAS DE INDUCCIN DE RBOLES DE DECISIN A PROBLEMAS DE CLASIFICACIN MEDIANTE EL USO DE WEKA (WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS).
PAULA ANDREA VIZCAINO GARZON
FUNDACIN UNIVERSITARIA KONRAD LORENZ FACULTAD DE INGENIERA DE SISTEMAS BOGOT 2008 2
CONTENIDO
LISTA DE FIGURAS ........................................................................................................... 4 INTRODUCCION ................................................................................................................ 7 1.MINERA DE DATOS ....................................................................................................... 8 1.1. CARACTERSTICAS Y OBJETIVOS DE LA MINERA DE DATOS ...................................... 8 2.RBOLES DE DECISIN .............................................................................................. 11 2.1. CICLO DE UN RBOL DE DECISIN ....................................................................... 12 2.2. CONSTRUCCIN DE RBOLES DE DECISIN .......................................................... 13 2.3. CLASIFICACIN DE RBOLES DE DECISIN ........................................................... 14 2.3.1. ADTree - Alternating Decision Tree [4] ................................................. 14 2.3.2. Decision Stump o rbol de decisin de un nivel ..................................... 15 2.3.3. ID3 ........................................................................................................... 16 2.3.4. J48 o C4.5 ............................................................................................... 18 2.3.5. LMT (Logistic Model Tree) ...................................................................... 20 2.3.6. M5P (rbol de regresin) ........................................................................ 21 2.3.7. NBTree (Naive Bayes Tree) .................................................................... 21 2.3.8. RandomForest ........................................................................................ 22 2.3.9. RandomTree ........................................................................................... 23 2.3.10. REPTree ................................................................................................. 24 2.3.11. UserClassifier .......................................................................................... 24 3.WEKA Waikato Environment for Knowledge Analysis................................................ 26 3.1. 3.2. 3.3. INSTALACIN Y EJECUCIN ........................................................................ 27 FORMAS DE UTILIZAR WEKA ....................................................................... 28 FICHEROS .ARFF ........................................................................................... 31
4.SELECCIN Y SOLUCIN DEL PROBLEMA .............................................................. 34 4.1. SELECCIN DE EJEMPLO............................................................................. 34 4.2. EMPEZANDO CON WEKA .............................................................................. 37 Paso 1 - Lanzar el interfaz Explorer. ........................................................................ 37 Paso 2 - Cargar la base de datos............................................................................. 37 Paso 3 - Generacin de grficos .............................................................................. 38 4.3. RBOLES DE DECISIN CON WEKA ........................................................... 43 4.4. REVISANDO RESULTADOS .......................................................................... 68 5.BIBLIOGRAFA .............................................................................................................. 74
LISTA DE FIGURAS
Figura 1. Mapa Conceptual de Minera de Datos ............................................................... 9 Figura 2. Representacin del conocimiento...................................................................... 11 Figura 3. Ejemplo de un rbol ADTree ............................................................................. 15 Figura 4. Ejemplo de un rbol ID3 .................................................................................... 17 Figura 5. Ejemplo aplicado de rbol de decisin adaptado para C4.5 ............................. 19 Figura 6. Ejemplo de un rbol de decisin generado por C4.5 ........................................ 19 Figura 7. Pseudo cdigo para el algoritmo LMT ............................................................... 20 Figura 8. Esquema del algoritmo Random Forest ............................................................ 22 Figura 9. Proceso para construir un Random Tree .......................................................... 23 Figura 10. Ejemplo de UserClassifier bsico .................................................................... 24 Figura 11. Ejemplo de UserClassifier final ........................................................................ 25 Figura 12. Imagen de una Weka ....................................................................................... 26 Figura 13. Ventana inicial de Weka .................................................................................. 29 Figura 14. Interfaz Simple CLI .......................................................................................... 29 Figura 15. Interfaz Explorer............................................................................................... 30 Figura 16. Interfaz Experimenter ...................................................................................... 30 Figura 17. Interfaz KnowledgeFlow .................................................................................. 31 Figura 18. Interfaz Explorer con archivo Empleados.arff.................................................. 37 Figura 19. Opcin Visualice para Empleados.arff ............................................................ 38 Figura 20. Resultado de un nodo grfico {Casado x Sueldo} ........................................... 39 Figura 21. Visualizacin de caractersticas atributo Sueldo ............................................. 39 Figura 22. Visualizacin de caractersticas atributo Casado ............................................ 40 Figura 23. Visualizacin de caractersticas atributo Coche .............................................. 40 Figura 24. Visualizacin de caractersticas atributo Hijos ................................................ 41 Figura 25. Visualizacin de caractersticas atributo Alq/Prop........................................... 41 Figura 26. Visualizacin de caractersticas atributo Sindicato.......................................... 42 Figura 27. Visualizacin de caractersticas atributo Bajas/Ao ........................................ 42 Figura 28. Visualizacin de caractersticas atributo Antigedad ...................................... 43 Figura 29. Visualizacin de caractersticas atributo Sexo ................................................ 43 Figura 30. Visualizacin de pantalla clasificacin ADTree ............................................... 44 Figura 31. Visualizacin de pantalla al generar el rbol ADTree...................................... 44 Figura 32. Ventana Run information del rbol ADTree ..................................................... 45 Figura 33. Ventana Classifier model del rbol ADTree .................................................... 45 Figura 34. Ventana Stratified cross-validation del rbol ADTree ...................................... 46 Figura 35. Men desplegable para visualizacin de rboles ............................................ 46 Figura 36. Ventana de visualizacin de rbol de decisin ADTree. ................................. 47
Figura 37. Visualizacin de pantalla clasificacin DecisionStump. .................................. 47 Figura 38. Ventana al generar el rbol DecisionStump .................................................... 48 Figura 39. Ventana Run information del rbol DecisionStump ......................................... 48 Figura 40. Ventana Classifier model del rbol DecisionStump......................................... 49 Figura 41. Ventana Stratified cross-validation del rbol DecisionStump .......................... 49 Figura 42. Visualizacin de pantalla clasificacin Id3....................................................... 50 Figura 43. Ventana al generar el rbol Id3. ...................................................................... 50 Figura 44. Visualizacin de pantalla clasificacin J48. ..................................................... 51 Figura 45. Ventana al generar el rbol J48....................................................................... 51 Figura 46. Ventana Run information del rbol J48 ........................................................... 52 Figura 47. Ventana Classifier model del rbol J48 ........................................................... 52 Figura 48. Ventana Stratified cross-validation del rbol J48 ............................................ 52 Figura 49. Ventana de visualizacin de rbol de decisin J48. ........................................ 53 Figura 50. Visualizacin de pantalla clasificacin LMT. ................................................... 53 Figura 51. Ventana al generar el rbol LMT. .................................................................... 54 Figura 52. Ventana Run information del rbol LMT .......................................................... 54 Figura 53. Ventana Classifier model del rbol LMT .......................................................... 55 Figura 54. Ventana Stratified cross-validation del rbol LMT ........................................... 55 Figura 55. Ventana de visualizacin de rbol de decisin LMT. ...................................... 56 Figura 56. Visualizacin de pantalla clasificacin M5P. ................................................... 56 Figura 57. Ventana al generar el rbol M5P. .................................................................... 57 Figura 58. Visualizacin de pantalla clasificacin NBTree. .............................................. 57 Figura 59. Ventana al generar el rbol NBTree. ............................................................... 58 Figura 60. Ventana Run information del rbol NBTree ..................................................... 58 Figura 61. Ventana Classifier model del rbol NBTree .................................................... 59 Figura 62. Ventana Stratified cross-validation del rbol NBTree ...................................... 59 Figura 63. Ventana de visualizacin de rbol de decisin NBTree. ................................. 60 Figura 64. Visualizacin de pantalla clasificacin RandomForest. ................................... 60 Figura 65. Ventana al generar el rbol RandomForest. ................................................... 61 Figura 66. Ventana Run information del rbol RandomForest ......................................... 61 Figura 67. Ventana Classifier model del rbol RandomForest ......................................... 61 Figura 68. Ventana Stratified cross-validation del rbol RandomForest .......................... 62 Figura 69. Visualizacin de pantalla clasificacin RandomTree....................................... 62 Figura 70. Ventana al generar el rbol RandomTree. ...................................................... 63 Figura 71. Ventana Run information del rbol RandomTree ............................................ 63 Figura 72. Ventana Classifier model del rbol RandomTree ............................................ 64 Figura 73. Ventana Stratified cross-validation del rbol RandomTree ............................. 64 Figura 74. Visualizacin de pantalla clasificacin REPTree. ............................................ 65
Figura 75. Ventana al generar el rbol REPTree. ............................................................ 65 Figura 76. Ventana Run information del rbol REPTree .................................................. 66 Figura 77. Ventana Classifier model del rbol REPTree .................................................. 66 Figura 78. Ventana Stratified cross-validation del rbol REPTree ................................... 66 Figura 79. Visualizacin de rbol de decisin REPTree. .................................................. 67 Figura 80. Visualizacin de pantalla clasificacin UserClassifier. .................................... 67
INTRODUCCION Teniendo en cuenta el gran avance en los sistemas de minera de datos desde el ltimo siglo, las entidades educativas y empresariales han buscado maneras de explotar al mximo la informacin existente en sus sistemas de informacin, esto basndose en tcnicas y software especializados que permiten interpretacin fcil y real de los resultados. Es as como para dar apoyo en la toma de decisiones a niveles administrativos o gerenciales, se crean metodologas especializadas y tcnicas de extraccin adecuada de la informacin, haciendo que el usuario final pueda ver los resultados en un solo clic o con pocos pasos, por tanto y teniendo en cuenta lo anterior, se crea el presente manual de usuario basado en la tecnologa de informacin y software especializado WEKA (Waikato Environment for Knowledge Analysis) de la universidad de Waikato en Nueva Zelanda, este utiliza tcnicas de minera de datos basndose en diferentes reglas y tipos de clasificacin de informacin tales como rboles de decisin, reglas de clasificacin, agrupamiento, etc. Al ser un software especializado brindara apoyo suficiente para interpretar resultados de manera matemtica y estadstica y por medio de visualizacin de grficos o rboles que agregarn valor a los resultados obtenidos. Finalmente al usuario final se deja el trabajo profundo de investigacin de teoremas o teoras si as lo desea para complementar sus interpretaciones, pero se deja por parte del autor conceptos que facilitaran la comprensin de funcionamiento de la herramienta para la generacin de resultados adecuados y continuar en la mejora constante de la misma.
1. MINERA DE DATOS La Minera de Datos busca el procesamiento de informacin de forma clara para el usuario o cliente, de tal forma que pueda clasificar la informacin de acuerdo a parmetros inicialmente establecidos y de acuerdo a las necesidades que se buscan, es decir por medio de la minera de datos se dan acercamientos claros a resultados estadsticamente factibles a entendimiento y razn de una persona. Segn Vallejos [1] varios autores describen la minera de datos como: Rene las ventajas de varias reas como la Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros, 1996)1. La integracin de un conjunto de reas que tienen como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisin (Molina y otros, 2001) 2.
1.1. CARACTERSTICAS Y OBJETIVOS DE LA MINERA DE DATOS
o Explorar los datos que se encuentran en las profundidades de las bases de datos. o El entorno de la minera de datos suele tener una arquitectura clientes-servidor. o Las herramientas de la minera de datos ayudan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros pblicos, archivados o El minero es, muchas veces un usuario final con poca o ninguna habilidad de programacin, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rpidamente respuestas. o Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. o Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesarse rpidamente. o Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minera de datos.
1
Citado en S. Vallejos, Trabajo de adscripcin minera de datos, Corrientes - Argentina, 2006, pp. 11. 2 Citado en S. Vallejos, Trabajo de adscripcin minera de datos, Corrientes - Argentina, 2006, pp. 11.
o La minera de datos produce cinco tipos de informacin: - Asociaciones. - Secuencias. - Clasificaciones. - Agrupamientos. - Pronsticos. Como se puede observar en la Figura 1 la minera de datos clasifica la informacin y la procesa para obtener un resultado, para esto se debe pasar por ciertos procedimientos que se describen segn [2] como: 1. 2. 3. Limpieza de datos: Pre-procesar la data a fin de reducir el ruido y los valores nulos. Seleccin de caracterstica: Eliminar los atributos irrelevantes o redundantes. Transformacin de datos: Estandarizar, normalizar o generalizar los datos.
Figura 1. Mapa Conceptual de Minera de Datos As mismo y segn [2] lo que permite este modelo de minera de datos es dar exactitud de la prediccin (eficacia); velocidad y escalabilidad en trminos del tiempo para construir el modelo y el tiempo para usar el modelo; robustez en cuanto a administracin del ruido y de valores nulos; 9
escalabilidad para buscar eficiencia disco; interpretabilidad para dar proporcionados por el modelo; y por cuanto a buscar tamao de rbol de de clasificacin.
en bases de datos residentes en entendimiento y descubrimientos ltimo dar bondad de las reglas en decisin y compacidad de la reglas
10
2. RBOLES DE DECISIN Un rbol de decisin es un conjunto de condiciones o reglas organizadas en una estructura jerrquica, de tal manera que la decisin final se puede determinar siguiendo las condiciones que se cumplen desde la raz hasta alguna de sus hojas. Un rbol de decisin tiene unas entradas las cuales pueden ser un objeto o una situacin descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta la cual en ltimas es una decisin que es tomada a partir de las entradas. Los valores que pueden tomar las entradas y las salidas pueden ser valores discretos o continuos. Se utilizan ms los valores discretos por simplicidad. Cuando se utilizan valores discretos en las funciones de una aplicacin se denomina clasificacin y cuando se utilizan los continuos se denomina regresin. Un rbol de decisin lleva a cabo un test a medida que este se recorre hacia las hojas para alcanzar as una decisin. El rbol de decisin suele contener nodos internos, nodos de probabilidad, nodos hojas y arcos [3]. Un nodo interno contiene un test sobre algn valor de una de las propiedades. Un nodo de probabilidad indica que debe ocurrir un evento aleatorio de acuerdo a la naturaleza del problema, este tipo de nodos es redondo, los dems son cuadrados. Un nodo hoja representa el valor que devolver el rbol de decisin. Las ramas brindan los posibles caminos que se tienen de acuerdo a la decisin tomada.
Y
0 1
X
0 0 0 0 1 0 1 1 1
X
1
Z
0 0 1 1
Figura 2. Representacin del conocimiento. 11
2.1.
CICLO DE UN RBOL DE DECISIN
De acuerdo al ciclo que debe ser aplicado a un rbol de decisin, se tiene: 1. Aprendizaje:
2. Clasificacin:
Un ejemplo para la compra de un computador se puede dar primero, especificando las reglas o condiciones que se han recolectado de una base de datos.
age <=30 <=30 3140 >40 >40 >40 3140 <=30 <=30 >40 <=30 3140 3140 >40 income student high high high medium low low low medium low medium medium medium high medium no no no no yes yes yes no yes yes yes no yes no credit buys rating computer fair no excellent no fair yes fair yes fair yes excellent no excellent yes fair no fair yes fair yes excellent yes excellent yes fair yes excellent no
12
Seguidamente se construye el rbol de decisin de acuerdo a los parmetros levantados en el punto anterior y se evalan las posibilidades ofrecidas dando as la respuesta ms adecuada al usuario.
2.2.
CONSTRUCCIN DE RBOLES DE DECISIN
Para la construccin de rboles de decisin se deben tener en cuenta ciertas etapas, estas son: 1. Construir el rbol (Reglas de divisin) Al inicio todos los ejemplos de entrenamiento estn a la raz. Los atributos deben ser categricos (si son continuos ellos deben ser discretizados) El rbol es construido recursivamente de arriba hacia abajo con una visin de divide y conquista. Los ejemplos son particionados en forma recursiva basado en los atributos seleccionados Los atributos son seleccionados basado en una medida heurstica o estadstica (ganancia de informacin) La ganancia de informacin se calcula desde el nivel de entropa de los datos. 2. Detener la construccin (Reglas de parada): Se tienen en cuenta las siguientes condiciones: Todas las muestras para un nodo dado pertenecen a la misma clase. No existe ningunos atributos restantes para ser particionados (el voto de la mayora es empleada para clasificar la hoja). 13
No existe ms ejemplos para la hoja. 3. Podar el rbol (Reglas de poda) Identificar y eliminar ramas que reflejen ruido o valores atpicos.
2.3.
CLASIFICACIN DE RBOLES DE DECISIN
Para este manual slo se tendr en cuenta los algoritmos y/o rboles de decisin tomados en el software libre WEKA versin 3.4.
2.3.1. ADTree - Alternating Decision Tree [4]
Un rbol de decisin alternativo es un mtodo de clasificacin proveniente del aprendizaje automtico conocido en ingls como Alternating Decision Tree (ADTree). Las estructuras de datos y el algoritmo son una generalizacin de los rboles de decisin. El ADTree fue introducido por Yoav Freund y Llew Mason en 19993. Los ADTree contienen nodos splitter y nodos de prediccin. El primero es un nodo que es asociado con una prueba, mientras que un nodo de prediccin es asociado con una regla. El nodo de la Figura 3, esta compuesto por 4 nodos splitter y 9 nodos de prediccin. Una instancia define una serie de caminos en un ADTree. La clasificacin es asociada con una instancia que es el signo de la suma de las predicciones cercanas al camino en el que es definido por esta instancia. Considere el ADTree de la figura 3 y la instancia x = (color=red, year=1989, ), la suma de predicciones es +0.2+0.2+0.6+0.4+0.6 = +2, as la clasificacin es +1 con alta confianza. Para la instancia x = (color=red, year=1999, ), la suma de las predicciones es +0.4 y la clasificacin es +1 con baja confianza. Para la instancia x= (color=white, year=1999, ), la suma de las predicciones es -0.7 y la clasificacin es -1 con confianza media. El ADTree puede ser visto como una consistencia de una raz nodo de direccin y cuatro unidades de tres nodos cada uno. Cada unidad es una regla de decisin y esta compuesta por un nodo splitter y dos nodos de prediccin que son sus hijos [5].
Citado en Proz. rbol de decisin (ptima). http://www.proz.com/kudoz/2311529 [citado en 28 de Febrero de 2008]
Disponible:
14
Figura 3. Ejemplo de un rbol ADTree Las reglas en un ADTree son similares a las de rboles de decisin, consecuentemente se puede aplicar mtodos de empuje o aumento en el orden para disear un algoritmo de aprendizaje ADTree. Una regla en un ADTree define una particin de una instancia dentro de un espacio de tres bloques definidos por C1 c2 , C1 c2 y C1 . Bsicamente, el algoritmo de aprendizaje para construccin de un ADTree es una estrategia top-down. Cada paso de aumento es seleccionado y adiciona una nueva regla o su equivalente a una nueva unidad consistente de un nodo splitter y dos nodos de prediccin.
MULTI-LABEL ALTERNATING DECISION TREE [5]
Un rbol de decisin multi-label o multietiqueta es un ADTree con las siguientes restricciones: cualquier nodo de prediccin interior contiene un 0; esto es al menos un nodo splitter siguiendo cada nodo de prediccin; los nodos de prediccin en una hoja contiene valores que pueden ser interpretados como clases.
2.3.2. Decision Stump o rbol de decisin de un nivel
Como bien dice su nombre se trata de rboles de decisin de un solo nivel.
15
Funcionan de forma aceptable en problemas de dos clases. No obstante, para problemas de ms de dos clases es muy difcil encontrar tasas de error inferiores a 0.5 segn [6]. Retomando los conceptos de [7], el propsito del algoritmo es construir un modelo de cada caso que ser clasificada, tomando nicamente un subconjunto de casos de entrenamiento. Este subconjunto es escogido en base a la distancia mtrica entre las pruebas del caso y las pruebas de los casos dentro del espacio. Por cada caso de prueba, se hace una empaquetacin conjunta de un rbol de un nivel clasificando as el aprendizaje de los puntos de entrenamiento cerrando la prueba actual del caso. Los rboles de decisin de un nivel o decisin stump (DS) son rboles que clasifican casos, basados en valores caractersticos. Cada nodo en un rbol de decisin de un nivel representa una caracterstica de un caso para ser clasificado, y cada rama representa un valor que el nodo puede tomar. Los casos son clasificados comenzando en el nodo raz y se cataloga basndose en sus valores caractersticos. En el peor de los casos un rbol de decisin de un nivel puede reproducir el sentido ms comn, y puede hacerse mejor si la seleccin caracterstica es particularmente informativa. Generalmente, el conjunto propuesto consiste en los siguientes cuatro pasos: 1. Determinar la distancia mtrica conveniente. 2. Encontrar el k vecino ms cercano usando la distancia mtrica seleccionada. 3. Aplicar la empaquetacin de clasificacin de los rboles de decisin de un nivel como entrenamiento de los k casos. 4. La respuesta a la empaquetacin de conjunto es la prediccin para los casos de prueba.
2.3.3. ID3
El ID3 es un algoritmo simple pero potente, cuya misin es la elaboracin de un rbol de decisin bajo las siguientes premisas [8]: 1. Cada nodo corresponde a un atributo y cada rama al valor posible de ese atributo. Una hoja del rbol especifica el valor esperado de la decisin de acuerdo con los ejemplos dados. La explicacin de una determinada decisin viene dada por la trayectoria desde la raz a la hoja representativa de esa decisin. 2. A cada nodo es asociado aquel atributo ms informativo que an no haya sido considerado en la trayectoria desde la raz. 16
3. Para medir cunto de informativo es un atributo se emplea el concepto de entropa. Cuanto menor sea el valor de la entropa, menor ser la incertidumbre y ms til ser el atributo para la clasificacin. El ID3 es capaz de tratar con atributos cuyos valores sean discretos o continuos. En el primer caso, el rbol de decisin generado tendr tantas ramas como valores posibles tome el atributo. Si los valores del atributo son continuos, el ID3 no clasifica correctamente los ejemplos dados. Por ello, se propuso el C4.5, como extensin del ID3, que permite: Otro concepto dado por [9] que se puede tomar es aquel donde se describe que el ID3 es un algoritmo iterativo que elige al azar un subconjunto de datos a partir del conjunto de datos de entrenamiento y construye un rbol de decisin a partir de ello. El rbol debe clasificar de forma correcta a todos los casos de entrenamiento. A continuacin y usando este rbol intenta clasificar a todos los dems casos en el conjunto completo de datos de entrenamiento. Si el rbol consigue clasificar el subconjunto, entonces ser correcto para todo el conjunto de datos, y el proceso termina. En caso contrario, se incorpora al subconjunto una seleccin de los casos que no ha conseguido clasificar correctamente, y se repite el proceso. De esta forma se puede hallar el rbol correcto en unas pocas iteraciones, procesando un conjunto de datos.
Figura 4. Ejemplo de un rbol ID3 17
2.3.4. J48 o C4.5
Es un algoritmo de induccin que genera una estructura de reglas o rbol a partir de subconjuntos (ventanas) de casos extrados del conjunto total de datos de entrenamiento. En este sentido, su forma de procesar los datos es parecido al de Id3. El algoritmo genera una estructura de reglas y evala su bondad usando criterios que miden la precisin en la clasificacin de los casos. Emplea dos criterios principales para dirigir el proceso dados por [10]: 1. Calcula el valor de la informacin proporcionada por una regla candidata (o rama del rbol), con una rutina que se llama info. 2. Calcula la mejora global que proporciona una regla/rama usando una rutina que se llama gain (beneficio). Con estos dos criterios se puede calcular una especie de calor de coste/beneficio en cada ciclo del proceso, que le sirve para decidir si crear, por ejemplo, dos nuevas reglas, o si es mejor agrupar los casos de una sola. El algoritmo realiza el proceso de los datos en sucesivos ciclos. En cada ciclo se incrementa el tamao de la ventana de proceso en un porcentaje determinado respecto al conjunto total. El objetivo es tener reglas a partir de la ventana que clasifiquen correctamente a un nmero cada vez mayor de casos en el conjunto total. Cada ciclo de proceso emplea como punto de partida los resultados conseguidos por el ciclo anterior. En cada ciclo de proceso se ejecuta un submodelo contra los casos restantes que no estn incluidos en la ventana. De esta forma se calcula la precisin del modelo respecto a la totalidad de datos. Es importante notar que la variable de salida debe ser categrica. Como se dice que el C4.5 es una mejora al Id3, se pueden describir ciertas mejoras: a) En vez de elegir los casos de entrenamiento de forma aleatoria para formar la ventana, el rbol C4.5 sesga la seleccin para conseguir una distribucin ms uniforme de la clase de la ventana inicial. b) En cuanto al lmite de excepciones (casos clasificados incorrectamente) C4.5 incluye como mnimo un 50% de las excepciones en la prxima ventana. El resultado es una convergencia ms rpida hacia el rbol definitivo. c) C4.5 termina la construccin del rbol sin tener que clasificar los datos en todas las categoras (clases) posibles.
18
REPRESENTACIN TIPO RBOL
La estructura del rbol esta compuesta por dos tipos de nodos: una hoja (nodo terminal), que indica una clase; un nodo de decisin, que especifica una comprobacin a realizar sobre el valor de una variable. Tiene una rama y un subrbol para cada resultado posible de la comprobacin.
Figura 5. Ejemplo aplicado de rbol de decisin adaptado para C4.5 [11] C4.5 es una tcnica de induccin que se basa en el mtodo clsico de dividir y vencer y forma parte de la familia de los TDIDT (Top Down Induction Trees).
Figura 6. Ejemplo de un rbol de decisin generado por C4.5
19
2.3.5. LMT (Logistic Model Tree)
El LMT proporciona una descripcin muy buena de los datos. Un LMT consiste bsicamente en una estructura de un rbol de decisin con funciones de regresin logstica en las hojas. Como en los rboles de decisin ordinarios, una prueba sobre uno de los atributos es asociado con cada nodo interno. Para enumerar los atributos con k valores, el nodo tiene k nodos hijos, y los casos son clasificados en las k ramas dependiendo del valor del atributo. Para atributos numricos, el nodo tienen dos nodos hijos y la prueba consiste en comparar el valor del atributo con un umbral: un caso puede ser clasificar los datos menores en la rama izquierda mientras que los valores mayores en la rama derecha. Formalmente [12] describe, un LMT consiste en una estructura de rbol que esta compuesta por un juego N de nodos internos o no terminales y un juego de T hojas o nodos terminales. La S denota el espacio, atravesando por todos los atributos que estn presentes en los datos.
Figura 7. Pseudo cdigo para el algoritmo LMT
20
2.3.6. M5P (rbol de regresin)
Miguel ngel Fuentes y Pablo Galarza citan es un mtodo de aprendizaje mediante rboles de decisin, utiliza el criterio estndar de poda M5 [13]. Es un rbol basado en rbol de decisin numrico tipo model tree. Cita Raquel Bzquez, Fernando Delicado y M. Carmen Domnguez [14] las caractersticas como: Construccin de rbol mediante algoritmo inductivo de rbol de decisin. Decisiones de enrutado en nodos tomadas a partir de valores de los atributos. Cada hoja tiene asociada una clase que permite calcular el valor estimado de la instancia mediante una regresin lineal.
2.3.7. NBTree (Naive Bayes Tree)
La referencia [15] muestra que es un algoritmo hibrido. Este genera un tipo de rbol de decisin, pero las hojas contienen un clasificador Naive Bayes construido a partir de los ejemplos que llegan al nodo. As mismo tomando conceptos de [16], es un eficiente y efectivo algoritmo de aprendizaje, pero previo a los resultados muestra que su capacidad es limitada ya que puede nicamente representar cierto grado de separacin entre las funciones binarias. Se le deben dar necesarias y suficientes condiciones es el proceso en el dominio binario para ser aprendizaje Naive Bayes bajo una representacin uniforme. Se ve entonces que el aprendizaje (y los datos de error) de Naive Bayes puede ser afectado dramticamente por distribuciones de muestreo. Los resultados ayudan a dar un ms profundo entendimiento de este de una manera ms simple. Se ha descrito que muestra datos de prediccin tan eficientemente como el algoritmo C4.5. Los resultados ayudan a profundizar en el entendimiento de este aparentemente simple algoritmo de aprendizaje. Naive Bayes aprende capacidades que son determinadas no nicamente por las funciones objetivo, sino tambin por muestreos de distribuciones, y de cmo el valor de un atributo es representado.
21
2.3.8. RandomForest
Segn cita Francisco Jos Soltero y Diego Jos Bodas en su artculo [17] Se basan en el desarrollo de muchos rboles de clasificacin. Para clasificar un objeto desde un vector de entrada, se pone dicho vector bajo cada uno de los rboles del bosque. Cada rbol genera una clasificacin, el bosque escoge la clasificacin teniendo en cuenta el rbol ms votado sobre todos los del bosque. Cada rbol se desarrolla como sigue: Si el nmero de casos en el conjunto de entrenamiento es N, prueba N casos aleatoriamente, pero con sustitucin, de los datos originales. Este ser el conjunto de entrenamiento para el desarrollo del rbol. Si hay M variables de entrada, un nmero m<<M es especificado para cada nodo, m variables son seleccionadas aleatoriamente del conjunto M y la mejor participacin de este m es usada para dividir el nodo. El valor de m se mantienen constante durante el crecimiento del bosque. Cada rbol crece de la forma ms extensa posible, sin ningn tipo de poda.
Figura 8. Esquema del algoritmo Random Forest [18]
CARACTERSTICAS DE RANDOM FOREST [19]
Corre eficientemente sobre grandes bases de datos Puede manejar cientos de variables de entrada sin eliminacin de otras variables. Esto da las estimaciones para saber que variables son importantes en la clasificacin. Es un mtodo eficaz para estimar datos perdidos y mantiene la exactitud de cundo una proporcin grande de los datos falla. Los rboles generados pueden ser salvados de un uso futuro sobre otros datos. 22
Los prototipos son calculados ya que dan informacin acerca de la relacin entre las variables y las clasificaciones. Ofrece un mtodo experimental para detectar interacciones entre variables.
2.3.9. RandomTree
Siguiendo los conceptos de [20] Un RandomTree es un rbol dibujado al azar de un juego de rboles posibles. En este contexto "al azar" significa que cada rbol en el juego de rboles tiene una posibilidad igual de ser probado. Otro modo de decir esto consiste en que la distribucin de rboles es "uniforme". El proceso del RandomTree es un proceso que produce random trees de permutaciones arbitrarias.
PROCESO PARA CONSTRUIR UN RANDOM TREE
Siguiendo la conceptualizacin realizada por [21], primero se marcan los vrtices n por nmero 1 a travs de de una manera aleatoria para cada que cada vrtice tenga la misma probabilidad (este vrtice es la permutacin aleatoria). Usando esta permutacin, se comienza a construir un rbol sobre vrtices de n: inicialmente, se tiene vrtices de n y ninguna marca. En el paso k-th se intenta agregar el borde de k-th y ver si el grfico resultante contiene un ciclo. Si es as, se salta el borde o lnea de marca, adems se agrega al grfico y se repite para k+1. Durante este proceso el grfico almacenar un bosque. Despus de al menos conectado). pasos se obtendr un rbol (un bosque
Las lneas punteadas representan las marcas o lneas que fueron consideradas, pero omitidas o saltadas.
Figura 9. Proceso para construir un Random Tree 23
2.3.10. REPTree
Cita Aurora Agudo, Juan Carlos Alonso y Ruth Santana en [22] Es un mtodo de aprendizaje rpido mediante rboles de decisin. Construye un rbol de decisin usando la informacin de varianza y lo poda usando como criterio la reduccin del error. Solamente clasifica valores para atributos numricos una vez. Los valores que faltan se obtienen partiendo las correspondientes instancias. Refiere Antonio Bellas [23] Es un rbol de clasificacin con modelo comprensible (reglas if then else) Haciendo referencia de [24], construye un rbol de decisin usando la ganancia de informacin y realiza una poda de error reducido. Solamente ordena una vez los valores de los atributos numricos. Los valores ausentes se manejan dividiendo las instancias correspondientes en segmentos.
2.3.11. UserClassifier
Su caracterstica esencial es que permite al usuario construir su propio rbol de decisin.
Figura 10. Ejemplo de UserClassifier bsico Citando conceptos de [25], los nodos en el rbol de decisin no son prueba simple sobre los valores del atributo, pero son regiones que el usuario selecciona. Si un caso miente dentro de la regin este sigue una rama del rbol, si este miente fuera de las regiones sigue por otra rama. Por lo tanto cada nodo tiene slo dos ramas que bajan de l.
24
Figura 11. Ejemplo de UserClassifier final [26]
25
3. WEKA WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS Diego Garca Morate cita en su manual [27] Weka (Gallirallus australis) es un ave endmica de Nueva Zelanda que da nombre a una extensa coleccin de algoritmos de Mquinas de conocimiento desarrollados por la universidad de Waikato (Nueva Zelanda) implementados en Java, tiles para ser aplicados sobre datos mediante las interfaces que ofrece o para embeberlos dentro de cualquier aplicacin. Adems Weka contiene las herramientas necesarias para realizar transformaciones sobre los datos, tareas de clasificacin, regresin, clustering, asociacin y visualizacin. Weka est diseado como una herramienta orientada a la extensibilidad por lo que aadir nuevas funcionalidades es una tarea sencilla. Es un software que ha sido desarrollado bajo licencia GPL4 lo cual ha impulsado que sea una de las suites ms utilizadas en el rea en los ltimos aos [28]; as mismo si se toma a [29], es un software para el aprendizaje automtico o minera de datos. Por ser GPL la licencia, este programa es de libre distribucin y difusin, adems es independiente de la arquitectura, ya que funciona en cualquier plataforma sobre la que haya una mquina virtual Java disponible [30].
Figura 12. Imagen de una Weka Incluye las siguientes caractersticas dentro de la versin 3.4.10.: Diversas fuentes de datos (ASCII, JDBC). Interfaz visual basado en procesos/flujos de datos (rutas). Distintas herramientas de minera de datos: reglas de asociacin (a priori, Tertius, etc), agrupacin/segmentacin/conglomerado (Cobweb, EM y k-medias), clasificacin (redes neuronales, reglas y
Citado de GNU Public License. http://www.gnu.org/copyleft/gpl.html
26
rboles de decisin, aprendizaje Bayesiana) y regresin (Regresin lineal, SVM...). Manipulacin de datos (pick & mix, muestreo, combinacin y separacin). Combinacin de modelos (Bagging, Boosting, etc). Visualizacin anterior (datos en mltiples grficas) y posterior (rboles, curvas ROC, curvas de coste, etc). Entorno de experimentos, con la posibilidad de realizar pruebas estadsticas (t-test).
Su uso esta entre investigacin, educacin y realizacin de aplicaciones [29]. Las caractersticas que se pueden describir para Weka son: 1. Sistema integrado con herramientas de pre-procesado de datos, algoritmos de aprendizaje y mtodos de evaluacin de algoritmos. 2. Posee interfaces graficas para comprensin y manejo del usuario. 3. Tiene un ambiente de comparacin entre las herramientas de aprendizaje.
3.1.
INSTALACIN Y EJECUCIN
Haciendo referencia a [27], para poder instalar el software, primero se debe descargar el mismo de la pgina http://www.cs.waikato.ac.nz/ml/weka, una vez descomprimido Weka y teniendo apropiadamente instalada la mquina de virtual Java, para ejecutar Weka simplemente se debe ordenar dentro del directorio de la aplicacin el mandato: java -jar weka.jar No obstante, si se esta utilizando la mquina virtual de Java de Sun (que habitualmente es la ms corriente), este modo de ejecucin no es el ms apropiado, ya que, por defecto, asigna slo 100 megas de memoria de acceso aleatorio para la mquina virtual, que muchas veces ser insuficiente para realizar ciertas operaciones con Weka (y se obtendr el consecuente error de insuficiencia de memoria); por ello, es altamente recomendable ordenarlo con el mandato: java -Xms<memoria-mnima-asignada>M -Xmx<memoria-mxima-asignada>M -jar weka.jar Dnde el parmetro -Xms indica la memoria RAM mnima asignada para la mquina virtual y -Xmx la mxima memoria a utilizar, ambos elementos expresados en Megabytes si van acompaados al final del modificador 27
M. Una buena estrategia es asignar la mnima memoria a utilizar alrededor de un 60% de la memoria disponible.
3.2. FORMAS DE UTILIZAR WEKA
Segn [30] WEKA se puede utilizar de 3 formas distintas: A. Desde la lnea de comandos: Cada uno de los algoritmos incluidos en WEKA se pueden invocar desde la lnea de comandos de MS-DOS como programas individuales. Los resultados se muestran nicamente en modo texto. B. Desde una de las interfaces de usuario: WEKA dispone de 4 interfaces de usuario distintos, que se pueden elegir despus de lanzar la aplicacin completa. Los interfaces son: Simple CLI (Command Line Interface): Entorno consola para invocar directamente con java a los paquetes de Weka. Explorer: Interfaz grfica bsica, entorno visual que ofrece una interfaz grfica para el uso de los paquetes. Experimenter: Interfaz grfica con posibilidad de comparar el funcionamiento de diversos algoritmos de aprendizaje. Centrado en la automatizacin de tareas de manera que se facilite la realizacin de experimentos a gran escala. KnowledgeFlow: Interfaz grfica que permite interconectar distintos algoritmos de aprendizaje en cascada, creando una red. Permite generar proyectos de minera de datos mediante la generacin de flujos de informacin. C. Creando un programa Java: La tercera forma en la que se puede utilizar el programa WEKA es mediante la creacin de un programa Java que llame a las funciones que se desee. El cdigo fuente de WEKA est disponible, con lo que se puede utilizar para crear un programa propio. Una vez que Weka est en ejecucin aparecer una ventana denominada selector de interfaces (Figura 13), que permite seleccionar la interfaz con la que se desea comenzar a trabajar con Weka. Las posibles interfaces a seleccionar son Simple Cli, Explorer, Experimenter y KnowledgeFlow.
28
Figura 13. Ventana inicial de Weka Los botones de la parte inferior permiten elegir uno de los cuatro interfaces. El aspecto de cada uno de ellos se muestra en las figuras siguientes:
Figura 14. Interfaz Simple CLI
29
Figura 15. Interfaz Explorer
Figura 16. Interfaz Experimenter
30
Figura 17. Interfaz KnowledgeFlow Para el enfoque del presente manual se har nfasis en la interfaz Explorer que permite un mejor manejo de la informacin y entendimiento para el usuario, as como realizar operaciones sobre un solo archivo de datos. Cita Jos Hernndez y Csar Ferri [28] si se observa, se tienen 6 subentornos de ejecucin: 1. Preprocess: Incluye las herramientas y filtros para cargar y manipular los datos. 2. Classify: Acceso a las tcnicas de clasificacin y regresin. 3. Cluster: Integra varios mtodos de agrupamiento. 4. Associate: Incluye unas pocas tcnicas de reglas de asociacin. 5. Select Attributes: Permite aplicar diversas tcnicas para la reduccin del nmero de atributos. 6. Visualize: En este apartado se puede estudiar el comportamiento de los datos mediante tcnicas de visualizacin.
3.3.
FICHEROS .ARFF
Para poder trabajar Weka utiliza un formato de archivo especial denominado arff, acrnimo de Attribute-Relation File Format. Este formato est compuesto por una estructura claramente diferenciada en tres partes [27]: 31
1. Cabecera: Se define el nombre de la relacin. Su formato es el siguiente: @relation <nombre-de-la-relacin> Donde <nombre-de-la-relacin> es de tipo String (el ofrecido por Java). Si dicho nombre contiene algn espacio ser necesario expresarlo entre comillas. 2. Declaraciones de atributos. En esta seccin se declaran los atributos que compondrn el archivo junto a su tipo. La sintaxis es la siguiente: @attribute <nombre-del-atributo> <tipo> Donde <nombre-del-atributo> es de tipo String teniendo las mismas restricciones que el caso anterior. Weka acepta diversos tipos, estos son: a) NUMERIC Expresa nmeros reales. b) INTEGER Expresa nmeros enteros. c) DATE Expresa fechas, para ello este tipo debe ir precedido de una etiqueta de formato entre comillas. La etiqueta de formato est compuesta por caracteres separadores (guiones y/o espacios) y unidades de tiempo: dd Da. MM Mes. yyyy Ao. HH Horas. mm Minutos. ss Segundos. d) STRING Expresa cadenas de texto, con las restricciones del tipo String comentadas anteriormente. e) ENUMERADO El identificador de este tipo consiste en expresar entre llaves y separados por comas los posibles valores (caracteres o cadenas de caracteres) que puede tomar el atributo. Por ejemplo: @attribute tiempo {soleado, lluvioso, nublado} 3. Seccin de datos. Se declaran los datos que componen la relacin separando entre comas los atributos y con saltos de lnea las relaciones. @data 4,3.2 En el caso de que algn dato sea desconocido se expresar con un smbolo de cerrar interrogacin (?"). 32
Es posible aadir comentarios con el smbolo %, que indicar que desde ese smbolo hasta el final de la lnea es todo un comentario. Los comentarios pueden situarse en cualquier lugar del fichero. Un ejemplo de un archivo de prueba. ---------------------------------------------prueba.arff------------------------------------1 % Archivo de prueba para Weka. 2 @relation prueba 3 4 @attribute nombre STRING 5 @attribute ojo_izquierdo {Bien, mal} 6 @attribute dimension NUMERIC 7 @attribute fecha_analisis DATE "dd-MM-yyyy HH:mm" 8 9 @data 10 Antonio, bien,38.43,"12-04-2003 12:23" 11 Maria Jos,?,34.53,"14-05-2003 13:45" 12 Juan, bien,43,"01-01-2004 08:04" 13 Maria,?,?,"03-04-2003 11:03"
33
4. SELECCIN Y SOLUCIN DEL PROBLEMA
4.1.
SELECCIN DE EJEMPLO
De acuerdo a las especificaciones dadas para la utilizacin de WEKA en los captulos anteriores y teniendo en cuenta el objetivo del presente manual para dar explicacin al funcionamiento de la herramienta se dar la conceptualizacin de los procedimientos de escogencia del ejemplo que ser manejado a lo largo de los captulos siguientes. Como primer punto es importante dar claridad la cantidad de ejemplos que se pueden encontrar a travs de Internet, cada uno con objetivos diferentes y dando respuesta a muchos temas, el lector podr descargar de diferentes pginas variedad de datasets, quedando as una invitacin a consultar dichas pginas. Es importante hacer notar que se deben dar pautas que permitan la escogencia de un ejemplo apropiado y entendible para el usuario, para esto tenga en cuenta las siguientes caractersticas: 1. 2. 3. 4. 5. Fcil de entender. Existencia de datos suficientes dentro de la base de datos. Los datos deben ser coherentes. Debe tener un objetivo. Las variables de resultado deben dar respuesta al problema.
De acuerdo a las caractersticas anteriores se evalan varios ejemplos que cumplen muchos los requisitos, entre los ejemplos revisados se tienen en cuenta los que por defecto trae la herramienta incorporado dentro de la carpeta data y algunos otros consultados de cursos y manuales de WEKA5. Tales ejercicios son: a) contact-lenses.arff: Muestra como recomendar lentes de contacto teniendo en cuenta variables de: edad (3 valores), tipo de problema visual (2 valores), existencia de astigmatismo (2 valores) y nivel de produccin de lgrimas (2 valores). b) cpu.arff: Indica como se puede realizar la compra de un computador de acuerdo a sus caractersticas de hardware, slo maneja variables de tipo numricas.
Citado en My weka page. Arff data files. Disponible: http://www.hakank.org/weka/ [citado en 16 de Mayo de 2008]
34
c) cpu.with.vendor.arff: Describe la compra que se puede hacer de un computador de acuerdo a la fbrica matriz que vende las partes, maneja un dato nominal y 7 numricos. d) credit-g.arff: Ejemplo que describe las diferentes variables existentes para la determinacin de un crdito tales como estado de cuenta, historia crediticia, propsito del crdito, empleos que ha tenido, estado civil, edad, tipo de vivienda, existencia de otros crditos, existencia de telfono propio, entre otros. e) Drug1n.arff: En este caso se trata de predecir el tipo de frmaco que se debe administrar a un paciente afectado de rinitis alrgica segn distintos parmetros/variables. Las variables que se recogen en los historiales clnicos de cada paciente son Edad, Sexo, Tensin sangunea, nivel de colesterol, Nivel de sodio en la sangre, Nivel de potasio en la sangre. Hay cinco frmacos posibles: DrugA, DrugB, DrugC, DrugX, DrugY. f) Empleados.arff: La empresa de software para Internet Memolum Web quiere extraer tipologas de empleados, con el objetivo de hacer una poltica de personal ms fundamentada y seleccionar a qu grupos incentivar. Las variables que se recogen de las fichas de los 15 empleados de la empresa son sueldo, casado, coche, nmero de hijos, tipo de vivienda, pertenecer al sindicato revolucionario de Internet, n de bajas por ao, antigedad en la empresa, sexo. g) iris.arff: Ejemplo que permite definir el tipo de la planta Iris, setosa, versicoulor o virginica, para esto se utilizan 4 atributos numricos, longitud y anchura de sepal, longitud y anchura de ptalo. h) labor.arff: Describe como determinar de acuerdo a variables el tipo de empleo o labor que puede tener una persona, para esto se tiene en cuenta duracin, horas de trabajo, pensin, vacaciones, contribucin a salud, contribucin a servicio odontolgicos, entre otros. i) segment-challenge.arff: Muestra como realizar un paisaje de acuerdo a matices de colores, regin de color, lnea de densidad, saturacin ,etc. j) segment-test.arff: Se busca que sea concordante los colores y matices involucrados dentro de una imagen y s construccin. k) soybean.arff: Describe los 19 tipos de enfermedades que puede tener la planta de soja en funcin de 35 sntomas en un fichero con 50 ejemplos. 35
l) titanic.arff: Corresponde a las caractersticas de los 2.201 pasajeros del Titanic. Estos datos son reales y se han obtenido de: "Report on the Loss of the Titanic (S.S.)" (1990), British Board of Trade Inquiry Report_ (reprint), Gloucester, UK: Allan Sutton Publishing. Para este ejemplo slo se van a considerar cuatro variables clase (0 = tripulacin, 1 = primera, 2 = segunda, 3 = tercera), edad (1 = adulto, 0 = nio), sexo (1 = hombre, 0 = mujer), sobrevivi (1 = s, 0 = no). m) train1.arff: Por medio de este ejemplo se podr visualizar las caractersticas que pueden tener los viajes en tren y as escoger cuales son las mejores opciones de ocurrencia de un patrn. n) Weather.arff: Describe un conjunto de factores meteorolgicos de un determinado da he indica si se puede jugar o no al tenis. Los factores evaluados son humedad, temperatura, viento y si esta soleado. o) weather.nominal .arff: Se trata del problema que indica si una cierta persona practicar deporte en funcin de las condiciones atmosfricas. En este caso se utiliza la versin de la base de datos en la que todos los atributos son discretos (nominales), aplica la misma teora del caso anterior. De acuerdo a los ejemplos citados anteriormente y de acuerdo a las caractersticas que especifican la posible eleccin de un ejercicio (recuerdo que el lector puede escoger el ejercicio de acuerdo a su gusto) se evalan las caractersticas y se tiene como ejemplo a manejar para el presente manual aquel con nombre Empleados.arff, se escoge primero por los datos especificados dentro de la base de datos ya que son concretos y de gran claridad, as mismo permiten mostrar al usuario ms fcilmente los resultados, de igual forma se escoge ya que muestra un caso ms cercano a la vida real y ante todo es desarrollado por personas de habla castellana, contrario a los otros ejemplos evaluados que son ms complejos en su entendimiento y resultado y no son el caso para el presente manual.
36
4.2.
EMPEZANDO CON WEKA
Teniendo en cuenta el documento de doctorado [30] se puede diferenciar ciertos pasos para manejar WEKA, estos son: Paso 1 - Lanzar el interfaz Explorer: Se lanzar esta interfaz de acuerdo con lo indicado en la introduccin del punto 3.2. tem B. Paso 2 - Cargar la base de datos: Para cargar la base de datos se utilizar el botn OPEN FILE de la interfaz Explorer (pestaa Preprocess), se seleccionar el directorio data y dentro de l, el fichero Empelados.arff, este describe segn [28] una empresa de software para Internet Memolum Web que quiere extraer tipologas de empleados, con el objetivo de hacer una poltica de personal ms fundamentada y seleccionar a qu grupos incentivar. La empresa para tal fin describe una base de datos con 15 empleados. El resultado de abrir la base de datos, ser una pantalla como la que se muestra en la figura:
Figura 18. Interfaz Explorer con archivo Empleados.arff El ejemplo muestra 9 atributos empleados para el desarrollo del ejercicio, estos se pueden ver en el cuadrante inferior izquierdo. Los atributos son: 1. Sueldo: Sueldo anual en euros. 2. Casado: Si est casado o no. 3. Coche: Si va en coche a trabajar (o al menos si lo parquea en el estacionamiento de la empresa). 37
4. 5. 6. 7. 8. 9.
Hijos: Si tiene hijos. Alq/Prop: Si vive en una casa alquilada o propia. Sindic.: Si pertenece al sindicato revolucionario de Internet. Bajas/Ao: Media del n de bajas por ao Antigedad: Antigedad en la empresa Sexo: H: Hombre, M: Mujer.
Haciendo clic sobre cada uno de los atributos, se muestra informacin sobre el mismo en la parte derecha de la ventana. En el caso de atributos discretos se indica el nmero de instancias que toman cada uno de los valores posibles; y en el caso de atributos reales se muestran los valores mximo, mnimo, medio y la desviacin estndar. As mismo, se muestra un grfico en el que las distintas clases se representan con colores distintos, en funcin de los valores del atributo elegido.
Paso 3 - Generacin de grficos: Para generar grficos con los datos del
ejemplo, se seleccionar la pestaa Visualize. Por defecto, se muestran grficos para todas las combinaciones de atributos tomadas dos a dos, de modo que se pueda estudiar la relacin entre dos atributos cualesquiera. El aspecto de la pantalla es el mostrado en la figura siguiente:
Figura 19. Opcin Visualice para Empleados.arff Si se desea mostrar un grfico concreto, basta con hacer doble clic sobre l. Por ejemplo, haciendo doble clic sobre el grfico que relaciona el aspecto de parejas casadas por sueldo (Casado / Sueldo) se muestra el grfico de la figura siguiente:
38
Figura 20. Resultado de un nodo grfico {Casado x Sueldo} Para manejar el presente problema, se describir cada uno de los atributos de acuerdo a lo estipulado para weka. a. Sueldo: Su tipo de dato es Numrico, tiene un valor mnimo de 8000 y un valor mximo de 50000, tiene una media de 21066.667 y una desviacin estndar de 12308.34. Si se observa en la figura 21, se tienen 11 personas que estn entre el valor mximo de 8000 y 4 personas entre el valor de 29000 y 50000.
Figura 21. Visualizacin de caractersticas atributo Sueldo
39
b. Casado: El tipo de dato es Nominal, tiene valores estndar de Si y No, donde 7 personas estn casadas y 8 personas no lo estn.
Figura 22. Visualizacin de caractersticas atributo Casado c. Coche: Donde el tipo de dato es Nominal y presenta valores estndar de Si y No, donde 4 personas no tienen coche y 11 si lo tienen.
Figura 23. Visualizacin de caractersticas atributo Coche d. Hijos: Es de tipo Numrico los datos ofrecidos, donde se muestra un mximo de 0 y un mnimo de 3, presenta una media de 0.733 y una desviacin estndar de 1.033. Reconoce que se tienen 11 personas entre el rango de 0 a 1.5 y 4 personas entre el rango de 1.6 a 3.
40
Figura 24. Visualizacin de caractersticas atributo Hijos e. Alquiler/Propio: Es un atributo Nominal, donde 9 personas viven en alquiler y 6 personas tienen vivienda propia.
Figura 25. Visualizacin de caractersticas atributo Alq/Prop f. Sindicato: Atributo de tipo nominal que clasifica si las personas pertenecen o no al sindicato revolucionario de Internet. Este atributo muestra que 8 personas no pertenecen al sindicato y 7 si lo hacen.
41
Figura 26. Visualizacin de caractersticas atributo Sindicato g. Bajas/Ao: Se muestra en este atributo de tipo numrico un valor mnimo de 0, un valor mximo de 27, una media de 5.267 y una desviacin estndar de 7.106. Por tanto se puede observar que 13 personas se encuentran entre el rango de 0 hasta aproximadamente 10, y se encuentran 2 personas entre el rango de aproximadamente 11 a 27.
Figura 27. Visualizacin de caractersticas atributo Bajas/Ao h. Antigedad: Atributo de tipo numrico que muestra un mnimo de 1, mximo de 20, media de 8.2 y desviacin estndar de 5.441. Describe que se encuentran 11 personas entre el rango de antigedad de 1 a 10.5 y 4 personas que se encuentran entre el rango de 10.6 a 20.
42
Figura 28. Visualizacin de caractersticas atributo Antigedad i. Sexo: Atributo nominal que muestra 9 Hombres y 6 mujeres dentro de la empresa.
Figura 29. Visualizacin de caractersticas atributo Sexo
4.3. ADTREE
RBOLES DE DECISIN CON WEKA
Para empezar a manejar WEKA con algoritmos de aprendizaje automticos, se debe seleccionar la pestaa Classify y se elegir un clasificador pulsando el botn Choose. Aparecer una estructura de directorios en la que se seleccionar el directorio trees y dentro del l el 43
algoritmo ADTRee. Se mantendrn las opciones por defecto del clasificador (J48 B 10 E -3), tal y como muestra en la figura 30.
Figura 30. Visualizacin de pantalla clasificacin ADTree Se mantendr el resto de valores por defecto tales como mantener activada nicamente la opcin de test de Cross-validation. Para generar el rbol pulse Start y vera la pantalla de la figura 31.
Figura 31. Visualizacin de pantalla al generar el rbol ADTree Analizando la informacin arrojada se destaca: 44
En primer lugar, se muestra informacin sobre el tipo de clasificador utilizado (algoritmo ADTree), la base de datos sobre la que se trabaja (empleados), el numero de instancias (15), el numero de atributos y su nombre (9) y el tipo de test (cross validation).
Figura 32. Ventana Run information del rbol ADTree Seguidamente se muestra el rbol que se ha generado y el nmero de instancias que clasifica cada nodo:
Figura 33. Ventana Classifier model del rbol ADTree Y por ultimo se muestran los resultados del test (indican la capacidad de clasificacin esperable para el rbol y la matriz de confusin):
45
Figura 34. Ventana Stratified cross-validation del rbol ADTree Para visualizar mejor el rbol solo basta hacer clic con el botn derecho en la ventana de resultados, sobre el resultado de la generacin del rbol. Aparecer un men desplegable:
Figura 35. Men desplegable para visualizacin de rboles Dentro de ese men se debe seleccionar la opcin Visualize tree mostrndose en resultado siguiente:
46
Figura 36. Ventana de visualizacin de rbol de decisin ADTree.
DECISIONSTUMP
Seleccione la pestaa Classify y elija un clasificador pulsando el botn Choose. De la estructura de directorios trees escoja el algoritmo DecisionStump. Mantenga las opciones por defecto del clasificador tales como: Mantener activada nicamente la opcin de test de Cross-validation.
Figura 37. Visualizacin de pantalla clasificacin DecisionStump. Para generar el rbol pulse Start y vera la pantalla de la figura 38.
47
Figura 38. Ventana al generar el rbol DecisionStump La informacin describe: Tipo de clasificador utilizado (DecisionStump), la base de datos sobre la que se trabaja (empleados), numero de instancias (15), numero de atributos y su nombre (9) y tipo de test (Cross-validation).
Figura 39. Ventana Run information del rbol DecisionStump Luego se muestra el rbol que se ha generado y el nmero de instancias que clasifica cada nodo:
48
Figura 40. Ventana Classifier model del rbol DecisionStump Seguidamente se muestran los resultados del test:
Figura 41. Ventana Stratified cross-validation del rbol DecisionStump Recuerde que para este tipo de algoritmo no se genera rbol de decisin.
ID3
Seleccione de la pestaa Classify el clasificador de la estructura de directorios trees, escoja el algoritmo Id3. Mantenga las opciones por defecto del clasificador de la opcin test de Cross-validation.
49
Figura 42. Visualizacin de pantalla clasificacin Id3. Genere el rbol dando Start y vera la pantalla siguiente.
Figura 43. Ventana al generar el rbol Id3. Lo anterior sucede ya que no se tienen en la base de datos Empleado.arff valores nominales nicamente sino tanto valores numricos como nominales. Es claro recordar entonces que para este algoritmo solo se pueden evaluar valores que sean nominales.
50
J48
De la pestaa Classify, en el botn Choose escoja el algoritmo J48. Mantenga las opciones por defecto del clasificador tales como: Mantener activada nicamente la opcin de test de Cross-validation.
Figura 44. Visualizacin de pantalla clasificacin J48. Genere el rbol pulsando Start.
Figura 45. Ventana al generar el rbol J48. La informacin resultante describe el tipo de clasificador utilizado (J48), la base de datos sobre la que se trabaja (empleados), numero de instancias (15), numero de atributos y su nombre (9) y tipo de test (Cross-validation).
51
Figura 46. Ventana Run information del rbol J48 Seguidamente se muestra el rbol que se ha generado y el nmero de instancias que clasifica cada nodo:
Figura 47. Ventana Classifier model del rbol J48 Por ultimo se muestran los resultados del test donde se indica la capacidad de clasificacin esperable para el rbol y la matriz de confusin.
Figura 48. Ventana Stratified cross-validation del rbol J48 52
Podr visualizar el rbol por medio del men desplegable cuando hace clic derecho sobre la ventana de resultados, seleccione la opcin Visualize tree.
Figura 49. Ventana de visualizacin de rbol de decisin J48.
LMT
Por medio de la pestaa Classify, escoja en el en el botn Choose el algoritmo LMT. Para el algoritmo clasificador mantenga por defecto sealadas las opciones que trae en la ventana de test como Crossvalidation y los datos por defecto LMT I -1 M 15.
Figura 50. Visualizacin de pantalla clasificacin LMT. 53
Para generar el rbol de decisin de clic en el botn con nombre Start y observara los siguientes resultados.
Figura 51. Ventana al generar el rbol LMT. La informacin que resulta describe el tipo de clasificador utilizado (LMT I -1 M 15), la base de datos sobre la que se trabaja (empleados), numero de instancias (15), numero de atributos y su nombre (9) y tipo de test (Cross-validation).
Figura 52. Ventana Run information del rbol LMT Como segundo punto se muestran los datos del rbol generado y el nmero de instancias que clasifica en cada nodo:
54
Figura 53. Ventana Classifier model del rbol LMT Seguidamente se mostraran los resultados del test, donde se indicara la capacidad de clasificacin esperable para el rbol y la matriz de confusin.
Figura 54. Ventana Stratified cross-validation del rbol LMT Para visualizar el rbol dirjase a la lista de resultados que hace referencia al rbol generado, haga clic derecho y del men desplegable seleccione la opcin Visualize tree.
55
Figura 55. Ventana de visualizacin de rbol de decisin LMT.
M5P
En la pestaa Classify, escoja por medio del botn Choose el algoritmo M5P. Mantenga las opciones por defecto tales como M5P M 4.0 y Crossvalidation.
Figura 56. Visualizacin de pantalla clasificacin M5P. Genere el rbol de decisin dando clic en el botn Start y observe que se genera los siguientes resultados.
56
Figura 57. Ventana al generar el rbol M5P. Como se puede observar en la figura 57 este algoritmo solo debe ser construido con valores de caractersticas numricas y no nominales como alguno de los valores que tiene la base de datos Empleados.arff.
NBTREE
Para la generacin de este rbol primero debe dirigirse a la pestaa Classify, escoja en el en el botn Choose el algoritmo NBTree. Mantenga las opciones por defecto que son mostradas en la ventana de test.
Figura 58. Visualizacin de pantalla clasificacin NBTree. Genere el rbol de decisin dando clic en el botn Start y observe. 57
Figura 59. Ventana al generar el rbol NBTree. Entre la informacin arrojada se tiene la descripcin del tipo de clasificador utilizado (NBTree), la base de datos sobre la que se trabaja (empleados), numero de instancias (15), numero de atributos y su nombre (9) y tipo de test (Cross-validation).
Figura 60. Ventana Run information del rbol NBTree Seguidamente se muestran los datos del rbol generado y el nmero de instancias que clasifica en cada nodo:
58
Figura 61. Ventana Classifier model del rbol NBTree Por ltimo se muestran los resultados del test, donde se indica la capacidad de clasificacin esperable para el rbol y la matriz de confusin.
Figura 62. Ventana Stratified cross-validation del rbol NBTree 59
Luego, si desea visualizar el rbol que ha sido generado, dirjase a la lista de resultados que hace referencia al rbol NBTree, haga clic derecho y del men desplegable seleccione la opcin Visualize tree.
Figura 63. Ventana de visualizacin de rbol de decisin NBTree.
RANDOMFOREST
Este rbol podr generarlo por medio de la pestaa Classify, donde en el botn Choose puede escoger el algoritmo RandomForest. Para el presente algoritmo de rbol de decisin mantenga las opciones mostradas por defecto tales como RandomForest I 10 K 0 S 1
Figura 64. Visualizacin de pantalla clasificacin RandomForest.
60
Para generar el rbol de decisin RandomForest de clic en el botn Start y observara los resultados que aparecen en la Figura 65.
Figura 65. Ventana al generar el rbol RandomForest. La informacin que se genera es, primero la descripcin del tipo de clasificador utilizado (RandomForest), la base de datos sobre la que se trabaja (empleados), numero de instancias (15), numero de atributos y su nombre (9) y tipo de test (Cross-validation).
Figura 66. Ventana Run information del rbol RandomForest Luego se mostraran los datos del rbol generado y el nmero de instancias que clasifica en cada nodo:
Figura 67. Ventana Classifier model del rbol RandomForest
61
Y por ltimo se muestran los resultados del test, donde se indica la capacidad de clasificacin esperable para el rbol y la matriz de confusin.
Figura 68. Ventana Stratified cross-validation del rbol RandomForest Para este tipo de rbol de decisin no se muestra grficamente le resultado, es decir no se genera grficamente el rbol de decisin.
RANDOMTREE
El RandomTree lo podr generar por medio de la pestaa Classify, de clic en botn Choose para escoger el algoritmo RandomTree. Maneje las opciones que son mostradas por defecto tales como RandomTree K 1 M 1.0 S 1 y Cross-validation.
Figura 69. Visualizacin de pantalla clasificacin RandomTree. 62
Genere el rbol de decisin dando clic en el botn Start.
Figura 70. Ventana al generar el rbol RandomTree. Se genera la informacin de la descripcin del tipo de clasificador utilizado (RandomTree), la base de datos sobre la que se trabaja (empleados), numero de instancias (15), numero de atributos y su nombre (9) y tipo de test (Cross-validation).
Figura 71. Ventana Run information del rbol RandomTree Seguidamente observara los datos del rbol generado y el nmero de instancias que clasifica en cada nodo:
63
Figura 72. Ventana Classifier model del rbol RandomTree Luego se mostrarn los resultados del test, donde se indica la capacidad de clasificacin esperable para el rbol y la matriz de confusin.
Figura 73. Ventana Stratified cross-validation del rbol RandomTree Este tipo de algoritmo no genera visualmente un rbol de decisin.
REPTREE
Para generar el rbol de decisin dirjase a la pestaa Classify, luego de clic en botn Choose para escoger el algoritmo REPTree. En este 64
algoritmo maneje las opciones que por defecto son mostradas tales como REPTree M 2 V 0.0010 N 3 S 1 L -1 y Cross-validation.
Figura 74. Visualizacin de pantalla clasificacin REPTree. Para generar el rbol de decisin de clic en el botn Start y podr visualizar la informacin de la Figura 75.
Figura 75. Ventana al generar el rbol REPTree. La informacin generada se da primero describiendo el tipo de clasificador utilizado (REPTree), la base de datos sobre la que se trabaja (empleados), numero de instancias (15), numero de atributos y su nombre (9) y tipo de test (Cross-validation).
65
Figura 76. Ventana Run information del rbol REPTree Luego se podrn ver los datos del rbol generado y el nmero de instancias que clasifica en cada nodo:
Figura 77. Ventana Classifier model del rbol REPTree Seguidamente observar los resultados del test, donde se indica la capacidad de clasificacin esperable para el rbol y la matriz de confusin.
Figura 78. Ventana Stratified cross-validation del rbol REPTree Para visualizar el rbol de decisin generado, dirjase a la lista de resultados y de clic derecho sobre el rbol REPTree, luego escoja Visualize Tree. 66
Figura 79. Visualizacin de rbol de decisin REPTree.
USERCLASSIFIER
Genere el rbol de decisin ubicndose en la pestaa Classify, de clic en el botn Choose y escoja el algoritmo UserClassifier. Maneje las opciones que son mostradas por defecto como la seleccin de Cross-validation.
Figura 80. Visualizacin de pantalla clasificacin UserClassifier. Para generar el rbol de decisin de clic en el botn Start.
67
4.4.
REVISANDO RESULTADOS
De acuerdo al enunciado del punto 3.4.2. se podra entender y dar las diferencias por cada rbol de decisin as: rbol ADTree Decisin Stump J48 LMT NBTree RandomForest RandomTree REPTree Precisin 66.6667% 80% 66.6667% 66.6667% 60% 73.3333% 66.6667% 46.6667% Instancias correctamente clasificadas 10 12 10 10 9 11 10 7 Instancias incorrectamente clasificadas 5 3 5 5 6 4 5 8
Si observa los rboles conllevan al mismo porcentaje de precisin en las 15 instancias evaluadas. Teniendo en cuenta esto, por ejemplo para el rbol de decisin ADTree se muestran los resultados evaluados dependiendo de las condiciones que se tienen para cada atributo teniendo en cuenta si el parmetro es mayor o menor de cierto rango. Por ejemplo, si se evalan a las personas con un sueldo mayor o igual a 17500 se podrn evaluar las posibilidades de que haya hijos (menores o mayores e iguales a 1 pero igualmente que hayan sido dados de baja en el ao estas personas. Si por el contrario se observa el rbol generado por el algoritmo J48 se notar que el rbol es mucho ms pequeo que el anterior indicando que dependiendo del sueldo de la persona se tendrn o no hijos, es decir con un suelo menor e igual a 15000, las mujeres tienen al menos un hijo, mientras que los hombres tienen mas de 1. Por el contrario slo los hombres tienen un sueldo mayor e igual a 15000 pero no tienen hijos. En el caso del rbol de decisin LMT se tiene la generacin de un solo nodo, esto debido a que tanto a izquierda como a derecha existen los mismos valores pero se anulan el uno con el otro por el signo a izquierda que poseen. En el rbol RandomTree se tiene que la dependencia inicial se da por el tipo de vivienda que posea la persona (propia o alquilada), segn los resultados si se es casado se podran tener o no hijos, mientras que si no se es casado, la dependencia surge de pertenecer o no a un sindicato, si esto es as se tendra en cuenta solo la posible tenencia de un automvil, 68
por el contrario si no se pertenece al sindicato los rangos serian determinados por la antigedad de la persona dentro de la compaa. En cambio si se hace referencia a que la vivienda es propia solo se tendra relacin por la antigedad en la empresa y las posibles bajas que se hayan tenido en el ao. Observe que para cada rbol de decisin generado se presentan ciertas caractersticas importantes de recalcar y que permiten mejor conceptualizacin y entendimiento de los resultados as: 1. Estadstico de Kappa o Kappa Statistics: Tomando el concepto de [31] Kappa por su nombre griego es un ndice que compara el acierto o acercamiento entre lo que se debe esperar para realizar o tener un cambio de acuerdo a ciertas caractersticas y parmetros planteados. Puede ser pensado como un cambio correcto proporcional al acercamiento que se desea, as mismo los posibles valores van desde un rango de +1 (acuerdo u acercamiento perfecto), 0 (ningn acuerdo por encima de lo esperado) y -1 (total desacuerdo). Para realizar el clculo tenga en cuenta que:
Kappa=(Acierto observadoCambio en lo esperado)/(1cambio en lo esperado)
2. Mean absolute error o error medio absoluto: Siguiendo los conceptos de [32], el MAE mide la magnitud media de los errores en un conjunto de clculos, sin tener en cuenta su direccin. Esto da la medida de precisin para las variables continuas. En otras palabras, el MAE es la media de la muestra de verificacin de los valores absolutos de las diferencias entre los clculos y la correspondiente observacin. El MAE es un Resultado lineal, lo que significa que todas las diferencias individuales se ponderan por igual a la media. La funcin esta dada por:
Donde fi es la prediccin y yi es el valor verdadero. 3. Root Mean Squared Error o error cuadrtico medio: El RMSE dado por [33] es una regla que mide la magnitud media del error. Esto es, la diferencia entre lo pronosticado y los correspondientes valores observados al cuadrado para que luego sea promediado a lo largo de la muestra. Por ltimo, se toma la raz cuadrada de la media. Dado que los errores son al cuadrado antes de que se promediaran, el RMSE da un peso relativamente alto a los grandes errores. Esto significa que el RMSE es ms til cuando los grandes errores son particularmente indeseables. Tenga en cuenta que el 69
RMSE ser siempre mayor o igual a la MAE (error medio absoluto), la gran diferencia entre ellos, es en los errores individuales de la muestra. Si el RMSE = MAE, entonces todos los errores son de la misma magnitud. Ambos pueden ir de 0 a y son orientados a que los valores mas bajos son los mejores.
Donde P(ij) es el valor que se ha predicho individualmente para el programa i del caso j, y Tj es el valor objetivo para el caso j. Es asi que P(ij) = Tj y Ei son los rangos de los ndices de 0 a infinito, donde 0 corresponde al ideal [34]. 4. Relative absolute error o error relativo absoluto: Dando como concepto lo tomado por [34], es aquel que ayuda a predecir un valor relativo, que no es ms que la media de los valores reales. Esto quiere decir, el error no es ms que el total absoluto del error ms no es el total del error al cuadrado. Por lo tanto, el error absoluto relativo toma el total y absoluto error que se normaliza dividiendo por el total de error absoluto de la prediccin simple. Matemticamente, el error relativo absoluto Ei de un individuo i es evaluado por la siguiente ecuacin:
Donde P(ij) es el valor que se ha esperado para el valor i del caso j (fuera de los n casos simples); Tj es el valor objetivo para el caso j; y T esta dado por la formula:
De mejor manera, el numerador es igual a 0 y a Ei=0. Por tanto el indice Ei va desde 0 hasta infinito, donde 0 corresponde al ideal. 5. Root relative squared error o raz cuadrada de error relativo: Citando a [35], esta formula simple no es ms que la media de los valores reales. De este modo, la relativa de error al cuadrado toma el total de errores al cuadrado y se normaliza dividiendo por el total de errores simples al cuadrado. Al tomar la raz cuadrada del valor relativo, el error se reduce a las mismas dimensiones que la cantidad prevista. 70
Matemticamente, la raz cuadrada de error relativo Ei de un individuo i es evaluado por la siguiente ecuacin:
Donde P(ij) es el valor que se ha esperado para el valor i del caso j (fuera de los n casos simples); Tj es el valor objetivo para el caso j; y T esta dado por la formula:
Para dar explicacion a los conceptos que siguen (6 a 11), se tomara como base la siguiente matriz de confusion:
Citando a [36]: 6. TP Rate o True Positive Rate o Recall: Esta medida est definida por el cociente entre el nmero de ejemplos que clasifican correctamente para una clase y el nmero total de ejemplos para la clase estudiada. Dicho de otra manera es la proporcin de elementos que estn clasificados dentro de la clase Ci, de entre todos los elementos que realmente son de la clase Ci. En la matriz de confusin es el elemento diagonal dividido por la suma de todos los elementos de la fila. Cuando las sensibilidades pertinentes para cada ejemplo de clase tienda a 1, la matriz de confusin tender a ser una matriz diagonal. TP Rate = TP/ (TP + FN) TP Rate (C1) = N11 / (N11 + N12 + + N1z) TP Rate (C2) = N22 / (N21 + N22 + + N2z) TP Rate (Cz) = Nzz / (Nz1 + Nz2 + + Nzz) 7. FP Rate o False Positive Rate: Es la proporcin de ejemplos que han sido clasificados dentro de la clase Ci, pero pertenecen a una clase diferente. En la matriz de confusin es la suma de la columna 71
de la clase Ci menos el elemento diagonal dividido la suma de las filas del resto de las clases.
8. Precision: Proporcin de ejemplos que realmente tienen clase Ci de entre todos los elementos que se han clasificado dentro de la clase Ci. En la matriz de confusin es el elemento diagonal dividido por la suma de la columna en la que se esta. Prec (Modelo) = (N11 + N22 ++ Nzz) / Total_de_ejemplos Prec (C1) = N11 / (N11 + N21 ++ Nz1) Prec (C2) = N22 / (N12 + N22 ++ Nz2) Prec (Cz) = Nzz / (N1z + N2z ++ Nzz) 9. F-Measure: Es una medida que combina la Precisin con el Recall o TPR para la clase Ci. F-Measure = (2 * Precisin * Recall) / (Precisin + Recall) 10. False Negative Rate: Es la proporcin de elementos que no clasifican para la clase Ci, de entre todos los elementos que realmente son de la clase Ci. En la matriz de confusin es la suma de todos los elementos de la fila excluyndole a la diagonal dividida por la suma de todos los elementos de la fila. FN Rate = 1 TPR = 1 [TP / (TP + FN)] = FN / (FN + TP) FN Rate (C1) = [(N11 + + N1z) - N11] / (N11 + N12 + +N1z) FN Rate (C2) = [(N21 + + N2z) - N22] / (N21 + N22 + + N2z) FN Rate (Cz) = [(Nz1 + + Nzz) - Nzz] / (Nz1 + Nz2 + + Nzz) 11. True Negative Rate o Especificidad: Es la proporcin de ejemplos que han sido clasificados dentro de las otras clases diferente a la clase Ci. En la matriz de confusin es la suma de las diagonales menos el elemento de la clase Ci dividido la suma de las filas del resto de las clases.
Tenga en cuenta igualmente la definicin dada para una matriz de confusin o tambin llamada tabla de contingencia segn [37]. Es de tamao n*n, siendo n el nmero de clases. El nmero de instancias clasificadas correctamente es la suma de los nmeros en la diagonal de la matriz; los dems estn clasificados incorrectamente.
72
Siendo esto as podr verificar los resultados obtenidos de acuerdo a los rboles de decisin tomados para la resolucin del ejemplo manejado en el presente manual, observe que loa matriz de confusin confirma la informacin presentada en el tem Sumario de los resultados generados para cada rbol de decisin.
73
5. BIBLIOGRAFA
[1] S. Vallejos, Trabajo de adscripcin minera de datos, Corrientes Argentina, 2006, pp. 11 14. [2] Cursos, investigacin y recursos en inteligencia artificial. Introduccin a tcnicas de Minera de Datos. Disponible: http://www.wiphala.net/courses/KDD_DM/20070/class/02_dt_for_classification/class_61_decision_trees.ppt [citado en 23 de Febrero de 2008] [3] IEspaa. rboles y reglas de decisin. Disponible: http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.h tml [citado en 23 de Febrero de 2008] [4] Proz. rbol de decisin (ptima). Disponible: http://www.proz.com/kudoz/2311529 [citado en 28 de Febrero de 2008]
[5] Google. Machine learning and data mining in pattern recognition: third
Disponible: http://books.google.com.co/books?id=oaepxemimbmc&pg=pa49&dq=llew +mason+%2b+alternating+decision+tree&lr=lang_es&sig=oexir3dg6nsmjx f4aj4nrr2cnnu#ppa48,m1 [citado en 28 de febrero de 2008] [6] Universidad Carlos III de Madrid. Minera de datos Disponible: http://www.it.uc3m.es/jvillena/irc/practicas/03-04/13.mem.pdf [citado en 3 de Marzo de 2008]
[7] Google. Innovations in applied artificial intelligence Disponible:
http://books.google.com.co/books?id=4uu_kxxbmboc&pg=ra3pa407&dq=decision+stump&lr=lang_es&sig=u3vqepmlkfgpuly2rs2z4lyekg#pra3-pa414,m1 [citado en 3 de marzo de 2008] [8] Ciberconta. Sistemas de induccin de rboles de decisin: utilidad en el anlisis de crisis bancarias Disponible: http://ciberconta.unizar.es/Biblioteca/0007/arboles.html [citado en 4 de Marzo de 2008] [9] The university of Arizona. Expert prediction, symbolic learning, and neural networks: an experiment on greyhound racing Disponible: http://ai.arizona.edu/papers/dog93/figs [citado en 4 de Marzo de 2008] [10] Google. Tcnicas para el anlisis de datos clnicos. Disponible: http://books.google.com.co/books?id=QqfuCWT3h8cC&pg=PA315&dq=id 3+%2B+%C3%A1rboles+de+decisi%C3%B3n&sig=jwd5cvqqVx47dxalFH UvG6gY16U#PPA136,M1 [citado en 4 de Marzo de 2008] 74
[11] Instituto tecnolgico de nuevo Laredo. Algoritmo C4.5. Disponible: http://www.itnuevolaredo.edu.mx/takeyas/Apuntes/Inteligencia%20Artificial /Apuntes/tareas_alumnos/C4.5/C4.5(2005-II-B).pdf [citado en 4 de Marzo de 2008]
[12] Google. Machine learning: ecml 2003. Disponible: http://books.google.com.co/books?id=l4h2a2vf2puc&pg=pa245&dq=lmt+ %2b+logistic+model+tree&sig=xgu-lihrxmgctkc2ub5gqvdfxfw#ppr14,m1 [citado en 4 de marzo de 2008]
[13] Universidad Carlos III de Madrid. Prediccin Meteorolgica. Disponible: http://www.it.uc3m.es/jvillena/irc/practicas/05-06/13mem.pdf [citado en 4 de Marzo de 2008] [14] Universidad Carlos III de Madrid. Aprendizaje y minera de datos. Disponible: http://www.it.uc3m.es/jvillena/irc/practicas/03-04/8.pres.pdf [citado en 4 de Marzo de 2008] [15] Google. Tasks and methods in applied artificial intelligence. Disponible: http://books.google.com.co/books?id=edu4cqyz0mc&pg=pa274&dq=naive+bayes+tree&lr=&sig=hq1czrqjhp55ujz vke-tkns4kjw#ppa256,m1 [citado en 4 de marzo de 2008]
[16] Google. Advances in artificial intelligence. Disponible:
http://books.google.com.co/books?id=aayvv5i1kzic&pg=pa432&dq=naive+ bayes+tree&lr=&sig=19qxtse7rnps-enwcrkxi6utl3e#ppt1,m1 [citado en 4 de

marzo de 2008]
[17] El profesional de la informacin. Clasificadores inductivos para el posicionamiento web. Disponible: http://www.elprofesionaldelainformacion.com/contenidos/2005/enero/1.pdf [citado en 12 de Marzo de 2008] [18] Intel. Performance and scalability analysis of tree-based models in large-scale data-mining problems. Disponible: http://www.intel.com/technology/itj/2005/volume09issue02/art05_treebased_models/p05_workload.htm [citado en 12 de Marzo de 2008] [19] University of California. Random Forests Disponible: http://www.stat.berkeley.edu/users/breiman/RandomForests/cc_home.htm [citado en 12 de Marzo de 2008] [20] Gla.ac. Page Lab http://taxonomy.zoology.gla.ac.uk/rod/cplite/ch6.pdf [citado Marzo de 2008] Disponible: en 12 de
75
[21] Dimacs. The Random Tree Process. Disponible: http://dimax.rutgers.edu/~alexak/tree_process.html [citado en 12 de Marzo de 2008] [22] Universidad Carlos III de Madrid. Evaluacin de Modelos para prediccin meteorolgica. Disponible: http://www.it.uc3m.es/jvillena/irc/practicas/04-05/21mem.pdf [citado en 14 de Marzo de 2008] [23] Departament de sistemes informtics i computaci. Deteccin de intrusos mediante tcnicas de minera de datos DIMIDA. Disponible: http://www.dsic.upv.es/~abella/papers/DIMIDA.pdf [citado en 14 de Marzo de 2008] [24] Informtica en salud 2007. Disponible: http://www.informatica2007.sld.cu/.../2006-11-15.5808751092/download [citado en 14 de Marzo de 2008] [25] The university of waikato. WEKA - Data Mining, Building Decision Trees. Disponible: http://www.cs.waikato.ac.nz/~gs23/Pubs/WICworkshop.pdf [citado en 14 de Marzo de 2008] [26] Java italian portal. Tecniche di classificazione di data mining tramite la piattaforma WEKA. Disponible: http://www.javaportal.it/rw/33801/editorial.html [citado en 14 de Marzo de 2008] [27] D. Garca. Manual de WEKA. pp. 2-5 [28] J. Hernandez. and C. Ferri. Practica de Minera de Datos, Introduccin al WEKA, Curso de Doctorado Extraccin Automtica de Conocimiento en Bases de Datos e Ingeniera de Software, Universidad de Valencia, 2006, pp. 2-15 [29] E. Frank. Machine Learning with WEKA. Department of computer science; University of Waikato, New Zeland. pp.1 [30] Programa de Doctorado Tecnologas Industriales. Aplicaciones de la inteligencia robtica. Practica 1: Entorno de WEKA de aprendizaje automtico y data mining, pp. 6-9 [31] J. Chiang. Agreement between categorical measurements: Kappa Statistics Disponible: http://www.dmi.columbia.edu/homepages/chuangj/kappa/ [citado en 28 de Mayo de 2008]
76
[32] Mean Absolute Error (MAE) and Root Mean Squared Error (RMSE) Disponible:http://www.eumetcal.org.uk/eumetcal/verification/www/english/ msg/ver_cont_var/uos3/uos3_ko1.htm [citado en 28 de Mayo de 2008] [33] gepsot. Analyzing APS Models Statistically. Root mean squared error.Disponible:http://www.gepsoft.com/Gepsoft/APS3KB/Chapter09/Sec tion3/SS04.htm [citado en 28 de Mayo de 2008] [34] gepsot. Analyzing APS Models Statistically. Relative Absolute Error. Disponible:http://www.gepsoft.com/gxpt4kb/Chapter10/Section1/SS08.htm [citado en 30 de Mayo de 2008] [35] gepsot. Analyzing APS Models Statistically. Relative Absolute Error. Disponible:http://www.gepsoft.com/gxpt4kb/Chapter10/Section1/SS07.htm [citado en 30 de Mayo de 2008] [36] W. Inchaustti. [Wekalist] 3-clases False Negative, False Positive, True Positive, True Negative. 2005. Disponible: http://209.85.215.104/search?q=cache:D9aZ2QIafO0J:https://list.scms.wai kato.ac.nz/pipermail/wekalist/2005December/005634.html+tp+rate+%2B+weka&hl=es&ct=clnk&cd=6&gl=co &lr=lang_es [citado en 30 de Mayo de 2008] [37] J. Escribano. Minera de datos, anlisis de datos mediante WEKA. pp. 2 [38] Instituto colombiano de normas tcnicas y certificacin. Documentacin: Citas y notas de pie de pgina. 2nd ed. Bogot: Icontec, 1995, pp. 7, (NTC 1487) [39] Instituto colombiano de normas tcnicas y certificacin. Presentacin de tesis, trabajos de grado y otros trabajos de investigacin. 5 ed. Bogot: Icontec, 2002, pp. 34. (NTC 1486) [40] Instituto colombiano de normas tcnicas y certificacin. Referencias documentales para fuentes de informacin electrnicas. Bogot: Icontec, 1998, pp. 23 (NTC 4490) [41] Fundacin universitaria Konrad Lorenz. Reglamento acadmico para programas de pregrado. Bogot, 2002, pp. 39
77

Aplicación de Técnicas de Inducción de Árboles de Decisión A Problemas de Clasificación Mediante El Uso de Weka (Waikato Environment For Knowledge Analysis) .

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Aplicación de Técnicas de Inducción de Árboles de Decisión A Problemas de Clasificación Mediante El Uso de Weka (Waikato Environment For Knowledge Analysis) .

Uploaded by

Copyright:

Available Formats

APLICACIN DE TCNICAS DE INDUCCIN DE RBOLES DE DECISIN A PROBLEMAS DE CLASIFICACIN MEDIANTE EL USO DE WEKA (WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS).

FUNDACIN UNIVERSITARIA KONRAD LORENZ FACULTAD DE INGENIERA DE SISTEMAS BOGOT 2008

PAULA ANDREA VIZCAINO GARZON

FUNDACIN UNIVERSITARIA KONRAD LORENZ FACULTAD DE INGENIERA DE SISTEMAS BOGOT 2008 2

Figura 2. Representacin del conocimiento. 11

CICLO DE UN RBOL DE DECISIN

CONSTRUCCIN DE RBOLES DE DECISIN

CLASIFICACIN DE RBOLES DE DECISIN

Citado en Proz. rbol de decisin (ptima). http://www.proz.com/kudoz/2311529 [citado en 28 de Febrero de 2008]

Como bien dice su nombre se trata de rboles de decisin de un solo nivel.

Figura 4. Ejemplo de un rbol ID3 17

2.3.4. J48 o C4.5

REPRESENTACIN TIPO RBOL

Figura 6. Ejemplo de un rbol de decisin generado por C4.5

2.3.5. LMT (Logistic Model Tree)

Figura 7. Pseudo cdigo para el algoritmo LMT

2.3.6. M5P (rbol de regresin)

2.3.7. NBTree (Naive Bayes Tree)

Figura 8. Esquema del algoritmo Random Forest [18]

CARACTERSTICAS DE RANDOM FOREST [19]

Figura 9. Proceso para construir un Random Tree 23

Su caracterstica esencial es que permite al usuario construir su propio rbol de decisin.

Figura 11. Ejemplo de UserClassifier final [26]

Citado de GNU Public License. http://www.gnu.org/copyleft/gpl.html

Figura 14. Interfaz Simple CLI

Figura 15. Interfaz Explorer

Figura 16. Interfaz Experimenter

4. SELECCIN Y SOLUCIN DEL PROBLEMA

EMPEZANDO CON WEKA

Figura 21. Visualizacin de caractersticas atributo Sueldo

Figura 29. Visualizacin de caractersticas atributo Sexo

RBOLES DE DECISIN CON WEKA

Figura 36. Ventana de visualizacin de rbol de decisin ADTree.

Figura 48. Ventana Stratified cross-validation del rbol J48 52

Figura 49. Ventana de visualizacin de rbol de decisin J48.

Figura 50. Visualizacin de pantalla clasificacin LMT. 53

Figura 55. Ventana de visualizacin de rbol de decisin LMT.

Figura 62. Ventana Stratified cross-validation del rbol NBTree 59

Figura 63. Ventana de visualizacin de rbol de decisin NBTree.

Figura 64. Visualizacin de pantalla clasificacin RandomForest.

Figura 67. Ventana Classifier model del rbol RandomForest

Figura 69. Visualizacin de pantalla clasificacin RandomTree. 62

Genere el rbol de decisin dando clic en el botn Start.

Figura 79. Visualizacin de rbol de decisin REPTree.

http://books.google.com.co/books?id=aayvv5i1kzic&pg=pa432&dq=naive+ bayes+tree&lr=&sig=19qxtse7rnps-enwcrkxi6utl3e#ppt1,m1 [citado en 4 de

You might also like