Mineria de Datos PDF

INCLUY CD-ROM 4 MINERIA DE VATOS TECNICAS Y HERRAMIENTASPARANINFO MINERIA DE DATOS JOSE M2, MONTERO LORENZO Gerente Editorial Area Universitaria. Andrés Otero Reguera Editora de Produccién Clara MP de la Fuente Rojo COPYRIGHT © 2007 Intemational Fesorvci oe: cevesion. pare Tomson Ediciones Paraninio, SA. gia De oniormidad oon 1 di a puesto en el articulo 270 del Codi- go Penal vigente, podran ser casti- gados oon penas de mula y piva Gin do Iertad cuieres roprodu- jeren o plagiaren, en todo o en pare, una obra Wrara, artistes 0 entifica fijada en cualquier tipo de soporte sin I precepiva auto ‘Baoin, Ninguna parte Jo osta publicacién, incluido el disefio de fe cublera, puede ser reproduct da, almacenada o transmitida de ISBN: 976-64-9732-492-2 ninguna forma, ni por ningun me- Depésito legal : M-25.036-2008 dio, cea éste electrénico, quimico, mecédnico, electro-ptico, graba- Gin, olecopa © cualquier oto, (051/84/PO} sin la previa autorizacion escrita por parte de la Editorial. Magallanes 25; 28015 Madrid, ESPANA Teléfono: 902'995 240 Fax: 914 456 218 clientes@paraninfo.es woww.paraninto.es Impresa en Espafia Printed in Spain Disefio de cubierta: Montytexto Impresién: Closas Orcoyen,S.L. Polig. Igarsa Naves 21, 22, 23, y 24 Paracuellos de jarama (Madrid).Introduccién Capitulo 1. Mineria de datos: Conceptos, técnicas y sistemas... Aproximacién al concepto de mineria de datos .. El proceso de extraccién del conocimiento. Técnicas de mineria de datos. Sistemas de mineria de datos Capitulo 2. Entorno de trabajo de SPSS Clementine. Introduccién a Clementine . Usando el rat6n.. Ayuda en Clementine .. Panel de control en Clementine Ejemplo de trabajo con Clementine Insertar un nodo fuente (origen) de datos en el area de trabajo... Enlazar un nodo con una fuente de datos Controlar la carga de datos con el nodo Tabla Definir variables predictoras con el nodo Tipo Utilizar un nodo de modelado..... Ejecutar una ruta... Interpretar un modelo .. Predecir con un modelo .. Guardar un modelo .. Nodos de origenes de datos Nodos de operaciones con registros . XVIT 13 16 16 18 21 22 23 25 27 29 29 32 34 34 aS 35VIll_ MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Nodos de operaciones con campos. Nodos para graficos .. Nodos para modelado Nodos de salida .. Capitulo 3. Entorno de trabajo de SAS Enterprise Miner. Introduccién a SAS Enterprise Miner Comenzando con SAS Enterprise Miner. Inicio de un proyecto nuevo... Ment principal de SAS Enterprise Miner. Ejemplo de trabajo con SAS Enterprise Miner . Leer ficheros y enlazarlos con Enterprise Miner mediante el nodo Input Data Source Definir tipos de variables con el nodo Input Data Source Enlace de nodos de un diagrama. El nodo Data Partition Utilizar un nodo de modelado . Capitulo 4. Fase de seleccién en mineria de datos. Seleceién en el proceso de extraccién del conocimiento Recopilacién e integracién de datos: Data Warehouse Data Warehouse y Data Mining Seleccién de datos mediante muestreo . Muestreo aleatorio simple. Muestreo estratificado Muestreo sistemitico.. ae Muestreo unietdpico de conglomerados Muestreo bietipico de conglomerades .. Muestreo polietapico de conglomerados. Diseitos complejos: Bietapico con estratificacién en primera etapa . Seleceién de mimeros aleatorios: Método de Montecarl Seleccién de caracteristicas relevantes... Anilisis de correlaciones.. Capitulo 5. Fase de seleccién en SAS Enterprise Miner y SPSS Clementine... La fase de seleccién en Enterprise Miner.. El nodo Fuente de Datos El nodo Muestreo El nodo de Particién de Datos El nodo de Seleccién de Variables El nodo de Series Temporales .. 36 37 38 40 41 41 43 47 48 58 58 63 65 67 73 B "4 77 2B 82 85 OL 95 a9 101 101 102 104 105 109 109 109 117 122 125 129INDICE 1K La fase de seleccién en SPSS Clementine... 139 Importacién de datos ASCII. 140 Importacién de datos de una fuente ODBC (Access, Excel, et 140 Importacién de datos de SPSS. 143 Importacién de datos de SAS... 145 Seleccién de datos 148 Muestreo de datos .... 149 Capitulo 6. Fase de seleccién en SPSS Muestras Complejas y SAS Base. 151 Técnicas de muestreo a través de SPSS 151 Disefios complejos y el asistente de muestreo. Creacién de un nuevo plan de muestreo........ 152 Asistente de muestreo: modificar un plan existente 161 Asistente de muestreo: ejecutar un plan de muestreo dado 164 Preparacién de una muestra compleja para su anilisis: Creacién de un nuevo plan de anilisis .... 164 Preparacién de una muestra compleja para su a 168 Calculos en muestras complejas: Frecuencias, descriptivos, tablas de contingencia y razones 168 Seleccién de casos en SPSS 174 Seleccién de casos mediante criterios condicionales .. 174 Seleccion de fechas, horas y fik 175 Seleccién de una muestra aleatoria. 175, Semilla de aleatorizacion. 176 Operadores para la seleccién en SPSS 176 Operadores aritméticos. 176 Operadores relacionales .. 177 Operadores logicos... 177 Funciones de generacin de mimeros aleatorios en SPS: 177 Seleccién de la informacién en SAS Base ... 180 Declarando valores perdidos con la sentencia MISSING 180 Seleccionando informacién por grupos: sentencia BY .. 180 Seleccionando variables de frecuencias: sentencia FREQ 182 Seleccionando variables de pesos: sentencia WEIGTH .. 183 Seleccionando variables de identificacién: Sentencia ID. 184 Operadores para la selei 184 Operadores aritmétic 185 Operadores de comparacién .. 185 Operadores légicos 0 booleanos.. 186 Operadores MIN, MAX y coneatenacién 187 Orden de evaluacién de los operadores en las expresiones 188 Funciones de generacin de nimeros aleatorios en SAS 189 Calculos con funciones en SAS. 191X _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Capitulo 7. Fase de exploracién en mineria de datos...... Exploracién en el proceso de extraccién del conocimiento Anilisis exploratorio Herramientas de exploracién visual Histograma de frecuencias Diagrama de tallo y hojas Grafico de caja y bigotes Grafico multiple de caja y bigotes Gréfico de simetr Gréfico de dispersién. Graficos para variables cualitativas.. Herramientas de exploracién formal Contrastes de la bondad de ajuste a una distribucién: Test de la Chi-cuadrado.... Contraste de Kolmogorov-Smirnov Lilliefors de la bondad de ajuste auna distribueién Estadisticos robustos de centralizacion Estadisticos robustos de dispersién Estadisticos robustos de asimetria y curtosi: Contrastes de aleatoriedad. Transformaciones de las variables... Supuestos subyacentes en las técnicas de mineria de datos . Normalidad .. Heteroscedasticidad.. Multicolinealidad. Autocorrelacién Linealidad Un ejemplo ... Capitulo 8. Fase de exploracién en SAS Enterprise Miner y SPSS Clementine . La fase de exploracién en Enterprise Miner El nodo Explorador de distribuciones El nodo Multigraficos El nodo de exploracién de patrones La fase de exploracién en SPSS Clementine. El nodo Grafico El nodo Distribucién El nodo Histograma El nodo Malla El nodo Malla Direccional. El nodo Gréfico Miiltiple El nodo Recoleciar ... 193 193 194 194 195 196 198 199 201 203 205 207 208 209 211 212 214 216 220 221 221 225 227 227 228 230 239 239 239 243 250 266 267 270 271 2723 274 275 276INDICE xl Capitulo 9, Fase de exploracién en SPSS y SAS. Analisis exploratorio de datos con SPSS. Procedimiento Explorar. Graficos de andlisis exploratorio con SPSS Tipos de graficos Histograme Graficos de normalidas Graficos de caja y bigotes Graficos de dispersion Graficos interactivos dinamicos de andlisis exploratorio con SPSS Creacién interactiva de gréficos a partir de tablas... Graficos interactivos de caja y bigotes.. Histogramas interactives ... Diagramas interactivos de dispersion Analisis exploratorio formal con SPSS Contraste de aleatotiedad. Procedimiento Prueba de rachas . Contraste de ajuste a una distribucién de frecuencias. Procedimiento Prueba de Kolmogorov-Smirnov Anilisis exploratorio de los datos con SAS Base. Procedimiento Univariate .. Graficos de andlisis exploratorio con SAS... GrAficos exploratorios de alta resolucién. Procedimiento GCHART. Gréficos exploratorios de mapas: Procedimiento GMAP ..sse. Graficos exploratorios de caja y bigotes: Procedimiento BOXPLOT Capitulo 10. Fases de limpieza y transformacién de datos.... Limpieza y transformacién de datos en el proceso de extraceién del conocimiento ... Valores atipicos (Outliers) ... Informacién faltante (Datos missing). Soluciones para los datos ausente: de informacién faltant Transformacién de datos Transponer, fusionar, agregar, segmentar y ordenar atchivos Ponderar casos y categorizar y numerizar variables Pareamiento 0 matching . Transformacién de datos mediante técnicas de reduccién de la dimension ‘Componentes principales Anilisis factorial. upresion de datos ¢ imputacién 277 277 282 282 283 283 286 288 290 297 298 299 301 303 303 304 305 318 318 322 328 333 333 333 O37. 343 346 346 347 348 349 350 357Xil__MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Capitulo 11. Las fases de limpieza y transformacién de datos en SAS Enterprise Miner y SPSS Clementine. 365 Las fases de limpieza y transformacién de datos en Enterprise Miner . 365 El nodo Transformacién de variables .. 365 El nodo Asignacién de atributos a Tratamiento de los datos atfpicos con el nodo Filtro de Outliers 378 El nodo Imputacién de datos missing... 384 El nodo Exploracién de patrones para Componentes Principales .. 393 Lasa fases de limpieza y transformacién de datos en Clementine .. 400 El nodo Seleccionar. 402 El nodo Muestra para procesos de muestre 404 El nodo Combinar para procesos de maiching... 408 El nodo Equilibrar.. El nodo Ordenar... El nodo Agregar para calcular estadisticos por subgrupos 409 El nodo Distinguir El nodo Anadir para concatenacién de archivos El nodo Filtrar... El nodo Derivar para transformacién de variables... El nodo Tipo para asignar atributos a variables. El nodo Rellenar para imputacién de datos missing ... El nodo Factor/PCA para Anélisis Factorial y Componentes Principale: Capitulo 12. Fases de limpieza y transformacién de datos en SPSS y SAS... 427 Técnicas de reduccién de la dimensién en SPSS Base 427 Componentes principales con SPSS 428 Anilisis factorial con SPSS. 439 Transformacién de datos en SPSS Base 447 Transformacién de valores de datos 447 Remodificacién de variables 449 Ordenar casos 5 451 Transponer, fusionar, agregar y segmentar archivos. Matching 451 Ponderar casos. 458 Categorizar variables: Categorizador visua 459 Asignar rangos a casos y tipificar variables 462 SPSS y el anilisis de datos missing. Imputacién.. 463 Reemplazar valores perdidos.... 469 Deteccidn de valores atipicos en SPSS . 470 Deteccidn de casos atipicos mediante grificos de control 470 Deteccidn de casos atipicos mediante grificos de caja y bigotes. 472 Técnicas de reduccién de la dimensién en SAS STAT 475INDICE xm Componentes principales en SAS, Procedimiento PRINCOMP y Procedimiento FACTOR Anilisis factorial en SAS. Procedimiento FACTOR 482 Transformacién de datos en SAS Base . 487 Operaciones con ficheros: Coneatenacién y Matching . 487 Actualizando ficheros de datos SAS . 489 Afiadir informacion. Procedimiento APPEND 491 Tipificacién de datos: Procedimiento STANDARD. 494 Capitulo 13. Fase de mineria de datos. Técnicas predictivas de modelizacién ..._ 497 Técnicas de mineria de datos propiamente dichas 497 Técnicas predictivas para la modelizacién... 498 Modelo de regresién multiple 504 Estimacién del modelo lineal de regresién miiltiple 505 Estimacién del modelo, contrastes e intervalos de confianza a través del cdleulo matricial 506 Analisis de la varianza en el modelo de regresién miltiple . 507 Predicciones. 510 Analisis de los residuo: Su Técnicas de seleccién en el modelo de regresién.. 512 Modelos de eleccidn discret .....:.u.:useiusnsseniete fone 51 Modelos de eleccién discreta binaria: Modelo lineal de probabilidad y regresidn logistica binatia ... Sid Modelos de eleccién miiltiple: Modelo Logit Multinomial . 519 Modelo lineal general de regresion multiple (GLM) ... 521 Clasificacién ad hoc: Andlisis di i 521 Hipotesis en el modelo discriminante.... $22 Estimacién del modelo discriminante 523 Clasificacién mediante el modelo discriminante. 525 Capitulo 14, Técnicas predictivas de modelizacién con SAS Enterprise Miner y SPSS Clementine. 529 Técnicas predictivas de modelizacién con SAS Enterprise Miner. 529 El nodo Regression: Modelo de regresién miltiple 530 El nodo Regression: Modelo lineal general GLM 538 El nodo Regression: Modelo de eleccién discreta Logit y Probit 551 ‘Técnicas predictivas de modelizacién con SPSS Clementine... 554 El nodo Regresién Lineal: Modelo de regresién miiltiple. 555 El nodo Regresién Logistica: Modelos de eleccién discreta .. 561XIV_ MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Capitulo 15. Técnicas predictivas de modelizacién con SAS y SPSS... El modelo lineal general con SAS. Procedimiento GLM. Modelos del anilisis de la varianza y la covarianza con SA‘ Modelo de eleccién discreta en SAS............ Modelo Logit: Procedimiento LOGISTIC. Modelo Probit: Procedimiento PROBIT . SAS y el anilisis discriminante: Procedimiento DISCRIM El modelo lineal general con SPSS. Procedimiento MLG Multivariante Modelo de eleccién discreta en SPSS ..., Modelo Logit: Procedimiento LOGISTICA MULTINOMIAL. Modelo Probit: Procedimiento PROBIT .. SPSS y el analisis discriminante... Capitulo 16. Técnicas descriptivas y predictivas de clasificacion. Clusters y drbotes de decision Elanilisis cluster como técnica descriptiva de clasificacion Medidas de similitud Técnicas en el andlisis cluster Clusters jerarquicos, secuenciales, aglomerativos y exclusivos (S.A.H.N.) El dendograma en el analisis cluster jerérquico Anilisis cluster no jerarquico Los drboles de decisién como técnica predictiva de clasificacién Caracteristicas de los arboles de decisin Herramientas para el trabajo con arboles de decision Arboles CHAID Arboles CART Arboles QUEST Analisis de conglomerados y arboles de decisién como método de segmentacién... Capitulo 17. Clusters y drboles de decision con SAS Enterprise Miner y SPSS Clementine .. Analisis cluster con Enterprise Miner. El nodo Clustering... Arboles de decisién con Enterprise Miner. El nodo Tree Entrenamiento interactivo (Jnieractive Training) Analisis cluster con SPSS Clementin El nodo Entrenar K-medias: Cluster no jerarquico. El nodo Cluster Bietdpico: Cluster jerarquico Arboles de decision con SPSS Clementine. El nodo Crear C5.0.. El nodo Arbol C&R 565 565 571 574 574 579 581 585 593 593 599 601 609 609 610 614 616 617 617 621 622 626 627 628 630 631 633 633 641 652 656 656 661 662 662 664INDICE xv Capitulo 18. Clusters y drboles de decision con SAS y SPSS... SPSS y el anillisis cluster jerarquic SPSS y el anilisis cluster no jerérquico SAS y el anélisis cluster jerarquico Procedimiento ACECLUS.. Procedimiento CLUSTER: Procedimiento TREE SAS y el andlisis cluster no jerarquico Arboles de decisién (0 clasificacién) con SPSS. Creacién de un arbol de decisién: Método CHAID Métodos CRT y QUEST. Poda de Arboles Capitulo 19. Redes neuronales.. Descripcién de una red neuronal Definicién Funcién de salida y fi Redes neuronales y ajuste de modelos de regresion Aprendizaje en las redes neuronale: Funcionamiento de una red neuronal . El algoritmo de aprendizaje Retropropagaci6n (Back-Propagation).. Analisis discriminante a través del Perceptron Anilisis de series temporales mediante redes neuronales Analisis de componentes principales con redes neuronales Clustering mediante redes neuronales. ciones de transferencia o activac Capitulo 20. Redes neuronales con SAS Enterprise Miner y SPSS Clementine... Redes neuronales con SAS Enterprise Miner. Optimizacién y ajuste de modelos con redes: Nodo Neural Network Anilisis en componentes principales a través de redes neuronales: Nodo Princomp/Dmneural .. Prediccion y andlisis discriminante a trav Nodo Two Stage Model Analisis clusier con redes neuronales: Node SOM/Kohonen ... de redes neuronales: Redes neuronales con SPSS Clementine Nodo Entrenar red. Nodo Entrenar Kohonen Nodo Entrenar K-medias. indice alfabético 665 665 671 675 675 677 678 681 687 689 695 699 699 699 701 703 704 707 708 709 713 715 717 721 721 722 751 756 765 765 769 771 775NTRODUCCION Este libro presenta las técnicas més habituales utilizadas en mineria de datos de una forma sencilla y ficil de entender a través de las soluciones de software mas comunes de enire las existentes en el mercado. Se persigue como finalidad inicial clarificar las aplicaciones relativas a métodos tradicionalmente calificados como dificiles u opacos. Se busca presentar las aplicaciones en la mineria de datos sin necesidad de manejar desarrollos matematicos elevados ni algoritmos tedricos complicados, que es la razén més comin de las dificultades en la comprensién y aplicacién de esta materia. Hoy en dia se utiliza la mineria de datos en diferentes campos de la ciencia. Cabe destacar las aplicaciones financieras y en banca, en andlisis de mercados y comercio, en seguros y salud privada, en educacién, en procesos industriales, en medicina, en biologia y bioingenieria, en telecomunicaciones y en muchas otras reas. Lo esencial para empezar a trabajar en mineria de datos, sea cual sea el campo en que se aplique, es la comprensién de los propios conceptos, tarea que no exige ni mucho menos el dominio de aparato cientifico que conlleva la materia. Posteriormente, cuando ya sea necesaria la operatoria avanzada, los programas de ordenador permiten obtener los resultados sin necesidad de descifrar el desarrollo matematico de los algoritmos que estan debajo de los procedimientos. En este libro se describen los conceptos de mineria de datos de la forma mas sencilla posible, de modo que sean inteligibles por lectores con formacién diversa. Los capitulos comienzan describiendo las técnicas en lenguaje asequible y presentando a continuacion la forma de tratarlas mediante aplicaciones practicas. Una parte importante de cada capitulo son casos prdcticos totalmente resueltos, incluyendo Ia interpretacién de los resultados, que precisamenie es lo més importante en cualquier materia con la que se trabaje.XVII MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS El libro comienza con una introduccién a la mineria de datos y sus fases. En sucesivos capitulos se desarrollan las fases iniciales (seleccién de la informacién, exploracién de datos, limpieza de datos, transformacién de datos, etc.). Posteriormente se profundiza en técnicas especificas de mineria de datos, tanto predictivas como descriptivas. Entre las técnicas predietivas se abordan todo tipo de modelos de regresién, andlisis discriminante, arboles de decisin, redes neuronales y ottas técnicas basadas en modelos. Entre las técnicas descriptivas se contemplan las técnicas de reduccién de la dimension, las técnicas de clasificacion y segmentacion (clustering) y las técnicas de anilisis exploratorio de datos. Los entornos de trabajo automatizados especificos de mineria de datos que se utilizan en el libro son SAS Enterprise Miner y SPSS Clementine, Adicionalmente se utilizan determinados procedimientos de SPSS y SAS que realizan tareas de mineria de datos de modo sencillo. El libro va acompaiiado de un CD-ROM que contiene los archivos de datos relativos, tanto a todos los ejemplos que ilustran la parte tedrica, como a los ejercicios resueltos. © ITES-ParaninfoCAPITULO 1 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS APROXIMACION AL CONCEPTO DE MINERiA DE DATOS La mineria de datos puede definirse inicialmente como un proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos. La disponibilidad de grandes volimenes de informacién y el uso generalizado de herramientas informaticas ha transformado el andlisis de datos orientindolo hacia determinadas téenicas especializadas englobadas bajo el nombre de mineria de datos 0 Data Mining. Las técnicas de mineria de datos persiguen el descubrimiento automatico del conocimiento contenido en la informacién almacenada de modo ordenado en grandes bases de datos. Estas técnicas tienen como objetivo descubrir patrones, perfiles y tendencias a través del analisis de los datos utilizando teenologias de reconocimiento de patrones, redes neuronales, légica difusa, algoritmos genéticos y otras técnicas avanzadas de anilisis de datos. No obstante, la mineria de datos es ya un concepto muy evolucionado que necesita ser aproximado conceptualmente por etapas. Inicialmente la finalidad de los sistemas de informacién era recopilar informacién sobre una parcela determinada para ayudar en la toma de decisiones. Con la informatizacion de las organizaciones y la aparicién de aplicaciones software operacionales sobre el sistema de informacién, la finalidad principal de los sistemas de informacién es dar soporte a los procesos basics de la organizacién (ventas, produccién, personal...). Una vez satisfecha la necesidad de tener un soporte informatico para los procesos basicos de la organizacidn (sistemas de informacién para la gestién), las organizaciones exigen nuevas prestaciones de los sistemas de informacién (sistemas de informacién para la toma de decisiones).2 — MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS De esta forma han aparecido diferentes herramientas de negocio para la toma de decisiones (DSS 0 Decision Support Systems) que coexisten: EIS, OLAP, consultas ¢ informes, y las propias herramientas de mineria de datos. Un EIS (Executive Information System) es un sistema de informacién y un conjunto de herramientas asociadas que proporciona a los directivos acceso a la informacion de estado y sus actividades de gestién, Est especializado en analizar el estado diario de la organizacién (mediante indicadores clave) para informar rapidamente sobre cambios a los directives. La informacién solicitada suele ser, en gran medida, numérica (ventas semanales, nivel de stocks, balances parciales, etc.) y representada de forma grifica al estilo de las hojas de céleulo. Las herramientas OLAP (On-Line Analyitical Processing) son mas genéricas, funcionan sobre un sistema de informacion (transaccional o almacén de datos) y permiten realizar agregaciones y combinaciones de los datos de maneras mucho més complejas y ambiciosas, con objetivos de andlisis mas estratégicos. Las herramientas OLAP estin basadas, generalmente, en sistemas o interfaces multidimensionales, que presentan la informacién de una manera matricial, Las hetramientas OLAP proporcionan facilidades para “manejar” y “transformar” los datos, producen otros “datos” (mas agregados, combinados) y son una gran ayuda para analizar los datos porque producen diferentes vistas de los mismos. Los sistemas de informes 0 consultas avanzadas estan basados, generalmente, en sistemas relacionales u objeto-relacionales y el resultado se presenta de forma tabular. Generalmente estan implementados en bases de datos relacionales. Las herramientas de mineria de datos permiten extraet patrones, tendencias y regularidades para describir y comprender mejor los datos y para predecir comportamientos futuros. La Mineria de Datos analiza los datos y el resto de herramientas citadas anteriormente facilitan el acceso a la informacién para que el anilisis sea ms efectivo, es decir, son instrumentos de apoyo a la mineria de datos. No obstante las heramientas anteriormente citadas suelen necesitar de la existencia previa de un almacén de datos (Data Warehouse). El almacén de datos es el sistema de informacién central en todo este proceso. Un almaeén de datos es una coleecién de datos orientada a un dominio, integrada, no volatil y variante en el tiempo para ayudar en la toma de decisiones. Un almacén de datos es un conjunto de datos histéricos, intemos © externos y descriptivos de un contexto o area de estudio, que estén integrados y organizados de tal forma que permiten aplicar eficientemente herramientas para resumir, describir y analizar los datos con el fin de ayudar en la toma de decisiones estratégic: Las fuentes internas y externas de datos estén separadas. Gran parte de los datos que se incorporan en un almacén de datos provienen de una base de datos transaecional que es el origen de datos interno y cuya informacién es fruto de las transacciones derivadas dela actividad diaria, pero también existen otras fuentes externas de informacion. © MES-ParaninfoCAPITULO 1: MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS 3 Existe un sistema especializado para realizar la carga y mantenimiento de un almacén de datos, denominado sistema ETL (Extraction, Transformation, Load). Este sistema se encarga de la lectura de datos transaccionales, de la incorporacién de datos exiernos, creacién de claves, integracion de datos, agregaciones, limpiezay transformacion de datos, creacién y mantenimiento de metadatos, planificacin de carga y mantenimiento, indizacién, pruebas de calidad, ete. La Figura 1-1, cuya fuente es Orallo, Quintana y Ramirez (Insroduccién a la Mineria de datos) ordena los conceptos expuestos en los pirrafos anteriores. Henaniontes de conautas ¢ nferes Base de Datos Transacclonal Hoiranertas j Hememientes oe st n= No obstante hay que tener claro que los almacenes de datos no son imprescindibles para hacer exiraccién de conocimiento a partir de los datos. Se puede hacer mineria de datos sobre un simple fichero de datos. Pero las ventajas de organizar un almacén de datos para realizar mineria de datos se amortizan sobradamente a medio y largo plazo cuando tenemos grandes volmenes de datos, o éstos aumentan con el tiempo, 0 provienen de fuentes heterogéneas o se van a combinar de maneras arbitrarias y no predefinidas. EL PROCESO DE EXTRACCION DEL CONOCIMIENTO Pero la mineria de datos es slo una etapa del proceso de extraccién de conocimiento a partir de datos (KDD). Este proceso consta de varias fases como la preparacién de datos (seleccién, limpieza, y transformacién), su exploracién y auditorfa, mineria de datos propiamente dicha (desarrollo de modelos y anilisis de datos), evaluacién, difusion y utilizacion de modelos (output). Ademas, el proceso de extraccién del conocimiento incorpora muy diferentes técnicas (arboles de decisién, regresién lineal, redes neuronales artificiales, técnicas bayesianas, maquinas de soporte vectorial, etc.) de campos diversos (aprendizaje automatico e inteligencia artificial), estadistica, bases de datos, etc.) y aborda una tipologia variada de problemas (clasificacién, categorizacién, estimacién/regresi6n, agrupamiento, etc.). La Figura 1-2 muestra las etapas del KDD. Figura 1-1 © ITES-Pararinfo4 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS Dominio de Modelos /informes 7 Limpieza Desarrollo Analisis Genericién Base de Datos ¥ de de de ‘Transform, Modelos Datos Resultados . Herramientas | [Herramientas | _[ Herramientas | {Herramientas ) {Herramientas de Estadisticas &e de e Consulta yde La, Visuatizaciin } [Presemacion J (Transformacion Figura 1-2 EI KDD comienza con la recopilacién e iniegracién de la informacién a pattit de uunos datos iniciales de que se dispone (fase de seleccién de datos). Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer conocimiento valido y util a partir de la informacién original. Generalmente, la informacién que se quiere investigar sobre un cierto dominio de la organizacién se encuentra en bases de datos (Database) y otras fuentes muy diversas, tanto intemas como extemas (en general la informacién se encuentra ordenada en almacenes de datos). Muchas de estas fuentes son las que se utilizan para el trabajo transaccional. El andlisis posterior seré mucho més sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional, Aparte de informacién intema de la organizacién, los almacenes de datos pueden recoger informacién externa, como demografias (censo), paginas amarillas, psicografias (perfiles por zonas), uso de Intemet, informacién de otras organizaciones y bases de datos extemias compradas a otras compaitias. La disponibilidad de grandes vollimenes de informacién en esta fase nos lleva a la necesidad de usar técnicas de muestreo para la seleccién de datos. La fase siguiente del KDD integra la exploracién, la limpieza o criba de datos (Data Cleaning) y la transformacion de datos. Se deben eliminar el mayor ntimero posible de datos erréneos © inconsistentes (limpieza) © irrelevantes (criba). En esta fase se utilizan herramientas de consulta (Query tools) y herramientas estadisticas (Statistics tools) casi exclusivamente. En la exploracién se usan_técnicas de andlisis exploratorio de datos como los histogramas y los diagramas de caja, tallo y hojas, que ayudan a detectar datos anomalos 0 atipicos (outliers). La presencia de datos atipicos y valores desaparecidos (datos missing) puede llevamos a usar algoritmos robustos a datos atipicos y desaparecidos (p.j. érboles de decisién), a filtrar la informacién, a reemplazar valores mediante técnicas de imputacién y a transformar datos continuos en discretos mediante téenicas de discretizacién. Entre las técnicas avanzadas de transformacién tenemos las de reduccién y aumento de la dimensién. © MES-ParaninfoCAPITULO 1: MINERIA DE DATOS: CONCEFTOS, TECNICAS Y SISTEMAS 5 La fase siguiente en el KDD es la propia mineria de datos que se llevar. a cabo a partir del desarrollo de modelos predictivos y descriptivos (Model Development) y mediante el andlisis de datos (Data Analysis). Una vez recogidos los datos de interés, un explorador puede decidir qué tipo de patron quiere descubrir. El tipo de conocimiento que se desea extraer va a marcar claramente la técnica de mineria de datos a utilizar. Para seleccionar y validar los modelos anteriores es necesaria una nueva fase consistente en el uso de criterios de evaluacién de hipétesis. El despliegue del modelo a veces es trivial pero otras veces requiere un proceso de implementacién o interpretacién. En esta fase se utilizan adicionalmente herramientas estadisticas y de visualizacién (Visualization tools) Una fase posterior del KDD es la relativa a la difusion y uso del conocimiento derivado de las técnicas de mineria de datos a través del los modelos correspondientes que habitualmente desembocan en la generacién de resultados (Output Generation). El modelo puede tener muchos usuarios y necesitar difuusién, con lo que puede requerir ser expresado de una manera comprensible para ser distribuido en la organizacién. En esta fase se utilizan herramientas de visalizacion (Visualization tools), presentacion (Presentation tools) y transformacién de datos (Data transformation tools). Por lo tanto, observamos en el proceso de extraccién del conocimiento KDD la secuencia de fases siguiente: SELECCION > EXPLORACION — LIMPIEZA > TRANSFORMACION > MINERIA DE DATOS > EVALUACION > DIFUSION En la fase de seleccidn se integran y recopilan los datos, se determinan las fuentes de informacion que pueden ser titiles y dénde conseguirlas, se identifican y seleccionan las variables relevantes en los datos y se aplican las técnicas de muestreo adecuadas. Todo ello se facilita disponiendo de un almacén de datos con la informacion en formato comin y sin inconsistencias. Dado que los datos provienen de diferentes fuentes, es necesaria su exploracién mediante técnicas de analisis exploratorio de datos, buscando entre otras cosas la distribucién de los datos, su simetria y normalidad y las correlaciones existentes en la informacidn. A continuacidn es necesaria la limpieza de los datos, ya que pueden contener valores atipicos, valores faltantes y valores erréneos. En esta fase se analiza la influencia de los datos atipicos, se imputan los valores faltantes y se eliminan o corrigen los datos incorrectos. A continuacién, si es necesario, se lleva a cabo la iransformacién de los datos, generalmente mediante técnicas de reduccién o aumento de la dimensi6n y escalado simple y multidimensional, entre otras. Las cuatro primeras fases se suelen englobar bajo el nombre de preparacién de datos. En la fase de mineria de datos, se decide cual es la tarea a realizar (clasificar, agrupar, etc.) y se elige la técnica descriptiva o predictiva que se va a utilizar. En la fase de evaluacién e interpretacién se evaliian los patrones y se analizan por los expertos, y si es necesario se vuelve a las fases anteriores para una nueva iteracion. Finalmente, en la fase de aifision se hace uso del nuevo conocimiento y se hace participe de él a todos los posibles usuarios. Entonces, la clasificacién de las fases del proceso de extraccién del conocimiento podria resumirse en el siguiente esquema: © ITES-Paraninfo6 — MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS Recopilar e integrar las fuentes de datos existentes SELECCION} Identificar y seleccionar las variables relevantes en los datos Aplicar las técnicas de muestreo adecuadas (Utilizar las técnicas de anilisis exploratorio de datos EXPLORACION, Deducir la distribucién de los datos, simetria y normalidad Analizar las correlaciones existentes en la informacién Detectar y tratar la presencia de valores ati LIMPIEZA} Imputar la informacién faltanteo valores perdidos (datos missing) Eliminar datos erréneos e irrelevanies Utilizar técnicas de reduccién y aumento dela dimension TRANSFORMACION } Aplicar técnicas de discretizacion y numerizacion Realizar escalade simple y multidimensional Regresi6n y series temporales Andlists discriminante KDD. ; an . ‘Métodos bayesianos Uitilizar técnicas predictivas 5 Algoritmos genéticos Arboles de decision Redes neuronales MINERIA DE DATOS: Clustering y Segmentacion Excalamiento Utilizar técnicas deseriptivas} Reglas de asociacién y dependencia Andlisis exploratorio Reduccién de la dimension Intervalos de confianza Bootstrap Aniilisis ROC Evaluacién de modelos EVALUACION E INTERPRETACION DE RESULTADOS: Visualizacién DIFUSION ¥ USO DE MODELOS: Simulacién © ITESParaninfoCAPITULO 1: MINERIA DE DATOS: CONCEFTOS, TECNICAS Y SISTEMAS 7 No obstante, la clasificacién anterior no es la tinica que aparece en la literatura de esta materia. Existen otras interpretaciones del concepto de mineria de datos, en la linea de considerar las fases del proceso de extraccién del conocimiento expresadas previamente como técnicas de mineria de datos. Por ejemplo, SAS Institute define el concepto de Data Mining como el proceso de Seleccionar (Selecting), Explorar (Exploring), Modificar (Modifving), Modelizar (Modeling) y Valorar (Assessment) grandes cantidades de datos con el objetivo de descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores. Este proceso es resumido con las siglas SEMMA. La Figura 1-3 ilustra las fases del proceso de mineria de datos segin SAS Institute. Vaoracion Problema Modelizacion 7 Ke CONOCIMIENTO Objetivos 77 Moateacon ogous Exploracon ii, wa arelomades | * Dawe ‘Seleccion: Pipe Figura 1-3 Se observa Ia equivalencia entre las componentes del concepio de mineria de datos de SAS Institute y las fases del KDD expuestas anteriormente. La fases de Limpieza y Transformacién en KDD equivalen a la fase de Modificacién en SAS, y la fase de Mineria de Datos equivale a Modelizacién. Evaluacién y Valoracién pueden considerarse sindnimos. SAS Institute implementa la mineria de datos en el software Enterprise Miner, que sera utilizado en este libro, y en otros procedimientos y médulos (STAT, ETS,...). Por su parte SPSS considera que las seis fases que forman el proceso de la mineria de datos son: la comprensién del negocio, la comprensién de los datos, la preparacién de los datos, el modelado, la evaluacién y el uso del modelo. SPSS implementa esta filosofia de la mineria de datos en el software Clemeniine, que sera utilizado en este libro, y en otros procedimientos y médulos (Answer Tree, Neural Connection...) © ITES-Paraninto8 — MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS TECNICAS DE MINERIA DE DATOS, La clasificacién inicial de las técnicas de mineria de datos distingue entre técnicas predictivas, en las que las variables pueden clasificarse inicialmente en dependientes e independientes (similares a las técnicas del andlisis de la dependencia 0 métodos explicativos del andlisis multivariante), técnicas descriptivas, en las que todas mo estatus (similares a las téc as del andlisis isis multivariante) y técnicas las variables tienen inicialmente el de la interdependencia 0 métodos descriptivos del ani auxiliares. Las técnicas predictivas especifican el modelo para los datos en base a un conocimiento tedrico previo. El modelo supuesto para los datos debe contrastarse después del proceso de mineria de datos antes de aceptarlo como valido. Formalmente, la aplicacién de todo modelo debe superar las fases de identificacién objetiva (a partir de los datos se aplican reglas que permitan identificar el mejor modelo posible que ajuste los datos), estimacién (proceso de calculo de los parimetros del modelo elegido para los datos en la fase de identificacién), diagnosis (proceso de contraste de la validez del modelo estimado) y prediccidn (proceso de utilizacién del modelo identificado, estimado y validado para predecir valores futuros de las variables dependientes). En algunos casos, el modelo se obtiene como mezcla del conocimiento obtenido antes y después del Data Mining y también debe contrastarse antes de aceptarse como valido. Por ejemplo, las redes neuronales permiten descubrir modelos complejos y afinarlos a medida que progresa la exploracién de los datos. Gracias a su capacidad de aprendizaje, permiten descubrir relaciones complejas entre variables sin ninguna intervencién extema. Podemos incluir entre estas técnicas todos los tipos de regresién, series temporales, analisis de la varianza y covarianza, analisis discriminante, arboles de decision, redes neuronales, algoritmos genéticos y técnicas bayesianas. Tanto los arboles de decision, como las redes neuronales y el andlisis discriminante son a su vez téenicas de clasificacién que pueden extraer perfiles de comportamiento o clases, siendo el objetivo construir un modelo que permita clasificar cualquier nuevo dato. Los arboles de decisién permiten clasificar los datos en grupos basados en los valores de las variables. El mecanismo de base consiste en elegir un atributo como raiz y desarrollar el arbol segtin las variables mas significativas. En las ‘éenicas descriptivas no se asigna ningin papel predeterminado a las variables. No se supone la existencia de variables dependientes ni independientes y tampoco se supone la existencia de un modelo previo para los datos. Los modelos se crean automiticamente partiendo del reconocimiento de patrones. En este grupo se incluyen las técnicas de clustering y segmentacin (que también son técnicas de clasificacién en cierto modo), las técnicas de asociacién y dependencia, las técnicas de anilisis exploratorio de datos y las técnicas de reduccion de la dimensién (factorial, componentes principales, correspondencias, etc.) y de esealamiento multidimensional, © MES-ParaninfoCAPITULO 1: MINERIA DE DATOS: CONCEFTOS, TECNICAS Y SISTEMAS Tanto las técnicas predictivas como las técnicas descriptivas estin enfocadas al descubrimiento del conocimiento embebido en los datos. Las ‘écnicas auxiliares son herramientas de apoyo mas superticiales y limitadas. Se trata de nuevos métodos basados en técnicas estadisticas descriptivas, consultas e informes y enfocados en general hacia la verificacién. A continuacién se muestra una clasificacion de las técnicas de Data Mining. Regresion Anilisis de la Varianza y Covarianza Series temporales Métodos bayesianos Predictivas ; Algoritmos genéticos Discriminante Clasificacién ad hoc} Arboles de decision Redes neuronales Descubrimiento . . “lustering Técnicas Clasificacién post hoc . ‘egmentacién Asociacién Descriptivas } Dependencia Reduccién de la dimensién Anélisis exploratorio Escalamiento Multidimensional Proceso Analitico de Transacciones (OLAP) Técnicas auxiliares | SQL y herramientas de consulta Verificacién Reporting Se observa que las técnicas de clasificacién pueden pertenecer tanto al grupo de técnicas predictivas (discriminante, arboles de decisién y redes neuronales) como a las desctiptivas (clustering y segmentacién). Las técnicas de clasificacién predictivas suelen denominarse iécnicas de clasificacién ad hoc ya que clasifican individuos u observaciones dentro de grupos previamente definidos. Las técnicas de clasificacién descriptivas se denominan iécnicas de clasificacién post hoc porque realizan clasificacién sin especificacién previa de los grupos. © ITES-Paraninto10 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS En la Figura 1-4 se muestra un diagrama con la clasificacion de las técnicas de mineria de datos, que es clésico en la literatura de esta materia. Figura 1-4 SISTEMAS DE MINERiA DE DATOS La Figura 1-5 muestra los sistemas de mineria de datos mas utilizados en el mercado junto con las técnicas que tratan cada uno de ellos, las plataformas sobre las que trabajan y los interfaces de lectura de datos. Producto Compaiia Técnicas Plataforma Interfaz Knowledge Angoss Arboles de Decision | Win ‘ODBC Seeker CART. Salford Systems_| Arboles de Decisién_[ Win/UNIX ‘Clementine SPSS ‘Amplio abanico WinJUNIX ‘ODBC Data Surveyor Data Amplio abanico UNIX, ODBC Gain Smarts Urban Grificos-Ganancias_| Win/UNIX Intelligent Miner | IBM ‘Amplio abanico UNIX (AIX) | IBM, DB2 Micostrateg Micostrategy | Datawarehouse Win Oracle Polyanalyst Megaputer Simbélicas Win Oracle, ODBC Darwi Oracle ‘Amplio abanico WinJUNDX Oracle Enterprise Miner_| SAS Insfituie | Amplio abanico Win/INTX/Mac SGI MineSet Silicon Graphies | Asociacién y UNIX Oracle, Sybase, Clasificacién Informix Wizsof Wizwhy Wizsoft Figura 1-5 © ITESParaninfoCAPITULO 1: MINERIA DE DATOS: CONCEFTOS, TECNICAS Y SISTEMAS 11 Los sistemas de mineria de datos que utilizaremos en este libro son SPSS Clementine y SAS Enterprise Miner. SPSS Clementine es un sistema de mineria de datos que contempla diferentes fuentes de datos (ASCII, Oracle, Informix, Sybase, Ingres, etc.), una interfaz visual sencilla y distintas herramientas de mineria de datos (redes neuronales, arboles de decision, regresiin, series temporales, cluster, etc.), Trabaja bajo los sistemas operativos UNIX y Windows. SAS Enterprise Miner es una herramienta completa que incluye conexién a bases de datos (a través de ODBC y SAS datasets), muestreo e inclusién de variables derivadas, particién de la evaluacién del modelo respecto a conjuntos de entrenamiento, validacién y chequeo, distintas herramientas de minerfa de datos (algoritmos y tipos de Arboles de decisién, redes neuronales, regresin y clustering, ete.), comparacién de modelos y conversin de los modelos en cédigo SAS. Dispone de un interfaz grafico muy sencillo e incluye herramientas para flujo de proceso, tratando el proceso KDD como un proceso y las fases se pueden repetir, modificar y grabar. Existen en el mercado otros sistemas que permiten realizar Data Mining a través de bases de datos. Concretamente, las bases de datos Oracle y SQL Server disponen de sistemas de mineria de datos asociados. Oracle dispone de herramientas de “Business Intelligence” y “Data Mining” (hutp://ww.oracle.conVip/analyze/warehouse/bus_intell/index.hml) que tienen una orientacién mas empresatial y de sistemas de informacién. También dispone de herramientas de OLAP, Datawarehouse e Informes Avanzados. Asimismo, presenta herramientas propias de Mineria de Datos a través del producto Oracle Darwin (http:/Avww.oracle.convip/analyze/warehouse/datamining/index. html). Microsoft SOL Server dispone del producto Analysis Services que implementa la mineria de datos. Se fundamenta en el “OLE DB for Data Mining” e implementa una extensién del SQL que trabaja con DMM (Data Mining Model) que permite crear el modelo, entrenarlo y realizar predicciones. La version SQL Server 2005, en su médulo Analisys Services cuenta con los algoritmos de mineria de datos mas avanzado entre los que se incluyen arboles de decisién y regresion, series temporales, agrupacién en clisteres, regias de asociacién, algoritmo Naive Bayes y mineria de textos. Dispone de unasistente y diseftador para mineria de datos que permite construir modelos sofisticados a través de una interfaz ficil de usar. Ademids, se proporcionan grificos de elevacién y beneficios, por lo que podré comparar y contrastar la calidad de los modelos antes de dedicarse a la distribucion. Existe una representacién clisica de los sistemas de mineria de datos cuya fuente es Elder Research (www.dataminiglab.com)y que se presenta en la Figura 1-6. © ITES-Paraninto12 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS BM pew Dats wind C. “Ae Wintoes Figura 1-6 © ITESParaninfoCAPITULO 2 ENTORNO DE TRABAJO DE SPSS CLEMENTINE INTRODUCCION A CLEMENTINE SPSS Clementine es una herramienta integrada de mineria de datos que incluye diversas fuentes de datos (ASCII, XLS, ODBC, etc.), un interfaz visual basado en procesosiflujos de datos (streams), distintas herramientas de mineria de datos (correlacion, reglas de asociacién, regresién, segmentacién, clasificacién, redes neuronales, reglas y Arboles de decisién, etc.), manipulacién de datos (pick & mix, muestreo, combinacién y separacién, etc.), combinacién de modelos, visualizacién de datos, exportacién de modelos a distintos lenguajes (C, SPSS, SAS, etc.), exportacién de datos integrada a otros programas (XLS) y generacién de informes. El entomo del Clementine esti basado en nodos que se van disponiendo y conectando para formar un flujo, o stream, traducido por Clementine también como “ruta”. Los streams pueden alojarse en ficheros separados (.str) 0 se pueden organizar en proyectos (.cp/). De hecho, tanto los streams como los proyectos de mineria de datos se almacenan en ficheros separados que se puede cargar, guardar, modificar, reejecutar o reorganizar (Figura 2-1) y que son independientes de las fuentes de datos. Eero ona een nine tet Figura 2-114 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. En la Figura 2-2 se muestra la pantalla de carga de la ruta druglearn.str. ag —— S| Lore Undated by divers on 04/Dec/2004 12:54:22 Figura 2-2 En Ia Figura 2-3 se muestra la ruta druglearn.st con seis nodos interconectados. See Ba] Coen Figura 2-3 © (TES ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 15 Como se puede ver en la parte inferior de la Figura 2-3 (Figura 2-4), Clementine presenta varias paletas que clasifican los nodos en seis categorias: © — Origenes: nodos para obtener los datos de trabajo (fuentes de datos). © Oper. con registros: operadores para modificar 0 combinar registros (filas) de distintas fuentes. Es decir, selecciones y combinaciones. ‘© Oper. con campos: operadores para modificar o combinar campos (columnas). © Gréficos: graficas. * Modelado: tipos de modelos/patrones que puede generar Clementine © — Salida: presentacion de tablas, andlisis de modelos, estadisticas, exportacion de datos. Figura 2-4 En la parte superior derecha de la pantalla se encuentra la paleta Modelos generados (Figura 2-5) que muestra los resultados que actualmente se estan elaborando. SB 6 ropa fees Bietépico Figura 2-5 © ITES-Paraninfo16 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Debajo de la paleta Modelos generados se encuentra el botén Ejecutar, que permite la ejecucién e interrupcién de las tareas definidas en la ruta (stream). Usando el ratén Alguna de las operaciones cn Clementine se ven facilitadas con un raton de tres botones. El tercer botén suele utilizarse a menudo para realizar conexiones entre los diferentes nodos de una ruta. Si el ratén no tiene el tercer botén, puede emularse su efecto presionando simultaneamente los dos botones. El clic simple con los botones izquierdo y derecho del ratén permite seleccionar opciones de mentis o abrir meniis contextuales. El doble clic con el botén izquierdo del ratén permite situar nodos en una ruta y editar nodos existentes. El clic simple con el tercer botén del ratén (equivalente al clic simultneo de los dos botones cuando no existe el tercero) seguido de arrastre, permite conectar nodos en una ruta. El doble clic en el tercer bot6n permite desconectar nodos. Ayuda en Clementine La opcién Ayuda del menti de Clementine (Figura 2-6) permite varios caminos para acceder a su contenido. La subopcién Contenido permite acceder a toda la ayuda de Clementine por capitulos (Figura 2-7). La subopcién Tutorial da acceso a un tutorial sencillo sobre el programa (Figura 2-8). La subopcién Modo ayuda contextual transforma el cursor del ratén en un interrogante, de modo que al hacer clic sobre cualquier objeto del interfaz de Clementine, aparece la ayuda relativa ese objeto. Por ejemplo, si hacemos clic en Modo Ayuda Contextual sobre el nodo etiquetado Droga '5.0 de la ruta de la Figura 2-3 obtendremos ayuda contextual sobre la construccin de arboles de decisién con el modelo C 5.0 (Figura 2-9). Paneer) neste Ayuda Figura 2-6 © MES ParanintoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 17 ELE ‘activo Eakin Ver Eavortos Herramientas Ayuda Ox OO orm @ A 28-WOas hac (6) ts drone Seb 6b Ceo, sto ee saore |B 2 Welcome Be ne . Wilcune to Clementine, the data ining tolkit that Cembires sivanced modeing tecmnology with eas6-of- I ndatancdna ota Mina tse, nelpng you to discover te teresting ane valuable ee : resstonsnise wtnin your data, Be || You cen uc Clementine for decison-suppert activites B® saten made traction B® soca nodes + Finding timely answers to critical business questions + Gecovering when factors have the greatest impact B® secant Oneations Hades ‘on your bottom line [B® ats operation nodes | + Creating customer profiles to actieve the highest Fe sich posstie buy rate Be rahi fate Arends saa ard grow igen + Pofng fr drect nai responses ad ret rk -suceuhods * Perforning chum predition clasifestion, and B® scneated Modes ‘segmentation EO sceaes ne ‘These are lust a sanpling ofthe many ways that you standing masna als » Eigmentine to po tract valable nfermavon fom Figura 2-7 recs |B) ceetivs de wrooranaiConerane\é Swe 6nEngh UT ontut hm Welcome to Clementine ‘This tutorial introduces you to Clementine. it will familiarize you with the Glamentine interface nd ie> visu! programming approach ta dats mining To do this, it wales you through the process of using Clamantine to create 2 model and draw some canclusions spout a data fle. You may want to. Fave Clementine running <0 that you can follew the staps a2 you read. For further information about the concepts ard procedures introduced here, be sure to rever to your Clementine User's auide and aivanced Features Guide ‘Ta get started with tha tutaral, click the right arraw button in the bottem fight comer of this window. ®—-@--®--@ arugin waste Drug Figura 2-8 © ITES-Paraninfo18 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS FREE eee eee ‘we Eécin er Evertss Weremevas te O~-O AEG ku OSS 8 WOR s Sieseitn | 8 C Wecthos de prog sna\Canantrsi. Spb iringkh_USiCer wb lcSOvode_seneat hin BO ernst nest Build C5.0 Node “Taig node uses the C5.0 algorithm to buld either a helen tre or 3 relowshs A.CE.O modal wars by Spitine the sample Eased on the field that provides the ‘maximum Information gain Each subeample dafined Sy the fist spit is then salt again, usualy based on a ‘Fferant fe, and the process rapests intl fe Subsanpies carrot ba spit any Turtner. Final, the lowest level splits are reavanined, and those ‘hat Ge not Contribute signifeanty to the value of the medel are removed or pruned. [B® pcos operations nodes ne 5.0 can produce tw kinds ofmodels_ & decston tree ald aac toas is a staigheforvard ceserotion af the spits found by 2 B® sect aadae algorithm. Each termnal or "leaf" node describes ae partcula sist of the tsineg data, and each case in eden tts the training data balongs to exactly one ternal rade in [BP oxic nade the treo, In other wards, szcetly ore prediction Is | ennas cs goes fo any part data record poser to [B® sresmadar sot of nos that thes to mala Figura 2-9 Panel de control de Clementine En el grupo de programas de Clementine aparece Ia utilidad Control Panel (Figura 2-10) que, a través de las opciones que se muestran en la pantalla de la Figura 2-11, nos va a permitir configurar la memoria de uso, situar preferencias de lenguaje y leer y seleccionar actualizaciones relevantes para Clementine que pueden venir dadas en médulos externos. Por defecto las actualizaciones se espera que estén localizadas en el directorio de instalacién de Clementine. Con el botén Buscar se puede elegir cualquier otro subdirectorio en el que estén situadas las actualizaciones, Con el botén Actualizar se ejecutan las actualizaciones seleccionadas. BD Stottranster7 @ cementne 6.5 Figura 2-10 © (TES ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 19 Clementine Panel de control Las subopciones del meni Opciones de Clementine (Figura 2-12) permiten configurar opciones de usuario (Figura 2-13), de ejecucién (Figura 2-14), de ruta (Figura 2-15), de SPSS (Figura 2-16), requisitos de memoria (Figura 2-17) y opciones de idioma. knee Figura 2-12 © ITES-Paraninfo20 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Figura 2-15 © TES PareninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 21 EJEMPLO DE TRABAJO CON CLEMENTINE Figura 2-17 Con los datos del fichero ASCII ‘enis.txt situado en f:\libros\minigh\datos\tenis, que contiene informacién acerca de los dias que se ha podido jugar al tenis en funcién de diversos aspectos metereol6gicos, se trata de construir un modelo basado en arboles de decisin que permita predecir si a dia de hoy es posible jugar al tenis. Los datos se ‘muestran en la Figura 2-18, een one ‘Temperatura caluroso €aluroso caluroso suave Fresco Fresco Fresco suave Fresco suave Suave Suave Caluroso suave Humedad Viento alta alta alta alta Norma Normal norma alta Norma] norma] Norma alta Normal alta Figura 2-18 foja ieee iojo Hele Flojo fuerte fuerte fleje flojo Flee fuerte fuerte Flojo Fuerte © ITES-Paraninfo22 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Comenzamos abriendo Clementine mediante Inicio > Todos los programas _ Clementine (Figura 2-19). Al abrir el programa, las dos areas de trabajo (izquierda superior y derecha superior) aparecen en blanco (mejor en dicho en azul y gris). Insertar un nodo fuente (origen) de datos en el area de trabajo Lo primero que vamos a hacer es insertar un nodo fuente de datos al drea de trabajo. Para ello, pinchamos dos veces (0 una vez en el nodo y después otra vez en el rea de trabajo) en el nodo Archivo variable (Figura 2-20) que esta en la categoria Origenes en la parte inferior izquierda de la pantalla, Apareceri el nodo en el drea de trabajo, tal y como se muestra en la Figura 2-21, BD Stativarefer7 Control Panel (@ Exceed a Demos Wb M5N Messenger 7.5 feritie” — aactiier Figura 2-19 Figura 2-20 Figura 2-21 © (TES ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 23 Si fuese necesario borrar un nodo, simplemente se selecciona y se pulsa la tecla ‘Supr, También se puede borrar con la opcién Eliminar del ment de contexto asociado al nodo, el cual se abre pulsando el botén derecho sobre él (Figura 2-22). Figura 2-22 Enlazar un nodo con una fuente de datos La siguiente tarea sera enlazar el nodo con una fuente de datos. Para ello, hacemos clic con el botén derecho del ratén sobre el nodo archivo “variable” de la zona de trabajo y seleccionaremos Modificar en la Figura 2-22. En la pantalla de edi (Figura 2-23) modificaremos el nombre del fichero, el directorio donde esta y la forma de importarlo (utilizando los tabuladores). Se puede escribir directamente el nombre del archivo a seleccionar y el directorio directamente en sus campos correspondientes, o simplemente se hace clic en el botén Definir archivo y se busca el fichero en el campo Directorio de la pantalla Buscar archivo (Figura 2-24), En el campo Nombre de archivo se hace clic en el fichero a seleccioner. A continuacién se hace clic en el campo Tabulador para considerar los datos del fichero ASCII separados por tabuladores. Ademas seleccionaremos el campo Obrener nombres de campo del archivo para que nos coja el nombre de los atributos del propio fichero. Al hacer clic en Aceprar, el nodo archivo variable aparece ya etiquetado con el nombre del fichero origen de sus datos fenis.ovt (Figura 2-25). © ITES-Paraninfo24 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Especificactin de archi Nonbre de archivo: Rente.txt Directorio: Fi \libroswiningbvcatcsvtenisN DeFinie erchivors Niner de conpoct titonition C Hamel : -l- Cre ree ere ere) Cicer ewan? icf Caratteres de conentario de £0L:[Caracteres de dolinitacién:[ F espacio 1 Tebulacor Delimitado cont Formato var table Nuova Linea T Caracteres no. inprintbles =o E Wiletples delimitadores vactos: Caniltast Simplest Bessartan [poor Elininer espacios precedentes y postertores: T~ anipulacion de tipos ia ios aa Limes gin starr on busca del tips” ___ a] vf 4 Carpe ape Selacoionar torcs| Ne selacotonan Onsionss: © Sinbolo autonstice Real autonitico C Entero autonstico C Sin tibo © (Cano esta) = S| I carer | (sets | Figura 2-23 nd Nombre de archivo Directerio Establecer frenis.txt funcT\oaTOsTenis a 2) ptuation benis un Carole Lister archive de tip Unidad i* Fi Nuevo vol Figura 2-24 © MES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 25 Figura 2-25 Figura 2-26 Controlar la carga de datos con un nodo tabla La siguiente tarea es controlar la carga de los datos afiadiendo un nodo Tabla (Figura 2-26) de la categoria Salida (iltima de la derecha) haciendo doble clic sobre él (Figura 2-27). Una vez que aparece el nodo Tabla en la zona de trabajo, hay que enlazarlo al nodo ienis.txt. Para enlazar dos nodos en Clementine, se han de pulsar el bot6n izquierdo y derecho a la vez sobre el nodo origen y arrastrar el ratén hasta el nodo destino (Figura 2-28), soltando en este momento los dos botones. Si el rat6n tiene botén del medio, también se puede utilizar este boton, El resultado se presenta en la Figura 2-29. © ITES-Paraninfo26 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. oe © —-@ MEHENES tenis.txt tala Figura 2-28 Figura 2.29 Para eliminar un enlace, simplemente se hace clic con el botén derecho en el enlace y en el ment contextual resultante (Figura 2-30) se elige Borrar. tenis tat Figura 2-30 Si una vez conectados los dos nodos, pulsamos el botén verde EJECUTAR obtenemos los datos importados en una tabla (Figura 2-31) re) eats (© (TES ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 27 Definir variables predictoras con el nodo Tipo Nuestro problema era ver si hoy podemos jugar al tenis, Para poder abordar este problema hemos definir los campos Cielo, Temperatura, Humedad y Viento como predictores (es decir de entrada), mientras que el campo Jugar es la clase a predecir, 0 sea, el resultado (es decir la salida). Para ello vamos a afiadir un nodo Tipo (Figura 2-32) que se encuentra en la categoria Oper. con campos haciendo doble clic sobre él. A continuacién enlazamos el nodo ‘enis.txi con el nodo tipo haciendo clic sobre el primero con los dos botones del raién a la vez, desplazindonos hacia el segundo (Figura 2-33) y soltando a la vez los dos botones. Se obtiene la Figura 2-34a con los nodos enlazados. Ahora hacemos clic con el botén derecho del ratén en el nodo Tipo y elegimos Modificar en el ment emergente resultante (Figura 2-34b) y se obtiene la tabla Tipo de la Figura 2-35. Como vemos todos los nodos tienen direccién ENTRADA (estan definidos como preductores), Como la salida va a ser la variable Jugar, modificamos su direccién a SALIDA haciendo clic sobre ENTRADA. Se observa ya la tabla Tipo con las propiedades adecuadas (Figura 2-36). Tipo Figura 2-32 , 4 @ = = - @ ee - we ~~ fonts, tae tenis.tat ae po Figura 2-33 Figura 2-34a © ITES-Paraninto28 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS i a — tenis.txt See Figura 2-34b Viento Ty) agar Son rary Sera) omer Semenoe TT) ron ere) pera Sena) © ITESParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 29 Utilizar un nodo de modelado Ahora ya estamos en situacién de intentar utilizar un modelo a partir de los datos, en este caso una funcién, de modo que dados unos determinados valores de los atributos de entrada obtengamos un valor para la salida, Para ello afiadimos el nuevo nodo Crear C5.0 (Figura 2-37) de la categoria Modelado (haciendo doble clic sobre é!) con cl objeto de construir un arbol de decisién con los datos. A continuacién conectamos el nodo tipo con el nodo Crear C5.0 (Figura 2-38) que pasa a llamarse Jugar: tabla tenis. txt ® —-@ tipo Jugar Figura 2-38 Ejecutar una ruta Ahora ya estamos en disposicién de trabajar con el arbol de decision). Para ello, hacemos clic en el botén verde EJECUTAR. Se observa que, aparte de volver a mostrar la tabla con los datos de origen (pantalla que se puede cerrar para que no moleste), se ha generado un nuevo icono en el érea de trabajo de la derecha, con la forma de un diamante (Figura 2-39). © ITES-Paraninto30 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS nn ee eerie Figura 2-39 Si ahora pinchamos dos veces en el diamante de la derecha, éste apareceri en la parte superior izquierda del area de trabajo (Figura 2-40). Figura 2-40 A continuacién hacemos clic con el botén derecho del ratén en el diamante del area de trabajo y en el menit emergente resultante (Figura 2-41) elegimos Examinar. Se obtiene una ventana donde podemos ver el arbol de decision creado (Figura 2-42). Si ahora en el menti Ver elegimos Mostrar ocurrencias/confianzas (Figura 2-43) obtenemos los resultados de la Figura 2-44 que nos muestra para cada rama cuantos ejemplos de Ia evidencia son cubiertos y con qué confianza (100% en todas las ramas salvo Iluvioso al 60%). © ITESParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 31 eee ee ce pee _ Concer sts} rest Cerone tery ocr Hunedad Alta ene cay rrr) ers Per Peace pris st Figura 2-43 ITES-Paraninto32 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS eek Interpretar un modelo La representacién l6gica del arbol anterior seria: (Cielo = Cubierto) OR (Cielo = Lluvioso) OR (Cielo = Soleado AND Humedad = Normal) <> Cubierto Lluvioso Soleado SI (100%) $1 (60%) Humedad Alta Normal NO (100%) $1(100%) Para ver el Arbol en forma de reglas elegimos Generar —> Conjunto de reglas (Figura 2-45) y rellenamos la pantalla Generar conjunto de reglas como se indica en la Figura 2-46. Al pulsar Aceprar se genera el conjunto de reglas de la Figura 2-47, que no es més que otra forma mas de expresar cl Arbol de decisién, © ITESParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 33 Room sety Pence process) Figura 2-45 cacti ce Opciones de gereracicn Generando conjunto de reglas parat Jugar Crear nedo ent Nonbre de conjunto de reglass flugarRS Cobertura ninina: al~ Confianza nininat fP-0 al == S| (een S| Figura 2-46 Reglas para Na: Frere By ts as si Cielo == Soleado Pape eee tra ean epee es er ew ha eet ae Regla n°2 para Si: ey ene ac Por defecto: —> Si Figura 2-47 © ITES-Paraninto34 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Predecir con un modelo La finalidad dltima de nuestro modelo de Arbol de decision es. predecir si podemos jugar 0 no jugar al tenis hoy segtin el tiempo que haga. Se observa que si hoy el cielo esté cubierto se jugar al tenis con una confianza del 100%. Si hoy el ciclo esta Iluvioso se jugara al tenis con una confianza del 60%. Si hoy el cielo esta soleado y la humedad es normal se jugara al tenis con una confianza del 100%, pero si el cielo esti soleado y Ia humedad es alta no se jugar al tenis con una confianza también del 100%. Guardar un modelo Mediante Archivo — Guardar ruta (Figura 2-48) se almacena la ruta que hemos seguido para construir y utilizar ef modelo, De esta forma serd posible utilizarlo posteriormente mediante Archivo —» Cargar ruta y el bot6n Ejecutar. © ITESParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 35 NODOS DE ORIGENES DE DATOS Clementine offece las opciones de obtencién de datos de diversas fuentes a través de los nodos de origenes de datos (Origenes), algunos de los cuales se muestran en la paleta Origenes de la Figura 2-49, Figura 2-49 La paleta Origenes contiene los siguientes nodos: * Archivo variable: Permite obtener datos ASCII en formato libre. « Archivo fijo: Permite obtener datos ASCII en formato fijo. * ODBC: Permite obtener datos via ODBC. © Import SPSS: Importa datos de formato SPSS. * Import SAS: Importa datos de formato SAS. NODOS DE OPERACIONES CON REGISTROS Clementine presenta un grupo de nodos cuya finalidad es la seleccién y transformacién de los datos, que como ya sabemos es una fase previa a la aplicacién de las técnicas de mineria de datos. Clementine permite operaciones con registros y operaciones con campos. Los nodos relativos a operaciones con registros, que son las que nos ocupan en este apartado, se muestran en la paleta Operaciones con registros (Figuras 2-50 y 2-51). © ITES-Paraninto36 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Figura 2-50 Figura 2-51 La paleta Operaciones con registros contiene los siguientes nodos: * Seleccionar: Permite seleccionar un subconjunto de registros segiin una condicién especificada, tanto para incluirlos como para excluirlos del andlisis. * Muestra: Permite obtener una muestra de los registros iniciales. © Combinar: Permite combinar en un solo archivo registros provenientes de distintos archivos que tienen campos diferentes, con la condicién de que haya un campo comin para poder hacer Ia fusi6n, © Equilibrar: Permite corregir desajustes de registros en conjuntos de datos. © Ordenar: Permite ordenar registros de modo ascendente o descendente de acuerdo a los valores de uno 0 mas campos. * Distinguir: Permite ignorar registros duplicado. * Agregar: Permite reemplazar una secuencia de registros de entrada por un resumen suyo. © Aiiadir: Permite concatenar conjuntos de registros. Se utiliza para unir conjuntos de datos con estructuras similares. NODOS DE OPERACIONES CON CAMPOS Dentro de los nodos cuya finalidad es la seleceién, preparacién y transformacién de los datos, que como ya sabemos es una fuse previa a la aplicacion de las técnicas de mineria de datos, Clementine dispone de nodos relativos a operaciones con campos, que se muestran en la paleta Operaciones con campos (Figuras 2-52 y 2-53). (© ITESParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 37 a yi. Zz fl tLe Figura 2-52 Figura 2-53 La paleta Operaciones con campos contiene los siguientes nodos: © Filtrar: Permite filtrar la informacién de miltiples campos simultinemente. * Derivar: Permite obtener nuevos campos en funcién de otros campos. * Tipo: Permite especificar determinadas propiedades de los campos como su tipo, naturaleza (predictor o predicho) y definicién de blancos. © Rellenar: Permite reemplazar blancos segin una condicién. * Histérico: Permite crear nuevos campos conteniendo datos de registros previos. Se usa para datos secuenciales, como por ejemplo las series temporales © Convertir: marca: Permite derivar campos basados en valores simbélicos definidos por uno © mas conjuntos de campos NODOS PARA GRAFICOS Determinadas fases de la mineria de datos necesitan de las representaciones graficas. Por ejemplo, es posible conectar un nodo grifico a un conjunto de datos para ver su distribucién. Dentro de la paleta Grdficos, Clementine dispone de los que se muestran en las Figuras 2-54 y 2-55. © ITES-Paraninto38 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Tistribucién Halla Figura 2-54 Figura 2-55 La funcionalidad de los nodos de la paleta Gréficos es la siguiente: * — Grdfico: Permite crear grificos de lineas y de dispersi6n. © Distribucién: Permite graficar la distribucién de los valores de una variable que puede ser cualitativa * Histograma: Permite graficar la distribucién de los valores de una variable cuantitativa. ¢ Malla: Permite graficar las relaciones entre los valores de dos 0 mas variables cualitativas. * — Recolectar: Permite crear histogramas que muestran la distribucion de los valores de una variable numérica relativos a cada valor de otra. + Grdfico miiltiple: Permite realizar varios graficos de lineas sobre los mismos ejes. © Malla direccionada: Permite realizar un grifico de malla con los puntos conectados indicando la direcci6n tinica de la linea de conexién. © Evaluacién: Permite evaluar y comparar modelos predictivos eligiendo el mejor modelo para su aplicacién. NODOS PARA MODELADO Los nodos de modelado constituyen el corazén del proceso de mineria de datos. Clementine ofrece gran variedad de métodos de modelado asociados con las distintas técnicas de data mining. Dentro de la paleta Modelado, Clementine dispone de los nodos que se muestran en las Figuras 2-56, 2-37 y 2-58. (© ITESParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 39 frbol (8R —-Bietapica A priori Reg, logistics Figura 2-56 Figura 2-57 Figura 2-58 La paleta Modelado contiene los siguientes nodos: Entrenar red: Permite crear y entrenar una red neuronal (perceptrén multicapa). Crear C5.0: Permite construir arboles de decision y conjunto de reglas utilizando elalgoritmo C5.0. Entrenar Kohonen; Permite crear y entrenar redes neuronales de Kohonen, que suelen usarse para crear clusters cuando no se conoce el niimero inicial de grupos. Regresién lineal: Permite crear y estimar un modelo de regresién lineal simple 0 miiltiple. Regla de induccién generalizada (GRl): Permite descubrir reglas de asociacién en los datos, A priori: Permite descubrir reglas de asociacién en los datos mediante cinco métodos distintos utilizando un esquema sofisticado de indexado para procesos eficientes con grandes conjuntos de datos. Entrenar K-Medias: Permite realizar el método K-Medias de andlisis cluster. Regresion logistica: Permite crear y ajustar modelos de regresién logistica con la finalidad de clasificar registros. Factor/PCA: Permite ejecutar técnicas de reduccién de la dimensién como el andlisis factorial y las componentes principales. Cluster Bietdpico: Permite realizar anilisis cluster por el método de las dos fases, que suele utilizarse cuando se mezclan variables cualitativas y cuantitativas. Arboles de clasificacién y regresién (Sequence): Permite construir arboles de decision para clasificacién y regresion (C&R) con la finalidad de predecir. © ITES-Paraninto40 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. NODOS DE SALIDA Los nodos de salida permiten obtener informacién acerca de los datos y modelos mediante la presentacién de tablas, anilisis de modelos, estadisticas, exportacién de datos, ete. Dentro de la paleta salida, Clementine dispone de los nodos que se muestran en las Figuras 2-59, 2-60, 2-61 y 2-62. Jef, globalee —frchivo | Export, SPSS Calidad Informe Salida ODBC | Proceso SPSS. Excel Aattivte ‘ “ a Figura 2-59 Figura 2-60 Figura 2-61 Figura 2-62 La paleta Salida contiene los siguientes nodos: * Tabla: Permite crear una tabla con los datos de un analisis para mostrarlos 0 guardarlos en un fichero. © Matriz: Permite crear una tabla que muestra las relaciones entre dos campos. * Andlisis: Permite analizar, evaluar y comparat modelos predictivos. © Def. globales: Permite computar estadisticos de campos para usar en expresiones. * Informe: Permite obtener informes con formato de texto fijo y expresiones. © Archivo: Permite escribir datos en un archivo * Salida ODBC: Permite escribir datos en origenes de datos ODBC. * Export SPSS: Permite exportar datos a formato SPSS. * Proceso SPSS: Permite llamar a un procedimiento SPSS para analizar datos. © Calidad: Permite comprobar el ajuste de los datos. © Excel: Permite exportar datos a formato Excel. © Export SAS: Permite exportar datos a formato SAS. © Publisher: Permite exportar cadenas de Clementine a aplicaciones externas. (© ITESParaninfoCAPITULO 3 ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER INTRODUCCION A SAS ENTERPRISE MINER SAG Institute implementa la mineria de datos en el software Enterprise Miner que ser utilizado en este libro, y en otros procedimientos y médulos (STAT, ..) que también se utilizaran a lo largo del texto, SAS Institute define el creas de Data Mining como el proceso de Seleccionar (Selecting), Explorar (Exploring), Modificar (Modifying), Modelizar (Modeling) y Valorar (Assessment) grandes cantidades de datos con el objetivo de descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores. Este proceso es resumido con las siglas SEMMA que constituyen las iniciales de las 5 fases de las que consta el proceso de Data Mining segin SAS Institute. Cada una de estas fases lleva asociados diferentes nodos, tal y como se indica a continuacién: "Fase de Seleccién (Selecting): \leva asociados los nodos Fuente de Datos (Input Data Source), Muestreo (Sampling), Particién de Datos (Data Partition) y Series Temporales (Time series), Ver la Figura 3-1. Sample Input Data Source Sampling Data Pattiton Figura 3-1 = Fase de Exploracién (Explore): \leva asociados los nodos Explorador de distribuciones (Disiribution Explorer); Graficos (Multiplot); Analisis ivariante (Insight); Asociacién (Association); Seleccién de Variables (Variable Selection), Anilisis de Uniones (Link Analysis). Ver la Figura 3-2.42 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Explore ld. Distribution Explorer E Mutiplet Insight Text Miner & Association Vaiable Selection Link Analysis Figura 3-2 Fase de Modificacién (Modif): Definicién de variables (Data Set Attributes); Transformacién de Variables (Transform Variables); Tratamiento de Valores Extremos (Filter Outliers); Reemplazo de valores perdidos (Replacement); Clasificacion (Clustering); Redes Neuronales autoorganizadas (SOM/Kohonen), Agrupacién interactiva (Interactive Grouping) y Series Temporales (Time Series). Ver la Figura 3-3 Fase de Modelizacién (Model): Regresién (Regression); Arboles de Decision (Tree); Redes Neuronales Artificiales (Neural Network); Redes Neuronales y/o Analisis de Componentes Principales (Princomp/Dmneural), Modelo Definido por el Usuario (User Defined Model); Unién de Modelos (Ensemble), Razonamiento basado en memoria (Memory Based Reasoning) y Modelos en dos Etapas (Two Stage Model). Ver la Figura 3-4. MO iver Sige hack Figura 3-4 © (TES ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 43 = Fase de Valoracién (Assess): Valoracin (Assessment) e Informes (Reporter). Ver la Figura 3-5. fawvir Figura 3-5 Comenzando con SAS Enterprise Miner Para acceder a Enterprise Miner basta con escribir miner en la caja de comandos de SAS Explorer (Figura 3-6) ‘Archivo Ediion Ver Heramientas Ejectar Solucones Yerkans Ayuda _y [ner lOc B\SQ\+ >a Mae *xOe Figura 3-6 También se puede acceder a Enterprise Miner desde la barra de menus de SAS seleccionando Soluciones — Andlisis + Enterprise Miner (Figura 3-7). wrancby aera iemei , se de orca ose en Iran de res Salen do cbs teenager de esters By outet- (in tus) | Elleg- tin teva) 2 Favor - 5m wot S| Seinen adore Loh aL Figura 3-7 © ITES-Paraninto44 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Por ambos caminos se llega a la ventana de Enterprise Miner, en la que se distingue la zona de trabajo, la barra de herramientas y el navegador del proyecto con las pestaiias para diagramas, herramientas e informes (Figura 3-8). SAS Enterprise Miner - Cesar [] sap-(Bs| 6 2 Cesar Barta de herramientas: Beg United lavegattor del proyect’> | Figura 3-8 La pestana de diagramas (Diagrams) del navegador de proyectos permite seleccionar los proyectos y diagramas abiertos. La pestafia herramientas (Tools) despliega el conjunto de tareas que pueden ser realizadas por Enterprise Miner (Figura 3-9). La pestafia de informes (Reports) contiene los informes generados que suelen ser creados a través del nodo de informes (Reporter node) de Enterprise Miner. Mediante la pestaiia Tools nos situamos sobre el conjunto de herramientas de andlisis para el Data Mining. Las entradas principales de este meni (Input Data Source, Sampling, ete.) son los nodos que contienen las diferentes herramientas de Daia Mining. Les nodos son los elementos basicos de los que constan todos los andlisis de Enterprise Miner asi como todo el trabajo que comprende el ciclo de Data Mining. Todos los procesos girarin por tanto en torno al uso de los mismos. Mas adelante describiremos las utilidades particulares de cada uno de ellos. © (TES ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 45 Sample Input Data Source Sampling ES Data Patition Explore Mik. Distribution Explorer E Mutitot Insight Text Miner "> Association Variable Selection Link Analysis Modiy Data Set Attributes: Transform Variables shh Filter Qutiers [Replacement Clustering fH SoMAKohonen Q Time Series @ Interactive Gioupng Model Lz Regression &R Tree > Neural Network, > Princomp/ Dmneural User Defined Model Ensemble [5] Memory Based Reasoning Two Stage Model Assess 89K Atosemont ‘#e Reporter (BY Scoring Mi Diagrams Tools | Reports Figura 3-9 En la zona de trabajo de la Figura 3-8 se llevan a cabo todas las tareas del proceso de Data Mining. Es aqui donde se procesan los datos, se ejecutan los modelos y se valoran los resultados. Este proceso se lleva a cabo mediante diagramas de flujos. Un diagrama de flujos no es mas que la conexién ordenada de todos los nodos que forman un problema de Data Mining. © ITES-Paraninfo46 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. La barra de herramientas (Figura 3-10) contiene el subconjunto de tareas de Enterprise Miner que son frecuentemente utilizadas por el usuario. El programa permite afiadir 0 borrar los iconos de los nodos de la barra de herramientas segiin sus preferencias. Origenes de datos de entrada Muestreo Particién de datos Seleceién de variables Asociacién Cluster Regresion Arbol de decision Red neuronal ‘Valoracion Predicein Cédigo SAS Ainformes o-[Bs| 8 EME eel [Ra Figura 3-10 EA Para afiadir un elemento a la barra de herramientas, seleccione el icono en la zona de herramientas del navegador del proyecto y arrastre hasta la barra. Para eliminar un elemento que no es usado, seleccione con el botén derecho del ratén la tarea y elija Remove from tool bar. Los nodos que forman la barra de herramientas pueden ser afladidos a la zona de trabajo sin necesidad de la barra de aplicaciones principalmente de tres maneras: = Pulsar y arrastrar el nodo a la zona de trabajo desde la barra de herramientas. = Pulsar y arrastrar el nodo a la zona de trabajo desde el conjunto de herramientas de andlisis de SAS Enterprise Miner. = Pulsar con el botén derecho sobre la zona de trabajo y seleccionar Add Node desde donde se desplegard una ventana para abrir el nodo. El nodo puede ser posteriormente abierto bien haciendo doble clic con el botén izquierdo, bien realizando la seleccidn con el boton derecho del ratén pulsando a continuacién Open. © (TES ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 47, Inicio de un proyecto nuevo En SAS Enterprise Miner el proyecto es el documento en el que se guardan la informacién, los datos, los diagramas y los resultados de un andlisis determinado. Los proyectos estin por tanto asociados a distintos problemas de Data Mining normalmente por corresponderse con distintas bases de datos. No existe restriceién al numero de proyectos y Enterprise Miner permite hasta 100.000 diagramas por proyecto. Los proyectos se guardan con extensién *.dmp mientras que los diagramas tienen extensién *dimd. Para iniciar un nuevo proyecto, desde el meni principal seleccionar File > New — Project (Figura 3-11). Esta accién abre la ventana Create new project (Figura 3-12), En esta ventana es necesario especificar el nombre del proyecto y la localizacién del mismo. Una vez realizadas ambas opciones seleccionamos create. El proyecto se crea junto a un diagrama, que por defecto se Hamard untitled hasta que le sea asignado un nuevo nombre al guardarlo (Figura 3-13). Una vez que el proyecto esta creado el siguiente paso es realizar un andlisis siguiendo las fases de Data Mining: seleccién, exploracién, modificacién, modelizacién y valoracién de resultados. Btu enna Pant Set, Delete curren profct Che project Eat Entec Miner Figura 3-11 pane Nane: 7 F Client/server project Location: [Ce\LiBROS\WININGT\DATOS\PT Browse. Figura 3-12 © ITES-Paraninfo48 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Figura 3-13 Meni principal de SAS Enterprise Miner Enterprise Miner contiene un meni que permite seleccionar y ejecutar tareas comunes. Este menii (parte superior de la Figura 3-13) presenta las opeiones File, Edit, View, Options, Actions y Help cuyas subopciones y finalidades se estudiaran a continuacién, La opeién File (Figura 3-11) presenta las subopciones siguientes: New — Proje diagramas. > erea un nuevo proyecto al que se pueden asociar multitud de New — Diagram: crea un nuevo diagrama, Para eliminar el bloqueo de un diagrama es necesario eliminar el archivo con extension *./ck asociado al diagrama. Open: abre un diagrama nuevo o existente dentro del proyecto en uso. Esta tarea también puede ser ejecutada con el icono ©. © (TES ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 49 Save Diagram: guarda el diagrama que esté siendo utilizado dentro del proyecto. Esta tarea también puede ser ejecutada con el icono A, Save Diagram as: proyecto. asigna un nombre y guarda el diagrama utilizado dentro del Print Setup: especitica las opciones de impresién. Print: imprime los contenidos de Enterprise Miner. Esta tarea también puede ser ejecutada con el icono Delete current Project: elimina el proyecto activo. Esta accién supone eliminar tambign todos los ficheros que contenga el proyecto. Esta tarea también puede ser ejecutada con el icono % . Close Diagram: guarda y cierra el diagrama seleccionado. Close Project: cierra el proyecto actualmente en uso. Exit Enterprise Miner: termina la sesién con Enterprise Miner volviendo al entorno principal del programa SAS. ion Edit (Figura 3-14) presenta las subopciones siguientes: Pe eee en eet Uae | Cerpetas mas sadas Figura 3-14 © ITES-Paraninfo50 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Copy Diagram to clipboard: permite copiar el grafico de la zona de trabajo para posteriormente ser pegado en un documento de texto 0 para su presentacién en un informe. Esta tarea también puede ser ejeeutada con el icono BB. Undelete: recupera el iltimo nodo borrado. Copy: copia un nodo, diagrama u objeto de la zona de trabajo. Delete: borra ¢l nodo o conexién seleccionada de la zona de trabajo. Clone: clona el nodo seleccionado. La clonacién implica copiar el nodo y pegerlo en la carpeta Custom de la paleta de herramientas, Paste: pega el nodo, objeto o diagrama, Select all: selecciona todos los nodos de la zona de trabajo. Create subdiagram: crea un subdiagrama para agrupar un conjunto de nodos y conexiones seleccionados dentro de un icono nodo subdiagrama. La opcién View (Figura 3-15) presenta las subopciones siguientes: See gery ae Options Actions Help Ventana] Figura 3-15 Messages: muestra una ventana con los mensajes para el diagrama activo. Refresh: actualiza el navegador de proyectos y los diagramas de la zona de trabajo. Up One Level: muestra el nivel inmediatamente més alto del conjunto de sucesivos diagramas. Si no existen subdiagramas en el diagrama considerado, sélo tendremos un Unico diagrama. Si por el contrario existen subdiagramas en el diagrama cn uso, entonees los subdiagramas pueden ser mostrados 0 en su forma agnupada (escondiendo su estructura interna) 0 en su forma expandida (mostrando su estructura interna). El nivel mas alto muestra los subdiagramas en su forma agrupada. © (TES ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 51 Top Level: muestra el diagrama de proceso en su forma mas agrupada y por tanto todos los subdiagramas aparecen agrupados. La opcién Options (Figura 3-15) presenta las subopciones siguientes: SAS - [SAS Enterprise Miner - P1 [Untitled]} rote " CContenidada Ertoeno SAS" Propertss. Figura 3-15 User preferences: abre la ventana de preferencias del usuario (Figura 3-16) que permite especificar distintas opciones al empezar Enterprise Miner. Ademés establece los directorios que se usan por defecto para nuevos proyectos, establece el servidor para proyectos que asi lo requieran y especifica los resultados HTML que se desea sean mostrados cuando se utilice el nodo de resultados (Reporter node). Esta sg : ¢ : ; tarea también puede ser ejecutada con el icono =! . Después de hacer los cambios oportunos es necesario seleccionar OK para que éstos tengan efecto. eco Beeston | Projects | Server profiles When starting Enterprise Miner: “Open the Tost project | worked on @ Open the last diagram I worked on ©Bon't open anything (blank workepace ) Loa and output: F Send node log to SAS Systen loa [Send nede output to AS Systen output [Suppress model assessment after training Interactive graphics: Graphice font: System font Browse... Figura 3-16 Project > Data Projiles: mediante esta opcién el usuario define la informacién sobre los objetivos a alcanzar en el proyecto. © ITES-Paraninto52 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Project -» Properties: muestra las propiedades del proyecto tales como el nombre y tipo, si esté o no compartido, su localizacién (solapa General) asi como las opciones de inicializacién (solapa Initialization de la Figura 3-18), las opciones de servidor (solapa Server), la ruta del Data Warehouse que alimenta los datos (solapa Warehouse de la Figura 3-19) y la lista de usuarios que tienen abierto el proyecto (solapa Users de la Figura 3-20). oe flee icone Figura 3-17 Bess at fal teste Geren sessment Run start-up code when project opened Edit... un exit code when project closed Edit... | Figura 3-19 © (TES ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 53, pe fof fatal Ved) Serra ere Cae People currently using this project: Figura 3-20 Diagram: presenta varias opciones de trabajo con los diagramas (Figura 3-21), xX H|eh/2 4 ser preferences. Broject , onneet te oye tems UF oe ad comet jee |¥ Snal cons Ubrers —_Accesos rect. icorpetasimds MPC iadas Pi fy Properties. Figura 3-21 Diagram — Connect items: sirve para establecer conexiones entre los iconos de los nodos. Diagram — Move items: sirve para mover los iconos de los nodos dentro de la zona de trabajo. Diagram —» Move and Connect: (Opeidn por defecto): permite mover y conectar los iconos de los nodos en la zona de trabajo. Diagram — Large icons: aumenta el tamafto de los iconos en la zona de trabajo. Diagram —> Small icons: (Opcién por defecto): muestra los iconos con un tamafio pequefio dentro de la zona de trabajo © ITES-Paraninfo

Mineria de Datos PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Mineria de Datos PDF

Uploaded by

Copyright:

Available Formats

You might also like