You are on page 1of 644
INCLUY CD-ROM MINERIA De VATOS Te MYA) 4 al tnd l= pt PARANINFO MINERIA DE DATOS JOSE M2, MONTERO LORENZO Gerente Editorial Area Universitaria. Andrés Otero Reguera Editora de Produccién Clara MP de la Fuente Rojo COPYRIGHT ©2007 International __-_~Faservads los derechos para Thomsen Ediciones Paranino SA. Faia" De Gonormidae cor de pesto en el aticuo 270 del Cah go Penal vigente, podran ser casti- gados con penas de multaypivae én do ibertad culonee roprod jeren o plagiaren, en todo o en parte, una obra Wrara, aitistsao centitica fijada en cualquier tipo de soporte an la preceptva auto. reacn, Ninguna parte, do. esta pubieacon, rou el Siero de Fr cuir, puede eer reproduch iso svo-cearso4oe Soreness arama os Depésito legal : M-25.036-2008 dio, sea éste electrénico, quimico, mecénico, electro-ptico, graba- on, Totcoopls 0 cualquier oto, (051/84/PO} sin la previa autorizacion escrita por parte de i Editor Magallanes 25; 28015 Madrid, ESPANA Teléfono: 902'995 240 Fax: 914 458 218 clientes@paraninfo.es vnww.paraninto.es Impreso en Espaia Printed in Spain Diseno de cubierta: Montytexto Impresién: Closas Orcoyen,S.L. Polig. Igarsa Navos 21, 22, 23, y 24 Paracuellos de jarama (Madrid). Introduccion .. Capitulo I. Mineria de datos: Conceptos, técnicas y sistemas Aproximacién al concepto de mineria de datos El proceso de extraccién del conocimiento.. Técnicas de mineria de datos... Sistemas de mineria de datos .. Capitulo 2. Entorno de trabajo de SPSS Clementine... Introduccion a Clementine ... Usando el ratén.... Ayuda en Clementine Panel de control en Clementine Ejemplo de trabajo con Clementine Insertar un nodo fuente (origen) de datos en el area de trabajo. Enlazar un nodo con una fuente de datos Controlar la carga de datos con el nodo Tabla. Definir variables predictoras con el nodo Tipo Utilizar un nodo de modelado..... Ejecutar una ruta....... Interpretar un modelo Predecir con un modelo Guardar un modelo Nodos de origenes de datos Nodos de operaciones con registros..... XVIT VIIl_MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Nodos de operaciones con campos... Nodos para graficos Nodos para modelado.. Nodos de salida .. Capitulo 3. Entorno de trabajo de SAS Enterprise Miner. Introduccién a SAS Enterprise Miner Comenzando con SAS Enterprise Miner. Inicio de un proyecto nuevo... Meni principal de SAS Enterprise Miner .. Ejemplo de trabajo con SAS Enterprise Miner Leer ficheros y enlazarlos con Enterprise Miner mediante el nodo Input Data Source . Definir tipos de variables con el nodo Input Data Source . Enlace de nodos de un diagrama. El nodo Data Partition .. Utilizar un nodo de modelado.... Capitulo 4. Fase de seleccién en mineria de datos. Seleccién en el proceso de extraccidn del conocimiento .. Recopilacidn e integracién de datos: Data Warehouse Daia Warehouse y Data Mining . Seleccién de datos mediante muestreo Muestreo aleatorio simple... Muestrco estratificado ...........4. Muestreo sistematico. - Muestreo unietapico de conglomerados Muestreo bietdpico de conglomerados Muestreo polietdpico de conglomerado Disefios complejos: Bietapico con estratificacidn en primera etapa Seleceién de mimeros aleatorios: Método de Montecarlo... Seleceién de caracteristicas relevantes Analisis de correlaciones .. Capitulo 5. Fase de seleccién en SAS Enterprise Miner y SPSS Clementine... La fase de seleccién en Enterprise Miner. El nodo Fuente de Datos . El nodo Muestreo El nodo de Particién de Datos .. El nodo de Seleccién de Variables El nodo de Series Temporales...... iia 36 37 38 40 41 41 43 47 48 58 58 63 65 67 73 B ” Fe 78 82 85 ol 95 99 101 101 102 104 105 109 109 109 17 122 125 129 INDICE IK La fase de seleccién en SPSS Clementine. 139 Importacién de datos ASCII 140 Importacién de datos de una fuente ODBC (Access, Excel, etc.) « 140 Importacién de datos de SP: 143 Importacién de datos de SAS 145 Seleccidn de datos . 148 Muestreo de datos .. 149 Capitulo 6. Fase de seteccién en SPSS Muestras Complejas y SAS Base. 151 Técnicas de muestreo a través de SPSS 151 Disefios complejos y el asistente de muestreo. Creacién de un nuevo plan de MUCSt¥e0......ssueenesntenaemenenen — 152 Asistente de muestreo: modificar un plan existente ....c.s0e00 161 Asistente de muestreo: ejecutar un plan de muestreo dado... 164 Preparacion de una muestra compleja para su andlisis: Creacién de un nuevo plan de andlisis 164 Preparacién de una muestra compleja para su andlisis 168 Calculos en muestras complejas: Frecuencias, descriptivos, tablas de contingencia y razones 168 Seleccién de casos en SPSS 174 Seleccion de casos mediante criterios condicionales 174 Selecci6n de fechas, horas y filas 175 Seleccién de una muestra aleatoria. 175 Semilla de aleatorizacién. 176 Operadores para la seleccién en SPSS 176 Operadores aritméticos...... 176 Operadores relacionales .. 17 Operadores logicos... 177 Funciones de generacién de numeros aleatorios en SPS: 177 Seleccién de la informacién en SAS Base ... 180 Declarando valores perdidos con la sentencia MISSING 180 Seleccionando informacién por grupos: sentencia BY ... 180 Seleccionando variables de frecuencias: sentencia FREQ 182 Seleccionando variables de pesos: sentencia WEIGTH 183 Seleccionando variables de identificacién: Sentencia ID 184 Operadores para la seleccién en SAS. 184 Operadores aritméticos. 185 Operadores de comparacién . 185 Operadores logicos 0 booleanos 186 Operadores MIN, MAX y concatenacién 187 Orden de evaluacién de los operadores en las expresiones 188 Funciones de generacién de miimeros aleatorios en SAS. 189 Calculos con funciones en SAS. 191 X__MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Capitulo 7. Fase de exploracién en mineria de datos...... Exploracién en el proceso de extraccién del conocimiento . Anilisis exploratorio Herramientas de exploracién visual Histograma de frecuencia Diagrama de tallo y hojas Grafico de caja y bigotes Grafico multiple de caja y bigotes Grafico de simetria Gréfico de dispe " : Graficos para variables cualitativas.. Herramientas de exploracién formal...... . Contrastes de la bondad de ajuste a una distribucidn: Test de la Chi-cuadrado Contraste de Kolmogorov-Smirnov Lilliefors de la bondad de ajuste auna distribueion Estadisticos robustos de centralizacién Estadisticos robustos de dispersién ... Estadisticos robustos de asimetria y curtosi Contrastes de aleatoriedad. Transformaciones de las variables... Supuestos subyacentes en las técnicas de mineria de datos . Normalidad .. Heteroscedasticidad Multicolinealidad. Autocorrelacién Linealidad Un ejemplo. n. Capitulo 8. Fase de exploracion en SAS Enterprise Miner y SPSS Clementine. La fase de exploracién en Enterprise Miner El nodo Explorador de distribuciones.. El nodo Multigraficos. El nodo de exploracién de parron La fase de exploracién en SPSS Clementine. El nodo Grafico El nodo Distribucién El nodo Histograma El nodo Malla El nodo Malla Direccional, El nodo Grdfico Miiltiple ... El nodo Recoleciar ... 193 193 194 194, 195 196 198 199 201 203 205 207 208 209 21 212 214 216 220 221 221 225 227 227 228 230 239 239: 239 243 250 266 267 270 271 273 274 275 276 INDICE XI Capitulo 9. Fase de exploracién en SPSS y SAS... 277 Analisis exploratorio de datos can SPSS. Procedimiento Explorar. 217 Graficos de andlisis exploratorio con SPSS 282 Tipos de graficos 282 Histogramas.. 283 Graficos de normalidas 283 Graficos de caja y bigotes 286 Graficos de dispersion 288 Graficos interactives dindmicos de anélisis exploratorio con SPSS. 290 Creacién interactiva de gréficos a partir de tablas... 297 Graficos interactivos de caja y bigotes.. 298 Histogramas interactivos ... 299 Diagramas interactivos de dispersién 301 Analisis exploratorio formal con SPSS 303 Contraste de aleatoriedad. Procedimiento Prueba de rachas .... 303 Contraste de ajuste a una distribucién de frecuencias. Procedimiento Prueba de Kolmogorov-Smirnov 304 isis exploratorio de los datos con SAS Base. Procedimiento Univariate . 305 Graficos de and exploratorio con SAS... 318 GrAficos exploratorios de alta resolucién. Procedimiento GCHART. 318 Graficos exploratorios de mapas: Procedimiento GMAP 322 Graficos exploratorios de caja y bigotes: Procedimiento BOXPLOT .. 328 Capitulo 10. Fases de limpieca y transformacién de datos.... 333 Limpieza y transformacién de datos en el proceso de extraccién del conocimiento....... 333 Valores atipicos (Outliers) 333 Informacién faltante (Datos missing) . sun 337 Soluciones para los datos ausentes: Supresion de datos e imputacion de informacion faltante... 343 Transformacién de datos 346 Transponer, fusionar, agregar, segmentar y ordenar atchivos 346 Ponderar casos y caiegorizar y numerizar variables. 347 Pareamiento 0 matching . 348 Transformacién de datos mediante técnicas de reduccion de la dimensién..... 349 Componentes principal 350 Analisis factorial 357 Xil__ MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Capitulo 11. Las fases de limpieza y transformacién de datos en SAS Enterprise Miner y SPSS Clementine... Las fases de limpieza y transformacién de datos en Enterprise Miner . El nodo Transformacién de variables .. El nodo Asignacién de atributos Tratamiento de los datos atfpicos con el nodo Filtro de Outliers El nodo Imputacién de datos missing... El nodo Exploracién de patrones para Componentes Principales sa fases de limpieza y transformacién de datos en Clementine .. El nodo Seleccionar........ i El nodo Muestra para procesos de muestre: El nodo Combinar para procesos de maiching... El nodo Equilibrar.c...0.. El nodo Ordenar.... nee . . El nodo Agregar para calcular estadisticos por subgrupos ... El nodo Distinguir El nodo Anadir para concatenacion de archivos ... El nodo Filtrar El nodo Derivar para transformacién de variables... EI nodo Tipo para asignar atributos a variabl EI nodo Rellenar para imputacién de datos missing .. El nodo Factor/PCA para Anilisis Factorial y Componentes Principale: Capitulo 12. Fases de limpieza y transformacién de datos en SPSS y SAS. Téenicas de reduccién de la dimensién en SPSS Base. Componentes principales con SPSS Analisis factorial con SPSS. Transformacién de datos en SPSS Base Transformacién de valores de datos Remodificacién de variables Ordenar ©8808 ..ussssissnsesnstosssstnit sisi ‘Transponer, fusionar, agregar y segmentar archivos. Marching . Ponderar cast Categorizar variables: Categorizador Asignar rangos a casos y tipificar variables SPSS y el analisis de datos missing. Imputacién Reemplazar valores perdidos.... Deteccidn de valores atipicos en SPSS . Deteccidn de casos atipicos mediante grificos de control... Deteccién de casos atipicos mediante grificos de caja y bigotes. Técnicas de reduccién de la dimensién en SAS STAT c sual 365 365 365 371 378 384 393 400 402 404 405 407 408 409 411 4il 412 413 415 416 417 427 427 428 439 AAT 447 449 451 451 458 459 462 463 469 470 470 472 475 INDICE xm Componentes principales en SAS. Procedimiento PRINCOMP y Procedimiento FACTOR 475 Anilisis factorial en SAS. Procedimiento FACTOR 482 Transformacién de datos en SAS Bas 487 Operaciones con ficheros: Coneatenacién y Matching 487 Actualizando ficheros de datos SAS .. 489 Ajiadir informacion. Procedimiento APPEND. 491 Tipificacion de datos: Procedimiento STANDARD. 494 Capitulo 13. Fase de mineria de datos. Técnicas predictivas de modelizacién .. 497 Técnicas de mineria de datos propiamente dichas 497 Técnicas predictivas para la modelizacién.... 498 Modelo de regresion multiple... 504 Estimacién del modelo lineal de tegresién multiple... a 505 Estimaci6n del modelo, contrastes e intervalos de confianza a través del caleulo matricial . 506 Anilisis de la varianza en el modelo de regresion multiple . 507 Predicciones... 510 Analisis de los residuo: Sil a n en el modelo de regresié 512 Modelos de eleccién discreta 513 Modelos de eleccién discreta binaria: regresién logistica binaria . si4 Modelos de eleceién miltiple: Modelo Logit Multinomial . 519 Modelo lineal general de regresion miiltiple (GLM) .. 521 Clasificacion ad hoc: Analisis discriminante . 521 Hipétesis en el modelo dis: $22 Estimacién del modelo dis: 523 Clasificacién mediante el modelo discriminante. 525 Capitulo 14, Técnicas predictivas de modelizacién con SAS Enterprise Miner y SPSS Clementine ssciussnveisvinssensses 529 Técnicas predictivas de modelizacién con SAS Enterprise Miner. nr) El nodo Regression: Modelo de regresién miltiple El nodo Regression: Modelo lineal general GLM El nodo Regression: Modelo de cleceién discreta Logit as predictivas de modelizacién con SPSS Clementi El nodo Regresién Lineal: Modelo de regresién miiltiple. El nodo Regresién Logistica: Modelos de eleccién discreta .. XIV MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Capitulo 15. Técnicas predictivas de modelizacién con SAS y SPSS... El modelo lineal general con SAS. Procedimiento GLM. Modelos del an: de la varianza y la covarianza con SA‘ Modelo de eleccién discreta en SAS......... Modelo Logit: Procedimiento LOGISTIC Modelo Probit: Procedimiento PROBIT . SAS y el anilisis discriminante: Procedimiento DISCRIM El modelo lineal general con SPSS. Procedimienio MLG Multivariante Modelo de eleccién discreta en SPSS Modelo Logit: Procedimiento LOGISTICA MU Modelo Probit: Procedimiento PROBIT ... SPSS y el analisis discriminante..... TINOMIAL. Capitulo 16. Técnicas descriptiva: Clusters y drbotes de decision ‘predictivas de clasificacion, El anilisis cluster como técnica descriptiva de clasificacion....... Medidas de similitud Técnicas en el analisis cluster. Clusters jerarquicos, secuenciales, aglomerativos y exclusivos (S.A.H.N.) El dendograma en el andlisis cluster jerarquico .. Analisis cluster no jerdrquico .. Los arboles de decisién como técnica predictiva de clasificacién Caracteristicas de los arboles de decisién ... Herramientas para el trabajo con arboles de decision Arboles CHAID. Arboles CART Arboles QUEST Analisis de conglomerados y arboles de deci de segmentacién..... n como métodos Capitulo 17. Clusters y drboles de decision con SAS Enterprise Miner y SPSS Clementine... Anilisis cluster con Enterprise Miner. El nodo Clustering... Arboles de decisién con Enterprise Miner. El nodo Tree Entrenamiento interactivo (/nteractive Training) Analisis cluster con SPSS Clementin El nodo Entrenar K-medias: Cluster no jerarquico. El nodo Cluster Bietdpico: Cluster jerarquico Arboles de decision con SPSS Clementine. El nodo Crear C5.0.... El nodo Arbol C&R 565 565 S71 574 574 579 581 585 593 593 599 601 609 609 610 614 616 617 617 621 622 626 627 628 630 631 633 633 641 652 656 656 661 662 662 664 INDICE xv Capitulo 18. Clusters y drboles de decision con SAS y SPSS occ 665 SPSS y el anilisis cluster jerirquic 665 SPSS y el anilisis cluster no jerarquico 671 SAS y elanilisis cluster jerdrquico 675 Procedimiento ACECLU: 675 Procedimiento CLUSTER... 677 Procedimiento TREE. 678 SAS y el anélisis cluster no jerdrquic 681 Atboles de decisién (0 clasificacién) con SPSS.. 687 Creacién de un Arbol de decisién: Método CHAID sei . 689 Métodos CRT y QUEST. Poda de Atb0leS .ucssccsssssnseisessnstinene 695 Capitulo 19. Redes neuronales. 699 Deseripcién de una red neuronal..... 699 Definicién i m 699 Funcién de salida y funciones de transferencia 0 701 Redes neuronales y ajuste de modelos de regresién. 703 Aprendizaje en las redes neuronales 704 Funcionamiento de una red neuronal .. 707 Elalgoritmo de aprendizaje Retropropagacion (Back-Propagation).. 708 dilisis discriminante a través del Perceptrér 709 de series temporales mediante redes neuron 713 Analisis de componentes principales con redes neuronales nS Clustering mediante redes neuronales.. NI Capitulo 20, Redes neuronales con SAS Enterprise Miner PY SPSS ClMEntine oe ssooeoesvesosre Le CEA SE 720 Redes neuronales con SAS Enterprise Miner. “ Optimizacién y ajuste de modelos con redes: Nodo Neural fetwork Anilisis en componentes principales a través de redes neuronales: Nodo Princomp/Dmneural . Prediceién y andlisis discriminante a trav Nodo Two Stage Model Anilisis cluster con redes neuronales: Nodo SOM/Kohonen .. Redes neuronales con SPSS Clementine 765 745, 's de redes neuronales: Nodo Entrenar red... 165 Nodo Entrenar Kohonen 769 Nodo Entrenar K-medias mm indice alfabético ... 775 NTRODUCCION Este libro presenta las técnicas més habituales utilizadas en minerfa de datos de una forma sencilla y ficil de entender a través de las soluciones de software mas comunes de enire las existentes en el mercado. Se persigue como finalidad inicial clarificar las aplicaciones relativas a métodos tradicionalmente calificados como. dificiles u opacos. Se busca presentar las aplicaciones en la mineria de datos sin necesidad de manejar desarrollos matematicos elevados ni algoritmos tedricos complicados, que es la razén més comin de las dificultades en la comprensién y aplicacién de esta materia, Hoy en dia se utiliza la minerfa de datos en diferentes campos de la ciencia, Cabe destacar las aplicaciones financieras y en banca, en analisis de mercados y comercio, en seguros y salud privada, en educacién, en procesos industriales, en medicina, en biologia y bioingenieria, en telecomunicaciones y en muchas otras reas. Lo esencial para empezar a trabajar en mineria de datos, sea cual sea el campo en que se aplique, es la comprensién de los propies conceptos, tarea que no exige ni mucho menos el dominio de aparato cientifico que conlleva la materia. Posteriormente, cuando ya sea necesaria la operatoria avanzada, los programas de ordenador permiten obtener los resultados sin necesidad de descifrar el desarrollo matematico de los algoritmos que estin debajo de los procedimientos. En este libro se describen los conceptos de mineria de datos de la forma mas sencilla posible, de modo que sean inteligibles por lectores con formacién diversa Los capitulos comienzan describiendo las técnicas en lenguaje ascquible y presentando a continuacién la forma de tratarlas mediante aplicaciones practicas. Una parte importante de cada capitulo son casos practicos totalmente resueltos, ineluyendo la interpretacién de los resultados, que precisamente es lo més importante en cualquier materia con la que se trabaje. XVIII MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS El libro comienza con una introduccién a la mineria de datos y sus fases. En sucesivos capitulos se desarrollan las fases iniciales (seleccién de la informacisn, exploracién de datos, limpieza de datos, transformacién de datos, etc.). Posteriormente se profundiza en técnicas especificas de mineria de datos, tanto predictivas como descriptivas. Entre las técnicas predietivas se abordan todo tipo de modelos de regresién, anilisis discriminante, Arboles de decisién, redes neuronales y ottas técnicas basadas en modelos. Entre las técnicas descriptivas se contemplan las técnicas de reduccién de la dimension, las técnicas de clasificacién y segmentacién (clustering) y las técnicas de anilisis exploratorio de datos. Los entornos de trabajo automatizados especificos de mineria de datos que se utilizan en el libro son SAS Enterprise Miner y SPSS Clementine. Adicionalmente se utilizan determinados procedimientos de SPSS y SAS que realizan tareas de mineria de datos de modo sencillo. El libro va acompafiado de un CD-ROM que contiene los archivos de datos relativos, tanto a todos los ejemplos que ilustran la parte tedrica, como a los ejercicios resueltos. (© ITES-Paraninfo CAPITULO 1 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS APROXIMACION AL CONCEPTO DE MINERIA DE DATOS La mineria de datos puede definirse inicialmente como un proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos. La disponibilidad de grandes volimenes de informacién y el uso generalizado de herramientas informaticas ha transformado el andlisis de datos orientindolo hacia determinadas téenicas especializadas englobadas bajo el nombre de mineria de datos 0 Data Mining. Las técnicas de minerfa de datos persiguen el descubrimiento automatico del conocimiento contenido en la informacién almacenada de modo ordenado en grandes bases de datos. Estas ténicas tienen como objetivo descubrir patrones, periiles y tendencias a través del andlisis de los datos utilizando tecnologias de reconocimiento de patrones, redes neuronales, l6gica difusa, algoritmos genéticos y otras técnicas avanzadas de anilisis de datos. No obstante, la mineria de datos es ya un concepto muy evolucionado que necesita ser aproximado conceptualmente por etapas. Inicialmente Ia finalidad de los sistemas de informecién era recopilar informacin sobre una parcela determinada para ayudar en la toma de decisiones. Con la informatizacién de las organizaciones y la aparicién de aplicaciones software operacionales sobre el sistema de informacién, la finalidad principal de los sistemas de informacién es dar soporte a los procesos basivos de la organizacién (ventas, produecién, personal...). Una vez satisfecha la necesidad de tener un soporte informatico para los procesos basicos de la organizacidn (sistemas de informacién para ia gestién), las organizaciones exigen nuevas prestaciones de los sistemas de informacién (sistemas de informacién para la toma de decisiones). 2 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS De esta forma han aparecido diferentes herramientas de negocio para la toma de decisiones (DSS 0 Decision Support Systems) que coexisten: EIS, OLAP, consultas ¢ informes, y las propias herramientas de mineria de datos. Un EIS (Executive Information System) es un sistema de informacion y un conjunto de herramientas asociadas que proporciona a los directivos acceso a la informacién de estado y sus actividades de gestion. Esti espevializado en analizar el estado diario de la organizacién (mediante indicadores clave) para informar rapidamente sobre cambios a los directives. La informacién solicitada suele ser, en gran medida, numérica (ventas semanales, nivel de stocks, balances parciales, etc.) y representada de forma grifica al estilo de las hojas de caleulo. Las herramientas OLAP (On-Line Analyitical Processing) son mas genéricas, funcionan sobre un sistema de informacién (transaccional 0 almacén de datos) y permiten realizar agregaciones y combinaciones de los datos de maneras mucho més complejas y ambiciosas, con objetivos de andlisis mas estratégicos. Las herramientas OLAP estin basadas, generalmente, en sistemas o interfaces multidimensionales, que presentan la informacién de una manera matricial, Las heramientas OLAP proporcionan facilidades para “manejar” y “tansformar” los datos, producen otros “datos” (mas agregados, combinados) y son una gran ayuda para analizar los datos porque producen diferentes vistas de los mismos. Los sistemas de informes 0 consultas avanzadas estan basados, generalmente, en sistemas relacionales u objeto-relacionales y el resultado se presenta de forma tabular. Generalmente estan implementados en bases de datos relacionales. Las herramientas de mineria de datos permiten extraet patrones, tendencias y regularidades para describir y comprender mejor los datos y para predecir comportamientos futuros. La Mineria de Datos analiza los datos y el resto de herramientas citadas anteriormente facilitan el acceso a la informacién para que el anilisis sea mas efectivo, es decir, son instrumentos de apoyo a la mineria de datos No obstante las herramientas anteriormente citadas suelen necesitar de la existencia previa de un almacén de datos (Data Warehouse). El almacén de datos es el sistema de informacién central en todo este proceso. Un almacén de datos es una coleccién de datos orientada a un dominio, integrada, no volatil y variante en el tiempo para ayudar en la toma de decisiones. Un almacén de datos es un conjunto de datos historicos, internos © externos y descriptivos de un contexto o area de estudio, que estan integrados y organizados de tal forma que permiten aplicar eficientemente herramientas para resumir, describir y analizar los datos con el fin de ayudar en la toma de decisiones estratégic: Las fuuentes internas y externas de datos estén separadas. Gran parte de los datos que se incorporan en un almacén de datos provienen de una base de datos transaecional que es el origen de datos interno y cuya informacion es fruto de las transacciones derivadas de la actividad diaria, pero también existen otras fuentes externas de informacion. © ITESParaninfo CAPITULO 1: MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS 3 Existe un sistema especializado para realizar la carga y mantenimiento de un almacén de datos, denominado sistema ETL (Extraction, Transformation, Load). Este sistema se encarga de la lectura de datos transaccionales, de la incorporaeién de datos externos, creacion de claves, integracién de datos, agregaciones, limpieza y transformacién de datos, creacién y mantenimiento de metadatos, planificacién de carga y mantenimiento, indizacién, pruebas de calidad, ete. La Figura 1-1, cuya fuente es Orallo, Quintana y Ramirez (Ineroduccién a la Minevia de datos) ordena los conceptos expuestos en los pirrafos anteriores. Fuentes Honaniontes Interras de consitas ¢ vernes Base de Dates Transatconal a eosent as Almacen *| de Datos Henariertas uae bs ‘ef renamentas 0 Fuentes CJ Minevia de Edemas Dates Figura 1-1 No obstante hay que tener claro que los almacenes de datos no son imprescindibles para hacer exiraccién de conocimiento a partir de los datos. Se puede hacer mineria de datos sobre un simple fichero de datos. Pero las ventajas de organizar un almacén de datos para realizar minerfa de datos se amortizan sobradamente a medio y largo plazo cuando tenemos grandes voltimenes de datos, 0 éstos aumentan con el tiempo, 0 provienen de fuentes heterogéneas o se van a combinar de maneras arbitrarias y no predefinidas. EL PROCESO DE EXTRACCION DEL CONOCIMIENTO Pero la mineria de datos es sélo una etapa del proceso de extraccién de conocimiento a partir de datos (KDD). Este proceso consta de varias fases como la preparacién de datos (seleccién, limpieza, y transformacién), su exploracién y auditorfa, mineria de datos propiamente dicha (desarrollo de modelos y anilisis de datos), evaluacién, difusion y utilizacién de modelos (output). Ademis, el proceso de extraccion del conocimiento incorpora muy diferentes técnicas (drboles de decision, regresién lineal, redes neuronales artificiales, técnicas bayesianas, maquinas de soporte vectorial, etc.) de campos diversos (aprendizaje automatico e inteligencia artificial), estadistica, bases de datos, etc.) y aborda una tipologia variada de problemas (clasificacién, categorizacién, estimacidn/regresi6n, agrupamiento, etc.). La Figura 1-2 muestra las etapas del KDD. © ITES-Pararinfo 4 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS Limpieza Desarrollo Analisis Generacién Base de Datos ¥ de de de ‘Transform, Modelos, Datos Resultados Herramientas | [Herramientas | | Herramientas | [Herramientas ) [Herramientas de Bsiadisticas & de de Consulta yde Lal Visualizacion } [Presemavién } (transformavion Figura 1-2 El KDD comienza con la recopilacién e iniegracién de la informacién a partir de unos datos iniciales de que se dispone (fase de seleccidn de datos). Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer conocimiento valido y itil a partir de la informacién original. Generalmente, la informacién que se quiere investigar sobre un cierto dominio de la organizacién se encuentra en bases de datos (Database) y ottas fuentes muy diversas, tanto internas como extemas (en general la informacion se encuentra ordenada en almacenes de datos). Muchas de estas fuentes son las que se utilizan para el trabajo transaccional, El analisis posterior sera mucho més sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional. Aparte de informacién interna de la organizacién, los almacenes de datos pueden recoger informacién externa, como demografias (censo), piginas amurillas, psicografias (perfiles por zonas), uso de Intemet, informacién de otras organizaciones y bases de datos extemas compradas a otras compaiiias. La disponibilidad de grandes voltimenes de informacion en esta fase nos lleva a la necesidad de usar técnicas de muestreo para la seleccién de datos. La fase siguiente del KDD integra la exploracién, la limpieza o criba de datos (Data Cleaning) y la transformacion de datos. Se deben eliminar el mayor numero posible de datos riGneos © inconsistentes (limpicza) € imelevantes (criba). En esta fase se utilizan herramientas de consulta (Query tools) y herramientas estadisticas (Statistics tools) casi exclusivamente. En la exploracién se usan_técnicas de andlisis exploratorio de datos como los histogramas y los diagramas de caja, tallo y hojas, que ayudan a detectar datos anomalos 0 atipicos (outliers). La presencia de datos atipicos y valores desaparecidos (datos missing) puede levamos a usar algoritmos robustos a datos atipicos y desaparecidos (pj. arboles de decisién), a filtrar la informacién, a reemplazar valores mediante técnicas de imputacién y a transformar datos continuos en discretos mediante técnicas de discretizacion. Entre las técnicas avanzadas de transformacién tenemos las de reducci6n y aumento de la dimensién. © ITESParaninfo CAPITULO 1: MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS 5 La fase siguiente en el KDD es la propia minerfa de datos que se llevar’. a cabo a partir del desarrollo de modelos predictivos y descriptivos (Model Development) y mediante el andlisis de datos (Data Analysis). Una vez recogidos los datos de interés, un explorador puede decidir qué tipo de patron quiere descubrir. El tipo de conocimiento que se desea extraer va a marcar claramente la técnica de mineria de datos a utilizar. Para seleccionar y validar los modelos anteriores es necesaria una nueva fase consistente en el uso de criterios de evaluacién de hipétesis. El despliegue del modelo a veces es trivial pero otras veces requiere un proceso de implementacién o interpretacion En esta fase se utilizan adicionalmente herramientas estadisticas y de visualizaci (Visualization tools) Una fase posterior del KDD es la relativa a la difusién y uso del conocimiento derivado de las técnicas de mineria de datos a través del los modelos correspondientes que habitualmente desembocan en la generacién de resultados (Output Generation). El modelo puede tener muchos usuarios y necesitar difusién, con lo que puede requerir ser expresado de una manera comprensible para ser distribuido en la organizacién, En esta fase se utilizan herramientas de visualizacién (Visualization tools), presentacién (Presentation tools) y transformacién de datos (Data transformation tools). Por lo tanto, observamos en el proceso de extraccién del conocimiento KDD la secuencia de fases siguiente: SELECCION — EXPLORACION — LIMPIEZA + TRANSFORMACION —> MINERIA DE DATOS > EVALUACION > DIFUSION En la fase de seleccién se integran y recopilan los datos, se determinan las fuentes de informacién que pueden ser titiles y dénde conseguirlas, se identifican y seleccionan las variables relevantes en los datos y se aplican las técnicas de muestreo adecuadas. Todo ello se facilita disponiendo de un almacén de datos con a informacién en formato comin y sin inconsistencias. Dado que los datos provienen de diferentes fuentes, es necesaria su exploracién mediante téenicas de analisis exploratorio de datos, buscando entre otras cosa la distribucién de los datos, su simetria y normalidad y las correlaciones existentes en la informacién. A continuacién es necesaria la limpieza de los datos, ya que pueden contener valores atipicos, valores faltantes y valores erréneos. En esta fase se analiza la influencia de los datos atipicos, se imputan los valores faltantes y se eliminan o corrigen los datos incorrectos. A continuacién, si es necesario, se lleva a cabo la iransformacién de los datos, generalmente mediante técnicas de reduccién o aumento de la dimensién y escalado simple y multidimensional, entre otras. Las cuatro primeras fases se suelen englobar bajo el nombre de preparacién de datos. En la fase de mineria de datos, se decide cual es la tarea a realizar (clesificar, agrupar, etc.) y se elige la técnica descriptiva o predictiva que se va a utilizar. En la fase de evaluacién e interpretacién se evaliian los patrones y se analizan por los expertos, y si es necesario se vuelve a las fases anteriores para una nueva iteracion. Finalmente, en la fase de aifiusion se hace uso del nuevo conocimiento y se hace participe de él a todos los posibles usuarios. Entonces, la clasificacién de las fases del proceso de exiraccién del conocimiento podria resumirse en el siguiente esquema: © ITES-Paraninfo 6 — MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS Recopilar e integrar las fuentes de datos existentes SELECCION} Identificar y seleccionar las variables relevantes en los datos [atic Jas técnicas de muestreo adecuadas fc tilizar las téenicas de andlisis exploratorio de datos EXPLORACION} Deducir la distribucién de los datos, simetria y normalidad [aan as correlaciones existentes en la informacién Detectar y tratar la presencia de valores atipicos (outliers) LIMPIEZA} Imputar la informacisn faltanteo valores perdidos (datos missing) Eliminar datos erréneos e irrelevantes | Utilizar técnicas de reduccién y aumento dela dimension TRANSFORMACION | Aplicar técnicas de discretizacién y numerizacién | Retic escalado simple y multidimensional Regresi6n y series temporales Andlists disertminame KD: Métodos bayesianos Utilizar técnicas predictivas i Algoritmos genéticos Arboles de decision Redes neuronales MINERIA DE DATOS: Clustering y Segmentacion Excalamiento Utilizar técnicas deseriptivas) Reglas de asociacién y dependencia Andlisis exploratorio Reduccién de la dimension [Intervatos de confianza Bootstrap Anilisis ROC | Evaluacién de modeles EVALUACION E INTERPRETACK IN DE RESULTADOS. Visualizacién DIFU: (ON ¥ USO DE MODELOS: . Simulacién © ITESParaninfo CAPITULO 1: MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS 7 No obstante, la clasificacién anterior no es la tinica que aparece en la literatura de esta materia. Existen otras interpretaciones del concepto de mineria de datos, en la linea de considerar las fases del proceso de extraccién del conocimiento expresadas previamente como técnicas de mineria de datos. Por ejemplo, SAS Institute define el concepto de Data Mining como el proceso de Seleccionar (Selecting), Explorar (Exploring), Modificar (Modifving), Modelizar (Modeling) Valorar (Assessment) grandes cantidades de datos con el objetivo de descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores. Este proceso es resumido con las siglas SEMMA. La Figura 1-3 ilustra las fases del proceso de mineria de datos segiin SAS Institute. Valoracon Modelizacion| Zero ‘Objetivos x | Modiicacion Nodoles Exploracion — 7 Tranaormados * Datos —_ Procesachs A Datos paros Objetvo Figura 1-3 Se observa la equivalencia entre las componentes del concepio de mineria de daios de SAS Institute y las fases del KDD expuestas anteriormente. La fases de Limpieza y Transformacién en KDD equivalen a la fase de Modificacién en SAS, y la fase de Mineria de Datos eguivale a Modelizacién, Evaluacién y Valoracién pueden considerarse sindnimos. SAS Institute implementa la minerfa de datos en el software Enterprise Miner, que sera utilizado en este libro, y en otros procedimientos y médulos (STAT, ETS....). Por su parte SPSS considera que las seis fases que forman el proceso de la minerfa de datos son: la comprensién del negocio, la comprensién de los datos, la preparacién de los datos, el modelado, la evaluacién y el uso del modelo. SPSS implementa esta filosofia de la minerfa de datos en el software Clemeniine, que ser utilizado en este libro, y en otros procedimientos y médulos (Answer Tree, Neural Connection... © ITES-Paraninfo 8 — MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS TECNICAS DE MINERIA DE DATO: La clasificacién inicial de las técnicas de mineria de datos distingue entre técnicas predictivas, en las que las variables pueden clasificarse inicialmente en dependientes e independientes (similares a las técnicas del andlisis de la dependencia 0 metodos explicativos del andlisis multivariante), técnicas descriptivas, en las que todas las variables ticnen inicialmente cl mismo status (similares a las téenicas del andlisis de la interdependencia 0 métodos descriptivos del andlisis maltivariante) y técnii auxiliares. Las técnicas predictivas especifican el modelo para los datos en base a un conocimiento tedrico previo. El modelo supuesto para los datos debe contrastarse después del proceso de mineria de datos antes de acepiarlo como valido. Formalmente, la aplicacién de todo modelo debe superar las fases de identificacién objetiva (a partir de los datos se aplican reglas que permitan identificar el mejor modelo posible que ajuste los datos), estimacién (proceso de calculo de los parimetros del modelo elegido para los datos en la fase de identificacién), diagnosis (proceso de contraste de la validez del modelo estimado) y prediiccién (proceso de utilizacién del modelo identificado, estimado y validado para predecir valores futuros de las variables dependientes). En algunos casos, el modelo se obtiene como mezcla del conecimiento obtenido antes y después del Dara Mining y también debe contrastarse antes de aceptarse como valido. Por ejemplo, las redes neuronales permiten descubrir modelos complejos y afinarlos a medida que progresa la exploracién de los datos. Gracias a su capacidad de aprendizaje, permiten descubrir relaciones complejas entre variables sin ninguna intervencién externa. Podemos incluir entre estas técnicas todos los tipos de regresi6n, series temporales, analisis de la varianza y covarianza, analisis discriminante, arboles de decision, redes neuronales, algoritmos genéticos y técnicas bayesianas. Tanto Jos arboles de decision, como las redes neuronales y el anélisis discriminante son a su vez técnicas de clasificacién que pueden extraer perfiles de comportamiento o clases, siendo el objetivo construir un modelo que permita clasificar cualquier nuevo dato. Los érboles de decisién permiten clasificar los datos en grupos basados en los valores de las variables. El mecanismo de base consiste en elegir un atributo como raiz y desarrollar el arbol segiin las variables mas significativas. En las ‘éenicas descriptivas no se asigna ningin papel predeterminado a las variables. No se supone la existencia de variables dependientes ni independientes_y tampoco se supone la existencia de un modelo previo para los datos. Los modelos se crean automiticamente partiendo del reconocimiento de patrones. En este grupo se incluyen las ténicas de clustering y segmentacién (que tambign son ténicas de clasificacién en cierto modo), las técnicas de asociacién y dependencia, las técnicas de anilisis exploratorio de datos y las técnicas de reduccion de la dimensién (factorial, componentes principales, correspondencias, ete.) y de escalamiento multidimensional © ITESParaninfo CAPITULO 1: MINERIA DE DATOS: CONCEFTOS, TECNICAS Y SISTEMAS Tanto las técnicas predictivas como las técnicas descriptivas estin enfocadas al descubrimiento del conocimiento embebido en los datos. Las fécnicas auxiliares son herramientas de apoyo mas superticiales y limitadas. Se trata de nuevos métodos basados en tenicas estadisticas descriptivas, consultas e informes y enfocados en general hecia la verificacién. A continuacién se muestra una clasificacion de las técnicas de Data Mining. Regresion Anilisis de la Varianza y Covarianza Series temporales Métodos bayesianos Predictivas y 4 eoritmos genéticos Discriminante Clasificacién ad hoc} Arboles de decision Redes neuronales Descubrimiento . ‘histering Técnicas Clasificacién post hoc . jegmentacién Asociacion Descriptivas ) Dependencia Reduccién de la dimensién Anilisis exploratorio | Excalamiento Multidimensional Proceso Analitico de Transacciones (OLAP) Técnicas auxiliares | SOL y herramientas de consulta Verificacién Reporting J Se observa que las récnicas de clasificacién pueden pertenecer tanto al grupo de técnicas predictivas (discriminante, arboles de decisin y redes neuronales) como a las desctiptivas (clustering y segmentacién). Las técnicas de clasificacién predictivas suelen denominarse iécnicas de clasificacién ad hoc ya que clasifican individuos u observaciones dentro de grupos previamente definidos. Las téenicas de clasificacién descriptivas se denominan iéenicas de clasificacién post hoc porque realizan clasificacién sin especificacién previa de los grupos. © ITES-Paraninfo 10 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS En la Figura 1-4 se muestra un diagrama con la clasificacion de las técnicas de mineria de datos, que es clasico en la literatura de esta materia. Figura 1-4 SISTEMAS DE MINERIA DE DATOS La Figura 1-5 muestra los sistemas de mineria de datos mas utilizados en el mercado junto con las técnicas que tratan cada uno de ellos, las plataformas sobre las que trabajan y los interfaces de lectura de datos. Producto Compafia Técnicas Plataforma. Interfaz Knowledge Angoss Arboles de Decisién | Win ODBC Seeker CART. Salford Systems_| Arboles de Decisién_| Win/UNIX Clementine SPSS ‘Amplio abanico WinUNIX ‘ODBC Data Surveyor Data. Amplio abanico UNIX, ODBC Gain Smarts Urban Science | Grificos-Ganancias_| Win/UNIX Intelligent Miner _| IBM ‘Amplio abanico UNIX (AIX) __| IBM, DB2 Micostrategy Micostrategy | Datawarehouse Win Oracle Polyanalyst Megaputer Simbélicas Win Oracle, ODBC Darwin Oracle Amplio abanico Win/UNIX Oracle Enterprise Miner _| SAS Institute ‘Amplio abanico Win/UNIX/Mac SGI MineSet Silicon Graphies | Asociacién y UNIX Oracle, Sybase, Clasificacién Informix WizsoiWizwhy Wizsoft Figura 1-5 © ITESParaninfo CAPITULO 1: MINERIA DE DATOS: CONCEFTOS, TECNICAS Y SISTEMAS 11 Los sistemas de mineria de datos que utilizaremos en este libro son SPSS Clementine y SAS Enterprise Miner. SPSS Clementine es un sistema de mineria de datos que contempla diferentes fuentes de datos (ASCII, Oracle, Informix, Sybase, Ingres, etc.), una interfaz visual sencilla y distintas herramientas de mineria de datos (redes neuronales, Arboles de decisibn, regresisn, series temporales, cluster, ete.), Trabaja bajo los sistemas operativos UNIX y Windows. SAS Enterprise Miner es una herramienta completa que incluye conexién a bases de datos (a través de ODBC y SAS datasets), muestreo ¢ inclusion de variables derivadas, particién de la evaluacién del modelo respecto a conjuntos de entrenamiento, validacin y chequeo, distintas herramientas de minerfa de datos (algoritmos y tipos de Arboles de decision, redes neuronales, regresién y clustering, ete.), comparacién de modelos y conversién de los modelos en cédigo SAS. Dispone de un interfiz grafico muy sencillo e incluye herramientas para flujo de proceso, tratando el proceso KDD como un proceso y las fases se pueden repetir, modificar y grabar. Existen en el mercado otros sistemas que permiten realizar Data Mining a través de bases de datos. Concretamente, las bases de datos Oracle y SQL Server disponen de sistemas de mineria de datos asociados. Oracle dispone de herramientas de “Business Intelligence” y “Data Mining” (niip:/vw.oracle.com/ip/analyze/warehouse/bus_intell/index.himl) que tienen una orientacién mas empresarial y de sistemas de informacion. También dispone de herramientas de OLAP, Datawarehouse ¢ Informes Avanzados. Asimismo, presenta herramientas propias de Mineria de Datos a través del producto Oracle Darwin (iutp:/www.oracle.com/ip/analyze/warehouse/datamining/index. html). Microsoft SOL Server dispone del producto Analysis Services que implementa la mineria de datos. Se fundamenta en el “OLE DB for Data Mining” e implementa una extensién del SQL que trabaja con DMM (Data Mining Model) que permite crear el modelo, entrenarlo y realizar predicciones. La versién SQL Server 2005, en su médulo Analisys Services cuenta con los algoritmos de mineria de datos mas avanzado entre los que se incluyen arbokes de decisién y regresin, series temporales, agrupacién en clisteres, regias de asociacién, algoritmo Naive Bayes y mineria de textos. Dispone de unasistente y diseftador para mineria de datos que permite construir modelos sofisticados a través de una interfaz fieil de usar. Ademds, se proporcionan grificos de elevacién y beneficios, por lo que podré comparar y contrastar la calidad de los modelos antes de dedicarse a le distribucion. Existe una representacién clisica de los sistemas de mineria de dati es Elder Research (www.dataminiglab.com) y que se presenta en la Figura 1-6. tuya fuente © ITES-Paraninfo 12 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS EM pew Date wind { TTT Intelligent re Figura 1-6 (© ITES-Paraninfo CAPITULO 2 ENTORNO DE TRABAJO DE SPSS CLEMENTINE INTRODUCCION A CLEMENTINE SPSS Clementine es una herramienta integrada de mineria de datos que incluye diversas fuentes de datos (ASCII, XLS, ODBC, ete.), un interfaz visual basado en procesosiflujos de datos (streams), distintas herramientas de mineria de datos (correlacion, reglas de asociacién, regresién, segmentacién, clasificacién, redes neuronales, reglas y Arboles de decisién, etc.), manipulacién de datos (pick & mix, muestreo, combinacién y separacién, etc.), combinacién de modelos, visualizacién de datos, exportacién de modelos a distintos lenguajes (C, SPSS, SAS, etc.), exportacién de datos integrada a otros programas (XLS) y generacién de informes. EI entomo del Clementine esta basado en nodos que se van disponiendo y conectando para formar un flujo, o stream, traducido por Clementine también como “ruta”. Los streams pueden alojarse en ficheros separados (str) 0 se pueden organizar en proyectos (.cp/). De hecho, tanto los streams como los proyectos de mineria de datos se almacenan en ficheros separados que se puede cargar, guardar, modificar, reejecutar o reorganizar (Figura 2-1) y que son independientes de las fuentes de datos. Sistema de Data Mining Clementine versii ea ~ Figura 2-1 14 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. En la Figura 2-2 se muestra la pantalla de carga de la ruta druglearn.str. Forvateornesers = Perarear\6-S.doror ranch oe oa Lact Undated by dlawere on O4/Dec/2004 12254 Figura 2-2 En la Figura 2-3 se muestra la ruta driglearn.str con seis nodos interconectados. oe fx] 2. @ s™ duertarCopst ein Figura 2-3 © ITESParaninlo Copyrighted material CAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 15 Como se puede ver en la parte inferior de la Figura 2-3 (Figura 2-4), Clementine presenta varias paletas que clasifican los nodos en seis categorias: © Origene jodos para obtener los datos de trabajo (fuentes de datos). © Oper. con registros: operadores para modificar 0 combinar registros (filas) de distintas fuentes. Es decir, selecciones y combinaciones. * Oper: con campos: operadores para modifiear 0 combinar campos (columnas). © Graficos: graficas, * — Modeladlo: tipos de modelos/patrones que puede generar Clementine * Salida: presentacién de tablas, andlisis de modelos, estadisticas, exportacién de datos. Hier eee Figura 2-4 En la parte superior derecha de la pantalla se encuentra la paleta Modelos generados (Figura 2-5) que muestra los resultados que actualmente se estan elaborando. Bietépico Figura 2-5 © sTES-Paraninfo Copyright 16 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Debajo de la paleta Modelos generados se encuentra el botén Ejecutar, que permite la ejecucién e interrupcién de las tareas definidas en la ruta (stream). Usando el ratén Alguna de la: tres botones. El tercer botén suele utilizarse a menudo para realizar conexiones entre los diferentes nodos de una ruta. Si el raton no tiene el tercer botén, puede emularse su efecto presionando simultineamente los dos botones. operaciones en Clementine se ven facilitadas con un ratén de EI clic simple con los botones izquierdo y derecho del ratén permite seleccionar opciones de mentis o abrir meniis contextuales. El doble clic con el botén izquierdo del ratén permite situar nodos en una ruta y editar nodos existentes. El clic simple con el tercer bot6n del ratén (equivalente al clic simultaneo de los dos botones cuando no existe el tercero) seguido de arrastre, permite conectar nodos en una ruta. El doble clic en el tercer botén permite desconectar nodos. Ayuda en Clementine La opcién Ayuda del menti de Clementine (Figura 2-6) permite varios caminos para acceder a su contenido. La subopcién Contenido permite acceder a toda la ayuda de Clementine por capitulos (Figura 2-7). La subopcién Tutorial da acceso a un tutorial sencillo sobre el programa (Figura 2-8). La subopeién Modo ayuda contextual transforma el cursor del ratén en un interrogante, de modo que al hacer clic sobre cualquier objeto del interfaz de Clementine, aparece la ayuda relativa ese objeto. Por ejemplo, si hacemos clic en Modo Ayuda Contextual sobre el nodo etiquetado Droga C5.0 de la ruta de la Figura 2-3 obtendremos ayuda contextual sobre la construccién de arboles de decisién con el modelo C 5.0 (Figura 2-9). cece anata Figura 2-6 © MES-Paraninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 17 Eee ‘chivo Eebin Mer Favors Hernrintas Arte OO HE O|Kke= Oe 4 S- WOR Ss ss |B) chose prog ans Cleete SV il SE Egb_US\Ceop den fae he = oft Internet Explorer 5 ve a Welcome Welcome tu Clementine, thy data mining toulkit that Combines aavanced modeling technology with ease-of- Use, helping you to discover the interesting ang valuable reatiorsnigs Within your ata You can use Clementine For decision-suppert activities such as + Fring timely answers te crtical business questions + Discovering which factors have the greatest impact ‘on your bottom line | « creatng customer profilas to actiave the highest possitie buy rate + Predicting future trends in sales and growth * Profiling for direct maling responses and credit risk + Pertoming chum prediction, classitication, ana Seginentation These are just a sampling of the many ways that you co use Clementine te extract valuable information ‘rom I Bec li Figura 2-7 Een eee ‘ache Edicion Yor Evorkes orcrvontas Arua ow © AAD k-- 6 8-S s- WO s resin | BV ccs de oormaiCenerne\s Shwoiosenceh_LsiTni entre Welcome to Clementine “This tutorial introduces you to Clementine. 1t will familiarize you with the iclgraentmie esuerface wrcl viet peer oni sepreect ie cate mean Te de ths, iv walts you through the process of using Clamantine to cr Pmowel and draw seme eanelusions spout a data fle, vou may want ta. Fave Clementine runring s9 that you can follaw the staps as you rad. For further information about the concepts ard procedures introduced here, bbe sure to refer t2 your Clementine ser’ Guide and Aetvanced Feacures auie To get started wah tha tutaral, click the right arraw button in the bottom fghtcomer uf this wadew. ®-@--®-—-@ arugin natok Drug om Figura 2-8 © ITES-Paraninto 18 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Eee ee wo scin hr Fortes Leamenas Aye HO scnenton cussion ie Tie necte veas the €5.0 algorithm te bud either = leone to ements b8 | decision troo o> ruleset. & CE. madel wes oy i indecent Dat Winn “pitting the sample based or the field that provides the ‘acimum infermation gain Each subsample Jafined 5y - the fist spit is then salt agai usualy based on a a =|) tferant fel, and the neeeess rapests until ae notes: and nas Subsanpies canret ba spit any turtner. Finally, the FO ise ects loweet Invel spits are reavanined, and those chat co not ie Contribute signifeanty tthe value af the medel se agus Femoved or pruned. FI n.crd opersions Nodes Eco pden twn Uda ai mate -Adedision trae (Baia concanen nates =| isa straightforward cescriation of the splits found by tre Ot snter falgsithe. Each terminal or "lea node descrites ie articula: beet af te train data, and each case in ee the trainng dats balonas ta exactly one ternal rode in (B® ovreuenoser the tree. In other words, exactly one prediction is possible for any particular data fecerd prosented to a Secisen tee, In contract, a ruleset ic zat of ris that thee to mala Figura 2-9 Panel de control de Clementine En el grupo de programas de Clementine aparece Ia utilidad Control Panel (Figura 2-10) que, a través de las opciones que se muestran en la pantalla de la Figura 2-11, nos va a permitir configurar la memoria de uso, situar preferencias de lenguaje y leer y seleccionar actualizaciones relevantes para Clementine que pueden venir dadas en médulos externos. Por defecto las actualizaciones se espera que estén localizadas en el directorio de instalacién de Clementine. Con el botén Buscar se puede elegir cualquier otro subdirectorio en el que estén situadas las actualizaciones. Con el bot6n Actualizar se ejecutan las actualizaciones seleccionadas. @ stattranste7 ®@ cenentnecs | EY @ exces EQ demos: Wb Mat messenger 7.5 Figura 2-10 © MESParaninfo

You might also like