You are on page 1of 644
INCLUY CD-ROM 4 MINERIA DE VATOS TECNICAS Y HERRAMIENTAS PARANINFO MINERIA DE DATOS JOSE M2, MONTERO LORENZO Gerente Editorial Area Universitaria. Andrés Otero Reguera Editora de Produccién Clara MP de la Fuente Rojo COPYRIGHT © 2007 Intemational Fesorvci oe: cevesion. pare Tomson Ediciones Paraninio, SA. gia De oniormidad oon 1 di a puesto en el articulo 270 del Codi- go Penal vigente, podran ser casti- gados oon penas de mula y piva Gin do Iertad cuieres roprodu- jeren o plagiaren, en todo o en pare, una obra Wrara, artistes 0 entifica fijada en cualquier tipo de soporte sin I precepiva auto ‘Baoin, Ninguna parte Jo osta publicacién, incluido el disefio de fe cublera, puede ser reproduct da, almacenada o transmitida de ISBN: 976-64-9732-492-2 ninguna forma, ni por ningun me- Depésito legal : M-25.036-2008 dio, cea éste electrénico, quimico, mecédnico, electro-ptico, graba- Gin, olecopa © cualquier oto, (051/84/PO} sin la previa autorizacion escrita por parte de la Editorial. Magallanes 25; 28015 Madrid, ESPANA Teléfono: 902'995 240 Fax: 914 456 218 clientes@paraninfo.es woww.paraninto.es Impresa en Espafia Printed in Spain Disefio de cubierta: Montytexto Impresién: Closas Orcoyen,S.L. Polig. Igarsa Naves 21, 22, 23, y 24 Paracuellos de jarama (Madrid). Introduccién Capitulo 1. Mineria de datos: Conceptos, técnicas y sistemas... Aproximacién al concepto de mineria de datos .. El proceso de extraccién del conocimiento. Técnicas de mineria de datos. Sistemas de mineria de datos Capitulo 2. Entorno de trabajo de SPSS Clementine. Introduccién a Clementine . Usando el rat6n.. Ayuda en Clementine .. Panel de control en Clementine Ejemplo de trabajo con Clementine Insertar un nodo fuente (origen) de datos en el area de trabajo... Enlazar un nodo con una fuente de datos Controlar la carga de datos con el nodo Tabla Definir variables predictoras con el nodo Tipo Utilizar un nodo de modelado..... Ejecutar una ruta... Interpretar un modelo .. Predecir con un modelo .. Guardar un modelo .. Nodos de origenes de datos Nodos de operaciones con registros . XVIT 13 16 16 18 21 22 23 25 27 29 29 32 34 34 aS 35 VIll_ MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Nodos de operaciones con campos. Nodos para graficos .. Nodos para modelado Nodos de salida .. Capitulo 3. Entorno de trabajo de SAS Enterprise Miner. Introduccién a SAS Enterprise Miner Comenzando con SAS Enterprise Miner. Inicio de un proyecto nuevo... Ment principal de SAS Enterprise Miner. Ejemplo de trabajo con SAS Enterprise Miner . Leer ficheros y enlazarlos con Enterprise Miner mediante el nodo Input Data Source Definir tipos de variables con el nodo Input Data Source Enlace de nodos de un diagrama. El nodo Data Partition Utilizar un nodo de modelado . Capitulo 4. Fase de seleccién en mineria de datos. Seleceién en el proceso de extraccién del conocimiento Recopilacién e integracién de datos: Data Warehouse Data Warehouse y Data Mining Seleccién de datos mediante muestreo . Muestreo aleatorio simple. Muestreo estratificado Muestreo sistemitico.. ae Muestreo unietdpico de conglomerados Muestreo bietipico de conglomerades .. Muestreo polietapico de conglomerados. Diseitos complejos: Bietapico con estratificacién en primera etapa . Seleceién de mimeros aleatorios: Método de Montecarl Seleccién de caracteristicas relevantes... Anilisis de correlaciones.. Capitulo 5. Fase de seleccién en SAS Enterprise Miner y SPSS Clementine... La fase de seleccién en Enterprise Miner.. El nodo Fuente de Datos El nodo Muestreo El nodo de Particién de Datos El nodo de Seleccién de Variables El nodo de Series Temporales .. 36 37 38 40 41 41 43 47 48 58 58 63 65 67 73 B "4 77 2B 82 85 OL 95 a9 101 101 102 104 105 109 109 109 117 122 125 129 INDICE 1K La fase de seleccién en SPSS Clementine... 139 Importacién de datos ASCII. 140 Importacién de datos de una fuente ODBC (Access, Excel, et 140 Importacién de datos de SPSS. 143 Importacién de datos de SAS... 145 Seleccién de datos 148 Muestreo de datos .... 149 Capitulo 6. Fase de seleccién en SPSS Muestras Complejas y SAS Base. 151 Técnicas de muestreo a través de SPSS 151 Disefios complejos y el asistente de muestreo. Creacién de un nuevo plan de muestreo........ 152 Asistente de muestreo: modificar un plan existente 161 Asistente de muestreo: ejecutar un plan de muestreo dado 164 Preparacién de una muestra compleja para su anilisis: Creacién de un nuevo plan de anilisis .... 164 Preparacién de una muestra compleja para su a 168 Calculos en muestras complejas: Frecuencias, descriptivos, tablas de contingencia y razones 168 Seleccién de casos en SPSS 174 Seleccién de casos mediante criterios condicionales .. 174 Seleccion de fechas, horas y fik 175 Seleccién de una muestra aleatoria. 175, Semilla de aleatorizacion. 176 Operadores para la seleccién en SPSS 176 Operadores aritméticos. 176 Operadores relacionales .. 177 Operadores logicos... 177 Funciones de generacin de mimeros aleatorios en SPS: 177 Seleccién de la informacién en SAS Base ... 180 Declarando valores perdidos con la sentencia MISSING 180 Seleccionando informacién por grupos: sentencia BY .. 180 Seleccionando variables de frecuencias: sentencia FREQ 182 Seleccionando variables de pesos: sentencia WEIGTH .. 183 Seleccionando variables de identificacién: Sentencia ID. 184 Operadores para la selei 184 Operadores aritmétic 185 Operadores de comparacién .. 185 Operadores légicos 0 booleanos.. 186 Operadores MIN, MAX y coneatenacién 187 Orden de evaluacién de los operadores en las expresiones 188 Funciones de generacin de nimeros aleatorios en SAS 189 Calculos con funciones en SAS. 191 X _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Capitulo 7. Fase de exploracién en mineria de datos...... Exploracién en el proceso de extraccién del conocimiento Anilisis exploratorio Herramientas de exploracién visual Histograma de frecuencias Diagrama de tallo y hojas Grafico de caja y bigotes Grafico multiple de caja y bigotes Gréfico de simetr Gréfico de dispersién. Graficos para variables cualitativas.. Herramientas de exploracién formal Contrastes de la bondad de ajuste a una distribucién: Test de la Chi-cuadrado.... Contraste de Kolmogorov-Smirnov Lilliefors de la bondad de ajuste auna distribueién Estadisticos robustos de centralizacion Estadisticos robustos de dispersién Estadisticos robustos de asimetria y curtosi: Contrastes de aleatoriedad. Transformaciones de las variables... Supuestos subyacentes en las técnicas de mineria de datos . Normalidad .. Heteroscedasticidad.. Multicolinealidad. Autocorrelacién Linealidad Un ejemplo ... Capitulo 8. Fase de exploracién en SAS Enterprise Miner y SPSS Clementine . La fase de exploracién en Enterprise Miner El nodo Explorador de distribuciones El nodo Multigraficos El nodo de exploracién de patrones La fase de exploracién en SPSS Clementine. El nodo Grafico El nodo Distribucién El nodo Histograma El nodo Malla El nodo Malla Direccional. El nodo Gréfico Miiltiple El nodo Recoleciar ... 193 193 194 194 195 196 198 199 201 203 205 207 208 209 211 212 214 216 220 221 221 225 227 227 228 230 239 239 239 243 250 266 267 270 271 2723 274 275 276 INDICE xl Capitulo 9, Fase de exploracién en SPSS y SAS. Analisis exploratorio de datos con SPSS. Procedimiento Explorar. Graficos de andlisis exploratorio con SPSS Tipos de graficos Histograme Graficos de normalidas Graficos de caja y bigotes Graficos de dispersion Graficos interactivos dinamicos de andlisis exploratorio con SPSS Creacién interactiva de gréficos a partir de tablas... Graficos interactivos de caja y bigotes.. Histogramas interactives ... Diagramas interactivos de dispersion Analisis exploratorio formal con SPSS Contraste de aleatotiedad. Procedimiento Prueba de rachas . Contraste de ajuste a una distribucién de frecuencias. Procedimiento Prueba de Kolmogorov-Smirnov Anilisis exploratorio de los datos con SAS Base. Procedimiento Univariate .. Graficos de andlisis exploratorio con SAS... GrAficos exploratorios de alta resolucién. Procedimiento GCHART. Gréficos exploratorios de mapas: Procedimiento GMAP ..sse. Graficos exploratorios de caja y bigotes: Procedimiento BOXPLOT Capitulo 10. Fases de limpieza y transformacién de datos.... Limpieza y transformacién de datos en el proceso de extraceién del conocimiento ... Valores atipicos (Outliers) ... Informacién faltante (Datos missing). Soluciones para los datos ausente: de informacién faltant Transformacién de datos Transponer, fusionar, agregar, segmentar y ordenar atchivos Ponderar casos y categorizar y numerizar variables Pareamiento 0 matching . Transformacién de datos mediante técnicas de reduccién de la dimension ‘Componentes principales Anilisis factorial. upresion de datos ¢ imputacién 277 277 282 282 283 283 286 288 290 297 298 299 301 303 303 304 305 318 318 322 328 333 333 333 O37. 343 346 346 347 348 349 350 357

You might also like