Capítulo 4 - Limpieza y Transformación

Capitulo 4 LIMPIEZA Y TRANSFORMACION a recopilacion de datos debe ir acompafiada de una limpieza e integracion de los os del andlisis jmismos, para que éstos estén en condiciones para su anilisis. Los benetfi y de la extraccién de conocimiento a partir de datos dependen, en gran medida, de la calidad de los datos recopilados. Ademas, generalmente, debido a las caracteristicas propias de las técnicas de mineria de datos, es necesario realizar una transformacién de los datos para obtener una “materia prima” que sea adecuada para el propdsito concreto y las técnicas que se quieren emplear. En definitiva, el éxito de un proceso de mineria de datos depende, no sélo de tener todos los datos necesarios (una buena recopilacién), sino de que npieza e integracidn), étos estén integros, completos y consistentes (una buena I Si bien es cierto que gran parte de los procesos de limpieza e integracién se pueden realizar durante la construceién de un “almacén de datos”, como vimos en el capitulo anterior, hemos preferido separar estos dos subprocesos (y describirlos conjuntamente con algunos procesos de transformacién) porque, en principio, no es necesario tener un almacén de datos para hacer mineria de datos y, ademas, porque la problemética y herramientas de los procesos de integraci6n, limpieza y transformacién estén estrechamente relacionadas. En concreto, en este capitulo se relatan una serie de ténicas para la integracion y la limpieza (histogramas, deteccién de valores anémalos, otros tipos de visualizacion..., algunas transformaciones (discretizacién, numerizacién, etc.) y otra serie de técnicas clasicas del andlisis multivariante (andlisis de componentes principales, analisis de correspondencias, escalado multidimensional...) 0 andlisis factorial. En el capitulo siguiente se continia con procesos estrechamente relacionados: la seleccién (muestreo, seleccién de atributos) para extraer aquellos datos exclusivamente necesarios para posibilitar una mineria eficiente y otros procesos de transformacién para presentar los datos de la manera mas idénea (sumarizacién, pivotacién, generalizacién) para las herramientas de mineria.cin a la Mineria de Datos 66 | 4.1 Introduccion js frecuentemente a los sistemas de El concepto de “calidad de datos” se 1z mas frecu as d desarrollo de restricciones de asocia cada vez mas ci vanzado mucho en el disenio ¥ informacién. Aunque se ha avanzado mud Se ar era ea a es casos se ha integridad de los sistemas de informacién, éstos han = a décadas, que el problema de calidad de datos, en v&? le Iverse, en muchos acentuado. ' See Tn la mayoria de bases de datos existe mucha informacion (Ue incorrecta respecto al Paco yuna) eo Rese a eee ees dominio de la realidad que se ae ee relevante, de datos inconsistentes. Estos problemas se es Pa sade integracién de distintas fuentes. No ‘obstante, mientras los datos cea ; . pera lineal respecto al tamafo de los datos recopilados, los datos inconsisten’eS S° multiplican; varias fuentes diferentes pueden afirmar cosas distintas sobre el mismo objeto. La integracin también produce una disparidad de formatos, nombres, rangos, etc que podria no existir, 0 en menor ‘medida, en las fuentes originales. Esto dificulta en gran medida los procesos de analisis y extraccién de conoci iento. Para resolver esta disparidad mn n, para la limpieza y algunas se presentan una serie de consejos para la integracin, w Ploemaciones para convert los datos en otros mas apropiados para la mineria ‘0 junto a otros, como la seleccidn de datos) reciben Estos procesos (0 algunos de ellos, nombres bastante variados: preparacién de datos, data cooking, preprocesamiento, etc Conjuntamente, la preparacién de datos tiene como objetivo la eliminacion del mayor numero posible de datos erréneos o inconsistentes (Limpieza) ¢ irrelevantes (criba), y trata dle presentar los datos de la manera mas apropiada para la mineria de datos. Del proceso Se pcleceion, y de otras técnicas de transformacién, también se hablara en el capitulo Siguiente, como fase final (més exploratoria y de menos preprocesamiento de datos) antes de la mineria de datos propiamente dicha. ‘Al igual que en el capitulo siguiente, en estas fases se utilizan técnicas estadisticas, de visualizacion y de consulta (si es posible, OLAP). Algunas de ellas son de uso bastante comiin y se encuentran no sélo en paquetes estadisticos, sino en hojas de calculo y en muchas herramientas de mineria de datos, como por ejemplo, los histogramas pata la deteccion de datos anémalos, grificos de dispersion, célculos de medias, varianzas, correlaciones, etc. _EI analisis multivariante (multivariate analysis) clésico engloba, tradicionalmente, una serie de ties estas para tata con un conjunto de variables, que tienen sus ee cl sigebra lineal y la geometria, y que, por esta razén, pese a su diversidad, s¢ Cee a panaaocrabats del andlisis multivariante se incluye generalmente correspondencias (correspon ou ae (principal components analysis), el andlisis de sealing) y certas tdcnicas de sap la el escalado multidimensional (multidimensional mezclas 0 mixturas (mixture decomposition, Oe (cluster analysis) y descomposicién de preparatn de datos y, por ello, se verén en ests capitan eee ere a STupos que se ve en varios capitulos y la desco1 Ee pala a rs brevemente, De modo similar, ciertas téenicas muy tac ee oe omer conoce como analisis factorial, seran c “as muy relacionadas, dentro de lo que se ‘omentadas muy brevemente,ay transformacion 67 Capitulo 4. Limpi Como hemos dicho, muchas técnicas descritas en este capitulo (y la mayoria de las descritas en los capitulos 7 y 8) se pueden encortrar en paquetes estadisticos clasicos. Cada dia mas frecuentemente también, los paquetes de mineria de datos incluyen ademas algunas de estas herramientas. Otras técnicas son mas artesanales y més variadas. Por ejemplo, la redefinicion de atributos (mediante creacién de nuevos atribu:os o mediante la separacién) o incluso la discretizacién 0 numerizacién El orden en el que se presentan las técnicas en este capitulo (y en el siguiente) no implica necesariamente que se deban realizar en este orden. Por ejemplo, un muestreo puede ser previo a una discretizacién o viceversa. Se puede hacer un aumento de dimensionalidad (mediante introduccién de relaciones cuadraticas) seguido de una reduccién de dimensionalidad mediante anélisis de componentes principales. En general, el orden dependerd mucho del problema y de las caracteristicas de los datos. En muchos casos algunas técnicas se pueden repetir varias veces, intercalandose con otras. Un aspecto muy importante a la hora de realizar los procesos de integracién, limpieza, seleccidn y transformacién es que se debe conocer el dominio de donde provienen los datos. Por ejemplo, un histograma puede ayudar a detectar los datos anémalos mas flagrantes pero no podré ayudarnos para determinar otros casos que sélo pueden detectarse con seguridad si conocemos el dominio de los datos. En otros casos, conocer el dominio es imprescindible, como por ejemplo para la redefinicién de atributos (mediante creacién 0 separacién), En este capitulo y en el siguiente trataremos de datos de distinto tipo, aunque, en general, para los propésitos de limpieza, transformacién, seleccién y mineria de datos, podemos clasificarlos en tres tipos: numéricos (sean enteros o reales, abiertos o cerrados por un intervalo, circulares), nominales sin orden (incluyendo valores légicos 0 booleanos, con valores prefijados o abiertos) y nominales con orden u ordinales (del estilo { bajo, medio, alto }). Existen numerosas nomenclaturas alternativas, como pueden ser continuos y discretos, cuantitativos y cualitativos/categéricos, que no son exactamente equivalentes a la terminologia de datos numéricos y nominales, que es la que utilizaremos, en general, a continuacion. Sobre la terminologia para nombrar los atributos (variables, componentes, caracteristicas, campos, etc.) seremos més flexibes y utilizaremos muchos de estos nombres indistintamente. 4.2 Integracién y limpieza de datos Como hemos dicho, existen problemas de calidad de datos en los sistemas de informacién. Estos problemas, ademds, pueden verse agravados por el proceso de integracién de distintas fuentes, especialmente si no se hace con esmero. Por ejemplo, existen datos faltantes que suelen ser originados muchas veces al integrar fuentes diferentes, para los cuales no existen soluciones faciles, pero hay otros casos, como los valores duplicados, que si pueden y deben ser detectados durante la integracién. La integracién es generalmente un proceso que se realiza durante Ja recopilacién de datos y, si se realiza un almacén de datos, durante el proceso de carga, mediante el sistema ETL visto en el capitulo anterior. La limpieza de datos (data cleaning / cleansing) puede, en muchos casos, detectar y solucionar problemas de datos no resueltos durante la integracién,68 Introduccién a le Mineria de Datos: como los valores andmalos y faltantes. Por tanto, parece légico que la limpieza tenga lugar durante esta integracién 0 inmediatamente despues de ella. en ser mas rudimentarios Logicamente, estos procesos de integracién y limpieza puede quankeno se devee crear un almacén de datos. En cualquier caso, ¢s un aspecto que no hay gue descuidar, particularmente si se desea realizar mineria de datos de una manera sistematica 4.2.1 Integracion El primer problema a la hora de realizar una integracidn de distintas fuentes de datos es identificar los objetos, es decir, conseguir que datos sobre el mismo objeto se unifiquen y dates de diferentes objetos permanezcan separados. Este problema se conoce como el problema del esclarecimiento de la identidad. Existen dos tipos de errores que pueden ocurrir en esta integracién: * Dos 0 més objetos diferer de diferentes individuos y seran un problema para extr mas grave cuanto mas diferentes sean Ios dos objetos unificados. «Dos o mas fuentes de objetos iguales se dejan separadas: los patrones del mismo individuo aparecerin repartidos entre varios individuos parciales. Este problema “ruido” que el anterior, aunque es especialmente problemstico \pras ser mucho menor si consi- jemplo). sntes se unifican: los datos resultantes mezclaran patrones er conocimiento. Esto sera genera menos cuando se usan valores agregadbs (el total de comy deramos un individuo real como dos individuos en la base de datos, por e} En general el primer problema es menos frecuente que el segundo, ya que la unificacion se realiza generalmente por identificadores extermos a la base de datos: néimero de identidac. crédito o de fidelizacion, etc. Ademas, se suele ser voneervador a la hora de unificar; si no se esta seguro no se ace. Esta tarea es més dificil de lo que pueda parecer, ya que si se utilizan claves internas para identificar objetos (Por ejemplo autonumeradas), hay que mirar los identificadores externos y éstos, muchas veces, Varian de formato (por ejemplo, un ciudadano espafol puede identificarse por el DNI, el NIF y el pasaporte, que coinciden en ocho digitos, pero el NIF afiade una letra y el pasaporte afade alguna letra y digito adicional). Este proceso de identificacion se muestra en la parte superior izquierda de la Figura 4.1. numero de polizas, matriculas, tarjeta de Identiicacion Descomposicién mamaRee vases") syaesa2i3st™ [Covi palin de vericuto—] "259421351 ee 5] aaa eae] eden ota (ames) 7S Figura 4.1. Ejemplos deintegracion:identificaion y descomposicion Las claves internas de sistemas mal disefiados pueden entranar informacion no normalizada, que es preciso detectar en el proceso de integraciGn, Este proceso se denomina descomposicion de claves. La parte derecha de la Figura 4.1 muestra un ejemplo.Capitulo 4. Limpieza y transformacion 69 Cuando se integran (correctamente) dos fuentes diferentes de datos de distintos objetos suele suceder que puedan aparecer datos faltantes (el dato se registra en una fuente pero no en la otra) 0 datos inconsistentes (el dato es diferente en una fuente y otra). Esto se puede observar en la Figura 4.2. FECHA NAC Treas | aes | eet [St Dy Zeuzias [Tart | vaeres [WO] 61 ene 1 ee FECHA NAC | CDAD 00 POSTAL | ESTADO | CASADO es |S _ a eae Gas [or = geszaars | 00 Sate i i T = Figura 4.2. Ejemplos de integraciin de atributos de dlstintas fuentes. Légicamente aparecen campos redundantes total o parcialmente: “edad” y “fecha. “ciudad” y “cod_postal”, “estado” y “casado”. Cuando sea posible se intentardn fusionar. En muchos casos los datos inconsistentes se convierten en faltantes; por ejemplo si el mismo cliente tiene estados civiles diferentes en cada fuente, es preferible dejar el valor a faltante que elegir al azar uno de los dos (o hacer la media). Otro caso muy frecuente es Ja integracién de formatos diferentes, que se produce si tenemos codificaciones diferentes (casado / matrimonio), idiomas diferentes, medidas diferentes, etc. Unifcacion de medidas Unificacion de [pinta tux] ——> formatos Pao EE — (Cosiwes | ——+ [ 0=:itros (awe ] [ipa sy] ——+ [aa nvos See Pee ot cd (20: pesetas | ——+ [B72 euros [ieee ae Figura 43. Ejemplos de integracin: unifcacion de formatos y meidas En general existen muchas otras situaciones, algunas de ellas relativamente tipicas en procesos de migracidn y fusién de bases de datos, pero hay otras tantas que son especificas del dominio y de las bases de datos integradas y que pueden necesitar soluciones muy ‘especificas. 4.2.2 Reconocimiento Cuando tenemos integrados todos los datos lo primero que podemos realizar es un resumen de las caracteristicas (0 informe de estado) de atributos (ya sea tabla a tabla o para toda la base o almacén de datos). En este tipo de tablas se muestran las caracteristicas70 Introduecién a ia Mineria de Datos generales de los atributos (medias, minimos, maximos, posibles valores). Se puede istinguir entre valores nominales y numéricos (y hacer dos tablas) 0 integrarlo todo en la misma tabla. Por ejemplo, para una compaiia de seguros, tenemos los datos referidos a las polizas de vehiculos. La siguiente tabla muestra (parcialmente) un resumen de los atributos de la base de datos Riributo | Tabla | Tipo [# total] # nulos [# dists] Media [Desv.e.| Moda | Min _| Max Gdigo postal [ Clene [Nonna | tox | 190 | wre | - | - | soos | “ovoor | “savi7 Sexo | Giene | nonina [oso] a [6 | - | - | ~ [© | ow Estado ov | ciete | Nomina [10520 | 37 |e | |__| Casado | “Casaaor | Vivo™ Edad | Giene [Nunereo| toe] 4 [os | wa | ws [ 7 |e | #7 FFotal pokiza pla Potza | Nunerco| trees | 100s] 142 _[rorzee | aare [aoe | aree | cae ‘Asegurados | Pow [Nanéeo| wea] o | 7 | ta [oz | 1 a 0 ‘Matricula | Vereuo | Nominal | veaze | 0 10224 Fates OF | aR Modelo | Venewo| Nommat_ | veaze | isan | 2429 =o ra ava [Vw Fo Tabla 4.1. Tabla resumen de atributos. La tabla anterior es sencilla de construir (se puede hacer incluso a partir de un conjunto de consultas SQL) y da mucha informacién de un simple vistazo. Ademas de ver cudntos clientes, polizas y vehiculos tenemos, podemos observar el total de nulos de cada atributo, después el numero de valores distintos (incluyendo los nulos), la media y la desviacin tipica para los valores numéricos, la moda (el valor més frecuente), el minimo y el maximo {para los valores nominales, el minimo y el maximo se interpretan como en SQL, alfabéticamente).. Hay aspectos respecto a la calidad de los datos que saltan a la vista; por ejemplo, como es posible que haya cinco valores (més el nulo) diferentes para el atributo “sexo”? Para observar los valores podemos utilizar una de las herramientas graficas mas basicas, el histograma, que muestra la distribucién de los valores posibles para el atributo “sexo” (véase Figura 4.4): rule 023 ° 500 too 150020002500 3000500 at Figura 44. Histograma representando las frecuencias de un atributo nominal Al observar los datos, podemos damos cuenta de que en realidad el nombre “sexo” para el atributo no esta muy bien elegido, porque el valor “E” viene a representar que no es una persona sino una empresa la que asegura el vehiculo. A partir de esa aclaracién, los datos “v", "MI" y “EB” parecen claros: “var6n”, “mujer” y “empresa”. El problema lo presentan los valores “H” y “D". Tras un analisis de la procedencia de los datos, la mayoria de “H” seCapitulo 4. Limpieza y transformaciin 71 ——— — on de “hombre” Pero algunos pueden venir, equivocadamente, del as eon” hembra”, especialmente en las fichas antiguas, = se realizaban Or papel y no a través de una aplicacién informatica con mayores restrcciones de integrided Debido a esta ambigiiedad, todos los valores “Hl” se dejan como valores nuilos (leet st verd que muchos de ellos se podran rellenar, mirando los nombres de les clientes) Finalmente, el valor “D” puede deberse a que las aplicaciones de la emy presa son bilingiies (castellano / catalén) y “dona” es “mujer” e ; ee f « : n catalan, con lo que se decide unificar con “M Este es un ejemplo muy simple de los aspectos que son necesarios para, en este caso, realizar una unificacién de formatos: reconocer los datos y su distribucidn y, sobre todo, conocer las fuentes de los datos y el dominio (en este caso una empresa aseguradora). Siguiendo con la tabla de resumen de atributos, la informacidn sobre medi, desviacién tipica, moda, maximo y minimo proporciona bastante informacién sobre los atributos numéricos. En general, un segundo paso sobre estos valores es también un histograma (en el caso de los valores numéricos se realiza por intervalos, generalmente). Por ejemplo, observemos en la Figura 4.5 un histograma para los valores del atributo “total poliza por afio” (los nulos no se muestran en el histograma): 000 eres 00 5000 saan 4000 se 2x00 = a 1000 Ge ; ae eee 0 500-1000 1500- 2000- 2500- 3000- 3500- 4000- 4500- 5000- 5500- 6000. 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 6500 Figura 4.5. Histograma representando las frecuencia de wn atrbuto numérico, Los datos se distribuyen de una manera cercana a la normal y se confirma el pico alrededor de la media (737,24). La moda es menor (680), lo que coincide con a tendencia lateral (skewness) de la distribucién (la cola de la izquierda se para por el minimo, que esta en 375). Quiza lo més significativo es que existe un dato entre 6.000 y 6.500 que podria considerarse andmalo. Sin conocimiento del dominio y sin observar el dato en detalle, no podemos determinar si dicho dato es simplemente un dato anémalo pero correcto (el seguro de un automdvil muy especial, como un Roll Royce) 0 un dato erréneo. No vamos a entrar aqui en detalles de las herramientas existentes para analizar las distribuciones de frecuencia. Muchos sistemas calculan la distribucién que se ajusta mas a Jos datos (normal, uniforme..) y nos la dibujan sobrescrita en el histograma. Esto generalmente ayuda a entender mejor la distribucion de los datos y permite determinar, si bajo esa distribucién, los datos extremos se consideran estadisticamente anémalos. Volveremos mas adelante sobre los datos anémalos. En muchos casos en los histogramas pueden aparecer combinaciones de distribuciones simples. Esto a veces se observa viendo que los datos no son unimodales (una moda) y son “en realidad bimodales (dos “jorobas” 0 dos modas), trimodal (tres modas), ete.72 Introduccion ala Mineria de Datos Una altemativa a los histogramas, ala hora de estudiar las frecuencias de una variable, son los diagramas de caja (box plots) 0 de bigotes (whisker plots) Figura 4.6. Diagrama de caja (de bigote). La caja va del primer cuartl al tercer cuattil (del 25 por ciento de los datos al 75 por cento de los datos). Es decir, la caja muestra el rango intercuartil, que contiene el 50 por ciento de Jos datos. La mediana se representa con un cuadrito (también se puede hacer con otro tipo de marcas) y muestra el segundo cuartil (el valor tal que la mitad de los datos estén por debajo y la mitad por encima). Los bigotes (0 lineas acabadas en un segmento) muestran el resto de los datos hasta los valores mas extremos. En cierto modo, los diagramas de caja ‘son un resumen de los histogramas y permiten, en un mismo grafico, representar varias variables. Los histogramas se pueden extender para las frecuencias conjuntas de dos variables, dando un histograma tridimensional. Se puede realizar entre dos variables nominales, una nominal y una numerica o entre dos numéricas (las numéricas siempre agrupadas entre intervalos). En la Figura 4.7 se muestra un ejemplo de histograma de dos variables que muestra las frecuencias conjuntas del “sexo” respecto al total de la poliza de cada client Figura 4.7. Histograma representande las fecuencias de un atributo numérico vs. un atributo nominal. En la figura se observan tres distribuciones diferente: con jorobas diferentes dependiendo del tipo de cliente. Una grifica similar y especialmente util cuando los dos atributos son numéricos es la grifica de dispersion (scatterplot). En la Figura 4.8 se muestran dos variables numéricas (la edad en el eje de las X y los accidentes por quinquenio en el eje de las Y, de los clientes de la aseguradora en el municipio de Denia) Esta grafica no tiene el “sesgo” de los intervalos numéricos como los histogramas. EL problema es que si existen muchos individuos (como ocurre, por ejemplo en la parte para los tres valores “E”, “M" y "V"Capitulo 4. Limp y transformacion 73 central), éstos se “apifian”’ y llega un punto en el que no a ue No se puede ver si hay mas o menos densidad. : F 7 aa 2 10 i? . Hy eens 3 a ge sph *s A weet ge 5 : 18 20 25 30 35 40 45 50 55 60 65 70 75 80 5 90 Edad Figura 4.8. Gnifia de dispersién (diagrama bivariante). En las graficas de dispersién se puede mostrar una tercera dimension. $i marcamos los puntos con distintos simbolos, se puede representar un tercer atributo nominal (por ejemplo la clase). Esta grafica se llama “grafica de dispersién etiquetada” y se muestra en la Figura 4.9. a 1 Tipo de péliza Dever norma atin” © odernesae interés Figura 4.9. Gréfica de dispersién etiquetada Ia figura anterior, en concreto, representa dos variables numéricas: “riesgo”, que representa el riesgo del asegurado (de 0 a 1, en funcién de los afos de carné, la juventud, los accidentes previos, etc.) y el “interés”, que representa la importancia del cliente para la compafiia (de 0 a 1, en funcién de otras polizas realizadas, familiares asegurados, etc.). El grifico muestra que estas dos variables son muy significativas, especialmente para las Polizas “joven”, “normal” y “todo-riesgo”. Cuando tenemos mas de dos variables el gréfico anterior se puede repetir para todas Jas combinaciones posibles. Por ejemplo, la Figura 4.10 muestra todas las graficas de dispersidn etiquetadas, resultantes de las combinaciones de los cuatro atributos numéricos (sepallength, sepalwidth, petallength, petalwidth) del conjunto de datos de lirios (“iris’, véase el Apéndice B). La clase o tipo de lirio (setosa, versicolour, virginica) se muestra por el tono de los circulos (ms claros u oscuros).7 Introtuccion a la Minera de Datos etalles stalwidth c puede observar hay pares de atributos (Pot ata mst pea eit en ‘omo se vP een narecen més diferenciadas, y CO" los que las tes ase peer ee ejemplo sepalidth y sepallength). De hecho, se puede diferenciacion seria mas dificil (Pp iy eal la é ‘i gth, se pod buena Shecrar que so cone valor de potent e podria OnSeEN TT ctevantes par el Esto ayuda a ver patrones ¥ ‘a determinar qué variabl evantes para roma, Mas adelante en este capitulo (y en capitulos siguientes) trata 7 prol para estimar la relevancia de variables. sepallength palwidth —_petalfength petalwicth petalwidth “a petallength ssepalwidth sepallength | f | ‘ Figura 4.10, Matris de grificas de dispersién etiquetadas (plot matrix). 4.2.3 Valores faltantes Los valores faltantes, perdidos o ausentes (missing values) pueden ser reemplazados por varias razones, En primer lugar, el método de mineria de datos que utilicemos puede no tratar bien los campos faltantes. En segundo lugar, podemos querer agregar los datos (especialmente los numéricos) para realizar otras vistas minables y que los valores faltantes no nos permitan agregar correctamente (totales, medias, etc.). En tercer lugar, si el método s capaz de tratar campos faltantes es posible que ignore todo el ejemplo (produciendo un sesgo) 0 es posible que tenga un método de sustitucién de campos faltantes que no sea adecuado debido a que no conoce el contexto asociado al atributo faltante. A la hora de hablar de campos faltantes, debemos tratar de su deteccién y de su tratamiento. La deteccién de campos faltantes puede parecer sencilla. Si los datos proceden de una base de datos, basta mirar en la tabla de resumen de atributos/caracteristicas y verSTORER Finalmente, si se han conseguido establecer los datos faltantes e, procederemos a su tratamiento. Las posibles acciones sobre datos faltantes son: Capitulo 4. Limpieza y transformacién 75 Ia cantidad de nulos que tiene cada atributo. El problema es que a veces los campos faltantes no estén representados como nulos. Por ejemplo, aunque hay campos en los que las restricciones de integridad del sistema evitan introducir cédigos fuera del formato para representar valores faltantes, esto al final ocurre en muchos otros, especialmente en campos sin formato: direcciones 0 teléfono como “no tiene”, cédigos postales o niimeros de tarjeta de crédito con valor =1, etc. A veces son las propias restricciones de integridad las que causan el problema. Por ejemplo, zcudntos sistemas obligan a introducir necesariamente los dos apellidos y fuerzan que a los extranjeros, por tanto, les pongamos algiin valor ("-") en el segundo apellido? Este tipo de situaciones complica sobremanera la deteccién de valores {altantes. No obstante, son precisamente aquellos casos mas dificiles en los que merece la pena realizar mas esfuerzo, ya que muchas veces son este tipo de “nulos camuflados” los que pueden introducir sesgo en el conocimiento extraido. Tanto para la deteccién, como para su tratamiento posterior, es importante saber el porqué de los valores faltante: * Algunos valores faltantes expresan caracteristicas relevantes. Por ejemplo, la falta de teléfono puede representar en muchos casos un deseo de que no se moleste a la persona en cuestién, o un cambio de domicilio reciente ‘+ Valores no existentes. Muchos valores faltantes existen en la realidad, pero otros no. Por ejemplo el cliente que se acaba de dar de alta no tiene un registro de accidentes medio de los tiltimos anos. + Datos incompletos: si los datos vienen de fuentes diferentes, al combinarlos se suele hacer Ia unidn y no la interseccién de campos, con lo que muchos datos faltantes representan que esas tuplas vienen de una/s fuente/s diferente/s al resto. lealmente, sus causas, * Ignorar (dejar pasar): algunos algoritmos son robustos a datos faltantes (por ejemplo arboles de decision), + Eliminar (filtrar o reemplazar) toda la columna (es decir quitar el atributo para todos los ejemplos): solucidn extrema, pero a veces la proporcién de nulos es tan alta que la columna no tiene arreglo. Otras veces, existe otra columna dependiente con datos de mayor calidad. * Filtrar la fila: claramente sesga los datos, porque muchas veces las causas de un dato faltante estan relacionadas con casos 0 tipos especiales. + Reemplazar el valor: se puede intentar reemplazar el valor manualmente (en el caso de que no haya muchos) 0 automaticamente por un valor que preserve la media o la varianza (globales o por clases/grupos), en el caso de valores numéricos, o por el valor moda, en el caso de valores nominales. Una manera mas sofisticada de estimar un valor es predecirlo a partir de los otros ejemplos (esto se Hama a veces “im- putacién de datos perdidos’, utilizando cualquier técnica predictiva de aprendizaje automatico (clasificacién 0 regresién) o técnicas mas especificas (por ejemplo, determinar el sexo a partir del nombre). También existen algoritmos que se usan tradicionalmente para esto, como el algoritmo EM, que veremos precisamente para esta aplicacién en el Capitulo 10 (Seccién 10.7).

Capítulo 4 - Limpieza y Transformación

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Capítulo 4 - Limpieza y Transformación

Uploaded by

Copyright:

Available Formats

You might also like