You are on page 1of 16

Medicin Correccin Prevencin Metadatos

Modelo de Calidad
Medicin y Diagnstico
Correccin
Prevencin
Metadatos de calidad

Calidad de Datos, curso 2013 Adriana Marotta 1

Medicin Correccin Prevencin Metadatos

Identificar y eliminar inconsistencias, discrepancias y


errores en datos, para mejorar la calidad
data cleaning, data cleansing, data scrubbing
En Data Warehousing
Como parte del proceso ETL (extraccin, transformacin y
carga)
Hasta un 80% del costo en proyectos de DW
En sistemas de integracin de datos
on the fly para datos integrados virtualmente
A veces requiere materializacin

Calidad de Datos, curso 2013 Adriana Marotta 2


Medicin Correccin Prevencin Metadatos

SE EVITA A TRAVES DE

Tipos de datos incorrectos Def de tipos de datos y restricciones


de dominio
Valores errneos Restricciones tipo Check

Valores faltantes Not null

Referencias invlidas Foreign Key

Duplicados Unique, Primary Key

Inconsistencias Manejo de transacciones

Datos desactualizados Replicacin, Vistas Materializadas

Calidad de Datos, curso 2013 Adriana Marotta 3

Medicin Correccin Prevencin Metadatos

Fuentes que no son Sistemas de Bases de Datos

Datos que provienen de fuentes externas

Falta de metadatos, de restricciones de integridad

Errores de digitacin

Problemas que se generan cuando hay mltiples


fuentes y heterogeneidades

Calidad de Datos, curso 2013 Adriana Marotta 4


Medicin Correccin Prevencin Metadatos

! "
Data Profiling
Estimacin Limpieza
Medicin de calidad
de Calidad

Modelo de Calidad
Re-estructuracin
Anlisis de del sistema
procesos de
negocio
involucrados
Anlisis de causas
de mala calidad

Monitoreo de la
calidad

Calidad de Datos, curso 2013 Adriana Marotta 5

Medicin Correccin Prevencin Metadatos

Calidad de Datos, curso 2013 Adriana Marotta 6


Medicin Correccin Prevencin Metadatos

# " $ "
En gral. corresponde a la etapa de pre-procesamiento
para luego poder comparar valores y corregir errores.

Conversin de tipo de datos. Ej.: varchar int


Normalizar: llevar a un formato comn
date: 03/01/05 01-MAR-2005
moneda: $
Maysculas / minsculas
tokenizing:
Martnez, Cristina Martnez, Cristina
direcciones: facilita comparaciones
Discretizar valores numricos
Transformaciones especficas del dominio

Calidad de Datos, curso 2013 Adriana Marotta 7

Medicin Correccin Prevencin Metadatos

" "
Si existe una medicin de calidad hecha previamente a
la limpieza, localizacin consistir en recorrer e
interpretar los metadatos de calidad

Si no existe lo anterior, los mtodos dependen de la


dimensin de calidad

Veremos
Localizar y corregir inconsistencias
Localizar y corregir datos incompletos
Localizar outliers (visto anteriormente)

Calidad de Datos, curso 2013 Adriana Marotta 8


Medicin Correccin Prevencin Metadatos

%
Data editing
Cuando no estamos con una bd relacional. Se detectan
inconsistencias mediante la formulacin de reglas (edits) que
deben ser respetadas por los datos (viene del rea estadstica).
Los edits denotan condiciones de error.
Los edits deben ser consistentes y no redundantes.
Ejemplo de edits inconsistentes:
Salary = FALSE
Has a desk = FALSE
(Salary = TRUE) AND (Has a desk = TRUE)
Ejemplo de edits redundantes:
Role = professor AnnualIncome < 100000
AnnualIncome < 100000

Calidad de Datos, curso 2013 Adriana Marotta 9

Medicin Correccin Prevencin Metadatos

%
Con el conjunto de edits vlidos se procede a la
localizacin de errores.

Para corregir los errores


Adquisicin de nuevos datos
Refrescar los datos, mejorando la calidad
Muy costoso
Corregir utilizando los edits. Edit-imputation problem.
Modelo propuesto, con los siguientes objetivos
Los datos deben satisfacer todos los edits, cambiando la menor
cantidad de campos posible.
Cuando es necesario imputation, mantener la distribucin de la
frecuencia de los valores en cada campo.

Calidad de Datos, curso 2013 Adriana Marotta 10


Medicin Correccin Prevencin Metadatos

&
Ejemplo
(Edad, EstadoCivil, TipodeTrabajo)
<68, casado, jubilado> <6, casado, jubilado>
error

Existe edit: Edad < 15 EstadoCivil = casado


Podemos corregir poniendo 15 en vez de 6, respetando el mnimo
cambio (1er. objetivo), pero si lo hacemos muchas veces vamos a
variar la frecuencia relativa.

Pueden haber edits implcitos


Se derivan lgicamente de los explcitos
Es til considerarlos en la etapa de correccin.

Calidad de Datos, curso 2013 Adriana Marotta 11

Medicin Correccin Prevencin Metadatos

%
Localizacin
Anlisis bsico
Cantidad de valores nulos, promedios, etc.
Comparar con valores esperados
Analizar informacin:
No hay informacin de ventas durante 3/1 .. 3/4 ?
No hay productos con precio > 20 ?
Datos truncados y censurados
Ventas de menos de $100 no se guardan en la base
Ventas de ms de $100000 se guardan como $100000

Deteccin
Siempre se necesita conocimiento del dominio

Calidad de Datos, curso 2013 Adriana Marotta 12


Medicin Correccin Prevencin Metadatos

%
Correccin

Estimar valores que faltan (imputation) sin cambiar caractersticas


del conjunto de datos (media, varianza, etc.)

Explotar dependencias funcionales


Ej.: nro_dormitorios ingreso

Aplicar tcnicas de estadstica


Regresin lineal

Calidad de Datos, curso 2013 Adriana Marotta 13

Medicin Correccin Prevencin Metadatos

'% (
Potters wheel
Estandarizacin, profiling, limpieza para SID (sistemas de integracin de
datos)
Telcordias tool
Estandarizacin, limpieza para SID
Dominio: direcciones, impuestos
Ajax
Normalizacin, limpieza para SID
Dominio: referencias bibliogrficas
Arktos
Estandarizacin, localizacin de errores, limpieza para SID
Dominio: ETL, aplicaciones de salud
Choice Maker
limpieza para SID
Dominio: nombres, direcciones, negocios, datos mdicos, datos financieros
Intelliclean
Normalizacin, limpieza para SID
Referencias en el texto del curso (8.2)

Calidad de Datos, curso 2013 Adriana Marotta 14


Medicin Correccin Prevencin Metadatos

'% (
Empresa Productos

Ataccama DQ Analyzer, Data Quality Center, DQ Issue Tracker, DQ Dashboard


Datactics Data Quality Platform, Data Quality Manager, Master Record Manager
DataMentors DataFuse, ValiData, NetEffect
HIquality Suite, HIquality Name Worldwide, HIquality Identify, HIquality Data Improver,
Human Inference DataCleaner
IBM InfoSphere Information Analyzer, InfoSphere QualityStage, InfoSphere Discovery
Informatica Data Explorer, Data Quality, Identity Resolution, AddressDoctor
Information
Builders/iWay iWay Data Quality Center
Innovative Systems i/Lytics Data Quality, i/Lytics Data Profiling, i/Lytics ProfilerPlus, FinScan
Oracle Oracle Enterprise Dat Quality, Oracle Enterprise Data Quality for Product Data
Pitney Bowes Software Spectrum Technology Platform
RedPoint (DataLever) RedPoint Data Management
SAP Data Quality Management, Information Steward, Data Services
SAS/DataFlux Data Management Platform
Talend Talend Open Studio for Data Quality, Talend Enterprise Data Quality
Trillium Software Trillium Software System, TS Discovery, TS Insight, Trillium Software On-Demand
Data Quality (DQ) Explorer, DQ Batch Suite, DQ Real-Time Suite, DQ Real-Time Services,
Uniserv DQ Monitor
Melissa Data Contact Zone
Datiris Datiris Profiler
CloverETL Address Doctor
Microsoft Data Quality Services

Calidad de Datos, curso 2013 Adriana Marotta 15

Medicin Correccin Prevencin Metadatos

"
Localizacin (o deteccin) y correccin de errores no
previenen errores futuros.
Ej.: Suponer que un proceso crea o reemplaza 1000 registros
nuevos o existentes cada da, cada registro tiene 20 campos y la
tasa de errores del proceso es 2%. 400 nuevos errores se
producen por da. A fin de ao se habrn producido 140000
errores. Enorme tarea de limpieza.

Se busca
identificar causas (root-causes) de los errores
eliminar esas causas
asegurar que se mantendr esa ganancia

Calidad de Datos, curso 2013 Adriana Marotta 16


Medicin Correccin Prevencin Metadatos

" )

Manejo de procesos para la creacin de informacin.


Especialmente efectivo para datos que son creados y actualizados
con una alta frecuencia.

Ej.: Billing information chain (Proceso de Facturacin)


Departamentos: Servicio al cliente, Alta de rdenes, Entregas y
Facturacin.
Se detectan muchos problemas, y Facturacin determina que Nro-
stock es el campo ms frecuentemente equivocado. Se investiga y se
ve que hay discrepancias entre Entregas y Alta de rdenes.
Se necesita un gerente de proceso que vea la cadena del proceso en
forma horizontal. Este podra inclur controles para asegurar que no
suceda el problema.

Principales tcnicas: edits y data tracking

Calidad de Datos, curso 2013 Adriana Marotta 17

Medicin Correccin Prevencin Metadatos

"
Los edits pueden ser utilizados para
Correccin (en general son usados solo para esto)
Mejora de procesos
Diseo de procesos menos propensos a errores
Mejora de procesos
Aplicando edits dentro del proceso o de la cadena de procesos, se
pueden detectar ciertos tipos de errores antes de que sean
commiteados en la base.
Se corrigen los errores antes de que produzcan problemas
Ej.: se le podra dar al operador que ingresa las rdenes la oportunidad
de ingresar el nro de stock.
Log de failed edits
Para determinar patrones de errores y eliminar las causas.

Calidad de Datos, curso 2013 Adriana Marotta 18


Medicin Correccin Prevencin Metadatos

" ) *

Incluir edits en los nuevos procesos y manejadores de


bd.
Bajo costo de implementacin
Desventaja: La gente suele encontrar la forma de saltearlos
Disear la medicin necesaria para controlar y mejorar
el proceso dentro del propio proceso.
Minimizar actividades donde la gente suele cometer
errores, automatizndolas lo ms posible
Ej.: Transcripciones, ingreso de datos, cambios de formatos, etc.
Ej.: Uso de lectores de cdigo de barras
Simplificar procesos tambin evita errores
Asignacin apropiada de responsabilidad del manejo
de los datos

Calidad de Datos, curso 2013 Adriana Marotta 19

Medicin Correccin Prevencin Metadatos

+
Crear una lista ordenada por prioridad de datos a
mejorar
Consideraciones posibles
Dar ms importancia a la estrategia de negocio de la empresa
Ej.: empresa que est apuntando al marketing directo, debera
priorizar datos de clientes.
Ej.: empresa que est enfocada a mejorar eficiencia de
operaciones, debera priorizar datos logsticos
Asociacin con problemas del negocio ya conocidos
Ej.: reuniones perdidas con clientes: direcciones incorrectas, etc.
Tasas de errores reales vs. requerimientos de nivel de calidad
Econmicas
Hay errores que tienen consecuencias ms costosas que otros.

Calidad de Datos, curso 2013 Adriana Marotta 20


Medicin Correccin Prevencin Metadatos

, (
Para mejorar la calidad se debera aplicar

Prevencin a travs de manejo de procesos para datos con alta


frecuencia de creacin y actualizacin.

Localizacin y correccin de errores para datos con baja frecuencia


de creacin y actualizacin.

Cualquier diseo de proceso o reingeniera debera luchar para que


el nuevo proceso sea lo ms libre de errores posible.

Calidad de Datos, curso 2013 Adriana Marotta 21

Medicin Correccin Prevencin Metadatos

-
Utilizamos modelos de datos para representar datos

Queremos adems poder representar sus dimensiones


de calidad y sus medidas de calidad. A esto le
llamamos METADATOS DE CALIDAD.

Se proponen extensiones a los modelos tradicionales para bd, para


representar y manejar aspectos relacionados con las dimensiones
de calidad.

Se enriquecen los modelos convencionales con elementos para


representar y analizar la calidad de los datos.

Calidad de Datos, curso 2013 Adriana Marotta 22


Medicin Correccin Prevencin Metadatos

-
Modelos de datos
Modelado conceptual
Extensin del MER

Modelado lgico
Extensiones del Modelo Relacional
Extensin del modelo XML

Modelo de proceso
Modelo para el proceso de la produccin de informacin
IP-MAP

Referencias en el texto del curso (Cap. 3)

Calidad de Datos, curso 2013 Adriana Marotta 23

Medicin Correccin Prevencin Metadatos

. " ,
Una posible solucin

Desventajas?

Otra solucin
Agregamos 2 nuevas entidades:
Data quality dimension
Representa cada dimension y todos sus posibles valores
Data quality measure
Representa las mediciones

Calidad de Datos, curso 2013 Adriana Marotta 24


Medicin Correccin Prevencin Metadatos

. " ,

Qu cosas falta representar?


Qu construcciones habra que agregarle?

Calidad de Datos, curso 2013 Adriana Marotta 25

Medicin Correccin Prevencin Metadatos

. ,
Basado en atributos

Calidad de Datos, curso 2013 Adriana Marotta 26


Medicin Correccin Prevencin Metadatos

. ,
Polygen
Modelo para manipulacin de datos orientado a datos provenientes
de mltiples fuentes
Representacin explcita del origen de los datos y tambin de las
fuentes intermedias (data lineage)
Un valor de un atributo en este modelo es una terna:
Un dato (dominio simple de MR)
Un conjunto de bds origen
Un conjunto de bds intermedias
Se usan annotations para los metadatos en cada atributo
Definen un lgebra que permite la propagacin de las annotations
Primera aproximacin a data provenance

Calidad de Datos, curso 2013 Adriana Marotta 27

Medicin Correccin Prevencin Metadatos

. " /
Data and Data Quality (D2Q)

Para ser usado en el contexto de sistemas de informacin


cooperativos
Las organizaciones intercambian datos y es fundamental saber la
calidad de estos datos
El modelo es semi-estructurado permitiendo a cada organizacin
exportar la calidad de sus datos con flexibilidad
El modelo se traduce fcilmente a XML
Para consultar este XML se propone una extensin al XQuery, con
un conjunto de funciones llamadas quality selectors.

Calidad de Datos, curso 2013 Adriana Marotta 28


Medicin Correccin Prevencin Metadatos

0+ &

Calidad de Datos, curso 2013 Adriana Marotta 29

Medicin Correccin Prevencin Metadatos

& '
Para modelar la construccion (manufacture) de un
producto informacin.

Calidad de Datos, curso 2013 Adriana Marotta 30


Medicin Correccin Prevencin Metadatos

& '

(IP-Map, 2000)

Calidad de Datos, curso 2013 Adriana Marotta 31

Medicin Correccin Prevencin Metadatos

& '
Existen diversas extensiones del modelo
Diagramas de eventos, diagramas de interaccin, modelos de
datos, etc.

Se propuso el formalismo IP-UML


Extensin del UML con informacin de calidad de datos basada en
IP-MAP

Calidad de Datos, curso 2013 Adriana Marotta 32

You might also like