You are on page 1of 38

Tema 2

:
Medición de Calidad de Datos y Planes de Medición
Versión 2.0. Extendida

Calidad y Medición de Sistemas de Información
Curso 2008/09

Dr. Ismael Caballero
Ismael.Caballero@uclm.es
Grupo Alarcos- Escuela Superior de Informática
Universidad de Castilla La Mancha

Índice de Contenidos

1. Introducción
2. Medición del Modelo de Datos
3. Medición del Modelo Conceptual de Datos
4. Medición del Modelo Lógico de Datos
5. Medición de los Propios Datos
6. Ontología de la Medición de Calidad de los Datos
7. Planes de Medición de Calidad de Datos
8. Bibliografía y Referencias

2

1

Introducción

•Focos de estudio de la calidad de los datos (Piattini et al., 2006)

Calidad de los Datos

Calidad de la Base de Datos Calidad de la Presentación

Calidad del Modelo de
Calidad del SGBD Calidad de los Datos
Datos

Calidad del Modelo Calidad del Modelo Calidad del Modelo
Conceptual Lógico Físico

3

Introducción (II)

• La calidad de los datos depende de:
 Los propios datos (extensión de los datos)
• Influyen en la efectividad de los procesos de negocio
(Dependencia de la Semántica de los negocios)
 El esquema de los datos (intensión de los datos)
• Influye en el ciclo de vida de los datos.
• Eg. Tablas no normalizadas convenientemente
• Pueden no dar el soporte para los aspectos de calidad
requerida por el usuario.
 Procesos Técnicos sobre los datos (SGBD):
• Pueden no implementar mecanismos que aseguren:
– Que no se producen errores en los datos
– Que los datos satisfagan los requisitos de los usuarios.
• Pueden depender de la calidad de los procesos o de la
utilización de ciertos recursos de la organización
• Están normalmente implementados sobre el SGBD y
dependen del soporte que de a esos procesos.

4

2

Introducción (III)

• Medición en la Calidad de los Datos
 Para tener una idea cuantitativa de cómo de bueno son los
datos para una aplicación es necesario medirlos.
 En las semanas anteriores se han presentado:
• Formalización de Medidas mediante SMO
• Método Alarcos para la Definición de Métricas
– Validación Teórica de Métricas
– Validación Empírica de Métricas
 A continuación se van a presentar algunas medidas para
medir la calidad de los datos de los sistemas de
información en el esquema de los datos y en los propios
datos.
• Se ha necesitado adaptar SMO a DQ obteniendo DQMO.
 Es importante tener en cuenta la necesidad de
automatizar todas estas métricas definiendo previamente
los planes de medida necesarios.
5

Introducción (IV)

• Método Alarcos de Definición de Métricas
Métrica Retirada
Reutilización
IDENTIFICACIÓN

OBJETIVOS HIPÓTESIS ACREDITACIÓN

Objetivos

Requisitos Realimentación

CREACIÓN

Objetivos
DEFINICIÓN DE MÉTRICAS APLICACIÓN

Métricas Aceptadas

Métricas No
Aceptadas

VALIDACIÓN EMPÍRICA ACEPTACIÓN
VALIDACIÓN
TEÓRICA
CASOS DE
APROX AXIOM EXPERIMENTOS ENCUESTAS
ESTUDIO
TEORIA DE LA
MEDIDA

EXPLICACIÓN PSICOLÓGICA

Métricas Válidas 6

3

Medición del Modelo Conceptual de Datos 4. Medición de los Propios Datos 6. Medición del Modelo de Datos 3. • Calidad del Producto – Calidad del Modelo Conceptual – Calidad del Modelo Lógico • Calidad del Proceso – Calidad de Cómo se desarrolla el Modelo Conceptual – Son tratadas en Moody (1998) y Maier (2001) 8 4 . Bibliografía y Referencias 7 Medición del Modelo de Datos •Calidad de los modelados conceptuales  Se puede decir que de la calidad de los modelos conceptuales depende el resto de calidades. Introducción 2. Medición del Modelo Lógico de Datos 5. Índice 1. Planes de Medición de Calidad de Datos 8. Ontología de la Medición de Calidad de los Datos 7.

Medición del Modelo de Datos (II) •Dimensiones (Propiedades) de Calidad de Datos para los Modelos Conceptuales Autores Propiedades Compleción. Redman (1996) Corrección con respecto a los requisitos. legibilidad. Corrección con respecto al modelo. extensibilidad y normalidad.  Algunos de estos marcos establecen dimensiones pero no las métricas (medidas en SMO) ya que su definición es compleja debido a la dependencia del usuario y de la utilización que vaya a hacer de esos datos. Reingruber y Gregory (1994) corrección sintáctica.  A continuación se exponen los marcos más importantes (Piattini et al. Batini et al. 2006) 10 5 . Boman et al. Grado de Normalización. minimalidad. (1992) expresividad. Corrección conceptual. Compleción. compleción sintáctica. conocimiento de la empresa. autoexplicación.. Facilidad de comprensión. Legibilidad. corrección. Minimalización. enfoque conceptual. compleción. compleción conceptual. (1997) estabilidad. corrección semántica. Pertinencia 9 Medición del Modelo de Datos (III) • Utilización  Se establecen Marcos de Referencia (conocidos en SMO como Modelos de Calidad) que organizan y estructuran los conceptos claves y características en el modelado conceptual de los datos.

Ontología de la Medición de Calidad de los Datos 7. Bibliografía y Referencias 11 Medición del Modelo Conceptual de Datos •Propuesta de Lindland et al. Índice 1. Medición del Modelo Lógico de Datos 5. Consistencia Validez viable Semántica formal Semántica Inserción sentencias Compleción viable Modificabilidad Borrado sentencias Inserción sentencias Semántica percibida Borrado sentencias Entrenamiento Inspección Visualización Filtrado Economía expresiva Presentación diag. Medición del Modelo de Datos 3. (1994) Medios Tipos de calidad Objetivos Propiedades modelo Actividades Corrección Sintáctica Sintaxis formal Verif. Planes de Medición de Calidad de Datos 8. Medición del Modelo Conceptual de Datos 4. Sintáctica sintáctica Verif. Medición de los Propios Datos 6. Estética Comprensión Parafrasear Pragmática Explicación viable Entrenamiento Ejecución Ejecutabilidad Animación Simulación Análisis punto vista Social Acuerdo viable Modelado conflicto Resolución conflicto Fusión de modelos 12 6 . Introducción 2.

Medición del Modelo Conceptual de Datos (II) •Propuesta de Moody y Shanks (1994) Factor de calidad Métricas Nº de elementos del modelo de datos que no corresponden con requisitos de usuario Nº de requisitos de usuario no representados en el modelo de datos Compleción Nº de elementos de datos que corresponden a requisitos de usuario pero definidos de forma inexacta Nº de inconsistencias con el modelo de procesos Nº de reglas del negocio que no se hacen cumplir por el modelo de datos Integridad Nº de restricciones de integridad incluidas en el modelo de datos que no corresponden a políticas del negocio Nº de elementos en el modelo que están sujetos a cambios en el futuro Flexibilidad Costes estimados de los cambios Importancia estratégica de los cambios Valoración de los usuarios sobre la comprensibilidad del modelo Comprensibilidad Capacidad de los usuarios de interpretar el modelo correctamente Valoración de los desarrolladores de aplicaciones sobre la comprensibilidad del modelo Nº de violaciones de las convenciones de modelado de datos Corrección Nº de violaciones a las formas normales Nº de instancias de redundancia en el modelo Nº de entidades Simplicidad Nº de entidades e interrelaciones Nº de constructores (aNE + bNR + cNA) Nº de conflictos con el modelo de datos corporativo Integración Nº de conflictos con los sistemas existentes Valoración de los representantes de todas las áreas de negocio Valoración de riesgo técnico Valoración de riesgo de planificación Implementabilidad Estimación del coste de desarrollo Nº de elementos físicos incluidos en el modelo de datos 13 Medición del Modelo Conceptual de Datos (III) •Propuesta de Shanks y Darke (1997) T IPO S D E Enfoque D O M I IO M E D IO S C A L ID A D teó rico ad ecu ad o es logrado clasifica p ara p or con tien e rep resen ta tien e conocim iento L E  G U A JE de O B JE T IV O usad o P R O P IE D A D en ad ecu ad o para M ODELO s e correspond e A U D IE  C IA in terp reta con se correspon d e A C T IV ID A D con se ocup a O de es asign ado es lograd o por asign a u sado por FACTOR DE C A L ID A D P E SO es asign ad o valu ado p or M ETODO DE E nfoque VALORES pu ntú a E V A L U A C IO  práctico 14 7 .

Medición del Modelo Conceptual de Datos (IV) •Propuesta de Kesh (1995) Calidad Funcionamiento Ontología Usabilidad Usabilidad Mantenibilidad (usuario) (diseñador) Precisión Rendimiento Estructura Contenido Adecuación al ambiente Compleción Validez Cohesión Consistencia Validez Concisión 15 Medición del Modelo Conceptual de Datos (V) •Propuesta de Schuette y Rotthowe (1998) Principios Objetivos Consenso a cerca de la definición de la definición del problema Consenso a cerca de la representación del modelo Principio de adecuación de la Consistencia intra-modelo construcción Consistencia inter-modelo Minimalidad Corrección del lenguaje Adaptación del lenguaje Principio de adecuación del Poder semántico lenguaje Formalización Comprensibilidad del lenguaje Consenso Principio de la eficiencia La comprensibilidad y aplicación del lenguaje económica Comparabilidad estructura sistemática Diseño jerárquico Diseño del esquema Principio de claridad Filtrado Filtros metódicos Filtros de contenido Consistencia inter-modelo entre los modelos de la estructura y el Principio del diseño sistemático comportamiento Arquitecturas de los sistemas de información Comparabilidad a nivel de meta modelo Transformación completa Principio de comparabilidad Traducción consistente Comparabilidad a nivel del modelo 16 8 .

Bibliografía y Referencias 18 9 . compuestos y multivaluados. Planes de Medición de Calidad de Datos 8. 17 Índice de Contenidos 1. teniendo en cuenta los atributos de las relaciones como A los de las entidades. refR Número total de Relaciones Reflexivas que existen en un modelo ER. R Número total de Relaciones en una modelo ER. M:R Número total de Relaciones M:N en un modelo ER. teniendo en cuenta solamente relaciones comunes. Medición del Modelo de Datos 3. En IS_AR este caso. Número total de Relaciones Es_Un (generalización/especialización) que existen en un modelo ER. En este número se incluyen atributos simples. -AryR Número total de Relaciones N-arias (no binarias) en un modelo ER. dentro de la relación Es_Un. BinaryR Número total de Relaciones Binarias en un modelo ER. Ontología de la Medición de Calidad de los Datos 7. Medición del Modelo Conceptual de Datos (VI) •Propuesta del Grupo Alarcos ombre Definición E Número total de Entidades dentro de un modelo ER. RR Número de Relaciones Redundantes en un modelo ER. Introducción 2. CA Número total de Atributos Compuestos en un modelo ER. se considera una relación por cada par padre-hijo. DA Número total de Atributos Derivados en una modelo ER. Medición del Modelo Lógico de Datos 5. 1:R Número total de Relaciones 1:N (incluyendo también relaciones 1:1) en un modelo ER. Número total de Atributos en un modelo ER. MVA Número total de Atributos Multivaluados en un modelo ER. Medición del Modelo Conceptual de Datos 4. Medición de los Propios Datos 6.

• Medidas  Para Bases de Datos Relacionales  Para Bases de Datos Multidimensionales 19 Medición del Modelo Lógico de Datos (II) •Para Bases de Datos Relacionales (1/3) Métrica Notación Definición Número de NA(T). Atributos de Number of definida como el número de atributos de una tabla T una Tabla Attributes NFK(T). referenciales del grafo que se forma. tomando la tabla T del Árbol Depth of the como el nodo raíz del grafo y todas las tablas relacionadas Referencial de Referential con T mediante integridad referencial como el resto de una Tabla Tree. Medición del Modelo Lógico de Datos • Criterios de Medición del Modelo Lógico  Para las mediciones del modelo lógico. la mayoría de los estudios se ha basado en la Teoría de la Normalización para bases de datos relacionales. son claves ajenas Claves Ajenas Ratio of FK (T ) de una Tabla Foreign Key RFK (T ) = A(T ) 20 10 . nodos y siendo las relaciones de integridad referencial los arcos del mismo definida como el porcentaje de atributos de la tabla T que Ratio de RFK(T). Número de Number of definida como el número de claves ajenas de una tabla T Claves Ajenas Foreign Keys Definida como la profundidad máxima de todos los caminos Profundidad DRT(T).

esquema que son claves ajenas Ratio de Claves Ajenas Ratio of FK Foreign Key RFK = A 22 11 . siendo los nodos de este grafo las tablas del Cohesión del esquema y los arcos las relaciones de integridad Cohesion of the Esquema. Number of T Attributes A = ∑ A(Ti ) i =1 21 Medición del Modelo Lógico de Datos (IV) • Para Bases de Datos Relacionales (3/3) Métrica Notación Definición definida como el número total de claves NFK. esquema como los nodos y las relaciones Profundidad del Árbol Depth of the de integridad referencial como los arcos del Referencial Referential mismo Tree DRT = max iT =1 ( DRT (Ti )) definida como el porcentaje de atributos del RFK. esquema. T 3 F Ratio de Normalidad. R = Normality Ratio T Siendo NT3NF es el número de tablas en 3NF definida como el número total de atributos que hay en el NA. definida como el número total de tablas que hay en el Número de Tablas. Medición del Modelo Lógico de Datos (III) •Para Bases de Datos Relacionales (2/3) Métrica Notación Definición NT. ajenas que hay definidas en el esquema Número de Claves Ajenas Number of T Foreign Keys FK = ∑ FK (Ti ) i =1 Definida como la profundidad máxima de todos los caminos referenciales del grafo que se forma tomando las tablas del DRT. esquema Número de Atributos. esquema Number of Tables definida como la suma del número de tablas al cuadrado que hay en cada componente no conexa del grafo del COS. referencial Schema |US | COS = ∑ TUSi i =1 definida como la relación entre el número de tablas en tercera forma normal (o superior) entre el número total de tablas NR.

NFK(S) Número de claves ajenas de una estrella Ratio de atributos de la estrella. Ratio de de tablas dimensionales compartidas. Número de atributos de las tablas dimensionales RScA(Sc) dividido por el número de atributos de las tablas de hechos RFK(Sc) Ratio de claves ajenas. Cantidad de tablas dimensionales por cada tabla de hechos Ratio de atributos del esquema. Cantidad de tablas dimensionales RSDT(Sc) que están relacionadas con más de una estrella RT(Sc) Ratio de tablas. Número de atributos de las tablas RSA(S) dimensionales dividido por el número de atributos de las tabla de hechos Ratio de claves ajenas. Número de atributos RSDTA(Sc) del esquema que son compartidos 24 12 . Número de atributos que son claves ajenas Ratio de atributos de las tablas dimensionales compartidas. Medición del Modelo Lógico de Datos (V) • Métricas a Nivel de Estrella Métrica Descripción NDT(S) Número de tablas dimensionales de una estrella NT(S) Número de tablas de la estrella NADT(S) Número de atributos de las tablas dimensionales de una estrella NAFT(S) Número de atributos de la tabla de hechos de la estrella NA(S) Número de atributos de la estrella. Número de atributos de la tabla de hechos RFK(S) que son claves ajenas 23 Medición del Modelo Lógico de Datos (VI) •Métricas a nivel de Esquema para DW Métrica Descripción NFT(Sc) Número de tablas de hechos del esquema NDT(Sc) Número de tablas de dimensión del esquema NSDT(Sc) Número de tablas dimensionales compartidas por más de una estrella NT(Sc) Número de tablas del esquema NAFT(Sc) Número de atributos de las tablas de hechos del esquema NADT(Sc) Número de atributos de las tablas de dimensión del esquema NASDT(Sc) Número de atributos de las tablas de dimensión compartidas NA(Sc) Número de atributos del esquema NFK(Sc) Número de claves ajenas del esquema.

Ontología de la Medición de Calidad de los Datos 7.  Como las métricas se definen para esas dimensiones.  No existe un conjunto de dimensiones universales porque cada autor define las que mejor se adaptan a su contexto. también dependen fuertemente del contexto y son poco exportables a otros contextos y por tanto poco generalizables.  Tradicionalmente se han desarrollado métricas ad hoc para dimensiones de calidad identificadas a partir de las necesidades de los usuarios.  Muchos autores presentan sus propios modelos de calidad (en terminología SMO) o conjunto de dimensiones de calidad que mejor se adaptan a su propio problema. 26 13 . Planes de Medición de Calidad de Datos 8. Bibliografía y Referencias 25 Medición de la Calidad de los Propios Datos • Aspectos de Medición para Calidad de los Propios Datos:  Es necesario medir para Gestionar la Calidad de los propios datos. Medición del Modelo Lógico de Datos 5. Índice 1. Medición del Modelo Conceptual de Datos 4. Medición del Modelo de Datos 3. Medición de los Propios Datos 6. Introducción 2.

1999)  Experiencias de los autores.  Representación Impropia. Valor añadido. • Ciclo de Vida de los datos (Redman.  Vista del sistema por parte del autor.  Contextual • Relevancia. Medición de la Calidad de los Propios Datos (II) • Vista ontológica de la realidad (Wand y Wang..  Intuición de los autores. .  Representación de los datos. Seguridad en el acceso.. Corrección del Formato. Compleción. . 1996)  Vista Conceptual • Contenido. Objetividad..  Naturaleza de la deficiencia..  Compleción.... aceptada y  Accesibilidad utilizada • Accesibilidad. • Tipos de investigaciones (Huang et al. Alcance. 1996)  Calidad de los datos. • Strong et al. Nivel de Detalle..  Representacional • Interpretabilidad. Actualidad. . compleción de valores....  Valores de los Datos • Exactitud. . Credibilidad... Características. oportunidad. . (1997) identifica las siguientes:  Intrínsecas La más • Precisión. facilidad de comprensión . .  Calidad Pragmática • Oportunidad. 27 Medición de la Calidad de los Propios Datos (III) • English (1999) distingue dos categorías de dimensiones:  Calidad inherente • Exactitud de los datos. .. 28 14 .... • Portabilidad....

29 Medición de la Calidad de los Propios Datos (V) • Algunas Dimensiones relacionadas con el Tiempo:  Oportunidad (Timeliness) • Expresa cómo de actuales son los datos para una tarea. – Ejemplo: » Se le quiere mandar una felicitación de Navidad a una persona que cambió de dirección postal 30 15 . – Ejemplos: » Cuando se dejan valores sin almacenar en una base de datos. Si se toma la decisión pasado t’ con el dato que se tenía en el momento t las consecuencias de la decisión probablemente no serán las mismas. – Ejemplos: » Cotizaciones de Valores de Bolsa: si llega un dato en un instante t y hay que decidir realizar una acción antes de un instante t’ en el que con toda probabilidad ese dato va a cambiar. Medición de la Calidad de los Propios Datos (IV) • Algunas Dimensiones inherentes a los datos:  Accuracy (exactitud/precisión) • Definida como la diferencia entre el valor real v y el valor almacenado en la base de datos v’ – Ejemplos: » Una persona se llama “Ismael” y en la base de datos aparece “Ishmail” (sintatic accuracy) » Una persona se llama “Ismael” y en la base de datos aparece como “Ramón” (semantic accuracy)  Compleción • Definida como la medida en la que los datos tienen suficiente alcance o profundidad para la tarea que se está realizando”. bien porque no se conocen. – Ejemplos: » Fechas de Nacimiento no varían (Volatilidad 0). » Cotizaciones de Valores de Bolsa (gran volatilidad)  Actualidad (Currency) • Se refiere al retraso que se puede producir al actualizar los datos. bien porque no existen.  Volatilidad (Volatility) • Caracteriza la frecuencia con la que los datos varían en el tiempo.

Ontología de la Medición de Calidad de los Datos 7. Medición de los Propios Datos 6. Medición del Modelo Lógico de Datos 5. Introducción 2. Bibliografía y Referencias 32 16 . Planes de Medición de Calidad de Datos 8. Medición del Modelo de Datos 3. 31 Índice 1. – Ejemplo: » Violación de las reglas de integridad de identidad » Violación de las reglas de integridad referencial » Violación de las reglas de integridad de dominio • Otras dimensiones:  Accesibilidad • Determinar el grado en el que un usuario puede acceder a los datos. Medición del Modelo Conceptual de Datos 4. Medición de la Calidad de los Propios Datos (VI) • Dimensiones Relacionadas con la Integridad  Consistencia (Consistency) • Captura la violación de las reglas semánticas definidas para un conjunto de datos.

2005) debe ser ampliado para responder a esas preguntas porque es necesaria una Ontología de Medida de Calidad de Datos que permita coordinar todos estos conceptos. Ontología de la Medición de la Calidad de Datos Muchas Preguntas Ejemplo de Medida (Escala Tipo Ratio) ¿Se deben ¿Es el momento aportar datos ¿Es subjetiva la adecuado para el que complementen ejecutar la percepción delpersonas ¿Hay criterio? significado delmedición? dato en la responsabilizadas de la dirección marcada por la ¿Cuántas medición? ¿Cómo se define dimensión? el personas deberían Criterio? opinar? ¿A quién hay que úmeroDeUn ¿Es idadesDeDatosQueoSa posible automatizar tisfacenUn presentarle los Criterio CDMedida = 1 −el proceso de medición? resultados y en qué úmeroTota lDeUnidadesDeDatos formato? ¿Cuántas Unidades ¿Cuántas Unidades de Datos hay de Datos hay que/es viable que/es viable observar? ¿Es legal acceder a esos observar? ¿Se puede acceder a los datos? localizadas/ ¿Están datos para medirlos? ¿Interfiere el proceso de identificados los medición en otros atributos medibles procesos de la donde están los datos? organización? 33 Ontología de la Medición de la Calidad de Datos • Medición de la Calidad de los Datos (DQMIM):  Algunas Preguntas previas a la medición y su solución: • ¿Qué objetivo se tiene al medir la calidad de los datos? – Sub-Ontología de Caracterización y Objetivos de Medida • ¿Qué entidades (esquemas y/o datos) se necesitan medir para lograr el objetivo? ¿Qué dimensiones se necesitan medir sobre esas entidadese? – Sub-Ontología de Medidas de Calidad de Datos • ¿Qué procedimientos se utilizarán para medir? – Sub-Ontología de Formas de Medir • ¿Quién quiere medir? ¿Cuándo va a medir? ¿Cómo se van a gestionar los resultados? – Sub-Ontología de Medición. • ¿Para quién se va a medir? ¿cómo se le tienen que presentar los resultados? ¿Quién es el propietario de las entidades? – SMO (García et al. 34 17 ..

Bases de Datos XML.. … medición de sus atributos Categoría de Una colección de entidades Bases de Datos Relacionales.. … de Calidad de información Entidad Un objeto que va a ser Base de Datos “Academia”. Ejemplos concretos de proporciona la base para Redman. física o conceptual. Wang. número de comparten todas las entidades atributos con typos de una categoría de entidad Modelo de Conjunto de Conceptos Medibles Modelo de Calidad de ISO Calidad y las relaciones entre ellos que 9126.* 1... Temporalidad. riesgos.* 1.* 0... caracterizado mediante una Tabla “Empleados”. Número de tuplas de una tabla. … específicos especificar y ealuar la calidad de para un contexto (*) las entidades 36 18 .. Necesidad de Información 1.* 1. Correción. Ficheros de cierto predicado común Texto.* 0. Dimensiones Medible atributos atributos y necesidades Precisión. que número de atributos. Ontología de la Medición de la Calidad de Datos (II) Sub-Ontología de Caracterización y Objetivos de Medida.* Categoría de Entidad tiene Atributo 0. hitos.* pertenece a 0..* 1 1.* Entidad compuesta de 35 Ontología de la Medición de la Calidad de Datos (III) Elementos de la Sub-Ontología Concepto Descripción Ejemplos para DQ (*) Necesidad Información necesaria para Conocer el nivel de exactitud de de gestionar un proyecto (sus los datos que un determinado Información objetivos.. …) BP utiliza para generar su IP Concepto Relación abstracta entre Exactitud.* está relacionado con 1 0.* * sub-Concepto Medible relaciona definido para incluye 0...* Modelo de calidad evalúa Concepto Medible clase 1. Entidad caracterizadas por satisfacer un Ficheros XML. Atributo Una propiedad mensurable.* 1 1...

• Para cada contexto se podría llegar a definir un Modelo de Calidad válido para ese contexto. Ontología de la Medición de la Calidad de Datos (IV) •Aspectos Particulares:  Concepto Medible: • Se corresponde con las dimensiones de calidad vistas en las transparencias anteriores tanto para esquema como para los propios datos  Entidad: • Particularizaciones de las categorías de entidad  Categorías de Entidad: • Se referirían a cualquiera de las entidades de la figura.  Modelo de Calidad • Se refiere al conjunto de dimensiones que se aplican sobre una determinada entidad (o categoría de entidad) para medir un concepto medible sobre uno de los atributos. pero nos centraremos en los modelos y en los propios datos. 37 Ontología de la Medición de la Calidad de Datos (V)  Atributo • Se refiere a algo físico o conceptual que se pueda medir. 38 19 . • Muchas veces la dificultad está en identificar esos atributos.

. Escala relación entre los valores de la Ratio y Absoluta escala Unidad de Una cantidad particular..* 1 0. Ontología de la Medición de la Calidad de Datos (VI) Sub-Ontología de las Medidas de Calidad De Datos Atributo (from Caracterización y Objetivos) 1.* Unidad de Medición 0.* 0. la que se puede comprar otras cantidades de la misma clase para expresar sus magnitudes respecto a esa cantidad particular 40 20 ..1 se define para expresada en 0..* 1. Ordinal..* se transforma en Medida tiene Escala 1.. función de cálculo.. Intervalo.. DQ Atributo Véase Sub-Ontología “Caracterización y Objetivos” Medida La forma de medir (método de La medida “grado de usabilidad medición. o de la tabla proveedores” puede modelo de análisis) y la escala ser definida para realizar de medición mediciones de la “compleción” de “la tabla proveedores” de la base de datos de productos. Escala Un conjunto de valores con Ratio (porcentaje) propiedades definidas Tipos de Indica la naturaleza de la Nominal.* pertenece a 1 Tipo de Escala Medida Base Medida Derivada Indicador 39 Ontología de la Medición de la Calidad de Datos (VII) Elementos de la Sub-Ontología Concepto Descripción Ejemplos para DQ Equiv. con tiene unidad como tal. definida Al ser la escala de tipo ratio no Medición y adoptada por convención.* 1.

para obtener una medida de los propios datos hay que usar medidas base sobre el esquema lógico. • En numerosas ocasiones. Ontología de la Medición de la Calidad de Datos (VIII) Elementos de la Sub-Ontología (II) Concepto Descripción Ejemplos para DQ Equiv. Por eso hay que integrar las medidas para los esquemas conceptuales y/o lógicos con la forma de medir la calidad de los propios datos.…  Medida Derivada: • Es el resultado de combinar varias medidas bases o derivadas según una función de cálculo. 42 21 . y cuya forma de medir Tupla T es un método de medición NTCAN(T): Número de Tuplas con Atributos Nulo de la Tabla (T) NTT(T)=Número de Tuplas de la Tabla (T) Medida Una medida qe es derivada de GC(T) = NTCAN(T) / NTT(T): Derivada otra base o derivada. 41 Ontología de la Medición de la Calidad de Datos (IX) • Aspectos Particulares:  Medida: • Son los valores que cuantitativamente indican la magnitud de un concepto medible sobre una entidad. Sus modelo de análisis como forma valores depende de GC(T) de medir. de una derivada o de un indicador.  Medida Base: • Es el resultado de medir directamente sobre la entidad: por ejemplo número de atributos. Esta medida es el resultado de una medición directa. número de tuplas. DQ Medida Base Una medida de un atributo que EsNull(atributo) no depende de ninguna otra NANT(T): Nº Atributos Nulo medida. Indicador Una medida que es derivada de UT (T) nos dice cómo de otras medidas utilizando un usable es una tabla (T). utilizando Grado Compleción de la Tabla una función de cálculo como T forma de medir.

. del Modelo de Temporalidad.* (from Medidas Software) Necesidad de Información (from Caracterización y Objetivos) 0..* usa usa calculada con calculado con usa 1 0.* usa Medida Base Medida Derivada Indicador (from Medidas Software) (from Medidas Software) (from Medidas Software) 1.* 0. Accesibilidad Valor de los Datos) Relevancia Exactitud.* 1 1 Método de Medición Función de Cálculo Modelo de Análisis 0..* 1...* Forma de Medir (from Acción de Medir) Criterio de Decisión 44 22 . – Medidas Independientes del Modelo de Datos • Dependencia del Contexto de los datos – Medidas Dependientes (relacionadas con Reglas de Negocio) – Medidas Independientes (son propias del esquema de la base de datos) Dependientes Independientes de Contexto de Contexto (Comparativas o Semánticas) (Calculadas) Independientes Fiabilidad. Ontología de la Medición de la Calidad de Datos (X)  Clasificaciones Medidas: • Dependencia del Modelo Lógico – Medidas Dependientes del Modelo de Datos.* 1.. 43 Ontología de la Medición de la Calidad de Datos (XI) Sub-Ontologías de las formas de Medir Medida 1...* satisface 1.* usa 1. del Modelo de Cantidad Compleción Datos apropiada de datos..* 0.* 0.* 1..... Datos (Sólo del Credibilidad. Compleción. Dependientes Consistencia.

Ontología de la Medición de la Calidad de Datos (XII) Elementos de la Sub-Ontología Concepto Descripción Ejemplos para DQ Equiv. usadas para realizar el valor null. DQ Criterio de Valores Umbral. descrita de forma atributos de una tupla que tiene genérica. Algoritmo o cálculo Dividir el NTCAN e una tabla T realizado para combinar dos o entre su NTT más medidas base y/o derivadas Modelo de La forma de medir un indicador. DQ Necesidad Véase Sub-Ontología “Caracterización y Objetivos” de Información Método de La forma de medir una medida Contar si un atributo tiene el Medición base. para combiar una o más Puede ser necesario modelar medidas con criterios de el contexto en el que se usa la decisión asociadas tabla. Modelo de Análisis para decidir Análisis Algoritmo o cálculo realizado como de usable es una tabla T. o Si 0<GU(T)< 40% la tabla no Decisión patrones usados para es usable. o para describir el nivel de Si 81<GU(T)< 100% la tabla es confianza de un resultado dado muy usable. determinar la necesidad de una Si 41%<GU(T)< 80% la tabla acción o investigación posterior. Objetivos. Contar el número de operaciones. Secuencia lógica de valor null. mediciones de un atributo respecto de una escala específica Función de La forma de medir una medida GC(T) = NTCAN(T) / NTT(T): Cálculo derivada. Forma de Véase Sub-Ontología “Acción de Medir” Medir Indicador Véase Sub-Ontología “Medidas Software” Medida Véase Sub-Ontología “Medidas Software” Medida Base Véase Sub-Ontología “Medidas Software” Medida Véase Sub-Ontología “Medidas Software” Derivada 46 23 . es aceptablemente usable. 45 Ontología de la Medición de la Calidad de Datos (XIII) Elementos de la Sub-Ontología (II) Concepto Descripción Ejemplos para DQ Equiv.

• Es frecuente que para obtener una medida haya que comparar el valor del atributo o un valor relacionado con él con un valor umbral en el sentido del concepto medible. Ontología de la Medición de la Calidad de Datos (XIV) • Aspectos particulares:  Observaciones: • En ocasiones es preciso utilizar varias medidas base para llegar a una medida. V (T ) DA (T ) = A(T ) – Es importante observar que NA(T) es una medida base del esquema del modelo lógico en el que está la tabla T. – Tanto el esquema conceptual como el lógico tienen que dar soporte para el almacenamiento de los valores relacionados con los propios datos. • Ejemplo: – Para medir la compleción (concepto medible) de una tupla (entidad). 1998) • Las relacionadas con los propios datos suelen basarse en una comparación objetiva con las reglas de negocio  Método de Medición • Sirve para describir cómo obtener una medida base. Implica una secuencia de pasos finitos y ordenados que explican como obtener un valor para dicha medida base. 48 24 . Por ejemplo. contar el número de valores nulos de una tabla. • Es necesario que el SGBDR de soporte a las reglas de negocio y que éstas se implementen. Se aplica cuando la medida no necesita basarse en aspectos subjetivos de los usuario. se puede definir la Densidad de Atributos Nulos (medida derivada) como la proporción del Número de Atributos Nulos (medida base) que tiene una determinado tupla (atributo) y dependerá tanto del número de atributos como del número de valores nulos para esa tupla. (Wang. – Ejemplos: » Contar el número de valores nulos que hay para una tupla NVN(Tupla) » Contar el número de atributos de una tabla (NA(T)) » Contar el número de valores que no pertenecen al dominio de un atributo 47 Ontología de la Medición de la Calidad de Datos (XV)  Función de Cálculo • Es el “método de medición” para una medida derivada a partir de una o varias bases.

» Ejemplo: Se quiere conocer el grado de confiabilidad de unos datos y se le pregunta al usuario qué opina sobre ese dato. comparando ese valor de FechaUltimaActualización con por ejemplo FechaDelSistema. – Comparación subjetiva con la opinión de un usuario expresada en forma cuantitativa. Ontología de la Medición de la Calidad de Datos (XVI)  Modelo de Análisis • Se aplica cuando para calcular la medida es necesario establecer ciertos criterios para poder comparar el valor del dato u otro relacionado con él con un valor umbral para el concepto medible con sentido en el contexto de los datos. habría que almacenar en la base de datos la fecha en la que se produjo la última actualización y tener un criterio de decisión que decida si está o no actualizada. • Donde y cómo almacenar estos datos: – Misma base de datos (Añadir reglas de negocio específicas para juzgar) » Es importante decidir dónde se puede/debe almacenar este valor. » Fiabilidad/Confianza de una fuente externa de datos. pero sería necesario definir una serie de reglas de negocio.  Proporcionando Valores extras • Sirven como base para juzgar la calidad de los datos. – Cuando en vez del valor del dato se necesite comparar con otro valor asociado es preciso adaptar el esquema de la base de datos para que de soporte al almacenamiento de estos nuevos valores. Esta comparación puede ser: – Comparación objetiva con un valor umbral proporcionado y accesible. » Ejemplo: en función de la diferencia de los datos correspondientes a los valores de bolsa que hayan sido guardados en la base de datos antes de la hora de la última transacción (guardada en otra base de datos) la medida tomará un valor mayor o más pequeño. 49 Ontología de la Medición de la Calidad de Datos (XVII) • Como caracterizar el Contexto  Mediante Reglas de Negocio • A través de Restricciones de Integridad: – Integridad de Entidad – Integridad Referencial – Integridad de Columna: Dominios – Restricciones Semánticas • Cómo se implementan: – Mediante la implementación de los distintos de restricciones » Accesibles a través del diccionario de datos (metadatos) – Mediante procedimientos almacenados – Mediante Disparadores – Mediante Programación externa. 50 25 . » Ejemplo: Si se quisiera saber si una tupla está actualizada.

 Proporcionados  V (T ) VP(T )  NVN(T)=Número de Valores Necesarios  Tasa de Actualidad de los Datos s   Actualidad (T )   S= Sensibilidad del TasaOportunidad (T ) = max (1 − ).. 2006)  Grado de Adherencia a las restricciones de Integridad de una tabla T: • Integridad de Entidad: úmerodePKulas (T ) GAIE (T ) = 1 − NT=Número de Tuplas T (T ) • Integridad Referencial: úmerodeFKoExistentes(T ) NT=Número de Tuplas GAIR(T . 2006) (2)  Grado de Consistencia de una Tabla (T) VTC (T ) NVTC=Número de GC (T ) = 1 − Violaciones de Tipo de Consistencia T (T )  Grado de Credibilidad de una tabla: GC (T ) = min(GC (TO ). por lo que habría que identificar dichas entidades y adaptar la definición a ellas. GC (T ' )) TO=Tabla Origen T’= Comparación Lógica  Cantidad Apropiada De Datos: NVP(T)=Número de  VP(T ) V (T )  Valores TCAD (T ) = min  . TD ) = 1 − T (TD ) TD= Tabla Dependiente • Integridad de Atributo o Columna (Accuracy): VI ( A) NVI(A)= Número de GAIA( A) = 1 − Valores Incorrectos del Atributo A T ( A) NT=Número de Tuplas  Compleción de una Tabla VC (T ) NVNC(T)= Número de C (T ) = 1 − Valores no Completos de la tabla T T (T ) NT=Número de Tuplas 1 Muchas de estas métricas se pueden definir de la misma forma sobre distintas entidades.0  Contexto   Volatilidad (T )   52 26 .. Ontología de la Medición de la Calidad de Datos (XVIII) •Algunos ejemplos de Formas de Medir1 (Lee et al. 51 Ontología de la Medición de la Calidad de Datos (XIX) •Algunos ejemplos de Formas de Medir (Lee et al.

Ontología de la Medición de la Calidad de Datos (XX) Sub-Ontología de la Acción de Medir. Entidad Atributo (from Caracterización y Objetivos) (from Caracterización y Objetivos) 1 1 se realiza sobre se realiza sobre * * 1 ejecuta * Medición Forma de Medir instanteTemporal * 1 usa produce 1 1 Resultado de la Medida Medición (from Medidas Software) valor 53 Ontología de la Medición de la Calidad de Datos (XXI) Elementos de la Sub-Ontología Concepto Descripción Ejemplos para DQ Equiv. función de cálculo resultado de la medición. función de generalización de ellas (véase cálculo. ya que la forma de medir puede ser un forma de medir es una método de medición. Una o modelo de análisis. o modelo de análisis sub-ontología formas de medir) Medición2 Conjunto de Operaciones que Acción consistente en usar la permite obtener el valor del forma de medir “Contar el resultado de la medición para número de valores nulos de un atributo de una entidad. DQ Atributo Véase Sub-Ontología “Caracterización y Objetivos” Entidad Véase Sub-Ontología “Caracterización y Objetivos” Forma de Secuencia de Operaciones cuyo Véanse ejemplos de método Medir objeto es determinar el valor del de medición. una tupla” para obtener el usando una forma de medir resultado de la medición del atributo “compleción de la tabla de proveedores ” Resultado Categoría o número asignado a Grado de usabilidad del 80% de la un atributo de una entidad como Medición resultado de una medición 2 En este concepto no se tiene en cuenta la posible necesidad de muestrear los datos que van a ser medidos 54 27 .

• Cómo se van a representar los resultados  El resultado es la Metodología CALIDAT para la definición de Planes de Medición de la Calidad de los Datos. Medición del Modelo de Datos 3. Medición del Modelo Conceptual de Datos 4. Planes de Medición de Calidad de Datos 8. Introducción 2. Medición del Modelo Lógico de Datos 5. • Cuándo se va a realizar • Dónde se va a almacenar los resultados • A quiénes se van a presentar. Ontología de la Medición de Calidad de los Datos 7. • Cómo se van a guardar según la Tecnología de la base de datos. Índice 1. Medición de los Propios Datos 6. 56 28 . 2001) indicar: • Dónde se va a realizar la medida • Qué datos van a ser incluidos en la medida • El dispositivo de medición • La escala de la medición  Proponemos completar estos pasos con los conceptos presentados en la Ontología de la Medición: • Quién va a realizar la medición • Cómo se va a modelar el contexto para poder comparar • Dónde se van a guardar los valores para ciertos conceptos medibles necesarios. Bibliografía y Referencias 55 Metodología CALIDAT Planes de Medición • Planes de Medición  El proceso de medición influye en la propia medida  Es necesario desarrollar planes de Medición  Por cada métrica/medida es necesario (Redman.

FuenteInformación varchar2(5) ). FechaTerminación date. CREATE TABLE candidatos ( Nombre varchar2(20). 1995) Alumno IdSelectividad IdCarrera Smith NS001 NC001 Hackman NS002 NC002 IdCarrera Valorota Fecha Fuente NC001 7 30/07/95 ESI NC002 8 29/07/94 ESI IdSelectividad Valorota Fecha Fuente NS001 8 30/10/90 MEC NS002 9 30/06/90 MEC 57 Metodología CALIDAT Tablas Anidadas •Uso de Tablas Anidadas para almacenar valores sobre los valores. Metodología CALIDAT Uso de Subrogados •Uso de Subrogados para almacenar valores sobre los valores (Wand y Wang. NotaMediaCarrera Nota) 58 29 . NotaSelectividad Nota. CREATE TYPE Nota AS OBJECT ( ValorNota number.

4. 3. 4. 2.3. 1. estructura de anteriores. (Catálogo de la BD) Identificación Identificaciónde delas las necesidades de necesidades de información información Objetivos de ecesidades de Información 1. que van a ser medidos. Definición Definicióndedelos los Criterios de Decisión Criterios de Decisión Criterios de Decisión 60 30 .2. Medición Medicióndede Atributos Atributosde de Valoración de la Calidad. 1. o es suficiente la Sirven resultados 2.1. 59 Metodología CALIDAT Actividad 1 – Visión Global Estándares internos de documentación de resultados Documentación del Sistema de Requisitos de calidad del usuario. Medidas.3. Metodología CALIDAT Visión Global Requisitos de 1. Medibles temporal y de los atributos de las entidades 1. Atributos calidad.1. Atributosde de Sólo se necesitan Calidad Calidad nuevas mediciones. Calidad. Documentación del Sistema de calidad de Usuario Identificación Almacenamiento de Datos Identificación de deObjetivos Objetivosyy Medidas. 1. 4. Identificación Identificaciónde delos los Identificación Identificacióndedelas las Conceptos Medibles Entidades y sus Conceptos Medibles Entidades y sus Lista de Conceptos atributos a valorar atributos a valorar Medibles Lista de Conceptos Localización física. 1. Almacenamiento de Datos 1.2.4. 1. 1. 3. Calidad de Datos. Creación Creacióndedeuna una calidad Análisis Análisisyy Naturaleza Naturaleza Estructura Estructuradede Evaluación Evaluacióndede Objetivo Objetivo calidad.

1 Requisitos de calidad del usuario. Resultados Encuestas las y entrevistas lasnecesidades necesidades de deinformación. información. 1. Metodología CALIDAT Actividad 1 – Tarea 1. ecesidades de Identificación Identificaciónde de Información.2.1.1 del usuario. 1.2. Formas de Definición Definiciónde de Medir las lasFormas Formasdede Medir Medir 62 31 .2. 1. Estándares de documentación 61 Metodología CALIDAT Actividad 1 – Tarea 1.1. Conceptos Conceptos ecesidades de Medibles Medibles Información 1.2 Requisitos de calidad 1. 1.2.1 Identificación Identificación Conceptos de delos los Medibles.2.2.

3 1. Agenda para la Requisitos de calidad Elección Elecciónde delos los momentos medición del usuario. medir.3.4. 64 32 . Documentación del Esquema (Catálogo de la BD). Identificación Lista de las fuentes de Identificaciónde delas las fuentes fuentesde dedatos. 1. momentosde demedición medición de datos yyde evaluación de evaluación Estándares de documentación.3. 1.3. 1.4.3. 1. 1. 1.3.3.3. lógica de los datos.4.2.3. Localización Localizacióndedelos los Ubicación física y/o atributos atributosaamedir. 1. Determinación Determinacióndedelala Parámetros del ecesidades de cantidad cantidadde dedatos datosaa Información valorar. muestreo valorar.1. datos 63 Metodología CALIDAT Actividad 1 – Tarea 1.2.3.3. 1. datos.4 Requisitos de calidad del usuario. Metodología CALIDAT Actividad 1 – Tarea 1.4.1. 1. Criterios de Decisión Identificación Identificación de delos loscriterios criterios de dedecisión decisión ecesidades de Información.

1. Indicadores de Ampliacióndel del Implementación Implementación Esquema Esquema en Calidad Conceptual enun unSGBD SGBD Conceptualcon conlos los determinado.1. 2.2.2 2.1. 2. con Calidad.3.1 SGBD: •Relacional Requisitos del •Objeto-Relacional usuario para la BD.2 2. Ampliación 2.1. ¿Hay estructura de estructura Calidad? de (Catálogo de la BD) SI Calidad? ¿Es necesario NO ¿Es necesario modificarla? modificarla? SI 2.1.1.1. Crear Crearuna unaBD BD Modificar Modificarla la Crear Crear NO con Calidad.1. Metodología CALIDAT Actividad 2 – Visión Global Contexto Modelado ¿Hay base de ¿Hay base de SI datos? datos? Documentación del Sistema de Almacenamiento de ¿Hay O datos.1.1. Indicadores Indicadoresdede Calidad Calidad Esquema Físico. 2. 2. determinado. Lógico.2. 2. Diseño Diseño Conversión Conversióndeldel Esquema Esquema esquema esquemaE/R E/R Conceptual Conceptual extendido extendidoal al Esquema EsquemaLógico. 66 33 . 2.1. estructura estructurade de estructura estructuradede calidad calidad Calidad Calidadpara paraBD BD Estructura de Calidad creada 65 Metodología CALIDAT Actividad 2– Tarea 2.1.3. 2. 2. 2.4.4.3.3. Esquema Entidad / Esquema Entidad / Interrelación con Esquema relacional / Interrelación atributos de calidad objeto-relacional 2.

1.2. 2.2. calidad. 2.3. 68 34 .3.2 2.6.5.3.4. calidad.2.2.4. 2.3.3.3. 2.3. campo campopara parael el valorar.3.4. 2. 2. para paracada cadauna una con conlos losvalores valores de delas lasfilas filasdel del de delalaorigen origen subrogado subrogado 67 Metodología CALIDAT Actividad 2 – Tarea 2.2.1. tabla. Determinar Determinarel el Determinar Determinarel el Insertar Insertarenenla la tipo tipode dedato datodel del tipo tipode dedato datodel del tabla tablaorigen origenun un atributo atributoaa subrogado.2. 2. subrogado. 2. valorar.3.2. subrogado.2.2.5.2.3.2. 2. Metodología CALIDAT Actividad 2 – Tarea 2. de decalidad. 2. 2.4. Rellenar Rellenarlala Crear Crearla latabla tabla Crear Crearununvalor valor tabla tabla destino destino destino. calidad. 2.2.6.2. 2.1.2. Borrar Borrarunun Agregar Agregarun un Agregar Agregarun un Modificar Modificarlas las atributo atributodede atributo atributodede atributo atributodede características características calidad calidadde deuna una calidad. 2.3 ¿Qué ¿Qué acción acciónse se desea? desea? 2.3. 2. subrogado. 2.2. calidad. 2.2. de deun unatributo atributo tabla.3. destino. 2.1.

1.2 2.2 ¿Quedan ¿Hay ya algún ¿Quedan ¿Hay ya algún más atributos? atributo? más atributos? atributo? o Sí o Sí 2. Las Lasnecesidades necesidadesdede Las Las necesidadesde necesidades de Información Informaciónnono Información Información requieren requierennuevas requieren nuevas requieren nuevas nuevas mediciones.1 2.3 – Subtareas 2. 3.3.1. más más 69 Metodología CALIDAT Actividad 3 – Visión Global o ¿Es Sí ¿Es necesario necesario medir? medir? 3.2 Deshacer Deshacerelel Borrar Borrarelel Añadir Añadirelelindicador indicador Crear Crearuna unatabla tabla subrogado subrogado subrogado subrogadosin sin normalmente normalmente destino destinonueva.1. 70 35 .2. nueva.3.1 2.3.1 2. mediciones.2 2. mediciones. 3.1.3.3.2.2 2.3.3.1 2.2. 3.3.2.2.2.3.1 y 2.1.1. mediciones.3. Metodología CALIDAT Actividad 2 – Tarea 2.

1 Sí Calcular 4.2.5. Ejecución EjecuciónPlan Plan o Muestreo Muestreo 4.3.2.2. 4. 3. Calcularparámetros parámetros 4. Representación Representaciónde Replanificación de Replanificacióndel del los los Muestreo Muestreo resultados.3. 3.2.2.2. calidad.2. datos.3.1. 4. segúntipo tipode de análisis análisis arealizar. 4.2. 3.2.2.4.3. necesarios Calcular necesariospara paraelel Calcularestadísticos estadísticos muestreo.5. almacenamiento almacenamiento Generación Generaciónde de de de estenuevo este nuevo un un nuevovalor nuevo valor valor valoren ensu susitio sitio para paraelelindicador indicador correspondiente correspondiente 71 Metodología CALIDAT Actividad 4 – Visión Global o se requiere muestreo ¿Se requiere Sí ¿Se requiere muestreo? muestreo? 4. ¿Se admite la ¿Se admite la muestra? muestra? 4. 3. 3. según muestreo. 3.5.5.2. Recogida Recogidade de Recuperación Recuperación Comparación Comparaciónde de valores valoresde delala del delvalor valordel del ambos ambosenenlala fuente fuentedededatos.1.1 4.4. 3.4.2. 3.2. 4. resultados. sistema sistemade de dimensión dimensiónde de almacenamiento almacenamiento calidad.2. a realizar. 72 36 .4. 3. Metodología CALIDAT Actividad 3 – Tarea 2 3.

Ontología de la Medición de Calidad de los Datos 7. Bibliografía y Referencias 74 37 . Medición del Modelo Conceptual de Datos 4. Metodología CALIDAT Resultados que deberían Obtenerse 18 16 Porcentaje de Desfase 14 12 10 Datos inválidos encontrados 8 6 Datos con 4 Datos formato 2 Redundantes inadecuado 0 15% 7% Datos 1 2 3 4 5 6 7 8 9 Inexactos 25% Número de Datos Datos Incompletos 53% Datos Inválidos Encontrados Datos Materia Métodos Mano 15 o revisan los Redundantes l El SGBDR no da Obra datos Datos Incompletos 54 soporte suficiente o se recogen o recoge bien los bien los datos datos El SGBDR tiene Datos Inexactos 25 o se fallos El hardware tiene Varios fallos almacenan bien Datos con formato los datos Catálogo 7 inadecuado s por Datos irrelevantes “Hay goteras” Persona 0 10 20 30 40 50 60 Datos Inexactos Datos Incompletos Materias Medio Ambiente Primas 73 Índice 1. Medición del Modelo Lógico de Datos 5. Planes de Medición de Calidad de Datos 8. Medición del Modelo de Datos 3. Medición de los Propios Datos 6. Introducción 2.

Artech House Publishers. USA. (1999). (1992). et al. NY. Improving Data Warehouse and Business Information Quality: Methods for reducing costs and increasing Profits. S. D. PA. • Shanks. • Huang. et al. (2001).. “Quality in Conceptual Modelling: Linking Theory and Practice”. W. S. Developing quality complex databases systems: practices. Ra-Ma. Inc. • García. Boston.. (1999). G. C. "Anchoring Data Quality Dimensions in Ontological Foundations. Quality Information and Knowledge. Scannapieco (2006). Y. "Evaluating the Quality of Entity Relationship Models. (1997). Journey to Data Quality. C. Conceptual database design. What Makes A Good Data Model? Evaluating The Quality of Entity Relationships Models. (1996). M. • Reingruber. Upper Saddle River. M. y. USA. Madrid. Calidad de Sistemas Informáticos. USA. Springer-Verlag Berlin Heidelberg. (1998). Data Quality for the Information Age. D.. "Understanding Quality in Conceptual Modelling. F. P. Y. • Redman." Communications of the ACM 40(5): 103-110. Y. et al. O. and R. Prentice Hall." Information and Software Technology. ((1997)). Y. "Towards a consistent terminology for software measurement. (1995).. Berlin." IEEE Software 11(2): 42-49.. Massachussets Institute of Technology. K. C. 75 Bibliografía y Referencias (II) • Moody.. S. and M. • Lee.. Lee. MA. • Wand. et al. Bubenko. "Data Quality in Context. M. Proceedings of the 13th International Conference on Conceptual Modelling (ER ´94). Proceedings of the Seventeenth International Conference on Conceptual Modelling (ER ´98). Hershey. Lee. Proc." Information and Software Technology 48(2006): 631- 644. Benjamin Cummings Publishing Company. et al. • Lindland. Queensland University of Technology. Pacific Asia Conference on Information Systems. T. D. Bibliografía y Referencias • Batini. and W. F. Metrics For Evaluating the Quality of Entity Relationship Models. G. L. Singapore. García. Brisbane. and S.. G. Data Quality: Concepts.. John Wiley & Sons. The Data Modelling Handbook. A best-practice approach to building quality data models.. Cambridge. Wang (1996). (2006). Methodologies and Techniques. (1994). • Maier. Prentice-Hall. USA. W. UK.. Willey & Sons. • Moody. MA. Pipino. M. NJ. Y. C.. Special Issue on Controlled Experiments in Software Engineering 37(12): 681-689. • Boman. (2006). • English. L. • Kesh. USA. (2005). et al. B. Idea Group Publishing: 1- 27. R. et al. Sindre. Organizational concepts and measures for the evaluation of data modelling. L. ((1997)). • Batini. • Piattini. Manchester. W. An entity relationship approach. D. Bertoa. • Strong. techniques and technologies." Communications of the ACM 39(11): 86-95. M. Conceptual Modelling. T. Gregory (1994). et al. F.. J. (1994). 76 38 . New York.