Professional Documents
Culture Documents
Data WareHousing
Inteligencia
de Negocios
Metodología
Kimball
Modelo
Planeamiento Modelado Modelado Minería de
del ETL
del Proyecto Dimensional Físico Datos
Negocio
Reportes
Tabla de Contenido
• Antecedentes
• Metodología Kimball
– Planificación del proyecto
– Requerimientos del Negocio
– Línea tecnológica
• Arquitectura tecnológica
• Selección e instalación de productos
– Línea de datos
• Modelo dimensional
• Modelo físico
• ETL
– Línea de aplicación del BI
• Diseño del BI
• Desarrollo del BI
– Despliegue
• Despliegue
• Crecimiento
• Mantenimiento
Objetivos
1. Presentar los enfoques para el desarrollo de DWH
2. Presentar la metodología de Kimball
ANTECEDENTES
Metodologías OLAP / OLTP
Sistemas de Información Data Warehouse
• Los procesos a automatizar son • El uso de los datos es
repetibles y previsibles. exploratorio y menos predictible.
• Modelado Entidad Relación. • Modelado multidimensional.
• Atención en una rápida • Enfocado en la carga y la
modificación en línea de los presentación de los datos
datos.
• Inteligencia de Negocios.
– Reportes y análisis de datos almacenadas en el DWH
– Data warehouse/business intelligence (DW/BI) se refiere al sistema
completo de extremo a extremo.
Metodologías para el DWH
Top-Down Bottom-Up Hybrid Federated
Profesional Bill Inmon Ralph Kimball Muchos profesionales Doug Hackney
Diseño Modelo normalizado El modelo dimensional Modelos locales y uno o Una arquitectura de
basado en la empresa de datamarts, usa mas esquemas de arquitecturas; comparte
esquema de estrella estrella dimensiones, hechos,
reglas, definiciones a
través de la organización
Arquitectura Compuesto de varios Área de interés y Modelo empresarial Realidad del cambio en
niveles de áreas de datamarts normalizado de alto organizaciones y
interés y datamarts nivel; sistemas
dependientes datamarts iníciales.
Data set DWH datos a nivel Contiene datos atómicos Carga datamarts con Uso de cualquiera
atómico; y sumarizados datos atómicos y significado posible para
datamarts datos sumarizados vía un área integrar las necesidades
sumarizados de interés no persistente de negocio
Historia de DWH
Inmon.
1990 Publica Building the Data Warehouse
2002 Mejora su libro y define una arquitectura como
una colección de fuentes dispares en
almacenes de datos detalles y variantes en el
Top-Down
tiempo.
Kimball
1996 Publica The Data Warehouse Toolkit
2002 Mejora su libro y define multiples bases de
datos llamados datamarts que son
organizados por procesos de negocio, pero
usan medios de datos estandarizados para la Botton-Up
empresa.
Enfoques acerca del DWH
• Bill Inmon Normalizado.
– Building the Data Warehouse
– Corporate Information Factory
DB Design
Análisis
Ejecución
Diseño del
Sistema detallado
Comprobación
Ejecución
Operación
Mantenimiento Mantenimiento
Kimball LifeCycle System Development Life Cycle Data Base Life Cycle
Ciclo de Vida
• Planificación del proyecto
• Requerimientos del Negocio
• Línea tecnológica
– Arquitectura tecnológica
– Selección e instalación de productos
• Línea de datos
– Modelo dimensional
– Modelo físico
– ETL
• Línea de aplicación del BI
– Diseño del BI
– Desarrollo del BI
• Despliegue
– Despliegue
– Crecimiento
– Mantenimiento
Planificación del programa/proyecto
• Visión de programas y proyectos de Kimball
– Proyecto, se refiere a una iteración simple del KLC
Desde el lanzamiento hasta el despliegue.
• Actividades:
– Monitoreo del estado de los procesos y actividades.
– Rastreo de problemas
– Desarrollo de un plan de comunicación comprensiva
que direccione la empresa y las áreas de TI
Línea de desarrollo
• Luego de definir los requerimientos del negocio, enfocar el
proyecto a tres líneas (tracks) concurrentes:
– Tecnología
– Datos
– Aplicaciones de BI
• El flujo de actividad de las líneas, se indican por las
flechas
• La dependencia entre tareas se indican por el alineamiento
vertical de las tareas
Ejercicio 1
• Identifique roles para el equipo de desarrollo de un DWH
Ejercicio 1
• Identifique roles para el equipo de desarrollo de un DWH
• Requerimiento de datos
– Fuente de datos
– Calidad de datos y limpieza de datos
– Almacenamiento de datos
– Carga de datos
Proceso de definición de requerimientos
Bus Matrix
• Relaciona los procesos organizacionales a las entidades u
objetos que participan en el proceso.
• Cada fila es un proceso y cada columna una dimensión
Priorización de Procesos
Recolección de Requerimientos
• Quién va ha ir a recoger los requerimientos?.
• Evaluación y selección de
– Plataforma de hardware
– DBMS (base de datos)
– Herramienta ETL
– Herramientas de consultas (query tools)
– Herramienta de reportes.
• Instalación de productos/componentes/herramientas.
ETL
Modelado dimensional
• Análisis de los datos de un proceso de
negocio para:
– identificar la granularidad de las tablas
de hechos
– dimensiones y atributos asociados
– hechos numéricos.
• Contiene los mismos datos y relaciones
que un modelo normalizado en la 3FN,
pero estructurado de manera diferente.
• Mejora el entendimiento y desempeño de
consultas al DW
• Las construcciones primarias son:
– Tablas de hechos
– Tablas de dimensiones
Modelado dimensional – tabla de hechos
• Contiene métricas derivadas de un
proceso de negocio o un evento.
– Ventas, contabilidad, logística, etc.
• Ventajas:
– Es apropiado si se presenta alguna de las
siguientes condiciones:
• Una dimensión es esparcida
• Una dimensión tiene una lista muy
larga de atributos