You are on page 1of 59

Metodologías para el

Data WareHousing

Ing. Agustín Ullón


Mapa del Curso

Inteligencia
de Negocios

Metodología
Kimball

Modelo
Planeamiento Modelado Modelado Minería de
del ETL
del Proyecto Dimensional Físico Datos
Negocio

Reportes
Tabla de Contenido
• Antecedentes
• Metodología Kimball
– Planificación del proyecto
– Requerimientos del Negocio
– Línea tecnológica
• Arquitectura tecnológica
• Selección e instalación de productos
– Línea de datos
• Modelo dimensional
• Modelo físico
• ETL
– Línea de aplicación del BI
• Diseño del BI
• Desarrollo del BI
– Despliegue
• Despliegue
• Crecimiento
• Mantenimiento
Objetivos
1. Presentar los enfoques para el desarrollo de DWH
2. Presentar la metodología de Kimball
ANTECEDENTES
Metodologías OLAP / OLTP
Sistemas de Información Data Warehouse
• Los procesos a automatizar son • El uso de los datos es
repetibles y previsibles. exploratorio y menos predictible.
• Modelado Entidad Relación. • Modelado multidimensional.
• Atención en una rápida • Enfocado en la carga y la
modificación en línea de los presentación de los datos
datos.

DWH no es solamente crear un conjunto de reportes que corren periódicamente.


Se trata de preguntas que hay que alcanzar y que puede llevar a lugares imprevistos.
Conceptos Clave
• Datamart. Repositorio de datos especifico.
– Diseñado para responder las preguntas específicas.
– Diseñado para servir las necesidades de unidades de negocio
(ventas, comercialización, operaciones, contabilidad, etc.)
– Es construido usando modelado dimensional

• Data warehouse. Repositorio de datos organizacional


– Almacena datos de toda la empresa y de todas las áreas.
– Es una colección empresarial de datamarts.
– Contiene data masiva e integrada

• Inteligencia de Negocios.
– Reportes y análisis de datos almacenadas en el DWH
– Data warehouse/business intelligence (DW/BI) se refiere al sistema
completo de extremo a extremo.
Metodologías para el DWH
Top-Down Bottom-Up Hybrid Federated
Profesional Bill Inmon Ralph Kimball Muchos profesionales Doug Hackney

Énfasis DWH DataMarts DWH y DataMarts Integrado a entornos BI


heterogéneos

Diseño Modelo normalizado El modelo dimensional Modelos locales y uno o Una arquitectura de
basado en la empresa de datamarts, usa mas esquemas de arquitecturas; comparte
esquema de estrella estrella dimensiones, hechos,
reglas, definiciones a
través de la organización

Arquitectura Compuesto de varios Área de interés y Modelo empresarial Realidad del cambio en
niveles de áreas de datamarts normalizado de alto organizaciones y
interés y datamarts nivel; sistemas
dependientes datamarts iníciales.

Data set DWH datos a nivel Contiene datos atómicos Carga datamarts con Uso de cualquiera
atómico; y sumarizados datos atómicos y significado posible para
datamarts datos sumarizados vía un área integrar las necesidades
sumarizados de interés no persistente de negocio
Historia de DWH
Inmon.
1990 Publica Building the Data Warehouse
2002 Mejora su libro y define una arquitectura como
una colección de fuentes dispares en
almacenes de datos detalles y variantes en el
Top-Down
tiempo.

Kimball
1996 Publica The Data Warehouse Toolkit
2002 Mejora su libro y define multiples bases de
datos llamados datamarts que son
organizados por procesos de negocio, pero
usan medios de datos estandarizados para la Botton-Up
empresa.
Enfoques acerca del DWH
• Bill Inmon  Normalizado.
– Building the Data Warehouse
– Corporate Information Factory

• Ralph Kimball -> Dimensional.


– The Data Warehouse Lifecycle Toolkit
– The Data Warehouse Toolkit
Enfoques acerca del DWH
• Bill Inmon  Top-Down
– El DWH usa modelo de datos de toda la empresa
– El DWH es un depósito de datamarts
– Más tiempo para implementar.
– Fracasos por falta de paciencia y de compromiso

• Ralph Kimball -> Bottom-Up


– Inicia con un datamart, luego otros datamarts.
– El flujo de datos: fuente  datamart
datamart  DWH
– Rápido de implementar, por etapas
– Necesita asegurar:
• La consistencia de la metadata.
• Estar seguro que cada cosa es llamado por su nombre.
ENFOQUE INMON
El modelo Inmon
• Consiste de todas las bases y sistemas de información de
una organización
– Modelo CIF (Corporate Information Factory)
– Fabrica de Información corporativa.

• Define el medio ambiente de las bases de datos como:


– Operacional
– DWH atómico
– Departamental
– Individual

• El DH es parte de un todo más grande (CIF)


Modelado Inmon
Tres niveles en el modelado de los datos
• Entidad Relación
– Relaciones entre entidades, atributos y relaciones

• Modelo MID-Level (MID-Level Model o *DIS*)


– Conjunto de items de datos
– Conjunto de datos por departamento
– Cuatro construcciones:
1. Agrupamiento de datos primarios
2. Agrupamiento de datos secundarios
3. Conectores
4. Datos de “Tipo de”

• Modelo de datos físico


– Optimizado para mejor rendimiento (de-normalizado
Modelado Inmon
• Relación entre los niveles Uno y Dos del modelo de datos
de Inmon
ENFOQUE KIMBALL
Enfoque Kimball
• El modelo dimensional se inicia con tablas:
– De hechos
– De dimensiones
• Los hechos contienen metricas
• Las dimensiones contienen atributos
– Puede contener grupos de datos repetidos
• Los datos no están normalizados
• Accesible al usuario final
El ciclo de vida Kimball
El ciclo de vida Kimball
• Ilustra el flujo general de implementación de un DWH.

• Identifica secuencia de tareas ordenadas y actividades


principales que debe suceder concurrentemente.

• Muchas necesidades deben ser acomodadas para lograr


única necesidad de la organización.

• No todos los detalles de las tareas del ciclo de vida deben


ser ejecutados en todos los proyectos.
Ciclos de vida KLC, SDLC, y DBLC

Planificación DB Initial Study

DB Design
Análisis

Ejecución
Diseño del
Sistema detallado
Comprobación

Ejecución
Operación

Mantenimiento Mantenimiento

Kimball LifeCycle System Development Life Cycle Data Base Life Cycle
Ciclo de Vida
• Planificación del proyecto
• Requerimientos del Negocio
• Línea tecnológica
– Arquitectura tecnológica
– Selección e instalación de productos
• Línea de datos
– Modelo dimensional
– Modelo físico
– ETL
• Línea de aplicación del BI
– Diseño del BI
– Desarrollo del BI
• Despliegue
– Despliegue
– Crecimiento
– Mantenimiento
Planificación del programa/proyecto
• Visión de programas y proyectos de Kimball
– Proyecto, se refiere a una iteración simple del KLC
Desde el lanzamiento hasta el despliegue.

– Programa, se refiere a la amplia coordinación


progresiva de recursos, infraestructura, tiempos y
comunicación a través de múltiples proyectos
Un programa contiene proyectos múltiples

• En la realidad los programas no necesariamente inician


antes del proyecto, aunque debería ser así.
Planificación del programa/proyecto
• Planificación de proyecto.
– Definir el alcance ↔ Entender los requerimientos
del negocio.
– Identificar tareas
– Programación de tareas
– Planificar el uso de los recursos.
– Asignar la carga de trabajo a los recursos
– El documento final representa un plan del proyecto.
Administración del programa/proyecto
• Refuerza el plan del proyecto.

• Actividades:
– Monitoreo del estado de los procesos y actividades.
– Rastreo de problemas
– Desarrollo de un plan de comunicación comprensiva
que direccione la empresa y las áreas de TI
Línea de desarrollo
• Luego de definir los requerimientos del negocio, enfocar el
proyecto a tres líneas (tracks) concurrentes:
– Tecnología
– Datos
– Aplicaciones de BI
• El flujo de actividad de las líneas, se indican por las
flechas
• La dependencia entre tareas se indican por el alineamiento
vertical de las tareas
Ejercicio 1
• Identifique roles para el equipo de desarrollo de un DWH
Ejercicio 1
• Identifique roles para el equipo de desarrollo de un DWH

• Front Office: Sponsor y Directores

• Ejecutivos: Jefe de Proyecto, Líder Proyecto del Negocio.

• Línea regular: Equipo de proyecto principal.


– Analista del sistema de negocio
– Modelador de datos
– DBA
– Diseñador ETL

• Desarrollador de aplicaciones para el usuario final.

• Equipos especiales: Seguridad, Calidad


Ejercicio 1
Ejercicio 2
• Identifique los recursos necesarios para el desarrollo del
proyecto.
Ejercicio 2
• Identifique los recursos necesarios para el desarrollo del
proyecto.

• Los recursos pueden ser:


– Humanos
– Equipamiento
– Servicios de terceros
– Tiempo
Ciclo de Vida
• Planificación del proyecto
• Requerimientos del Negocio
• Línea tecnológica
– Arquitectura tecnológica
– Selección e instalación de productos
• Línea de datos
– Modelo dimensional
– Modelo físico
– ETL
• Línea de aplicación del BI
– Diseño del BI
– Desarrollo del BI
• Despliegue
– Despliegue
– Crecimiento
– Mantenimiento
Definición de requerimientos del negocio
• El éxito del proyecto depende de una comprensión sólida
de las necesidades de negocio.

• Comprender los factores claves que dirigen el negocio es


crucial para traducir exitosamente las necesidades de
negocio en las consideraciones de diseño
Requerimientos del Negocio
• Requerimientos de uso de información
– Tipo de información que las personas necesitan.
– Tipo de análisis.

• Requerimiento de datos
– Fuente de datos
– Calidad de datos y limpieza de datos
– Almacenamiento de datos
– Carga de datos
Proceso de definición de requerimientos
Bus Matrix
• Relaciona los procesos organizacionales a las entidades u
objetos que participan en el proceso.
• Cada fila es un proceso y cada columna una dimensión
Priorización de Procesos
Recolección de Requerimientos
• Quién va ha ir a recoger los requerimientos?.

• Los usuarios pueden ser clasificados como:


– Ejecutivos Senior
– Administradores de departamentos clave
– Analistas de negocio
– DBA de sistemas operacionales
– Personal de TI

• Los ejecutivos senior le darán un sentido de dirección y


alcance para su almacén de los datos.
Ciclo de Vida
• Planificación del proyecto
• Requerimientos del Negocio
• Línea tecnológica
– Arquitectura tecnológica
– Selección e instalación de productos
• Línea de datos
– Modelo dimensional
– Modelo físico
– ETL
• Línea de aplicación del BI
– Diseño del BI
– Desarrollo del BI
• Despliegue
– Despliegue
– Crecimiento
– Mantenimiento
Diseño de la arquitectura tecnológica
• Marco arquitectural completo del proyecto

• Consideraciones a tomarse en cuenta:


– Las necesidades de negocio
– Medio ambiente tecnológico actual
– Dirección técnica estratégica planeada.
Selección de producto e instalación
• Basado en la arquitectura técnica diseñada.

• Evaluación y selección de
– Plataforma de hardware
– DBMS (base de datos)
– Herramienta ETL
– Herramientas de consultas (query tools)
– Herramienta de reportes.

• Instalación de productos/componentes/herramientas.

• Prueba de productos instalados para garantizar la


integración de extremo a extremo con el entorno del DWH.
Ciclo de Vida
• Planificación del proyecto
• Requerimientos del Negocio
• Línea tecnológica
– Arquitectura tecnológica
– Selección e instalación de productos
• Línea de datos
– Modelo dimensional
– Modelo físico
– ETL
• Línea de aplicación del BI
– Diseño del BI
– Desarrollo del BI
• Despliegue
– Despliegue
– Crecimiento
– Mantenimiento
Línea de datos

Diseño del modelo dimensional Diseño del modelo físico

ETL
Modelado dimensional
• Análisis de los datos de un proceso de
negocio para:
– identificar la granularidad de las tablas
de hechos
– dimensiones y atributos asociados
– hechos numéricos.
• Contiene los mismos datos y relaciones
que un modelo normalizado en la 3FN,
pero estructurado de manera diferente.
• Mejora el entendimiento y desempeño de
consultas al DW
• Las construcciones primarias son:
– Tablas de hechos
– Tablas de dimensiones
Modelado dimensional – tabla de hechos
• Contiene métricas derivadas de un
proceso de negocio o un evento.
– Ventas, contabilidad, logística, etc.

• El MD debe ser estructurado


alrededor de un proceso del negocio

• Se diseña vistas similares y


consistentes de los datos para toda la
organización.

• La granularidad de la tabla de hechos,


debe ser el más atómico posible
• Esto permite mayor flexibilidad y
extensibilidad.
Modelado dimensional – tabla de dimensiones
• Contiene la descripción de atributos y
características asociadas con medidas de eventos
tangibles y específicos, tales como clientes,
productos, representantes de ventas.

• Los atributos de dimensión son usados por limitar,


agrupar, o rotular una pregunta.

• Las relaciones jerarquicas N:1 son


denormalizadas en tablas de dimensión simples.
Esquema de estrella
• Una tabla de hechos
• Varias tablas de dimensiones.
• Ejemplo:
– Asuma este esquema para una cadena de venta al por menor.
– El hecho puede ser el ingreso de dinero.
Esquema de copo de nieve
• Es una variación del esquema de estrella.
• Es un esquema más complejo que el esquema de
estrella porque las tablas que describen las
dimensiones están normalizadas.
Esquema de copo de nieve
• Desventajas:
– Las tablas de hecho ocupan +90% del
almacenamiento, (el beneficio es poco).
– Normalizar las tablas de dimensión pueda
deteriorar la ejecución de un DWH.

• Ventajas:
– Es apropiado si se presenta alguna de las
siguientes condiciones:
• Una dimensión es esparcida
• Una dimensión tiene una lista muy
larga de atributos

• En la práctica, muchos DWH


normalizarán algunas dimensiones y
otros no (usan una combinación de
copo de nieve y de estrella)
Diseño físico
• Preparando el entorno de base de datos.

• Preparando la seguridad apropiada.

• Estrategia preliminar de afinamiento (tuning) de indexación


y agregación.

• Si son apropiadas las bases de datos OLAP que se


diseñan durante este proceso.
ETL Diseño y desarrollo
• Es la fase más importante.
– Corresponde al 70% del riesgo y esfuerzo de un proyecto de DWH.
– Capacidades de sistema ETL:
• Extracción
• Limpieza y conformidad
• Entrega y administración
ETL
• Los datos en bruto son extraídos de los sistemas
operacionales y transformados en información significativa
para el negocio

• Los procesos ETL deben diseñados mucho antes que


cualquier datos sea extraída de la fuente

• Se verifica la calidad de los datos de entrada.


• Las condiciones de calidad de datos se controlan
continuamente
Ciclo de Vida
• Planificación del proyecto
• Requerimientos del Negocio
• Línea tecnológica
– Arquitectura tecnológica
– Selección e instalación de productos
• Línea de datos
– Modelo dimensional
– Modelo físico
– ETL
• Línea de aplicación del BI
– Diseño del BI
– Desarrollo del BI
• Despliegue
– Despliegue
– Crecimiento
– Mantenimiento
Aplicación del BI
• Aplicaciones que consultan,
analizan y presentan información
desde el modelo dimensional.

• Las aplicaciones BI entregan


valor al negocio desde la solución
DW/BI.

• La meta es entregar capacidades


al negocio para soportar y mejorar
la toma de decisiones.
1. Diseño de Aplicaciones BI.
2. Desarrollo de aplicaciones BI.
Aplicación del BI
• Diseño de Aplicaciones BI.
– Identifica las aplicaciones de BI
candidatas y interfaces de navegación
apropiadas
– Orienta las necesidades de los
usuarios.
– Produce la especificación de las
aplicaciones BI

• Desarrollo de aplicaciones BI.


– Configuración de la metadata del
negocio y de la infraestructura de
herramientas.
– Construcción y validación de
aplicaciones BI analíticas y
operacionales y un portal de
navegación.
Ciclo de Vida
• Planificación del proyecto
• Requerimientos del Negocio
• Línea tecnológica
– Arquitectura tecnológica
– Selección e instalación de productos
• Línea de datos
– Modelo dimensional
– Modelo físico
– ETL
• Línea de aplicación del BI
– Diseño del BI
– Desarrollo del BI
• Despliegue
– Despliegue
– Crecimiento
– Mantenimiento
Despliegue
• Si la planificación se ha ejecutado se
puede asegurar:
– Los resultados de las líneas de
tecnología, datos y aplicación del BI.
– Disponibilidad de la infraestructura de
capacitación y apoyo.

• El despliegue debe ser bien sincronizado.

• El despliegue debe ser aplazado si todas


las piezas, tales como entrenamiento,
documentación, y validación de datos, no
están listos para la liberación de
producción.
Mantenimiento
• Cuando el sistema esta en producción
• Incluye:
– Tareas técnico operacionales que
son necesarias para mantener el
sistema operando óptimamente.
• Monitorio del uso.
• Tuning del desempeño.
• Mantenimiento de la tabla de
índices.
• Backup del sistema.
• Apoyo permanente, capacitación y
comunicación con los usuarios finales
Crecimiento
• Los DWH tienden a expandirse
(si son exitosos)

• Es considerado como un signo


de éxito.

• Nuevos requerimientos deben


ser priorizados.

• Empezar el ciclo de nuevo


– Construir sobre las bases ya establecidas.
– Enfoque en los nuevos requerimientos
PREGUNTAS

You might also like