You are on page 1of 6

Kimball vs Inmon

Como hemos visto en la entrada anterior del Blog, estamos utilizando la metodologa desarrollada por

Kimball (y su enfoque dimensional), para la construccin de nuestro DW. Aunque existen

otras metodologias o enfoques para la construccin de un Data Warehouse, las mas importantes son la

propia de Ralph Kimball y la definida por Will Inmon (y su enfoque Enterprise Warehouse o CIF). Es ah

donde llegamos al que parece eterno dilema entre Kimball e Inmon.

Para entender las diferencias entre ambos enfoques, es necesario en primer lugar tener claro algun

concepto, como es la diferencia entre Data Warehouse y Data Mart ( Josep Curto nos lo explica muy bien

en su blog).

Definicin de Data Warehouse: Un Data Warehouse proporciona una visin global, comn
e integrada de los datos de la organizacin, independiente de cmo se vayan a utilizar
posteriormente por los consumidores o usuarios. Normalmente en el almacn de datos habr
que guardar informacin histrica que cubra un amplio perodo de tiempo. Pero hay ocasiones
en las que no se necesita la historia de los datos, sino slo sus ltimos valores, siendo adems
admisible generalmente un pequeo desfase o retraso sobre los datos operacionales. En estos
casos el almacn se llama almacn operacional (ODS, Operational Data Store).
Definicin de Data Mart: Podemos entender un Data Mart como un subconjunto de los datos
del Data Warehouse con el objetivo de responder a un determinado anlisis, funcin o
necesidad y con una poblacin de usuarios especfica. Al igual que en un data warehouse, los
datos estn estructurados en modelos de estrella o copo de nieve y un data mart puede ser
dependiente o independiente de un data warehouse. Por ejemplo, un posible usos sera para
el data mining.Qu diferencia existe entonces entre un data mart y un data warehouse? Su
alcance. El data mart est pensado para cubrir las necesidades de un grupo de trabajo o de un
determinado departamento dentro de la organizacin. Es el almacn natural para los datos
departamentales. En cambio, el mbito del data warehouse es la organizacin en su conjunto.
Es el almacn natural para los datos corporativos comunes.

Teniendo en cuenta esto, vamos a intentar realizar un resumen de los aspectos mas importantes de

cada una de las metodologas:

Paradigma Bill Inmon.


Bill Inmon ve la necesidad de transferir la informacin de los diferentes OLTP (Sistemas Transaccionales)

de las organizaciones a un lugar centralizado donde los datos puedan ser utilizados para el analisis (sera

el CIF o Corporate Information Factory). Insiste ademas en que ha de tener las siguientes

caractersticas:

Orientado a temas.- Los datos en la base de datos estn organizados de manera que todos
los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre
s.
Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la
organizacin, y dichos datos deben ser consistentes.
No voltil.- La informacin no se modifica ni se elimina, una vez almacenado un dato, ste se
convierte en informacin de slo lectura, y se mantiene para futuras consultas.
Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan
registrados para que los informes que se puedan generar reflejen esas variaciones.
La informacin ha de estar a los mximos niveles de detalle. Los Dw departamentales o datamarts son

tratados como subconjuntos de este Dw corporativo, que son construidos para cubrir las necesidades

individuales de analisis de cada departamento, y siempre a partir de este Dw Central (del que tambin

se pueden construir los ODS ( Operational Data Stores ) o similares).

Enfoque Inmon - DW Corporativo

El enfoque Inmon tambien se referencia normalmente como Top-down. Los datos son extraidos de los

sistemas operacionales por los procesos ETL y cargados en las areas de stage, donde son validados y

consolidados en el DW corporativo, donde ademas existen los llamados metadatos que documentan de

una forma clara y precisa el contenido del DW. Una vez realizado este proceso, los procesos de refresco

de los Data Mart departamentales obtienen la informacin de el, y con las consiguientes

transformaciones, organizan los datos en las estructuras particulares requeridas por cada uno de ellos,

refrescando su contenido.

La metodologia para la construccin de un sistema de este tipo es la habitual para construir

un sistema de informacin, utilizando las herramientas habituales (esquema Entidad

Relacion, DIS (Data Item Sets, etc). Para el tratamiento de los cambios en los datos, usa

la Continue and Discrete Dimension Management (inserta fechas en los datos para determinar su

validez para las Continue Dimension o bien mediante el concepto de snapshot o foto para las Discrete

Dimension).

Al tener este enfoque global, es mas dificil de desarrollar en un proyecto sencillo (pues estamos

intentando abordar el todo, a partir del cual luego iremos al detalle).

Paradigma Ralph Kimball.


El Data Warehouse es un conglomerado de todos los Data Marts dentro de una empresa, siendo una

copia de los datos transaccionales estructurados de una forma especial para el analisis, de acuerdo

al Modelo Dimensional (no normalizado), que incluye, como ya vimos, las dimensiones de
anlisis y sus atributos, su organizacin jerarquica, asi como los diferentes hechos de negocio

que se quieren analizar. Por un lado tenemos tablas para las representar las dimensiones y por otro

lado tablas para los hechos (las facts tables). Los diferentes Data Marts estan conectados entre si por la

llamada bus structure, que contiene los elementos anteriormente citados a traves de las dimensiones

conformadas (que permiten que los usuarios puedan realizar querys conjuntos sobre los diferentes data

marts, pues este bus contiene los elementos en comn que los comunican). Una dimensin conformada

puede ser, por ejemplo, la dimensin cliente, que incluye todos los atributos o elementos de analisis

referentes a los clientes y que puede ser compartida por diferentes data marts (ventas, pedidos, gestin

de cobros, etc).

Enfoque Kimball - Arquitectura Bus del DW

Este enfoque tambin se referencia como Bottom-up, pues al final el Datawarehouse Corporativo no es

mas que la unin de los diferentes datamarts, que estan estructurados de una forma comn a travs de

la bus structure. Esta caracteristica le hace mas flexible y sencillo de implementar, pues podemos

construir un Data Mart como primer elemento del sistema de anlisis, y luego ir aadiendo otros que

comparten las dimensiones ya definidas o incluyen otras nuevas. En este sistema, los procesos ETL

extraen la informacin de los sistemas operacionales y los procesan igualmente en el area stage,

realizando posteriormente el llenado de cada uno de los Data Mart de una forma individual, aunque

siempre respetando la estandarizacion de las dimensiones (dimensiones conformadas).

La metodologa para la construccin del Dw incluye las 4 fases que vimos en la entrada anterior del blog,

que son: Seleccin del proceso de negocio, definicin de la granuralidad de la informacin,

eleccin de las dimensiones de anlisis e identificacin de los hechos o mtricas. Igualmente

define el tratamiento de los cambios en los datos a travs de las Dimensiones Lentamente

Cambiantes (SCD).
Arquitectura BI (Parte II): El enfoque de William
H. Inmon

En la anterior entrada del blog, Arquitectura BI (Parte I), tuvimos un primer


acercamiento a los conceptos de Datawarehouse y Datamart donde, a
modo de introduccin, expuse una definicin bsica de estos dos
componentes fundamentales en la arquitectura de todo proyecto BI. Como
recordaris, termin explicando que a la hora de implantarlos existen
diferentes enfoques sobre las caractersticas y funciones de stos, siendo
los ms extendidos los de Bill Inmon y Ralph Kimball.

Para ir adentrndonos poco a poco en sus principales diferencias y poder llegar a determinar qu
opcin es la ms adecuada en nuestros proyectos, en esta entrada expondr las caractersticas
ms destacadas del enfoque de Inmon.
Para l, un datawarehouse ha de entenderse como un almacn de datos nico y global para toda
la empresa. Un repositorio que centralice los datos de los diferentes sistemas operacionales de
las organizaciones para que stos queden validados e integrados en una nica base de datos.
En este modelo, la premisa es que la informacin se almacene al mximo nivel de detalle
(garantizando la futura exploracin de los datos), permaneciendo invariable y no voltil, de
manera que los cambios que sufran los datos a lo largo del tiempo queden registrados sin que
puedan modificarse o eliminarse.

Estas son las claves fundamentales de la arquitectura defendida por Inmon, conocida como
Corporate Information Factory (CIF), donde el datawarehouse centraliza todos los datos de la
compaa para alimentar, a continuacin, pequeos datamarts temticos, que sern los puntos
de acceso para las herramientas de reporting. En este sentido, cada departamento tendr su
propio datamart, abastecido con la informacin del datawarehouse, listo para su anlisis y
explotacin.

Este enfoque de Inmon suele denominarse como una metodologa de trabajo Top-Down, ya
que se centra primero en una visin global de la compaa, para ir desmembrndola en pequeos
sets de datos departamentales. As, con esta arquitectura, todos los datamarts de la organizacin
estn conectados al datawarehouse, evitndose la aparicin de incongruencias y anomalas al
comparar los datos entre distintos departamentos.
En cuanto a la estructura interna del datawarehouse, para Inmon la prioridad es que el modelo
de datos est construido en tercera forma normal. Por dar una breve explicacin de lo que esto
significa, el proceso de normalizacin consiste en aplicar una serie de reglas o normas a la hora
de establecer las relaciones entre los diferentes objetos dentro de la base de datos. Con este
proceso de normalizacin se consiguen muchos beneficios, como evitar la redundancia de los
datos, mantener su integridad referencial, facilitar el mantenimiento de las tablas y disminuir el
tamao de la base de datos. Sin embargo, a diferencia de los datawarehouse desnormalizados,
las consultas exigen el empleo de queries mucho ms complejas, lo que dificulta el anlisis
directo de la informacin y el uso de las herramientas de reporting. De ah, la necesidad de
construir los datamarts que, como ya coment, estn basados en modelos dimensionales de
estrella o copo de nieve, diseos fcilmente explotables por estas herramientas de anlisis de
datos.

En la prxima entrada expondr el enfoque de Ralph Kimball para, a continuacin, poder hacer
una comparativa de los aspectos ms destacados de ambas visiones y establecer las bases para
determinar que esquema se adapta ms a nuestras necesidades a la hora de implantar un
proyecto de Business Intelligence.