You are on page 1of 33

Integracin de Datos en la

Organizacin

Objetivo

Presentar una taxonoma de requerimientos y


posibles soluciones, que pueda guiar en la seleccin
de una arquitectura apropiada a las necesidades
especficas de integracin de informacin en una
organizacin.

Agenda
1. Caracterizacin necesidades de integracin.
2. Tecnologas disponibles para hacer integracin.
3. Conclusiones.

Caracterizacin necesidades de
integracin
La mayora de las organizaciones poseen un alto
nmero de aplicaciones de misin crtica de las cuales
dependen para su normal funcionamiento.
Esas aplicaciones estn, generalmente, lgicamente
interconectadas.
Mantienen datos vigentes (poca o ninguna historia) y
estn optimizadas para una funcin especfica.
Informacin fragmentada en diferentes repositorios.

Caracterizacin necesidades de
integracin
Aplicaciones soportan consultas locales de tipo
operativo. Ejemplo: Cuntas rdenes pendientes
tenemos en este momento?.
En algunas situaciones se requiere integracin
dinmica de
datos operacionales vigentes de
diferentes fuentes. Ejemplo: Cual es el saldo total de
todos los productos de un cliente?.
Informacin mas estratgica requiere integrar datos
histricos de diferentes fuentes. Ejemplo: Predecir
comportamiento y valor futuro de un cliente.

Caracterizacin necesidades de
integracin
En la era del comercio electrnico, el enfoque CRM
requiere:
Visin completa y actualizada de los datos de todas las
interacciones del cliente, tanto presentes como pasadas.
Convertir datos en inteligencia del cliente.
Compartir hallazgos con todos los niveles de la organizacin.

Tecnologas Disponibles para Hacer


Integracin
Entre las principales se encuentran:
Herramientas de integracin funcional (EAI: Enterprise
Application Integration).
Bodegas de Datos y herramientas de extraccin,
transformacin y cargue (ETL).
Herramientas de captura, transformacin y flujo (CTF:
Capture, Transform and Flow).
Sistemas para manejo de datos
Enterprise Information Integration).

federados

(EII:

Herramientas de Integracin
Funcional (EAI)
Comunicacin Punto a Punto.
Solucin con mediador:

Conjunto de adaptadores y enrutador que mueve transacciones de


negocio en forma de mensajes entre aplicaciones interconectadas.
Adaptador para una aplicacin es responsable de la lgica para
crear y ejecutar mensajes.
Los Enrutadores son los encargados de coordinar el flujo de
mensajes basados en reglas de publicacin y suscripcin.
Mensajes en formato estndar independiente de aplicaciones
(XML?). Adaptador convierte en ambas direcciones.

Herramientas de Integracin
Funcional : Comunicacin Punto a
Punto

Solucin relativamente simple.


Ideal cuando nmero de aplicaciones que deben
intercambiar datos es muy reducido y esttico.
Nmero de interfaces crece exponencialmente con el
nmero de participantes.

Integracin Punto a Punto


Aplicacin A

Aplicacin B

Aplicacin C

Aplicacin D

Tomada de (1) Pgina 435

Herramientas de Integracin
Funcional: Mediador
Mediador EAI

OLTP
Aplicacin A
OLT
P

Cola de
Mensajes

OLTP
Adaptador
A

Cola de
Mensajes

OLTP
Adaptador
B

Cola de
Mensajes

OLTP
Base de Datos A

Cola de
Mensajes

OLTP
Aplicacin B
OLT
P
OLTP
Base de Datos B

<Mensaj
e XML >

Enrutador <Mensaj
e XML >

Tomada de (1) Pgina 442

Tomado de The Data Warehouse ETL Toolkit

Bodegas de Datos y Herramientas


ETL

Datos de diferentes fuentes heterogneas se integran y materializan en lo


que se llama una Bodega de Datos (Data Warehouse).

La Bodega puede verse como un conjunto de Almacenes de Datos (Data


Marts), cada uno correspondiendo a un tema de negocio: Mercadeo, Ventas,
Recursos Humanos, Financiero, etc.

Los Almacenes de Datos pueden estar fsicamente separados en repositorios


distintos.

Los Almacenes de Datos comparten datos que, si estn fsicamente


separados, deben mantenerse sincronizados (Conformes).

Bodegas de Datos y Herramientas


ETL
Fuentes de Datos

E.T.L.

Generador
Cubos
visualizadorOLAP

Herramienta Extraccin
Transformacin Cargue

Bodega de Datos

Cubos
Multidimensionales

Indicadores

Minera

Bodegas de Datos y Herramientas


ETL
Informacin detallada a nivel de la Bodega.
Modelo
de
Datos
MultiDimensional:
Hechos,
dimensiones, jerarquas entre atributos de dimensiones.
Informacin
agregada
en
forma
de
cubos
multidimensionales para facilitar anlisis del tipo: Qu
pas? Qu est pasando? Por qu pas? (Anlisis
OLAP: On-Line Analytic Processing).

Modelo MultiDimensional: Esquema


de Estrella
Dimensin

ALMACEN
IdAlmacen
Nombre
Direccion
Ciudad
Region
Dimensin
PRODUCTO
IdProducto
Nombre
Subcategoria
Categoria
...

Tabla de
Hechos
VENTAS
IdAlmacen
IdProducto
IdFecha
Cantidad
PesosVendidos
Costo
...

Dimensin
TIEMPO
IdFecha
Fecha
DiaSemana
Mes
Trimestre
...

Modelo MultiDimensional: Visin de


Cubos
Tiempo

Geografa

VENTAS

Producto

Bodegas de Datos y Herramientas


ETL

Bodegas tradicionales se actualizan con procesos de ETL en lote (Batch),


generalmente nocturnos, que pueden tardar varias horas. Actualizacin puede
ser diaria, semanal, quincenal, mensual ... dependiendo del grado de
actualizacin requerido.

Hechos nuevos se aaden. A veces se modifican, si son acumulativos.


De las dimensiones se toman fotos (Snapshots) de cmo estn en un punto
del tiempo, y se alimentan a la Bodega.
Generalmente se lleva historia de evolucin de las dimensiones.

Bodegas de Datos y Herramientas


ETL
ETL, Proceso complejo:
Evitar duplicados (Por ejemplo, en la dimensin Cliente)
Asignar llaves surrogadas.
Manejar dimensiones que cambian lentamente con el tiempo:
Sobrescribir , crear nuevo registro, conservar dos ltimos
valores.
Estandarizar nombres, direcciones.

Aumentar la frecuencia del ETL, por ejemplo a varias


veces por da, puede no ser prctico tanto para los
sistemas fuente como para la propia Bodega.

ETL Convencional
OLTP
Aplicacin A

Deteccin
de cambios
/ Snapshot

Batch

Batch

DataMart
A

Batch

DataMart
B

OLTP
Base de Datos A

OLTP
Aplicacin B

Deteccin
de cambios
/ Snapshot

OLTP
Base de Datos B

Batch
Manejo
Dimension
es
Corporativ
as

Tomada de (1) Pgina 438

Bodegas de Datos en Tiempo Real


Particin en Tiempo Real, con las novedades del da.

Particin histrica, actualizada en lotes (Batch) cada


noche con el ETL tradicional.

Bodegas de Datos en Tiempo Real


Por cada tabla de hechos en la parte histrica hay una
tabla de hechos, con la misma granularidad y
dimensiones, en la particin en tiempo real.
Indexamiento en la parte en tiempo real es mnimo.
Posiblemente se mantiene en memoria.
Puede crearse una vista que combine la parte histrica
con la de tiempo real.

Bodegas en Tiempo Real


Bodega Lgica

Aproximadamente
Tiempo Real

Particin
En
Tiempo Real
A
Batch

Aproximadamente
Tiempo Real

Particin
En
Tiempo Real
B
Batch

Tomada de (1) Pgina 427

DataMart
A

DataMart
B

Microbatch ETL
Similar al ETL convencional, solo que la frecuencia
aumenta (Ejemplo: Cada hora).
Alimentan la particin en tiempo real.
Una vez al da, las particiones en tiempo real se pasan
a la parte histrica.

Micro Batch ETL


OLTP
Aplicacin A
OLTP
Base de Datos A

OLTP
Aplicacin B

Deteccin
de cambios
/ Snapshot

Deteccin
de cambios
/ Snapshot

OLTP
Base de Datos B

Micro

Micro

Batch

Batch

Micro
Batch

Manejo
Dimension
es
Corporativ
as

Tomada de (1) Pgina 438

Particin
En
Tiempo Real
A
Batch

Micro
Batch

DataMart
A

Particin
En
Tiempo Real
B
Batch

DataMart
B

Microbatch ETL
Puede afectar rendimiento de sistemas fuente, al
imponer deteccin de cambios mas frecuente.
Buena alternativa para Bodegas cuyos requerimientos
de actualizacin pueden tolerar retardos de una hora.

Herramientas de Captura,
Transformacin y Flujo (CTF)
Intercambios directos entre Bases de Datos, con baja
latencia (pocos segundos).
Pueden hacer ciertas transformaciones, elementales si
se comparan con las ofrecidas por herramientas ETL.
Pueden simplificar la retroalimentacin de la Bodega
hacia los sistemas fuente (con inteligencia de clientes,
por ejemplo).

Herramientas de Captura,
Transformacin y Flujo (CTF)
Bodega
Lgica
CTF Tiempo Real/
Transformacin
Superficial

OLTP
Aplicacin A

Staging
A

Transformacion
es ms
complejas

Particin
Tiempo
Real

Data Mart
A
Batc
h

OLT
P
OLTP
Base de Datos A

Tomada de (1) Pgina 445

Tomado de The Data Warehouse ETL Toolkit

Combinacin Bodega Tiempo Real /


EAI
Bodega Lgica

ERP

Adaptador
ERP

Mediador EAI

Adaptador
Data Mart
A

Aproximadame
nte Tiempo
Real

Particin
En
Tiempo Real
A

OLTP

Enrutador

Base de Datos
ERP

CRM

Adaptador
CRM

Adaptador
Administrador
Dimensin
Cliente

OLTP

Base de Datos
CRM

Batc
h

Administrador
Dimensin
Cliente
Adaptado de (1) Pgina 443

Adaptador
Data Mart
B

Aproximadame
nte Tiempo
Real

DataMart
A

Particin
En
Tiempo Real
B

Batc
h

DataMart
B

Sistemas para manejo de datos federados (EII)

Ofrecen acceso uniforme a mltiples fuentes de datos


sin cargarlos primero en una Bodega central.
Enfocado a consultas.
Datos actualizados.

Sistemas para manejo de datos federados (EII)

Cliente

Cliente

...

Cliente

EII
Metadata

Procesador
Procesador
de
de
Consultas
Consultas

Adaptadores

Adaptadores

Fuente 1

Fuente 2

Adaptadores

...

Fuente n

Tomado de Component Database Systems

Conclusiones
Globalizacin e Internet reducen cada vez mas la ventana de
tiempo disponible para actualizar las Bodegas de Datos.
Inteligencia de negocios requiere una latencia cada vez menor
entre los sistemas OLTP y la Bodega.
Informacin de inteligencia de la Bodega retroalimenta los
sistemas OLTP.
El costo y complejidad de las soluciones para reducir la latencia
crece de manera no lineal.
Metas y expectativas sobre el grado de actualizacin requerido de
los datos deben ser realistas.

Conclusiones
Bodegas de Datos en Tiempo Real pueden ser una
solucin para latencias de hasta unos minutos (5?).
Latencias inferiores a 5 minutos requieren de Sistemas
Federados (EII), que trabajen directamente sobre los
sistemas fuente.
Si se requiere retroalimentacin de la Bodega hacia los
OLTP, CTF o EAI pueden ser la solucin.
EAI es mas adecuado si el nmero de aplicaciones a
integrar es importante.

Bibliografa
1. Kimball, R., Caserta, J. The Data Warehouse ETL
Toolkit. Wiley. 2004.
2. Stonebraker, M. Too Much Middleware. SIGMOD
Record. Vol 31 N 1, Marzo 2002.
3. Halevy, A.(Editor). Enterprise Information Integration:
Successes, Challenges and Controversies. SIGMOD
junio 14-16 2005.
4. Selip, S. A Single Source of Truth: Creating and
Sustaining Data-Integration Governance and
Stewardship. Burton Group. Jul 27, 2005.

You might also like