You are on page 1of 18

Los informes son la capa visible

Integracin Datos no slo en entornos


analticos
Importancia de la Calidad
Herramientas de OLAP / Business Intelligence / Cuadro de Mando

Extraccin

Servidores
Red

Limpieza de Datos
Bases de Datos
Transformacin
Middleware
Carga de Datos

Data Marts Estructurados: Visin Completa

Tcnicas de Optimizacin Estructural y


Fsica
Tiempo

Actualidad de Datos
Agrupaciones basadas
en tiempo
Retencin de Histrico
Seguridad

Posicin

Distribucin

Uso

Acceso
Navegacin
Herramientas
Rendimiento

Implementacin

FSICO

ESTRUCTURAL

Staging
Area

Tamao
Disponibilidad
Recuperacin
DBMS

Data
Data Marts
Warehouse Relacional Dimensional

Cmo debe optimizarse cada


almacn de datos en la
Implementacin?

Procesos y Estrategias de Carga del DWH

Mapeo de Datos
Mapeo LGICO describe cmo ir desde donde se encuentra
hasta donde quiere ir

Mapeo FSICO Indica las rutas, baches, desvos atajos de la


carretera

TRANSPORTE Decida si est conduciendo un coche deportivo


o un camin de recogida de chatarra

PLANIFICACIN Indica cundo saldr y cunto espera que le


lleve llegar al destino

Soluciones de Extraccin, Transformacin y


Carga de Datos (ETL)

Aproximacin de primera generacin (o


crecimiento casero)
Mapean origen a destino con capacidades
variables de transformacin y limpieza
Generan cdigo o directamente deben
programarse
Suelen controlar metadatos limitados

FUENTE: Doug Hackney, 1998

Plataformas de Integracin de Datos


Soluciones integradas
Capacidad de implantacin a nivel corporativo
Metadatos completos, abiertos y extensibles
Abanico de transformaciones y reglas de negocio
Anlisis, entrega y planificacin integradas
Gestin Ad-hoc de agregaciones
Monitorizacin y Auditora integradas
Funciones avanzadas de Calidad de Datos
Versionados, despliegues inteligentes

Proceso de Diseo

1. CREACIN DE
REPOSITORIO
4. CREACIN DE
MAPPINGS

2. IMPORTACIN DE
DEFICIONES DE ORGENES

Def Origen
Mapeo
Def Destino

3. CREACIN DE ESQUEMA
DESTINO

Transformaciones Ms Comunes
Creacin de valores por defecto para los nulos
Gestin de fechas
Seleccin o filtrado de datos origen
Unin de orgenes heterogneos
(SAP+Ficheros+Tablas+)
Normalizacin de los ficheros de datos
Generacin de esquemas en estrella
Creacin de estrategias de actualizacin
Creacin y actualizacin de agregaciones
Creacin de dimensiones slowly-changing

Algunas Transformaciones
Seleccin de datos del Origen representa la consulta o primer
filtrado/ordenacin de los datos origen
Normalizacin convierte registros de orgenes relacionales o VSAM a registros
normalizados (clusulas OCCURS, REDEFINES)
Clculo de Expresiones/Nuevos Campos realiza clculos a nivel de campo
Filtro funciona como un filtro condicional de los registros procesados
Agregacin realiza clculos agregados (totales o incrementales)
Rango limita los registros a los primeros o ltimos de un rango
Estrategia de Actualizacin para marcar cada registro como insercin,
actualizacin, borrado, o registro rechazado
Lookup busca valores complementarios y los pasa a otros objetos
Procedimientos Externos/Almacenados llama a programas desarrollados en
otros lenguajes o en la base de datos
Generador de Secuencia genera nuevos identificadores nicos

Trabajo con Transformaciones


Ejemplo: Estrategia de Actualizacin

ORIGEN

EXTRACCIN
DEL ORIGEN

LOOKUP
Busca
Job_IDs
en el
destino
T_JOBS

ESTRATEGIA DE
ACTUALIZACIN
Basado en la
coincidencia de
Job_IDs,

DESTINO

Diseo de Cargas
Ordene los datos por secuencias especficas de
carga
Fuerce a reglas limitadas de integridad de datos
Busque la carga correcta de cada paso
Construya estadsticas de carga y mensajes de
error
Cree el plan para cargas fallidas qu debe ocurrir
Produzca la notificacin inmediata y automtica en
caso de fallos (y/o xitos) en las cargas
FUENTE: ONeil, 1997

Consejos sobre Planificacin de Cargas


Orden de carga cargue primero las tablas independientes
Determine la ventana necesaria de carga use las horas de
inicio y final para determinar el tiempo necesario para las
cargas

Ejecute cargas en paralelo


Ejecucin concurrente
Uso de threads, desarrollos multiproceso, paralelizacin de
base de datos
No sobrecargue los sistemas origen o destino

Carque en paralelo un mismo destino


Datos de sistemas independientes que van al mismo destino

Cargue mltiples destinos en paralelo


Datos del mismo origen que vayan a diferentes destinos
ahorre accesos de lectura

Plan de Carga de Destinos

Primero, tablas independientes


Despus, tablas que no contienen claves forneas
a otras tablas
Por ltimo, las tablas que contienen claves
forneas a otras tablas
Tenga cuidado con transacciones de base de
datos e intervalos de commit: los datos pueden
estar cargados pero no validados

Planificacin de Cargas
Timing

Planificacin

Ejecucin manual

Planificacin propio
de la herramienta

Planificador genrico

Ejecucin peridica
cada n minutos/horas/das
un mximo de veces/
para siempre

Control^M, Tareas
Programadas de Windows

Ejecucin concreta
En un momento determinado
Cada primer martes de mes a las
21:43

Ejecucin basada en eventos


Disponibilidad del fichero origen
Slo si la carga anterior acab
bien/mal

Scripts de carga (.bat, .sh, JCL)

Monitorizacin de Cargas
El mantenimiento de un data mart es una
revisin constante de los procesos para
optimizar valores de datos, pasos,
tiempos, recursos utilizados, accesos a
sistemas origen o destino debido a los
constantes requerimientos nuevos de los
usuarios finales y el crecimiento en
funcionalidad y volumen de datos que eso
conlleva

La Creacin de un Data Warehouse


Sostenible y sus Data Marts
Incrementales
Requiere la Automatizacin
de los Procesos de Carga

Integracin de Datos, ms all del BI


El ETL se ha quedado relegado a entornos
analticos
Aparecen necesidades de Integracin de
datos para otro tipo de proyectos
Externalizacin
Migraciones
Integracin de Aplicaciones, BBDD
Sincronizacin
etc

Un proceso simple?

ETL

You might also like