Professional Documents
Culture Documents
Extraccin
Servidores
Red
Limpieza de Datos
Bases de Datos
Transformacin
Middleware
Carga de Datos
Actualidad de Datos
Agrupaciones basadas
en tiempo
Retencin de Histrico
Seguridad
Posicin
Distribucin
Uso
Acceso
Navegacin
Herramientas
Rendimiento
Implementacin
FSICO
ESTRUCTURAL
Staging
Area
Tamao
Disponibilidad
Recuperacin
DBMS
Data
Data Marts
Warehouse Relacional Dimensional
Mapeo de Datos
Mapeo LGICO describe cmo ir desde donde se encuentra
hasta donde quiere ir
Proceso de Diseo
1. CREACIN DE
REPOSITORIO
4. CREACIN DE
MAPPINGS
2. IMPORTACIN DE
DEFICIONES DE ORGENES
Def Origen
Mapeo
Def Destino
3. CREACIN DE ESQUEMA
DESTINO
Transformaciones Ms Comunes
Creacin de valores por defecto para los nulos
Gestin de fechas
Seleccin o filtrado de datos origen
Unin de orgenes heterogneos
(SAP+Ficheros+Tablas+)
Normalizacin de los ficheros de datos
Generacin de esquemas en estrella
Creacin de estrategias de actualizacin
Creacin y actualizacin de agregaciones
Creacin de dimensiones slowly-changing
Algunas Transformaciones
Seleccin de datos del Origen representa la consulta o primer
filtrado/ordenacin de los datos origen
Normalizacin convierte registros de orgenes relacionales o VSAM a registros
normalizados (clusulas OCCURS, REDEFINES)
Clculo de Expresiones/Nuevos Campos realiza clculos a nivel de campo
Filtro funciona como un filtro condicional de los registros procesados
Agregacin realiza clculos agregados (totales o incrementales)
Rango limita los registros a los primeros o ltimos de un rango
Estrategia de Actualizacin para marcar cada registro como insercin,
actualizacin, borrado, o registro rechazado
Lookup busca valores complementarios y los pasa a otros objetos
Procedimientos Externos/Almacenados llama a programas desarrollados en
otros lenguajes o en la base de datos
Generador de Secuencia genera nuevos identificadores nicos
ORIGEN
EXTRACCIN
DEL ORIGEN
LOOKUP
Busca
Job_IDs
en el
destino
T_JOBS
ESTRATEGIA DE
ACTUALIZACIN
Basado en la
coincidencia de
Job_IDs,
DESTINO
Diseo de Cargas
Ordene los datos por secuencias especficas de
carga
Fuerce a reglas limitadas de integridad de datos
Busque la carga correcta de cada paso
Construya estadsticas de carga y mensajes de
error
Cree el plan para cargas fallidas qu debe ocurrir
Produzca la notificacin inmediata y automtica en
caso de fallos (y/o xitos) en las cargas
FUENTE: ONeil, 1997
Planificacin de Cargas
Timing
Planificacin
Ejecucin manual
Planificacin propio
de la herramienta
Planificador genrico
Ejecucin peridica
cada n minutos/horas/das
un mximo de veces/
para siempre
Control^M, Tareas
Programadas de Windows
Ejecucin concreta
En un momento determinado
Cada primer martes de mes a las
21:43
Monitorizacin de Cargas
El mantenimiento de un data mart es una
revisin constante de los procesos para
optimizar valores de datos, pasos,
tiempos, recursos utilizados, accesos a
sistemas origen o destino debido a los
constantes requerimientos nuevos de los
usuarios finales y el crecimiento en
funcionalidad y volumen de datos que eso
conlleva
Un proceso simple?
ETL