You are on page 1of 29

Proceso de Extraccin, Transformacin y

Carga (ETL)
Ing. Giulio Marcena !e"li
#ere $re #e%
Data Sources
Staging Area
Manual
Cleansing
Data Marts
Data Warehouse
Client
Access
&'nde estamos%
&(u) es ETL%
!on todas las acti*idades necesarias relacionadas a la administracin de datos y metadatos +ara satisfacer las
necesidades de informacin
(u) determina la construccin de un ETL
Las necesidades de informacin determinan las fuentes de los datos y dicen dnde se de,en ,uscar,
recolectar, transformar e integrar los datos.
Las necesidades de informacin determinan el diseo de la base de datos analtica, es decir, el re+ositorio
de los datos -ue el +roceso de ETL se encargar. de integrar y tras+asar los datos +ara lograr el o,/eti*o de la
solucin 0nal.
1e-uerimientos de un Proyecto ETL
2uentes de los datos3 Ta,las de ,ases de datos o+eracionales, arci*os externos, identi0car dnde se encuentran
f4sicamente los datos -ue -uiero mostrar en la solucin 0nal.
5alidacin y a+ro,acin de los datos a cargar3 $lguien se ace res+onsa,le de certi0car -ue la data a ser cargada al
sistema es *.lida y +recisa y no contiene errores -ue lle*en a tomar decisiones ,asadas en datos malos.
'is+oni,ilidad de la fuente de datos3 Cuando los datos fuente se encuentran en sistemas o+eracionales -ue
so+ortan el d4a a d4a de las em+resas se tienen ciertas restricciones, slo accesi,les durante la noce ya -ue en el
d4a no +uede so,recargar el d4a a d4a, conocer los orarios de res+aldo de los datos +ara no consultar o +rogramar
tras+asos mientras la ,ase de datos est. a,a/o, o reca6a las conexiones.
'estino de los datos3 Considerar -ue el modelo 0nal ser. un modelo anal4tico es+ecialmente dise7ado +ara la
solucin de 8I (+unto 9 -ue detallaremos m.s adelante), considerar tam,i)n la 6ona de stagging o 6ona intermedia
donde antes de cargar el modelo 0nal de/o los datos +ara reali6ar las transformaciones necesarias.
Transformaciones necesarias a los datos3 el ::,:; de las *eces no ser. un sim+le extraer e insertar (co+iar y +egar)
los datos desde los sistemas o+eracionales asta los sistemas de informacin, se de0nen las transformaciones
necesarias, como los +asos de lim+ie6a de datos, correccin de mala calidad de datos, tras+asar datos consolidados
en *e6 de datos en detalle, etc.
2recuencia de acceso a los datos fuentes3 Es im+ortante conocer las <*entanas de tiem+o< dis+oni,le +ara acceder a
los datos fuentes en los sistemas o+eracionales.
1e-uerimientos de un Proyecto ETL
2recuencia de acceso a los datos 0nales3 'e,ido a la demanda de informacin resultar4a contra+roducente reali6ar la
actuali6acin de los sistemas cuando tiene mayor demanda +or +arte de los usuarios. !e de,e +lani0car la
actuali6acin en tiem+os en -ue el sistema es +oco usado como +or e/em+lo durante las noces, o +rimeras oras
del d4a, etc.
Periodicidad de carga3 'e+endiendo del uso y la 0nalidad de las soluciones se de0nen +eriodos es+ec40cos de carga
acotados a un rango de tiem+o, de0nido +or la dis+oni,ilidad. !e esta,lecen acuerdos +ara la actuali6acin de datos
de acuerdo a las necesidades, +ara algunos sistemas +uede ser mensual, semanal, diario, o incluso menos
1e-uerimientos de un Proyecto ETL
!(L !er*er =>>? Integration !er*ices
!atisface la demanda tradicional de o+eraciones e integracin de datos de un ETL
Pro*ee una ar-uitectura ro,usta, @exi,le, r.+ida y escala,le
Com+onentes de !!I!
$r-uitectura
Pa-uete (Pac"age)
$dministrador de Conexiones (Conecction Manager)
2lu/o de Control (Control 2loA)
2lu/o de 'atos ('ata 2loA)
$r-uitectura
= motores de e/ecucin distintos3
Control @oA
'ata @oA
Pa-uete
Bnidad ,.sica de tra,a/o, e/ecucin y des+liegue
Bna coleccin organi6ada de3
Connection managers
Control @oA com+onents
'ata @oA com+onents
5aria,les
E*ent andlers
Con0gurations
Puede ser dise7ado gr.0camente o +or cdigo
Gra,ado en formato CML (internamente)
Connection Manager
1e+resentacin lgica de una conexin
$lmacenado en el +a-uete y no +uede
ser com+artido con otros +a-uetes
Control 2loA
Proceso orientado al motor del @u/o de tra,a/o
Bn +a-uete contiene un solo Control 2loA
Elementos
Containers
Tas"s
Precedence constraints
5aria,les
Containers
Pro*ee estructuras y ser*icios +ara3
$gru+ar tareas
Im+lementar @u/os iterati*os
!e e/ecutan en la secuencia de0nida en el @u/o de control
'ata 2loA Tas"
Enca+sula el motor de @u/o de datos
Extract
Transform
Load
'ata Pre+aration Tas"s
1e*isar la calidad de los datos
Co+iar arci*os y directorios
'escargar arci*os y datos
E/ecutar M)todos #e,
E/ecutar +a-uetes
E/ecutar +rogramas o arci*os en ,atc
En*iar y reci,ir mensa/es entre +a-uetes
En*iar mensa/es de correo
Process Communication Tas"s
Tra,a/a con o,/etos de !(L !er*er
Co+iar
Insertar
8orrar
Modi0car
!(L !er*er Tas"s
Puede usar Excel,
DLE '8, D'8C, $'D,
$'D.EET, or
!(LMD8ILE
connection
managers
$nalysis !er*ices Tas"s
Tra,a/a con o,/etos de $nalysis !er*ices
Crear
Modi0car
8orrar
Procesar
'ata,ase Maintenance Tas"s
E/ecuta tareas administrati*as3
8ac"u+ de 8ases de 'atos
1econstruccin de 4ndices
E/ecucin de /o,s
Precedence Constraints
Enla6a contenedores y tareas (e/ecuta,les) +ara controlar el orden de e/ecucin
Con0gura condiciones -ue determinan la e/ecucin
E/ecucin satisfactoria o con errores
Lgica $E'FD1
'ata 2loA
'ata 2loA Tas"
Enca+sula el motor de @u/o de datos
E/ecuta el ETL tradicional
'ata 2loA !ources
Ta,las relaciones y *istas
$rci*os
8ases de 'atos de $nalysis !er*ices
'ata 2loA 'estinations
Ta,las relaciones y *istas
$rci*os
8ases de 'atos de $nalysis !er*ices
'ata1eaders y 1ecordsets
Enterprise Edition only
'ata 2loA Transformations
$gregar, com,inar, distri,uir o modi0car datos
Incluye salidas de error en algunos casos
'ise7o de +a-uetes ETL
Dr-uestando el +roceso ETL
Llenando ta,las de dimensin
Llenando ta,las de ecos
Drcestrating te ETL Process
$ single +ac"age +erforms ETL for a single dimension or fact ta,le
$ Gmaster +ac"ageH orcestrates te se-uence of te entire ETL +rocess ,y using Execute
Pac"age tas"s
Execute all dimension +ac"ages 0rst
Execute all fact ta,le +ac"ages second
$ ro,ust design includes extensi*e logging to store execution istory and audit trails
Im+lement +ac"age logging to ca+ture most execution details
Customi6e and extend logging ,y using
control @oA tas"s
2e,I=>>? =J Microsoft 'e*elo+er K
Platform E*angelism
Llenando ta,las de dimensin
Y
Insert neA
record
B+date canged
column(s)
Ex+ire existing
record
Transform
Correlate
records
N
N
Y
Ty+e =
cange%
Y
Ty+e L
cange%
EeA record%
Dimension
source
Llenando Ta,las de Mecos
Y
Insert neA
record
Insert neA
dimension record
Loo"u+
dimension "ey
N
Loo"u+ failed%
Process each
dimension key
Transform
Fact
source

You might also like