You are on page 1of 27

Factorit y Compaa Limitada

Servicios Integrales de Informtica

IBM WebSphere DataStage

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Introduccin
En el siguiente documento se proceder a mostrar la funcionalidad de los Stages de una
manera que sea fcil de entender y su rpida aplicacin, A continuacin se dar una breve
explicacin de lo que es Data Stages a grandes rasgos
Datastage es una herramienta que permite crear rpidamente procesos ETL. Se basa
bsicamente en una arquitectura Cliente-Servidor (en sus versiones ms nuevas puede ser
hasta una arquitectura de 4 capaz). Puede acceder a distintos orgenes de datos y lo hace
ideal para realizar las tareas de carga de datos a un Data Warehouse o Data Mart, aunque
tambin se puede utilizar en cualquier proyecto que requiera mover datos desde un origen
a un destino. Las tareas (o Jobs) son compilados y se crean ejecutables que luego pueden
ser ejecutados mediante la misma herramienta o por lnea de comandos.
En la actualidad existen varias versiones de la herramienta pero la ms popular es la
Enterprise Edition que posee los dos motores de tareas que posee la herramienta (server
engine y parallel engine)

Ejercicio DataStage
2

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Extraccin

Paso 1: Lo primero que tenemos que hacer es dirigirnos a la paleta de herramientas


(Palette), vamos a la opcin File y de ese repositorio sacamos un (Sequential File) y lo
arrastramos al diseador esto servir para obtener los datos de origen.

Paso 2: Lo segundo que debemos hacer es dirigirnos nuevamente a la paleta de


herramientas (Palette), vamos a la opcin Processing y luego de esa opcin extraemos
un tranformer y lo arrastramos al diseador. La caracterstica de un Transformer puede
tener una sola entrada y cualquier nmero de salidas. Tambin puede tener un enlace que
lleva rechazar cualquier fila que no han sido escritos en cualquiera de las salidas de enlaces
por razn de un error de escritura o expresin fracaso evaluacin (tener en cuenta que hay
que unir los procesos)

Paso 3: Lo tercero que tenemos que hacer es dirigirnos nuevamente a la paleta de


herramientas (Palette), vamos a la opcin File y de ese repositorio sacamos un Data
Set y lo arrastramos al diseador, La funcin del Data Set es bsicamente de recibir los
datos ya filtrados del tranformer especificado la ruta donde se quiera guardar.

A continuacin se mostrara en la siguiente ilustracin como estara todo el esquema unido


en el DataStage.

Tener en cuenta que hay que cambiar los nombres de los link y de los procesos
dependiendo a que proceso corresponda.

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Configuracin de los procesos (Extraccin)


a) Sequential File: Una vez ya realizado todo el esquema de unin nos dirigimos a las
propiedades del Sequential File, donde tenemos que ingresar en el (textbox File)
la ruta de los datos de origen como se especifica en la siguiente ilustracin.

b) Format: A continuacin nos dirigimos a la opcin Format donde tendremos que ir a la


carpeta Field Defaults vamos a la opcin Delimiter donde tenemos que especificar qu

Factorit y Compaa Limitada


Servicios Integrales de Informtica

tipo de delimitador tiene nuestros datos en este caso tiene un | que se est usado para
separar los datos, luego de eso vamos a la opcin Quote donde tendremos que seleccionar
si nuestros datos son (Doubl, single o none) en este este caso se est utilizando none.

c) Columns: Una vez realizado las configuraciones en Format vamos a la opcin Columns
donde tendremos que ingresar las columnas de las base datos o archivo plano con sus

Factorit y Compaa Limitada


Servicios Integrales de Informtica

respectivos valores (tipo de dato, largo y si null). una vez ingresado todos los datos
correctamente presionan OK.

Configuracin de los procesos (Tranformer)


6

Factorit y Compaa Limitada


Servicios Integrales de Informtica

a) Tranformer: A continuacin ingresamos a las propiedades del tranformer donde tendremos


las tablas de origen del Sequential file donde tendremos que hacer las siguiente
configuracin como lo muestra las siente ilustracin (b).

b) Tranformer traspaso de datos: Como vimos en lo anterior ahora tenemos que traspasar los
datos de origen de la tabla izquierda a la tercera tabla del lado derecho. De esta maneara
habremos dado pase al siguiente proceso.

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Configuracin de los procesos (Data Set)

Factorit y Compaa Limitada


Servicios Integrales de Informtica

a) Data Set: A continuacin vamos a las propiedades del Data Set donde bsicamente
tendremos que ingresar la ruta en el text box File donde queremos que se guarde los datos
finales. Una vez ingresado la ruta presionan OK.

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Ejercicio DataStage
Transformacin

Paso 1: Lo primero que tenemos que hacer es extraer el proceso final de la extraccin
Data Set copiamos y luego nos dirigimos a la carpeta transformacin donde pegamos el
proceso.

Paso 2: Lo segundo que debemos hacer es dirigirnos a la paleta de herramientas


(Palette), y extraemos el proceso Join hay cuatro tipos de combinaciones que se le puede
dar al proceso Join como por ejemplo

Left Outer Join


Right Outer Join
Inner Join
Full Outer Join

Paso 3: Lo tercero que tenemos que hacer es dirigirnos a la paleta de herramientas


(Palette), y extraemos el proceso Remove Duplicates y lo arrastramos al diseador

Paso 4: Lo cuarto que debemos es dirigirnos nuevamente a la paleta de herramientas


(Palette), vamos a la opcin Processing y luego de esa opcin extraemos un tranformer
y lo arrastramos al diseador

Paso 5: Lo quinto que tenemos que hacer es dirigirnos nuevamente a la paleta de


herramientas (Palette), vamos a la opcin File y de ese repositorio sacamos un Data
Set y lo arrastramos al diseador

Paso 6: Lo sexto que tenemos que hacer es dirigirnos al nuevamente a la paleta de


herramientas (Palette), vamos a la opcin File y de ese repositorio sacamos un
(Sequential File) y lo arrastramos al diseador

10

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Configuracin (Transformacin)
Sequential File (Transformacin): Una vez realizado el esquema nos dirigimos a al
Sequential que pegamos e ingresamos a las propiedades y veremos como se muestra en
la siguiente ilustracin donde tendremos que poner la ruta del Sequential de la extraccin
como mostraremos en la siguiente ilustracin Data Set 2

11

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Data Set 2:
A continuacin nos dirigiremos al text box File donde indicamos la ruta de la extraccin
as de esta manera estaremos llamando los datos finales de la extraccin.

12

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Sequential File: Posteriormente una vez ya realizado la configuracin del Data Set nos
dirigimos al Sequential File y abrimos las propiedades y ponemos la ruta en el text box File
de los datos de que queremos que se hagan el cruce en Join. (Tener en cuenta que hay
que revisar las columnas)

13

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Join: A continuacin nos dirigimos a las propiedades del Join donde tendremos que buscar
las keys para hacer el cruce de los datos y luego filtrarlos a un tranformer o un data set
dependiendo lo que se necesite, en este caso solo est capturando una sola key como se
muestra en la siguiente ilustracin pero no siempre es una sola key en la siguiente
ilustracin, mostraremos como agregar ms keys al Join en la siguiente ilustracin.

14

Factorit y Compaa Limitada


Servicios Integrales de Informtica
Join (Agregar keys): Como mencionado en lo anterior mostraremos como agregar ms
keys al Join, nos dirigimos a la carpeta Join Keys presionamos en ella y luego vamos a la
parte de abajo del lado derecho y presionamos en la opcin Key y nos estar agregando
automticamente una nueva key pero no obstante tendremos que agregar la key
correspondiente como lo hicimos anteriormente.

15

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Join (Mapping): Luego de haber agregado las key(s) nos dirigimos a la pestaa Output y
Mapping donde le aparecer solo la tabal Columns llena donde ustedes tendrn que
seleccionar toda la tabla y arrastrarla a la tabla del lado derecho.

16

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Join (Columns): En la pestaa Columns solo tendremos que verificar si los datos son correctos
pero por lo general una ver traspasado los datos del Mapping estas se agregan automticamente.

17

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Archivo de rechazo: A continuacin veremos cmo hacer un archivo de rechazo cmo


podemos ver en la siguiente ilustracin para ello tendremos que dirigirnos a la paleta de
herramientas y en la opcin Processing extraemos un Remove Duplicates lo cual esta
opcin nos remover los duplicados y en el Transformer ingresaremos la condicin de
rechazo y luego de eso agregamos un Sequential file para recepcionar los datos
rechazados.

18

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Remove Duplicates: Como ya visto en el Join este proceso tiene el mismo mecanismo,
hay que extraer la key luego dirigirse a Output y hacer el Mapping y verificar las Columnas.

19

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Remove Duplicates (Mapping): Como mencionado en lo anterior nos dirigimos al


Mapping donde tendremos que seleccionar la tabla del lado izquierdo y arrastrarlo a la tabla
del lado derecho para traspasar los datos y luego de eso verificar las columnas

20

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Tranformer (Transformacin): A continuacin nos dirigimos al Transformer donde


abrimos en las propiedades en la cual se nos desplegara la siguiente interfaz y en ella
tendremos que realizar los mismos pasos que se realiz en el tranformer anterior de la
extraccin donde seleccionaremos
todos los datos de la tabla izquierda y luego
procederemos arrastrarlo a la tercera tabla del lado derecho hacemos el mismo
procedimiento para la cuarta tabla del lado derecho. Luego de eso tenemos que hacer un
paso que es vital para realizar el archivo de rechazo ya que en ella ingresaremos la
condicin para que nos filtre los datos como se puede apreciar en la siguiente ilustracin
por lo general en este tipo de condiciones se utiliza la sentencia IF dado que es una manera
ms ptima de realizarlo, en este caso se est haciendo una rechazo a los RUT con la letra
K por lo que se est ingresando la siguiente sentencia (If Trim (DSLink9.Item ,'k' ,"A")
= DSLink9.Item Then 1 Else 0) ya que de esta maneara se realiza el rechazo.
.

21

Factorit y Compaa Limitada


Servicios Integrales de Informtica
Sequential file (rechazo): Una vez ya echo la condicin en el tranformer nos dirigimos
a las propiedades del Sequential file en la cual ingresaremos en el text box file la ruta
donde queremos que se guarde los datos de rechazo.

22

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Data Set: Una vez realizado el Transformer nos dirigimos al Data set en donde este ser vuestro
paso final para terminar la transformacin, una vez ms abrimos en las propiedades en donde se
nos mostrara la siguiente interfaz en la cual tendremos que especificar en el Text box file la
ruta en donde queremos que se guarde.

23

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Ejercicio DataStage
Carga

Paso 1: Lo primero que tenemos que hacer es dirigirnos al archivo final de la


transformacin y copiarlo para luego posteriormente pegarlo en el Job de carga.

Paso 2: Lo segundo que tenemos que hacer es dirigirnos a la paleta de herramientas en


la opcin Processing y sacamos un tranformer y lo arrastramos al diseador.

Paso 3: Lo tercero que tenemos que hacer es ir nuevamente a la paleta de herramientas


en la opcin file y sacamos un Sequential file y lo arrastramos al diseador

A continuacin se mostrara como debe estar armado el esquema en el Data Stage

24

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Configuracin (Carga)
Data Set (Final transformacin): Como mencionado en lo anterior tenemos que copiar
el data set final de la transformacin para luego pegarlo en el Job de carga una vez echo
eso vamos a las propiedades del data set donde tendremos que pegar la ruta del data set
de la transformacin como se muestra en la siguiente ilustracin. (tener en cuenta que si
no copias bien la ruta los datos no se traspasaran con xito).

25

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Tranformer (Carga): Una vez realizado el proceso anterior nos dirigimos al tranformer
donde abrimos las propiedades y hacemos los mismos pasos que llevas haciendo en todo
el manual en el tranformer como se muestra en la siguiente ilustracin.

26

Factorit y Compaa Limitada


Servicios Integrales de Informtica

Data Set (Carga): Este sera el ltimo paso para realizar la serie de extraccin,
transformacin y carga. Lo que tenemos que hacer es dirigirnos a las propiedades del data
set y especificar la ruta donde va ser destinado los datos y de esta manera usted habr
completado la serie de los Jobs.

27