Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación.

Construyendo Soluciones Analíticas <Laboratorio> < Sistemas de Información> Semestre I- 2008
< Para analizar y diseñar sistemas de información apropiados, los analistas de sistemas de información tienen
que visualizar a las organizaciones donde trabajan como sistemas formados por las interacciones de tres fuerzas fundamentales: los niveles de administración, el diseño de las organizaciones y las culturas organizacionales.

>

Preparador: Jose Schmidt

Sistemas de Información

Página 1 de 24

Universidad Central de Venezuela. Facultad de Ciencias. Escuela de Computación.

Historial de Revisiones
Fecha 21/06/2008 Versión 1.0 Descripción Autor

Versión preliminar como propuesta de Wilfredo Rangel Laboratorio.

14/05/2009

1.1

Ajuste de actividad de laboratorio

Jose Schmidt

Preparador: Jose Schmidt

Sistemas de Información

Página 2 de 24

................ 18 4... 16 Get system info.......................... 21 Preparador: Jose Schmidt Sistemas de Información Página 3 de 24 ................................................................................................................................................ Definir Conexiones .......................5 4.................... 2............................................... 19 Salida por dimensión ..........1 3....................................................................................................................... 6 Pasos de Entrada .............................................................................................................Universidad Central de Venezuela................ 4 Pasos de ETL .................................................................................................2 3...................... Entrada por hoja de Excel ...................................... 3........................................................................................ 11 Entrada por Base de datos ................................. 6 3.....................................................................1 4.............................. Facultad de Ciencias................................................................................................................................. 7 Entrada por archivos de texto ............................................................................................................3 Salida por archivo .............................................................................. Escuela de Computación..........3 3..... 18 Salida por archivo de excel .....2 4..................... 17 Pasos de salida ................................................................................................................................4 3.................. Tabla de Contenidos 1.................................................................... 14 Generate Rows ...........................................

Actividad de laboratorio: 1. Facultad de Ciencias. Escuela de Computación. una con la base de datos ol_oltp y otra con la base de datos ol_olap. hacemos doble clic en la carpeta de nombre Database connections Se abrirá una ventana en la que configuraremos dos conexiones. cree estas dos conexiones guiándose por las siguientes imágenes: Preparador: Jose Schmidt Sistemas de Información Página 4 de 24 . Definir Conexiones Para definir una conexión hacemos clic en el icono con la lupa que tiene la etiqueta View. hacemos doble clic en la carpeta que dice Transformations y luego hacegurandonos que estemos en la sección de View.Universidad Central de Venezuela.

Facultad de Ciencias.Universidad Central de Venezuela. Preparador: Jose Schmidt Sistemas de Información Página 5 de 24 . Escuela de Computación.

En este laboratorio atacaremos 5 de estos elementos que son entrada por un archivo Excel. Pasos de ETL Hacemos clic en el icono con el pincel con la etiqueta Design para empezar a agregarle pasos a nuestra transformación. Facultad de Ciencias. deje presionado la tecla de shift y arrastre el ratón hasta el paso destino. Escuela de Computación. entrada por un archivo de texto. Preparador: Jose Schmidt Sistemas de Información Página 6 de 24 . se sabrá si dos pasos están conectados porque una flecha dirigida aparecerá entre los pasos 3. le invitamos a que utilice los demás por cuenta propia. Pasos de Entrada En la ventana de lado izquierdo (Steps) abrimos la carpeta de input para ver todos los pasos de entrada que nos proporciona kettle. Para importar un elemento al lienzo arrastramos el elemento que queramos añadir desde la ventana de la izquierda hasta la ventana de la derecha. Para unir varios pasos Seleccione el paso fuente. generación de filas y Obtención de información del sistema. *Nota: el password es el mismo password que se colocaron en la creación de los usuarios de postgres que controlan las bases de datos (ol_oltp y ol_olap) 2. entrada por una tabla de base de datos.Universidad Central de Venezuela.

aparecerán dos filas. Haga clic en la pestaña Fields y luego haga clic en el botón Get Fields from headers now. oprima el botón browse para buscar el archivo del que vamos a extraer los datos. haga doble clic en el paso. Preparador: Jose Schmidt Sistemas de Información Página 7 de 24 . 3. Facultad de Ciencias. Escuela de Computación.xls y luego haga clic en el botón Add para añadirlo al paso. una MAKE y otra CORRECTED_MAKE. Busque el archivo makefix.Universidad Central de Venezuela. termine haciendo clic en el botón ok para guardar la información del paso.1 Entrada por hoja de Excel Arrastre y coloque en el lienzo el paso de excel input.

Escuela de Computación. una los pasos y ejecute la transformación Haciendo clic en el botón similar al de play que se encuentra entre los iconos que se encuentran en la parte superior del lienzo. Facultad de Ciencias. arrastre el paso de dummy(Do nothing) al lienzo. Despues de hacer clic en el botón de play aparecerá una ventana en la que presionaran launch Preparador: Jose Schmidt Sistemas de Información Página 8 de 24 .Universidad Central de Venezuela. Haga clic en la carpeta de la izquierda de nombre transform.

Si no les dio error debe aparecer una ventana como la siguiente y note la parte debajo del lienzo donde dice Step Metrics.Universidad Central de Venezuela. Preparador: Jose Schmidt Sistemas de Información Página 9 de 24 . Escuela de Computación. se les presentara una ventana emergente que dira que necesita guardar la transformación antes de ejecutarla. Si no han guardaron la transformación. presionen el botón de yes y guarden la transformación. Facultad de Ciencias.

haremos el paso que tiene como icono el símbolo de play junto a la lupa.Universidad Central de Venezuela. aparecerá una ventana en la que oprimirán el botón Quick Launch Preparador: Jose Schmidt Sistemas de Información Página 10 de 24 . Para ser un poco mas ilustrativos. Facultad de Ciencias. este paso se denomina preview. seleccione el paso Dummy y haga clic en preview. Escuela de Computación.

txt y presione el botón Add Preparador: Jose Schmidt Sistemas de Información Página 11 de 24 . Escuela de Computación. Busque el archivo Zipssortedbycitystate.Universidad Central de Venezuela. Facultad de Ciencias. oprima el botón browse para buscar el archivo del que vamos a extraer los datos. haga doble clic en el paso.2 Entrada por archivos de texto Arrastre y coloque en el lienzo el paso de text file input. Si todo funciona correctamente les debe aparecer una ventana como la siguiente 3.

deseleccionamos el checkbox de headers. seleccionamos No empty rows y donde dice Format seleccionamos Unix Preparador: Jose Schmidt Sistemas de Información Página 12 de 24 . Escuela de Computación.Universidad Central de Venezuela. Facultad de Ciencias. Hacemos clic en la pestaña de content.

Hacemos clic en la pestaña error handling y seleccionamos Ignore Errors y Skip Error Lines *Nota hacemos la misma reflexión que en la pestaña de contenido Hacemos clic en la pestaña de Fields para obtener los campos del archivo de texto. hacemos clic en el botón get fields para que se traiga los campos del archivo. *Nota: no siempre debe configurarse el contenido del archivo de la misma forma. Facultad de Ciencias. en nuestro caso deben ser 7 campos donde 6 son string y 1 es entero. particularmente en el caso del archivo que estamos escogiendo para extraer los datos vino en formato unix y sin cabecera. Preparador: Jose Schmidt Sistemas de Información Página 13 de 24 . Escuela de Computación. le invitamos a que repase el contenido del archivo ejemplo del excel para entender que maneja el contenido de forma distinta.Universidad Central de Venezuela.

Colocamos el paso dummy. Escuela de Computación. luego hacemos clic en el botón Get SQL Select Statement. hacemos doble clic en este paso y modificamos: En el área de Connection seleccionamos ol_oltp de la lista. Facultad de Ciencias. nos aseguramos de situarnos en el paso dummy y ejecutamos pre visualizar. 3. hacemos el flujo de datos desde Entrada de Archivo hasta dummy. Preparador: Jose Schmidt Sistemas de Información Página 14 de 24 .3 Entrada por Base de datos Arrastramos el paso Table input al lienzo.Universidad Central de Venezuela. aparecerá una ventana emergente donde escogemos la tabla gencode al pulsar el botón ok otra ventana emergente aparecerá preguntándonos si queremos traernos todos los campos de la tabla y le decimos que si.

Escuela de Computación.Universidad Central de Venezuela. Facultad de Ciencias. Preparador: Jose Schmidt Sistemas de Información Página 15 de 24 .

Hacemos clic en el botón ok. arrastramos el paso dummy establecemos el workflow y ejecutamos pre visualizar 3. arrastramos generate rows al lienzo le hacemos doble clic para colocarle dos campos uno de nombre prueba1 de tipo string con el valor hola mundo y el otro campo de nombre prueba2 de tipo numeric y le colocamos como valor 12321. El numero 10 en el campo limit en la parte superior indica que se generaran 10 filas.4 Generate Rows Con este paso podemos crear filas. Escuela de Computación.Universidad Central de Venezuela. Preparador: Jose Schmidt Sistemas de Información Página 16 de 24 . Facultad de Ciencias.

Facultad de Ciencias. Colocamos el paso dummy. conectamos el workflow y pre visualizamos 3. arrastramos al lienzo el paso Get system info. armamos el workflow y pre visualizamos.Universidad Central de Venezuela. Escuela de Computación. Preparador: Jose Schmidt Sistemas de Información Página 17 de 24 .5 Get system info Este paso sirve para agregar información del sistema a nuestro workflow. le hacemos doble clic creamos un campo de nombre prueba y le colocamos el tipo system date (fixed). Colocamos el paso dummy.

Arrastramos también los pasos de entrada generate rows y get system info. Los pasos a tratar son Salida por archivo. armamos los pasos como se ilustra a continuación Preparador: Jose Schmidt Sistemas de Información Página 18 de 24 . Tocaremos solo tres pasos de transformación de salida invitándolo a probar el resto por cuenta propia.1 Salida por archivo Arrastramos al lienzo el paso que de nombre text file output. 4.Universidad Central de Venezuela. hacemos clic en el botón de browse para seleccionar la ruta del archivo buscamos la carpeta de escritorio. le hacemos doble clic para modificarlo. Escuela de Computación. Pasos de salida Estos pasos nos sirven para cargar en diversas fuentes de datos los resultados del proceso de transformación. En ingles los pasos de salida en están en el menú de output. 4. le colocamos el nombre de texto y le damos ok para guardar y salir del paso. Facultad de Ciencias. salida por excel y salida por dimensión.

Escuela de Computación. Arrastramos el paso de Excel output al lienzo. Facultad de Ciencias. le hacemos doble clic para modificarlo y: Haciendo clic en el botón browse buscamos el escritorio y le colocamos de nombre excel Preparador: Jose Schmidt Sistemas de Información Página 19 de 24 .Universidad Central de Venezuela. Hacemos clic en el play y verificamos en el escritorio el archivo que acabamos de crear 4.2 Salida por archivo de excel Repetimos el paso anterior pero colocando al final el paso de excel output en vez de text file output.

Hacemos clic en la pestaña Fields para colocar los campos que va a tener nuestra tabla de excel. Hacemos clic en ok para guardar el paso.Universidad Central de Venezuela. deben aparecer tres campos uno de tipo string. corremos la transformación y verificamos el archivo de excel que esta en el escritorio. hacemos clic en el botón get fields para obtener todos los campos que vienen por el workflow. Facultad de Ciencias. Escuela de Computación. un de tipo number y otro de tipo date. Preparador: Jose Schmidt Sistemas de Información Página 20 de 24 .

necesitaremos tener en el lienzo: un paso get system info. 4. aca vamos a seleccionar la base de datos de ol_oltp y la tabla gencode. del query resultante solo vamos a necesitar los campos abbr y desctxt. Nuestro primer paso en el flujo será el table input. véase también el diagrama estrella y el diagrama relacional para entender que relación tienen. Escuela de Computación. Adicionalmente a esto vamos a agregar un where para colocar que el campo labeltype sea igual a Terminal. El siguiente paso es el Get system info. un paso table input y el nuevo paso dimensión lookup/update que se encuentra en el menú Data Warehouse. crearemos una columna de nombre update_dt y le colocaremos el tipo system date(fixed) Preparador: Jose Schmidt Sistemas de Información Página 21 de 24 . Facultad de Ciencias.3 Salida por dimensión En este paso llenaremos la dimensión terminaldim examine la tabla gencode antes de continuar con el laboratorio para entender como la vamos a usar.Universidad Central de Venezuela.

Dimension Lookup/Update. luego seleccionamos usando el botón browse vamos a buscar dentro de schemas->ol_olap el esquema terminaldim. date range start field y table daterange end serán iguales para todas las dimensión que trataremos en el resto del laboratorio. Escuela de Computación.Universidad Central de Venezuela. colocaremos en Dimension Field el campo de la dimensión Terminal_Name y campo Stream Field to Compare With el campo en nuestro flujo que tiene esa correspondencia que vendría siendo desctxt por ultimo en type of dimension update colocaremos insert porque no nos interesa guardar un historial de los nombres de los terminales. en nuestro caso es el campo relevante a la información del sistema( update_dt ) los campos versión field. el campo stream field es el campo que indica la fecha en la que se ingreso el valor. Lo primero que tenemos que hacer es seleccionar la conexión con la base de datos ol_olap. Facultad de Ciencias. en nuestro caso ese valor es terminal_id. aproveche para anotar el nombre del id de secuencia que se encuentra dos esquemas mas abajo (note el id_seq al final del esquema). en la pestaña colocaremos otros campos de la dimensión y su correspondiente valor en nuestro flujo. La pestaña keys sirve para establecer la relación que existe entre la dimensión y la tabla operacional. Por ultimo tenemos el nuevo paso. la tabla gencode es quien tiene esta relación específicamente el campo abbr(es por esto que fue uno de los campos seleccionados en el query). sus valores son versión field: dim_version. en el campo creation of technical key usaremos la opción Use Sequence donde colocaremos la secuencia que habíamos hablado antes. este icono indica que este campo es quien guarda la relación con la tabla operacional. date range start field: dim_effect_date y por ultimo el campo table daterange end: dim_expire_date Preparador: Jose Schmidt Sistemas de Información Página 22 de 24 . por ende coloque en la columna Dimension Field terminal_code y en el field in stream colocaremos abbr. se observa en el esquema estrella específicamente la dimensión terminaldim que el campo terminal_code tiene un icono al lado derecho. En el campo technical key field colocaremos el campo clave o sustito de la dimensión el cual lo reconoceremos en el esquema estrella por tener una llave de lado izquierdo.

Escuela de Computación. Facultad de Ciencias. Haga una pre visualización sobre el paso dimensión lookup/update para verificar la correctitud de la transformación Preparador: Jose Schmidt Sistemas de Información Página 23 de 24 .Universidad Central de Venezuela.

Facultad de Ciencias. Adicionalmente use pgAdmin III para ver el resultado reflejado en la base de datos terminaldim Preparador: Jose Schmidt Sistemas de Información Página 24 de 24 .Universidad Central de Venezuela. Escuela de Computación.