You are on page 1of 28

Construccin y explotacin de un almacn de datos para el anlisis del sistema de prestaciones sociales.

Autor: Estudios cursados: Consultor:

Carlos Toribio Martnez ETIS 2003 Xavier Plaza Sierra Junio 2012

ndice de contenidos
Introduccin
Almacenes de datos

Caso de estudio
Anlisis, diseo e implementacin

Presentacin del producto.


Conclusiones

Introduccin
Fases del trabajo de fin de carrera:
Fase 1.
Primer anlisis de requerimientos. Temporalizacin de los hitos a realizar para la consecucin del proyecto.

Fase 2.
Anlisis de requerimientos. Diseo lgico y fsico. Diseo procedimiento ETL

Fase 3.
Implementacin almacn de datos. Implementacin informes requeridos.

Introduccin
Fase 4.
Preparacin memoria. Preparacin presentacin. Preparacin producto.

Almacenes de datos
Tiene como objetivo el anlisis de datos para soporte en la toma de decisiones. Muchas de las fuentes de datos se encuentran dispersas por los diferentes sistemas de la empresa Estas fuentes muchas veces se utilizan para el trabajo diario en forma de bases de datos, tablas, etc. Como el coste de almacenamiento y conectividad ha bajado mucho es razonable crear un sistema separado y especifico.

Almacenes de datos
Motivacin:
Sistema de informacin de apoyo a toma de decisiones. Disponer de bases de datos que permitan extraer conocimiento de la informacin histrica almacenada en la organizacin con objeto de:
Analizar la organizacin. Previsiones de evolucin. Diseo de estrategias en la organizacin.

Almacenes de datos
Arquitectura determinada por su posicin central para abastecer a las herramientas de anlisis.

Almacenes de datos
Componentes:
Fuentes de datos:
Repositorios de datos. Informacin relevante. Metadatos.

ETL (Extraccin Transformacin y Carga)


Extraccin de datos Filtrado: Limpieza y consolidacin Carga inicial almacn. Refresco peridico almacn

Almacn de datos:
Permite el acceso de herramientas externas para anlisis

Almacenes de datos
Las herramientas de explotacin de los almacenes de datos han adoptado un modelo multidimensional de datos, donde se ofrece a usuario la visin de las diferentes dimensiones que son objeto de anlisis. Modelo multidimensional:
Se representa una actividad que es el objeto del anlisis (hecho), y las dimensiones que la caracterizan. La informacin sobre el hecho se representa por medidas e indicadores. Hay diferentes esquemas multidimensionales como son en estrella y en copo de nieve. Un nivel de agregacin para un conjunto de dimensiones se denomina cubo.

Caso de Estudio
El Organismo de Anlisis del Departamento de Trabajo (OADT) ha decidido hacer un estudio para determinar la sostenibilidad del sistema de prestaciones . Se encuentra el problema de que debido a la gestin distribuida de las competencias sociales, y el cumplimiento de la ley de proteccin de datos que impide acceder a la informacin que gestionan otros organismos no tiene acceso a los datos que necesita. Por ello ha solicitado a las comunidades autnomas, exceptuando Pas Vasco y Navarra informacin sobre prestaciones. Tambin ha solicitado al Instituto Nacional de Empleo (INE) datos sobre poblacin y personas en activo por CCAA y ao.

Caso de Estudio
OADT nos encarga la creacin de un almacn de datos mediante el cual se pueda obtener como mnimo la siguiente informacin:
Total retribucin. Total retencin. Retribucin media Porcentaje de retencin medio Nmero de retribuciones medio. Porcentaje de poblacin por segmento. Nmero de trabajadores respecto nmero de perceptores no activos.(Determina la sostenibilidad del sistema) Nmero de trabajadores respecto nmero de habitantes Nmero de trabajadores respecto nmero de personas activas. Salarios totales sobre el total de prestaciones. Proyeccin de indicadores Nmero de trabajadores / Nmero de perceptores no activos y Numero de trabajadores / Poblacin perceptora. Toda esta informacin deber proporcionarse dentro de una temporalidad a nivel de ao, pudindose consultar de forma agregada por CCAA, tipo de perceptor y tipo de retribucin.

Caso de Estudio
El OADT nos proporciona toda la informacin recibida de los diferentes organismos en los siguientes ficheros:
Poblacin por comunidad autnoma. Porcentaje de poblacin activa. Tributacin comunidad autnoma.

Nos advierten que hay diferentes formatos de CSV. Nos indican que no todos los archivos traen la misma informacin, por lo que tendremos que unificar. Nos piden que el nmero de habitantes lo calculemos como media de valores a 1 de enero entre aos para que los datos sean ms realistas.

Anlisis, diseo e implementacin


Anlisis inicial: Archivos poblacin por CCAA.
La informacin que da es nmero de hombres y mujeres por comunidad autnoma y ao Hay 7 archivos anuales que van del ao 2005 al 2011. De estos archivos podremos obviar los totales a la hora de hacer ETL.

Archivos tributacin por CCAA.


La informacin que aporta es variable por CCAA. Hay 16 archivos de este tipo. En estos archivos tendremos que hacer el grueso del trabajo de ETL.

Archivos porcentaje de poblacin activa .


La informacin que aporta es el porcentaje de poblacin activa por CCAA y ao. Hay 1 archivo que posee los datos desde el ao 2005 al ao 2010.

Anlisis, diseo e implementacin


Posible modelo de datos.

Anlisis, diseo e implementacin


Tabla Dimensin Tipo perceptor (T_TIPO_PERCEPTOR) Id Tipo_perceptor Varchar Varchar

Tabla de hecho Evolucin sistema Prestaciones (T_TRIBUT_CCAA)


Id CCAA Varchar Char Varchar Varchar Varchar Number Number Id

Tabla Grupo de retribucin (T_GRUPO_RETRIBUCION)


Id Grupo_retribucin Varchar Varchar

Tabla Dimensin Fecha (T_ANYOS) Id Anyo Varchar Varchar

Anyo Grupo_retribucion Tipo_retribucion Asalariados Pensionistas

Tabla Porcentaje poblacin activa (T_PORC_POB_ACT_CCAA) Varchar Char Number Number

Tabla Dimensin Poblacin (T_POBLACION_CCAA) Id Anyo CCAA Num_Hombres Num_Mujeres Varchar Varchar Char Number Number

Desempleados
Asal_y_Pensi Asal_y_Desemp Pensi_y_Desemp Asal_Pensi_y_Desemp

Number
Number Number Number Number

CCAA ANYO_2010 ANYO_2009

ANYO_2008
ANYO_2007 ANYO_2006 ANYO_2005

Number
Number Number Number

Anlisis, diseo e implementacin


Proceso ETL

Anlisis, diseo e implementacin


Proceso ETL
Archivos poblacin por CCAA.

Anlisis, diseo e implementacin


Proceso ETL
Archivo porcentaje poblacin activa.

Anlisis, diseo e implementacin


Proceso ETL
Archivos de tributacin por CCAA.

Anlisis, diseo e implementacin


Implementacin.

Anlisis, diseo e implementacin


Implementacin.

Anlisis, diseo e implementacin


Implementacin.

Anlisis, diseo e implementacin


Implementacin.

Anlisis, diseo e implementacin


Objetivos conseguidos en el desarrollo del proyecto.
Todos los objetivos requeridos por nuestro cliente ficticio se han conseguido.

Todos los objetivos de la UOC para esta asignatura creo que se han conseguido.
Todos los objetivos personales de ampliacin de conocimientos en cuanto a almacenes de datos se han conseguido.

Presentacin del producto.

Puntos de mejora y trabajo futuro.


Como mejoras al producto podran trabajarse las comparaciones entre los datos estatales y por CCAA respecto a los informes. Tambin la realizacin de informes con mapas.

Conclusiones.
Se han cumplido los objetivos marcados en la temporalizacin del proyecto. Se ha realizado un proyecto de un caso real. Se ha entregado un producto final.

Agradecimientos.

You might also like