You are on page 1of 32

Agenda

1.

Objetivos de la presentacin

2.

Por qu integrar datos

3.

Cmo integrar datos: El Data Warehouse

4.

Las fuentes de datos

5.

Construccin del Data Warehouse

6.

La calidad de los datos

7.

Integracin de los datos

8.

Explotacin del Data Warehouse

9.

Conclusiones

Objetivos de la presentacin
Describir:
Inteligencia de Negocios
Las ventajas de la integracin de las fuentes.
El proceso de la construccin.
Los principales problemas a los que nos
enfrentamos.
Los usos de los datos integrados.

Inteligencia de Negocios

Inteligencia de Negocios es el proceso de transformar los datos en


informacin, y la informacin en conocimiento, de forma que se pueda
optimizar el proceso de toma de decisiones en los empresas.

La inteligencia de negocio acta como un factor estratgico para una


empresa u organizacin, generando una potencialventaja competitiva, que
no es otra que proporcionarinformacin privilegiada para responder a los
problemas de negocio: entrada a nuevos mercados, promociones u ofertas
de productos, eliminacin de islas de informacin, control financiero,
optimizacin de costes, planificacin de la produccin, anlisis de perfiles
de clientes, rentabilidad de un producto concreto, etc...

Por qu integrar
datos?
Qu quiere saber el gerente de hoy?
Quienes
Quienesson
sonmis
mis
clientes
y
que
productos
clientes y que productos
prefieren?
prefieren?
Cul
Cules
eselelcanal
canalde
de
distribucin
ms
distribucin ms
efectivo?
efectivo?

Cuales
Cualesson
sonlos
los
clientes
con
mayor
clientes con mayor
potencial
potencialde
deirse
irsecon
con
lalacompetencia?
competencia?

Qu
Qupromocin
promocintiene
tiene
elelmayor
impacto
mayor impacto
en
las
en lasutilidades?
utilidades?

Cuales
Cualesson
sonlos
losclientes
clientes
con
el
mayor
y
menor
con el mayor y menor
margen
margende
deutilidad?
utilidad?
Cual
Cuales
eselelimpacto
impactodel
del
nuevo
producto
/
servicio
nuevo producto / servicio
lanzado,
lanzado,sobre
sobrelas
las
utilidades?
utilidades?

Por qu integrar
datos?
Frustracin de los ejecutivos debido a ...
Problemas de acceso a las fuentes de
informacin.
Informacin desintegrada.
Muchos datos pero no suficiente informacin.
No pueden hacerse preguntas complejas del
negocio.
Alto costo para responder preguntas.
No hay anlisis histrico de informacin.

Cmo integrar los Datos?


El Data Warehouse
El DWH es una coleccin de datos integrada en una Base
de Datos, no voltil, orientada segn un tema, diseadas para
soportar un Sistema de Soporte a las Decisiones (DSS), donde
cada unidad de dato es relevante en algn momento del
tiempo.(Bill Inmon)

El ms importante reto, que hoy en da, los administradores de negocios


deben encarar es cmo integrar y maximizar sus datos para obtener
ventajas competitivas (Bob Sanguedolce CIO eBay Inc)

El Data Warehouse
Ventajas del DW

Permite contar con una plataforma


optimizada para consultar y analizar la
informacin.

Permite transformar la data en


informacin.

Permite integrar datos dispersos en


distintas Bases de Datos.

Aumenta la productividad en los procesos


de consulta.

El Data Warehouse
Caractersticas del DW
Orientado a un Tema
La data es categorizada y almacenada por reas de
negocio en lugar de aplicaciones.
Aplicaciones OLTP

Tema del Data


Warehouse

Ahorros
Acciones
Seguros
Prestamos

Planes de
proteccin

Informacin
Financiera
del Cliente

El Data Warehouse
Caractersticas del DW
Integrada
La data es definida como nica.
Ahorros
Cuenta
Corriente
Prestamos
Aplicaciones OLTP

Cliente
Data Warehouse

El aspecto ms importante del DW es que la informacin encontrada al interior


est siempre integrada.

El Data Warehouse
Caractersticas del DW
Variante en el tiempo
La data es almacenada como serie de fotos asociadas al
tiempo.
1997
1997
1997

Tiempo Data
01/97

Enero

02/97

Febrero

03/97

Marzo

Data Warehouse

El Data Warehouse
Caractersticas del DW

No voltil
La data en el DW tpicamente No cambia.

Operacional

Warehouse
Load

Insert
Update
Delete

Select

Select

El Data Warehouse

Sistemas transaccionales
Y otras fuentes

Reportes y
Anlisis

Limpieza de datos
Y enriquesimiento

Las Fuentes de datos


Tipos de Fuentes de
datos
Sistemas transaccionales
Sistemas Legacy
Fuentes externas institucionales
Pginas Web

Browser:

http://

Hollywood

Redes sociales

Browser:

Browser:

Hollywood

Hollywood

http://

12345.00
12780.00
2345787.00
87877.98
5678.00

100% ABC CO
110%GMBH LTD
230%GBUK INC
200%
FFR ASSOC
-10% MCD CO

http://

Las Fuentes de datos


Problemas de las Fuentes de
datos
Calidad del dato
Disponibilidad y acceso de los datos
Criterios y estndares diversos utilizados
Falta de instituciones responsables de la

veracidad de la informacin.

Construccin del
DW

Diseo el DW: Modelo Estrella

Construccin del DW
Mapeo de Datos

Definir los atributos operacionales que se usarn


Establecer mapeo de los requerimientos del negocio.
Mapear requerimientos a las necesidades de datos
Crear la matriz de Mapeo de los datos

Metadata
Archivo A
Staging Archivo Uno
F1
Numero
F2
Nombre
F3
DOB
Archivo A
F1 123
F2 Wilson
F3 10/12/56

Staging Archivo Uno


Numero USA123
Nombre Garcilaso
DOB 10-Dec-56

Construccin del DW
Extraccin, Transformacin y Carga
(ETL)
Limpieza
Integracin
Derivacin

Sistema
Operacional Extraccin

Data
staging
area

Primera Carga
Cargas Peridicas

Warehouse

Transformacin

La transformacin incluye:
Calidad de Datos: Limpieza eliminando anomalas de la Data
Operacional
Integrar los datos: Consolidar la informacin
Datos Derivados: Generar nueva informacin

Extraccin de los datos


Escoger los datos a extraer desde las mltiples
fuentes
Mltiples fuentes de datos agregan
complejidad

Empezar simple

Browser:
http://
Cu
s
Hollywood tom
er+s X
:

Hollywood

Extraccin

Cu
s
Browser:
http:// tomer+ X
s:
Hollywood

as
rof

http://

a reco

Browser:

Data
Staging
Area
Operational
Databases

La Calidad de los
Datos

Establecer mtricas de calidad mnima y medir.

Usar reglas de negocio para identificar las


inconsistencias y problemas en los datos

Identificar y corregir la causa de los defectos

Programar limpiezas peridicas de las fuentes


de datos

La Calidad de los Datos


Caractersticas de la calidad de
datos

Exactitud
Completo
Consistente
nico
Oportuno

Browser:

http://

Hollywood

Ventas
Browser:

http://

Hollywood

Produccin
Browser:

http://

Hollywood

Almacenes

Integracin de los datos


Problemas de Mltiples
fuentes
Mltiples fuentes de datos agregan
complejidad

Empezar simple

Mltiples
fuentes

Lgica para detectar


fuente correcta

Extraccin
de datos

Integracin de los datos


Transformando Datos: Problemas y Soluciones

Mltiples llaves

Cdigo de producto = 12M65431345

Cdigo Territorio
pas
vente

Nmero
Producto

Cdigo
Vendedor

Integracin de los datos


Problemas de formato
Mltiple codificacin
m,f
1,0

m, f

male, female

Mltiples estndares
cm

cm

pulgadas
DD/MM/YY

DD-Mon-YY

MM/DD/YY
S/. 1,000
Euros 9,990

USD 600

Mltiples idiomas
ACME Co.

Integracin de los datos


Problemas de Nombres y
Direcciones
Formato de campo simple
Sr. J. Sanchez, Las Gardenias 415 interior 3 Surco, Lima

Formato mltiple de campos

Nombre
Calle
Provincia
Distrito
Nmero

Sr. J. Sanchez
Las Gardenias
Lima
Surco
415 interior 3

Integracin de los datos


Integracin de
personas

DNI
Pasaporte
Carnet de Extranjera
RUC
Brevete
Jose Antonio Flores Daz
Jose Flores Daz
Flores Daz Jose
J. A. Flores Daz

El
CIC

Integracin de los datos


Integracin de
direcciones
La Georeferenciacin:
Av. Wilson 1402, Lima
Av. Garcilazo de la Vega
1402, Lima
Inca Garcilazo de la
Vega
1402, Lima

Coordenadas:
(X, Y, Z)

Carga del DW
Primera
Carga

Evento simple que puebla el Data


Warehouse con la data histrica
Envuelve grandes volmenes de dato
Envuelve una gran cantidad de procesos
antes de la carga

Base de Datos
operacionales
T1

T2

T3

Carga del DW
Capturar la data que cambia para el refresco

Capturar nuevos datos de los hechos

Capturar cambios de los datos de las dimensiones.

Determinar mtodos de captura:

Reemplazo de toda la data

Comparacin de las instancias de las BDs

Marcas de tiempo (Time stamping)

Triggers en la Base de Datos

Log en las Base de Datos

Considerar tcnicas hbridas

Explotacin del DW
Herramientas
OLAP
Navegacin Ad-hoc
Reportes
Dashboards

Explotacin del DW
Minera de
Datos
Minera de Datos
Modelos Predictivos,
Modelos Descriptivos

You might also like