You are on page 1of 62

DATA WAREHOUSE

SISTEMAS DE INFORMACIÓN
GERENCIAL
DEFINICION
1. Un Data Warehouse es un conjunto de datos
integrados orientados a una materia que varían con el
tiempo y que no son transitorios, los cuales soportan
el proceso de toma de decisiones de una
administración.

2. Un depósito semánticamente consistente en datos


(separados y que no interfieren con los sistemas
operativos y de producción existentes) que Ilenan
por completo los diferentes requerimientos de acceso
y reporte de datos
DEFINICION
3. Un proceso continuo que mezcla los datos de varias
fuentes heterogéneas, incluyendo datos históricos y
adquiridos para soportar la constante necesidad de
consultas estructuradas y/o ad hoc, reportes
analíticos y soporte de decisiones.

La tecnología del Data Warehouse es un ingrediente


esencial en el conjunto de soluciones para el soporte
de decisiones en una empresa.
OBJETIVOS DEL
DATAWAREHOUSE
Hace que la información de la organización sea
accesible: los contenidos del Data Warehouse son
entendibles y navegables, y el acceso a ellos son
caracterizado por el rápido desempeño.

Hacer que la información de la organización sea


consistente: la información de una parte de la
organización puede hacerse coincidir con la
información de la otra parte de la organización.
OBJETIVOS DEL
DATAWAREHOUSE
Es información adaptable y elástica: el Data WareHouse
esta diseñado para cambios continuos.

Es un seguro baluarte que protege los valores de la


información.

Es la fundación de la toma de decisiones: el Data


WareHouse tiene los datos correctos para soportar la toma
de decisiones. Solo hay una salida verdadera del Data
WareHouse: las decisiones que son hechas después de que
el Data WareHouse haya presentado las evidencias
CARACTERÍSTICAS DEL
DATAWAREHOUSE

Orientado al tema

Integrado

De tiempo variante

No volátil
ORIENTADO A TEMAS
Una primera característica del data warehouse es que
la información se clasifica en base a los aspectos que
son de interés para la empresa
ORIENTADO A TEMAS
La alineación alrededor de las áreas de los temas afecta
el diseño y la implementación de los datos encontrados
en el data warehouse. Las principales áreas de los
temas influyen en la parte más importante de la
estructura clave.

Las aplicaciones están relacionadas con el diseño de la


base de datos y del proceso. En data warehousing se
enfoca el modelamiento de datos y el diseño de la base
de datos. El diseño del proceso (en su forma clásica)
no es separado de este ambiente.
ORIENTADO A TEMAS
Las diferencias entre la orientación de procesos y
funciones de las aplicaciones y la orientación a temas,
radican en el contenido de la data a escala detallada.

Otra diferencia importante está en la interrelación de la


información. Los datos operacionales mantienen una
relación continua entre dos o más tablas basadas en
una regla comercial que está vigente. Las del data
warehouse miden un espectro de tiempo y las
relaciones encontradas en el data warehouse son
muchas
INTEGRADO
Integra datos recolectados de diferentes sistemas
operacionales de la organización y o fuentes externas.
INTEGRADO
El aspecto más importante del ambiente data
warehousing es que la información encontrada al
interior está siempre integrada.

La integración de datos se muestra de muchas


maneras: en convenciones de nombres consistentes, en
la medida uniforme de variables, en la codificación de
estructuras consistentes, en atributos físicos de los
datos consistentes, fuentes múltiples y otros.
INTEGRADO
A través de los años, los diseñadores de las diferentes
aplicaciones han tomado sus propias decisiones sobre
cómo se debería construir una aplicación. Los estilos y
diseños personalizados se muestran de muchas
maneras.

Se diferencian en la codificación, en las estructuras


claves, en sus características físicas, en las
convenciones de nombramiento y otros.
INTEGRADO
Codificación. Los diseñadores de aplicaciones
codifican el campo GENERO en varias formas. Un
diseñador representa GENERO como una "M" y una
"F", otros como un "1" y un "0", otros como una "X" y
una "Y" e inclusive, como "masculino" y "femenino".

Medida de atributos. Los diseñadores de aplicaciones


miden las unidades de medida de las tuberías en una
variedad de formas. Un diseñador almacena los datos
de tuberías en centímetros, otros en pulgadas, otros en
millones de pies cúbicos por segundo y otros en yardas.
INTEGRADO
Convenciones de Nombramiento. El mismo
elemento es frecuentemente referido por nombres
diferentes en las diversas aplicaciones. El proceso de
transformación asegura que se use preferentemente el
nombre de usuario.

Fuentes Múltiples. El mismo elemento puede


derivarse desde fuentes múltiples. En este caso, el
proceso de transformación debe asegurar que la fuente
apropiada sea usada, documentada y movida al
depósito.
INTEGRADO
Cualquiera que sea la forma del diseño, el resultado es
el mismo - la información necesita ser almacenada en
el data warehouse en un modelo globalmente aceptable
y singular, aun cuando los sistemas operacionales
subyacentes almacenen los datos de manera diferente.

Cuando el analista de sistema de soporte de decisiones


observe el data warehouse, su enfoque deberá estar en
el uso de los datos que se encuentre en el depósito,
antes que preguntarse sobre la confiabilidad o
consistencia de los datos.
INTEGRADO
DE TIEMPO VARIANTE (VARIABLE EN
EL TIEMPO)
1. Los datos son relativos a un periodo de tiempo y
estos deben ser integrados periódicamente, los
mismos son almacenados como fotos que se
corresponden a un periodo de tiempo.

2. Toda la información del data warehouse es requerida


en algún momento

3. En el ambiente operacional la información se


requiere al momento de acceder
DE TIEMPO VARIANTE (VARIABLE EN
EL TIEMPO)
DE TIEMPO VARIANTE (VARIABLE EN
EL TIEMPO)
La información representa los datos sobre un horizonte
largo de tiempo - desde cinco a diez años.

El horizonte de tiempo representado para el ambiente


operacional es mucho más corto - desde valores actuales
hasta sesenta a noventa días.

El tiempo variante en el data warehouse está en la


estructura clave. Cada estructura clave en el data
warehouse contiene, implícita o explícitamente, un
elemento de tiempo como día, semana, mes, etc.
DE TIEMPO VARIANTE (VARIABLE EN
EL TIEMPO)
La tercera manera en que aparece el tiempo variante es
cuando la información del data warehouse, una vez
registrada correctamente, no puede ser actualizada. La
información del data warehouse es, para todos los
propósitos prácticos, una serie larga de "snapshots"
(vistas instantáneas).

En algunos casos puede ser no ético, e incluso ilegal,


alterar los snapshots en el data warehouse. Los datos
operacionales, siendo requeridos a partir del momento
de acceso, pueden actualizarse de acuerdo a la
necesidad.
NO VOLÁTIL
Los datos que son almacenados no sufren ninguna
actualización solo son incrementados.

El período cubierto para un DW va de 2 a 10 años.


¿Por qué construir un Datawarehouse?
Sistemas no integrados

Múltiples e incompatibles estructuras de datos

Muchos puntos de entrada a los datos

Manejo de información histórica

Para facilitar las actividades de reporteo y análisis de usuarios

Proveer una vista única del negocio


DIFERENCIA ENTRE OLTP Y
DATAWAREHOUSE
Los sistemas tradicionales de transacciones y las aplicaciones de
Data Warehousing son polos opuestos en cuanto a sus
requerimientos de diseño y sus características de operación:

Las aplicaciones de OLTP están organizadas para ejecutar las


transacciones para los cuales fueron hechos, como por
ejemplo: mover dinero entre cuentas, un cargo o abono, una
devolución de inventario, etc.

Por otro lado, un Data Warehouse está organizado en base a


conceptos, como por ejemplo: clientes, facturas, productos,
etc.
DIFERENCIA ENTRE OLTP Y
DATAWAREHOUSE
El número de usuarios de un OLTP es mayor que el de
un Data Warehouse

Los sistemas de OLTP realizan cientos de


transacciones por segundo mientras que una sola
consulta de un Data Warehouse puede tomar minutos.

Un Data Warehouse puede estar formado por


información de varios OLTP´s.
DIFERENCIA ENTRE OLTP Y
DATAWAREHOUSE
Existen también diferencia en el diseño, mientras que
el de un OLPT es extremadamente normalizado, el de
un Data Warehouse tiende a ser desnormalizado.

El número de columnas de un OLTP es mayor al de un


Data Warehouse.

Las estructuras de los OLTP son muy estables, rara vez


cambian, mientras las de los Data Warehouses sufren
cambios constantes derivados de su evolución. 
DIFERENCIA ENTRE OLTP Y
DATAWAREHOUSE

OLTP Data Warehouse


- Orientada a transacciones - Orientada a Conceptos
- Detallada - Sumarizada
- Actualizada en línea - Representa valores a un tiempo (snapshot)
- Usuarios de nivel operativo - Usuarios de nivel gerencial
- Corre en base a repeticiones - Corre heurísticamente
- Muy sensitivo al desempeño - Poco sensitivo al desempeño
- Accesa unidades a la vez - Accesa conjuntos de unidades a la vez
- Orientado a operación - Orientado a análisis
- Estructura estática - Estructura flexible
- Sin redundancia - Con mucha redundancia
- Alta probabilidad de acceso - Modesta probabilidad de acceso
- Administrada como un todo - Administrada por partes
- Información bruta (Datos) - Información procesada (Información)
- Actualizada en línea - Actualizada en Batch
- Muchas tablas con pocas columnas - Pocas tablas con muchas columnas
DIFERENCIA ENTRE OLTP Y
DATAWAREHOUSE
SISTEMA
TRANSACCIONAL

No datos sumarizados


No drill down
No datos históricos
Aplicaciones no
integradas
DIFERENCIA ENTRE OLTP Y
DATAWAREHOUSE
DATAWAREHOUSE
Muchos datos
sumarizados
Estructurado para
análisis con drill down
Datos históricos para
análisis de tendencias
Información integrada
para análisis
corporativos
DIFERENCIA ENTRE OLTP Y
DATAWAREHOUSE
CICLO DE DESARROLLO
El Data Warehouse sigue el mismo ciclo de
perfeccionamiento que todos los desarrollos de
software.
CICLO DE DESARROLLO
El ciclo clásico de desarrollo tradicional
PLANEACIÓN
La planeación es una fase importante de la
implementación del Data Warehouse.

Enfoque de arriba hacia abajo (de Io general a Io


particular) o de abajo hacia arriba (en sentido opuesto)
o combinado
REQUERIMIENTOS

Los requerimientos son conducidos por el negocio y


por la tecnología

La cuidadosa selección y especificación de


requerimientos en esta etapa proporciona un proyecto
cimentado que arroja resultados con rapidez.
ANÁLISIS
La fase de análisis es importante ya que determina la
forma en que se cubrirán los requerimientos.

Conversión de especificaciones de requerimientos a


especificaciones de metamodelo para el Data
Warehouse.

Después, estas especificaciones se usan para generar


extractores del Data Warehouse y software de
transformación, integración, resumen y adición.
CONSTRUCCIÓN
"Construir en comparación con comprar".

Mediante la selección adecuada de componentes


suministrados por fabricantes, es posible construir una
primera implementación del Data Warehouse rápida y
eficaz.
DESPLIEGUE
Comercialización de información.

Énfasis en la disponibilidad, los beneficios y el


empaque para hacerla atractiva al usuario final.
CONSIDERACIONES PREVIAS AL
DESARROLLO DE UN DATAWAREHOUSE
REDUNDANCIA DE DATOS

Data warehouses "virtual" o "Point to Point“

Data warehouses "centrales“

Data warehouses "distribuidos"


Data Warehouses "Virtual" o "Point to Point"
Acceden a bases de datos operacionales directamente, usando cualquier
herramienta que posibilite "la red de acceso de datos".

Este enfoque provee flexibilidad así como también la cantidad mínima de


datos redundantes que deben cargarse y mantenerse

Una estrategia inicial, en organizaciones donde hay una amplia (pero en su


mayor parte indefinida) necesidad de conseguir la data operacional, desde
una clase relativamente grande de usuarios finales y donde la frecuencia
probable de pedidos es baja.

Los depósitos virtuales de datos proveen un punto de partida para que las
organizaciones determinen qué usuarios finales están buscando realmente.
Data Warehouses "Centrales"
Una única base de datos física, que contiene todos los datos para un área
funcional específica, departamento, división o empresa.

Existe una necesidad común de los datos informáticos y un número


grande de usuarios finales ya conectados a una red o computadora central.

Comúnmente, contienen datos de sistemas operacionales múltiples.

Los data warehouses centrales son reales.

Los datos almacenados en el data warehouse son accesibles desde un


lugar y deben cargarse y mantenerse sobre una base regular.
Data Warehouses Distribuidos
Los data warehouses distribuidos son aquellos en los
cuales ciertos componentes del depósito se distribuyen a
través de un número de bases de datos físicas diferentes.

Cada vez más, las organizaciones grandes están tomando


decisiones a niveles más inferiores de la organización

Tienen procesos de actualización y carga más complejos.


ARQUITECTURA DEL
DATAWAREHOUSE
CUBOS DIMENSIONALES
Un modelo de datos multidimensional soporta el
manejo de una basta cantidad de datos empresariales y
temporales. Conocido como cubo o hipercubo.

Para clarificarlo un poco se puede imaginar un cubo


con tres dimensiones: producto, tiempo, región

La medida es el índice de un producto como puede ser


el huevo en el mes de mayo y en la zona centro del
país.
CUBOS DIMENSIONALES
HIPERCUBOS
Herramientas de Acceso ó Herramientas de
Usuario Final

Herramientas de Minería de Datos

HERRAMIENTAS DE PROCESAMIENTO
ANALÍTICO EN LÍNEA (OLAP)

Herramientas de Desarrollo de Aplicaciones

Herramientas de Reportes y Consultas


Herramientas de Acceso ó Herramientas de
Usuario Final
Herramientas de Procesamiento Analítico en
Línea (OLAP)
Una campaña de marketing, previsión de ventas de
productos, y planificación de la capacidad.

Estas herramientas asumen que los datos están


organizados en un modelo multidimensional
(MDDBMS)

Por una base de datos relacional diseñada para permitir


consultas multidimensionales.
FORMAS DE
ALMACENAMIENTO
OLAP es online analytical processing. Se trata de una forma de almacenar la
información en una Base de Datos que permita realizar de forma más efectiva las
consultas. Es una definición abreviada, claro esta, la realidad es más compleja.

MOLAP, Multidimensional OLAP. Tanto los datos fuente como los datos agregados
o precalculados residen en el mismo formato multidimensional. Optimiza las
consultas, pero requiere más espacio de disco y diferente software.

ROLAP, Relational OLAP. Tanto los datos precalculados y agregados como los
datos fuente residen en la misma base de datos relacional. Si el DataWarehouse es
muy grande o se necesita rapidez por parte de los usuarios puede ser un problema.

HOLAP, Hybrid OLAP: Es una combinación de los dos anteriores. Los datos
agregados y precalculados se almacenan en estructuras multidimensionales y los de
menor nivel de detalle en el relacional. Requiere un buen trabajo de análisis para
identificar cada tipo de dato.
DISEÑO ESTRELLA
DISEÑO ESTRELLA
DEFINICIONES
Tabla de hechos (o tabla fact) es la tabla central de un esquema
dimensional (en estrella o en copo de nieve) y contiene los valores
de las medidas de negocio

Tablas de dimensiones son elementos que contienen atributos (o


campos) que se utilizan para restringir y agrupar los datos
almacenados en una tabla de hechos cuando se realizan consultas
sobre dicho datos.

Las medidas o hechos de tabla de hechos son los aditivos, es decir,


aquellas medidas que pueden ser sumadas como por ejemplo la
cantidad de producto vendido, los costes de producción o el dinero
obtenido por las ventas
DEFINICIONES
Nivel de granularidad de los datos, el nivel más atómico por el cual se definen
los datos en la tabla de hechos

Una jerarquía se crea entre la tabla de hechos y la dimensión, ya que se tiene


varios niveles de asociación de los datos (con otras dimensiones como el tiempo,
se podrían crear niveles jerárquicos del tipo 'días', 'semanas', 'meses', ...).

La agregación es un proceso de cálculo por el cual se resumen los datos de los
registros de detalle
Operaciones Analíticas Básicas de Sistemas
OLAP
Consolidación: este comprende el conjunto de datos. Esto
puede involucrar acumulaciones simples o agrupaciones
complejas que incluyen datos interrelacionados.

Drill-Down: OLAP puede moverse en la dirección


contraria y presentar automáticamente datos detallados
que abarcan datos consolidados.

Slicing and Dicing: se refiere a la capacidad de visualizar


a la BD desde diferentes puntos de vista. También se la
conoce como operación de Pivotaje.
Slicing and Dicing
Drill-Down
Vistas de Datos
La vista de datos como cubos es una extensión de la
manera normal en que los usuarios de negocios
interactúan con los datos. Por Ejemplo: la mayoría de
los usuarios desearía ver como se desarrollan las
ventas a lo largo del tiempo. Para ello se necesitaría
ver varías planillas de cálculo.
Vistas de Datos
Debido a su representación pueden ser tomadas
rebanadas de datos de las mismas, para responder
diversas preguntas.
Data Mining
El Data Mining apoya la modalidad de descubrimiento
del soporte de decisiones.
Las herramientas de Data Mining recorren los datos
detallados de transacciones para desenterrar patrones y
asociaciones ocultos.
Las herramientas de procesamiento analítico permiten
diversas visualizaciones de los datos, como ventas por
marca, tienda, temporada y periodos de tiempo, las
cuales se pueden definir, consultar y analizar
Las herramientas de Data Mining son esenciales para
comprender el comportamiento de los clientes.
Usuarios del Data Mining
Los usuarios clave en perspectiva del Data Mining son
los analistas empresariales, los peritos en estadística y
los profesionales en tecnología de la información que
auxilian a los usuarios empresariales. 
Quienes obtienen beneficios de los resultados del Data
Mining son los gerentes empresariales y los ejecutivos
Se utiliza el conocimiento obtenido para afinar las
estrategias de producción, precios y comercialización;
mejorar el nivel de éxito de las estrategias; e impulsar
el balance.
Usuarios del Data Mining
Data Mining
Los análisis prospectivos automatizados van más allá
de los eventos pasados provistos por herramientas
retrospectivas típicas de sistemas de soporte de
decisión.
Las herramientas de Data Mining pueden responder a
preguntas de negocios que tradicionalmente consumen
demasiado tiempo para poder ser resueltas y a los
cuales los usuarios de esta información casi no están
dispuestos a aceptar.

You might also like