You are on page 1of 43

UNIVERSIDAD PRIVADA

Ada A. Byron
Data Warehousing

Introduccin

Desde que se inici la era de la computadora, las organizaciones han usado los
datos desde sus sistemas operacionales para atender sus necesidades de
informacin. Algunas proporcionan acceso directo a la informacin contenida
dentro de las aplicaciones operacionales. Otras, han extrado los datos desde
sus bases de datos operacionales para combinarlos de varias formas no
estructuradas, en su intento por atender a los usuarios en sus necesidades de
informacin.

Ambos mtodos han evolucionado a travs del tiempo y ahora las


organizaciones manejan una data no limpia e inconsistente, sobre las cuales,
en la mayora de las veces, se toman decisiones importantes.

La gestin administrativa reconoce que una manera de elevar su eficiencia est


en hacer el mejor uso de los recursos de informacin que ya existen dentro de
la organizacin. Sin embargo, a pesar de que esto se viene intentando desde
hace muchos aos, no se tiene todava un uso efectivo de los mismos.

La razn principal es la manera en que han evolucionado las computadoras,


basadas en las tecnologas de informacin y sistemas. La mayora de las
organizaciones hacen lo posible por conseguir buena informacin, pero el logro
de ese objetivo depende fundamentalmente de su arquitectura actual, tanto de
hardware como de software.

El data warehouse, es actualmente, el centro de atencin de las grandes


instituciones, porque provee un ambiente para que las organizaciones hagan un
mejor uso de la informacin que est siendo administrada por diversas
aplicaciones operacionales.

Un data warehouse es una coleccin de datos en la cual se encuentra integrada


la informacin de la Institucin y que se usa como soporte para el proceso de
toma de decisiones gerenciales. Aunque diversas organizaciones y personas
individuales logran comprender el enfoque de un Warehouse, la experiencia ha
demostrado que existen muchas dificultades potenciales.

Reunir los elementos de datos apropiados desde diversas fuentes de aplicacin


en un ambiente integral centralizado, simplifica el problema de acceso a la
informacin y en consecuencia, acelera el proceso de anlisis, consultas y el
menor tiempo de uso de la informacin.

Lic. Vladimir Cotaquispe Gutirrez. 1


UNIVERSIDAD PRIVADA
Ada A. Byron
Las aplicaciones para soporte de decisiones basadas en un data warehousing,
pueden hacer ms prctica y fcil la explotacin de datos para una mayor
eficacia del negocio, que no se logra cuando se usan slo los datos que
provienen de las aplicaciones operacionales (que ayudan en la operacin de la
empresa en sus operaciones cotidianas), en los que la informacin se obtiene
realizando procesos independientes y muchas veces complejos.

Un data warehouse se crea al extraer datos desde una o ms bases de datos de


aplicaciones operacionales. La data extrada es transformada para eliminar
inconsistencias y resumir si es necesario y luego, cargadas en el data
warehouse. El proceso de transformar, crear el detalle de tiempo variante,
resumir y combinar los extractos de datos, ayudan a crear el ambiente para el
acceso a la informacin Institucional. Este nuevo enfoque ayuda a las personas
individuales, en todos los niveles de la empresa, a efectuar su toma de
decisiones con ms responsabilidad.

La innovacin de la Tecnologa de Informacin dentro de un ambiente data


warehousing, puede permitir a cualquier organizacin hacer un uso ms ptimo
de los datos, como un ingrediente clave para un proceso de toma de decisiones
ms efectivo. Las organizaciones tienen que aprovechar sus recursos de
informacin para crear la informacin de la operacin del negocio, pero deben
considerarse las estrategias tecnolgicas necesarias para la implementacin de
una arquitectura completa de data warehouse.

1. Introduccin al Concepto Data Warehousing

Data warehousing es el centro de la arquitectura para los sistemas de


informacin en la dcada de los '90. Soporta el procesamiento informtico al
proveer una plataforma slida, a partir de los datos histricos para hacer el
anlisis. Facilita la integracin de sistemas de aplicacin no integrados.
Organiza y almacena los datos que se necesitan para el procesamiento
analtico, informtico sobre una amplia perspectiva de tiempo.

Un Data Warehouse o Depsito de Datos es una coleccin de datos orientado a


temas, integrado, no voltil, de tiempo variante, que se usa para el soporte del
proceso de toma de decisiones gerenciales.

Se puede caracterizar un data warehouse haciendo un


contraste de cmo los datos de un negocio almacenados en un
data warehouse, difieren de los datos operacionales usados
por las aplicaciones de produccin.

Lic. Vladimir Cotaquispe Gutirrez. 2


UNIVERSIDAD PRIVADA
Ada A. Byron

Base de Datos Operacional Data Warehouse

Datos Operacionales Datos del negocio para Informacin

Orientado a la aplicacin Orientado al sujeto

Actual Actual + histrico

Detallada Detallada + ms resumida

Cambia continuamente Estable

El ingreso de datos en el data warehouse viene desde el ambiente operacional


en casi todos los casos. El data warehouse es siempre un almacn de datos
transformados y separados fsicamente de la aplicacin donde se encontraron
los datos en el ambiente operacional.

2 Sistemas de Informacin

Los sistemas de informacin se han dividido de acuerdo al siguiente esquema:

Sistemas Estratgicos, orientados a soportar la toma de decisiones, facilitan


la labor de la direccin, proporcionndole un soporte bsico, en forma de mejor
informacin, para la toma de decisiones. Se caracterizan porque son sistemas
Lic. Vladimir Cotaquispe Gutirrez. 3
UNIVERSIDAD PRIVADA
Ada A. Byron
sin carga peridica de trabajo, es decir, su utilizacin no es predecible, al
contrario de los casos anteriores, cuya utilizacin es peridica.

Destacan entre estos sistemas: los Sistemas de Informacin Gerencial (MIS),


Sistemas de Informacin Ejecutivos (EIS), Sistemas de Informacin
Georeferencial (GIS), Sistemas de Simulacin de Negocios (BIS y que en la
prctica son sistemas expertos o de Inteligencia Artificial - AI).

Sistemas Tcticos, diseados para soportar las actividades de coordinacin de


actividades y manejo de documentacin, definidos para facilitar consultas sobre
informacin almacenada en el sistema, proporcionar informes y, en resumen,
facilitar la gestin independiente de la informacin por parte de los niveles
intermedios de la organizacin.

Destacan entre ellos: los Sistemas Ofimticos (OA), Sistemas de Transmisin


de Mensajera (Correo electrnico y Servidor de fax), coordinacin y control de
tareas (Work Flow) y tratamiento de documentos (Imagen, Trmite y Bases de
Datos Documentales).

Sistemas Tcnico - Operativos, que cubren el ncleo de operaciones


tradicionales de captura masiva de datos (Data Entry) y servicios bsicos de
tratamiento de datos, con tareas predefinidas (contabilidad, facturacin,
almacn, presupuesto, personal y otros sistemas administrativos). Estos
sistemas estn evolucionando con la irrupcin de censores, autmatas,
sistemas multimedia, bases de datos relacionales ms avanzadas y data
warehousing.

Sistemas Interinstitucionales, este ltimo nivel de sistemas de informacin


recin est surgiendo, es consecuencia del desarrollo organizacional orientado a
un mercado de carcter global, el cual obliga a pensar e implementar
estructuras de comunicacin ms estrechas entre la organizacin y el mercado
(Empresa Extendida, Organizacin Inteligente e Integracin Organizacional),
todo esto a partir de la generalizacin de las redes informticas de alcance
nacional y global (INTERNET), que se convierten en vehculo de comunicacin
entre la organizacin y el mercado, no importa dnde est la organizacin
(INTRANET), el mercado de la institucin (EXTRANET) y el mercado (Red
Global).

Sin embargo, la tecnologa data warehousing basa sus conceptos y diferencias


entre dos tipos fundamentales de sistemas de informacin en todas las
organizaciones: los sistemas tcnico - operacionales y los sistemas de soporte
de decisiones. Este ltimo es la base de un data warehouse.

Lic. Vladimir Cotaquispe Gutirrez. 4


UNIVERSIDAD PRIVADA
Ada A. Byron
2.1 Sistemas Tcnico - Operacionales

Como indica su nombre, son los sistemas que ayudan a manejar la empresa
con sus operaciones cotidianas. Estos son los sistemas que operan sobre el
"backbone" (columna vertebral) de cualquier empresa o institucin, entre las
que se tiene sistemas de ingreso de rdenes, inventario, fabricacin, planilla y
contabilidad, entre otros.

Debido a su volumen e importancia en la organizacin, los sistemas


operacionales siempre han sido las primeras partes de la empresa a ser
computarizados. A travs de los aos, estos sistemas operacionales se han
extendido, revisado, mejorado y mantenido al punto que hoy, ellos son
completamente integrados en la organizacin.

Desde luego, la mayora de las organizaciones grandes de todo el mundo,


actualmente no podran operar sin sus sistemas operacionales y los datos que
estos sistemas mantienen.

2.2 Sistemas de Soporte de Decisiones

Por otra parte, hay otras funciones dentro de la empresa que tienen que ver
con el planeamiento, previsin y administracin de la organizacin. Estas
funciones son tambin crticas para la supervivencia de la organizacin,
especialmente en nuestro mundo de rpidos cambios.

Las funciones como "planificacin de marketing", "planeamiento de ingeniera"


y "anlisis financiero", requieren, adems, de sistemas de informacin que los
soporte. Pero estas funciones son diferentes de las operacionales y los tipos de
sistemas y la informacin requerida son tambin diferentes. Las funciones
basadas en el conocimiento son los sistemas de soporte de decisiones.

Estos sistemas estn relacionados con el anlisis de los datos y la toma de


decisiones, frecuentemente, decisiones importantes sobre cmo operar la
empresa, ahora y en el futuro. Estos sistemas no slo tienen un enfoque
diferente al de los operacionales, sino que, por lo general, tienen un alcance
diferente.

Mientras las necesidades de los datos operacionales se enfocan normalmente


hacia una sola rea, los datos para el soporte de decisiones, con frecuencia,
toma un nmero de reas diferentes y necesita cantidades grandes de datos
operacionales relacionadas.

Lic. Vladimir Cotaquispe Gutirrez. 5


UNIVERSIDAD PRIVADA
Ada A. Byron
Son estos sistemas sobre los que se basa la tecnologa data warehousing.

3 Caractersticas de un Data Warehouse

Entre las principales se tiene:

o Orientado al tema
o Integrado

o De tiempo variante

o No voltil

3.1 Orientado a Temas

Una primera caracterstica del data warehouse es que la informacin se clasifica


en base a los aspectos que son de inters para la empresa. Siendo as, los
datos tomados estn en contraste con los clsicos procesos orientados a las
aplicaciones. En la Figura N 1 se muestra el contraste entre los dos tipos de
orientaciones.

El ambiente operacional se disea alrededor de las aplicaciones y funciones


tales como prstamos, ahorros, tarjeta bancaria y depsitos para una
institucin financiera. Por ejemplo, una aplicacin de ingreso de rdenes puede
acceder a los datos sobre clientes, productos y cuentas. La base de datos
combina estos elementos en una estructura que acomoda las necesidades de la
aplicacin.

En el ambiente data warehousing se organiza alrededor de sujetos tales como


cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, stos
pueden ser clientes, productos, proveedores y vendedores. Para una
universidad pueden ser estudiantes, clases y profesores. Para un hospital
pueden ser pacientes, personal mdico, medicamentos, etc.

La alineacin alrededor de las reas de los temas afecta el diseo y la


implementacin de los datos encontrados en el data warehouse. Las principales
reas de los temas influyen en la parte ms importante de la estructura clave.

Lic. Vladimir Cotaquispe Gutirrez. 6


UNIVERSIDAD PRIVADA
Ada A. Byron

Las aplicaciones estn relacionadas con el diseo de la base de datos y del


proceso. En data warehousing se enfoca el modelamiento de datos y el diseo
de la base de datos. El diseo del proceso (en su forma clsica) no es separado
de este ambiente.

Las diferencias entre la orientacin de procesos y funciones de las aplicaciones


y la orientacin a temas, radican en el contenido de la data a escala detallada.
En el data warehouse se excluye la informacin que no ser usada por el
proceso de sistemas de soporte de decisiones, mientras que la informacin de

Lic. Vladimir Cotaquispe Gutirrez. 7


UNIVERSIDAD PRIVADA
Ada A. Byron
las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato
los requerimientos funcionales y de proceso, que pueden ser usados o no por el
analista de soporte de decisiones.

Otra diferencia importante est en la interrelacin de la informacin. Los datos


operacionales mantienen una relacin continua entre dos o ms tablas basadas
en una regla comercial que est vigente. Las del data warehouse miden un
espectro de tiempo y las relaciones encontradas en el data warehouse son
muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones
de datos) se representan en el data warehouse, entre dos o ms tablas.

3.2 Integracin

El aspecto ms importante del ambiente data warehousing es que la


informacin encontrada al interior est siempre integrada.

La integracin de datos se muestra de muchas maneras: en convenciones de


nombres consistentes, en la medida uniforme de variables, en la codificacin de
estructuras consistentes, en atributos fsicos de los datos consistentes, fuentes
mltiples y otros.

El contraste de la integracin encontrada en el data warehouse con la carencia


de integracin del ambiente de aplicaciones, se muestran en la Figura N 2, con
diferencias bien marcadas.

A travs de los aos, los diseadores de las diferentes aplicaciones han tomado
sus propias decisiones sobre cmo se debera construir una aplicacin. Los
estilos y diseos personalizados se muestran de muchas maneras.

Se diferencian en la codificacin, en las estructuras claves, en sus


caractersticas fsicas, en las convenciones de nombramiento y otros. La
capacidad colectiva de muchos de los diseadores de aplicaciones, para crear
aplicaciones inconsistentes, es fabulosa. La Figura N 2 mencionada, muestra
algunas de las diferencias ms importantes en las formas en que se disean las
aplicaciones.

Codificacin. Los diseadores de aplicaciones codifican el campo GENERO en


varias formas. Un diseador representa GENERO como una "M" y una "F", otros
como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como
"masculino" y "femenino".

Lic. Vladimir Cotaquispe Gutirrez. 8


UNIVERSIDAD PRIVADA
Ada A. Byron
No importa mucho cmo el GENERO llega al data warehouse. Probablemente
"M" y "F" sean tan buenas como cualquier otra representacin. Lo importante
es que sea de cualquier fuente de donde venga, el GENERO debe llegar al data
warehouse en un estado integrado uniforme.

Por lo tanto, cuando el GENERO se carga en el data warehouse desde una


aplicacin, donde ha sido representado en formato "M" y "F", los datos deben
convertirse al formato del data warehouse.

Medida de atributos. Los diseadores de aplicaciones miden las unidades de


medida de las tuberas en una variedad de formas. Un diseador almacena los
datos de tuberas en centmetros, otros en pulgadas, otros en millones de pies
cbicos por segundo y otros en yardas.

Al dar medidas a los atributos, la transformacin traduce las diversas unidades


de medida usadas en las diferentes bases de datos para transformarlas en una
medida estndar comn.

Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al data


warehouse necesitar ser medida de la misma manera.

Convenciones de Nombramiento. El mismo elemento es frecuentemente


referido por nombres diferentes en las diversas aplicaciones. El proceso de
transformacin asegura que se use preferentemente el nombre de usuario.

Fuentes Mltiples. El mismo elemento puede derivarse desde fuentes


mltiples. En este caso, el proceso de transformacin debe asegurar que la
fuente apropiada sea usada, documentada y movida al depsito.

Tal como se muestra en la figura, los puntos de integracin afectan casi todos
los aspectos de diseo - las caractersticas fsicas de los datos, la disyuntiva de
tener ms de una de fuente de datos, el problema de estndares de
denominacin inconsistentes, formatos de fecha inconsistentes y otros.

Cualquiera que sea la forma del diseo, el resultado es el mismo - la


informacin necesita ser almacenada en el data warehouse en un modelo
globalmente aceptable y singular, aun cuando los sistemas operacionales
subyacentes almacenen los datos de manera diferente.

Cuando el analista de sistema de soporte de decisiones observe el data


warehouse, su enfoque deber estar en el uso de los datos que se encuentre en

Lic. Vladimir Cotaquispe Gutirrez. 9


UNIVERSIDAD PRIVADA
Ada A. Byron
el depsito, antes que preguntarse sobre la confiabilidad o consistencia de los
datos.

Lic. Vladimir Cotaquispe Gutirrez. 10


UNIVERSIDAD PRIVADA
Ada A. Byron

Lic. Vladimir Cotaquispe Gutirrez. 11


UNIVERSIDAD PRIVADA
Ada A. Byron
3.3 De Tiempo Variante

Toda la informacin del data warehouse es requerida en algn momento. Esta


caracterstica bsica de los datos en un depsito, es muy diferente de la
informacin encontrada en el ambiente operacional. En stos, la informacin se
requiere al momento de acceder. En otras palabras, en el ambiente
operacional, cuando usted accede a una unidad de informacin, usted espera
que los valores requeridos se obtengan a partir del momento de acceso.

Como la informacin en el data warehouse es solicitada en cualquier momento


(es decir, no "ahora mismo"), los datos encontrados en el depsito se llaman
de "tiempo variante".

Los datos histricos son de poco uso en el procesamiento operacional. La


informacin del depsito por el contraste, debe incluir los datos histricos para
usarse en la identificacin y evaluacin de tendencias. (Ver Figura N 3).

El tiempo variante se muestra de varias maneras:

1. La ms simple es que la informacin representa los datos sobre un


horizonte largo de tiempo - desde cinco a diez aos. El horizonte de
tiempo representado para el ambiente operacional es mucho ms corto
- desde valores actuales hasta sesenta a noventa das.
Las aplicaciones que tienen un buen rendimiento y estn disponibles
para el procesamiento de transacciones, deben llevar una cantidad
mnima de datos si tienen cualquier grado de flexibilidad. Por ello, las

Lic. Vladimir Cotaquispe Gutirrez. 12


UNIVERSIDAD PRIVADA
Ada A. Byron
aplicaciones operacionales tienen un corto horizonte de tiempo, debido
al diseo de aplicaciones rgidas.
2. La segunda manera en la que se muestra el tiempo variante en el data
warehouse est en la estructura clave. Cada estructura clave en el data
warehouse contiene, implcita o explcitamente, un elemento de tiempo
como da, semana, mes, etc.
El elemento de tiempo est casi siempre al pie de la clave concatenada,
encontrada en el data warehouse. En ocasiones, el elemento de tiempo
existir implcitamente, como el caso en que un archivo completo se
duplica al final del mes, o al cuarto.

3. La tercera manera en que aparece el tiempo variante es cuando la


informacin del data warehouse, una vez registrada correctamente, no
puede ser actualizada. La informacin del data warehouse es, para
todos los propsitos prcticos, una serie larga de "snapshots" (vistas
instantneas).
Por supuesto, si los snapshots de los datos se han tomado
incorrectamente, entonces pueden ser cambiados. Asumiendo que los
snapshots se han tomado adecuadamente, ellos no son alterados una
vez hechos. En algunos casos puede ser no tico, e incluso ilegal,
alterar los snapshots en el data warehouse. Los datos operacionales,
siendo requeridos a partir del momento de acceso, pueden actualizarse
de acuerdo a la necesidad.

3.4 No Voltil

La informacin es til slo cuando es estable. Los datos operacionales cambian


sobre una base momento a momento. La perspectiva ms grande, esencial
para el anlisis y la toma de decisiones, requiere una base de datos estable.

En la Figura N 4 se muestra que la actualizacin (insertar, borrar y modificar),


se hace regularmente en el ambiente operacional sobre una base de registro
por registro. Pero la manipulacin bsica de los datos que ocurre en el data
warehouse es mucho ms simple. Hay dos nicos tipos de operaciones: la
carga inicial de datos y el acceso a los mismos. No hay actualizacin de datos
(en el sentido general de actualizacin) en el depsito, como una parte normal
de procesamiento.

Hay algunas consecuencias muy importantes de esta diferencia bsica, entre el


procesamiento operacional y del data warehouse. En el nivel de diseo, la
necesidad de ser precavido para actualizar las anomalas no es un factor en el
data warehouse, ya que no se hace la actualizacin de datos. Esto significa que

Lic. Vladimir Cotaquispe Gutirrez. 13


UNIVERSIDAD PRIVADA
Ada A. Byron
en el nivel fsico de diseo, se pueden tomar libertades para optimizar el acceso
a los datos, particularmente al usar la normalizacin y desnormalizacin fsica.

Otra consecuencia de la simplicidad de la operacin del data warehouse est en


la tecnologa subyacente, utilizada para correr los datos en el depsito.
Teniendo que soportar la actualizacin de registro por registro en modo on-line
(como es frecuente en el caso del procesamiento operacional) requiere que la
tecnologa tenga un fundamento muy complejo debajo de una fachada de
simplicidad.

La tecnologa permite realizar copias de seguridad y recuperacin,


transacciones e integridad de los datos y la deteccin y solucin al
estancamiento que es ms complejo. En el data warehouse no es necesario el
procesamiento.

La fuente de casi toda la informacin del data warehouse es el ambiente


operacional. A simple vista, se puede pensar que hay redundancia masiva de
datos entre los dos ambientes. Desde luego, la primera impresin de muchas
personas se centra en la gran redundancia de datos, entre el ambiente
operacional y el ambiente de data warehouse. Dicho razonamiento es
superficial y demuestra una carencia de entendimiento con respecto a qu
ocurre en el data warehouse. De hecho, hay una mnima redundancia de datos
entre ambos ambientes.

Lic. Vladimir Cotaquispe Gutirrez. 14


UNIVERSIDAD PRIVADA
Ada A. Byron
Se debe considerar lo siguiente:

Los datos se filtran cuando pasan desde el ambiente operacional al de depsito.


Existe mucha data que nunca sale del ambiente operacional. Slo los datos que
realmente se necesitan ingresarn al ambiente de data warehouse.

El horizonte de tiempo de los datos es muy diferente de un ambiente al otro. La


informacin en el ambiente operacional es ms reciente con respecto a la del
data warehouse. Desde la perspectiva de los horizontes de tiempo nicos, hay
poca superposicin entre los ambientes operacional y de data warehouse.

El data warehouse contiene un resumen de la informacin que no se encuentra


en el ambiente operacional.

Los datos experimentan una transformacin fundamental cuando pasa al data


warehouse. La mayor parte de los datos se alteran significativamente al ser
seleccionados y movidos al data warehouse. Dicho de otra manera, la mayora
de los datos se alteran fsica y radicalmente cuando se mueven al depsito. No
es la misma data que reside en el ambiente operacional desde el punto de vista
de integracin.

En vista de estos factores, la redundancia de datos entre los dos ambientes es


una ocurrencia rara, que resulta en menos de 1%.

4 Estructura del Data Warehouse

Los data warehouses tienen una estructura distinta. Hay niveles diferentes de
esquematizacin y detalle que delimitan el data warehouse. La estructura de un
data warehouse se muestra en la Figura N 5.

En la figura, se muestran los diferentes componentes del data warehouse y


son:

Detalle de datos actuales


Detalle de datos antiguos

Datos ligeramente resumidos

Datos completamente resumidos

Meta data

Lic. Vladimir Cotaquispe Gutirrez. 15


UNIVERSIDAD PRIVADA
Ada A. Byron
Detalle de datos actuales. En gran parte, el inters ms importante radica en
el detalle de los datos actuales, debido a que:

Refleja las ocurrencias ms recientes, las cuales son de gran inters


Es voluminoso, ya que se almacena al ms bajo nivel de granularidad.

Casi siempre se almacena en disco, el cual es de fcil acceso, aunque


su administracin sea costosa y compleja.

Detalle de datos antiguos. La data antigua es aquella que se almacena sobre


alguna forma de almacenamiento masivo. No es frecuentemente su acceso y se
almacena a un nivel de detalle, consistente con los datos detallados actuales.
Mientras no sea prioritario el almacenamiento en un medio de almacenaje
alterno, a causa del gran volumen de datos unido al acceso no frecuente de los
mismos, es poco usual utilizar el disco como medio de almacenamiento.

Datos ligeramente resumidos. La data ligeramente resumida es aquella que


proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual.
Este nivel del data warehouse casi siempre se almacena en disco. Los puntos
en los que se basa el diseador para construirlo son:

Que la unidad de tiempo se encuentre sobre la esquematizacin hecha.


Qu contenidos (atributos) tendr la data ligeramente resumida.

Datos completamente resumidos. El siguiente nivel de datos encontrado en


el data warehouse es el de los datos completamente resumidos. Estos datos
son compactos y fcilmente accesibles.

Lic. Vladimir Cotaquispe Gutirrez. 16


UNIVERSIDAD PRIVADA
Ada A. Byron

A veces se encuentra en el ambiente de data warehouse y en otros, fuera del


lmite de la tecnologa que ampara al data warehouse. (De todos modos, los
datos completamente resumidos son parte del data warehouse sin considerar
donde se alojan los datos fsicamente.)

Lic. Vladimir Cotaquispe Gutirrez. 17


UNIVERSIDAD PRIVADA
Ada A. Byron
Metadata. El componente final del data warehouse es el de la metadata. De
muchas maneras la metadata se sita en una dimensin diferente al de otros
datos del data warehouse, debido a que su contenido no es tomado
directamente desde el ambiente operacional.

La metadata juega un rol especial y muy importante en el data warehouse y es


usada como:

Un directorio para ayudar al analista a ubicar los contenidos del data


warehouse.
Una gua para la trazabilidad de los datos, de cmo se transforma, del
ambiente operacional al de data warehouse.

Una gua de los algoritmos usados para la esquematizacin entre el


detalle de datos actual, con los datos ligeramente resumidos y stos,
con los datos completamente resumidos, etc.

La metadata juega un papel mucho ms importante en un ambiente data


warehousing que en un operacional clsico.

A fin de recordar los diferentes niveles de los datos encontrados en el data


warehouse, considere el ejemplo mostrado en la Figura N 6.

El detalle de ventas antiguas son las que se encuentran antes de 1992. Todos
los detalles de ventas desde 1982 (o cuando el diseador inici la coleccin de
los archivos) son almacenados en el nivel de detalle de datos ms antiguo.

El detalle actual contiene informacin desde 1992 a 1993 (suponiendo que


1993 es el ao actual). En general, el detalle de ventas no se ubica en el nivel
de detalle actual hasta que haya pasado, por lo menos, veinticuatro horas
desde que la informacin de ventas llegue a estar disponible en el ambiente
operacional.

Lic. Vladimir Cotaquispe Gutirrez. 18


UNIVERSIDAD PRIVADA
Ada A. Byron

En otras palabras, habra un retraso de tiempo de por lo menos veinticuatro


horas, entre el tiempo en que en el ambiente operacional se haya hecho un

Lic. Vladimir Cotaquispe Gutirrez. 19


UNIVERSIDAD PRIVADA
Ada A. Byron
nuevo ingreso de la venta y el momento cuando la informacin de la venta
haya ingresado al data warehouse.

El detalle de las ventas son resumidas semanalmente por lnea de subproducto


y por regin, para producir un almacenamiento de datos ligeramente
resumidos.

El detalle de ventas semanal es adicionalmente resumido en forma mensual,


segn una gama de lneas, para producir los datos completamente resumidos.

La metadata contiene (al menos):

La estructura de los datos


Los algoritmos usados para la esquematizacin

La trazabilidad desde el ambiente operacional al data warehouse

La informacin adicional que no se esquematiza es almacenada en el data


warehouse. En muchas ocasiones, all se har el anlisis y se producir un tipo
u otro de resumen. El nico tipo de esquematizacin que se almacena
permanentemente en el data warehouse, es el de los datos que son usados
frecuentemente. En otras palabras, si un analista produce un resumen que
tiene una probabilidad muy baja de ser usado nuevamente, entonces la
esquematizacin no es almacenada en el data warehouse.

5 Arquitectura de un Data Warehouse

Una de las razones por las que el desarrollo de un data warehouse crece
rpidamente, es que realmente es una tecnologa muy entendible. De hecho,
data warehousing puede representar mejor la estructura amplia de una
empresa para administrar los datos informacionales dentro de la organizacin.
A fin de comprender cmo se relacionan todos los componentes involucrados en
una estrategia data warehousing, es esencial tener una Arquitectura Data
Warehouse.

Lic. Vladimir Cotaquispe Gutirrez. 20


UNIVERSIDAD PRIVADA
Ada A. Byron

Lic. Vladimir Cotaquispe Gutirrez. 21


UNIVERSIDAD PRIVADA
Ada A. Byron
5.1 Elementos constituyentes de una Arquitectura Data Warehouse

Una Arquitectura Data Warehouse (Data Warehouse Architecture - DWA) es


una forma de representar la estructura total de datos, comunicacin,
procesamiento y presentacin, que existe para los usuarios finales que
disponen de una computadora dentro de la empresa.

La arquitectura se constituye de un nmero de partes interconectadas:

Base de datos operacional / Nivel de base de datos externo


Nivel de acceso a la informacin

Nivel de acceso a los datos

Nivel de directorio de datos (Metadata)

Nivel de gestin de proceso

Nivel de mensaje de la aplicacin

Nivel de data warehouse

Nivel de organizacin de datos

5.1.1 Base de datos operacional / Nivel de base de datos externo

Los sistemas operacionales procesan datos para apoyar las necesidades


operacionales crticas. Para hacer eso, se han creado las bases de datos
operacionales histricas que proveen una estructura de procesamiento
eficiente, para un nmero relativamente pequeo de transacciones comerciales
bien definidas.

Sin embargo, a causa del enfoque limitado de los sistemas operacionales, las
bases de datos diseadas para soportar estos sistemas, tienen dificultad al
acceder a los datos para otra gestin o propsitos informticos.

Esta dificultad en acceder a los datos operacionales es amplificada por el hecho


que muchos de estos sistemas tienen de 10 a 15 aos de antigedad. El tiempo
de algunos de estos sistemas significa que la tecnologa de acceso a los datos
disponible para obtener los datos operacionales, es as mismo antigua.

Lic. Vladimir Cotaquispe Gutirrez. 22


UNIVERSIDAD PRIVADA
Ada A. Byron
Ciertamente, la meta del data warehousing es liberar la informacin que es
almacenada en bases de datos operacionales y combinarla con la informacin
desde otra fuente de datos, generalmente externa.

Cada vez ms, las organizaciones grandes adquieren datos adicionales desde
bases de datos externas. Esta informacin incluye tendencias demogrficas,
economtricas, adquisitivas y competitivas (que pueden ser proporcionadas por
Instituciones Oficiales - INEI). Internet o tambin llamada "information
superhighway" (supercarretera de la informacin) provee el acceso a ms
recursos de datos todos los das.

5.1.2 Nivel de acceso a la informacin

El nivel de acceso a la informacin de la arquitectura data warehouse, es el


nivel del que el usuario final se encarga directamente. En particular, representa
las herramientas que el usuario final normalmente usa da a da. Por ejemplo:
EXCEL, LOTUS 1-2-3, FOCUS, ACCESS, SAS, etc.

Este nivel tambin incluye el hardware y software involucrados en mostrar


informacin en pantalla y emitir reportes de impresin, hojas de clculo,
grficos y diagramas para el anlisis y presentacin. Hace dos dcadas que el
nivel de acceso a la informacin se ha expandido enormemente, especialmente
a los usuarios finales quienes se han volcado a los PCS monousuarios y los PCS
en redes.

Actualmente, existen herramientas ms y ms sofisticadas para manipular,


analizar y presentar los datos, sin embargo, hay problemas significativos al
tratar de convertir los datos tal como han sido recolectados y que se
encuentran contenidos en los sistemas operacionales en informacin fcil y
transparente para las herramientas de los usuarios finales. Una de las claves
para esto es encontrar un lenguaje de datos comn que puede usarse a travs
de toda la empresa.

5.1.3 Nivel de acceso a los datos

El nivel de acceso a los datos de la arquitectura data warehouse est


involucrado con el nivel de acceso a la informacin para conversar en el nivel
operacional. En la red mundial de hoy, el lenguaje de datos comn que ha
surgido es SQL. Originalmente, SQL fue desarrollado por IBM como un lenguaje
de consulta, pero en los ltimos veinte aos ha llegado a ser el estndar para el
intercambio de datos.

Lic. Vladimir Cotaquispe Gutirrez. 23


UNIVERSIDAD PRIVADA
Ada A. Byron
Uno de los adelantos claves de los ltimos aos ha sido el desarrollo de una
serie de "filtros" de acceso a datos, tales como EDA/SQL para acceder a casi
todo los Sistemas de Gestin de Base de Datos (Data Base Management
Systems - DBMSs) y sistemas de archivos de datos, relacionales o no. Estos
filtros permiten a las herramientas de acceso a la informacin, acceder tambin
a la data almacenada en sistemas de gestin de base de datos que tienen
veinte aos de antigedad.

El nivel de acceso a los datos no solamente conecta DBMSS diferentes y


sistemas de archivos sobre el mismo hardware, sino tambin a los fabricantes y
protocolos de red. Una de las claves de una estrategia data warehousing es
proveer a los usuarios finales con "acceso a datos universales".

El acceso a los datos universales significa que, tericamente por lo menos, los
usuarios finales sin tener en cuenta la herramienta de acceso a la informacin o
ubicacin, deberan ser capaces de acceder a cualquier o todos los datos en la
empresa que es necesaria para ellos, para hacer su trabajo.

El nivel de acceso a los datos entonces es responsable de la interfaces entre las


herramientas de acceso a la informacin y las bases de datos operacionales. En
algunos casos, esto es todo lo que un usuario final necesita. Sin embargo, en
general, las organizaciones desarrollan un plan mucho ms sofisticado para el
soporte del data warehousing.

5.1.4 Nivel de Directorio de Datos (Metadata)

A fin de proveer el acceso a los datos universales, es absolutamente necesario


mantener alguna forma de directorio de datos o repositorio de la informacin
metadata. La metadata es la informacin alrededor de los datos dentro de la
empresa.

Las descripciones de registro en un programa COBOL son metadata. Tambin lo


son las sentencias DIMENSION en un programa FORTRAN o las sentencias a
crear en SQL.

A fin de tener un depsito totalmente funcional, es necesario tener una


variedad de metadata disponibles, informacin sobre las vistas de datos de los
usuarios finales e informacin sobre las bases de datos operacionales.
Idealmente, los usuarios finales deberan de acceder a los datos desde el data
warehouse (o desde las bases de datos operacionales), sin tener que conocer
dnde residen los datos o la forma en que se han almacenados.

Lic. Vladimir Cotaquispe Gutirrez. 24


UNIVERSIDAD PRIVADA
Ada A. Byron
5.1.5 Nivel de Gestin de Procesos

El nivel de gestin de procesos tiene que ver con la programacin de diversas


tareas que deben realizarse para construir y mantener el data warehouse y la
informacin del directorio de datos. Este nivel puede depender del alto nivel de
control de trabajo para muchos procesos (procedimientos) que deben ocurrir
para mantener el data warehouse actualizado.

5.1.6 Nivel de Mensaje de la Aplicacin

El nivel de mensaje de la aplicacin tiene que ver con el transporte de


informacin alrededor de la red de la empresa. El mensaje de aplicacin se
refiere tambin como "subproducto", pero puede involucrar slo protocolos de
red. Puede usarse por ejemplo, para aislar aplicaciones operacionales o
estratgicas a partir del formato de datos exacto, recolectar transacciones o los
mensajes y entregarlos a una ubicacin segura en un tiempo seguro.

5.1.7 Nivel Data Warehouse (Fsico)

En el data warehouse (ncleo) es donde ocurre la data actual, usada


principalmente para usos estratgicos. En algunos casos, uno puede pensar del
data warehouse simplemente como una vista lgica o virtual de datos. En
muchos ejemplos, el data warehouse puede no involucrar almacenamiento de
datos.

En un data warehouse fsico, copias, en algunos casos, muchas copias de datos


operacionales y/o externos, son almacenados realmente en una forma que es
fcil de acceder y es altamente flexible. Cada vez ms, los data warehouses son
almacenados sobre plataformas cliente/servidor, pero por lo general se
almacenan sobre mainframes.

5.1.8 Nivel de Organizacin de Datos

El componente final de la arquitectura data warehouse es la organizacin de los


datos. Se llama tambin gestin de copia o rplica, pero de hecho, incluye
todos los procesos necesarios como seleccionar, editar, resumir, combinar y
cargar datos en el depsito y acceder a la informacin desde bases de datos
operacionales y/o externas.

La organizacin de datos involucra con frecuencia una programacin compleja,


pero cada vez ms, estn crendose las herramientas data warehousing para
ayudar en este proceso. Involucra tambin programas de anlisis de calidad de
Lic. Vladimir Cotaquispe Gutirrez. 25
UNIVERSIDAD PRIVADA
Ada A. Byron
datos y filtros que identifican modelos y estructura de datos dentro de la data
operacional existente.

5.2 Operaciones en un Data Warehouse

En la Figura N 8 se muestra algunos de los tipos de operaciones que se


efectan dentro de un ambiente data warehousing.

5.2.1 Sistemas Operacionales

Los datos administrados por los sistemas de aplicacin operacionales son la


fuente principal de datos para el data warehouse.

Las bases de datos operacionales se organizan como archivos indexados (UFAS,


VSAM), bases de datos de redes/jerrquicas (I-D-S/II, IMS, IDMS) o sistemas
de base de datos relacionales (DB2, ORACLE, INFORMIX, etc.). Segn las
encuestas, aproximadamente del 70% a 80% de las bases de datos de las
empresas se organizan usando DBMSS no relacional.

Lic. Vladimir Cotaquispe Gutirrez. 26


UNIVERSIDAD PRIVADA
Ada A. Byron
5.2.2 Extraccin, Transformacin y Carga de los Datos

Se requieren herramientas de gestin de datos para extraer datos desde bases


de datos y/o archivos operacionales, luego es necesario manipular o
transformar los datos antes de cargar los resultados en el data warehouse.

Tomar los datos desde varias bases de datos operacionales y transformarlos en


datos requeridos para el depsito, se refiere a la transformacin o a la
integracin de datos. Las bases de datos operacionales, diseadas para el
soporte de varias aplicaciones de produccin, frecuentemente difieren en el
formato.

Los mismos elementos de datos, si son usados por aplicaciones diferentes o


administrados por diferentes software DBMS, pueden definirse al usar nombres
de elementos inconsistentes, que tienen formatos inconsistentes y/o ser
codificados de manera diferente. Todas estas inconsistencias deben resolverse
antes que los elementos de datos sean almacenados en el data warehouse.

5.2.3 Metadata

Otro paso necesario es crear la metadata. La metadata (es decir, datos acerca
de datos) describe los contenidos del data warehouse. La metadata consiste de
definiciones de los elementos de datos en el depsito, sistema(s) del (os)
elemento(s) fuente. Como la data, se integra y transforma antes de ser
almacenada en informacin similar.

5.2.4 Acceso de usuario final

Los usuarios acceden al data warehouse por medio de herramientas de


productividad basadas en GUI (Graphical User Interface - Interface grfica de
usuario). Pueden proveerse a los usuarios del data warehouse muchos de estos
tipos de herramientas.

Estos pueden incluir software de consultas, generadores de reportes,


procesamiento analtico en lnea, herramientas data/visual mining, etc.,
dependiendo de los tipos de usuarios y sus requerimientos particulares. Sin
embargo, una sola herramienta no satisface todos los requerimientos, por lo
que es necesaria la integracin de una serie de herramientas.

Lic. Vladimir Cotaquispe Gutirrez. 27


UNIVERSIDAD PRIVADA
Ada A. Byron
5.2.5 Plataforma del data warehouse

La plataforma para el data warehouse es casi siempre un servidor de base de


datos relacional. Cuando se manipulan volmenes muy grandes de datos puede
requerirse una configuracin en bloque de servidores UNIX con multiprocesador
simtrico (SMP) o un servidor con procesador paralelo masivo (MPP)
especializado.

Los extractos de la data integrada/transformada se cargan en el data


warehouse. Uno de los ms populares RDBMSs disponibles para data
warehousing sobre la plataforma UNIX (SMP y MPP) generalmente es Teradata.
La eleccin de la plataforma es crtica. El depsito crecer y hay que
comprender los requerimientos despus de 3 o 5 aos.

Muchas de las organizaciones quieran o no escogen una plataforma por


diversas razones: el Sistema X es nuestro sistema elegido o el Sistema Y est
ya disponible sobre un sistema UNIX que nosotros ya tenemos. Uno de los
errores ms grandes que las organizaciones cometen al seleccionar la
plataforma, es que ellos presumen que el sistema (hardware y/o DBMS)
escalar con los datos.

El sistema de depsito ejecuta las consultas que se pasa a los datos por el
software de acceso a los datos del usuario. Aunque un usuario visualiza las
consultas desde el punto de vista de un GUI, las consultas tpicamente se
formulan como pedidos SQL, porque SQL es un lenguaje universal y el estndar
de hecho para el acceso a datos.

2.5.6 Datos Externos

Dependiendo de la aplicacin, el alcance del data warehouse puede extenderse


por la capacidad de acceder a la data externa. Por ejemplo, los datos accesibles
por medio de servicios de computadora en lnea (tales como CompuServe y
America On Line) y/o va Internet, pueden estar disponibles a los usuarios del
data warehouse.

Evolucin del Depsito

Construir un data warehouse es una tarea grande. No es recomendable


emprender el desarrollo del data warehouse de la empresa como un proyecto
cualquiera. Ms bien, se recomienda que los requerimientos de una serie de
fases se desarrollen e implementen en modelos consecutivos que permitan un
proceso de implementacin ms gradual e iterativo.
Lic. Vladimir Cotaquispe Gutirrez. 28
UNIVERSIDAD PRIVADA
Ada A. Byron
No existe ninguna organizacin que haya triunfado en el desarrollo del data
warehouse de la empresa, en un slo paso. Muchas, sin embargo, lo han
logrado luego de un desarrollo paso a paso. Los pasos previos evolucionan
conjuntamente con la materia que est siendo agregada.

Los datos en el data warehouse no son voltiles y es un repositorio de datos de


slo lectura (en general). Sin embargo, pueden aadirse nuevos elementos
sobre una base regular para que el contenido siga la evolucin de los datos en
la base de datos fuente, tanto en los contenidos como en el tiempo.

Uno de los desafos de mantener un data warehouse, es idear mtodos para


identificar datos nuevos o modificados en las bases de datos operacionales.
Algunas maneras para identificar estos datos incluyen insertar fecha/tiempo en
los registros de base de datos y entonces crear copias de registros actualizados
y copiar informacin de los registros de transaccin y/o base de datos diarias.

Estos elementos de datos nuevos y/o modificados son extrados, integrados,


transformados y agregados al data warehouse en pasos peridicos
programados. Como se aaden las nuevas ocurrencias de datos, los datos
antiguos son eliminados. Por ejemplo, si los detalles de un sujeto particular se
mantienen por 5 aos, como se agreg la ltima semana, la semana anterior es
eliminada.

6 Transformacion de Datos y Metadata

6.1 Transformacin de Datos

Uno de los desafos de cualquier implementacin de data warehouse, es el


problema de transformar los datos. La transformacin se encarga de las
inconsistencias en los formatos de datos y la codificacin, que pueden existir
dentro de una base de datos nica y que casi siempre existen cuando mltiples
bases de datos contribuyen al data warehouse.

En la Figura N 9 se ilustra una forma de inconsistencia, en la cual el gnero se


codifica de manera diferente en tres bases de datos diferentes. Los procesos de
transformacin de datos se desarrollan para direccionar estas inconsistencias.

Lic. Vladimir Cotaquispe Gutirrez. 29


UNIVERSIDAD PRIVADA
Ada A. Byron

La transformacin de datos tambin se encarga de las inconsistencias en el


contenido de datos. Una vez que se toma la decisin sobre que reglas de
transformacin sern establecidas, deben crearse e incluirse las definiciones en
las rutinas de transformacin.

Se requiere una planificacin cuidadosa y detallada para transformar datos


inconsistentes en conjuntos de datos conciliables y consistentes para cargarlos
en el data warehouse.

6.2 Metadata

Otro aspecto de la arquitectura de data warehouse es crear soporte a la


metadata. Metadata es la informacin sobre los datos que se alimenta, se
transforma y existe en el data warehouse. Metadata es un concepto genrico,
pero cada implementacin de la metadata usa tcnicas y mtodos especficos.

Estos mtodos y tcnicas son dependientes de los requerimientos de cada


organizacin, de las capacidades existentes y de los requerimientos de
interfaces de usuario. Hasta ahora, no hay normas para la metadata, por lo que
la metadata debe definirse desde el punto de vista del software data
warehousing, seleccionado para una implementacin especfica.

Lic. Vladimir Cotaquispe Gutirrez. 30


UNIVERSIDAD PRIVADA
Ada A. Byron
Tpicamente, la metadata incluye los siguientes tems:

Las estructuras de datos que dan una visin de los datos al


administrador de datos.
Las definiciones del sistema de registro desde el cual se construye el
data warehouse.

Las especificaciones de transformaciones de datos que ocurren tal como


la fuente de datos se replica al data warehouse.

El modelo de datos del data warehouse (es decir, los elementos de datos y sus
relaciones).

Un registro de cuando los nuevos elementos de datos se agregan al data


warehouse y cuando los elementos de datos antiguos se eliminan o se
resumen.

Los niveles de sumarizacin, el mtodo de sumarizacin y las tablas de


registros de su data warehouse.

Algunas implementaciones de la metadata tambin incluyen definiciones de


la(s) vista(s) presentada(s) a los usuarios del data warehouse. Tpicamente, se
definen vistas mltiples para favorecer las preferencias variadas de diversos
grupos de usuarios. En otras implementaciones, estas descripciones se
almacenan en un Catlogo de Informacin.

Los esquemas y subesquemas para bases de datos operacionales, forman una


fuente ptima de entrada cuando se crea la metadata. Hacer uso de la
documentacin existente, especialmente cuando est disponible en forma
electrnica, puede acelerar el proceso de definicin de la metadata del
ambiente data warehousing.

La metadata sirve, en un sentido, como el corazn del ambiente data


warehousing. Crear definiciones de metadata completa y efectiva puede ser un
proceso que consuma tiempo, pero lo mejor de las definiciones y si usted usa
herramientas de gestin de software integrado, son los esfuerzos que darn
como resultado el mantenimiento del data warehouse.

7 Flujo de Datos

Existe un flujo de datos normal y predecible dentro del data warehouse. La


Figura N 10 muestra ese flujo.
Lic. Vladimir Cotaquispe Gutirrez. 31
UNIVERSIDAD PRIVADA
Ada A. Byron
Los datos ingresan al data warehouse desde el ambiente operacional. (Hay
pocas excepciones a esta regla).

Al ingresar al data warehouse, la informacin va al nivel de detalle actual, tal


como se muestra. Se queda all y se usa hasta que ocurra uno de los tres
eventos siguientes:

Sea eliminado
Sea resumido

Sea archivado

Con el proceso de desactualizacin en un data warehouse se mueve el detalle


de la data actual a data antigua, basado en el tiempo de los datos. El proceso
de esquematizacin usa el detalle de los datos para calcular los datos en forma
ligera y completamente resumidos.

Hay pocas excepciones al flujo mostrado. Sin embargo, en general, para la


mayora de datos encontrados en un data warehouse, el flujo de la informacin
es como se ha explicado.

Lic. Vladimir Cotaquispe Gutirrez. 32


UNIVERSIDAD PRIVADA
Ada A. Byron

8 Medios de Almacenamiento para Informacion Antigua

El smbolo mostrado en la Figura N 11 para medios de almacenamiento de


informacin antigua es la cinta magntica, que puede usarse para almacenar
este tipo de informacin. De hecho hay una amplia variedad de medios de
almacenamiento que deben considerarse para almacenar datos ms antiguos.
En la figura se muestra algunos de esos medios.

Dependiendo del volumen de informacin, la frecuencia de acceso, el costo de


los medios y el tipo de acceso, es probable que otros medios de
almacenamiento sirvan a las necesidades del nivel de detalle ms antiguo en el
data warehouse.

Lic. Vladimir Cotaquispe Gutirrez. 33


UNIVERSIDAD PRIVADA
Ada A. Byron

9 Usos del Data Warehouse

Los datos operacionales y los datos del data warehouse son


accedidos por usuarios que usan los datos de maneras
diferentes.

Uso de Base de Datos


Uso de Data Warehouse
Operacionales

Muchos usuarios concurrentes Pocos usuarios concurrentes

Consultas predefinidas y Consultas complejas, frecuentemente no


actualizables anticipadas.

Cantidades pequeas de datos


Cantidades grandes de datos detallados
detallados

Requerimientos de respuesta
Requerimientos de respuesta no crticos
inmediata

Lic. Vladimir Cotaquispe Gutirrez. 34


UNIVERSIDAD PRIVADA
Ada A. Byron
Maneras diferentes de uso de datos

Los usuarios de un data warehouse necesitan acceder a los datos complejos,


frecuentemente desde fuentes mltiples y de formas no predecibles.

Los usuarios que accedan a los datos operacionales, comnmente efectan


tareas predefinidas que, generalmente requieren acceso a una sola base de
datos de una aplicacin. Por el contrario, los usuarios que accedan al data
warehouse, efectan tareas que requieren acceso a un conjunto de datos desde
fuentes mltiples y frecuentemente no son predecibles. Lo nico que se conoce
(si es modelada correctamente) es el conjunto inicial de datos que se han
establecido en el depsito.

Por ejemplo, un especialista en el cuidado de la salud podra necesitar acceder


a los datos actuales e histricos para analizar las tendencias de costos, usando
un conjunto de consultas predefinidas. Por el contrario, un representante de
ventas podra necesitar acceder a los datos de cliente y producto para evaluar
la eficacia de una campaa de marketing, creando consultas base o ad-hoc
para encontrar nuevamente necesidades definidas.

Slo pocos usuarios acceden a los datos concurrentemente

En contraste a la produccin de sistemas que pueden manejar cientos o miles


de usuarios concurrentes, al data warehouse acceda un limitado conjunto de
usuarios en cualquier tiempo determinado.

Los usuarios generan un procesamiento no predecible complejo

Los usuarios del data warehouse generan consultas complejas. A veces la


respuesta a una consulta conduce a la formulacin de otras preguntas ms
detalladas, en un proceso llamado drilling down. El data warehouse puede
incluir niveles de resmenes mltiples, derivado de un conjunto principal,
nico, de datos detallados, para soportar este tipo de uso.

En efecto, los usuarios frecuentemente comienzan buscando en los datos


resumidos y como identifican reas de inters, comienzan a acceder al conjunto
de datos detallado. Los conjuntos de datos resumidos representan el "Qu" de
una situacin y los conjuntos de datos detallados permiten a los usuarios
construir un cuadro sobre "Cmo" se ha derivado esa situacin.

Lic. Vladimir Cotaquispe Gutirrez. 35


UNIVERSIDAD PRIVADA
Ada A. Byron
Las consultas de los usuarios accedan a cantidades grandes de datos

Debido a la necesidad de investigar tendencias y evaluar las relaciones entre


muchas clases de datos, las consultas al data warehouse permiten acceder a
volmenes muy grandes tanto de data detallada como resumida. Debido a los
requerimientos de datos histricos, los data warehouses evolucionan para llegar
a un tamao ms grande que sus orgenes operacionales (de 10 a 100 veces
ms grande).

Las consultas de los usuarios no tienen tiempos de respuesta crticos

Las transacciones operacionales necesitan una respuesta inmediata porque un


cliente puede estar esperando una respuesta. En el data warehouse, por el
contrario, tiene un requerimiento de respuesta no crtico porque el resultado
frecuentemente se usa en un proceso de anlisis y toma de decisiones. Aunque
los tiempos de respuesta no son crticos, los usuarios esperan una respuesta
dentro del mismo da en que es hecha la consulta.

Por lo general, los diferentes niveles de datos dentro del data warehouse
reciben diferentes usos. A ms alto nivel de esquematizacin, se tiene mayor
uso de los datos.

En la Figura N 12 se muestra que hay mayor uso de los datos completamente


resumidos, a diferencia de la informacin antigua que apenas es usada.

Hay una buena razn para mover una organizacin al paradigma sugerido en la
figura, la utilizacin del recurso. La data ms resumida, permite capturar los
datos en forma ms rpida y eficiente. Si en una tarea se encuentra que se
hace mucho procesamiento a niveles de detalle del data warehouse, entonces
se consumir muchos recursos de mquina. Es mejor hacer el procesamiento a
niveles ms altos de esquematizacin como sea posible.

Para muchas tareas, el analista de sistemas de soporte de decisiones usa la


informacin detallada en un pre data warehouse. La seguridad de la
informacin de detalle se consigue de muchas maneras, aun cuando estn
disponibles otros niveles de esquematizacin. Una de las actividades del
diseador de datos es el de desconectar al usuario del sistema de soporte de
decisiones del uso constante de datos con un detalle ms bajo.

El diseador de datos tiene dos predisposiciones:

Lic. Vladimir Cotaquispe Gutirrez. 36


UNIVERSIDAD PRIVADA
Ada A. Byron
a. Instalar un sistema chargeback, donde el usuario final pague por los
recursos consumidos
b. Sealar el mejor tiempo de respuesta que puede obtenerse cuando se
trabaja con la data a un nivel alto de esquematizacin, a diferencia de
un pobre tiempo de respuesta que resulta de trabajar con los datos a
un nivel bajo de detalle.

Para ilustrar cmo un data warehouse puede ayudar a una organizacin a


mejorar sus operaciones, se muestra un ejemplo de lo que es el desarrollo de
actividades sin tener un data warehouse.

Lic. Vladimir Cotaquispe Gutirrez. 37


UNIVERSIDAD PRIVADA
Ada A. Byron
Ejemplo: Preparacin de un reporte complejo

Considere un problema bastante tpico en una compaa de fabricacin grande


en el que se pide una informacin (un reporte) que no est disponible.

El informe incluye las finanzas actuales, el inventario y la condicin de personal,


acompaado de comparaciones del mes actual con el anterior y el mismo mes
del ao anterior, con una comparacin adicional de los 3 aos precedentes. Se
debe explicar cada desviacin de la tendencia que cae fuera de un rango
predefinido.

Sin un data warehouse, el informe es preparado de la manera siguiente:

La informacin financiera actual se obtiene desde una base de datos mediante


un programa de extraccin de datos, el inventario actual de otro programa de
extraccin de otra base de datos, la condicin actual de personal de un tercer
programa de extraccin y la informacin histrica desde una copia de seguridad
de cinta magntica o CD-ROM.

Lo ms interesante es que se ha pedido otro informe que contine al primer


informe (debido a que las preguntas se originaron a partir del anterior). El
hecho es, que ninguno de los trabajos realizados hasta aqu (por ejemplo,
diversos programas de extraccin) se pueden usar para los prximos o para
cualquier reporte subsiguiente. Imagine el tiempo y el esfuerzo que se ha
desperdiciado por un enfoque anticuado. (Ver Figura N 13).

Las inconsistencias deben identificarse en cada conjunto de datos extrados y


resolverse, por lo general, manualmente. Cuando se completa todo este
procesamiento, el reporte puede ser formateado, impreso, revisado y
transmitido.

Nuevamente, el punto importante aqu es que todo el trabajo desempeado


para hacer este informe no afecta a otros reportes que pueden solicitarse es
decir, todos ellos son independientes y caros, desde el punto de vista de
recursos y productividad.

Al crear un data warehouse y combinar todos los datos requeridos, se obtienen


los siguientes beneficios:

Las inconsistencias de los datos se resuelven automticamente cuando los


elementos de datos se cargan en el data warehouse, no manualmente, cada
vez que se prepara un reporte.
Lic. Vladimir Cotaquispe Gutirrez. 38
UNIVERSIDAD PRIVADA
Ada A. Byron
Los errores que ocurrieron durante el proceso complejo de la preparacin del
informe, se minimizan porque el proceso es ahora mucho ms simple.

Los elementos de datos son fcilmente accesibles para otros usos, no slo para
un reporte particular.

Se crea una sola fuente.

10 Consideraciones Adicionales

Hay algunas consideraciones adicionales que deben tenerse en cuenta al


construir y administrar el data warehouse.
Lic. Vladimir Cotaquispe Gutirrez. 39
UNIVERSIDAD PRIVADA
Ada A. Byron
La primera consideracin es respecto al ndice. La informacin de los niveles de
esquematizacin ms altos pueden ser libremente indexados, mientras que las
de los niveles ms bajos de detalle, por ser tan voluminosa, pueden ser
indexados moderadamente.

Por lo mismo, los datos en los niveles ms altos de detalle pueden ser
reestructurados fcilmente, mientras que el volumen de datos en los niveles
ms inferiores es tan grande, que los datos no pueden ser fcilmente
reestructurados.

Por consiguiente, el modelo de datos y el diseo clsico fundamentan que el


data warehouse se aplique casi exclusivamente al nivel actual de detalle. En
otras palabras, las actividades de modelamiento de datos no se aplican a los
niveles de esquematizacin, en casi todos los casos.

Otra consideracin estructural es la particin de la informacin en el data


warehouse. El nivel de detalle actual es casi siempre particionado.

La particin puede hacerse de dos maneras: al nivel de DBMS y al nivel de la


aplicacin. En la particin DBMS, se conoce las particiones y se administra por
consiguiente. En el caso de la particin de las aplicaciones, slo los
programadores de las mismas conocen las particiones y la responsabilidad de
su administracin es asignada a ellos.

Al interior de las particiones DBMS, mucho de los trabajos de infraestructura se


hacen automticamente. Pero existe un elevado grado de rigidez asociada con
la gestin automtica de las particiones. En el caso de las particiones de las
aplicaciones del data warehouse, la mayor parte del trabajo recae sobre el
programador, pero el resultado final es que la gestin de datos es ms flexible.

11 Ejemplo de un Data Warehouse

En la Figura N 14 se muestra un ejemplo hipottico de un data warehouse


estructurado para un centro de produccin industrial.

Lic. Vladimir Cotaquispe Gutirrez. 40


UNIVERSIDAD PRIVADA
Ada A. Byron

Se muestra slo el detalle actual, no as los niveles de esquematizacin ni los


archivos de detalle ms antiguos.

Lic. Vladimir Cotaquispe Gutirrez. 41


UNIVERSIDAD PRIVADA
Ada A. Byron
Adems, se observa que hay tablas del mismo tipo divididas a travs del
tiempo. Por ejemplo, para el histrico de la fabricacin de las piezas, hay
muchas tablas separadas fsicamente, representando cada una un trimestre
diferente. La estructura de los datos es consistente con la tabla de la
elaboracin de las piezas, aunque fsicamente hay muchas tablas que
lgicamente incluyen el histrico.

Para los diferentes tipos de tablas hay diferentes unidades de tiempo que
fsicamente dividen las unidades de informacin. El histrico de fabricacin est
dividido por trimestres, el histrico de la orden de piezas est dividido por aos
y el histrico de cliente es un archivo nico, no dividido por el tiempo.

As tambin, las diferentes tablas son vinculadas por medio de un identificador


comn, piezas u rdenes de piezas (la representacin de la interrelacin en el
ambiente de depsito toma una forma muy diferente al de otros ambientes, tal
como el ambiente operacional).

12 Excepciones en el Data Warehouse

Mientras que los componentes del data warehouse trabajan de acuerdo al


modelo descrito para casi todos los datos, hay pocas excepciones tiles que
necesitan ser discutidas.

Una de ellas es la data resumida pblica, que es la data que ha sido calculada
fuera del data warehouse pero es usada a travs de la corporacin. La data
resumida pblica se almacena y administra en el data warehouse, aunque su
clculo se haya hecho fuera de l.

Un ejemplo clsico de data resumida pblica es el archivamiento trimestral


hecho por cada compaa pblica. Los contadores trabajan para producir
cantidades como rentas trimestrales, gastos trimestrales, ganancias
trimestrales y otros. El trabajo hecho por los contadores est fuera del data
warehouse. Sin embargo, esas cantidades referenciales producidas por ellos se
usan ampliamente dentro de la corporacin para marketing, ventas, etc. Una
vez que se haya hecho el archivo, los datos se almacenan en el data
warehouse.

Otra excepcin no considerada en este documento es la data externa.

Otro excepcional tipo de datos a veces encontrados en un data warehouse es el


detalle de los datos permanentes, que resulta de la necesidad de una

Lic. Vladimir Cotaquispe Gutirrez. 42


UNIVERSIDAD PRIVADA
Ada A. Byron
corporacin para almacenar la data a un nivel detallado permanentemente por
razones ticas o legales.

Si una corporacin expone a sus trabajadores a sustancias peligrosas hay una


necesidad de detalle de datos permanente. Si una corporacin produce un
producto que involucra la seguridad pblica, tal como la construccin de las
partes de aviones, hay una necesidad de datos permanentes. Si una
corporacin se compromete con contratos peligrosos, hay una necesidad de
detalle de datos permanentes.

La organizacin simplemente no puede dejar los detalles porque en futuros


aos, en el caso de una demanda, una notificacin, un edificio en disputa, etc.,
se incrementara la exposicin de la compaa. Por lo tanto hay un nico tipo de
datos en el data warehouse conocido como detalle de datos permanentes.

El detalle de datos permanentes comparte muchas de las mismas


consideraciones como otro data warehouse, excepto que:

El medio donde se almacena la data debe ser tan seguro como sea
posible.
Los datos deben permitir ser restaurados.

Los datos necesitan un tratamiento especial en su indexacin, ya que


de otra manera los datos pueden no ser accesibles aunque se haya
almacenado con mucha seguridad

Lic. Vladimir Cotaquispe Gutirrez. 43

You might also like