Se denomina data warehosuse a un almacn de datos integrado
Datawarehouse Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creacin de un datawarehouse representa en la mayora de las ocasiones el primer paso, desde el punto de vista tcnico, para implantar una solucin completa y fiable de Business Intelligence. La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la informacin (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la informacin es homognea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).
El trmino Datawarehouse fue acuado por primera vez por Bill Inmon, y se traduce literalmente como almacn de datos. No obstante, y como cabe suponer, es mucho ms que eso. Segn defini el propio Bill Inmon, un datawarehouse se caracteriza por ser: Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar. Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista. Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la informacin, su periodicidad de refresco, su fiabilidad, forma de clculo... etc. Los metadatos sern los que permiten simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales. Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido, son: Dar soporte al usuario final, ayudndole a acceder al datawarehouse con su propio lenguaje de negocio, indicando qu informacin hay y qu significado tiene. Ayudar a construir consultas, informes y anlisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI. Dar soporte a los responsables tcnicos del datawarehouse en aspectos de auditora, gestin de la informacin histrica, administracin del datawarehouse, elaboracin de programas de extraccin de la informacin, especificacin de las interfaces para la realimentacin a los sistemas operacionales de los resultados obtenidos... etc. Por ltimo, destacar que para comprender ntegramente el concepto de datawarehouse, es importante entender cual es el proceso de construccin del mismo, denominado ETL (Extraccin, Transformacin y Carga), a partir de los sistemas operaciones de una compaa: Extraccin: obtencin de informacin de las distintas fuentes tanto internas como externas. Transformacin: filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin. Carga: organizacin y actualizacin de los datos y los metadatos en la base de datos.
Una de las claves del xito en la construccin de un datawarehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo. Principales aportaciones de un datawarehouse Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares. Si no est familiarizado con el concepto de datawarehouse, puede resultarle til, adems, examinar las siguientes definiciones: Datamart Datamining Cuadro de Mando Integral Sistemas de Soporte a la Decisin (DSS) Sistemas de Informacin Ejecutiva (EIS) Qu es un Data Warehouse?
Es una coleccin de datos orientada a temas, integrada, de tiempo variante y volatil para ayudar al proceso de toma de decisiones gerenciales. Orientado a temas: datos que brindan informacin sobre un sujeto del negocio en particular, en un lugar de concentrarse en dinmica de las transacciones de la organizacin. Integrado: los datos con los que se nutre el data warehouse vienen diferentes fuentes y son integrados para dar una visin de un todo coherente. Tiempo variante: todos los datos en el data warehouse son asociados con un perido de tiempo especfico.
No voltil: los datos son estables en el data warehouse. Ms datos son agregados por los datos existentes no son removidos. Caractersticas
1. Se trata, de un expediente completo de una organizacin, ms all de la informacin transaccional y operacional, almacenado en una base de datos diseada para favorecer el anlisis y la divulgacin eficiente de datos (especialmente OLAP, procesamiento analtico en lnea). 2. El almacenamiento de los datos no debe usarse con datos de uso actual.
3. Los almacenes de datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.
Caracteristicas de un Datawarehouse El trmino Datawarehouse fue acuado por primera vez por Bill Inmon, y se traduce literalmente como almacn de datos. No obstante, y como cabe suponer, es mucho ms que eso. Segn defini el propio Bill Inmon, un datawarehouse se caracteriza por ser:
Integrado.-Los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
En la siguiente imagen podemos ver cmo se maneja la informacin en distintas aplicaciones y lo que buscamos con la integracin seria escoger de todas un estndar de informacin para que uniformice los datos y se introduzcan al repositorio
Temtico.- slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar.
En la siguiente imagen se muestra cmo se maneja un sistema de informacin orientada a sus aplicaciones y otra temtica una diferencia importante entre estas est en la interrelacin de la informacin. Los datos operacionales (aplicaciones) mantienen una relacin continua entre dos o ms tablas basadas en una regla comercial. Las del data warehouse miden espectros de tiempo y las relaciones encontradas en la data warehouse (podremos indagar en toda la informacin pasada relacionada entre todas las aplicaciones).
De tiempo variante.- el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. Los datos histricos son de poco uso en el procedimiento operacional. La informacin del depsito por el contrario, debe incluir los datos histricos para usarse en la identificacin y evaluacin de tendencias.
No Voltil.- El almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista.
Como se puede observar en la imagen en la base de datos operacional la actualizacin (actualizar, borrar y modificar) se hace regularmente, mientras en el data warehouse sea una sola actualizacin esto hace que cuando tengamos que tomar una decisin con esta informacin tengamos seguridad de esta.
INTELIGENCIA DE NEGOCIOS
Accesibilidad a la informacin. Los datos son la fuente principal de este concepto. Lo primero que deben garantizar este tipo de herramientas y tcnicas ser el acceso de losusuarios a los datos con independencia de la procedencia de estos. Apoyo en la toma de decisiones. Se busca ir ms all en la presentacin de la informacin, de manera que los usuarios tengan acceso a herramientas de anlisis que les permitan seleccionar y manipular slo aquellos datos que les interesen. Orientacin al usuario final. Se busca independencia entre los conocimientos tcnicos de los usuarios y su capacidad para utilizar estas herramientas.