You are on page 1of 63

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Materia : Sistemas de Informacin


Data Warehouse

Sem-10

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Administracin de datos Como se ha indicado anteriormente la informacin y el conocimiento se genera a partir del procesamiento y del anlisis de los datos, por tanto, ello supone la necesidad de disponer de datos organizados de tal manera que permitan garantizar su integridad, disponibilidad y flexibilidad, es decir contar con los medios necesarios para administrarlos eficientemente. Durante las ltimas dcadas, la tecnologa de informacin ha desarrollado mtodos, tcnicas, aplicaciones y herramientas con el objetivo de administrar los datos de las empresas de forma cada vez ms eficiente.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Administracin de datos -Evolucin Archivos Los esfuerzos por administrar los datos, se han realizado de forma evolutiva, desde las primeras formas organizacionales con base en archivos, utilizando una estructura jerrquica compuesta de campos, los que relacionados significativamente conforman un registro, los que a su vez, agrupados bajo un mismo tipo conforman un archivo El sistema de archivos fue implementado en las empresas siguiendo de tendencia de la implementacin inicial de los SI, es decir independiente unos de otros. Cada SI creaba sus archivos necesarios para la ejecucin de sus aplicaciones particulares, resultando en el tiempo, es una creciente dificultad, de utilizar los datos para generar informacin til para la toma de decisiones, debido a la redundancia, inconsistencia y poca seguridad de los datos.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Administracin de datos -Evolucin Base de datos centralizadas y Administradores de datos Podemos definir una BD como un conjunto de datos organizados y relacionados entre s, con el objetivo de que sean recolectados y explotados por los sistemas de informacin de una empresa o otra organizacin en particular. Entre las principales caractersticas que tienen las BD podemos indicar las siguientes: Independencia lgica y fsica de los datos. Redundancia mnima. Acceso concurrente por parte de mltiples usuarios. Integridad de los datos. Consultas optimizadas. Seguridad de acceso y auditora. Respaldo y recuperacin. Acceso a travs de lenguajes de programacin estndar.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Administracin de datos -Evolucin Base de datos centralizadas y Administradores de datos Con base a la centralizacin se crean modelos para organizar y estructurar los datos dentro de contenedores de datos, as como de los mtodos para almacenar y recuperar informacin de esos contenedores. Los modelos de datos son abstracciones que permiten la implementacin de un sistema de bd ; por lo general, se refieren a algoritmos y conceptos matemticos. Algunos modelos las bases de datos, son: Bases Bases Bases Bases Bases de datos jerrquicas de datos relacionales de datos orientadas a objetos de datos documentales de datos deductivas

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Administracin de datos -Evolucin Base de datos centralizadas y Administradores de datos La creacin de bases de datos centralizadas signific un valioso avance en la administracin de los datos, sobre todo por la creacin de software especializado que permite automatizar la administracin de los datos, llamados genricamente como Sistemas de Administracin de Bases de Datos (DBMS) Se componen de un lenguaje de definicin de datos, de un lenguaje de manipulacin de datos y de un lenguaje de consulta. Esta forma de organizar los datos reduce significativamente la redundancia y la inconsistencia, permitiendo la disponibilidad de datos ms confiables para la generacin de informacin til para la toma de decisiones Los DBMS tienen la capacidad de liberar al usuario de la tarea de saber dnde y cmo se almacenan los datos. El objetivo de los DBMS es servir de interfaz entre la base de datos, el usuario y las aplicaciones que la utilizan.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Administracin de datos -Evolucin Base de datos centralizadas y Administradores de datos Las principales funciones que debe cumplir un SGBD se relacionan con la creacin y mantenimiento de la base de datos, el control de accesos, la manipulacin de datos de acuerdo con las necesidades del usuario, el cumplimiento de las normas de tratamiento de datos, evitar redundancias e inconsistencias y mantener la integridad.

MySQL PostgreSQL InterBase DB2Expess-C Apache-Derby IBM-informix Oracle Paradox dBase FoxPRO IBM-DB2

Access

SQL-Server

SybaseIQ

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Administracin de datos -Evolucin Base de datos centralizadas y Adm.de datos Relacionales Existen diferentes modelos de organizacin de bases de datos, entre los que destacan los modelos; relacionales por ser los de ms amplia difusin y aplicacin. Los modelos relacionales, representa los datos contenidos en tablas bidimensionales. Cada tabla (como un archivo) contiene datos acerca de una entidad y sus atributos. Cada elemento de la entidad se le denomina fila (registro) o tupla y cada columna se denomina campo (que representa un atributo de esa entidad). Toda tabla tiene un campo clave que permite identificar, actualizar o clasificar cada tupla, mediante la utilizacin de un lenguaje de manipulacin de datos especializado, que permite a los usuarios, de manera sencilla, correlacionar los datos en las tablas, para satisfacer sus requerimientos de informacin.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Administracin de datos -Evolucin BD centralizadas y Adm.de datos Orientado a Objetos (OO) El modelo orientado a objetos (OO), a diferencia de los modelos relacionales (idneos para administrar registros que contengan nmeros y caracteres), tienen la gran ventaja de administrar registros considerndolos como objetos que se pueden recuperar y compartir de manera automtica, y cuyo contenido puede contener caracteres, nmeros, imgenes, voz, video y cualquier componente multimedia. . Este modelo es la tendencia futura de los DBMS. En la actualidad estn disponibles los sistemas hbridos de DBMS relacionalorientados a objetos, debido a que an los OODBMS son ms lentos que los que los DBMS relacionales cuando se procesa gran cantidad de transacciones.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Administracin de datos -Evolucin Sistemas OLTP (Procesamiento de transacciones en Lnea Las diferentes formas organizativas de los datos y las capacidades de los DBMS, se constituyeron en una condicin bsica para que las empresas ejecuten sus procesos transaccionales y el control de los mismos de manera exitosa Los DBMS se caracterizan por el gran nmero de transacciones en lnea que procesan, principalmente del tipo: insertar, actualizar y suprimir y su nfasis est puesto en el rpido tratamiento de consultas simples, el mantenimiento de la integridad de datos en entornos de accesos mltiples y una eficacia medida por el nmero de transacciones por segundo. Razn por la que, en trminos genricos, se denominan como sistemas de procesamiento de transacciones en lnea (On-Line Transaction Processing - OLPT).

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Procesamiento de datos: OLTP (On-Line Transaction Processing) Una transaccin genera un proceso atmico (que debe ser validado con un commit, o invalidado con un rollback), y que puede involucrar operaciones de insercin, modificacin y borrado de datos. El proceso transaccional es tpico de las bases de datos operacionales. El acceso a los datos est optimizado para tareas frecuentes de lectura y escritura. (Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos). Los datos se estructuran segn el nivel aplicacin (programa de gestin a medida, ERP o CRM implantado, sistema de informacin departamental...). El historial de datos suele limitarse a los datos actuales o recientes.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Beneficios El procesamiento de transacciones en lnea tiene dos claros beneficios: simplicidad: La reduccin de la documentacin y la obtencin de informacin para la toma de . decisiones de forma ms rpida y precisa, son ms simples para las empresas. Tambin proporciona una base concreta para la estabilidad de una organizazacin gracias a las actualizaciones oportunas. eficiencia: Los procesos individuales se ejecutan mucho ms seguros y rpidos. Inconvenientes OLTP es una gran herramienta para cualquier organizacin, pero pueden suponer un problema: la seguridad y los costes econmicos o de tiempo. seguridad: La disponibilidad a todo el mundo que estos sistemas ofrecen a las empresas, hacen a sus BD mucho ms susceptibles a los intrusos y hackers. costes: En un sistema OLTP, la ms simple perturbacin en el sistema tiene el potencial de causar una gran cantidad de problemas, que a su vez pueden causar prdida de tiempo y dinero. Otro costo econmico es la posibilidad de que se produzcan fallos que puede causar retrasos en el servicio e incluso la perdida de informacin

Procesamiento de datos: OLTP (On-Line Transaction Processing)

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Procesamiento de datos: OLAP (On-Line Analytical Processing)


Procesamiento Analtico en Lnea (OLAP)

En la actualidad las empresas necesitan cada vez con mayor urgencia potenciar sus actividades de inteligencia, (inteligencia de negocios) con base a hechos e informacin obtenida a partir de sus datos, con apropiados niveles de integridad, oportunidad, historia, detalle, y calidad que constituyan una base confiable para apoyar la bsqueda y aprovechamiento de oportunidades de negocio que sustenten sus estrategias, desempeo y competitividad. La inteligencia de negocios se fundamenta en el anlisis de datos (aplicacin de mtodos y procedimientos cientficos y no cientficos para analizar e interpretar datos e informacin) que conjuntamente con las habilidades, competencias, ideas, compromisos y necesidades de las personas permiten crear, almacenar y distribuir informacin y conocimiento til para la empresa, con el objetivo de facilitar la orientacin de toma de decisiones operativas tcticas y estratgicas.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Administracin de datos -Evolucin Procesamiento Analtico en Lnea (OLAP) Los sistemas OLAP son diseados para ofrecer a los usuarios una solucin que permita agilizar de manera notable las consultas y anlisis de la gran cantidad de datos que produce constantemente una compaa, utilizando datos proveniente de todos los sectores de la misma, para producir informacin til para la generacin de inteligencia de negocios. En el mundo de las soluciones para Business Intelligence, una de las herramientas ms utilizadas por las empresas son un tipo de aplicaciones diseadas y creadas en funcin a bases de datos multidimensionales, que permiten procesar grandes volmenes de informacin, en campos bien definidos, y con un acceso inmediato a los datos para su consulta y posterior anlisis, denominadas Aplicaciones OLAP.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Procesamiento Analtico en Lnea (OLAP) Los sistemas OLAP utilizan bases de datos orientadas al procesamiento analtico. Este anlisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algn tipo de informacin til: tendencias de ventas, patrones de comportamiento de los consumidores, elaboracin de informes complejos etc. Para su funcionamiento, los sistemas OLAP se valen de estructuras multidimensionales, denominadas tambin Cubos OLAP, en las que se contienen diferentes resmenes de los datos extrados de las bases de datos mayores.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Procesamiento Analtico en Lnea (OLAP) Estructuras multidimensionales Las bases de datos multidimensionales pueden verse como bases de datos de una sola tabla, donde cada dimensin y cada mtrica estn representadas en un campo (columna), es decir estas tablas almacenan registros cuyos campos son de la forma: (d1, d2, d3., f1, f2, f3.). Donde los campos di hacen referencia a las dimensiones de la tabla, y los campos fj a las mtricas o hechos que se quiere almacenar, estudiar o analizar. En los aplicaciones OLAP cada tabla de la base de datos multidimensionales se pueden asimilar a una base de datos OLAP (llamada cubo OLAP), donde las dimensiones del mismo se corresponden los campos de dimensiones de la tabla (campos 'd1...'), y el valor almacenado en cada celda del cubo equivale a la mtrica o mtricas (campos 'fj...') almacenadas en la tabla.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Cubos OLAP

Los cubos OLAP son vectores (subconjunto de datos organizados y condensados dentro de una estructura multidimensional) en los cuales se dispone la informacin, y gracias a esta ordenada jerarqua es posible llevar a cabo un anlisis rpido de los datos. Cada una de las dimensiones que posee la base de datos, incorpora un campo determinado para un tipo de dato especfico, que luego podr ser comparado con la informacin contenida en el resto de dimensiones, para hacer posible la evaluacin y posteriores informes de la informacin realmente relevante para una compaa. Una base de datos multidimensional puede contener varios cubos o vectores que extendern las posibilidades del sistema OLAP con el cual se trabaja.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Cubos OLAP La herramienta OLAP ha dado lugar al nacimiento de diversos sistemas basados en su arquitectura que pueden ofrecer respuestas a las necesidades de las distintas compaas. De acuerdo a su forma de funcionamiento y a su estructura, los sistemas OLAP han sido clasificados en distintas categoras, tales como ROLAP, MOLAP, HOLAP, (WOLAP, DOLAP, RTOLAP y SOLAP). Dependiendo de la cantidad de datos a procesar, la frecuencia de uso de los datos, los tiempos requeridos de repuestas, entre otros, es ms comn utilizar los modelos: 1.- MOLAP - Multidimensional OLAP. 2.- ROLAP - Relacional OLAP. 3.- HOLAP - Hbrido OLAP hbrido.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Cubos OLAP MOLAP. Los datos fuente y sus agregaciones son almacenados conjuntamente en una estructura multidimensional de alto rendimiento. Provee alto rendimiento y compresin de datos y es apropiado para cubos con uso frecuente, por su rpida respuesta. Un sistema MOLAP usa una base de datos propietaria multidimensional, en la que la informacin se almacena multidimensionalmente, para ser visualizada en varias dimensiones de anlisis. El sistema MOLAP utiliza una arquitectura de dos niveles: la bases de datos multidimensionales y el motor analtico. La base de datos multidimensional es la encargada del manejo, acceso y obtencin del dato.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Cubos OLAP
Al utilizar una base de datos multidimensional, MOLAP permite alcanzar un tiempo de respuesta superior al que reportar otras herramientas de su especie, e incluso algunos de los sistemas MOLAP ofrecen la posibilidad de implementar mtodos de compresin de datos, con el fin de reducir notablemente el espacio utilizado en los discos. En ello reside una de las grandes ventajas que ofrece MOLAP, siendo una de las herramientas ms rpidas, gracias a sus funciones automticas, y una de las ms compactas debido al uso del mtodo de compresin de datos. Sin embargo, a pesar de ser uno de los sistemas de consulta ms veloces, lo cierto es que el MOLAP puede llegar a presentar redundancia de datos, y su mayor desventaja reside en que debido a su dificultad para la carga de importantes cantidades de volmenes, puede resultar en un procesamiento lento.

Entre los productos comerciales ms destacados que utilizan sistema MOLAP se encuentran Oracle OLAP, Microsoft Analysis Services, Essbase, Infor OLAP y TM1 Applix TM1.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Modos de almacenaje de datos en Cubos OLAP


ROLAP. Los datos fuente y sus agregaciones (condensaciones) son almacenados en una base de datos relacional. ROLAP no almacena copia de la base de datos, accede a las tablas originales cuando necesita responder a preguntas, es generalmente, mucho ms lenta que los otros dos mtodos de almacenaje. Tpicamente este mtodo se usa, para largos conjuntos de datos que no son frecuentemente buscados, tales como datos histricos de los aos ms recientes. Es bsicamente un sistema que ha sido construido utilizando las herramientas del OLAP y una base de datos relacional clsica. Su principal caracterstica reside en que se trata de uno de las herramientas mejor capacitadas para realizar escalas de gran cantidad de volmenes de datos, aunque su mayor defecto se centra en que ofrece un rendimiento menor durante la realizacin de consultas, en comparacin con otros de su especie. Adems de que al permitir que los usuarios realicen los ajustes necesarios del cdigo ETL segn sus requerimientos, logra un tiempo de carga menor que otros mtodos basados en OLAP. Las herramientas ROLAP ms utilizadas son Microsoft Analysis Services, MicroStrategy, Business Objects y el servidor(open source) Mondrian.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Modos de almacenaje de datos en Cubos OLAP


HOLAP. Combina atributos de MOLAP y ROLAP, la agregacin de datos es almacenada en una estructura multidimensional usada por MOLAP, y la base de datos fuente, en una base de datos relacional. Para procedimientos de bsqueda que accedan a datos condensados, HOLAP es equivalente a MOLAP, por el contrario si estos procesos accedern datos fuentes como los drill down, estos deben de buscar los datos en la base de datos relacional. Los cubos, almacenados con el mtodo HOLAP, son ms pequeos que los MOLAP y ms rpidos que los ROLAP. Generalmente este mtodo es utilizado para cubos que requieren rpida respuesta, para condensaciones basadas en una gran cantidad de datos.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Procesamiento de datos: OLAP (On-Line Analytical Processing)


Es una solucin utilizada en el campo de la llamada Inteligencia empresarial (Business Intelligence) cuyo objetivo es agilizar la consulta de gran cantidad de datos. Para ello utiliza estructuras multidimensionales (cubos OLAP) que contienen datos resumidos desde grandes Bd o Sistemas transaccionales (OLTP). La razn de usar OLAP para las consultas es la velocidad de respuesta, utilizando Bd multidimensionales, idneas para soportar complejas consultas mltitablas que mejoren el proceso de bsquedas (en contraste a las Bd relacionales, idneas para el proceso operativo, pero lento en consultas). La principal caracterstica que potencia OLAP, es la rapidez a la hora de ejecutar sentencias SQL de tipo SELECT. Un OLAP, por ejem. podra indicar cuanto deben los clientes por reas geogrficas, cuantas facturas, el promedio de das que tardan en pagar.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Cubo OLAP
Propuesto por Codd, consiste en realizar una disposicin de los datos en vectores para permitir un anlisis rpido. Estos vectores son llamados cubos Nos referimos a cubos OLAP cuando hablamos de BD multidimensionales, en las cuales el almacenamiento fsico de datos se realiza en vectores multidimensionales. Los parmetros en funcin de los cuales se analizan los datos se conocen como dimensiones. Para acceder a los datos slo es necesario indexarlos a partir de los valores de los ejes.

Productos

C C ii u u d d a a d d e s e

Disponer los datos en cubos evita una limitacin de las BD relacionales, que no son muy adecuadas para el anlisis de instantneas de grandes cantidades de datos. Las bases de datos relacionales son ms adecuados para registrar datos de transacciones (conocido como procesamiento de transacciones en lnea) y aunque hay muchas herramientas de generacin de informes para BD relacionales, estas son lentas cuando debe explorarse toda la base de datos.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Variables Son los datos que estn siendo analizados (indicadores de gestin) Las variables representan algn aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, se representan por valores detallados y numricos para cada objeto o evento medido. Ejemplos de variables : - beneficios - gastos - ventas, etc. Dimensiones Las dimensiones de un cubo son atributos relativos a las variables. Son las perspectivas de anlisis de las variables, utilizadas para indexar, ordenar, agrupar o abreviar los valores de las variables. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables. Ejemplos de dimensiones : - producto (diferentes tipos o denominaciones de productos) - localidad (o provincia, o regiones, o zonas geogrficas) - tiempo (medido de diferentes maneras: hrs, das, meses, aos.) - tipo de cliente (casado/soltero, joven/adulto/anciano, ...) etc.

Cubo OLAP: componentes

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Cubo OLAP: componentes

Segn lo anterior, podramos construir un cubo de informacin por ejemplo, sobre la variable: ndice de ventas en funcin de las dimensiones: producto w vendido, en la provincia z, durante el mes del ao mm/aa a clientes casados Tendramos un cubo de 4 dimensiones

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Cubo OLAP: implementacin Las BD multidimensionales implican tres variantes posibles de modelamiento, que permiten realizar consultas de soporte de decisin: Esquema en Estrella (Star Scheme). Esquema Copo de Nieve (Snowflake Scheme). Esquema Constelacin o copo de estrellas (Starflake Scheme). Los mencionados esquemas pueden ser implementados de diversas maneras, que, independientemente al tipo de arquitectura, requieren que toda la estructura de datos este desnormalizada o semi desnormalizada, para evitar desarrollar uniones (Join) complejas para acceder a la informacin, con el fin de agilizar la ejecucin de consultas. Los diferentes tipos de implementacin son los siguientes: Multidimensional MOLAP. Relacional ROLAP. Hbrido HOLAP.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Cubo OLAP: implementacin Esquema en estrella (Star schema). En este modelo se crea una tabla de hechos central (con datos para el anlisis) rodeada de las tablas de dimensiones, semejante a una estrella. Las tablas de dimensiones tendrn siempre una clave primaria simple, mientras que en la tabla de hechos, la clave principal estar compuesta por las claves principales de las tablas dimensionales Es decir la tabla de hechos es la nica tabla del esquema que tiene mltiples uniones (joins) que la conectan con otras tablas (foreign keys hacia otras tablas) y las tablas de dimensin nicamente hacen unin con esta tabla de hechos. Las tablas de dimensin se encuentran adems totalmente desnormalizadas, por lo cual, toda la informacin referente a una dimensin se almacena en la misma tabla

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Cubo OLAP: implementacin Este esquema es ideal por su simplicidad y velocidad para ser usado en anlisis multidimensionales. Permite acceder tanto a datos de detalle como a datos agregados. Este esquema es simple desde el punto de vista del usuario final. Las consultas no son complicadas ya que las condiciones y las uniones necesarias slo involucran a la tabla de hechos con las de dimensiones.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Cubo OLAP: implementacin Esquema en copo de nieve (Snowflake schema). Este esquema tiene como objetivo eliminar la redundancia de datos, mediante la normalizacin de las tablas de dimensiones, reduciendo de esta manera el espacio de almacenamiento y facilita el mantenimiento de las dimensiones. Dado que todas las (o algunas) tablas de dimensiones se normalizan, cada tabla de dimensiones queda subdividida en 2 o ms tablas, establecindose as ms uniones (join) entre la tabla base de dimensin y sus sub tablas, adems de las uniones entre la tabla base de las dimensiones con la tabla de hechos, lo que afecta el rendimiento.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Cubo OLAP: implementacin Esquema constelacin de hechos (fact constellation schema). Este esquema est compuesto por dos o ms esquemas en estrella. Es decir, permite tener ms de una tabla de hechos, por lo cual se podrn analizar ms aspectos claves del negocio con un mnimo esfuerzo adicional de diseo. En la figura siguiente, se muestra un esquema en constelacin con dos tablas de hechos, una principal (HECHOS-1) y una auxiliar (HECHOS-2) (o varias) las cuales pueden ser sumarizaciones de la principal. Dichas tablas yacen en el centro del modelo y estn relacionadas con sus respectivas tablas de dimensiones.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Procesamiento Analtico en Lnea (OLAP) Los sistemas OLAP son los que implementa finalmente los llamados "Data Warehouse" o depsitos de datos que podemos definir como un almacn de datos transformados y separados fsicamente de la aplicacin donde se encontraron los datos en el ambiente operacional. Implementaciones comerciales de OLAP hay muchas. Quizs la ms conocida sea SAP, aunque hay muchas como Microsoft Analysis Services (incluido en SQL Server) DB2 OLAP Server de IBM. Los sistemas OLAP son una de las herramientas ms utilizadas en el campo de las soluciones BI, ya que brinda la posibilidad de disponer de una base de datos multidimensional que permite llevar a cabo el procesamiento analtico de la informacin de manera online

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Data Warehouse
Es un almacn de datos (coleccin de datos) orientada a un determinado mbito (empresa, organizacin, etc, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organizacin (ms all de la informacin transaccional y operacional) almacenado en una base de datos diseada para favorecer el anlisis y la divulgacin eficiente de datos (especialmente el procesamiento analtico en lnea OLAP). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Data Warehouse
Willian H. Inmon, fue el primero en definir el concepto de Data Warehouse (DW), en trminos de las caractersticas de los datos, como una coleccin de datos orientados a temas, integrados, no-voltiles y variante en el tiempo, organizados para soportar necesidades empresariales.

Orientado a temas. Los datos en el DW estn organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Data Warehouse
En el ambiente operacional los datos se organizan alrededor de las aplicaciones . Por ejemplo, la aplicacin: Ingreso de rdenes, puede acceder a los datos sobre clientes, productos y cuentas. La Bd combina estos elementos en una estructura que se acomoda a las necesidades de la aplicacin. En cambio, en el ambiente Dw se organizan alrededor de sujetos tales como cliente, vendedor, producto, actividad. Por ejemplo, para un fabricante, stos pueden ser: clientes, productos, proveedores etc. para un hospital pueden ser: pacientes, personal mdico, medicamentos, etc. La diferencia entre la orientacin a procesos y funciones y la orientacin a temas radica en el contenido de la data a nivel detallado. En el Dw se excluye la informacin que no ser usada por los sistemas de soporte de decisiones, mientras que la informacin orientada a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales y de procesos.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Integrado. La base de datos contiene los datos de todos los sistemas operacionales de la organizacin, y dichos datos deben ser consistentes. El aspecto ms importante del ambiente Dw es que la informacin al interior est siempre integrada. La integracin de datos se muestra de varias maneras: convenciones de nombres consistentes, medidas uniforme de variables, codificacin de estructuras consistentes, atributos fsicos de los datos consistentes, fuentes mltiples y otros. Codificacin. En las aplicaciones, por ejm. se puede codificar el campo gnero en varias formas; como "M" y "F", como "1" y "0", como "X" e "Y" etc No importa cmo el gnero llega al Dw, probablemente "M" y "F" sean tan buenas como cualquier otra codificacin. Lo importante es que cualquiera sea la codificacin, el dato debe llegar al Dw en un estado integrado, uniforme y convertido al formato adoptado para el Dw. Medida de atributos. En las aplicaciones, por ejem. es posible codificar la unidad de medida de una tubera, en una variedad de formas:cms, pulgadas, pies cbicos, yardas, etc. En el Dw al dar medidas a los atributos, la transformacin traduce las diversas unidades de medida usadas en diferentes BD para transformarlas en una medida estndar comn. Fuentes Mltiples. En el Dw la informacin necesita ser almacenada en un modelo globalmente aceptable y singular, an cuando los sistemas transaccionales subyacentes almacenen los datos de manera diferente

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Variante en el tiempo. Toda informacin en el Dw es requerida en algn momento, la informacin representa los datos sobre un horizonte largo de tiempo - desde cinco a diez aos. Los cambios producidos en los estados de los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones. Los datos se almacenan para proporcionar una perspectiva histrica. Cada estructura clave en el almacn de datos contiene, implcita o explcitamente, un elemento de tiempo. Se almacenan los datos en general en periodos de 5 a 10 aos, para permitir analizar tendencias, comparaciones y previsiones. No voltil. Los datos no se modifica ni se elimina, una vez almacenado un dato, ste se convierte en informacin de slo lectura y se mantiene para futuras consultas. La perspectiva esencial para el anlisis y la toma de decisiones requiere una BD estable, por tanto, la manipulacin bsica de los datos ocurre bajo dos nicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos (en contraste a las BD operacionales que cambian momento a momento con las actualizaciones que se hacen regularmente).

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

OLTP

DW

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Data Warehouse: creacin


Inmon defiende la metodologa Top down (se formula un resumen del sistema, sin especificar detalles. Cada parte del sistema es entonces redefinida, cada vez con mayor detalle, hasta que la especificacin completa es lo suficientemente detallada para validar el modelo) para disear un Dw. El modelo Top-down se disea con la ayuda de "cajas negras" que hacen ms fcil cumplir requerimientos (aunque no expliquen en detalle los componentes individuales) ya que de esta forma se considerarn mejor todos los datos corporativos. En esta metodologa los Data Marts (subconjunto de datos de un Dw centrados en un tema o un rea de negocio especifico dentro de una organizacin), se crearn despus de haber terminado el Dw completo. El Data mart es un sistema orientado a la consulta, en el que se producen procesos batch de carga de datos (altas) con una frecuencia baja y conocida. Es consultado mediante herramientas OLAP que ofrecen una Visin multidimensional de la informacin. Sobre estas BD se pueden construir por ejemplo: - EIS (Sistemas de Informacin para Ejecutivos) y - DSS (Sistemas de Ayuda a la toma de Decisiones)

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Data Marts

Razones para crear un Data mart Fcil acceso a los datos que se necesitan frecuentemente. Crea vista colectiva para grupo de usuarios. Mejora el tiempo de respuesta del usuario final. Facilidad de creacin. Costo inferior al de la aplicacin de un completo Dw. Los usuarios potenciales son ms claramente identificables que en un almacn de datos completo. Conceptos errneos sobre los Data Marts Son ms simples de implementar que un Dw. falso: la implementacin es muy similar, ya que debe proporcionar las mismas funcionalidades. Son pequeos conjuntos de datos con menor necesidad de recursos. falso: una aplicacin corriendo sobre un data mart necesita los mismos recursos que si corriera sobre un data warehouse. En algunos casos aade tiempo al proceso de actualizacin. falso: actualizar el data mart desde el Dw cuesta menos (ya que los formatos de los datos son o suelen ser idnticos) que actualizar el Dw desde sus fuentes de datos primarias, donde es necesario realizar operaciones de transformacin.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

SCM (Supply Chain Management) Administracin de la Cadena de Suministros ERP (Enterprice Resource Planning) Sist. de Adm. de Recursos Empresariales ETL (Extract Transform and Load). Proceso que permite a las organizaciones mover datos desde mltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra Bd, Data mart, o Data warehouse ODS (Operational Data Store) Almacn Operacional de Datos, es un contenedor de datos activos, es decir operacionales que ayudan al soporte de decisiones y a la operacin. Est entre OLTP y OLAP. Su funcin es integrar los datos al igual que en el Data warehouse pero con mucho menos detalle.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Data Warehouse: Definicin Ralph Kimball


Un Data warehouse es: Una copia de las transacciones de datos especficamente estructurada para la consulta y el anlisis". Kimball determin que un Dw no es ms que "la unin de todos los Data marts de una entidad". Indica por tanto una metodologa bottom-up (ascendente) a la hora de disear un almacn de datos. Bottom-up las partes individuales se disean con detalle y luego se enlazan para formar componentes ms grandes, que a su vez se enlazan hasta que se forma el sistema completo. Las estrategias basadas en el flujo de informacin "bottom-up son potencialmente necesarias y suficientes porque se basan en el conocimiento de todas las variables que pueden afectar los elementos del sistema

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Data Warehouse: Definicin amplia


Las definiciones anteriores se centran en los datos en s mismos. sin embargo, los medios para obtener y analizar esos datos, para extraerlos, transformarlos y cargarlos, as como las diferentes formas para realizar la gestin de datos son componentes esenciales de un Dw. Muchas referencias a un Dw utilizan una definicin ms amplia, por lo tanto, en esa definicin se incluyen herramientas para la inteligencia empresarial, herramientas para ETL al almacn de datos, y herramientas para gestionar y recuperar los metadatos.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Posible Evolucin de la estructura informtica empresarial Una empresa tiende a tener los siguientes niveles de madurez: Hojas de clculo OLTPs OLTPs + OLAPs OLTPs + OLAPs + Data warehouse OLTPs + OLAPs + Data warehouse + ODS OLTPs + OLAPs + Data warehouse + ODS + Minera de datos Hoy da se considera que la estructura informtica de una empresa madura contiene: OLTPs + OLAPs + Data warehouse + ODS + Minera de datos

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Data Warehouse: Estructura bsica

La siguiente figura muestra una estructura bsica del DW.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Funcin de un Data Warehouse Un almacn de datos debe entregar la informacin correcta a la gente indicada en el momento oportuno y en el formato adecuado. Por tanto un almacn de datos debe contener datos que son necesarios o tiles para las necesidades de informacin de una organizacin, es decir, se utiliza como un repositorio de datos para posteriormente transformarlos en informacin til para el usuario y la toma de decisiones. El almacn de datos debe dar respuesta a las necesidades de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (SSD),Sistemas de Informacin Ejecutiva (SIE) u otros sistemas y herramientas para hacer consultas o informes sin tocar o afectar la operacin del sistema.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

En el funcionamiento de un Data warehouse son importantes las siguientes ideas: Integracin de los datos provenientes de BD distribuidas por las diferentes unidades de la organizacin y que con frecuencia tienen diferentes estructuras (fuentes heterogneas). Separacin de los datos usados en operaciones diarias de los datos usados en el almacn de datos para los propsitos de divulgacin, de ayuda en la TD, para el anlisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podran entorpecerse entre s. Peridicamente, se importan datos al almacn de datos de los distintos sistemas de planeamiento de recursos de la entidad (ERP), SCM, CRM y de otros sistemas de software relacionados con el negocio, para la transformacin posterior. Es prctica comn normalizar los datos antes de combinarlos en el warehouse mediante herramientas de extraccin, transformacin y carga (ETL). Estas herramientas leen los datos primarios (a menudo bases de datos OLTP de un negocio), realizan el proceso de transformacin al almacn de datos (filtracin, adaptacin, cambios de formato, etc.) y escriben en el Data warehouse.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Elementos que integran un Data Warehouse Fuente de datos La fuente de datos proporciona los datos para el data warehouse. Los diseadores determinan que datos contienen valor de negocio para insertarlos en el repositorio. La principal fuente de datos son las BD OLTP donde los datos operacionales son almacenados. Las BD OLTP puede residir en aplicaciones de software transaccionales como el Planeamiento de Recurso Empresariales (ERP), la Cadena de Suministro de Proveedores (SCM), el Sistema Relaciones conel Cliente (CRM) y otros.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Metadatos Uno de los componentes ms importantes de la arquitectura de un Dw son los metadatos. Se define comnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cul es la estructura de los datos que se van a almacenar y cmo se relacionan. El metadato documenta, entre otras cosas, qu tablas existen en una Bd, qu columnas posee cada una de las tablas y qu tipo de datos se pueden guardar Los datos son de inters para el usuario final, el metadato es de inters para los programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacn de datos es muy diferente al rol que cumple en los ambientes operacionales. En el mbito de los data warehouse el metadato juega un papel fundamental, su funcin consiste en recoger todas las definiciones de la organizacin y el concepto de los datos en el almacn de datos, debe contener toda la informacin concerniente a: Tablas Columnas de tablas Relaciones entre tablas Jerarquas y Dimensiones de datos Entidades y Relaciones

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Funciones ETL (extraccin, transformacin y carga) Los procesos de extraccin, transformacin y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un data warehouse (o en cualquier base de datos). Implican las siguientes operaciones: Extraccin.- Accin de obtener la informacin deseada a partir de los datos almacenados en fuentes externas. Transformacin.- Cualquier operacin realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de ste a otra base de datos. Carga.- Consiste en almacenar los datos en la base de datos final, por ejemplo el data warehouse objetivo normal.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Middleware Es un trmino genrico que se utiliza para referirse a todo tipo de Sw de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogneas. Estos servicios funcionan como una capa de abstraccin de software distribuida, que se sita entre las capas de aplicaciones y las capas inferiores (Sistema operativo y red). El middleware puede verse como una capa API que sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones en que se ejecutarn. As, se ofrece una mejor relacin costo/ rendimiento que pasa por el desarrollo de aplicaciones ms complejas, en menos tiempo. La funcin del middleware en el contexto de los data warehouse es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacn de datos.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Exploracin Creado el Dw, es evidente, que se necesitar software especializado que permita capturar los datos relevantes en forma rpida y procesar los datos en diferentes dimensiones y permitir el anlisis significativo para transformarlos en informacin til para la empresa. Estas herramientas de negocio inteligentes (Sw) operan sobre la plataforma del Data warehouse y son las que proveen este importante servicio. Debido a que son el punto principal de contacto entre la aplicacin del depsito y la gente que lo usa, estas herramientas pueden constituir la diferencia entre el xito o fracaso del Data warehouse. Muchas de estas herramientas de negocio inteligentes no solamente ayudan en soporte a las decisiones sino, adems soportan muchas funciones operacionales y de misin-crtica de la empresa.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Exploracin Tal como se muestra en la figura siguiente las aplicaciones, tcnicas y herramientas, ms utilizadas en el proceso de exploracin, son: Procesamiento Analtico en Lnea (OLAP), Consulta e informe (Query & Reporting), Minera de Datos (Data Mining) y Visualizadores de datos (Data Visualization), adems de aplicaciones de Sistema de Soporte a las Decisiones (DSS) y Sistemas de Informacin Ejecutiva(EIS).

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Exploracin Consultas e informes (Query & Reporting). Consultas e informes (Query & Reporting). Es un conjunto de aplicaciones que utilizan tcnicas de explotacin de bases de datos, para permitir a los usuarios finales acceso para consulta de datos (query) y capacidades de construccin de informes (reporting) que generalmente incluyen datos de detalle, y formatos que soportan imgenes, grficos, tablas, etc. Permiten a los usuarios: Poco expertos solicitar la ejecucin de informes o consultas segn parmetros determinados. Con cierta experiencia, hacer consultas ms flexibles mediante una aplicacin que proporcione una interfaz grfica de ayuda. Experimentados, a escribir, total o parcialmente la consulta en un lenguaje de interrogacin de datos.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Exploracin Procesamiento Analtico en Lnea (OLAP). Procesamiento Analtico en Lnea (OLAP). Es un conjunto de aplicaciones que utilizan tcnicas de explotacin de bases de datos que facilita el anlisis y la visualizacin multidimensional de los datos. El anlisis multidimensional consiste en analizar los datos que hacen referencia a hechos desde la perspectiva de sus componentes o dimensiones, abarcando tambin los diferentes niveles que puedan tener las respectivas dimensiones. El anlisis multidimensional se apoya en una visin conceptual multidimensional (cubo o hipercubo) de los datos para permitir a los sistemas OLAP: Soportar requisitos complejos de anlisis. Analizar datos desde diferentes perspectivas (dimensiones) Soportar anlisis contra un volumen considerable de datos.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Exploracin Mineria de datos (Data Mining). Mineria de datos (Data Mining). Es un conjunto de aplicaciones y herramientas que utilizan tcnicas de anlisis de datos con el objetivo de transformar la informacin disponible en conocimiento til, a travs del descubrimiento y cuantificacin de relaciones predictivas no obvias de los datos. Las procesos de Data Mining, se complementan y potencializan con los Data Warehouse (aunque no es necesario DW para aplicar Data Mining) a tal punto que hoy constituyen elementos claves en la generacin de conocimiento til para la inteligencia de negocios (Business Intelligence - BI) de la empresa.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Exploracin Sin embargo, slo se consigue el mximo provecho del Dw, si elige las herramientas adecuadas a las necesidades de cada usuario final.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Beneficios de un Data Warehouse Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Diseo de un Data warehouse Para construir un Data Warehouse se necesitan herramientas para ayudar a la migracin y a la transformacin de los datos hacia el almacn. Una vez construido, se requieren medios para manejar grandes volmenes de informacin. Se disea su arquitectura dependiendo de la estructura interna de los datos del almacn y especialmente del tipo de consultas a realizar. Con este criterio los datos deben ser repartidos entre numerosos data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio de algunos temas generales de la organizacin o empresa, los cuales se describen a continuacin: Situacin actual de partida.- Cualquier solucin propuesta de data warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura tcnica existente y planeada de la compaa. Tipo y caractersticas del negocio.- Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organizacin y el soporte que representa la informacin dentro de todo su proceso de toma de decisiones.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Diseo de un Data warehouse Entorno tcnico.- Se debe incluir tanto el aspecto del Hw (mainframes, servidores, redes,...) as como aplicaciones y herramientas. Se dar nfasis a los Sistemas de Soporte a las decisiones (DSS), si existen en la actualidad, cmo operan, etc. Expectativas de los usuarios.- Un proyecto de data warehouse no es nicamente un proyecto tecnolgico, es una forma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad. Etapas de desarrollo.- Con el conocimiento previo, ya se entra en el desarrollo de un modelo conceptual para la construccin del data warehouse. Prototipo.- Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto final que ser entregado a los usuarios. Piloto.- El piloto de un Dw es el primero (o cada uno de los primeros) resultados generados de forma iterativa que se harn para llegar a la construccin del producto final deseado. Prueba del concepto tecnolgico.- Es un paso opcional que se puede necesitar para determinar si la arq. especificada del Dw funcionar finalmente como se espera.

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Se denomina Inteligencia de negocios o BI (business intelligence) al conjunto de estrategias y herramientas enfocadas a la administracin y creacin de conocimiento mediante el anlisis de datos existentes en una organizacin

Flujo de datos

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Inteligencia de Negocios y Dataharehouse


Las herramientas de BI ayudan a las empresas a establecer conclusiones, analizar tendencias, representar visualmente indicadores, profundizar en las razones de la evolucin de negocios, establecer simulaciones, por nombrar slo algunos de sus beneficios. Para una persona de negocio, las tecnologas de inteligencia de negocio visibles, son las herramientas de BI (reporteadores, instrumentos analticos, instrumentos de pronsticos etc.). Pero en el fondo,estas herramientas comnmente dependen un recurso fundamental: datos. Es decir, la Inteligencia de Negocios esta en base al uso de los datos (de una empresa) , por tanto, es necesario garantizar su integridad y su confiabilidad. Data warehouse (utilizando variados mtodos y tcnicas) se constituye en uno de los mejores enfoques para brindar la garanta de datos requerida, en la aplicacin de las herramientas de Inteligencia de negocios. Data warehouse extrae datos desde diferentes sistemas o aplicaciones de negocios de una empresa en un depsito separado donde son combinados como un solo conjunto de datos integrado. As. los reporteadores y dems instrumentos analticos y de pronstico, se unen al depsito de datos mucho mejor que a los sistemas o aplicaciones originales por separado

PRIMERA UNIDAD 1

UNIVERSIDAD INCA GARCILASO DE LA VEGA FACULTAD DE SISTEMAS, COMPUTO Y TELECOMUNICACIONES

Sistemas de Informacin

Inteligencia de Negocios y Dataharehouse


Cuando se acomete el establecimiento de un ambiente de inteligencia de negocio, los tomadores de decisiones deberan entender el papel crtico jugado por el depsito de datos. Para ello, Data warehouse es una alternativa a los problemas para gestionar la informacin, por medio de la cual se generan escenarios, pronsticos y reportes que apoyan la toma de decisiones en las diversas posiciones de la jerarqua empresarial con la informacin correcta, en el momento y lugar correcto, lo que permite tomar mejores decisiones de negocios.

. . DB, files