Professional Documents
Culture Documents
Noviembre de 2006
1
Bodegas de Datos
Agenda
Introducción
Bodegas de Datos: Conceptos Básicos
Bodegas de Datos: Consideraciones de Implementación,
Seguridad y Control
Conclusiones
2
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Introducción
3
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
El concepto de Administración de Datos reúne las herramientas y
sistemas que juegan un papel clave en el proceso de planeación
estratégica de una organización, al permitirle obtener, almacenar,
acceder y analizar datos corporativos para apoyar el proceso de toma
de decisiones. Típicamente estos sistemas, conocidos como Sistemas
de Soporte de Decisiones - SSD, se encuentran en las áreas de
servicio y soporte al cliente, investigación y segmentación de
mercados, análisis estadístico e inventario, entre otras.
4
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
5
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Minería de Datos
Proceso analítico diseñado para explorar grandes volúmenes de datos
(generalmente datos de negocio y mercado) con el objeto de descubrir
patrones y modelos de comportamiento o relaciones entre diferentes
variables. Esto permite generar conocimiento que ayuda a mejorar la
6 toma de decisiones en los procesos fundamentales de un negocio.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Inteligencia de Negocios
Dentro del mundo de los negocios y, de las organizaciones en general,
la "Inteligencia de Negocios", es un concepto respaldado por una
nueva manera de hacer las cosas, posible, gracias a los avances de los
Sistemas de Información y de las Tecnologías de Información.
Conocimiento: es el acervo de información utilizado en el proceso de
la toma de decisiones.
Data Warehousing: el proceso de organizar la información en una
forma que crea conocimiento basado en datos. Los productos de
software que presentan este conocimiento a los usuarios se refieren
como Herramientas de Inteligencia de Negocios (Business Intelligence
Tools.)
Gestión de Conocimiento (Knowledge Management) es la
disciplina que busca enfocar el uso de las Tecnologías de Información
en las personas, con el fin de que estas y sus organizaciones aprendan
a utilizar los recursos y fuentes de información para el logro de
objetivos estratégicos.
7
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
•Extraer •Integrada
•Filtrar •Orientada a un
•Transformar tema
•Integrar •Variante en el
•Clasificar tiempo
•Agregar •No volátil
10
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Producto
po
em
Ubicación Ti
OLAP
Fuentes
Bodega de
Datos •Reportes
•Consultas
•Análisis
Multidimencional
Etc.
Cuentas PUC
Ventas:
Moneda
Nombre, Monto $
LineaProducto,
Productos
Monto Unidad
TipoProducto Fecha
Posibles justificaciones
Interés en manejar grandes volúmenes de datos a
través de sistemas tipo DSS ( Sistemas de Soporte a
la toma de Decisiones)
Múltiples y variadas fuentes de información
Información dispersa y no oportuna con una alta
probabilidad de inconsistencias
Altos volúmenes de información no estructurada que
requieren análisis
Dificultad en acceso a la información histórica
Falta de flexibilidad en la manipulación de
información
14
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
15
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Etapas
Definición de requerimientos
Definición de arquitectura
Presentación del proyecto
Análisis de proveedores, Construcción RFP
Envío RFP
Evaluación
Contratación
Capacitación
Implementación
16
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Qué son?
En la actualidad hay una importante cantidad de confusión respecto a lo que es un
Data Warehouse que, afortunadamente, está comenzando a despejarse. No
obstante, parece que cada proveedor de un producto o servicio relacionado con
tecnología informática tiene su definición y, lo que es peor, en su propia jerga no
siempre comprensible. Algunos llaman a Datawahouse Business Intelligence o
Decision Support Systems, en realidad es considerada la solución integral y
oportuna para desarrollar las estrategias del negocio. El Datawarehouse se
caracteriza por ser: Integrado - Temático - Histórico - No volatil
Datawarehousing es un proceso, no un producto. Es una técnica para
consolidar y administrar datos de variadas fuentes con el propósito de responder
preguntas de negocios y tomar decisiones, de una forma que no era posible hasta
ahora, consolidar datos desde una variedad de fuentes, manejar grandes
volúmenes de datos de una forma que no era posible, o no era costo efectiva.
18
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Características de las Bodegas de Datos
Por definición, las Bodegas de Datos son bases de datos caracterizadas por
ser:
•No volátiles: Una vez que los datos son almacenados, estos nunca son
removidos pues representan la historia de la organización.
19
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Características de las Bodegas de Datos
Datos Operacionales
Extracción de Datos
Bodega de Datos
Extraer
Filtrar
Transformar * Integrada
Integrar * Orientada a un tema
Clasificar * Variante en el tiempo
Agregar * No volátil
Totalizar
20
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Características de las Bodegas de Datos
Característica Datos en la Base de Datos Operacional Datos en la Bodega de Datos
Integrada Datos similares pueden tener diferentes Proveen una vista unificada de todos los datos con una
representaciones o significados. Por ejemplo, un definición y representación comunes para todas las
número telefónico puede ser almacenado como: #- áreas del negocio.
###### o como
#-###-###, y una condición puede ser
representada como F/V, 0/1 o S/N. Los valores
pueden ser mostrados en miles o en millones.
Orientada a un Los datos son almacenados con una orientación Los datos son almacenados con una orientación por
tema particular funcional o por proceso. Por ejemplo, los datos temas que facilita múltiples vistas de los datos y la toma
pueden ser almacenados para facturas, pagos, de decisiones. Por ejemplo, las operaciones pueden ser
créditos y demás. registradas por cuenta, por área, por gerente o por
sucursal.
Variante en el Los datos son almacenados como transacciones Los datos son registrados con una perspectiva histórica.
tiempo actuales. Por ejemplo, los datos de ventas pueden Por consiguiente, una dimensión de tiempo es
ser la venta de un producto en una fecha adicionada para facilitar los análisis de datos y las
determinada, como $3’500.000 en Noviembre 15 de comparaciones en el tiempo.
2004.
No volátiles Las actualizaciones de datos son frecuentes y Los datos no pueden ser cambiados. Los datos son
comunes. Por ejemplo, los cambios en las adicionados periódicamente desde los sistemas
cantidades de un inventario cambian con cada transaccionales. Una vez que los datos son almacenados
venta. Por consiguiente el ambiente de datos es apropiadamente, no se permiten cambios. Por lo tanto
21 fluido. el ambiente de datos es relativamente estático
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Data Mining
•Redes neuronales
•Introducción de reglas
•Arboles de decisión
•Conjunto de reglas por clase
Soporta tambien sofisticadas operaciones de análisis tales como los
22 sistemas Scoring y aplicaciones de detección de fraude.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Paradigmas
23
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
ETL (Extraction, Transformation and Load - Extracción, Transformación y
Carga)
24
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Inteligencia de Negocio
Integrada (Solución basada en
ORACLE 10g)
Herramienta de
Fácil Uso
para Usuarios
de Negocio
Implementación
Flexible &
Escalabilidad
Administración
Intuitiva
25 OLTP DW OLAP
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Editor : Flujo de Datos
26
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Editor : Flujo de Procesos
27
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
DDL
28
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
OLAP y Sistemas de Soporte de Decisiones
33
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Riesgos asociados a la calidad de la información
35
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Riesgos asociados a la calidad de la información
37
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Riesgos asociados a la calidad de la información
En cuanto al Cumplimiento con leyes y regulaciones internas o externas se
debe prestar atención en lo que tenga que ver con el tratamiento de la
información y su propiedad, confidencialidad y distribución.
38
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Objetivos
Minería de datos
39
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Objetivos
Centralización de la Información
Eliminar duplicidad en la información.
Disminuir la operatividad en la búsqueda, acceso y
procesamiento de la información.
Disminuir el tránsito de la información a través de medios
alternos como el correo electrónico y el teléfono.
Proveer mayor capacidad de almacenamiento histórico.
Estandarizar el acceso y el almacenamiento de la
información.
Ofrecer mayor seguridad, confiabilidad y confidencialidad
de la información.
Racionalizar el uso de los recursos (computadores,
correo…).
Implementar esquemas confiables de contingencia y
40
respaldo de la información.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Metodología para la implantación
Realización de los requerimientos:
Definición del nombre del requerimiento
Descripción:
Fuentes de información
Variables que se van a cargar en la bodega de datos.
Proceso de cargue inicial y actualización de la
información.
Visualización de la información.
Seguridad tanto en la autorización para la publicación en
Internet como en los permisos de consulta de la
información.
42
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
43
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Modelos de referencia
Objetivos de control propuestos en los marcos de
referencia CONCT (Control Objectives for Net Centric
Technology y COBIT (Control Objectives for
Information Technology) y un estudio realizado por el
Instituto de Auditores Internos (The Institute of Internal
Auditors Research Foundation) acerca de la
implementación de Sistemas de Bodegas de Datos.
44
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
45
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
CONCT (Control Objectives for Net Centric Technologies)
46
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
CONCT (Control Objectives for Net Centric Technologies)
•Para los sistemas de procesamiento tradicionales la ubicación del
hardware (incluyendo el software instalado y los datos almacenados en él)
se consideró el factor más crítico, para la Tecnología Centrada en Red lo
es la red en sí misma.
•Mientras el hardware y la plataforma de red tengan la capacidad
suficiente y estén debidamente enlazados, la ubicación real del hardware
no es una preocupación. Por el contrario, sí lo es el contenido de la
información o los objetos que fluyen a través de la red.
•La implementación de Tecnología Centrada en Red debe ser económica,
efectiva y eficiente, con la suficiente confiabilidad y seguridad, y debe
cumplir los requerimientos gerenciales de la organización.
•Los objetivos de control para la Tecnología Centrada en Red se enfocan
en las siguientes actividades:
· Intranet/Extranet/Internet (Web)
· Data Warehouses
· OLTP Processing Software
47
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
CONCT (Control Objectives for Net Centric Technologies)
48
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
CONCT (Control Objectives for Net Centric Technologies)
Controles de seguridad
El proceso de evaluación de los controles de seguridad de los
servicios de distribución comprende 3 criterios de evaluación:
confidencialidad, integridad y disponibilidad
50
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
51
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
53
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
55
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
56
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
2. Verificar el uso óptimo de los •Monitorear el uso de la bodega de datos para asegurar que la capacidad instalada responde a las
recursos como un factor crítico en necesidades reales de almacenamiento, consulta de información (histórica, totalizada, etc.).
la implementación y uso de una
bodega de datos teniendo en • Establecer procedimientos de afinamiento para mejorar el desempeño del sistema.
cuenta los altos costos en
infraestructura, operación y • Definir y documentar las actividades específicas del administrador de la bodega de datos.
administración de este tipo de
soluciones. • Implementar mecanismos de documentación y actualización de los cambios en la configuración de
la red que afecten el desempeño de bodega de datos.
3. Obtener una arquitectura que no
solo atienda las necesidades
iniciales de almacenamiento y
acceso sino que sea escalable en
el tiempo mediante una adecuada
selección del hardware, software.
58
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Bajo estos criterios, se deben considerar • Incluir en la arquitectura del sistema mecanismos de redundancia para brindar un nivel
los siguientes Objetivos de Control; satisfactorio de tolerancia a fallas.
1. Fugas de información o acceso no • Fijar controles como Firewalls, creación de vistas de bases de datos, control de sesión que
autorizado a los datos sensitivos que se pueden ser reforzados utilizando mecanismos de encripción
almacenan en la bodega de datos. Es
importante recalcar que los riesgos de • Separar la información de acuerdo al nivel de sensibilidad y establecer mecanismos de
confidencialidad se incrementan aun protección y control de acceso adecuados para prevenir posibles fugas de información.
más por la tendencia a publicar la
información de las bodegas de datos a • Velar por que las políticas de seguridad y los mecanismos de auditoría implementados en las
través de Internet. Bodegas de Datos sean adecuados.
2. Impacto que eventuales fallas • Implementar procedimientos eficientes de carga, respaldo y recuperación de la información,
puedan generar sobre el acceso a la teniendo en cuenta el tipo de información a cargar, conservar, y el momento y la frecuencia
información almacenada en la óptima para su ejecución.
bodega de datos
59
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Criterio de Integridad y Confiabilidad
CRITERIO DE CALIDAD DE CONSIDERACIONES EN LA IMPLEMENTACIÓN PARA LA MITIGACION DE LOS RIESGOS DE PERIDAD DE LA CALIDAD
LA INFORMACION DE LA INFORMACION
Bajo estos criterios, se • Asegurar que el modelo de datos ha sido elaborado siguiendo los estándares de diseño de bases de datos, y
deben considerar los que se ajuste a las necesidades de información planteadas y definir los procedimientos para mantenerlo
siguientes Objetivos de actualizado y documentado incluyendo las fuentes de datos, las convenciones de nombres, tablas principales,
Control: y cambios futuros.
60
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Criterio de Cumplimiento
CRITERIO DE CALIDAD DE LA INFORMACION CONSIDERACIONES EN LA IMPLEMENTACIÓN PARA LA MITIGACION
DE LOS RIESGOS DE PERDIDA DE LA CALIDAD DE LA INFORMACION
Bajo este criterio se deben considerar aspectos •Identificar aquellas leyes, regulaciones y arreglos
relacionados con Leyes y regulaciones internas o externas contractuales a los cuales esta sujeto el negocio en
que afecten el tratamiento que se le debe dar a la términos de administración de la información.
información en cuanto a su propiedad, confidencialidad
y publicación. •Monitorear el surgimiento de nuevas disposiciones acerca
del carácter legal de la información, la propiedad de los
datos, el derecho a recolectarlos, y la manera de utilizarlos.
61
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Conclusiones
•La implementación de una solución de Bodegas de Datos debe
ser una decisión basada en un análisis exhaustivo de la
necesidades reales de información de la organización teniendo en
cuenta los principios de las Bodegas de Datos establecidos por
definición y comparándolos contra los mecanismos de consulta
de los que disponga actualmente la organización.
•La implementación se facilitará en la medida en que se constituya
en un proyecto que tenga en cuenta el ciclo de vida de las
Bodegas de Datos para la asignación de recursos técnicos y
humanos y de la asignación de responsabilidades para cada uno
de los roles establecidos.
Modelos de referencia como CONCT u otros estudios de
referencia sobre el tema de Bodegas de Datos son fuentes de
consulta valiosas no solo para entender las características
técnicas de las Bodegas da Datos sino también para conocer los
aspectos de operación, seguridad y control que se deben tener en
62
cuenta pre y post implementación.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Bibliografía
•Control Objectives For Net-Centric Technologies, ISACF, 1999
•Cobit , ISACA
•Data Warehousing and Data Mining: Opportunities for Internal Auditors, David,
Julie S. & Steinbart, Paul J., Florida, 2000, The Institute of Internal Auditors Research
Foundation
•Decision Support Systems and Intelligent Systems, Turban, Efraim & Iroson, Jack E.,
1998, Prentice Hall.
•Database Systems, Design, Implementation and Management, Rob, Peter & Coronel,
Carlos, 2000, USA, Thomson Learning.
.
63
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Referencias
•La Inteligencia de Negocios, Silvia Roque Moranchel, Marzo 2001,
Gestiópolis.com
•http://www.gestiopolis.com/recursos/documentos/fulldocs/ger/busint.htm
•Webopedia.com
http://www.webopedia.com
64
Noviembre de 2006 Alfonso Luque Romero