You are on page 1of 64

Bodegas de Datos: Consideraciones de

Implementación, Seguridad y Control

Alfonso Luque Romero

Noviembre de 2006

1
Bodegas de Datos

Agenda

 Introducción
 Bodegas de Datos: Conceptos Básicos
 Bodegas de Datos: Consideraciones de Implementación,
Seguridad y Control
 Conclusiones

2
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Introducción

3
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
El concepto de Administración de Datos reúne las herramientas y
sistemas que juegan un papel clave en el proceso de planeación
estratégica de una organización, al permitirle obtener, almacenar,
acceder y analizar datos corporativos para apoyar el proceso de toma
de decisiones. Típicamente estos sistemas, conocidos como Sistemas
de Soporte de Decisiones - SSD, se encuentran en las áreas de
servicio y soporte al cliente, investigación y segmentación de
mercados, análisis estadístico e inventario, entre otras.

Sin embargo, los requerimientos de información son cada vez más


complejos y al utilizar los SSD tradicionales se han encontrado
dificultades para extraer información a partir de las estructuras de
datos presentes actualmente en las bases de datos. Como respuesta
a esta situación surgieron nuevas estrategias de Administración de
Datos, catalogadas también como Soluciones de Inteligencia de
Negocios a las que pertenecen sistemas de Bodegas, Almacenes y
Minería de Datos.

4
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Conceptos de Bodegas de Datos

5
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Conceptos de bodegas de datos


Bodegas de Datos (Data Warehousing)
 Construcción de grandes repositorios integrados de datos que
pueden ser generados internamente o recibidos de fuentes externas,
organizados de tal manera que facilitan el proceso de toma de
decisiones.

 Algunas organizaciones han comenzado a construir repositorios más


pequeños, más fáciles y rápidos de implementar, conocidos como
Almacenes de Datos (Data Marts), que son organizados alrededor de
aplicaciones específicas, como por ejemplo, almacenando los datos
relevantes del área de contabilidad, de producción o de ventas en un
almacén de datos por separado.

Minería de Datos
Proceso analítico diseñado para explorar grandes volúmenes de datos
(generalmente datos de negocio y mercado) con el objeto de descubrir
patrones y modelos de comportamiento o relaciones entre diferentes
variables. Esto permite generar conocimiento que ayuda a mejorar la
6 toma de decisiones en los procesos fundamentales de un negocio.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Inteligencia de Negocios
Dentro del mundo de los negocios y, de las organizaciones en general,
la "Inteligencia de Negocios", es un concepto respaldado por una
nueva manera de hacer las cosas, posible, gracias a los avances de los
Sistemas de Información y de las Tecnologías de Información.
Conocimiento: es el acervo de información utilizado en el proceso de
la toma de decisiones.
Data Warehousing: el proceso de organizar la información en una
forma que crea conocimiento basado en datos. Los productos de
software que presentan este conocimiento a los usuarios se refieren
como Herramientas de Inteligencia de Negocios (Business Intelligence
Tools.)
Gestión de Conocimiento (Knowledge Management) es la
disciplina que busca enfocar el uso de las Tecnologías de Información
en las personas, con el fin de que estas y sus organizaciones aprendan
a utilizar los recursos y fuentes de información para el logro de
objetivos estratégicos.
7
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Conceptos de de bodegas de datos


Extracción, Transformación y Carga - ETL
 Identificar las fuentes.
Hace referencia al proceso de identificación de las fuentes y datos que
harán parte de la bodega o almacén de datos.

 Extracción, transformación y carga (ETL – Extract, Transformation


and Loading).
Definición de las herramientas de extracción de datos desde las
diferentes fuentes, el tiempo y la frecuencia con que los datos deberán
ser cargados en la bodega o almacén de datos.
En la fase de Extracción se utilizan herramientas que facilitan el acceso
y la obtención de datos almacenados en múltiples plataformas y bases
de datos. En la fase de Transformación los datos extraídos son
convertidos de su forma original a la forma que se requiere presentar
para los usuarios de la bodega o almacén de datos. La transformación
involucra la definición de reglas de conversión de los datos y/o
combinación de datos de diferentes fuentes. La Carga, consiste en
8 trasladar los datos transformados a la bodega o almacén de datos.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Conceptos de bodegas de datos


•Modelamiento multidimensional
Conversión de los requerimientos del
usuario en medidas y dimensiones.
La característica mas importante de un
buen modelo de datos es que refleje en
forma precisa el aspecto del negocio
para el cual fue construido.
•Metadatos (datos acerca de los
datos).
Contienen información fundamental
para los usuarios, desarrolladores y
administradores de la bodega de datos:
información disponible, su significado y
como obtenerla; Fuente de datos para
cada item de la bodega de datos, si el
Diagrama de estrella
item es tomado directamente de un
sistema fuente o si es calculado, última
9 actualización del item, etc.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Conceptos de de bodegas de datos

Datos Extracción de Datos Bodega de


Operacionales Datos

•Extraer •Integrada
•Filtrar •Orientada a un
•Transformar tema
•Integrar •Variante en el
•Clasificar tiempo
•Agregar •No volátil

Creación de una bodega de datos

10
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Conceptos de bodegas de datos


• Procesamiento Analítico en Línea (OLAP)
Paralelamente al desarrollo de los sistemas Data Warehouse y
Datamarts, ha surgido un nuevo componente que provee
herramientas avanzadas de análisis de información, y facilita el
acceso a la misma a través de dimensiones, de tal manera que un
mismo dato puede ser analizado bajo distintos puntos de vista. El
análisis de datos a través de diversas dimensiones (cubo) permite
detectar comportamientos y reglas del negocio que no son
fácilmente identificables con los sistemas transaccionales.
Visualización

Producto
po
em
Ubicación Ti

OLAP

Fuentes
Bodega de
Datos •Reportes
•Consultas
•Análisis
Multidimencional

11 Utilización Bodega de Datos

Noviembre de 2006 Alfonso Luque Romero


Bodegas de Datos

Conceptos de bodegas de datos


...Saldos de Por qué la Palabra Cubo ?
cuentas ($$) ( Ejemplo de cubo contable )
s
ía
D
Además:
 Moneda
 Tipo de cuenta
Sucursales

 Etc.

Cuentas PUC

La implementación tecnológica se conoce como OLAP


Literalmente: Procesamiento analítico en línea, Componente clave en
12 Bodegas de datos y sistemas de inteligencia de negocio
Noviembre de 2006 Alfonso Luque Romero
Esquema geométrico
Bodegas de Datos
Esquema geométrico
Hipercubo de 3 dimensiones
Nombre, Nacimiento, Sexo,
Estado civil, CC, Vivienda,
Empleo, Ocupación,
Actividad Economica
Clientes

Ventas:
Moneda
Nombre, Monto $
LineaProducto,
Productos
Monto Unidad
TipoProducto Fecha

• Los ejes del cubo son los temas objeto de


gestión Nombre,
• Los puntos en el cubo son los eventos objeto TipoCanal,
de gestión Canales
Región
de Ventas
13
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Posibles justificaciones
Interés en manejar grandes volúmenes de datos a
través de sistemas tipo DSS ( Sistemas de Soporte a
la toma de Decisiones)
Múltiples y variadas fuentes de información
Información dispersa y no oportuna con una alta
probabilidad de inconsistencias
Altos volúmenes de información no estructurada que
requieren análisis
Dificultad en acceso a la información histórica
Falta de flexibilidad en la manipulación de
información
14
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Configuración recomendada para una


Bodega de Datos Corporativa.

Sistema de Sistema de Sistema de Sistema de


Información 1 Información 2 Información 3 Información N
...

Bodega de Datos Corporativa

Almacén de Almacén de Almacén de Almacén de


Datos 1 Datos 2 Datos 3 Datos N

15
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Etapas
 Definición de requerimientos
 Definición de arquitectura
 Presentación del proyecto
 Análisis de proveedores, Construcción RFP
 Envío RFP
 Evaluación
 Contratación
 Capacitación
 Implementación

16
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Qué son?
En la actualidad hay una importante cantidad de confusión respecto a lo que es un
Data Warehouse que, afortunadamente, está comenzando a despejarse. No
obstante, parece que cada proveedor de un producto o servicio relacionado con
tecnología informática tiene su definición y, lo que es peor, en su propia jerga no
siempre comprensible. Algunos llaman a Datawahouse Business Intelligence o
Decision Support Systems, en realidad es considerada la solución integral y
oportuna para desarrollar las estrategias del negocio. El Datawarehouse se
caracteriza por ser: Integrado - Temático - Histórico - No volatil
Datawarehousing es un proceso, no un producto. Es una técnica para
consolidar y administrar datos de variadas fuentes con el propósito de responder
preguntas de negocios y tomar decisiones, de una forma que no era posible hasta
ahora, consolidar datos desde una variedad de fuentes, manejar grandes
volúmenes de datos de una forma que no era posible, o no era costo efectiva.

A estos medios los agruparemos en Procesamiento y Administración de Datos.


Acceder a los datos de una forma más directa, en "el lenguaje del negocio", y
analizarlos para obtener relaciones complejas entre los mismos. Estos procesos se
engloban en dos categorías que serán explicadas más adelante: Acceso a los
17
Datos y Descubrimiento o Data Mining.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Datawarehousing

Estos desarrollos tecnológicos, correctamente organizados e


interrelacionados, constituyen lo que se ha dado en llamar un Data
Warehouse o Bodega de Datos.

Existen muchas definiciones para el DW, la más conocida fue propuesta


por Inmon (considerado el padre de las Bases de Datos) en 1992: "Un DW
es una colección de datos orientados a temas, integrados, no-volátiles y
variante en el tiempo, organizados para soportar necesidades
empresariales". En 1993, Susan Osterfeldt publica una definición que sin
duda acierta en la clave del DW: "Yo considero al DW como algo que
provee dos beneficios empresariales reales: Integración y Acceso de datos.
DW elimina una gran cantidad de datos inútiles y no deseados, como
también el procesamiento desde el ambiente operacional clásico".

18
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Características de las Bodegas de Datos

Por definición, las Bodegas de Datos son bases de datos caracterizadas por
ser:

•Integradas: porque consolidan y centralizan datos derivados de toda la


organización.

•Orientadas a un tema particular: ya que los datos que contienen, están


organizados por temas, totalizados y optimizados para dar respuestas a
preguntas de diversas áreas funcionales de la organización.

•Variantes en el tiempo: porque contrario a las Bases de Datos


Operacionales que se centran en los datos actuales, las Bodegas de Datos
representan el flujo de información a través del tiempo.

•No volátiles: Una vez que los datos son almacenados, estos nunca son
removidos pues representan la historia de la organización.

19
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Características de las Bodegas de Datos

Datos Operacionales

Extracción de Datos

Bodega de Datos

Extraer
— Filtrar
— Transformar * Integrada
— Integrar * Orientada a un tema
— Clasificar * Variante en el tiempo
— Agregar * No volátil
Totalizar

20
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Características de las Bodegas de Datos
Característica Datos en la Base de Datos Operacional Datos en la Bodega de Datos
Integrada Datos similares pueden tener diferentes Proveen una vista unificada de todos los datos con una
representaciones o significados. Por ejemplo, un definición y representación comunes para todas las
número telefónico puede ser almacenado como: #- áreas del negocio.
###### o como
#-###-###, y una condición puede ser
representada como F/V, 0/1 o S/N. Los valores
pueden ser mostrados en miles o en millones.
Orientada a un Los datos son almacenados con una orientación Los datos son almacenados con una orientación por
tema particular funcional o por proceso. Por ejemplo, los datos temas que facilita múltiples vistas de los datos y la toma
pueden ser almacenados para facturas, pagos, de decisiones. Por ejemplo, las operaciones pueden ser
créditos y demás. registradas por cuenta, por área, por gerente o por
sucursal.
Variante en el Los datos son almacenados como transacciones Los datos son registrados con una perspectiva histórica.
tiempo actuales. Por ejemplo, los datos de ventas pueden Por consiguiente, una dimensión de tiempo es
ser la venta de un producto en una fecha adicionada para facilitar los análisis de datos y las
determinada, como $3’500.000 en Noviembre 15 de comparaciones en el tiempo.
2004.
No volátiles Las actualizaciones de datos son frecuentes y Los datos no pueden ser cambiados. Los datos son
comunes. Por ejemplo, los cambios en las adicionados periódicamente desde los sistemas
cantidades de un inventario cambian con cada transaccionales. Una vez que los datos son almacenados
venta. Por consiguiente el ambiente de datos es apropiadamente, no se permiten cambios. Por lo tanto
21 fluido. el ambiente de datos es relativamente estático
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Data Mining

Datamining es una tecnología de soporte para usuario final, cuyo objetivo


es extraer conocimiento útil y utilizable a partir de la información contenida
en las bases de datos de las empresas.

Los objetivos de un sistema Datamining nos permitirían analizar factores


de influencia en determinados procesos, predecir o estimar variables o
comportamientos futuros, sementar o agrupar ítems similares, además de
obtener secuencias de eventos que provocan comportamientos específicos.
Los sistemas Datamining se desarrollan bajo lenguajes de ultima
generación basados en la inteligencia artificial y utilizando métodos
matemáticos, tales como:

•Redes neuronales
•Introducción de reglas
•Arboles de decisión
•Conjunto de reglas por clase
Soporta tambien sofisticadas operaciones de análisis tales como los
22 sistemas Scoring y aplicaciones de detección de fraude.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Paradigmas

Bill Inmon's paradigm: Data warehouse is one part


of the overall business intelligence system. An
enterprise has one data warehouse, and data marts
source their information from the data warehouse. In
the data warehouse, information is stored in 3rd
normal form.
Ralph Kimball's paradigm: Data warehouse is the
conglomerate of all data marts within the enterprise.
Information is always stored in the dimensional
model.

23
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
ETL (Extraction, Transformation and Load - Extracción, Transformación y
Carga)

•La fase de Extracción de Información utiliza herramientas que facilitan


el acceso y la extracción de datos almacenados en múltiples plataformas y
bases de datos (SQL Server, DB2, Informix, Sybase, Oracle, etc.) que
permiten interpretar y definir de forma sencilla las reglas de negocio
necesarias para la transformación de los datos de información.

•La fase de Transformación consiste en el proceso de convertir los datos


a formatos consistentes.

•La fase de Carga automatiza las tareas de preparación de la información


para un análisis eficiente, que garantiza al usuario un acceso eficiente a los
datos y le permite generar sus propias consultas.

24
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Inteligencia de Negocio
Integrada (Solución basada en
ORACLE 10g)
Herramienta de
Fácil Uso
para Usuarios
de Negocio

Implementación
Flexible &
Escalabilidad

Administración
Intuitiva

25 OLTP DW OLAP
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Editor : Flujo de Datos

26
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Editor : Flujo de Procesos

27
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
DDL

28
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
OLAP y Sistemas de Soporte de Decisiones

El uso de herramientas para la Administración de Información, que


incluyen gestores de las Bodegas y Almacenes de Datos (Data Warehouse),
garantiza la integridad y oportunidad de los datos. Paralelamente al
desarrollo de estas herramientas, ha surgido un nuevo componente de los
Sistemas de Soporte de Decisiones llamado Sistema De Procesamiento
Analítico En Línea (OLAP) que provee herramientas avanzadas de
análisis de datos (como análisis de datos multidimensional) para extraer
información de datos almacenados en una bodega de datos.

Las herramientas de Sistemas de Soporte para la Decisión,


enumeradas por su complejidad creciente, son utilizadas actualmente con
mayor frecuencia como apoyo a la toma de decisiones estructuradas, semi-
estructuradas y no estructuradas:

•Sistemas de Procesamiento de Transacciones (TPS): sistemas que


procesan las actividades operacionales cotidianas y rutinarias de la
organización se componen de varios ciclos de sistemas interconectados
29 entre si.
Noviembre de 2006 Alfonso Luque Romero
—
Bodegas de Datos
Sistemas de Soporte de Decisiones
•Sistemas de Información Gerencial (MIS): sistema integrado usuario-
máquina para proveer información pasada, presente o proyecciones de ésta,
relacionada con las operaciones internas, la administración y las funciones
de toma de decisiones de una organización y su medio ambiente. Incorpora
otras herramientas basadas en conocimiento, como los TPS, MRS, DSS, OIS.

Sistemas de Soporte a la Decisión (DSS): sistema que proporciona


información relevante a ejecutivos, para tomar decisiones de tareas
semiestrucutradas. Se caracterizan por su interactividad, frecuencia de uso,
variedad de usuario, flexibilidad, desarrollo, interacción ambiental,
comunicación interorganizacional, acceso a bases de datos y simplicidad.

Sistemas Expertos (ES): sistemas que modelan el comportamiento de un


experto humano que cumple con la tarea de resolver problemas para los que
no se dispone de un algoritmo. Son sistemas interactivos que permiten la
creación de bases de conocimiento, para responder preguntas, despejar
dudas y sugerir cursos de acción simulando el proceso de razonamiento de
un humano para resolver problemas en un área específica del conocimiento
30 humano.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Sistemas de Soporte de Decisiones
•Sistemas de Información Ejecutivos (EIS): sistema orientado a datos
que proporciona información a través de una interfase amigable para ayudar
a los ejecutivos a mejorar el manejo de su planeación, monitoreo y análisis
de sus procesos.

•Redes Neuronales (NN): sistema de procesamiento de datos que simula


funciones elementales de la red nerviosa del cerebro humano, para
identificar la información relevante sobre una gran cantidad de datos,
explicando el fenómeno o proceso que ha generado esos datos. Este sistema
de inteligencia artificial desarrolla las funciones de un experto en un tema,
capaz de enfrentarse con gran eficacia a nuevas situaciones e imaginando
soluciones que no formaron parte de su proceso de entrenamiento.

•Automatización de Oficinas (OA): sistema que permite implementar


técnicas para incrementar los niveles de productividad y eficiencia en los
flujos de trabajo del personal administrativo, a través de múltiples
tecnologías (datos, voz, imagen), que dan apoyo a una amplia gama de
aplicaciones (procesamiento de información, comunicaciones, etc.).
31
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Riesgos asociados a la calidad de la información (COBIT)

Estos riesgos pueden ser analizados teniendo en cuenta los siguientes


criterios de calidad de la información: Efectividad, Eficiencia,
Confidencialidad, Integridad, Disponibilidad, Cumplimiento, y
Confiabilidad.

•Desde el punto de vista de la Efectividad, es necesario validar que existe


la necesidad de una solución de este tipo para la organización y asegurar
una participación activa tanto de los usuarios finales como de la alta
administración en el desarrollo del proyecto, en particular, en el desarrollo
de las actividades de modelación de los datos. Asimismo, se debe tener
claridad acerca de la naturaleza de las fuentes de datos y efectuar una
depuración de los datos antes de cargarlos en las Bodegas o Almacenes de
Datos. Otras actividades relacionadas con este criterio tienen que ver con
obtener la capacidad de distribuir la información relevante a quienes la
requieran (lo cual debe tenerse en cuenta desde la etapa de desarrollo), y
con la selección del hardware, software y las herramientas de análisis
apropiadas, de manera que se obtenga una arquitectura que no solo
32 atienda las necesidades iniciales de almacenamiento y acceso sino que sea
Noviembre de 2006 Alfonso Luque Romero
escalable en el tiempo.
Bodegas de Datos

Riesgos asociados a la calidad de la información (COBIT)

33
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Riesgos asociados a la calidad de la información

En relación con el criterio de Eficiencia, se deben tener en cuenta los


costos de almacenamiento asociados al crecimiento permanente de las
Bodegas de Datos. También se debe tener en cuenta que los usuarios
requieren acceder tanto a los datos históricos como a los datos totalizados
y en algún momento en el tiempo los datos históricos pueden llegar a ser
menos relevantes y por lo tanto menos accedidos. En este aspecto es
necesario implementar mecanismos para monitorear el uso real de las
bodegas de datos para la consulta de información histórica o totalizada.
Otro factor a tener en cuenta dentro de este criterio es el tiempo de
respuesta, por lo que es necesario monitorear el consumo de recursos de
la Bodega de Datos por parte de las consultas diseñadas por los usuarios.

Respecto a la Confidencialidad es necesario considerar que como las


Bodegas y Almacenes de Datos contienen una gran cantidad de datos
sensitivos es importante proteger estos datos de fugas de información ya
sea que estas se den en forma intencional o no intencional. Por lo tanto, es
necesario implementar controles de acceso sobre los datos que restrinjan
34 quien puede acceder a la Bodega de Datos y que información puede
Noviembre de 2006 Alfonso Luque Romero
consultar.
Bodegas de Datos
Riesgos asociados a la calidad de la información

Un factor adicional que puede aumentar los riesgos asociados a la


Confidencialidad es el hecho de proveer acceso a través de Internet a
las Bodegas de Datos, en este sentido los controles externos como
firewalls, vistas de bases de datos y controles de acceso por sesión pueden
no ser suficientes y de cualquier forma la información debe estar
encriptada para brindar un nivel de seguridad adecuado. Una estrategia
para resolver esto, puede ser la separación de la información de acuerdo al
nivel de sensibilidad para efectos de las consultas por parte de los
usuarios. Es importante resaltar que la seguridad de las Bodegas y
almacenes de datos es responsabilidad primaria del administrador quien
debe velar por que las políticas de seguridad y los mecanismos de auditoría
implementados en las Bodegas de Datos sean adecuados.

35
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Riesgos asociados a la calidad de la información

La Integridad es otro de los criterios de calidad de la información a tener


en cuenta y para cumplir con él es necesario elaborar un modelo de datos
bien diseñado así como crear cuidadosamente los metadatos asegurando
que estos sean precisos y completos. Teniendo en cuenta que la integridad
se refiere tanto a la exactitud como a la validez de la información, es
necesario revisar si los procesos del negocio en algún momento pueden
comprometer la integridad de la información. Adicionalmente, es necesario
depurar bien la información antes de cargarla en las Bodegas o Almacenes
de Datos. Si al efectuar la depuración de los datos se encuentra que estos
son ocasionados por fallas en el sistema de información transaccional, es
necesario corregir estas fallas en el sistema antes de tomar los datos como
fuente de información para la Bodega de Datos. Asimismo es necesario
establecer procedimientos para actualizar los metadatos de la Bodega de
datos en caso de presentarse cambios sobre la estructura de datos de la
base de datos en el sistema de información original. Por último se requiere
establecer procedimientos de actualización para asegurar que exista
integridad entre los datos de origen y los valores derivados como resultado
36 de una totalización.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Riesgos asociados a la calidad de la información
En lo que se refiere a Disponibilidad, y en la medida en que los Sistemas de
Administración se convierten en un recurso estratégico y crítico para la
organización es necesario asegurar su disponibilidad a través de procedimientos
de respaldo y de recuperación adecuados. Sin embargo y teniendo en cuenta
los altos volúmenes de información que estos sistemas almacenan es necesario
efectuar análisis para determinar la frecuencia óptima para efectuar los
respaldos así como el método más eficiente para la actualización de los datos.
Al determinar las necesidades de respaldo se debe tener en cuenta que a
diferencia de los sistemas de información transaccionales, los sistemas de
Bodegas de Datos contienen datos históricos que no varían en tiempo real, y la
frecuencia dependerá de las necesidades específicas de los usuarios finales. En
cuanto al método de actualización existen dos alternativas: copiar toda la
información en una sola transacción, o copiarla por lotes, esto dependerá del
volumen de información y de los recursos disponibles para efectuar la carga de
información.

37
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Riesgos asociados a la calidad de la información
En cuanto al Cumplimiento con leyes y regulaciones internas o externas se
debe prestar atención en lo que tenga que ver con el tratamiento de la
información y su propiedad, confidencialidad y distribución.

Por último, y en lo que respecta al criterio de Confiabilidad es importante que


la alta administración comprenda el significado, origen y confiabilidad de los
datos almacenados en las Bodegas de Datos para que estos puedan servir
como base para construir modelos y desarrollar análisis que soporten
decisiones estratégicas.

38
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Objetivos

 Indicadores de resultados ( áreas más rentables )

 Descongestionar módulos de reportes y consultas


de los sistemas.

 Facilitar las labores de análisis, verificación y


seguimiento de las operaciones

 En el mediano plazo, consolidar información


proveniente de diversas aplicaciones

 Minería de datos

39
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Objetivos
Centralización de la Información
 Eliminar duplicidad en la información.
 Disminuir la operatividad en la búsqueda, acceso y
procesamiento de la información.
 Disminuir el tránsito de la información a través de medios
alternos como el correo electrónico y el teléfono.
 Proveer mayor capacidad de almacenamiento histórico.
 Estandarizar el acceso y el almacenamiento de la
información.
 Ofrecer mayor seguridad, confiabilidad y confidencialidad
de la información.
 Racionalizar el uso de los recursos (computadores,
correo…).
 Implementar esquemas confiables de contingencia y
40
respaldo de la información.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Metodología para la implantación
 Realización de los requerimientos:
 Definición del nombre del requerimiento
 Descripción:
 Fuentes de información
 Variables que se van a cargar en la bodega de datos.
 Proceso de cargue inicial y actualización de la
información.
 Visualización de la información.
 Seguridad tanto en la autorización para la publicación en
Internet como en los permisos de consulta de la
información.

 Verificación y actualización del requerimiento.

 Desarrollo del requerimiento en el sistema.


41
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Roles

PM - Project Manager FEM - Front End Manager


DWAR - DWH Architect DSA - Decision Support
Analyst
BEM - DWH Back End Manager DSP - Decision Support
Programmer
DWP - DWH Programmer DWA - Data Warehouse
Auditor
DBA - Data Base Administrator SA - System Administrator
DA - Data Administrator SE - Security Manager

42
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Selección de CONCT como marco de


referencia
CONCT fue publicado por ISACA como parte de las
publicaciones relacionadas con la aplicación de COBIT

Al conocer el marco de referencia se encuentran objetivos de


control específicos para las actividades asociadas a la
implementación y uso de Bodegas de Datos

Por otra parte, CONCT provee guías de control detalladas para


cada una de las actividades inherentes a las tecnologías de
Bodegas de Datos, Internet y Sistemas de Procesamiento de
Transacciones en Línea muy útiles para la implantación y
análisis de riesgos sobre estas tecnologías.

43
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Modelos de referencia
Objetivos de control propuestos en los marcos de
referencia CONCT (Control Objectives for Net Centric
Technology y COBIT (Control Objectives for
Information Technology) y un estudio realizado por el
Instituto de Auditores Internos (The Institute of Internal
Auditors Research Foundation) acerca de la
implementación de Sistemas de Bodegas de Datos.

44
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Introducción a CONCT (Control Objectives for


Net Centric Technologies)

45
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
CONCT (Control Objectives for Net Centric Technologies)

•CONCT es un marco de referencia que consta de 4


volúmenes y fue publicado por ISACF (Information
Systems Audit and Control Foundation) en 1999, para
la aplicación efectiva de TI sobre las bases de
conocimiento, metas y monitoreo de una organización.

•Dirigido principalmente a organizaciones que


requieren mayor gobernabilidad en sus ambientes de
cómputo distribuidos.

•Los objetivos de control incluidos en CONCT advierten a la alta


gerencia, los usuarios y entes de control acerca de cuales controles
es necesario implementar dentro de la organización y dentro del
extenso y complejo ambiente de comunicaciones a nivel global
dentro del cual operan.

46
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
CONCT (Control Objectives for Net Centric Technologies)
•Para los sistemas de procesamiento tradicionales la ubicación del
hardware (incluyendo el software instalado y los datos almacenados en él)
se consideró el factor más crítico, para la Tecnología Centrada en Red lo
es la red en sí misma.
•Mientras el hardware y la plataforma de red tengan la capacidad
suficiente y estén debidamente enlazados, la ubicación real del hardware
no es una preocupación. Por el contrario, sí lo es el contenido de la
información o los objetos que fluyen a través de la red.
•La implementación de Tecnología Centrada en Red debe ser económica,
efectiva y eficiente, con la suficiente confiabilidad y seguridad, y debe
cumplir los requerimientos gerenciales de la organización.
•Los objetivos de control para la Tecnología Centrada en Red se enfocan
en las siguientes actividades:
· Intranet/Extranet/Internet (Web)
· Data Warehouses
· OLTP Processing Software
47
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
CONCT (Control Objectives for Net Centric Technologies)

*1 Enterprise Governance Model issued by


IFAC covers Business Organizational
Communication
*2 General IT Control is covered by Control
Objectives for Information and related
Technologies (CoBIT) issued by ISACF

48
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
CONCT (Control Objectives for Net Centric Technologies)

Controles de seguridad
El proceso de evaluación de los controles de seguridad de los
servicios de distribución comprende 3 criterios de evaluación:
confidencialidad, integridad y disponibilidad

•Confidencialidad: revelación autorizada de la información


•Integridad: validación de la información y protección contra
modificación no autorizada
•Disponibilidad: asume que los recursos de información son
accesibles a los usuarios autorizados cuando estos lo requieran
Cuando se evalua la seguridad en el nivel de los servicios de
información, el entendimiento del objeto del negocio es esencial. El
control del negocio, los objetos del negocio y la tecnología de la
información aplicada a los objetos, determinan el nivel de control
requerido.
49
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Análisis de riesgos asociados a los


sistemas de bodegas de datos

Los Sistemas de bodegas de datos están


expuestos a varios riesgos y amenazas los cuales
fueron analizados teniendo en cuenta los
objetivos de control asociados a los criterios de
calidad de la información propuestos por COBIT:
Efectividad, Eficiencia, Confidencialidad,
Integridad, Disponibilidad, Cumplimiento y
Confiabilidad.

50
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Análisis de riesgos asociados a los


sistemas de bodegas de datos
Efectividad: Este criterio establece que la información
almacenada en la bodega o almacén de datos debe ser relevante
para los procesos del negocio y distribuida de manera oportuna,
correcta y consistente.

Bajo este criterio, es necesario validar que existe la necesidad de


una solución de este tipo para la organización y que el proyecto
cuenta con el respaldo y participación de la alta administración, del
personal de Tecnología de Información y de los usuarios finales
quienes cumplen un papel primordial en la modelación de los datos.
Así mismo, se requiere analizar y validar la apropiada selección y
adquisición de los recursos de hardware y software requeridos de
manera que se obtenga una arquitectura que no solo atienda las
necesidades iniciales de almacenamiento y acceso de la
información sino que sea escalable en el tiempo.

51
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Análisis de riesgos asociados a los


sistemas de bodegas de datos
Eficiencia:
Este criterio concierne al suministro de la información de la bodega o
almacén de datos a través del uso óptimo (mas productivo y
económico) de los recursos de Tecnología Informática.
El uso óptimo de los recursos es un factor crítico en la
implementación y uso de una bodega de datos teniendo en cuenta los
altos costos en infraestructura, operación y administración de este tipo
de soluciones.
Se deben tener en cuenta los costos de almacenamiento asociados
al crecimiento permanente de la Bodega o almacén de Datos, así
como los requerimientos de acceso por parte de los usuarios a los
datos históricos, totalizados, los cuales en un momento dado pueden
llegar a ser mas o menos relevantes y por lo tanto mas o menos
accedidos, por lo que se hace necesario implementar mecanismos
para monitorear el uso real de la bodega o almacén de datos.
Así mismo, es importante tener en cuenta dentro de este criterio el
tiempo de respuesta, por lo que es necesario monitorear el consumo
de recursos de la Bodega de Datos.
52
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Análisis de riesgos asociados a los


sistemas de bodegas de datos
Confidencialidad:
Este criterio se refiere a la protección de la información sensible
para asegurar que no sea revelada de forma no autorizada.

Teniendo en cuenta la gran cantidad de datos sensitivos que se


almacenan en una bodega o almacén de datos, y la posibilidad de
que estos sean publicados a través de Internet existe el riesgo de
fugas de información o acceso no autorizado; por esto, es
necesario establecer mecanismos de protección y control de
acceso adecuados como Firewalls, creación de vistas de bases
de datos, control de sesión, entre otros, que pueden ser
reforzados utilizando mecanismos de encripción.

53
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Análisis de riesgos asociados a los


sistemas de bodegas de datos
Integridad:
Se refiere a salvaguardar la completitud y precisión de la información y de
los métodos de su procesamiento.
Dado que la información de la bodega de datos proviene de diversas
fuentes, cualquier deficiencia que éstas presenten puede generar
inconsistencias en la información que se cargue.
Así mismo, como la información es sometida al proceso ETL, su exactitud
y validez pueden verse comprometidas durante la ejecución de estos
procesos.
Para preservar la integridad de la información, es necesario: garantizar la
precisión y completitud en el diseño del modelo de datos y metadatos,
revisar que los procesos del negocio no comprometan la integridad de la
información, depurar la información antes de cargarla en la bodega o
almacén de datos, establecer procedimientos para actualizar los metadatos
en caso de presentarse cambios en las fuentes de datos y establecer
procedimientos de conciliación para asegurar que exista integridad entre
54 los datos de origen y los valores resultantes del proceso ETL.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Análisis de riesgos asociados a los


sistemas de bodegas de datos
Disponibilidad:

Este criterio se refiere al hecho de que la información pueda ser


accedida en el momento en que se requiera por los procesos del
negocio; así como a la salvaguarda de los recursos de
tecnología que soportan el sistema.

Bajo este criterio, es necesario estimar el impacto que fallas en


la operación de la infraestructura instalada para soportar la
bodega de datos puedan generar sobre la accesibilidad a la
información y establecer los mecanismos de respaldo y
recuperación adecuados.

55
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Análisis de riesgos asociados a los


sistemas de bodegas de datos

Cumplimiento: Este criterio hace referencia a la necesidad de


que la información cumpla con las leyes, normas y arreglos
contractuales que regulen su utilización.

Bajo este criterio, se debe considerar toda la normatividad interna


o externa que establezca el tratamiento que se le debe dar a la
información en cuanto a su propiedad, confidencialidad,
publicación y distribución.

56
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Análisis de riesgos asociados a los


sistemas de bodegas de datos
Confiabilidad:
Se refiere a la confianza que debe ofrecer la información cargada
en la bodega de datos para que sirva como base en la construcción
de modelos y el desarrollo de análisis que soporten decisiones
estratégicas por parte de la administración.

Estecriterio resalta la necesidad de que los usuarios puedan


comprender el significado, origen y confiabilidad de los datos
almacenados en la Bodega o almacén de Datos. Este objetivo
puede ser alcanzado al crear y mantener un repositorio de
metadatos accesible para los usuarios finales.

Otro aspecto relacionado con este criterio, se refiere a los modelos


de decisión construidos por los usuarios, los cuales deben ser
documentados (consideraciones y formulaciones contenidas) y
probados exhaustivamente antes de empezar a confiar en ellos.
57
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Criterios de Efectividad y Eficiencia
CRITERIO DE CALIDAD DE LA CONSIDERACIONES EN LA IMPLEMENTACIÓN PARA LA MITIGACION DE LOS RIESGOS DE PERIDAD DE LA
INFORMACION CALIDAD DE LA INFORMACION
Bajo estos criterios, se deben •Asegurar una participación activa tanto de los usuarios finales como de la alta administración en el
considerar los siguientes Objetivos desarrollo del proyecto, y en particular, en las actividades de modelación de los datos.
de Control:
• Identificar las fuentes de datos y su naturaleza y efectuar una depuración antes de cargarlos en las
1. Validar que existe la necesidad Bodegas o Almacenes de Datos.
de una solución de este tipo para la
organización y que el proyecto • Seleccionar los recursos de hardware y software necesarios para obtener una arquitectura segura,
cuente con el respaldo y ágil, flexible y escalable en el tiempo y que brinde mayor eficiencia, seguridad y oportunidad a los
participación de la alta usuarios de la información.
administración, las áreas usuarias y
el personal de Tecnología de •Realizar un estimativo de los costos de almacenamiento en que se puede incurrir como resultado del
Información. permanente crecimiento de la bodega de datos.

2. Verificar el uso óptimo de los •Monitorear el uso de la bodega de datos para asegurar que la capacidad instalada responde a las
recursos como un factor crítico en necesidades reales de almacenamiento, consulta de información (histórica, totalizada, etc.).
la implementación y uso de una
bodega de datos teniendo en • Establecer procedimientos de afinamiento para mejorar el desempeño del sistema.
cuenta los altos costos en
infraestructura, operación y • Definir y documentar las actividades específicas del administrador de la bodega de datos.
administración de este tipo de
soluciones. • Implementar mecanismos de documentación y actualización de los cambios en la configuración de
la red que afecten el desempeño de bodega de datos.
3. Obtener una arquitectura que no
solo atienda las necesidades
iniciales de almacenamiento y
acceso sino que sea escalable en
el tiempo mediante una adecuada
selección del hardware, software.

58
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Criterios de Confidencialidad y Disponibilidad


CRITERIO DE CALIDAD DE LA CONSIDERACIONES EN LA IMPLEMENTACIÓN PARA LA MITIGACION DE LOS RIESGOS DE PERDIDA DE
INFORMACION LA CALIDAD DE LA INFORMACION

Bajo estos criterios, se deben considerar • Incluir en la arquitectura del sistema mecanismos de redundancia para brindar un nivel
los siguientes Objetivos de Control; satisfactorio de tolerancia a fallas.

1. Fugas de información o acceso no • Fijar controles como Firewalls, creación de vistas de bases de datos, control de sesión que
autorizado a los datos sensitivos que se pueden ser reforzados utilizando mecanismos de encripción
almacenan en la bodega de datos. Es
importante recalcar que los riesgos de • Separar la información de acuerdo al nivel de sensibilidad y establecer mecanismos de
confidencialidad se incrementan aun protección y control de acceso adecuados para prevenir posibles fugas de información.
más por la tendencia a publicar la
información de las bodegas de datos a • Velar por que las políticas de seguridad y los mecanismos de auditoría implementados en las
través de Internet. Bodegas de Datos sean adecuados.

2. Impacto que eventuales fallas • Implementar procedimientos eficientes de carga, respaldo y recuperación de la información,
puedan generar sobre el acceso a la teniendo en cuenta el tipo de información a cargar, conservar, y el momento y la frecuencia
información almacenada en la óptima para su ejecución.
bodega de datos

59
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos
Criterio de Integridad y Confiabilidad
CRITERIO DE CALIDAD DE CONSIDERACIONES EN LA IMPLEMENTACIÓN PARA LA MITIGACION DE LOS RIESGOS DE PERIDAD DE LA CALIDAD
LA INFORMACION DE LA INFORMACION

Bajo estos criterios, se • Asegurar que el modelo de datos ha sido elaborado siguiendo los estándares de diseño de bases de datos, y
deben considerar los que se ajuste a las necesidades de información planteadas y definir los procedimientos para mantenerlo
siguientes Objetivos de actualizado y documentado incluyendo las fuentes de datos, las convenciones de nombres, tablas principales,
Control: y cambios futuros.

1. Deficiencias en la • Verificar la existencia de procedimientos para la documentación y actualización de los metadatos


exactitud y validez de la incluyendo la transformación de la información, la asociación entre los datos fuente y destino y la secuencia
información originadas de extracción de la información, etc.
por la diversidad de
fuentes de información y • Garantizar que los metadatos reflejen en forma precisa los aspectos del negocio para los cuales fueron
la ejecución de los construidos y mantener un repositorio de metadatos comprensible y disponible para los usuarios
procesos de extracción,
transformación y carga. • Verificar que los procesos del negocio no comprometen la integridad de la información a almacenar en la
bodega de datos.
2. Confianza que debe
ofrecer la información • Definir procedimientos de conciliación para garantizar que exista integridad entre los datos de origen y los
cargada en la bodega valores cargados en la bodega de datos.
de datos para que sirva
como base en el análisis y
construcción de modelos
que soporten decisiones
estratégicas por parte de
la administración.

60
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Criterio de Cumplimiento
CRITERIO DE CALIDAD DE LA INFORMACION CONSIDERACIONES EN LA IMPLEMENTACIÓN PARA LA MITIGACION
DE LOS RIESGOS DE PERDIDA DE LA CALIDAD DE LA INFORMACION

Bajo este criterio se deben considerar aspectos •Identificar aquellas leyes, regulaciones y arreglos
relacionados con Leyes y regulaciones internas o externas contractuales a los cuales esta sujeto el negocio en
que afecten el tratamiento que se le debe dar a la términos de administración de la información.
información en cuanto a su propiedad, confidencialidad
y publicación. •Monitorear el surgimiento de nuevas disposiciones acerca
del carácter legal de la información, la propiedad de los
datos, el derecho a recolectarlos, y la manera de utilizarlos.

61
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Conclusiones
•La implementación de una solución de Bodegas de Datos debe
ser una decisión basada en un análisis exhaustivo de la
necesidades reales de información de la organización teniendo en
cuenta los principios de las Bodegas de Datos establecidos por
definición y comparándolos contra los mecanismos de consulta
de los que disponga actualmente la organización.
•La implementación se facilitará en la medida en que se constituya
en un proyecto que tenga en cuenta el ciclo de vida de las
Bodegas de Datos para la asignación de recursos técnicos y
humanos y de la asignación de responsabilidades para cada uno
de los roles establecidos.
Modelos de referencia como CONCT u otros estudios de
referencia sobre el tema de Bodegas de Datos son fuentes de
consulta valiosas no solo para entender las características
técnicas de las Bodegas da Datos sino también para conocer los
aspectos de operación, seguridad y control que se deben tener en
62
cuenta pre y post implementación.
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Bibliografía
•Control Objectives For Net-Centric Technologies, ISACF, 1999
•Cobit , ISACA
•Data Warehousing and Data Mining: Opportunities for Internal Auditors, David,
Julie S. & Steinbart, Paul J., Florida, 2000, The Institute of Internal Auditors Research
Foundation
•Decision Support Systems and Intelligent Systems, Turban, Efraim & Iroson, Jack E.,
1998, Prentice Hall.
•Database Systems, Design, Implementation and Management, Rob, Peter & Coronel,
Carlos, 2000, USA, Thomson Learning.
.

63
Noviembre de 2006 Alfonso Luque Romero
Bodegas de Datos

Referencias
•La Inteligencia de Negocios, Silvia Roque Moranchel, Marzo 2001,
Gestiópolis.com
•http://www.gestiopolis.com/recursos/documentos/fulldocs/ger/busint.htm
•Webopedia.com
http://www.webopedia.com

64
Noviembre de 2006 Alfonso Luque Romero

You might also like