You are on page 1of 51

FACULTAD DE

CIENCIAS E
INGENIERÍA
-
INGENIERÍA INDUSTRIAL

ANÁLISIS Y DISEÑO DE SISTEMAS

Sesión 13 – Inteligencia de Negocios (Business


Intelligence)

Ing. Alessio Sibille Villaorduña


1
“Pensar es el trabajo más difícil que
existe. Quizá sea ésta la razón por la
que haya tan pocas personas que lo
practiquen”

Henry Ford

2
BUSINESS INTELLIGENCE (BI)

3
Inteligencia de Negocios
• “Conjunto de actividades involucradas en la obtención, gestión, y
análisis de datos para producir información a ser distribuida a los
miembros de una organización, para mejorar su toma de
decisiones” - Brackett, 1999

• “Business Intelligence se refiere al proceso de convertir datos en


conocimiento y conocimiento en acciones para crear la ventaja
competitiva del negocio” - The Data Warehousing Institute

• “Una decisión es la acción que un ejecutivo debe tomar cuando la


información es tan incompleta que la respuesta no es obvia por si
misma” - A. W.Radnor

4
Necesidades de Información

Estrategias de Inteligencia de Negocios

Alta Dirección
Estratégica

Gerentes
Táctica

Todos
Operacional

5
El proceso de la toma de Decisiones

Información Gerencial
OLAP
Herramientas para el
Estrategia
apoyo al análisis y toma
de decisiones

OLTP
Herramientas para el
manejo Día a Día
transaccional de la
información
Información Operativa

6
Situación a resolver con BI

Sistemas de Apoyo a toma


de decisión
(Ambiente de Gestión)

Sistemas de Apoyo a funciones


del negocio
(Ambiente Operacional)
7
Situación a resolver con BI

Fuente de Usuarios de
información negocios
O
P
E G
R E
A S
C T
I I
O O
N N
A
L

8
Situación a resolver con BI
Frustración de los ejecutivos debido a ...

• Desfase entre disponibilidad de la información y su


oportunidad de ejecución comercial

• No soportan visión global de la empresa

• Inconsistencia de la Información

• El contexto histórico de la información no está


disponible

• No pueden hacerse preguntas complejas


9
Objetivos y Desafíos de una Solución BI
Objetivos:
• Información consolidada
• Calidad de información
• Proveer datos históricos y con detalle
• Realizar consultas ad hoc & análisis sofisticado
• Tiempos de respuesta casi instantáneos

Desafíos:
• Escalabilidad (Volumen de datos, número de usuarios)
• Rendimiento
• Flexibilidad
• Fuentes de datos heterogéneas

10
Esquema General de una solución BI

Ventas
Datos Externos
C
(Excel, Word, o
etc.)
n Finanzas
v
Data
e Warehouse
r
Recursos
s Humanos
Aplicaciones
(Sql Server,
i
Oracle, ó
ERP, GGHH,
Etc.) n Produc-
ción

Ambiente Data
Operacional Mart 11
Esquema Técnico General de una solución BI

Datawarehouse

Extracción,
Limpieza y
carga de datos
Ventas Proyectos
Obras Consultas,
Reportes,
Análisis.
Datos Otros Compras
Operacionales
y Externos

12
Conceptos de Bases de Datos y DW

13
Bases de Datos y su uso
OBJETIVO:
Uso de Datos para el Soporte en la Toma de
Decisiones de la empresa.

 Generalmente, la información que se quiere investigar sobre un


cierto dominio de la organización se encuentra en bases de datos
y otras fuentes muy diversas, tanto internas como externas.

 Muchas de estas fuentes son las que se utilizan para el trabajo


diario (bases de datos operacionales o transaccionales).

14
Bases de Datos y su uso …
 Las propias bases de datos de trabajo se pueden utilizar para
extraer conocimiento actual e histórico.

 Uso de la base de datos transaccional para varios cometidos:

 Se mantiene el trabajo transaccional diario de los sistemas de


información originales (conocido como OLTP, On-Line
Transactional Processing).

 Se hace análisis de los datos en tiempo real sobre la misma


base de datos (conocido como OLAP: On-Line Analytical
Processing).

15
Problema con las Bases de Datos
Relacionales
 Sin embargo… el uso de consultas complejas perturba el trabajo
transaccional diario de los sistemas de información originales (“killer
queries”).

 Sistemas con datos replicados (consistencia)

 Se debe hacer en períodos restringidos (por la noche o en fines


de semana).

 Las bases de datos transaccionales (relacionales) están diseñada


para el trabajo transaccional, no para el análisis de los datos.

16
Bodegas de Datos

 Se desea operar eficientemente con esos datos... Teniendo en


cuenta además que los costos de almacenamiento masivo y
conectividad se han reducido drásticamente en los últimos años…

 Parece razonable recoger los datos (información histórica) en un


sistema separado y específico.

NACE EL DATAWAREHOUSING!

 DataWarehouses (Almacenes o Bodegas de Datos).

17
¿Que es DataWarehousing?

… Es una colección
de tecnologías de
apoyo a las
decisiones, cuyo
objetivo es habilitar al
trabajador con
conocimientos para la
toma de mejores y
más rápidas
decisiones…

18
DataWarehouse es :

 Orientada a un objetivo (subject-oriented),


 Integrada,
 Temporal (Variada sobre el tiempo),
 No volátil,
 Es una colección de datos que es usada para el apoyo de
decisiones organizacionales

19
Información Relevante

se diseña para consultar


eficientemente información relativa
DW: Orientado hacia la
a las actividades (ventas, compras,
información relevante
de la organización producción, ...) básicas de la
organización, no para soportar los
procesos que se realizan en ella
(gestión de pedidos, facturación,
Base de Datos pagos, inventarios, etc).
Transaccional

PAÍS GAMA
CURSO ... ...
...
VENTA Información
...
REUNION
... PRODUCTO
Necesaria
PROTOTIPO ...
...
20
Integración

integra datos recogidos de diferentes


DW: Integrado sistemas operacionales de la
organización (y/o fuentes externas).

Fuente de Fuente de
Datos 1 Datos 3 Fuente de
texto
HTML
Datos 2
Base de Datos
Transaccional 1
Fuentes
Externas
Fuentes
Internas

Base de Datos
Transaccional 2
Bodega de Datos

21
Temporalidad

los datos son relativos a un período de


DW: Variable tiempo y deben ser incrementados
en el tiempo periódicamente.

Los datos son almacenados como fotos (snapshots)


correspondientes a períodos de tiempo.

Tiempo Datos
01/2003 Datos de Enero

02/2003 Datos de Febrero

03/2003 Datos de Marzo


22
No Volátil

los datos almacenados no son


DW: No volátil actualizados, sólo son incrementados.

Carga

Bases de datos operacionales Bodega de Datos

INSERT READ
READ
UPDATE
DELETE
El período de tiempo cubierto por un DW
varía entre 2 y 10 años.
23
Ventajas

Bodegas de Datos
ventajas para las
organizaciones

rentabilidad de aumento de la aumento de la


las inversiones productividad de
competitividad
realizadas para los técnicos de
su creación en el mercado
dirección

24
Problemas

Bodegas de Datos
Problemas para
Las Organizaciones

privacidad de
los datos
Sub-valoración
del esfuerzo
necesario para incremento
su diseño y continuo de los
creación Sub-valoración de los requisitos de
recursos necesarios los usuarios
para la captura, carga y
almacenamiento de los
datos 25
OLTP (Transaccionales) vs. OLAP (DW o
Analíticas)
Sistema Operacional (OLTP) Almacén de datos (OLAP o DW)
- almacena datos actuales - almacena datos históricos
- almacena datos de detalle - almacena datos de detalle y datos agregados
a distintos niveles
- bases de datos medianas - bases de datos grandes
(100Gb) (500Gb-20Tb)
- los datos son dinámicos (actualizables) - los datos son estáticos
- los procesos (transacciones) son repetitivos - los procesos no son previsibles
- el número de transacciones es elevado - el número de transacciones es bajo o medio
- tiempo de respuesta pequeño (segundos) - tiempo de respuesta variable (segundos-horas)
- dedicado al procesamiento de transacciones - dedicado al análisis de datos
- orientado a los procesos de la organización - orientado a la información relevante
- soporta decisiones diarias cotidianas - soporta decisiones estratégicas
- sirve a muchos usuarios (administrativos) - sirve a técnicos de dirección, analistas

26
Arquitectura genérica de un DW
 La Arquitectura de un DW viene determinada por su situación
central como fuente de información para las herramientas de
análisis.

Fuentes Herramientas
Internas de consultas e
informes
Base de Datos
Transaccional
Herramientas
Sistemas de
Bodega Interfaz y Información
ETL Opera-
de Datos
Fuente de dores
Datos 1 (DW)
Herramientas
texto
Fuente de OLAP
Datos 3
HTML
Copias de
Fuente de Seguridad
Datos Fuentes Herramientas de
Externas Minería de Datos

27
Diseño de DW: Modelo Multidimensional
• En un esquema multidimensional se representa una actividad que
es objeto de análisis (hecho) y las dimensiones que caracterizan la
actividad (dimensiones).
• La información relevante sobre el hecho (actividad) se representa
por un conjunto de indicadores (medidas o atributos de hecho).
• La información descriptiva de cada dimensión se representa por un
conjunto de atributos (de dimensión).

28
Usando cubos para ver el modelo
multidimensional
• El valor de una determinada métrica por un conjunto de Dimensiones
se hallaría en la intersección de los ejes de las mismas.
• Aunque hablamos de cubo no estamos restringidos a 3 Dimensiones,
en la práctica puede haber muchas más.

Producto1 Producto1

Producto2 Producto2

Producto 3 Producto 3

Ventas Ventas
Muestra las ventas del producto 2, en Muestra las ventas durante 2004 de
29
el año 2005 en Surco todos los productos en todos los
distritos
Tipo de Modelos Multidimensionales

• Esquema de Estrella (lineal o Star schema): Un hecho está en


medio del conjunto de dimensiones

• Esquema de Copo de Nieve (jerárquico o Snowflake schema):


Un refinamiento del anterior, donde alguna jerarquía dimensional es
normalizada en un conjunto de pequeñas dimensiones.

• Constelación de Hechos: Tablas de múltiples hechos, vistas como


una colección de estrellas.

30
Modelo en Estrella Lineal
Producto Local

ID_Producto <pi> I <M> ID_Local <pi> I <M>


NombreProducto VA20 Dirección VA30

ID_Producto <pi> ID_Local <pi>


Producto
Contiene Realizada
(Cantidad, Valor)

Ventas
Cantidad I
Valor I

Durante
Día
Día
Local Numero <pi> I <M>
Mes VA20 <M>
Año I <M>
Numero <pi> 31
Modelo en Estrella Jerárquico
• En este caso existen dimensiones que poseen jerarquía en su
representación.
• Se enfoca en resolver la problemática referida a como representar
el concepto temporal (día – semana - mes – año y dia – tipo de día).
• Las jerarquías agregan capacidad de análisis en el uso de los
datos, pero agregan costo de manipulación.

32
Categoria
Comuna
ID_Categoria <pi> I <M>
ID_Comuna <pi> I <M>
NombreCategoria VA40
NombreComuna VA30
ID_Categoria <pi>
ID_Comuna <pi>

Agrupa Pertenece

Modelo en Producto
ID_Local
Local
<pi> I <M>

Estrella ID_Producto
NombreProducto
ID_Producto <pi>
<pi> I
VA20
<M> Dirección
ID_Local <pi>
VA30

Jerárquico Contiene Realizada

Ventas
Cantidad I

• En este caso existen


Valor I

dimensiones que tienen la


Durante
posibilidad de extender su
Día
descripción vía jerarquía Numero <pi> I <M>
NombreDia VA20 <M>

• El caso de la dimensión Numero <pi>

tiempo se extiende en dos Posee


Corresponde

T ipoDia
jerarquías ID_Mes
Mes
<pi> I <M>
ID_T ipoDia <pi> I <M>
NombreT ipoDia VA30
Nombre VA30
ID_T ipoDia <pi>
ID_Mes <pi>

Compone

Año 33
NumeroAño <pi> I <M>
NumeroAño <pi>
Modelo Constelación de Hechos

• Este es el modelo mas popular para representar DW, ya que


permite incluir muchos “cubos” al mismo tiempo en la
representacion.
• En este modelo las algunas dimensiones son compartidas por
diversos hechos, y con ello los “cubos” pueden ser de distintas
dimensiones
• Además, un modelo de DW puede permitir incluir dimensiones no
orientadas hacia el análisis, sino solo de carácter descriptivo

34
Pasos en el diseño de un DW

• Paso 1. Elegir un Proceso de la toma de decisiones en


la organización.
• Paso 2. Decidir el nivel de detalle (granularidad) de
representación de la información que necesita el
proceso.
• Paso 3. Identificar las dimensiones de análisis que
caracterizan el proceso.
• Paso 4. Decidir la información a almacenar sobre el
proceso.

35
Paso 1. Elegir un “proceso” de la organización
para modelar
Proceso: actividad de la organización que requiere de análisis y
toma de decisiones, y que puede ser soportada por un OLTP del cual
se puede extraer información con el propósito de construir la bodega
de datos.
Pedidos (de clientes)
Compras (a suministradores)
Facturación
Envíos
Ventas
Inventario

36
Ejemplo: Cadena de supermercados

Cadena de supermercados con 300 locales en la que se venden


unos 30.000 productos distintos (SKU).

Proceso o Actividad: Ventas.


La actividad a modelar son las ventas de productos en los
diferentes locales de la cadena.

37
Paso 2. Decidir el nivel de detalle de
representación
Granularidad: es el nivel de detalle al que se desea almacenar
información sobre la actividad a modelar.
 Define el nivel atómico de datos en el almacén de datos.
 Determina el significado de los registros en las diferentes
tablas.
 Determina las dimensiones básicas del esquema
• transacción en el OLTP
• información diaria
• información semanal
• información mensual. ....

38
Ejemplo: Cadena de supermercados
Granularidad: “se desea almacenar información sobre las ventas
diarias de cada producto en cada local de la cadena”.
Gránulo:
define el significado de las tuplas de valores a almacenar
(ventas diarias).
determina las dimensiones de análisis del esquema.

producto
día
local
ventas

39
Ejemplo: Definición de la Granularidad
• Gránulo inferior: no se almacena información a nivel de línea de
ticket (item) porque no se puede identificar siempre al cliente de la
venta lo que permitiría hacer análisis del comportamiento (hábitos
de compra) del cliente.
• Gránulo superior: no se almacena información a nivel semanal o
mensual porque se perderían opciones de análisis interesantes:
ventas en días previos a vacaciones, ventas en fin de semana,
ventas en fin de mes, ....

En una bodega de datos se almacena información


a un nivel de detalle (granularidad) fino no porque
se vaya a consultar a la bodega a ese nivel, sino
porque ello permite clasificar y estudiar (analizar)
la información desde muchos puntos de vista.
40
Paso 3. Identificar las dimensiones que
caracterizan el proceso
• Dimensiones: son aquellas que caracterizan la actividad al nivel de
detalle (granularidad) que se ha elegido.
• Tiempo (dimensión temporal: ¿cuándo se produce la
actividad?)
• Producto (dimensión ¿cuál es el objeto de la actividad?)
• Local (dimensión geográfica: ¿dónde se produce la actividad?)
• De cada dimensión se debe decidir los atributos (propiedades)
relevantes para el análisis de la actividad.
• Entre los atributos de una dimensión existen jerarquías naturales
que deben ser identificadas (día-mes-año)

41
Ejemplo: Cadena de supermercados

tiempo
definición de dimensiones producto
granularidad básicas
local

Nota: En las aplicaciones reales el número de


dimensiones suele variar entre 3 y 15 dimensiones.

42
Dimensión Tiempo
• Dimensión presente en todo DW porque contiene información
histórica sobre la organización.
• Atributos frecuentes:
• Número de día, semana, año: valores absolutos del calendario
que permiten hacer ciertos cálculos aritméticos.
• Día de la semana (lunes, martes, miércoles,...): permite hacer
análisis sobre días de la semana concretos (ej. ventas en
sábado, ventas en lunes,..).
• Día del mes (1..31): permite hacer comparaciones sobre el
mismo día en meses distintos (ventas el 1º de mes).
• Marca de fin de mes, marca de fin de semana: permite hacer
comparaciones sobre el último día del mes o días de fin de
semana en distintos meses. 43
Dimensión Tiempo
• Atributos frecuentes:
• Trimestre del año (1..4): permite hacer análisis sobre un trimestre
concreto en distintos años.
• Marca de día festivo: permite hacer análisis sobre los días
contiguos a un día festivo.
• Estación (primavera, verano..)
• Evento especial: permite marcar días de eventos especiales (final
de fútbol, elecciones, concierto...)
• Jerarquía natural:
• día - mes - trimestre -año

44
Dimensión Producto

• La dimensión Producto se define a partir del archivo maestro de


productos del sistema OLTP.
• Las actualizaciones del archivo maestro de productos deben
reflejarse en la dimensión Producto (¿cómo?: ver lámina 49).
• La dimensión Producto debe contener el mayor número posible de
atributos descriptivos que permitan un análisis flexible. Un número
frecuente es de 50 atributos.
• Atributos frecuentes: identificador (código estándar), descripción,
tamaño del envase, marca, categoría, departamento, tipo de envase,
producto dietético, peso, unidades de peso, unidades por envase,
fórmula, ...
• Jerarquías: producto-categoría-departamento
45
Dimensión Local (Establecimiento)
• La dimensión Local representa la información geográfica básica.
• Esta dimensión suele ser creada explícitamente recopilando
información externa que sólo tiene sentido en el DW y que no la
tiene en un OLTP (número de habitantes de la ciudad del
establecimiento, tipo de población del distrito,..)
• Atributos frecuentes: identificador (código interno), nombre,
dirección, distrito, zona, ciudad, país, teléfono, fax, tipo de almacén,
superficie, fecha de apertura, fecha de la última remodelación,
superficie para productos congelados, datos de la población del
distrito, zona de ventas, ...
• Jerarquías:
• Establecimiento - distrito - ciudad – provincia - departamento -
país (jerarquía geográfica)
• Establecimiento - distrito_ventas - región_ventas (jerarquía de
ventas) 46
Paso 4. Decidir la información a almacenar
sobre el proceso

Hechos (facts): información (sobre la actividad) que se desea


almacenar en cada tupla de la tabla de hechos y que será el
objeto del análisis.
Precio
Unidades
Importe
....

Nota: algunos datos que en el OLTP coincidirían con valores de


atributos de dimensiones, en el almacén de datos pueden
representar hechos (ejemplo: el precio de venta de un producto).

47
Ejemplo: Cadena de supermercados

Granularidad: “se desea almacenar información sobre las


ventas diarias de cada producto en cada establecimiento de la
cadena”.

– Valor total de las ventas del producto en el día


– Número total de unidades vendidas del producto en el día
en cada local
– Número total de clientes distintos que han comprado el
producto en el día.

48
Diseño de un DW: Otras orientaciones de diseño

• Evitar normalizar:
Si se define una tabla de dimensión para cada dimensión
identificada en el análisis, es frecuente que entre el conjunto de
atributos de la tabla aparezcan dependencias funcionales que
hacen que la tabla no esté en 3ª F.N. El ahorro de espacio no es
significativo.

• Siempre introducir la dimensión Tiempo


En una bodega de Datos muchas consultas son restringidas y
parametrizadas por criterios relativos a periodos de tiempo (último
mes, este año, ...).

49
Diseño de un DW: Otras orientaciones de diseño

• Dimensiones “que cambian”


Se considera relevante el caso en que, en el mundo real, para un
valor de una dimensión, cambia el valor de un atributo que es
significativo para el análisis sin cambiar el valor de su clave.
• Existen tres estrategias para el tratamiento de los cambios en las
dimensiones:
Tipo 1: Realizar la modificación.
Tipo 2: Crear un nuevo registro.
Tipo 3: Crear un nuevo atributo.
• Ejemplo: En un DW existe la dimensión CLIENTE. En la tabla
correspondiente un registro representa la información sobre el
cliente “María García” cuyo estado civil cambia el 15-01-2007 de
soltera a casada. El estado civil del cliente es utilizado con
frecuencia en el análisis de la información.
50
Preguntas?

51