Inteligencia de Negocios

Base de Datos.

Contenido

Primera Parte
◦ Introducción
◦ OLTP VS OLAP
◦ Limpieza de datos e integración

Segunda Parte
◦ Modelo de datos y diseño de Bodegas

Tercera Parte
◦ Minería de Datos

Datos y datos en todas
parte..

No puedo encontrar los datos que necesito
◦ Datos dispersos en la red.
◦ Muchas versiones diferencias sutiles

No puedo obtener los datos que necesito
◦ Necesito experto para obtener los datos

No entiendo los datos que obtengo
◦ Pobre documentación de datos

No puedo usar los datos que encuentro
◦ Resultados inesperados
◦ Datos necesitan ser transformados de una forma a otra.

Que es Bodega de Datos

Bodega de datos es una colección de datos,
orientada a temas, integrada, no volátil, y
variante en el tiempo que soporta
decisiones administrativas. Datos obtenidos
de una variedad de fuentes diferentes, a
disposición de los usuarios finales en lo que
pueden entender y utilizar en un contexto
empresarial

Porque Bodegas de Datos
Que
Queepoca
epocadel
delaño
año
es
esmejor
mejorpara
para
lanzar
lanzarpromociones?
promociones?
Cual
Cuales
esel
elcanal
canalde
de
distribucion
distribucionmas
mas
Efectivo?
Efectivo?

Quienes
Quienesson
sonlos
losclientes
clientes
yyque
queproductos
productosestan
estan
Comprando?
Comprando?

Que
Queproducto
producto
tiene
tieneel
elmayor
mayorimpacto
impacto
en
enlas
lasganancias?
ganancias?

Que
Queclientes
clientesson
sonmas
mas
probables
probablesque
quese
sevayan
vayan
aala
lacompetencia?
competencia?
Que
Queimpacto
impactotiene
tiene
los
losnuevos
nuevos
servicios/productos
servicios/productosen
en
las
lasganancias?
ganancias?

Procesamiento Analítico en Línea (OLAP) .

 Agrupamiento (Cluster)  Detectar Tendencias  Proyecciones Multi-dimensionales (Como influye el una variable en otra)  .Características de Búsquedas OLAP Agregación y suma de varios conjuntos de datos.

OLTP VS OLAP OLTP • • • • • • • OLAP Orientado a aplicaciones Usado para manejar negocios Usuarios de oficina Detalle de datos Datos actuales • Accesos repetitivos en pequeñas transacciones Acceso de lectura y escritura • • • • • • Orientado a un tema. Accesos usando búsquedas extensas. Usados para analizar negocios Administrador/Analista Suma de datos Datos tomados en cierto periodo. Mayormente lectura (Cambios por lotes) .

OLTP VS OLAP Variante en el Tiempo Tiempo 60/90 Dias Cambio de Registros Llave puede no contener elemento de tiempo 5 a 10 años Sofisticado Fotos de Datos Llave debe contener elemento de tiempo .

OLTP VS OLAP No Volátil Manipulación De datos registro a registro Carga/Acceso en Masa .

OLTP VS OLAP .

. explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades. Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados.Datamart Un Data mart es una versión especial de almacén de datos (data warehouse). Puede ser simplemente una copia de parte de un DataWarehouse para uso departamental.

 Los usuarios potenciales son más claramente identificables que en un almacén de datos completo  .  Facilidad de creación.  Crea vista colectiva para grupo de usuarios.  Costo inferior al de la aplicación de un completo almacén de datos.Porque Crear Datamart Fácil acceso a los datos que se necesitan frecuentemente.  Mejora el tiempo de respuesta del usuario final.

Almacenando Datos Retroalimentacion UNIDAD OLTP UNIDAD OLTP LIMPIEZA DE DATOS E INTEGRACION Bodega de Datos UNIDAD OLTP Cambios/retroalimentación .

◦ Varios Estándares.Limpieza de Datos  Datos Sucios ◦ Multiplicidad de códigos ◦ Igual significado “EN LA WEB”. Introduccion a Bodega de Datos . es igual que “EN INTERNET” .

pipeline .male.pipeline .0 appl C .yds m.x.pipeline .feet appl D .1.in appl C . female Unidad Bodega de Datos appl A .pipeline .f appl B .Limpieza de Datos Codificacion appl A .cm .f pipeline .m.y appl D .cm appl B .

◦ Duplicación en el significado (Jon G. ◦ Días de incapacidad digitados erróneamente. aparece en otra OLTP como Jon Geiler Ordonez. ◦ Duplicación de datos en los diferentes OLTP o misma OLTP. Falsos y Duplicados ◦ Falta la edad del empleado.Limpieza de Datos  Datos Faltantes. Ordonez.) .

no tiene ningún significados en los códigos usados. ◦ Inconsistencia de datos duplicados (Dos datos son encontrados con la misma persona pero ambos tiene direcciones difentes) . se encuentran datos con 1/0).Limpieza de Datos  Inconsistencia ◦ Códigos mal digitados (El codigo de genero es M/F. ◦ Códigos que no tienen significado (AL).

 .  Complejidad se incrementa con datos históricos.Problemas Con Limpieza de Datos No puede ser automatizada. Geografía).  Requiere considerable conocimientos que es tácticamente y mas allá de los competencias en Bodega de Datos (Medidas.  Complejidad se incrementa con el incremento en base de datos. Políticas.

Técnicas de Análisis Problema a Detectar Tecnica Usada Valores No Legales (Max. Desviacion. Media Falta de Estandares Comparacion de Columnas (Compara los valores en determinada columna en toda la tabla) Duplicados y Datos No Digitados Comparar con numero de filas. usar reglas para predecir datos incorrectos y no digitados . Detectar nulos. Min).

Discutir problemas de datos con el equipo. se deben tener en cuenta los siguientes pasos:       Identificar la fuente de datos con la mejor calidad: Es posible que se encuentren varias fuentes con los mismos datos. . Realizar tareas de limpieza sobre los datos. Arreglar los problemas de datos en las fuentes cuando sea posible. SI existen muchos problemas en las fuentes.Mejoramiento de Datos Para garantizar el uso de los mejores datos posibles para la bodega. Identificar variaciones en palabras : Como errores de ortografía y mayúscula y minúscula. pero en algunas se tenga mejor calidad de los mismos. estos problemas deber ser responsabilidad de los sistemas fuentes. arreglarlos en el proceso ira en contra del rendimiento. en vez de hacerlo en el proceso ETL o directamente a la bodega.

o creando combinaciones con otros datos. ◦ Transformación – Uso de reglas o búsqueda de tabla. para convertir fuente de datos en los estados deseados ◦ Cargar : Escribir los datos resultantes en la base de datos destino .Integración  Tres funciones separadas: ETL ◦ Extracción – Leer los datos de fuentes de datos especificadas y extraer el grupo de datos deseado.

Integración  Desarrollo del ETL ◦ Oportunidad para eliminar datos inservibles ◦ Normalmente 80% verificando integridad y reglas de negocio ◦ Contar con un involucrado del negocio que pueda tomar decisiones acerca de las reglas .

Integración .

Integración  Combinar fuentes de datos dispares en una sola estructura. ◦ Integración de Esquemas: Crear e integrar esquemas con fuentes de datos disparejas. ◦ Integración de Datos: Limpiar y concatenar datos de diferentes fuentes de datos .

Integración de Esquemas  Retos ◦ ◦ ◦ ◦ ◦ Nombres diferentes Estructuras diferentes Tipo de datos diferentes Campos Faltantes Semántica diferente .

) .) Autos (Serialnr... Color. Color) Optionen(Serialnr. Estero. Stereo.Integración de Esquemas Por ejemplo : Carros (Noserie. Modelo. Model..

Integración de Esquemas Mediador Extractor Extractor Extractor .

◦ Realiza la integración de datos y pasa la información a la bodega de datos. . ◦ Realiza el puente en las diferencias de nombre.  Mediador ◦ Construye e integra esquemas.Integración de Esquemas  Extractor ◦ Crea una vista común para toda las fuentes de datos. tipos y estructuras.

◦ Limpieza de Datos ◦ Integración de Esquemas .Transformación  La Bodega de datos puede fallar sin una apropiada estrategia de transformación es desarrollada.

Refrescando la Bodega de Datos  Propagar cambios en los datos fuente en el almacén  Problemas: Cuando refrescar Cómo actualizar – técnicas incrementales de cargar .

todas las noches. Posiblemente diferentes políticas para diferentes fuentes . En cada actualización: no se justifica a menos que la bodega de datos requiera datos actuales. todas las semanas) o después de eventos importantes. Política de actualización establecidos por el administrador basadas en las necesidades de los usuario y el tráfico.Cuando Refrescar     Periódicamente (por ejemplo.

Por lo tanto es importante identificar las causas de las diferencias y determinar cual resultados es realmente el correcto.Aseguramiento de la Calidad Una vez se tienen los datos. Se pueden hacer varios procesos para determinar esto:  Cruce de datos. . es importante determinar si este contenido es realmente correcto. Se ejecutan varios Queries contra las fuentes de datos y se verifica que el resultado de estos Queries sea el mismo que el datos con los datos seleccionados del proceso ETL.  Validación del Proceso. Al utilizar la bodega de datos es posible encontrar diferentes resultados de los que se harían con simples Queries sobre las fuentes. Esto se da debido a la limpieza y transformación hechas a los datos en el proceso ETL.

Como Detectar Cambios Algunas técnicas para limitar la cantidad de operaciones necesarias para refrescar las bodegas de datos ----- Aplicación Existente Tiempo de Cambio (TimeStamp) ----- Aplicación Existente ----- Aplicación Existente Archivo de Log Antes ----- Codigo de Aplicacion Despues Cambios desde la ultima carga .

Diseño Lógico .

◦ Soportado por múltiples RDBMS . y una tabla de dimensión por cada dimensión.Diseño Lógico  Esquema en Estrella ◦ Una sola tabla de hechos.

Diseño Lógico  Tabla de Hechos – Modelo de Estrella ◦ ◦ ◦ ◦ Ejemplo típico: los registros de ventas individuales Los hechos son valores cuantificables. . ◦ Acceso a través de las dimensiones. Las tablas de hechos tienen gran cantidad de registros en comparación con el número de columnas. Medidas numéricas para analizar.

etc . ◦ Se unen a la tabla de hechos mediante una clave externa ◦ Bien indexada ◦ Dimensiones típicas  períodos de tiempo. región geográfica (mercados. los productos. ciudades).Diseño Lógico  Dimensiones – Modelo de Estrella ◦ Definición de negocio en términos ya familiares para los usuarios ◦ Las dimensiones son denormalizadas ( jerarquías que llevan a redundancia) ◦ Tablas pequeñas. clientes. vendedores.

Ejemplo Esquema En Estrella .

los niveles de las jerarquías se normalizan. es decir. ◦ Mayor flexibilidad ◦ Mayor dificultad de mantenimiento ◦ Joins más costosos ◦ Menos registros en las dimensiones. .Diseño Lógico  Modelo de copo de nieve ◦ Mayor normalización.

Diseño Lógico Ejemplo Modelo de copo de nieve .

.  Calendario simple  Calendario Fiscal  Calendario Académico ◦ Se necesita indexar fechas especiales como eventos.Diseño Lógico  Dimensión de Tiempo ◦ Obligatoria en la mayoría de las bodegas de datos. ◦ Tiene varios significados y técnicas roll-up dependiente del contesto.. lanzamientos.

. Estas llaves subrogadas se manejan con enteros.Diseño Lógico  Llaves Subrogadas Todas las llaves de las tablas de la bodega de datos deben ser llaves subrogadas. No se deben utilizar las llaves originales de un sistema fuente del cual fueron extraídas. es decir no deben significar nada respecto a las características de su contenido ni a su fuente en los sistemas fuente.

Diseño Lógico  Declaración de Granularidad de la tabla de hechos. Entre menos detalle halla. mayor será la granularidad. Que es un registro en la tabla de hechos ? La granularidad se refiere al nivel de detalle existente en las unidades de los datos de la bodega. La granularidad es la respuesta a la pregunta. menor será el nivel de granularidad. Es un factor determinante en el desarrollo de la bodega de datos. debido a que de ella depende el volumen de datos que será almacenada en la bodega y el tipo de queries que pueden ser realizados. . Entre mas detalle halla. Es necesario definir claramente lo que es un registro de la tabla de hechos en el diseño dimensional propuesto.

Diseño Lógico Granularidad .

Uso OLAP .

 Slicing-Dicing : Seleccionar cierto datos de el cubo.Operaciones en Cubos Pivotear : Escoger (Rotar el cubo en un pivote) un grupo de dimensiones a mostrar.  Drill-down : Abrir una dimensión agrega para relevar detalles (Abrir meses para relevar información en semanas)  .  Roll-up : Sumar una dimensión en una dimensión mas pequeña (Roll-up semanas en meses).

Operaciones en Cubos .

Operaciones en Cubos .

predecir o estimar variables o comportamientos futuros. cuyo objetivo es extraer conocimiento útil y utilizable a partir de la información contenida en las bases de datos de las empresas. . Los objetivos de un sistema Mineria de Datos nos permitirían analizar factores de influencia en determinados procesos. Los sistemas Minería de Datos se desarrollan bajo lenguajes de ultima generación basados en la inteligencia artificial y utilizando métodos matemáticos. tales como: • Redes neuronales • Introducción de reglas • Arboles de decisión • Conjunto de reglas por clase • Soporta también sofisticadas operaciones de análisis tales como los • sistemas Scoring y aplicaciones de detección de fraude. sementar o agrupar ítems similares. además de obtener secuencias de eventos que provocan comportamientos específicos.Mineria de Datos Mineria de datos es una tecnología de soporte para usuario final.

y que tienen más probabilidades de irse a la competencia? : .000 nombres. dada la demografía y el historial de transacciones de un cliente en particular? Manejo de Relaciones con Clientes: ◦ ¿Cuál de mis clientes son probablemente los más fieles. que las personas son los menos propensos a dejar de pagar sus tarjetas de crédito? ◦ Identificar las probabilidades de respuesta a las promociones de ventas Detección de fraudes ◦ ¿Qué tipo de operaciones es probable que sean fraudulentas.Porque Mineria de Datos    Calificaciones de crédito / marketing dirigido: ◦ Dada una base de datos de 100.

estadísticas.Mineria de Datos  Proceso de semi-automático para analizar grandes bases de datos en búsqueda de patrones interesantes y útiles.  Coincide en parte con el aprendizaje de máquina. pero ◦ más escalable en número de características y casos ◦ más automática para manejar datos heterogéneos . e inteligencia artificial y bases de datos.

Algunas Operaciones Basicas  Predecir: Regresión Clasificación  Descriptivo: Agrupaciones (Cluster) o se pongan en venta similitud Reglas de Asociación Detección de Desviación .

predecir si un nuevo solicitante es Elegible para préstamo o no Clientes Anteriores Edad Salario Profesion Localidad Tipo de Cliente Clasificador Arboles de Decision Salary > 5 L Prof. = Exec .Clasificacion Teniendo en cuenta los datos antiguos sobre los clientes y los pagos.

Arboles de Decision Árbol donde los nodos internos son simples reglas de decisión en uno o más atributos y nodos de la hoja se prevé etiquetas de clase. Salario < 1 M Prof = teacher Bueno Malo Edad < 30 Malo Bueno .

Areas de Aplicacion Industria Finanzas Seguros Telecomunicacio nes Transporte Aplicación Análisis de Tarjetas de Crédito Reglamos y Análisis de fraudes Análisis de Llamadas Manejo de Logística .