You are on page 1of 39

Facultad de Ingeniera

Escuela de Ingeniera de Sistemas y Computacin


Data Mining
Tcnicas y herramientas
Introduccin
Introduccin
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 2
POR QU?

Empresas necesitan aprender de sus


datos para crear una relacin one-to-
one con sus clientes.

Recogen datos de todos lo procesos.

Datos recogidos se tienen que analizar,


comprender y convertir en informacin:
rol Data Mining
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 3
Data Mining proporciona la
Inteligencia

El Data Warehouse proporciona datos.

Data Mining: Bsqueda de patrones,


reglas, nuevas ideas que probar,
predicciones

Tcnicas y herramientas aaden


inteligencia al datawarehouse para
explotar los datos y sacar el mximo
rendimiento
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +
Como nos ayudan?
clientes permanecern fieles?
clientes estn a punto de abandonar?
Dnde localizar la prxima sucursal?
Qu productos se deben promocionar y
cmo?
Las respuestas a estas preguntas estn
ocultas en los datos y tcnicas de Data
Mining para bsqueda
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 5
Definicin Intuitiva
Data Mining (en este contexto) en el
anlisis y exploracin, por medios
automticos o semiautomticos de
grandes cantidades de datos para
descubrir patrones significativos (tiles),
y reglas.
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 6
Definicin
Qu es Data Mining?
Es una de las actividades principales
asociadas a la comprensin,
navegacin y explotacin de los datos
en el nuevo mundo digital
Automatiza el proceso de identificacin
y descubrimiento de estructuras tiles
en los datos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 7
Por qu ahora?
Las tcnicas existentes. Convergencia de los
siguientes factores:
Cantidad de datos producida
Los datos estn integrados (data warehouse)
La potencia de cmputo
Fuerte presin de la competencia
Software de data mining disponible
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 8
Cmo se usa Data Mining
hoy?
Conocer a los clientes
Detectar segmentos
Calcular perfiles
Cross-selling
Detectar buenos clientes
Evitar el churning, attrition
Deteccin de morosidad
Mejora de respuesta de mailings
Campaas de captacin de clientes
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin
El ciclo de Data Mining
El ciclo de Data Mining
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 10
El ciclo de data mining
Identificar
un problema
Usar data mining para
transformar los datos
en informacin
Actuar basndonos
en la informacin
Medir los
resultados
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 11
Importante

Promesa de Data Mining: encontrar los


patrones

Hallar patrones no es suficiente

Necesidad de entenderlos, actuar,


convertir los datos en informacin, la
informacin en accin y la accin en
valor para la organizacin
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 12
Data Mining es un proceso
Data Mining proceso centrado en
acciones derivadas del descubrimiento de
conocimiento no en el mecanismo de
descubrimiento en si mismo.
Algoritmos son importantes, la solucin es
ms que un conjunto de tcnicas y
herramientas.
Las tcnicas se tienen que aplicar en el caso
correcto a los datos correctos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 13
Conocimiento
LIMPIEZA
Datos Procesados
CODIFICACIN
Datos Transformados
DATA MINING
Modelos
INTERPRETACIN Y EVALUACIN
Datos objetivo
SELECCIN
Datos
El proceso de KDD
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 1+
Estndar de proyecto de
Data Mining: Crisp-DM
Comprensin
del problema
Comprensin
de los datos.
Preparacin
de los datos
Nodelado
Evaluacin
!mplantacin
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 15
Comprensin del problema
(I)
Comprensin de los objetivos y
requerimientos del proyecto desde una
perspectiva de negocio. Convertir
conocimiento en la definicin de un
problema de data mining y en un plan
preliminar diseado para alcanzar los
objetivos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 16
Comprensin del problema (II)
Fases y salidas:
Determinar los objetivos del negocio
Antecedentes
Objetivos del negocio
Criterios de xito del proyecto
(perspectiva del negocio)
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 17
Comprensin del problema (II)
Evaluar la situacin
Recursos
Requerimientos, supuestos, restricciones
Riesgos y contingencias
Terminologa
Costos y beneficios
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 18
Comprensin del problema (III)
Fases y salidas:
Determinar metas de Data Mining
Metas de data mining
Criterios de xito (perspectiva de
data mining)
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 19
Comprensin del problema (III)
Producir un plan de proyecto
Plan de proyecto
Evaluacin inicial de herramientas y
tcnicas disponibles
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 20
Comprensin de los datos
Inicio: coleccin de datos inicial
Objetivo: familiarizarse con los datos,
identificar problemas de calidad para
descubrir las primeras caractersticas de
los datos o detectar subconjuntos para
proponer hiptesis iniciales
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 21
Comprensin de los datos
(II)
Fases y Salidas:
Conseguir el conjunto inicial de datos
Informe inicial sobre los datos
Describir los datos
Informe con la descripcin de los datos
Explorar los datos
Informe de la exploracin de los datos
Verificar la Calidad de los datos
Informe de la calidad de los datos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 22
Comprensin de datos:
tareas a realizar
Seleccin de las fuentes
Estudiar los datos
Establecer los metadatos
Establecer el tipo de las variables:
Cuantitativas
Cualitativas
Establecer la caducidad de cada dato:
vida de las variables
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 23
Estudio de los datos
Inters: descubrir las relaciones entre los
objetos
fuente: caractersticas de objetos a
analizar
Las medidas tienen un perodo de
caducidad y se toman en unas
circunstancias
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 2+
Tipos de datos
Cuantitativas
Discretas (nmero de empleados)
Continuas (sueldo, ...)
Cualitativas.
Nominales (estado civil, gnero)
Ordinales orden en sus valores (alto,
medio, bajo)
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 25
Preparacin de los datos
Propsito: construccin del conjunto final
de datos (datos entrada de los algoritmos
de Data mining), a partir el conjunto
inicial de datos. Incluye seleccionar
tablas
atributos y registros
transformacin y limpieza de los
datos.
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 26
Preparacin de los datos (II)
Entradas
Conjunto de datos
Descripcin del conjunto de datos
Fases y Salidas
Seleccin de datos
Justificacin de la seleccin
Limpieza de datos
Informe proceso limpieza
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 27
Preparacin de los datos
(III)
Fases y Salidas (cont.)
Construir el conjunto de datos
Atributos derivados
Registros generados
Integrar los datos
Datos integrados
Formato de los datos
Datos con nuevo formato
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 28
Preparacin de los datos
Asegurar calidad de los datos
Datos no fueron recogidos para tareas de
Data Mining
Datos pobres, inconsistentes
Numerosas fuentes, diferentes sistemas
Funciones
Revisin de los datos
Tratamiento de Valores nulos e informacin
incompleta
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 29
Preparacin: Revisin de
los datos
Mtodos estadsticos y de visualizacin
Variables categricas:
Distribucin de variables
Histogramas
Pie charts
Variables cualitativas
Media, varianza, moda
Scaterplots, boxplots...
0
10
20
30
40
50
60
70
80
90
1er trim. 2do trim. 3er trim.
Este
Oeste
Norte
0
10
20
30
40
50
60
70
80
90
100
0 2 4 6
Este
Oeste
Norte
T1
T2
T3
T4
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 30
Preparacin: Informacin
incompleta
Valores atpicos (outliers):
Tratamiento depende de su naturaleza
Se pueden eliminar en el proceso de carga
del data warehouse
Valores nulos: (ninguna de las tcnicas es
perfecta)
Eliminar las observaciones con nulos
Eliminar las variables con muchos nulos
Utilizar un modelo predictivo
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 31
Preparacin
Transformacin
Conseguir una la visin integrada,
consistente y consolidada de los datos
Necesidad de refinar datos de acuerdo
con los requisitos de entrada de los
algoritmos:
Conversin de variables
Reduccin /adicin de variables
Discretizacin / generalizacin
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 32
Modelado
Propsito
seleccionar tcnicas de minera a aplicar
calibrar parmetros para conseguir los
valores ptimos.
distintas tcnicas para el mismo tipo de
problema
diferencia en los requisitos de datos de
entrada. Necesidad de volver a la fase
de preparacin de datos.
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 33
Modelado (II)
Fases y Salidas
Seleccin de la tcnica de modelado
Tcnica elegida
Requisitos de la tcnica elegida
Generacin diseo de prueba
Diseo de prueba
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 3+
Modelado (II)
Fases y Salidas
Construir el modelo
Parmetros elegidos
Modelo y descripcin
Evaluar el modelo
Evaluacin del modelo
Parmetros revisados
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 35
Evaluacin
modelo disponible de buena calidad
desde la perspectiva del anlisis de
datos.
verificacin cumplimiento de objetivos
de organizacin.
determinar si algn aspecto no ha sido
tenido suficientemente en consideracin.
resultado: decisin sobre el uso de los
resultados de minera.
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 36
Evaluacin (II)
Fases y Salidas
Evaluar los resultados
Contrastar los resultados de minera con
los criterios de xito del negocio
Modelos aprobados
Proceso de revisin
Revisin del proceso
Determinar los pasos siguientes
Lista de posibles acciones futuras
Decisin sobre la implantacin
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 37
Implantacin
Fase puede ser tan simple como la
generacin de un informe o tan compleja
como la implantacin de un proceso de
minera en toda la empresa.
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 38
Implantacin (II)
Fases y Salidas
Desarrollo del plan de implantacin
Plan de Implantacin
Desarrollo del plan de monitorizacin y
mantenimiento
Plan de seguimiento
Realizacin del informe final
Informe final
Revisin del proyecto
Experiencia
Documentacin
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 39
Resumen
Data Mining es un proceso
Todas las fases son igualmente
importantes
Sin una preparacin adecuada los
resultados perdern calidad