1

Torturando los datos hasta que confiesen 1
Data Mining: Torturando los
datos hasta que confiesen
Luis CarIos MoIina FéIix
IcmoIina@imp.mx
XI SIhPDSIUh 0E INFDPhATICA Y CDhPUTACIDN
III SEMANA ACADÉMICA DE SISTEMAS Y COMPUTACIÓN 2003
INSTITUTO TECNOLÓGICO DE CHIHUAHUA II
8 octubre 2003
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
2
¿Qué motiva a guardar datos?
EI abaratamiento de Ios sistemas de aImace-
namiento tanto temporaI como permanente
EI incremento de Ias veIocidades de cómputo
en Ios procesadores
Las mejoras en Ia confiabiIidad y aumento de Ia
veIocidad en Ia transmisión de datos
EI desarroIIo de sistemas administradores de
bases de datos más poderosos
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
¿Cual es la problemática?
EI voIumen de datos es enorme
· Problemas de dimensionalidad (100-10,000 atributos)
· Número de observaciones (100M registros)
AnáIisis de datos es cruciaI para eI negocio
Las tomas de decisiones deben ser rápidas
Las empresas necesitan conocer mejor a sus cIientes
DificuItad para apIicar técnicas tradicionaIes
SoIamente entre un 5% a 10% de Ia información es
anaIizada (Gartner Group)
"KnowIedge is the onIy competitive Advantage"
Jack WeIch, CEO, GeneraI EIectric
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
4
Necesidades de Data Mining
WaIt Mart registra 20,000,000 de transaciones por día
MobiI OiI ExpIorations aImacena en más de 100 terabytes
PEMEX - ViIIahermosa aImacena 300 terabytes de
registros sísmicos
Proyecto Genoma está incrementando contstantemente
su muIti-Gbytes
EI catáIogo de fotografías de imágenes deI espacio
aImacena terabytes de imágenes
EI proyecto NASA EOS guardaba 1 terabyte por día
Registro en Ia bitácora (Iogs) de Ios accesos que se
hacen a un portaI de Intenet
1 terabyte = 1 miIIón de megabytes
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
5
Una primera aproximación
Ejemplo: Pañales y Cerveza
Con técnicas de DM se encontró que un grupo de clientes
compraban pañales junto con cerveza solo después de las 7
de la noche.
El perfil del consumidor eran hombres casados entre 25 y 35
años.
Wal-Mart optó por una optimización de las actividades junto a
los estantes en los puntos de ventas colocando los pañales al
lado de las cervezas.
Resultado: El consumo de cerveza creció 30% con esa
mudanza. Colocaron papas fritas en medio y las ventas de los
3 productos se incrementaron.
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
6
Tarjeta de Cliente Fiel
Primer Grupo
Tamaño: 37,000
Sexo: mujeres (79%)
Edad: 32 - 41 (65%)
Hijos: >1 (60%)
Departamento que visita:
· Cocina (54%)
· Escolar (42%)
· Cosméticos (39%)
Segundo Grupo
Tamaño: 3,700
Sexo: mujeres (91%)
Edad: 32 - 41 (70%)
Hijos: 2 (63%)
Departamento que visita:
· Cocina (63%)
· Escolar (73%)
2
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
7
Frases al respecto
Es más caro sacar un gramo de oro que una toneIada de
carbón. Frase vista en una mina en AustraIia.
· Se usa en Data Mining para diferenciar entre el valor de los
datos y el conocimiento
Se IIevo seis horas para cortar un árboI, gasto Ias
primeras cuatro afiIando eI machete. Abraham LincoIn.
· Se intenta decir que de las etapas de DM, la delimitación de
objetivos, el hacer un verdadero análisis del problema, es lo que
nos facilitará el trabajo
TaIento es 1% de inspiración y 99% de transpiración.
Tomas Edison.
· Él experimentó con más de 600 materiales antes de llegar al
calefactor que hoy se usa en las bombillas de todo el mundo
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
8
Nombres al mismo problema
Data ArcheoIogy
Dependency FunctionaI AnaIysis
Information RecoIIect
Pattern Data AnaIysis
KnowIedge Fishing
KDD (1990´s → →→ →...) (académico)
Data Mining (1990´s → →→ →...) (comerciaI)
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
9
Data Mining y KDD
Data Mining es un proceso dentro de KnowIedge
Discovery in Databases (KDD) (académico)
KDD = Data Mining (comerciaI)
Definición cIásica KDD
· Proceso no trivial de identificación válida, reciente, novedosa y
potencialmente útil de patrones comprensibles ocultos en los
datos [Fayyad 1996]
Definición de Data Mining dentro de KDD
· Una etapa dentro del proceso KDD dedicada a la obtención e
identificación de patrones [Fayyad 1994]
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
10 9
·CONOCÌMÌENTO
·?
· PATRONES
·DATO
·TRANSFORMADO
·DATA
·MINING
·INTERPRETACIÓN/
·EVALUACIÓN
DATOS
·SELECCIÓN
·PRE-PROCESAMIENTO
·DATO
·ANALÌZADO
·DATO
·PROCESADO
·TRANSFORMACIÓN
PROCESO KDD
[Fayyad 96]
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
11
Data Mining y KDD
Punto de vista
EI término Data Mining es "ampIiamente conocido" en eI
ámbito comerciaI
EI término KDD es "totaImente desconocido" en eI ámbito
comerciaI
EI término KDD continuará por mucho tiempo en Ios
congresos
SIGKDD - KDD vs ICDM vs PAKDD vs PKDD vs SIAM vs ...
Sin duda eI índice de impacto será determinante
http://isiknowledge.com http://citeseer.nj.nec.com/impact.html
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
12
Indice de impacto
NEC ÌSÌ
DM and KD (KIuwer) 1.82 1.407
ACM SIGKDD 1.68
IEEE Trans KDE 1.19 1.040
SIGKDD ExpIorations 0.58
PKDD 0.50
IEEE ICDM 0.35
PAKDD 0.30
3
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
13
Data Mining - Definición (I)
"Data Mining es eI proceso de seIección, expIoración
y modeIado de grandes voIúmenes de datos para
descubrir patrones ocuItos de taI forma que se aporte
un beneficio a Ia empresa". SAS Institute, Inc.
"EI proceso de descubrir nuevas correIaciones,
patrones y tendencias a través de grandes cantidades
de datos guardados en repositorios, usando
tecnoIogías de reconocimiento de patrones así como
estadística y técnicas matemáticas". Gartner Group.
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
14
Data Mining - Definición (II)
Conjunto de áreas que tienen como propósito Ia
identificación de conocimiento obtenido a partir
de Ias bases de datos que aporten un sesgo hacía
Ia toma de decisión. [Molina 2000]
¿Que áreas?
· Estadística
· IA / RP
· Computación Gráfica
· Procesamiento ParaIeIo
· Bases de Datos
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
15
CONOCIMIENTO
DATO
Bajo
Valor
Alto
Valor
Alto
Volumen
Bajo
Volumen
INFORMACIÓN
Donde trabaja
·[MoIina 1998]
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
16
Consenso en las definiciones
En común
· Proceso
· Exploración y Análisis
· Conjunta varias áreas
Reconocimento de patrones
Estadística
· Descubrir patrones y relaciones
· Grandes volumenes de datos
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
17
Diferencias en las definiciones
Diferencias
· Grandes volumenes de datos
¿Qué significa grande?
· Toma de decisiones
· Nuevas correlaciones
· Automático
· Otras áreas
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
18
Pregunta
· Comienzo con 100,000 casos
· Hago preprocesamiento de datos
· Entran en el algoritmo de DM 2000 casos
· ¿Esto es DM?
Selección
Preprocesamiento
DM
100,000 2,000
+
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
19
Data Mining y Data Warehouse
Sin DW, 70% deI tiempo que tarda un proyecto de DM es
preprocessamento de datos
La natureIeza deI DW incIuye:
· Ìntegración de los datos
Juntar, limpiar y preparar
· Detalles y resumen de los datos
Granularidad y análisis
· Datos históricos
Histórico del negocio
· Metadatos
Contexto de la información. Es la guía que indica como está estructurada
una empresa
EI DW tiene eI sentido de tomar una "fotografía corporativa"aI
negocio mientras que eI Data Mart toma una "fotografía
departamentaI"
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
20
DW - OLAP - DM
Data
Mining
OLAP
PortaI PortaIe es s
Database
Quer Query y Ad Ad Hoc Hoc
y y AnaI AnaIi isis sis
Report Reporte es s
Integración
De Datos
Integración
De Datos
AppIication
Server
AppIication
Server
Web Data
OperationaI
Data
CRM Data
ExternaI
Data
Herramienta Herramienta
OLAP OLAP
PersonaIización
ºORACLE, 1997
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
21
¿Qué conforma a DM?
Una base de datos
Un especiaIista de domínio
· Unos objetivos
Un minero de datos
Una metodoIogía
Herramientas de DM
· Técnicas de DM
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
22
La base de datos
Ruido, vaIores ausentes, faIta de estandarización
Comprar información
Distribuída em muchos departamentos
Los conceptos cambian dependiendo de Ia región
· Chiapas: Un cliente bueno debe tener 20.000 pesos en la cuenta
· DF: Un cliente bueno debe tener 30.000 pesos en la cuenta
· Chihuahua: Un cliente bueno debe tener 40.000 pesos en la
cuenta
Anécdota en eI IMP aI IIenar un curricuIum
Problemas comunes
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
23
Metodología CRISP-DM
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
24
Metodología SEMMA
Sample-Explore-Modify-Model-Assess
5
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
Técnicas usadas en DM
Agrupación
· Agrupación de objetos similares
CIasificación y Regresión
· Agrupación de objetos similares considerando una estructura de
clases conocidas
ModeIos Predictivos
· Ìdentificar la(s) variable(s) más predictiva(s)
Descubrimiento de secuencias
· Agrupa un tipo especial de objetos: secuencias
Asociación
· Encuentra relaciones entre productos
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
26
Construcción de Modelos
CIasificación
· Reglas de producción[Clark:89][Holte:93]
· Árboles de Ìnducción [Quinlan:86,93][Brieman et.al.:94]
Redes NeuronaIes
· Backpropagation
k-Nearest Neighbor
· Hamming
· Euclidean
· Mahalanobis
CIustering
· EM
· K-means
· Hierarchical Agglomerative Clustering
Híbridas
· NeuroRule[Lu et.al.,95] Ruleneg[Fu,99] (Reglas desde RN)
+
+
+
+
+
+
+
+
-
-
-
-
- -
- -
Induction Tree
C5.0 CART CHAID
?
+
+
+
+
+
+
+
+
-
-
-
-
- -
- -
NeuraI Nets
MLP
?
+
+
+
+
+
+
+
+
-
-
-
-
- -
- -
k-Nearest Neighbors
Match teceIación
?
CIustering
CIuster
?
?
?
?
? ?
? ?
?
?
? ?
?
? ? ?
?
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
27
Cuando no es DM
Usar herramientas tradicionaIes y decir que son DM.
EjempIo: OLAP, redes neuronaIes no direccionadas a Ia
obtención de conocimiento
No tener un especiaIista deI dominio
Tener un número pequeño de casos
Usar soIo estadística para obtener conocimiento
Usar soIo visuaIización para obtener conocimiento
No vaIidar Ios resuItados obtenidos
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
28
Aplicaciones Data Mining
En Ios gobiernos
Caso FBÌ
En Ia empresa
Operadora Telefónica Española
Mercedes Benz
En Ia Universidad
Caso Ìnstituto Tecnológico de Chihuahua ÌÌ
En Ios cIubes deportivos
Caso Ìnter de Milán
NBA
En Ios centros de investigación
Proyecto Skycat
HoIIywood - Los oscares
Premiados vs. Nominados
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
29
Web Mining
Web mining es eI uso de técnicas de DM para descubrir y
extraer situaciones interesantes a partir de documentos y
servicios de Ia Web
Categorias
· Web Content Mining
contenido de documentos y sus descripciones
· Web Structure Mining
organización de páginas y estructura de sus links
· Web Usage Mining
analiza las bitácoras (logs) de accesos
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
30
Web Mining. Ejemplo
remotehost server user ¡date] request status bytes persistent_cookie session_cookie
207.237.176.5 - userid ¡17/Oct/2002:14:00:15 -0400] "GET
/products/home?catid÷1234&prodid÷32423532&promo÷fall_sale HTTP/1.1" 200 -"PC÷92963048~
SESSION_ID÷"aeg10823es78083"
6
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
31
Visita de portales
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
32
Text Mining
Estudios recientes indican que 80% de Ia
información de una compañía está aImacenada
en forma de documentos
No confundir Text Mining con Recuperación de
Ia Información (Information RetrievaI)
Text Mining se refiere a examinar una coIección
de documentos y descubrir información sin
haber partido de una consuIta previa
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
33
100.000 resumenes de publicaciones
relacionadas al cáncer
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
34
Text Mining. Ejemplo
Don Swanson extrajo información derivada de coIecciones
de textos médicos [Hearst 1999]
El estrés está asociado con la migraña.
El estrés puede conducir a la pérdida de magnesio.
Los bloqueadores de canales de calcio previenen algunas
migrañas.
El magnesio es un bloqueador natural del canal de calcio.
La depresión cortical diseminada (DCD) está implicada en
algunas migrañas.
Los niveles altos de magnesio inhiben la DCD.
Los pacientes con migraña tienen una alta agregación
plaquetaria.
El magnesio puede suprimir la agregación plaquetaria.
Estas claves sugieren que la deficiencia de magnesio podría ser importante en
algunos tipos de migraña, una hipótesis que no existía en la literatura.
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
35
Visualización
Cognos VisuaIizer
Considerada como Ia mejor herramienta para visuaIizar datos
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
36
Visualización de errores en los
datos
En eI registro deI pozo 1705
aparece un conjunto de
vaIores erróneos
Corrección deI error
detectado
7
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
37
Market-Basket-Analysis Asociación
entre productos
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
38
Mapas dinámicos
Ventas de una cadena de supermercados durante 8 años
cIasificadas por Ios estados de BrasiI
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
39
Mapas de la WEB
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
40
Herramientas
Académicas
· Weka (Hall)
1
· MLC++ (Kohavi)
2
· SÌPÌNA (Ricco)
3
· BKD (Ramoni)
4
· Mobal (Sommer)
5
1
www.cs.waikato.ac.nz/~mI/weka
2
www.sgi.com/tech/mIc/
3
eric.univ-Iyon2.fr/~ricco/sipina.htmI
4
kmi.open.ac.uk/projects/bkd/
5
ftp.gmd.de/gmd/mIt/MobaI/
ComerciaIes
· SAS (SAS Ìnstitute Ìnc.)
· Clementine (SPSS)
· Ìminer (ÌBM)
· Darwin (Oracle)
· CART (Salford-Systems)
· MegaComputer
· Blue Martini Software
· DBMiner Technology
· See5/C5.0 (Ross Quinlan)
· ....
· Más de 100 empresas en el
mundo con 300 soluciones
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
41
Weka
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
42
SAS - Darwin
8A8 Darwin
8
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
43
MineSet - Clementine
Mine8et Clementine
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
44
Caso MineSet
Lo maIo
- Pocas herramientas para transformar datos
- No podía almacenar todo el proceso DM
- No tenía una APÌ para procesos batch
- Para representar el conocimiento se tenía que instalar
MineSet en todas las computadoras
- MineSet solamente funciona en equipo Silicon Graphics
- No hacía Text Mining
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
45
Aplicación DM. ¿Como obtener
testículos grandes en los toros?
LUDY DE GARÇA LUDY DE GARÇA LUDY DE GARÇA LUDY DE GARÇA
C o m e n t á r i o s
Mayor Destaque da Raza NeIore PIusmarquista - Venta de Semen
Tiene Karvadi 2 veces en eI Pedigrí PIusmarquista - VoIumen de Producción de Semen
Toro deI Año ExpoineI Uberaba Diversas Veces PIusmarquista - Peso en Ia Expo UBERABA 1985
Gano Diversos Campeonatos de Raza NeIore PIusmarquista - Progenies Premiadas na Raza
EI Mejor hijo deI Legendario GIM de GARÇA PIusmarquista - Peso de Progenies
EI NeIore con mas hijos de mas de 1.100 Kg.
P r e m i os
Campeón Becerro 1981 Ourinhos Gran Campeón 1984 Barretos
Campeón Becerro 1981 MaríIia Gran Campeón 1984 UberIândia
Campeón Becerro 1981 Baurú Gran Campeón 1984 Pres. Prudente
Campeón Júnior 1982 MaríIia Gran Campeón 1984 Ribeirão Preto
Campeón Júnior 1982 Baurú Gran Campeón 1984 Ourinhos
Campeón Júnior 1982 Ribeirão Preto Gran Campeón 1984 Baurú
Campeón Toro Joven 1984 Barretos Gran Campeón 1984 Avaré
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
46
Programa de Mejoramiento
Genético de la Raza Nelore
Creado a partir de la unión de criadores y de investigadores Creado a partir de la unión de criadores y de investigadores
del Departamento de Genética de la Facultad de Medicina del Departamento de Genética de la Facultad de Medicina
(USP (USP- -Brasil), buscando tecnologías modernas y de fácil Brasil), buscando tecnologías modernas y de fácil
aplicación en la pecuaria para aumentar la productividad del aplicación en la pecuaria para aumentar la productividad del
rebaño de corte nacional. rebaño de corte nacional.
Formado por 60 rebaños con ganaderos de los estados de Formado por 60 rebaños con ganaderos de los estados de
Bahia, Goiás, Maranhão, Mato Grosso do Sul, Minas Gerais, Bahia, Goiás, Maranhão, Mato Grosso do Sul, Minas Gerais,
São Paulo y Tocantins. Un total de 200.000 animales en São Paulo y Tocantins. Un total de 200.000 animales en
control. control.
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
47
Metodologia do Modelo Animal
La Diferencia Esperada en la Progenie La Diferencia Esperada en la Progenie
(DEP) es usada en todo el mundo para (DEP) es usada en todo el mundo para
comparar el mérito genético de animales comparar el mérito genético de animales
para varias características. Su objetivo es para varias características. Su objetivo es
predecir la habilidad de transmisión predecir la habilidad de transmisión
genética de un animal evaluado como genética de un animal evaluado como
progenitor con respecto a su progenitor con respecto a su
descendencia. descendencia.
La DEP es calculada por la característica La DEP es calculada por la característica
genética de los animales a los 120, 240, genética de los animales a los 120, 240,
365 y 550 días y es expresada en la 365 y 550 días y es expresada en la
unidad de la característica, por ejemplo, unidad de la característica, por ejemplo,
kilogramos para peso y centímetros para kilogramos para peso y centímetros para
perímetro testicular, con signo positivo o perímetro testicular, con signo positivo o
negativo. negativo.
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
48
Contexto del Problema
¿Que características deben de tener eI repro-
ductor y Ia matriz para tener un toro con un
perímetro testicuIar grande?
9
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
49
Características da Base de Dados
Nome do Atributo Descrição do Atributo Atributo
G_ANIM Registro Genealógico Definitivo do Animal Inteiro
G_PAI Registro Genealógico Definitivo do Pai Inteiro
G_MAE Registro Genealógico Definitivo da Mãe Inteiro
CNI Número de Controle Ìnterno Exclusivo Inteiro
NFA Número da Fazenda Inteiro
SERIE Série fornecida pela ABCZ, identificadora dos animais Inteiro
RGN Registro Genealógico de Nascimento do Animal String
RGD Registro Genealógico Definitivo do Animal String
RC Raça Inteiro
SX Sexo do Animal Inteiro
DT_NASC Data de Nascimento do Animal Data
PAI_SER Série fornecida pela ABCZ, relativa ao pai Inteiro
PAI_RG Registro Genealógico Definitivo do Pai fornecido pela ABCZ String
MAE_SER Série fornecida pela ABCZ, relativa a Mãe Inteiro
MAE_RG Registro Genealógico Definitivo da Mãe fornecido pela ABCZ String
NOME Nome do Animal String
ANIMAL Código interno para identificar o animal Inteiro
F Coeficiente de consangüinidade do animal Real
DDPP120 Valor da DEP direta para peso aos 120 dias Real
ADPP120 Acurácia da DEP direta para peso aos 120 dias Real
DMPP120 Valor da DEP materna para peso aos 120 dias Real
AMPP120 Acurácia da DEP materna para peso aos 120 dias Real
DDPP240 Valor da DEP direta para peso aos 240 dias Real
ADPP240 Acurácia da DEP direta para peso aos 240 dias Real
DMPP240 Valor da DEP materna para peso aos 240 dias Real
AMPP240 Acurácia da DEP materna para peso aos 240 dias Real
DDPP365 Valor da DEP direta para peso aos 365 dias Real
ADPP365 Acurácia da DEP direta para peso aos 365 dias Real
DDPP550 Valor da DEP direta para peso aos 550 dias Real
ADPP550 Acurácia da DEP direta para peso aos 550 dias Real
DDPE365 Valor da DEP direta para perímetro escrotal aos 365 dias Real
ADPE365 Acurácia da DEP direta para perímetro escrotal aos 365 dias Real
DDPE550 Valor da DEP direta para perímetro escrotal aos 550 dias Real
ADPE550 Acurácia da DEP direta para perímetro escrotal aos 550 dias Real
MGT Mérito Genético Total Real
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
50
Transformación de la Base de
Dados
G_ANIM G_PAI G_MAE .... DEPs
AAAA BBBB CCCC .... ....
.... .... .... .... ....
DDDD EEEE FFFF .... ....
.... .... .... .... ....
GGGG DDDD AAAA .... ....
.... .... .... .... ....
RGN RGN_P RGN_M .... DEPs RGN_PAE RGN_P1 RGN_M1 .... DEPs RGN_MAE RGN_P2 RGN_M2 .... DEPs
.... .... .... .... .... .... .... .... .... .... ... .... .... .... ....
GGGG AAAA DDDD .... .... AAAA BBBB CCCC .... .... DDDD EEEE FFFF .... ....
.... .... .... .... .... .... .... .... .... .... ... .... .... .... ....
1a
2c
1b
2a 2b
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
51
Medidas Estadísticas Clásicas
Rango
Media
Moda
Mediana
Varianza
Desviación Estándar
CorreIación
Dendogramas
Histogramas
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
52
Métodos de Selección de Variables
REL¡EF{Euclidiana} Rough 8ets
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
53
Red Bayesiana
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
54
CN2
IF DDPP365 > 3.00
AND DDPE365 > 0.05
AND DDPE550_P > 1.50
THEN DDPE550 ÷ 0.35+ ¡100º] ¡60 0]
IF DDPE365 > 0.55
AND DDPE550_P > 0.65
AND DDPP550_M > -5.00
THEN DDPE550 ÷ 0.35+ ¡98,3º] ¡60 1]
IF DDPP365 > 2.60
AND DDPE365_P < 0.75
AND DDPE550_P > 0.95
AND DDPP120_M < 1.70
AND DDPP365_M > -1.35
THEN DDPE550 ÷ 0.35+ ¡100º]¡50 0]
IF 0.35 < DDPE365 < 0.65
AND DDPE550_P > 1.05
AND DDPP550_M > 0.25
THEN DDPE550 ÷ 0.35+ ¡100º] ¡60 0]
C4.5-rules
Rule 298:
DDPE550_P > 1.4
DDPP365_M > 0.6
-> DDPE550 0.35+ ¡97.3º] ¡50 0]
Rule 486:
DDPP550 > 11.8
DDPE365 > 0.2
DDPP120_P <÷ 3.5
DDPE550_P > -0.1
DMPP120_M > -0.2
-> DDPE550 0.35+ ¡92.7º] ¡25 1]
Rule 594:
DDPE365 > 0.4
DDPE550_P > 0.7
-> DDPE550 0.35+ ¡91.4º] ¡77 6]
Rule 652:
DDPP550 > -0.6
DDPE365 > 0
DDPE550_P > 0.9
-> DDPE550 0.35+ ¡89.6º] ¡90 15]
Reglas generadas y los trucos
10
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
55
Algunos de los conocimientos
obtenidos
Toros reproductores con perímetro testicuIar
grande (reaImente grande 40 cm.) no necesitan
de vacas buenas para que puedan transmitir
esa variabIe a Ios hijos.
A medida que eI perímetro testicuIar disminuye
eI peso de Ia vaca comienza a jugar un factor
importante (rangos son proporcionados).
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
56
Actual Tarea en el IMP. Complejidad
para caracterizar los yacimientos
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
57
Contexto del Problema
Test set
1704 1705 1802 1877 1928 1930
Scenario 1
Scenario 2
Scenario 3
B A
Training set
15100
15200
15300
15400
15500
15600
15700
131 records
Depth
(Ieet)
Ground Level
Oil well
160 records
297 records
210 records
151 records
135 records
R6E R7E R7E T2N
T1N
1877
1928
1930
1705
1704
1802
R6E R7E R7E T2N
T1N
1877
1928
1930
1705
1704
1802
º8patial ¡nformation
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
58
Corte de una superficie
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
59
L
i
t
o
t
i
p
o
s
P
r
o
c
e
s
a
d
o
d
e
R
e
g
i
s
t
r
o
s
G
e
o
f
ì
s
i
c
o
s
d
e
P
o
z
o
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
60
Resultados
GTM
11
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
61
Integrando propiedades del
yacimiento y modelo estructural
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
Textos Introductorios
KDnuggets
· http://www.kdnuggets.com/publications/
KDcentraI
· http://www.kdcentral.com/Tutorials/
Predictive Data Mining: A PracticaI Guide
· Sholom M. Weiss/Nitin Ìndurkhya; Morgan Kaufman.
Data Mining : Concepts and Techniques
· Jiawei Han, Micheline Kamber
Data Preparation For Data Mining
· Dorian Pyle
Data Mining: PracticaI Machine Learning TooIs and
Techniques with Java ImpIementations
· Ìan H. Witten, Eibe Frank
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
Direcciones DM
DM
· http://www.kdnuggets.com
· http://www.kdcentral.com
· http://www.modelandmine.com/links_dmining.htm
· http://www.crisp-dm.com/
DM y CRM
· http://www.thearling.com
Lista de discusión
· http://clubs.yahoo.com/clubs/datamining
VisuaIización
· http://www.cybergeography.org
Herramientas
· http://www.dacs.dtic.mil/techs/datamining/appendixB.shtml
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
64
Conclusiones
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
65
Conclusiones
Para que Data Mining tenga un gran impacto en
Ia empresa es necesario:
· URGENTE: Tener una mejor cultura de la Ìnformación y
de la Estadística.
· No se puede pasar a la era del conocimiento sin haber
pasado a la era de la información.
· Analizar constantemente la información para consolidar y
soportar la visión de la empresa a futuro.
· Necesidad de tener bases de datos consistentes y
adecuadas a los requerimientos de la empresa.
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
66
Conclusiones
Los resuItados obtenidos aI usar Data Mining
resuItan en nuevas aperturas de negocios.
Esta tecnoIogía ha sido un buen punto de
encuentro entre personas deI ámbito académico
y de negocios.
Conceptos como Bussiness InteIIigence o
Customer ReIationship Management invoIucran
a Data Mining.
No existe una herramienta única para Data
Mining (cada caso es un caso).
12
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
67
Para cualquier duda
Correo: IcmoIina@imp.mx
Página: http://www.Isi.upc.es/~IcmoIina
GoogIe: "Luis CarIos MoIina"
ArtícuIo: Data Mining: Torturando Ios datos
hasta que confiesen
· http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html
Está presentación se encuentra en:
· http://www.lsi.upc.es/~lcmolina/SC/html/paper/chih-dm.pdf
Data Mining: Torturando los Datos hasta que Confiesen
Luis Carlos Molina Félix 2003© copyright
68