T275 6 2

INTELIGENCIA ARTIFICIAL
UNIVERSIDAD NACIONAL
DEL CENTRO DEL PERU
FACULTAD DE INGENIERIA DE MINAS
INTELIGENCIA
ARTIFICIAL EN LA MINERIA
Alumno: PALOMINO MEZA, Jhon Kenyi
INTELIGENCIA ARTIFICIAL
Para empezar, definamos lo que es Inteligencia artificial (IA): es
aquella que puede ser desarrollada a partir de la programación de
computadoras o máquinas para que imiten las funciones “cognitivas”
propias de los seres humanos: reconocer el habla humana (Siri),
reconocer personas en imágenes y videos (Facebook), entre otras.
Lo más importante es que la máquina pueda ir aprendiendo a través
de la experiencia, a este proceso se le denomina aprendizaje
automático que puede ser supervisado (algoritmos de clasificación) o
no supervisado (algoritmos de clusterización).
Vale recalcar que un problema clásico en IA es la
clasificación de datos en función de su semejanza con
ciertos patrones de referencia. Las observaciones con sus
respectivas clases se conocen como el conjunto de
aprendizaje. Cuando se recibe una nueva observación, se
clasifica en la clase más cercana. Existen diversos enfoques
matemáticos para generar clasificadores similares a las redes
neuronales, máquinas de soporte vectorial, y algoritmos del
grupo más cercano.
Qué es Minería de Datos
La minería de datos es un proceso analítico diseñado para

explorar grandes volúmenes de datos (generalmente datos de
negocio y mercado) con el objeto de descubrir patrones y
modelos de comportamiento o relaciones entre diferentes
variables.
Permite obtener valor a partir de la información que registran y

manejan las empresas, lo que ayuda a dirigir esfuerzos de mejorar
respaldados en datos históricos de diversa índole.
El descubrimiento de conocimiento en base de datos (KDD)

combina las técnicas tradicionales con numerosos recursos
desarrollados en el área de la inteligencia artificial. En estas
aplicaciones el término "Minería de Datos" (Data mining) ha tenido
más aceptación.
Los Algoritmos de Minería de Datos
El proceso de minería involucra ajustar modelos o determinar patrones a

partir de datos. Este ajuste normalmente es de tipo estadístico, en el
sentido que se permite un cierto ruido o error dentro del modelo.
Los algoritmos de minería de datos realizan en general tareas de:

• Descripción
• Predicción
• Segmentación
• Análisis de dependencias
• Detección de desviaciones
Descripción: normalmente es usada para análisis preliminar de los datos

(resumen, características de los datos, casos extremos, etc.). Con esto, el
usuario se sensibiliza con los datos y su estructura. Busca derivar
descripciones concisas de características de los datos (medias,
desviaciones estandares, etc.).
La Predicción la podemos dividir en dos: Clasificación y

Estimación.
• Clasificación: Los datos son objetos caracterizados por

atributos que pertenecen a diferentes clases (etiquetas
discretas). La meta es inducir un modelo para poder
predecir una clase dados los valores de los atributos. Se
usan por ejemplo, árboles de decisión, reglas, análisis de
discriminantes, etc.
• Estimación o Regresión: las clases son continuas. La meta

es inducir un modelo para poder predecir el valor de la
clase dados los valores de los atributos. Se usan por
ejemplo, árboles de regresión, regresión lineal, redes
nueronales, kNN, etc.
Segmentación: separación de los datos en subgrupos o clases

interesantes. Las clases pueden ser exhaustivas y mutuamente
exclusivas o jerárquicas y con traslapes.
Se puede utilizar con otras técnicas de minería de datos:

considerar cada subgrupo de datos por separado, etiquetarlos
y utilizar un algoritmo de clasificación.
Se usan algoritmos de clustering, SOM (self-organization

maps), EM (expectation maximization), k-means, etc.
Normalmente el usuario tiene una buena capacidad de formar

las clases y se han desarrollado herramientas visuales
interactivas para ayudar al usuario.
Análisis de dependencias: El valor de un elemento puede

usarse para predecir el valor de otro.
La dependencia puede ser probabilística, puede definir una red

de dependencias o puede ser funcional (leyes físicas).
También se ha enfocado a encontrar si existe una alta

proporción de valores de algunos atributos que ocurren con
cierta medida de confianza junto con valores de otros
atributos.
Se pueden utilizar redes bayesianas, redes causales, y reglas

de asociación
Detección de desviaciones, casos extremos o anomalías:

Detectar los cambios más significativos en los datos con
respecto a valores pasados o normales.
Sirve para filtrar grandes volúmenes de datos que son menos

probables de ser interesantes.
El problema está en determinar cuándo una desviación es

significativa para ser de interés
Técnicas mas Usadas en la Minería de Datos
Árboles de decisiones
Predicción de
Ozono en la
Ciudad de México.
Métodos de Clasificación y Regresiones no lineales
Red
Neuronal
Prototípica
Métodos basados en ejemplos prototípicos
Aprendizaje basado en instancias.

Modelos gráficos de dependencias probabilísticas
Red bayesiana
de seguros
de coches.
Reglas de Asociación
Usos de la Minería de Datos
 Empresas de telecomunicaciones, tarjetas de crédito y
compañías de seguros para la detección de fraudes,
optimización de campañas de marketing, descripción y
segmentación de clientes, predicción de fidelidad de
clientes.
 La industria del comercio para diseñar y evaluar
campañas de marketing, definir ofertas más
apropiadas o recomendaciones de productos a
clientes, y predecir riesgo en asignación de créditos a
clientes.
 La industria de la medicina para predecir la efectividad
de procedimientos quirúrgicos, exámenes médicos y
medicamentos
 Bancos e Instituciones Financieras...
Restricciones Iniciales en la Minería de Datos
 Sistemas parcialmente desconocidos: Si el modelo del sistema

que produce los datos es bien conocido, entonces no
necesitamos de la minería de datos ya que todas las variables
son de alguna manera predecibles.
 Enorme cantidad de datos: Bases de datos muy grandes
compensan la limitaciones de un modelo incompleto. Esto es
particularmente cierto cuando las redes neuronales y otros
técnicas adaptativas son utilizadas. En estos casos, se
requieren suficiente cantidad de datos para el entrenamiento y
la verificación.
 Potente hardware y software: Muchas de las herramientas
presentes en la minería de datos están basadas en el uso
intensivo de la computación, en consecuencia convenientes
equipos y software eficientes aumentarán el desempeño del
proceso, el cual a veces debe vérselas con producciones de
datos del orden de los Gbytes/hora.
Un caso famoso acerca del comportamiento de
los consumidores
Una situación muy popular sucedió en una cadena de víveres en USA.
Utilizando un software de minería de datos para estudiar el comportamiento de
sus clientes, encontraron relaciones interesantes entre pañales, cervezas,
hombres, y día de la semana.
Encontraron que los días jueves y sábado, los hombres que compraban
pañales también compraban cerveza.
EL PROCESO CRISP- DM [Gam-01]
FASE I: COMPRENSIÓN DEL PROBLEMA
1 . Determinación de los objetivos: entender la necesidad de

hacer Minería de Datos, determinando cual es el problema
que se desea resolver.
2. Definición de Criterios de Éxito: Una vez definido el

problema, es necesario disponer de criterios de éxito para el
proceso de Minería de Datos. Los criterios pueden ser:
• Objetivos (cuantitativos), por ejemplo un mejor numero de

detecciones y desviaciones.
• Subjetivos (cualitativos), en este caso, un experto en el

área del dominio califica el resultado del esfuerzo de
Minería de Datos con respecto a conocimiento preexistente
sobre el problema.
3. Calificación de la Situación: Una vez definido el problema y

sus criterios de solución, hay que tomar en cuenta los
aspectos relacionados al problema, como:
• ¿Cuál es el conocimiento experto o previo disponible
acerca del problema?,
• ¿Se tienen datos suficientes para intentar resolver el
problema?,
• ¿Se dispone de un glosario que permita aumentar la
comunicación entre los expertos en el dominio del problema
y los expertos en Minería de Datos?,
• ¿Cuál es la relación costo beneficio del proceso de Minería
de Datos?,
• ¿es rentable?
4. Determinación de las metas de la Minería de datos:

Consiste en una traducción de los objetivos del proyecto en
términos de tecnología de Minería de Datos.
Objetivo del Proyecto Meta de Minería de

Datos
Incrementar las ventas Determinar propiedades
de los clientes con
respecto a su poder de
compra.
Prevenir uso fraudulento Encontrar patrones críticos
de tarjetas de crédito en el uso fraudulento de
tarjetas de crédito o
construir un algoritmo
seguro para la detección
automática de fraudes.
5. Producción de un Plan del Proyecto: Finalmente, se crea un

plan para el proyecto que describa los pasos a seguir y las
técnicas empleadas en cada paso.
FASE II: COMPRENSIÓN DE LOS DATOS
1. Recolectar los datos iniciales: adquisición de los datos

iniciales y su preparación para futuro procesamiento. Se puede
producir las siguientes salidas: Listas de datos adquiridos,
localización de datos y métodos a usar para su adquisición y
problemas y soluciones relacionados a la adquisición de datos.
2. Descripción de los datos: lo cual significa principalmente

establecer el volumen de los datos (numero de registros y
campos por registro), identificación y significado de cada campo y
la descripción del formato inicial de los datos.
FASE II: COMPRENSIÓN DE LOS DATOS
3. Exploración de los Datos: Este paso no es obligatorio, pero

si útil en mucho aspectos. El rol principal es encontrar una
estructura general para los datos. Envuelve la aplicación de
pruebas estadísticas básicas que revelen propiedades en los
datos recién adquiridos: se crean tablas de frecuencia y para los
campos numéricos, se grafica su distribución y se buscan
dependencias.
4. Verificación de la Calidad de los Datos: se realizan chequeos

sobre los datos para determinar la consistencia de los valores
individuales de los campos, la cantidad y distribución de los
datos faltantes, encontrar valores fuera de rango. Se busca
asegurar la completitud y correctitud de los datos. Completitud
se refiere a la proporcionalidad y regularidad de los valores
faltantes y correctitud se refiere al descubrimiento de valores
erróneos en los datos y su posible solución.
FASE III: PREPARACIÓN DE LOS DATOS
1. Selección de Datos: Un subconjunto de los datos adquiridos

en las fases previas es seleccionado basado en criterios
también establecidos en fases anteriores: calidad de los datos,
limitaciones en el volumen o en los tipos de datos que están
relacionadas con las técnicas de Minería de Datos
preseleccionadas.
2. Limpieza de los Datos: Este paso complementa al anterior,

también es uno de los que más tiempo consumen, debido a la
enorme cantidad de técnicas que pueden aplicarse para
optimizar la calidad de los datos con vistas a la fase de
modelación.
3. Construcción de Nuevos Datos: Aquí se crean nuevas

estructuras a partir de los datos seleccionados, por ejemplo:
Generación de nuevos campos a partir de dos o más ya
existentes, creación de nuevos registros (muestras), fusión de
dos tablas que contengan atributos diferentes para el mismo
objeto, agregación de nuevos campos o nuevas tablas donde
se resumen características de múltiples registros o de otros
campos en nuevas tablas de resumen.
4. Formateo de los Datos: Este paso implica transformaciones

sintácticas de los datos sin modificar su significado, esto con
la idea de permitir o facilitar el empleo de alguna técnica de
Minería de Datos en particular. Algunas ejemplos son:
Reordenación de los campos y/o registros de la tabla (algunas

herramientas de modelación requieren que los campos estén
en cierto orden, las redes neuronales requieren que los
registros estén ubicados aleatoriamente),
Ajuste de los valores de los campos a las limitaciones de las

herramientas de modelación (remover comas, tabuladores,
caracteres especiales, máximos y mínimos para las cadenas de
caracteres, etc.)
FASE IV: MODELACIÓN
1. Selección de la Técnica de Modelación: ahora es el momento de

seleccionar una técnica de Minería de Datos en concreto. Para
escoger una técnica apropiada se debe tener en cuenta el objetivo
principal del proyecto y su relación con la principal división de las
herramientas de Minería de Datos de acuerdo al tipo de problema.

Clasificación Métodos de inducción de reglas, Árboles de
Decisión, K vecinos más cercanos, razonamiento
basado en casos.
Predicción Análisis de regresión, Árboles de regresión,

redes neuronales, K vecinos más cercanos.
Análisis de Análisis de Correlación, Análisis de regresión,

Dependencia Reglas de Asociación, Redes Bayesianas,
programación con lógica inductiva.
Segmentación o Técnicas de Agrupación, redes neuronales,

Agrupación técnicas de visualización.
FASEIV: MODELACIÓN
2. Generación de Pruebas para el Modelo: Luego de construido un

modelo, se debe generar un procedimiento o mecanismo para probar
la calidad y validez del modelo. Típicamente se separan los datos en
dos conjuntos, uno de entrenamiento y otro de prueba, para luego
construir el modelo basado en el conjunto de entrenamiento y medir la
calidad del modelo generado con el conjunto de prueba.
3. Construcción del Modelo: Una vez que la técnica de modelación ha

sido seleccionada, se procede a ejecutarla sobre los datos
previamente preparados para generar un modelo.
Todas las técnicas de modelación tienen un conjunto de parámetros

que determinan las características del modelo a generar. La selección
de los parámetros óptimos para la técnica de modelación es un
proceso iterativo y se basa exclusivamente en los resultados
generados. Estos deben ser interpretados y su rendimiento justificado.
4. Calificación del Modelo: Una vez que los modelos son generados,
estos son interpretados de acuerdo al conocimiento preexistente del
dominio y los criterios de éxito preestablecidos.
Expertos en el dominio del problema juzgan los modelos dentro del

contexto del dominio y expertos en Minería de Datos aplican sus
propios criterios (seguridad del conjunto de prueba, perdida o
ganancia de tablas, etc.)
FASE V: EVALUACIÓN DE LOS RESULTADOS
En esta fase se debe decidir si hay o no razones para construir

un modelo deficiente (relación costo - beneficio), si es aconsejable
probar el modelo en un problema real.
Además de los resultados directamente relacionados con el

objetivo del proyecto, ¿es aconsejable calificar el modelo con
relación a otros objetivos diferentes a los originales?, esto podría
revelar información adicional.
Se realiza la Revisión del Proceso, que se refiere a calificar al

proceso entero de Minería de Datos con la idea de identificar
elementos que pudieran ser mejorados.
FASE V: EVALUACIÓN DE LOS RESULTADOS
Por ultimo, en esta fase se toma una decisión acerca de Futuras

Fases.
Si se ha determinado que las fases hasta este momento han

generado resultados satisfactorios, podría decidirse pasar a la
fase de despliegue de resultados, sino, podría decidirse por otra
iteración desde la fase de preparación de datos o de modelación
con otros parámetros.
Podría ser incluso que en esta fase se decida partir desde cero
con un nuevo proyecto de Minería de Datos.
FASE VI: DESPLIEGUE DE LOS RESULTADOS
En esta fase se define una estrategia para desplegar los

resultados de la Minería de Datos.
1. Monitoreo y Mantenimiento: Si los modelos resultantes del

proceso de Minería de Datos son desplegados en el dominio
del problema como parte de la rutina diaria, es aconsejable
preparar estrategias de monitoreo y mantenimiento para ser
construidas sobre los modelos. La retroalimentación generado
por el monitoreo y mantenimiento pueden indicar si el modelo
está siendo utilizado apropiadamente.
2. Reporte Final: Es la conclusión del proyecto de Minería de

Datos. Resume los puntos importantes del proyecto, la
experiencia ganada y explica los resultados producidos.
Frases a recordar
 “De donde no hay, no se puede sacar”: calidad de los datos
 “Sólo interesan las respuestas a lo que no se sabe”: generalización
 “Cada uno a lo suyo”: el papel de los expertos y las herramientas
 “No hay que meterse en lo que no te importa”: perder miedo al

manejo de datos personales
 “Siempre se rompe la cuerda por lo más flojo”: cuidar todos los

eslabones del proceso

T275 6 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

T275 6 2

Uploaded by

Copyright:

Available Formats

INTELIGENCIA ARTIFICIAL

FACULTAD DE INGENIERIA DE MINAS

La minería de datos es un proceso analítico diseñado para

Permite obtener valor a partir de la información que registran y

El descubrimiento de conocimiento en base de datos (KDD)

El proceso de minería involucra ajustar modelos o determinar patrones a

Los algoritmos de minería de datos realizan en general tareas de:

Descripción: normalmente es usada para análisis preliminar de los datos

La Predicción la podemos dividir en dos: Clasificación y

• Clasificación: Los datos son objetos caracterizados por

• Estimación o Regresión: las clases son continuas. La meta

Segmentación: separación de los datos en subgrupos o clases

Se puede utilizar con otras técnicas de minería de datos:

Se usan algoritmos de clustering, SOM (self-organization

Normalmente el usuario tiene una buena capacidad de formar

Análisis de dependencias: El valor de un elemento puede

La dependencia puede ser probabilística, puede definir una red

También se ha enfocado a encontrar si existe una alta

Se pueden utilizar redes bayesianas, redes causales, y reglas

Detección de desviaciones, casos extremos o anomalías:

Sirve para filtrar grandes volúmenes de datos que son menos

El problema está en determinar cuándo una desviación es

Aprendizaje basado en instancias.

 Sistemas parcialmente desconocidos: Si el modelo del sistema

1 . Determinación de los objetivos: entender la necesidad de

2. Definición de Criterios de Éxito: Una vez definido el

• Objetivos (cuantitativos), por ejemplo un mejor numero de

• Subjetivos (cualitativos), en este caso, un experto en el

3. Calificación de la Situación: Una vez definido el problema y

4. Determinación de las metas de la Minería de datos:

Objetivo del Proyecto Meta de Minería de

FASE I: COMPRENSIÓN DEL PROBLEMA

5. Producción de un Plan del Proyecto: Finalmente, se crea un

FASE II: COMPRENSIÓN DE LOS DATOS

1. Recolectar los datos iniciales: adquisición de los datos

2. Descripción de los datos: lo cual significa principalmente

FASE II: COMPRENSIÓN DE LOS DATOS

3. Exploración de los Datos: Este paso no es obligatorio, pero

4. Verificación de la Calidad de los Datos: se realizan chequeos

FASE III: PREPARACIÓN DE LOS DATOS

1. Selección de Datos: Un subconjunto de los datos adquiridos

2. Limpieza de los Datos: Este paso complementa al anterior,

FASE III: PREPARACIÓN DE LOS DATOS

3. Construcción de Nuevos Datos: Aquí se crean nuevas

FASE III: PREPARACIÓN DE LOS DATOS

4. Formateo de los Datos: Este paso implica transformaciones

Reordenación de los campos y/o registros de la tabla (algunas

Ajuste de los valores de los campos a las limitaciones de las

FASE IV: MODELACIÓN

1. Selección de la Técnica de Modelación: ahora es el momento de

FASE IV: MODELACIÓN

Predicción Análisis de regresión, Árboles de regresión,

Análisis de Análisis de Correlación, Análisis de regresión,

Segmentación o Técnicas de Agrupación, redes neuronales,

2. Generación de Pruebas para el Modelo: Luego de construido un

3. Construcción del Modelo: Una vez que la técnica de modelación ha

Todas las técnicas de modelación tienen un conjunto de parámetros

FASE IV: MODELACIÓN

Expertos en el dominio del problema juzgan los modelos dentro del

FASE V: EVALUACIÓN DE LOS RESULTADOS

En esta fase se debe decidir si hay o no razones para construir

Además de los resultados directamente relacionados con el

Se realiza la Revisión del Proceso, que se refiere a calificar al