You are on page 1of 39

INTELIGENCIA ARTIFICIAL

UNIVERSIDAD NACIONAL
DEL CENTRO DEL PERU

FACULTAD DE INGENIERIA DE MINAS

INTELIGENCIA
ARTIFICIAL EN LA MINERIA
Alumno: PALOMINO MEZA, Jhon Kenyi
INTELIGENCIA ARTIFICIAL
Para empezar, definamos lo que es Inteligencia artificial (IA): es
aquella que puede ser desarrollada a partir de la programación de
computadoras o máquinas para que imiten las funciones “cognitivas”
propias de los seres humanos: reconocer el habla humana (Siri),
reconocer personas en imágenes y videos (Facebook), entre otras.
Lo más importante es que la máquina pueda ir aprendiendo a través
de la experiencia, a este proceso se le denomina aprendizaje
automático que puede ser supervisado (algoritmos de clasificación) o
no supervisado (algoritmos de clusterización).
Vale recalcar que un problema clásico en IA es la
clasificación de datos en función de su semejanza con
ciertos patrones de referencia. Las observaciones con sus
respectivas clases se conocen como el conjunto de
aprendizaje. Cuando se recibe una nueva observación, se
clasifica en la clase más cercana. Existen diversos enfoques
matemáticos para generar clasificadores similares a las redes
neuronales, máquinas de soporte vectorial, y algoritmos del
grupo más cercano.
Qué es Minería de Datos

La minería de datos es un proceso analítico diseñado para


explorar grandes volúmenes de datos (generalmente datos de
negocio y mercado) con el objeto de descubrir patrones y
modelos de comportamiento o relaciones entre diferentes
variables.

Permite obtener valor a partir de la información que registran y


manejan las empresas, lo que ayuda a dirigir esfuerzos de mejorar
respaldados en datos históricos de diversa índole.

El descubrimiento de conocimiento en base de datos (KDD)


combina las técnicas tradicionales con numerosos recursos
desarrollados en el área de la inteligencia artificial. En estas
aplicaciones el término "Minería de Datos" (Data mining) ha tenido
más aceptación.
Los Algoritmos de Minería de Datos

El proceso de minería involucra ajustar modelos o determinar patrones a


partir de datos. Este ajuste normalmente es de tipo estadístico, en el
sentido que se permite un cierto ruido o error dentro del modelo.

Los algoritmos de minería de datos realizan en general tareas de:


• Descripción
• Predicción
• Segmentación
• Análisis de dependencias
• Detección de desviaciones

Descripción: normalmente es usada para análisis preliminar de los datos


(resumen, características de los datos, casos extremos, etc.). Con esto, el
usuario se sensibiliza con los datos y su estructura. Busca derivar
descripciones concisas de características de los datos (medias,
desviaciones estandares, etc.).
Los Algoritmos de Minería de Datos

La Predicción la podemos dividir en dos: Clasificación y


Estimación.

• Clasificación: Los datos son objetos caracterizados por


atributos que pertenecen a diferentes clases (etiquetas
discretas). La meta es inducir un modelo para poder
predecir una clase dados los valores de los atributos. Se
usan por ejemplo, árboles de decisión, reglas, análisis de
discriminantes, etc.

• Estimación o Regresión: las clases son continuas. La meta


es inducir un modelo para poder predecir el valor de la
clase dados los valores de los atributos. Se usan por
ejemplo, árboles de regresión, regresión lineal, redes
nueronales, kNN, etc.
Los Algoritmos de Minería de Datos

Segmentación: separación de los datos en subgrupos o clases


interesantes. Las clases pueden ser exhaustivas y mutuamente
exclusivas o jerárquicas y con traslapes.

Se puede utilizar con otras técnicas de minería de datos:


considerar cada subgrupo de datos por separado, etiquetarlos
y utilizar un algoritmo de clasificación.

Se usan algoritmos de clustering, SOM (self-organization


maps), EM (expectation maximization), k-means, etc.

Normalmente el usuario tiene una buena capacidad de formar


las clases y se han desarrollado herramientas visuales
interactivas para ayudar al usuario.
Los Algoritmos de Minería de Datos

Análisis de dependencias: El valor de un elemento puede


usarse para predecir el valor de otro.

La dependencia puede ser probabilística, puede definir una red


de dependencias o puede ser funcional (leyes físicas).

También se ha enfocado a encontrar si existe una alta


proporción de valores de algunos atributos que ocurren con
cierta medida de confianza junto con valores de otros
atributos.

Se pueden utilizar redes bayesianas, redes causales, y reglas


de asociación
Los Algoritmos de Minería de Datos

Detección de desviaciones, casos extremos o anomalías:


Detectar los cambios más significativos en los datos con
respecto a valores pasados o normales.

Sirve para filtrar grandes volúmenes de datos que son menos


probables de ser interesantes.

El problema está en determinar cuándo una desviación es


significativa para ser de interés
Técnicas mas Usadas en la Minería de Datos
Árboles de decisiones

Predicción de
Ozono en la
Ciudad de México.
Técnicas mas Usadas en la Minería de Datos
Métodos de Clasificación y Regresiones no lineales

Red
Neuronal
Prototípica
Técnicas mas Usadas en la Minería de Datos
Métodos basados en ejemplos prototípicos

Aprendizaje basado en instancias.


Técnicas mas Usadas en la Minería de Datos
Modelos gráficos de dependencias probabilísticas

Red bayesiana
de seguros
de coches.
Técnicas mas Usadas en la Minería de Datos
Reglas de Asociación
Usos de la Minería de Datos
 Empresas de telecomunicaciones, tarjetas de crédito y
compañías de seguros para la detección de fraudes,
optimización de campañas de marketing, descripción y
segmentación de clientes, predicción de fidelidad de
clientes.
 La industria del comercio para diseñar y evaluar
campañas de marketing, definir ofertas más
apropiadas o recomendaciones de productos a
clientes, y predecir riesgo en asignación de créditos a
clientes.
 La industria de la medicina para predecir la efectividad
de procedimientos quirúrgicos, exámenes médicos y
medicamentos
 Bancos e Instituciones Financieras...
Restricciones Iniciales en la Minería de Datos

 Sistemas parcialmente desconocidos: Si el modelo del sistema


que produce los datos es bien conocido, entonces no
necesitamos de la minería de datos ya que todas las variables
son de alguna manera predecibles.
 Enorme cantidad de datos: Bases de datos muy grandes
compensan la limitaciones de un modelo incompleto. Esto es
particularmente cierto cuando las redes neuronales y otros
técnicas adaptativas son utilizadas. En estos casos, se
requieren suficiente cantidad de datos para el entrenamiento y
la verificación.
 Potente hardware y software: Muchas de las herramientas
presentes en la minería de datos están basadas en el uso
intensivo de la computación, en consecuencia convenientes
equipos y software eficientes aumentarán el desempeño del
proceso, el cual a veces debe vérselas con producciones de
datos del orden de los Gbytes/hora.
Un caso famoso acerca del comportamiento de
los consumidores
Una situación muy popular sucedió en una cadena de víveres en USA.
Utilizando un software de minería de datos para estudiar el comportamiento de
sus clientes, encontraron relaciones interesantes entre pañales, cervezas,
hombres, y día de la semana.

Encontraron que los días jueves y sábado, los hombres que compraban
pañales también compraban cerveza.
EL PROCESO CRISP- DM [Gam-01]
EL PROCESO CRISP- DM [Gam-01]
FASE I: COMPRENSIÓN DEL PROBLEMA

1 . Determinación de los objetivos: entender la necesidad de


hacer Minería de Datos, determinando cual es el problema
que se desea resolver.

2. Definición de Criterios de Éxito: Una vez definido el


problema, es necesario disponer de criterios de éxito para el
proceso de Minería de Datos. Los criterios pueden ser:

• Objetivos (cuantitativos), por ejemplo un mejor numero de


detecciones y desviaciones.

• Subjetivos (cualitativos), en este caso, un experto en el


área del dominio califica el resultado del esfuerzo de
Minería de Datos con respecto a conocimiento preexistente
sobre el problema.
EL PROCESO CRISP- DM [Gam-01]
FASE I: COMPRENSIÓN DEL PROBLEMA

3. Calificación de la Situación: Una vez definido el problema y


sus criterios de solución, hay que tomar en cuenta los
aspectos relacionados al problema, como:
• ¿Cuál es el conocimiento experto o previo disponible
acerca del problema?,
• ¿Se tienen datos suficientes para intentar resolver el
problema?,
• ¿Se dispone de un glosario que permita aumentar la
comunicación entre los expertos en el dominio del problema
y los expertos en Minería de Datos?,
• ¿Cuál es la relación costo beneficio del proceso de Minería
de Datos?,
• ¿es rentable?
EL PROCESO CRISP- DM [Gam-01]
FASE I: COMPRENSIÓN DEL PROBLEMA

4. Determinación de las metas de la Minería de datos:


Consiste en una traducción de los objetivos del proyecto en
términos de tecnología de Minería de Datos.

Objetivo del Proyecto Meta de Minería de


Datos
Incrementar las ventas Determinar propiedades
de los clientes con
respecto a su poder de
compra.
Prevenir uso fraudulento Encontrar patrones críticos
de tarjetas de crédito en el uso fraudulento de
tarjetas de crédito o
construir un algoritmo
seguro para la detección
automática de fraudes.
EL PROCESO CRISP- DM [Gam-01]

FASE I: COMPRENSIÓN DEL PROBLEMA

5. Producción de un Plan del Proyecto: Finalmente, se crea un


plan para el proyecto que describa los pasos a seguir y las
técnicas empleadas en cada paso.
EL PROCESO CRISP- DM [Gam-01]

FASE II: COMPRENSIÓN DE LOS DATOS

1. Recolectar los datos iniciales: adquisición de los datos


iniciales y su preparación para futuro procesamiento. Se puede
producir las siguientes salidas: Listas de datos adquiridos,
localización de datos y métodos a usar para su adquisición y
problemas y soluciones relacionados a la adquisición de datos.

2. Descripción de los datos: lo cual significa principalmente


establecer el volumen de los datos (numero de registros y
campos por registro), identificación y significado de cada campo y
la descripción del formato inicial de los datos.
EL PROCESO CRISP- DM [Gam-01]

FASE II: COMPRENSIÓN DE LOS DATOS

3. Exploración de los Datos: Este paso no es obligatorio, pero


si útil en mucho aspectos. El rol principal es encontrar una
estructura general para los datos. Envuelve la aplicación de
pruebas estadísticas básicas que revelen propiedades en los
datos recién adquiridos: se crean tablas de frecuencia y para los
campos numéricos, se grafica su distribución y se buscan
dependencias.

4. Verificación de la Calidad de los Datos: se realizan chequeos


sobre los datos para determinar la consistencia de los valores
individuales de los campos, la cantidad y distribución de los
datos faltantes, encontrar valores fuera de rango. Se busca
asegurar la completitud y correctitud de los datos. Completitud
se refiere a la proporcionalidad y regularidad de los valores
faltantes y correctitud se refiere al descubrimiento de valores
erróneos en los datos y su posible solución.
EL PROCESO CRISP- DM [Gam-01]

FASE III: PREPARACIÓN DE LOS DATOS

1. Selección de Datos: Un subconjunto de los datos adquiridos


en las fases previas es seleccionado basado en criterios
también establecidos en fases anteriores: calidad de los datos,
limitaciones en el volumen o en los tipos de datos que están
relacionadas con las técnicas de Minería de Datos
preseleccionadas.

2. Limpieza de los Datos: Este paso complementa al anterior,


también es uno de los que más tiempo consumen, debido a la
enorme cantidad de técnicas que pueden aplicarse para
optimizar la calidad de los datos con vistas a la fase de
modelación.
EL PROCESO CRISP- DM [Gam-01]

FASE III: PREPARACIÓN DE LOS DATOS

3. Construcción de Nuevos Datos: Aquí se crean nuevas


estructuras a partir de los datos seleccionados, por ejemplo:
Generación de nuevos campos a partir de dos o más ya
existentes, creación de nuevos registros (muestras), fusión de
dos tablas que contengan atributos diferentes para el mismo
objeto, agregación de nuevos campos o nuevas tablas donde
se resumen características de múltiples registros o de otros
campos en nuevas tablas de resumen.
EL PROCESO CRISP- DM [Gam-01]

FASE III: PREPARACIÓN DE LOS DATOS

4. Formateo de los Datos: Este paso implica transformaciones


sintácticas de los datos sin modificar su significado, esto con
la idea de permitir o facilitar el empleo de alguna técnica de
Minería de Datos en particular. Algunas ejemplos son:

Reordenación de los campos y/o registros de la tabla (algunas


herramientas de modelación requieren que los campos estén
en cierto orden, las redes neuronales requieren que los
registros estén ubicados aleatoriamente),

Ajuste de los valores de los campos a las limitaciones de las


herramientas de modelación (remover comas, tabuladores,
caracteres especiales, máximos y mínimos para las cadenas de
caracteres, etc.)
EL PROCESO CRISP- DM [Gam-01]

FASE IV: MODELACIÓN

1. Selección de la Técnica de Modelación: ahora es el momento de


seleccionar una técnica de Minería de Datos en concreto. Para
escoger una técnica apropiada se debe tener en cuenta el objetivo
principal del proyecto y su relación con la principal división de las
herramientas de Minería de Datos de acuerdo al tipo de problema.
EL PROCESO CRISP- DM [Gam-01]

FASE IV: MODELACIÓN


Clasificación Métodos de inducción de reglas, Árboles de
Decisión, K vecinos más cercanos, razonamiento
basado en casos.

Predicción Análisis de regresión, Árboles de regresión,


redes neuronales, K vecinos más cercanos.

Análisis de Análisis de Correlación, Análisis de regresión,


Dependencia Reglas de Asociación, Redes Bayesianas,
programación con lógica inductiva.

Segmentación o Técnicas de Agrupación, redes neuronales,


Agrupación técnicas de visualización.
EL PROCESO CRISP- DM [Gam-01]

FASEIV: MODELACIÓN

2. Generación de Pruebas para el Modelo: Luego de construido un


modelo, se debe generar un procedimiento o mecanismo para probar
la calidad y validez del modelo. Típicamente se separan los datos en
dos conjuntos, uno de entrenamiento y otro de prueba, para luego
construir el modelo basado en el conjunto de entrenamiento y medir la
calidad del modelo generado con el conjunto de prueba.

3. Construcción del Modelo: Una vez que la técnica de modelación ha


sido seleccionada, se procede a ejecutarla sobre los datos
previamente preparados para generar un modelo.

Todas las técnicas de modelación tienen un conjunto de parámetros


que determinan las características del modelo a generar. La selección
de los parámetros óptimos para la técnica de modelación es un
proceso iterativo y se basa exclusivamente en los resultados
generados. Estos deben ser interpretados y su rendimiento justificado.
EL PROCESO CRISP- DM [Gam-01]

FASE IV: MODELACIÓN

4. Calificación del Modelo: Una vez que los modelos son generados,
estos son interpretados de acuerdo al conocimiento preexistente del
dominio y los criterios de éxito preestablecidos.

Expertos en el dominio del problema juzgan los modelos dentro del


contexto del dominio y expertos en Minería de Datos aplican sus
propios criterios (seguridad del conjunto de prueba, perdida o
ganancia de tablas, etc.)
EL PROCESO CRISP- DM [Gam-01]

FASE V: EVALUACIÓN DE LOS RESULTADOS

En esta fase se debe decidir si hay o no razones para construir


un modelo deficiente (relación costo - beneficio), si es aconsejable
probar el modelo en un problema real.

Además de los resultados directamente relacionados con el


objetivo del proyecto, ¿es aconsejable calificar el modelo con
relación a otros objetivos diferentes a los originales?, esto podría
revelar información adicional.

Se realiza la Revisión del Proceso, que se refiere a calificar al


proceso entero de Minería de Datos con la idea de identificar
elementos que pudieran ser mejorados.
EL PROCESO CRISP- DM [Gam-01]

FASE V: EVALUACIÓN DE LOS RESULTADOS

Por ultimo, en esta fase se toma una decisión acerca de Futuras


Fases.

Si se ha determinado que las fases hasta este momento han


generado resultados satisfactorios, podría decidirse pasar a la
fase de despliegue de resultados, sino, podría decidirse por otra
iteración desde la fase de preparación de datos o de modelación
con otros parámetros.

Podría ser incluso que en esta fase se decida partir desde cero
con un nuevo proyecto de Minería de Datos.
EL PROCESO CRISP- DM [Gam-01]

FASE VI: DESPLIEGUE DE LOS RESULTADOS

En esta fase se define una estrategia para desplegar los


resultados de la Minería de Datos.

1. Monitoreo y Mantenimiento: Si los modelos resultantes del


proceso de Minería de Datos son desplegados en el dominio
del problema como parte de la rutina diaria, es aconsejable
preparar estrategias de monitoreo y mantenimiento para ser
construidas sobre los modelos. La retroalimentación generado
por el monitoreo y mantenimiento pueden indicar si el modelo
está siendo utilizado apropiadamente.

2. Reporte Final: Es la conclusión del proyecto de Minería de


Datos. Resume los puntos importantes del proyecto, la
experiencia ganada y explica los resultados producidos.
Frases a recordar

 “De donde no hay, no se puede sacar”: calidad de los datos

 “Sólo interesan las respuestas a lo que no se sabe”: generalización

 “Cada uno a lo suyo”: el papel de los expertos y las herramientas

 “No hay que meterse en lo que no te importa”: perder miedo al


manejo de datos personales

 “Siempre se rompe la cuerda por lo más flojo”: cuidar todos los


eslabones del proceso

You might also like