You are on page 1of 60

Universidad Tecnológica de Panamá

Facultad de Ingeniería de Sistemas Computacionales


Lic. en Ingeniería de Sistemas de Información

Proyecto #2
Data Mining

2010
¿Qué es la Minería de Datos?
• La Minería de Datos (Data Mining) es una tecnología compuesta por
etapas que integra varias áreas y que no se debe confundir con un
gran software. Consiste en la extracción no trivial de información
que reside de manera implícita en los datos. Dicha información era
previamente desconocida y podrá resultar útil para algún proceso.
En otras palabras, la minería de datos prepara, sondea y explora los
datos para sacar la información oculta en ellos. Está fuertemente
ligada con la supervisión de procesos industriales, ya que resulta
muy útil para aprovechar los datos almacenados en las bases de
datos.
¿Qué es la Minería de Datos?
• Las bases de la minería de datos se encuentran en la inteligencia
artificial y en el análisis estadístico. Mediante los modelos extraídos
utilizando técnicas de minería de datos se aborda la solución a
problemas de predicción, clasificación y segmentación.

• Durante el desarrollo de un proyecto de este tipo se usan diferentes


aplicaciones software en cada etapa que pueden ser estadísticas, de
visualización de datos o de inteligencia artificial, principalmente.

• Actualmente existen aplicaciones o herramientas comerciales de


data mining muy poderosas que contienen un sinfín de utilerías que
facilitan el desarrollo de un proyecto. Sin embargo, casi siempre
acaban complementándose con otra herramienta.
Objetivos Principales
• Data Mining persigue ciertos objetivos de manera específica, a saber:

▫ Descripción: El principal producto del proceso de la minería de datos es el


descubrimiento de reglas. Estas mostrarán nuevas relaciones entre las
variables o excepciones de acuerdo a la empresa en que se utilice este proceso.
Ello enriquecerá el análisis y la descripción de la forma en que trabaja una
compañía y ayudará en la planificación y en el diseño de futuros cambios.

▫ Predicción (Forecasting): Una vez descubiertas reglas importantes, estas


pueden ser utilizadas para estimar algunas variables de salida. Puede ser en el
caso de secuencias en el tiempo, o bien en la identificación e interrupción a
tiempo, de una futura mala experiencia de crédito. En esta tarea, se
complementan las técnicas estadísticas tradicionales con aquellas
provenientes de la inteligencia artificial.
Características Principales
• Algunas de las características de Data Mining son:

▫ Las herramientas de la minería de datos se combinan fácilmente y


pueden analizarse y procesarse rápidamente.
▫ Debido a la gran cantidad de datos, algunas veces resulta necesario
usar procesamiento en paralelo para la minería de datos.
▫ La minería de datos produce cinco tipos de información:
 Asociaciones.
 Secuencias.
 Clasificaciones.
 Agrupamientos.
 Pronósticos.
▫ Los mineros de datos usan varias herramientas y técnicas.
Ventajas de la Minería de Datos
• Usar minería de datos para construir un modelo desde las bases de datos tiene las
siguientes ventajas:
▫ Los modelos son fáciles de entender.
Personas sin un back up importante de estadísticas pueden interpretar el modelo y
compararlo con sus propias ideas.

▫ Enormes bases de datos pueden ser analizadas.


Enormes bases de datos pueden ser analizadas mediante la tecnología de la
minería de datos. Estas bases de datos pueden ser enormes tanto en largo como en
ancho.
 
▫ La minería de datos descubre información que no se esperaba obtener.
Como muchos modelos diferentes son validados, algunos resultados inesperados
tienden a aparecer.
Ventajas de la Minería de Datos
▫ Los Modelos Son Confiables
El modelo es probado y comprobado usando técnicas estadísticas
antes de ser usado, luego las predicciones que se obtienen por el
modelo son válidas y confiables.
 
▫ Los modelos se construyen de manera rápida.
La minería de datos permite construir y generar modelos en sólo
unos minutos u horas. El modelado se torna mucho más fácil
puesto que muchos algoritmos son probados y sólo el mejor
modelo es entregado al usuario.
Arquitectura Fundamental
• El producto está basado en una arquitectura de tres elementos en
conjunto:

▫ La primera es la interfaz del usuario (GUI). Las interfaces de usuario


están escritas en lenguaje puramente de Java; lo que significa cero
preocupaciones por el mantenimiento por parte del cliente, y poder
aplicarlo desde un browser conectado en red.

▫ La segunda es el servidor de la aplicación de la minería de datos. El


servidor da la funcionalidad a la minería de datos. Contiene un repositorio
que mantiene todos los objetos en el ambiente de la minería de datos.
 
▫ La última es la base de datos como Data Warehouse. Este contiene los
datos sobre los cuales se hará la minería.
Ejemplos de aplicación de la Minería de
Datos
• Aplicación en la universidad.
▫ Se pretende conocer si los recién titulados de una universidad
llevan a cabo actividades profesionales relacionadas con sus
estudios. Se hizo un estudio sobre los recién titulados de la
carrera de Ingeniería en Sistemas Computacionales del Instituto
Tecnológico de Chihuahua, en México. Se quería observar si sus
recién titulados se insertaban en actividades profesionales
relacionadas con sus estudios y, en caso negativo, se buscaba
saber el perfil que caracterizó a los ex-alumnos durante su
estancia en la universidad. El objetivo era saber si con los planes
de estudio de la universidad y el aprovechamiento del alumno se
hacía una buena inserción laboral o si existían otras variables
que participaban en el proceso.
Ejemplos de aplicación de la Minería de
Datos
• Aplicación en la universidad.
▫ Dentro de la información considerada estaba el sexo, la edad, la
escuela de procedencia, el desempeño académico, la zona
económica donde tenía su vivienda y la actividad profesional,
entre otras variables. Se descubrió que existían cuatro variables
que determinaban la adecuada inserción laboral, que son
citadas de acuerdo con su importancia: zona económica donde
habitaba el estudiante, colegio de donde provenía, nota al
ingresar y promedio final al salir de la carrera. A partir de estos
resultados, la universidad tendrá que hacer un estudio
socioeconómico sobre grupos de alumnos que pertenecían a las
clases económicas bajas para dar posibles soluciones, debido a
que tres de las cuatro variables no dependían de la universidad.
Ejemplos de Aplicaciones y Herraminetas

• Weka: Magnífica suite de minería de datos de libre


distribución.

▫ Weka es una colección de máquinas virtuales para implementar


algoritmos para tareas de minería de datos. Los algoritmos
pueden aplicarse directamente a un conjunto de datos o pueden
utilizarse desde un programa de Java. Weka contiene
herramientas para el procesamiento de datos, clasificación,
asociación, visualización, entre otras. También está bien
preparado para desarrollar esquemas. Weka es un software
abierto emitido por GNU.
Ejemplos de Aplicaciones y Herraminetas

• Xelopes: Librería con licencia pública GNU para el


desarrollo de aplicaciones de minería de datos.

▫ Es una librería de plataforma independiente para


utilización de Data Mining. Proporciona algoritmos de
minería de datos muy eficaces que usted puede integrar
transparentemente en sus aplicaciones. Apoya la
automatización de selección de parámetros de los métodos
para que éstos puedan desplegarse totalmente
automáticamente.
Extracción del Conocimiento
• El proceso de extracción del conocimiento comienza con
la recopilación e integración de la información a partir de
unos datos iniciales que se dispone. Las primeras
fases son muy importantes porque determinan, que las
fases sucesivas sean capaces de extraer conocimiento
valido y útil a partir de la información original.
Fases Principales
Fases Principales - Selección
• En esta fase se integran y recopilan los datos, se
determinan las fuentes de información que
pueden ser útiles y donde conseguirlas, se
identifican y selecciona las variables relevantes
en los datos y se aplican las técnicas de muestreo
adecuadas.
Fases Principales - Exploración
• Esto es debido a que los datos provienen de diversas fuentes, es
necesaria su exploración mediantes técnicas formales de análisis
exploratorio de datos, buscando entre otras cosas la distribución
de los datos, su simetría, la correlaciones existentes en la
información.

• Histograma de frecuencia: es conveniente iniciar el análisis


exploratorio de datos con la construcción del histograma de
frecuencias asociados, para poder así instruir la distribución de
probabilidad de los datos su normalidad, su simetría y otras
propiedades interesantes del análisis de datos.
Fases Principales –
Limpieza y Transformación
• Ya que la información puede contener valores atípicos, valores
faltantes y valores erróneos. En esta fase se analizan la influencia
de los datos atípicos, se imputa la información faltante o se
eliminan o corrigen los datos incorrectos.

• Valores atípicos: Es una puntuación extrema dentro de una


variable.

• Información faltante: cuando se aplica un método de análisis


multivariante sobre los datos disponibles pueda ser que no exista
información para determinadas observaciones y variables.
Fases Principales – Minería de Datos

• La fase de minería de datos, engloba técnicas predictivas


enfocadas a la modelización y clasificación ad hoc, y técnicas
descriptivas enfocadas generalmente a la clasificación post
hoc y otros tipos de técnicas variadas.

• Técnicas:
▫ Técnicas predictiva: especifican el modelo para los datos en base
a un conocimiento teórico previo.

▫ Técnicas descriptivas: no se asigna ningún papel predeterminado


a las variables.
Fases Principales - Evaluación

• Una vez obtenido el modelo, se debe proceder a


su validación, comprobando que las
conclusiones que arroja son válidas y
suficientemente satisfactorias.
Fases Principales – Difusión y Uso
• Elaboración de informes para su distribución.
• Usar el nuevo conocimiento de forma independiente.
• Incorporarlo a sistemas ya existentes (verificar con
conocimiento ya usado para evitar inconsistencias y
posibles conflictos).
• La monitorización del sistema en acción dará lugar a
nuevos.
• casos que realimentarán el ciclo del KDD
• Las condiciones iniciales pueden variar, invalidando el
modelo adquirido.
Importancia de la Minería de Datos
• Entre los beneficios que ofrece la minería de datos están la
posibilidad de elevar los niveles de competencia de los negocios,
basándose en la rapidez para identificar, procesar y extraer la
información que realmente es importante, descubriendo
conocimiento y patrones en bases de datos. Su facilidad de uso
hace que se pueda aplicar a cualquier área del conocimiento.
Como limitaciones destacan la necesidad de dedicar mucho
esfuerzo al establecimiento de medidas de evaluación del
resultado derivado de la aplicación de la minería, así como el
desafío que representa analizar datos que cambian en tiempo
real.
Importancia de la Minería de Datos
• La Minería de Datos y su impacto en la toma de decisiones en los negocios:

▫ La Minería de Datos, bien empleada, se convierte en una herramienta estratégica


que eleva los niveles de competencia en el cambiante mundo de los negocios.
▫ La Minería de Datos ha tenido una reciente inclusión en los negocios, debido a la
enorme preocupación de las empresas por conocer más allá de los datos que éstos
manejan.
▫ Para el aprovechamiento de la gran cantidad de conocimiento en la Minería de
Datos es necesario reducir la cantidad de datos, quedándonos sólo con la
información mínima necesaria, para disminuir el esfuerzo computacional y
humano.
▫ Con Data Mining, las organizaciones cuentan con una nueva forma de ver sus
datos, prometiendo beneficios a la solución de una gran variedad de problemas
como: planeación económica, inteligencia empresarial, finanzas, análisis de
mercados y análisis de perfiles de clientes.
Casos de Éxito en la Minería de Datos
• Un importante hecho que describen Molina y García (2004) es que
con la implementación de procesos de Minería de Datos, a través de
la aplicación de algunas técnicas estadísticas avanzadas y nuevos
métodos de extracción de conocimiento en grandes base de datos, se
pueden determinar las características contables de las empresas
más rentables, al igual que el perfil de sus clientes. Se hace
imprescindible, por un lado, un análisis exploratorio profundo de la
base de datos y el empleo de métodos robustos, que hagan que
dichos componentes sean menos sensibles a los amplios casos
estadísticos. Por otro lado, es aconsejable diseñar con base a
opiniones de expertos, si no hay información adecuada, o utilizar
algún sistema de aprendizaje, por ejemplo, la utilización de redes
neuronales, para el descubrimiento de patrones y extraer la
información de la base de datos disponible.
Casos de Éxito en la Minería de Datos
• Autores como Han y Kamber (2001) consideran que el auge que ha
alcanzado actualmente el Data Mining es debido a que en el presente nos
encontramos ante enormes cantidades de datos y con la urgente necesidad
de transformarlos en información útil y conocimiento. El Data Mining es la
evolución natural de la tecnología de información. Por lo antes expuesto, se
puede inferir que las necesidades de información de las organizaciones ha
cambiando a lo largo del tiempo. Hoy día, la creciente dinámica de mercado
y competitividad llevan a la necesidad de contar con la información
adecuada en el momento indicado y para ello los gerentes necesitan estar
bien informados para poder tomar las decisiones de negocio apropiadas.
Por otra parte, los datos con los que cuentan dichas organizaciones
generalmente se encuentran dispersos a través de diversos sistemas,
propiciando de esta manera que datos valiosos se pierdan. De esto último,
se puede decir que lo que poseen las empresas son datos, no información.
Herramienta para Data Mining
RapidMiner
Descripción General
• RapidMiner (anteriormente, YALE, Yet Another
Learning Environment) es un programa
informático para el análisis y minería de datos.
• Permite el desarrollo de procesos de análisis de
datos mediante el encadenamiento de
operadores a través de un entorno gráfico.
• Se usa en investigación y en aplicaciones
empresariales.
Descripción General
• RapidMiner es el software de minería de datos
opensource lider en el mundo (de acuerdo a la
encuesta KDNuggets 2007 y 2008 y la Data Mining
Cup Study 2007).
• Empleada en cientos de aplicaciones en mas de 40
paises. Numerosas compañias lideres alrededor del
mundo impulsan RapidMiner, incluyendo:
▫ Ford, Honda, E.ON, Nokia, IBM, Cisco, Hewlett
Packard, Elexso, Akzo Nobel, PharmaDM, Aureus
Pharma, Sanofi-Aventis, BNP Paribas, Bank of America,
Merril Lynch, mobilkom austria y muchas mas.
Descripción General
• RapidMiner es una completa plataforma
integrada para Data Mining, Análisis Predictivo
e Inteligencia de Negocio, y entre sus principales
cualidades estan:
▫ Rápida creación de prototipos y mas allá:
desde el primer análisis exploratorio a la solución
lista para producción en algunos pasos.
▫ Inteligencia de Negocios inteligente: ETL,
OLAP, Modelado Predictivo y Reportes
combinados en una única solución.
Descripción General
▫ Fáciles Conexiones: Numerosos conectores
para las mas comunes bases y formatos de datos
como también data no estructurada como
documentos de texto.
▫ Sistema modular: Flexibilidad y fácil
expansibilidad.
▫ Precio Justo: Alta calidad y bajo costo total de
propiedad en comparación con productos
propietarios.
Características y Funciones de RapidMiner
• Conectividad: Bases de datos como Oracle, IBM DB2,
MS SQL Server, MySQL, Ingres, Postgres, Teradata, etc.;
Excel, SPSS, CSV, dBase, Arff, DasyLab; documentos de
texto y paginas web en formato ASCII, PDF, HTML y
XML. Datos de audio, datos de series de tiempo.
• Modelado automatizado: Técnicas de aprendizaje
estadístico como Support Vector Machines (SVM), rule
learners, arboles de decisión, Bayes, procesos
Guassianos, redes neuronales, optimización evolutiva,
boosting, Apriori, FPGGrowth, clustering y mucho mas.
Características y Funciones de RapidMiner
• ETL and OLAP: Agregación, discretizacion,
normalización, filtro, sampling, PCA, valoración
de factores de influencia, cuantificación de
correlaciones, reposición de valores perdidos,
generacion de nuevas variables y mucho mas.
• Evaluación: cross-validation, leave-one-out,
sliding time windows, back testing, tests de
significancia, ROC y mucho mas.
Características y Funciones de RapidMiner
• Meta Operadores: Parámetros automatizados
de optimización, ciclos, estructuras de control,
macros y mucho más.

• Visualización: Gráficos 1D, 2D y 3D en linea,


Andrews, paralelos, desviaciones, SOM, lifts y
mucho mas.
Valoración
• Como ya lo mencionamos antes, RapidMiner es
una herramienta completamente Open Source
en su versión Community Edition, la que es
mantenida principalmente por la comunidad en
internet.
• Además de esta, la empresa que lleva a cabo su
desarrollo ofrece Tres versiones mas como
Enterprise Edition, las cuales son: Small
Standard y Developer.
Valoración
Valoración
Valoración
Valoración
Capturas de Pantalla
Conclusiones
• Con lo investigado hemos concluido que con la
tecnología de Data Mining, podemos utilizar la
información de nuestra empresa de manera provechosa,
obteniendo como beneficios altos niveles de
competitividad en los negocios.

• Por otro lado, es importante destacar que la Minería de


Datos se puede aplicar a diversas áreas del
conocimiento, por lo tanto, a cualquier tipo de negocio o
empresa.
¡Gracias!

You might also like