Minería de Datos

Antología

Ramón Edgardo Rincón Fernández

Unidad I .: Introducción a la Minería de Datos :.
1.1 Minería de Datos
Importancia de los Datos
Hoy en día, y está claro que se trata de una tendencia válida para los próximos años, el
almacenamiento de la información es algo sencillo y barato. Nuestros sistemas informáticos cada
vez tienen una capacidad mayor, y lo que ahora es normal encontrar “de serie” en una
computadora personal, quedará anticuado dentro de unos meses. Este incremento de los sistemas
de almacenamiento tiene un efecto que es realmente interesante: es poco costoso guardar datos
del funcionamiento de nuestros procesos, o de nuestros sistemas de venta, o de nuestros clientes,
etc., por lo que nuestras bases de datos (en el sentido más amplio del término) crecen hasta
límites insospechados.
Cuando decidimos iniciar ese proceso de almacenamiento de datos, lo solemos hacer con la
intención de analizarlos posteriormente. Sin embargo, cuando llega el momento, el análisis que se
realiza suele ser bastante superficial y guiado por los resultados que esperamos encontrar al
analizarlos. Lo normal es utilizar algún paquete estadístico (una hoja de cálculo en el caso más
simple) para localizar correlaciones entre variables, establecer medias y varianzas e intentar
modelar de esta forma nuestra información.
Sin embargo, en esa montaña de datos existe información que no puede ser encontrada con los
procedimientos habituales de trabajo. La minería de datos nos ayuda a dar un paso más en ese
análisis sacando a la luz relaciones ocultas entre los datos: información desconocida que pueda
ayudarnos a gestionar mejor nuestro negocio o proceso.
Estructuración de los datos
Para poder analizar nuestros datos con fiabilidad es necesario que exista una cierta estructuración
y coherencia entre los mismos. Si el responsable de almacenamiento de la información ha sido
siempre la misma persona, es posible que una parte de este problema esté resuelto. Sin embargo,
en general no se da esa situación, sino que, más bien al contrario, son muchas las personas que en
distintos departamentos y a lo largo del tiempo han ido creando ficheros con diferentes tipos de
datos.
Surge aquí la necesidad de conjugar los distintos archivos y bases de datos de manera que
podamos utilizarlos para extraer conclusiones. Aunque más adelante trataremos el problema del
preprocesamiento de los datos, en este punto podemos echar un vistazo a los problemas que
podemos encontrarnos:
 Diferentes tipos de datos representando el mismo concepto: un ejemplo que ha
provocado uno de los mayores problemas informáticos es la representación de la fecha,
donde el año se puede guardar con 2 o con 4 dígitos.
 Diferentes claves para representar el mismo elemento: un mismo cliente puede ser
representado por un código de cliente propio o por su NIF.
 Diferentes niveles de precisión al representar un dato: los números reales no siempre se
almacenan de la misma forma, y es posible que esto nos genere algún problema.

Minería de Datos

Antología

Ramón Edgardo Rincón Fernández

Como podemos ver, la cuestión no es sencilla, y se agrava cuando los diferentes archivos se
encuentran en sistemas informáticos y soportes diferentes.
Información oculta en los datos
A estas alturas ya va pareciendo claro que si almacenamos la información más relevante de
nuestro negocio en un sistema que acumula y acumula datos sin parar, un análisis razonable nos
puede permitir descubrir tendencias, localizar grupos de datos con comportamiento homogéneo,
establecer relaciones, etc.
Esa información está oculta en los datos y será necesario utilizar todas las técnicas a nuestro
alcance para obtenerla. El objetivo que nos planteamos es localizar relaciones entre atributos de
nuestro DataWarehouse. Estas relaciones podrían ser del tipo:
 Para una gran superficie: Más del 60% de las personas que adquieren queso fresco
compran también algún tipo de mermelada.
 Para un departamento de fidelización de una compañía aérea: muchos usuarios que hacen
vuelos de menos de 3 días a Berlín alquilan un coche en el aeropuerto.
 Para un operador de telefonía: durante el mes siguiente al lanzamiento de una campaña
de descuento en llamadas internacionales por parte de una compañía de la competencia,
nuestros pequeños clientes redujeron su consumo en este sector, mientras que los
grandes clientes lo mantuvieron.
Minería de datos
La minería de datos puede definirse como la extracción no trivial de información implícita,
previamente desconocida y potencialmente útil, a partir de los datos. Para conseguirlo hace uso
de diferentes tecnologías que resuelven problemas típicos de agrupamiento automático,
clasificación, asociación de atributos y detección de patrones secuenciales. La minería de datos es,
en principio, una fase dentro de un proceso global denominado descubrimiento de conocimiento
en bases de datos (Knowledge Discovery in Databases o KDD), aunque finalmente haya adquirido
el significado de todo el proceso en lugar de la fase de extracción de conocimiento.
Es habitual que los expertos en estadística confundan la minería de datos con un análisis
estadístico de éstos (afirmaciones de este tipo pueden encontrarse en documentación de
empresas dedicadas al procesamiento estadístico que venden sus productos como herramientas
de minería de datos). La diferencia fundamental entre ambas técnicas es muy clara: para conseguir
una afirmación como la que ha sido utilizada en el ejemplo anterior (Más del 60% de las personas
que adquieren queso fresco compran también algún tipo de mermelada) utilizando un paquete
estadístico, es necesario conocer a priori que existe una relación entre el queso fresco y la
mermelada, y lo que realizamos con nuestro entorno estadístico es una cuantificación de dicha
relación.
En el caso de la minería de datos el proceso es muy distinto: la consulta que se realiza a la base de
datos (al DataWarehouse) busca relaciones entre parejas de productos que son adquiridos por una
misma persona en una misma compra. De esa información, el sistema deduce, junto a otras
muchas, la afirmación anterior. Como podemos ver, en este proceso se realiza un acto de

Minería de Datos

Antología

Ramón Edgardo Rincón Fernández

descubrimiento de conocimiento real, puesto que no es necesario ni siquiera sospechar la
existencia de una relación entre estos dos productos para encontrarla.
DataWarehouse
El mecanismo más habitual para estructurar la información de un negocio es haciendo uso de un
DataWarehouse. Las definiciones más habituales de este término son:
 Almacén de datos. Plataforma que concentra la información de interés de toda la
empresa.
 Sistema que permite el almacenamiento en un único entorno de la información histórica
e integrada proveniente de los distintos sistemas de la empresa y que refleja los
indicadores clave asociados a los negocios de la misma.
 Sistema de información orientado a la toma de decisiones empresariales que,
almacenando de manera integrada la información relevante del negocio, permite la
realización de consultas complejas con tiempos de respuesta cortos.
 Sistema orientado a dar información en términos de negocio en vez de datos en términos
de explotación.
Utilidad del DM
La utilidad de Data Mining se puede dar dentro de los siguientes aspectos:
Sistemas parcialmente desconocidos: Si el modelo del sistema que produce los datos es bien
conocido, entonces no necesitamos de la minería de datos ya que todas las variables son de
alguna manera predecibles. Este no es el caso del comercio electrónico, debido a los efectos del
comportamiento humano, el clima y de decisiones políticas entre otros. En estos casos habrá una
parte del sistema que es conocida y habrá una parte aparentemente de naturaleza aleatoria. Bajo
ciertas circunstancias, a partir de una gran cantidad de datos asociada con el sistema, existe la
posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo.
Enorme cantidad de datos: Al contar con mucha información en algunas bases de datos es
importante para una empresa encontrar la forma de analizar "montañas" de información (lo que
para un humano sería imposible) y que ello le produzca algún tipo de beneficio.
Potente hardware y software: Muchas de las herramientas presentes en la minería de datos están
basadas en el uso intensivo de la computación, en consecuencia, un equipo conveniente y un
software eficiente, con el cual cuente una compañía, aumentará el desempeño del proceso de
buscar y analizar información, el cual a veces debe vérselas con producciones de datos del orden
de los Gbytes/hora. El uso del data mining puede ser provechoso en el caso de poseer datos sobre
sus procesos productivos, datos de seguimiento de clientes, datos externos de mercado, datos
sobre la actividad de competidores, etc.

clustering.) nunca es el idóneo y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto"... se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso).. Es posible que algunas de las reglas descubiertas no puedan ser cambiadas.). Data Warehouse. Mediante el preprocesado se filtran los datos (de forma que se eliminan valores incorrectos. Ello enriquecerá el análisis y la descripción de la forma en que trabaja una compañía y ayudará en la planificación y en el diseño de futuros cambios. especialmente en casos de gran complejidad y con relaciones internas. no válidos. pero si resulte posible realizar modificaciones apropiadas en la organización con el propósito de mejorar su desempeño. o bien en la identificación e interrupción a tiempo..2 Proceso de la Minería de Datos Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos. desconocidos.  Selección de variables Aún después de haber sido preprocesados. o se reduce el número de valores posibles (mediante redondeo. Predicción (Forecasting): Una vez descubiertas reglas importantes.Minería de Datos Antología Ramón Edgardo Rincón Fernández OBJETIVOS PRINCIPALES DE LA MINERÍA DE DATOS Data Mining persigue ciertos objetivos de manera específica: Descripción: El principal producto del proceso de la minería de datos es el descubrimiento de reglas. estas pueden ser utilizadas para estimar algunas variables de salida. Estas mostrarán nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso.. en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema. independientemente de la técnica específica de extracción de conocimiento usada. 1.. Puede ser en el caso de secuencias en el tiempo. según las necesidades y el algoritmo que va a usarse). El proceso de minería de datos se compone de las siguientes fases:  Selección y preprocesado de datos El formato de los datos contenidos en la fuente de datos (base de datos. se complementan las técnicas estadísticas tradicionales con aquellas provenientes de la inteligencia artificial. Los métodos para la selección de características son básicamente dos: . En esta tarea. sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Conceptos adaptativos como los algoritmos genéticos y las redes neuronales. de una futura mala experiencia de crédito. permiten realizar predicciones más acertadas.

como se resalta en el siguiente diagrama. 1. Aquellos basados en la elección de los mejores atributos del problema 2.1 Selección de Objetivos El primer paso del proceso de minería de datos. Y aquellos que buscan variables independientes mediante tests de sensibilidad. Este paso incluye analizar los requisitos empresariales. se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. se obtiene un modelo de conocimiento. debe alterarse alguno de los pasos anteriores para generar nuevos modelos. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas. También pueden usarse varias técnicas a la vez para generar distintos modelos. definir el ámbito del problema. consiste en definir claramente el problema empresarial y considerar formas de proporcionar una respuesta para el mismo.Minería de Datos Antología Ramón Edgardo Rincón Fernández 1. Estas tareas se traducen en preguntas como las siguientes: .2. se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. definir las métricas por las que se evaluará el modelo y definir los objetivos concretos del proyecto de minería de datos. algoritmos de distancia o heurísticos  Extracción de conocimiento Mediante una técnica de minería de datos. aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. Si ninguno de los modelos alcanza los resultados esperados.  Interpretación y evaluación Una vez obtenido el modelo.

puede que deba dirigir un estudio de disponibilidad de datos para investigar las necesidades de los usuarios de la empresa con respecto a los datos disponibles. como se indica en el siguiente diagrama.Minería de Datos       Antología Ramón Edgardo Rincón Fernández ¿Qué está buscando? ¿Qué tipos de relaciones intenta buscar? ¿Refleja el problema que está intentando resolver las directivas o procesos de la empresa? ¿Desea realizar predicciones a partir del modelo de minería de datos o solamente buscar asociaciones y patrones interesantes? ¿Qué atributo del conjunto de datos desea intentar predecir? ¿Cómo se relacionan las columnas? En caso de que haya varias tablas. Por ejemplo. Si los datos no abarcan las necesidades de los usuarios. 1. los datos pueden mostrar que un cliente adquirió un producto incluso antes que se ofreciera en el mercado o que el cliente compra regularmente en una tienda situada a 2. consiste en consolidar y limpiar los datos identificados en el paso Definir el problema. podría tener que volver a definir el proyecto. sino también buscar las correlaciones ocultas en los datos.000 kilómetros de su casa. También debe considerar las maneras en las que los resultados del modelo se pueden incorporar en los indicadores de rendimiento clave (KPI) que se utilizan para medir el progreso comercial. ¿cómo se relacionan? ¿Cómo se distribuyen los datos? ¿Los datos son estacionales? ¿Los datos representan con precisión los procesos de la empresa? Para responder a estas preguntas.2 Preparación de los Datos Preparar los Datos El segundo paso del proceso de minería de datos. Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos.2. también pueden contener incoherencias como entradas que faltan o incorrectas. identificar los orígenes de datos que son más precisos y . La limpieza de datos no solamente implica quitar los datos no válidos.

tiene que utilizar alguna forma de automatización para explorar los datos y buscar las incoherencias. pero que de hecho están estrechamente correlacionadas pueden influir en los resultados del modelo de maneras que no espera. Entre las técnicas de exploración se incluyen calcular los valores mínimos y máximos. Puede realizar minería de datos mediante cualquier origen de datos definido como origen de datos de Analysis Services. el mínimo y los valores de la media se podrían determinar que los datos no son representativos de los clientes o procesos de negocio. Existen herramientas necesarias para completar este paso. Es importante tener en cuenta que los datos que utiliza para la minería de datos no necesitan almacenarse en un cubo de Procesamiento analítico en línea (OLAP). ¿debería utilizar la fecha de envío o la fecha de pedido? ¿Qué influye más en las ventas: la cantidad. aunque puede utilizarlos ambos como orígenes de datos. Por ejemplo. y que por consiguiente debe obtener más datos equilibrados o revisar las suposiciones que son la base de sus expectativas. Por ejemplo. Explorar los datos El tercer paso del proceso de minería de datos. vea Definir orígenes de datos (Analysis Services). Las . Por ejemplo. libros de Excel o datos de otros proveedores externos. archivos de texto. al revisar el máximo. Para obtener más información. incluidas las transformaciones para automatizar la limpieza y consolidación de los datos. Por consiguiente. Normalmente se trabaja con un conjunto de datos muy grande y no se puede comprobar cada transacción. consiste en explorar los datos preparados. Por consiguiente. los datos equivocados y las entradas que parecen independientes. debería identificar estos problemas y determinar cómo los corregirá. como se resalta en el siguiente diagrama. ni siquiera en una base de datos relacional.Minería de Datos Antología Ramón Edgardo Rincón Fernández determinar qué columnas son las más adecuadas para usarse en el análisis. Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de minería de datos. antes de empezar a generar los modelos de minería de datos. el precio total o un precio con descuento? Los datos incompletos. y examinar la distribución de los datos. calcular la media y las desviaciones estándar.

el algoritmo que elija y cómo se haya configurado el algoritmo. a continuación. Cualquier modelo de minería de datos que esté basado en la estructura puede utilizar esta información. Los datos que se desvían mucho de una distribución estándar se podrían sesgar o podrían representar una imagen precisa de un problema de la vida real. Los patrones que encuentre en el proceso de entrenamiento dependerán de la selección de los datos de entrenamiento.Minería de Datos Antología Ramón Edgardo Rincón Fernández desviaciones estándar y otros valores de distribución pueden proporcionar información útil sobre la estabilidad y exactitud de los resultados. un modelo de minería de datos simplemente es un contenedor que especifica las columnas que se usan para la entrada. Una desviación estándar grande puede indicar que agregar más datos podría ayudarle a mejorar el modelo. SQL Server . El proceso de un modelo también se denomina entrenamiento. el atributo que está prediciendo y parámetros que indican al algoritmo cómo procesar los datos. pero dificultar el ajustar un modelo a los datos. Al procesar la estructura de minería de datos. El entrenamiento hace referencia al proceso de aplicar un algoritmo matemático concreto a los datos de la estructura para extraer patrones. pero no contiene ningún dato hasta que lo procesa. La estructura de minería de datos define el origen de datos. Antes de que se procese el modelo. puede inventar una estrategia para corregir los problemas u obtener una descripción más profunda de los comportamientos que son típicos de su negocio. como se resalta en el siguiente diagrama. Generar Modelos El cuarto paso del proceso de minería de datos. las herramientas generan los agregados y otra información estadística que se puede utilizar para el análisis. Al explorar los datos para conocer el problema empresarial. consiste en generar el modelo o modelos de minería de datos. Defina qué datos desea que se utilicen creando una estructura de minería de datos. puede decidir si el conjunto de datos contiene datos defectuosos y. Utilizará los conocimientos adquiridos en el paso Explorar los datos para definir y crear los modelos.

. como se resalta en el siguiente diagrama. normalmente se crean varios con configuraciones diferentes y se prueban todos para ver cuál ofrece los resultados mejores para su problema y sus datos. es aconsejable probar si funciona correctamente. Antes de implementar un modelo en un entorno de producción. Para comprobar si el modelo es específico de sus datos o se puede utilizar para realizar inferencias en la población general. al generar un modelo. Existe software que proporciona herramientas que ayudan a separar los datos en conjuntos de datos de entrenamiento y pruebas. para que pueda evaluar con precisión el rendimiento de todos los modelos en los mismos datos. El conjunto de datos de entrenamiento se utiliza para generar el modelo y el conjunto de datos de prueba para comprobar la precisión del modelo mediante la creación de consultas de predicción. Explorar y Validar los Modelos El quinto paso del proceso de minería de datos. Después de pasar los datos a través del modelo. puede utilizar la técnica estadística denominada validación cruzada para crear automáticamente subconjuntos de los datos y probar el modelo con cada uno. creando resultados diferentes. Cada uno está preparado para un tipo diferente de tarea y crea un tipo distinto de modelo. También puede utilizar los parámetros para ajustar cada algoritmo y puede aplicar filtros a los datos de entrenamiento para utilizar un subconjunto de los datos. Además. consiste en explorar los modelos de minería de datos que ha generado y comprobar su eficacia. el objeto de modelo de minería de datos contiene los resúmenes y modelos que se pueden consultar o utilizar para la predicción.Minería de Datos Antología Ramón Edgardo Rincón Fernández 2008 contiene muchos algoritmos diferentes.

que le ayuda a generar las consultas. puede que deba volver a un paso anterior del proceso y volver a definir el problema o volver a investigar los datos del conjunto de datos original. puede utilizar un modelo de minería de datos junto con servicios de integración para dividir los datos entrantes en clientes que probablemente compren un producto y clientes que probablemente no compren un producto.Minería de Datos Antología Ramón Edgardo Rincón Fernández Si ninguno de los modelos que ha creado en el paso Generar modelos funciona correctamente. SQL Server ofrece el lenguaje DMX. que contiene un conjunto de objetos que la aplicación pueda utilizar para crear. puede llevar acabo diferentes tareas. si una base de datos se actualiza continuamente con clientes potenciales. que puede utilizar para crear consultas de predicción. . reglas o fórmulas del modelo. consiste en implementar los modelos que funcionan mejor en un entorno de producción. Implementar y Actualizar los modelos El último paso del proceso de minería de datos. Una vez que los modelos de minería de datos se encuentran en el entorno de producción. y el Generador de consultas de predicción. procesar y eliminar estructuras y modelos de minería de datos. Por ejemplo. como se resalta en el siguiente diagrama. Cualquier actualización requiere que vuelve a procesar los modelos. Actualizar los modelos después de la revisión y análisis. Las siguientes son algunas de las tareas que puede realizar:       Utilizar los modelos para crear predicciones que pueda utilizar para tomar decisiones empresariales. cambiar. Puede incluir Objetos de administración de análisis (AMO). Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minería de datos existente. Incrustar la funcionalidad de minería de datos directamente en una aplicación. Utilizar Servicios de Integración para crear un paquete en el que se utilice un modelo de minería de datos para dividir de forma inteligente los datos entrantes en varias tablas. Crear consultas de contenido para recuperar estadísticas. dependiendo de sus necesidades.

Se considera localmente el proceso de discretizar.Minería de Datos  Antología Ramón Edgardo Rincón Fernández Actualizar dinámicamente los modelos.3 Discretización La discretización es la clasificación y agrupamiento solo trabajan con atributos nominales. Discretización Global Esta considera los atributos de manera global para tomar la decisión de donde encontrar la raíz de la ramificación. cada vez las decisiones se realizan con más datos. En los métodos basados en distancia se pueden observar ciertos parámetros:  distancia entre bordes de los clústers  distancia entre centros (de haberlos)  radio y densidad (desviación típica de la distancia) de los clústers. 2. cada vez las decisiones se realizan con menos datos. existen las siguientes opciones: 1. Dividir los datos en un número predeterminado de intervalos iguales (no supervisado) 4. No supervisada: cuantificar o asignar un valor a cada atributo considerando que no se conoce las clases que hay en el conjunto de entrenamiento (conjunto de datos seleccionados o muetreo).  No supervisados: mucho más compleja que en los predictivos: concepto de error difícil de definir. 5. La mayoría de los algoritmos de árboles y reglas de decisión pueden trabajar con atributos numéricos (lentos). 3. Existen dos formas de Discretización: a. y realizar modificaciones constantes para mejorar la efectividad de la solución debería ser parte de la estrategia de implementación. Se considera localmente el proceso de discretizar. cuando entren más datos en la organización. Problemas Descriptivos Evaluación de Modelos Descriptivos:  Reglas de asociación: evaluación sencilla: dos parámetros (support. . Por Intervalos iguales: distribuye los atributos en depósitos. 1. Discretización Local Esta considera los atributos de manera local para tomar la decisión de donde efectuar la ramificación. confidence). b. Por frecuencias iguales: divide los atributos en un predeterminado número de rangos para evitar que un rango tenga más datos que otros ecualización por histograma. Supervisada: considerar que sí se conocen las clases. se corre el riesgo de que un intervalo tenga más datos que otro el cual puede tener cero. Cuando se tiene atributos numéricos deben ser discretizados en un conjunto pequeño de rangos. Para enfrentar los problemas de discretización de datos.

En general un algoritmo en minería de datos genera un modelo predictivo con base a los datos de entrada. El datamining. la minería de datos es una tecnología usada para descubrir información oculta y desconocida. más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. a partir de otros conocidos. Los programas de gestión del conocimiento se complementan con distintas herramientas además del data mining. dichas técnicas. tales como los árboles de decisión y las reglas de decisión. redes neuronales.Problemas Predictivos Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori.4 Técnicas y Herramientas El data mining es una de las principales herramientas que se utilizan dentro de los programas de gestión del conocimiento como soporte a la toma de decisiones. se utiliza como sistema de apoyo a la toma de decisiones de las altas direcciones de las empresas. pero potencialmente útil.4. Las herramientas de data mining o minería de datos pueden responder a preguntas de negocios empresariales a priori no planteadas o que pueden consumir demasiado tiempo para ser resueltas. como puede ser el data warehousing o el groupware. árboles de decisión y reglas de asociación etc. Obtiene un conocimiento de un negocio. reduce el tamaño de los datos eligiendo las variables más influyentes en el problema. Para poder hacer la minería se deben interpretar los modelos generados.1 Técnicas Como ya se ha comentado. En definitiva. que en una primera selección pueden ser pertinentes. utilizando técnicas de clustering. Las técnicas más representativas son: . no son más que algoritmos. 1. Las técnicas de data mining se centran en analizar el gran volumen de datos. El fin es la extracción de información oculta o análisis de datos mediante técnicas estadísticas de grandes bases de datos. las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística. como herramienta de búsqueda de información. algunos de ellos son fáciles de interpretar. pero que la aplicación de técnicas de selección ceñida a unas determinada demanda.Minería de Datos Antología Ramón Edgardo Rincón Fernández Para cada ejemplo a agrupar se comprueba su distancia con el centro o con el borde de cada clúster. a partir de las fuentes de información de la propia empresa. 1.

 Modelos estadísticos. 1. que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva. muy similares a los sistemas de predicción basados en reglas. Ejemplos: o Algoritmo ID3..  Regresión lineal. a partir de otros conocidos. 1998):  Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori..Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.. dada una base de datos se construyen estos diagramas de construcciones lógicas. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables. también conocidos como redes de Kohonen. por ejemplo:      R KNIME SPSS Clementine (software) SAS Enterprise Miner STATISTICA Data Miner .Es la más utilizada para formar relaciones entre datos.Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales.5. los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya. o Los Mapas Autoorganizados.Minería de Datos Antología Ramón Edgardo Rincón Fernández  Redes neuronales.  Agrupamiento o Clustering.. Algunos ejemplos de red neuronal son: o El Perceptrón. Ejemplos: o Algoritmo K-means.Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta. o Algoritmo C4.  Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos. o El Perceptrón multicapa. se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes.. Según el objetivo del análisis de los datos.Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia.2 Herramientas Existen muchas herramientas de software para el desarrollo de modelos de minería de datos tanto libres como comerciales como.  Árboles de decisión. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. o Algoritmo K-medoids. para la resolución de un problema.4.

Minería de Datos     RapidMiner Weka KXEN Orange Antología Ramón Edgardo Rincón Fernández .

2. etc. Es transversal a una amplia variedad de disciplinas. inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. pronósticos de futuras observaciones. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. . estimaciones de características numéricas (estimación). clústers. pirámide poblacional. que se dedica a la generación de los modelos. que se dedica a los métodos de recolección.Minería de Datos Antología Ramón Edgardo Rincón Fernández Unidad II . descripción. Distribución normal. análisis e interpretación de datos. desde la física hasta las ciencias sociales. Algunos ejemplos gráficos son: histograma. de ocurrencia en forma aleatoria o condicional. desde las ciencias de la salud hasta el control de calidad. Otras técnicas de modelamiento incluyen anova. La estadística se divide en dos elementos:  La estadística descriptiva. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis). visualización y resumen de datos originados a partir de los fenómenos en estudio.  La estadística inferencial. ya sea para ayudar en la resolución de la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado.1 Preliminares: repaso de conceptos estadísticos La estadística es un auxiliar de muchas ciencias con base matemática referente a la recolección. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio.: Preparación de los Datos :. series de tiempo y minería de datos. descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.

Las dos variables se dicen a ser correlacionadas. Incluso cuando la estadística es correctamente aplicada. Hay también una disciplina llamada estadística matemática. los resultados pueden ser difícilmente interpretados por un inexperto.Minería de Datos Antología Ramón Edgardo Rincón Fernández Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. estadísticas criminales. se comienza con un proceso o población a ser estudiado. El uso de cualquier método estadístico es válido solo cuando el sistema o población bajo consideración satisface los supuestos matemáticos del método. que mide el grado al cual la tendencia puede ser causada por una variación aleatoria en la muestra. La estadística matemática (también llamada teoría estadística) es la rama de las matemáticas aplicadas que usa la teoría de probabilidades y el análisis matemático para examinar las bases teóricas de la estadística. usualmente se estudia un subconjunto seleccionado de la población. El concepto matemático fundamental empleado para entender la aleatoriedad es el de probabilidad. Un problema mayor es el de determinar que tan representativa es la muestra extraída. así como métodos para diseñar experimentos robustos como primera medida. llamado muestra. También podría ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen una serie de tiempo. El mal uso de la estadística puede producir serios errores en la descripción e interpretación. la práctica médica y la calidad de estructuras tales como puentes y plantas de reacción nuclear. de granos cristalizados en una roca o de bienes manufacturados por una fábrica en particular durante un periodo dado. Preámbulo Al aplicar la estadística a un problema científico. puede no estar de acuerdo con el sentido intuitivo. La estadística ofrece medidas para estimar y corregir por aleatoriedad en la muestra y en el proceso de recolección de los datos. el significado estadístico de una tendencia en los datos. ver diseño experimental. La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos. como si hubiera una conexión entre ellas. llamado variable confundida. la cual se refiere a las bases teóricas de la materia. Sin embargo. dos propiedades de la población bajo consideración) tienden a variar conjuntamente. Datos acerca de la muestra son recogidos de manera observacional o experimental. industrial o social. El concepto de correlación es particularmente valioso. como en estadísticas económicas. El conjunto de habilidades . previamente no considerado. Esta puede ser la población de un país. no se pude inferir inmediatamente la existencia de una relación de causalidad entre las dos variables. Por razones prácticas. etc. afectando las políticas sociales. El fenómeno correlacionado podría ser la causa de un tercero. Los datos son entonces analizados estadísticamente lo cual sigue dos propósitos: descripción e inferencia. Por ejemplo. Análisis estadísticos de un conjunto de datos puede revelar que dos variables (esto es. Si la muestra es representativa de la población. inferencias y conclusiones hechas en la muestra pueden ser extendidas a la población completa. en lugar de compilar datos de una población entera. Por ejemplo un estudio del ingreso anual y la edad de muerte entre personas podrían resultar en que personas pobres tienden a tener vidas más cortas que personas de mayor ingreso.

los datos son recogidos y las correlaciones entre predictores y la respuesta son investigadas.  Diseñar el experimento concentrándose en el modelo y la interacción entre variables independientes y dependientes. Se propone un modelo de probabilidad. Los investigadores estaban interesados en si al incrementar la iluminación en un ambiente de trabajo. Cada uno de ellos puede ser muy efectivo. Los investigadores primero midieron la productividad de la planta y luego modificaron la iluminación en un área de la planta para ver si cambios en la iluminación afectarían la productividad. Sin embargo. cuyos parámetros se estiman mediante estadísticos a partir de los datos de muestreo. el estudio fue muy criticado por errores en los procedimientos experimentales. lo cual incluye encontrar fuentes de información. En contraste.Minería de Datos Antología Ramón Edgardo Rincón Fernández estadísticas básicas (y el escepticismo) que una persona necesita para manejar información en el día a día se refiere como «cultura estadística». Los pasos básicos para un experimento son:  Planeamiento estadístico de la investigación. Hay dos grandes tipos de estudios estadísticos para estudiar causalidad: estudios experimentales y observacionales. selección de material disponible en el área y consideraciones éticas para la investigación y el método propuesto. específicamente la falta de un grupo control y seguimiento. Sin embargo. los investigadores recogerían observaciones de fumadores y no fumadores y luego mirarían los casos de cáncer de pulmón en ambos grupos. manipular el sistema y luego tomar mediciones adicionales usando el mismo procedimiento para determinar si la manipulación ha modificado los valores de las mediciones. Este tipo de estudio normalmente usa una encuesta para recoger observaciones acerca del área de interés y luego produce un análisis estadístico. se mantiene lo que se denominan «hipótesis sostenidas» (que no son sometidas a comprobación). Métodos estadísticos Un objetivo común para un proyecto de investigación estadística es investigar la causalidad. el efecto de las diferencias de una variable independiente (o variables) en el comportamiento de una variable dependiente es observado. Un ejemplo de un estudio observacional es un estudio que explora la correlación entre fumar y el cáncer de pulmón. Se valida el modelo comparándolo con lo que sucede . Se plantea un problema de estudio. En ambos tipos de estudios. La productividad mejoró bajo todas las condiciones experimentales. un estudio observacional no necesita manipulación experimental. En este caso. Un ejemplo de un estudio experimental es el famoso experimento de Hawthorne el cual pretendía probar cambios en el ambiente de trabajo en la planta Hawthorne de la Western Electric Company. La diferencia entre los dos tipos es la forma en que el estudio es conducido. Un estudio experimental implica tomar mediciones del sistema bajo estudio. la producción de los trabajadores aumentaba. Por el contrario. y en particular extraer una conclusión en el efecto que algunos cambios en los valores de predictores o variables independientes tienen sobre una respuesta o variables dependientes. Se realiza un muestreo consistente en la recolección de datos referentes al fenómeno o variable que deseamos estudiar.

además de poseer las características de la escala ordinal. Las medidas nominales no tienen ningún rango interpretable entre sus valores.Minería de Datos Antología Ramón Edgardo Rincón Fernández en la realidad.  Se producen estadísticas descriptivas. Las medidas de intervalo tienen distancias interpretables entre mediciones. se dispone de una unidad de medida para el efecto. Se trata de agrupar objetos en clases. Se produce un reporte final con los resultados del estudio. pero un valor cero sin significado (como las mediciones de coeficiente intelectual o temperatura en grados Celsius). La escala de coeficientes o Razones es el nivel de medida más elevado y se diferencia de las escalas de intervalos iguales únicamente por poseer un punto cero propio como origen. La escala de medida nominal. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario. Las medidas de razón. puede considerarse la escala de nivel más bajo. en donde un valor cero y distancias entre diferentes mediciones son definidas. ordinal.  Inferencia estadística. A iguales diferencias entre los números asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio. Esta escala. permite determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. pero un orden interpretable para sus valores. por su parte.  Se utiliza el modelo validado para tomar decisiones o predecir acontecimientos futuros. dan la mayor flexibilidad en métodos estadísticos que pueden ser usados para analizar los datos. Los cuatro tipos de niveles de medición (nominal. y no refleja en ningún momento ausencia de la magnitud que estamos midiendo. La escala de intervalos iguales está caracterizada por una unidad de medida común y constante. Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos. Técnicas de análisis estadístico Algunos tests y procedimientos para investigación de observaciones bien conocidos son:           Prueba t de Student Prueba de χ² Análisis de varianza (ANOVA) U de Mann-Whitney Análisis de regresión Correlación Iconografía de las correlaciones Frecuencia estadística Análisis de frecuencia acumulada Prueba de la diferencia menos significante de Fisher . intervalo y razón) tienen diferentes grados de uso en la investigación estadística. Niveles de medición Hay cuatro tipos de mediciones o escalas de medición en estadística. es decir que el valor cero de esta escala significan ausencia de la magnitud que estamos midiendo. Se utiliza métodos estadísticos conocidos como test de hipótesis o prueba de significación. La escala ordinal. Si se observa una carencia total de propiedad. Se llega a un consenso acerca de qué dicen las observaciones acerca del mundo que observamos. recurre a la propiedad de «orden» de los números.

Atributos: Nos concentraremos en dos tipos de atributos Atributos numéricos: enteros. han causado un renacer del interés en modelos no lineales (especialmente redes neuronales y árboles de decisión) y la creación de nuevos tipos tales como modelos lineales generalizados y modelos multinivel. complejos computadores junto con apropiados algoritmos numéricos. pues en la anglosajona de Estados Unidos estaba ya establecida la «conducta caótica en sistemas dinámicos no lineales» con 350 libros para 1997 y empezaban algunos trabajos en los campos de las ciencias sociales y en aplicaciones de la física. El incremento en el poder computacional también ha llevado al crecimiento en popularidad de métodos intensivos computacionalmente basados en remuestreo. desde hace una década. sonido). enumerados o discretos.2 Preliminares: tipo de atributos La entrada del proceso de MD Vista minable: en un contexto de BD relacionales. Toman valores en un conjunto finito y preestablecido de categorías. Ahora. Un gran número de paquetes estadísticos está ahora disponible para los investigadores. empezaron a interesar en la comunidad hispana. Atributos nominales: también referenciados como atributos categóricos. con un nuevo énfasis en estadísticas «experimentales» y «empíricas». Los sistemas dinámicos y teoría del caos. Como un reto para MD es realizar algoritmos que puedan aprender desde atributos numéricos y simbólicos combinados con otros tipos de atributos (imágenes. También se estaba contemplando su uso en analítica. mientras técnicas como el muestreo de Gibbs han hecho los métodos bayesianos más accesibles. reales. La revolución en computadores tiene implicaciones en el futuro de la estadística. . tales como tests de permutación y de bootstrap.Minería de Datos     Antología Ramón Edgardo Rincón Fernández Coeficiente de correlación producto momento de Pearson Coeficiente de correlación de rangos de Spearman Análisis factorial exploratorio Análisis factorial confirmatorio Computación Estadística El rápido y sostenido incremento en el poder de cálculo de la computación desde la segunda mitad del siglo XX ha tenido un sustancial impacto en la práctica de la ciencia estadística. texto. es una única tabla con todos los atributos relevantes para el proceso de MD. Viejos modelos estadísticos fueron casi siempre de la clase de los modelos lineales. 2.

Minería de Datos Antología Ramón Edgardo Rincón Fernández 2. Las transformaciones de los datos para una apropiada limpieza y el posible impacto en el análisis de resultados deberían ser considerados. Preparación de datos Salida Conjunto de datos Este es el conjunto (o conjuntos) producido por la fase de preparación de datos. Etapas para Creación del Modelo de Minería. Limpieza de datos Tarea Limpiar datos Elevar la calidad de los datos al nivel requerido por las técnicas de análisis seleccionadas. Los criterios incluyen la importancia a los objetivos de la minería de datos. Selección de datos Tarea Selección de datos Decidir qué datos serán usados para el análisis.3. que será usada para modelar o para el trabajo principal de análisis del proyecto. y las restricciones técnicas como límites sobre el volumen de datos o los tipos de datos. la inserción de datos por defectos adecuados. la calidad. Esto puede implicar la selección de los subconjuntos de datos limpios. . Salida Informe de la limpieza de los datos Describa que decisiones y acciones fueron tomadas para dirigir los problemas de calidad de datos informados durante la tarea de Verificación de Calidad de Datos de los Datos de la fase de Comprensión de Datos. o técnicas más ambiciosas tales como la estimación de datos faltantes mediante modelado. Descripción del conjunto de datos Describir el conjunto de dato (o conjuntos) que será usado para el modelado y el trabajo principal de análisis del proyecto. Note que la selección de datos cubre la selección de atributos (columnas) así como la selección de registros (filas) en una tabla. Salida Razonamiento para la inclusión/exclusión Listar los datos para ser incluidos/excluidos y los motivos para estas decisiones.

Integrar datos Tarea Integrar datos Estos son los métodos por el cual la información es combinada de múltiples tablas o registros para crear nuevos registros o valores. el promedio de la cantidad de compra. el espacio. convirtiendo una tabla de compra de clientes donde hay un registro para cada compra en una tabla nueva donde hay un registro para cada cliente. La agregación se refiere a operaciones en la que nuevos valores son calculados de información resumida de múltiples registros y/o tablas. combinando campos de las tablas fuentes. el porcentaje de artículos bajo promoción. con campos tales como el número de compras. Los datos combinados también cubren agregaciones. Salidas Atributos derivados Los atributos derivados son los atributos nuevos que son construidos de uno o más atributos existentes en el mismo registro. . No había ninguna razón de tener tales registros en los datos brutos. Ejemplo: una cadena de venta al público tiene una tabla con la información sobre las características generales de cada tienda (Por ejemplo. pero para el objetivo del modelado esto podría tener sentido para representar explícitamente el hecho que ciertos clientes no hayan hecho compra nada. Registros generados Describa la creación de registros completamente nuevos. el tipo de comercio). etc. y el otro con información sobre los datos demográficos del área circundante. el cambio porcentual en ventas desde el año anterior). otra tabla con datos resumidos de las ventas (por ejemplo. Estas tablas pueden ser combinadas simultáneamente en una nueva tabla con un registro para cada tienda. Por ejemplo. o la transformación de valores para atributos existentes.Minería de Datos Antología Ramón Edgardo Rincón Fernández Construir datos Tarea Construir datos Esta tarea incluye la construcción de operaciones de preparación de datos tales como la producción de atributos derivados o el ingreso de nuevos registros. el porcentaje de órdenes cobrados a tarjeta de crédito. el beneficio. Ejemplo: Crear registros para los clientes quienes no hicieron compras durante el año pasado. Cada una de estas tablas contiene un registro para cada tienda. Ejemplo: área = longitud * anchura. Salida Combinación de datos La combinación de tablas se refiere a la unión simultánea de dos o más tablas que tienen información diferente sobre el mismo objeto.

Los valores faltantes son un problema común en análisis estadístico. Salida Datos reformateados Algunas herramientas tienen requerimientos sobre el orden de los atributos. La falta de valores se puede deber a:  Mal funcionamiento de equipos. Comúnmente.  No se registró historial o cambios en los datos. Podría ser importante cambiar el orden de los registros en el conjunto de datos. hay cambios puramente sintácticos hechos para satisfacer las exigencias de la herramienta de modelado específica.Minería de Datos Antología Ramón Edgardo Rincón Fernández Formatear datos Tarea Formatear datos Formateando transformaciones se refiere a modificaciones principalmente sintácticas hechas a los datos que no cambian su significado. Ejemplos: el quitar de comas de adentro de campos de texto en ficheros de datos delimitados por coma.  Algunos datos pudieron no considerarse importantes al momento de ingresar datos. Por ejemplo. esto es generalmente mejor para los registros para ser presentados en un orden aleatorio. pero el algoritmo que modela necesita que ellos estén en un orden moderadamente arbitrario. corta todos los valores a un máximo de 32 caracteres. aunque algunas herramientas manejen esto automáticamente sin la intervención explicita del usuario. Además.  Bello (1995).  Datos no ingresados debido a equivocaciones o malos entendidos.  Inconsistencia con otros datos registrados y por lo tanto eliminados. Muchos de estos métodos fueron desarrollados para el tratamiento de valores faltantes en encuestas por muestreo. Por ejemplo. tales como los ingresos del cliente en datos de ventas. Se ha propuesto muchos métodos para el tratamiento de valores faltantes. pero podría ser requerido por la herramienta de modelado. 2. Puede ser necesario estimar los valores faltantes. los registros del conjunto de datos son ordenados al principio de algún modo. tratamiento de valores faltantes in regression  Troyanskaya et al (2001).4 Tratamiento de la falta de datos Los datos no siempre están disponibles. . tratamiento de datos faltantes en clasificación no supervisada. tales como el primer campo que es un único identificador para cada registro o el último campo es el campo resultado que el modelo debe predecir. cuando se usa redes neuronales. Quizás la herramienta de modelado requiere que los registros sean clasificados según el valor del atributo de resultado. muchas filas no tienen registrados valores para muchos atributos.

Valores faltantes completamente al azar (MCAR): La probabilidad que una instancia tenga un valor faltante para un atributo es la misma para todas las instancias. Para conjuntos de datos con valores faltantes simulados el mecanismo se puede considerar MAR. Este tipo de valores faltantes es el más difícil de tratar y es el que ocurre más frecuentemente. Si la probabilidad que una persona dé información acerca de su peso es la misma para todas las personas sin tomar en cuenta su peso y edad.  Técnicas de Imputación. supongamos que peso y edad son variables de interés en un estudio. Para conjuntos de datos con un bajo porcentaje de valores faltantes el mecanismo se puede considerar MCAR. donde los procedimientos de Máxima Verosimilitud que usan variantes del algoritmo EM (Expectation-Maximization) pueden manejar la estimación de parámetros en presencia de valores faltantes. donde los valores faltantes son reemplazados con valores estimados basados en la información disponible en el conjunto de datos. Este mecanismo es más adecuado para datos usados en clasificación supervisada. Usualmente es aplicado cuando el valor que falta es el de la clase (asumiendo que se está haciendo clasificación). entonces los valores faltantes en el atributo peso son considerados como MCAR. Ocurre cuando las personas entrevistadas no quieren revelar algo muy personal acerca de ellas. c. La mayoría de los valores faltantes no son MCAR.  Estimación de parámetros. Valores faltantes no al azar o no ignorables (NMAR): La probabilidad de que una instancia tenga un valor faltante en un atributo depende de los valores faltantes en el conjunto de datos. pero no depende de los valores faltantes. Tratamientos de valores faltantes  Eliminación de casos. Es decir. b. esta probabilidad no depende ni de los valores observados ni de los valores faltantes. Este mecanismo es más adecuado para datos a ser usados en clasificación no supervisada. Ignorar la fila que contiene datos faltantes. No es efectiva cuando el porcentaje de valores faltantes por atributo varía considerablemente. El patrón de valores faltantes no es aleatorio. Valores faltantes al azar (MAR): La probabilidad que una instancia tenga un valor faltante en un atributo depende de los valores observados. Por ejemplo. Para conjuntos de datos con un alto porcentaje de valores faltantes el mecanismo se puede considerar NMAR.Minería de Datos Antología Ramón Edgardo Rincón Fernández Mecanismos de valores faltantes a. . como por ejemplo la clase a la cual pertenece la instancia.

Una variante de este método consiste en determinar el grado de valores faltantes en cada instancia y atributo. parece natural usar la mediana en su lugar para asegurar robustez. Antes de eliminar cualquier atributo es necesario evaluar su relevancia en el análisis.  Imputación usando la mediana (MDI). sino que puede permitir mejorar algunos resultados. Efecto de valores faltantes en clasificación supervisada Para conjuntos de datos con una pequeña cantidad de valores faltantes se observa poca diferencia entre la eliminación de casos y otros métodos de imputación. 2. se usan cuatro métodos para el tratamiento de valores faltantes:  Eliminación de casos (CD) – Este método consiste en descartar todas las instancias (casos) con valores perdidos en por lo menos un atributo.Minería de Datos Antología Ramón Edgardo Rincón Fernández En el contexto de clasificación supervisada. . El efecto de los valores faltantes depende de la forma que se distribuyen en la matriz de datos y en su localización con respecto a las variables más importantes. no solo con el objetivo de reducir el tamaño para obtener una minería de datos más rápida. por lo que es necesaria una selección de datos. y eliminar las instancias y/o atributos con altos niveles de valores faltantes.5 Reducción de dimensionalidad Es importante saber qué atributos o variables necesitamos y cuantas instancias van a ser necesarias. que tratamos con datos del estilo atributo-valor (los datos se encuentran en una tabla) hemos utilizado dos tipos de selección: la selección horizontal (muestreo). donde se eliminan algunas filas mediante el muestreo y la selección vertical (reducción de dimensionalidad) donde se eliminan algunos atributos que no son de importancia.  Imputación usando la media (MI) – Reemplazar los valores faltantes de un atributo dado por la media de todos los valores conocidos de ese atributo en la clase a la que la instancia con el valor faltante pertenece. Como la media se ve afectada por la presencia de outliers. En este caso los valores faltantes para un atributo dado es reemplazado por la mediana de todos los valores conocidos de ese atributo en la clase a la que la instancia con el valor faltante pertenece. El porcentaje de instancias con valores faltantes tiene mayor efecto en el proceso de clasificación que el porcentaje total de valores faltantes en la matriz de datos El tratamiento de los valores faltantes en el proceso de clasificación depende del clasificador que está siendo usado. aplicando diferentes técnicas. Casi no hay diferencia entre usar imputación por la media e imputación por la mediana. Cuando se usa eliminación de casos la variabilidad del estimado del error de clasificación aumenta. En nuestro caso.

utilizamos las siguientes reglas. que son aplicables muy fácilmente a las bases de datos. Para eliminar atributos. por lo que es común que existan muchos datos erróneos o faltantes en un atributo.  Eliminación de claves candidatas.  Eliminación de atributos dependientes . se hace evidente si existiera alguna repetición en las filas de atributos debido a que ocurrían en un mismo criterio.Minería de Datos Antología Ramón Edgardo Rincón Fernández En este trabajo los datos recogidos en la base de datos representan el total de la muestra. entre otros). lo que hace algunos modelos más comprensibles. Archivos. y por tanto mejora su calidad  Representar estos modelos visualmente requiere de pocos atributos para lograr una claridad. No es sencillo eliminar atributos. El aplicar la reducción de dimensionalidad se realizó teniendo tres objetivos fundamentales:  Eliminar atributos irrelevantes o redundantes  Expresar el modelo resultante en función de menos variables. lo que podría permitir mejorar el resultado en precisión y en costos. diferentes dispositivos de almacenamiento. pero al ser estudiados en alguna situación o modelo. en esta situación es preferible deshacerse de él. La utilización de un criterio en los datos representa una reducción horizontal. La extracción de los datos puede resultar de diferentes fuentes u orígenes (Bases de Datos. esto se hizo con el objetivo de obtener un primer modelo con un subconjunto de instancias y variables.

la idea de introducir conocimiento por medio de ejemplos parece particularmente atractivo al sentido común. construyen una estructura simbólica del conocimiento que intenta ser útil desde el punto de vista de la funcionalidad. o reglas de decisión. árboles de decisión. descubrir patrones que describen los datos. Ejemplos de tales problemas pueden ser la diagnosis médica. modelos de dependencia o análisis de secuencias. con lo que en realidad ambas categorías pueden ser útiles para la extracción de conocimiento. reglas de asociación. tales como los que generan árboles de decisión. tales como redes neuronales o los métodos bayesianos. es el de aprendizaje automático (machine learning). y diferenciador de las técnicas estadísticas más clásicas.. o predictivo.puede ser de clasificación. que fue concebido hace aproximadamente cuatro décadas con el objetivo de desarrollar métodos computacionales que implementarían varias formas de aprendizaje. para pronosticar el comportamiento del modelo basado en los datos disponibles.: Arboles de Decisión :. etc. regresión.puede ser redes neuronales. por el contrario. clustering.Minería de Datos Antología Ramón Edgardo Rincón Fernández Unidad III . discriminación lineal. reglas de asociación. Cada modelo tiene unos parámetros que deben ser determinados mediante un algoritmo de búsqueda que optimiza los parámetros del modelo según el criterio de elección o preferencia que hace un mejor ajuste del modelo a los datos. mecanismos capaces de inducir conocimiento a partir de datos. Un concepto primordial. La propuesta de caja negra desarrolla su propia representación del conocimiento.. que no es visible desde el exterior. o informalmente especificados. Típicamente un algoritmo de DM tiene tres componentes  el modelo  el criterio de preferencia o elección  el algoritmo de búsqueda. pero también descriptiva desde la perspectiva de la inteligibilidad. el reconocimiento de patrones visuales o la detección de regularidades en enormes cantidades de datos. Ya que el desarrollo de software ha llegado a ser uno de los principales cuellos de botella de la tecnología informática de hoy.e. El modelo tiene dos posibles tipologías:  Función. El paso más importante de este proceso es conocido como minería de datos o data mining (DM a partir de ahora). DM es un campo interdisciplinar con el objetivo general de predecir resultados y/o descubrir relaciones en los datos. Existen también métodos para extraer reglas comprensibles a partir de estas cajas negras. Los métodos orientados al conocimiento. son vagamente definidos. i. en particular. DM puede ser descriptivo. y métodos orientados al conocimiento.  Representación. Los algoritmos de aprendizaje automático pueden clasificarse en dos grandes categorías: métodos de caja negra (o sin modelo). Tal forma de inducción de conocimiento es deseable en problemas que carecen de solución algorítmica eficiente. de generación de reglas. .

algoritmos evolutivos. o las propiedades estadísticas de los datos son muy variables. etc. No obstante. Por otra parte. Algunas de las metodologías más extendidas y usadas son tales como algoritmos genéticos. de problemas de clasificación y diagnóstico en algunos campos (como la medicina o la balística). de patrones visuales basados en imágenes aéreas o satelitales. buscando en algunos casos estrategias o heurísticas. en cuanto a los problemas que tratan y a los algoritmos que utilizan. o el modelo es demasiado complejo. concepto anterior en el tiempo al de aprendizaje automático y con un enorme potencial práctico. 3. 3. mientras que el aprendizaje automático se orienta más a la tarea del aprendizaje propiamente. Otra línea de trabajo relacionada es la de reconocimiento de patrones (pattern recognition o matching). conjuntos rough o hibridaciones de las anteriores. Por esa razón. Tal es el caso. razonamiento basado en casos. expresarse como un conjunto de reglas Si-entonces. en una doble vertiente de reconocimiento y de focalización (conocimiento contextual). El resultado puede. de esta manera. las áreas del aprendizaje automático y la minería de datos se solapan en gran medida. Este tipo de sistemas tiene su aplicación en problemas de los que no se dispone de un modelo matemático. por ejemplo. más que el propio conocimiento comprensible. pues el aprendizaje realizado se transforma en conocimiento útil para el experto en el dominio concreto. redes neuronales. lógica fuzzy. . que es resistente al ruido en los datos y que es capaz de hallar o aprender una disyunción de expresiones. También se puede aplicar a problemas relacionados en el campo del control inteligente.) para la tarea de clasificación adaptable de patrones.Minería de Datos Antología Ramón Edgardo Rincón Fernández Lógicamente. los árboles de decisión pueden entenderse como una representación de los procesos involucrados en las tareas de clasificación. lógica difusa. Este campo estudia el desarrollo y aplicación de sistemas complejos basados en técnicas "blandas" (redes neuronales. Un último concepto relacionado es el de soft-computing. La técnica usada para realizar estas hazañas en Data Mining se llama Modelado: es simplemente el acto de construir un modelo en una situación donde usted conoce la respuesta y luego la aplica en otra situación de la cual desconoce la respuesta. la minería de datos tiene un espectro de aplicación más amplio visto desde el exterior. en el cual los sistemas complejos neuronales suministran la capacidad de aprendizaje y la lógica borrosa permite la extracción de las reglas de clasificación o diagnóstico. la minería de datos tiene un mayor enfoque en el conocimiento comprensible a partir de grandes cantidades de información.2 Métodos para la construcción de arboles de decisión Los árboles de decisión se pueden considerar como un método para aproximar una función objetivo de valores discretos. idea que engloba gran parte de las metodologías que pueden ser aplicadas en DM. en el sentido de que interactúa mejor con diferentes dominios.1 Extracción de regla Regla de inducción: la extracción de reglas if-then de datos basados en significado estadístico.

aunque podrían ser un método. Hojas: conjuntos ya clasificados de ejemplos y etiquetados con el nombre de una clase. el algoritmo identifica las columnas de entrada que se correlacionan . Para los atributos discretos. Específicamente. los cuales son transformados mediante operaciones evolutivos (cruce. reproducción). La representación del conocimiento en forma de árbol resulta relativamente simple y es una de las causas por la que los procedimientos utilizados en su aprendizaje sean más sencillos que los sistemas que utilizan lenguajes de representación más potentes. Heurística que guía la búsqueda: Ganancia de información. representaciones en lógica de predicados. el basado en programación genética. etc. Algoritmo de árboles de decisión El algoritmo de árboles de decisión es un algoritmo de clasificación y regresión proporciona para el modelado de predicción de atributos discretos y continuos. el algoritmo hace predicciones basándose en las relaciones entre las columnas de entrada de un conjunto de datos. en donde se hace la búsqueda sobre árboles completos. Desde el punto de vista del aprendizaje de máquina. como una búsqueda de un árbol que clasifique correctamente los datos del problema en cuestión. 2. ver por ejemplo [7. 9] 3. Visto de esta forma. Utiliza los valores. como redes semánticas. de estas columnas para predecir los estados de una columna que se designa como elemento de predicción. empezando por el árbol vacío. conocidos como estados. y se evalúan a la luz de su desempeño en relación con los datos del problema.Minería de Datos Antología Ramón Edgardo Rincón Fernández Están formados por:    Nodos: nombres o identificadores de los atributos. Sin embargo. se puede ver el proceso de creación de un árbol de decisión. en los árboles de decisión se pueden identificar los siguientes elementos: 1. Espacio de hipótesis: Todos los posibles árboles de decisión. Mutación. Ramas: posibles valores del atributo asociado al nodo. como por ejemplo. Método: Escalada (hill-climbing). esto deriva en que la potencia expresiva de los árboles de decisión sea menor que la de esos otros sistemas.

Minería de Datos Antología Ramón Edgardo Rincón Fernández con la columna de predicción. El siguiente diagrama muestra un histograma que traza una columna de predicción. El árbol de decisión realiza predicciones basándose en la tendencia hacia un resultado concreto. el algoritmo infiere que la edad es un buen elemento de predicción en la compra de bicicletas. Age. o si los datos de entrada contienen una tabla anidada que se haya establecido como elemento de predicción. El histograma muestra que la edad de una persona ayuda a distinguir si esa persona comprará una bicicleta. a continuación. el algoritmo usa la regresión lineal para determinar dónde se divide un árbol de decisión. El algoritmo agrega un nodo al modelo cada vez que una columna de entrada tiene una correlación significativa con la columna de predicción. puntuarlos y clasificarlos. el modelo puede tardar mucho tiempo en procesarse o incluso quedarse sin memoria. . Si se define más de una columna como elemento de predicción. en un escenario para predecir qué clientes van a adquirir probablemente una bicicleta. cada nodo contiene una fórmula de regresión. La forma en que el algoritmo determina una división varía en función de si predice una columna continua o una columna discreta. Cómo funciona el algoritmo El algoritmo de árboles de decisión genera un modelo de minería de datos mediante la creación de una serie de divisiones en el árbol. considere el siguiente diagrama. el algoritmo genera un árbol de decisión independiente para cada columna de predicción. El algoritmo de árboles de decisión utiliza la selección de características para guiar la selección de los atributos más útiles. Por ejemplo. Para los atributos continuos. Estas divisiones se representan como nodos. Si utiliza demasiados atributos de predicción o de entrada al diseñar un modelo de minería de datos. Predecir columnas discretas La forma en que el algoritmo de árboles de decisión genera un árbol para una columna de predicción discreta puede mostrarse mediante un histograma. Entre los métodos que se usan para determinar si hay que dividir el árbol figuran métricas estándar del sector para la entropía y las redes Bayesianas. La selección de características es importante para evitar que los atributos irrelevantes utilicen tiempo de procesador. Por ejemplo. Para obtener más información sobre los métodos que se usan para seleccionar los atributos significativos y. si nueve de diez clientes jóvenes compran una bicicleta. Predecir columnas continuas Cuando el algoritmo de árboles de decisión de Microsoft genera un árbol basándose en una columna de predicción continua. pero sólo lo hacen dos de diez clientes de edad mayor. El algoritmo de árboles de decisión utiliza técnicas para controlar el crecimiento del árbol. Los algoritmos de minería de datos utilizan la selección de características para mejorar el rendimiento y la calidad del análisis. con una columna de entrada. Bike Buyers. Se produce una división en un punto de no linealidad de la fórmula de regresión.

Cada modelo debe contener una columna numérica o de texto que identifique cada registro de manera única. conviene que comprenda qué requisitos son imprescindibles para el algoritmo concreto. que pueden ser discretas o continuas. Los requisitos para un modelo de árboles de decisión son los siguientes:    Una única columna key . Aumentar el número de atributos de entrada afecta al tiempo de procesamiento. Se requieren columnas de entrada. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Se requiere al menos una columna de predicción. 3. No están permitidas las claves compuestas. Segmenta un conjunto de datos creando 2 divisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. incluidos el volumen de datos necesario y la forma en que estos se utilizan. Una columna de predicción. Métodos específicos de árboles de decisión incluyen Arboles de Clasificación y Regresión (CART: Classification And Regression Tree) y Detección de Interacción Automática de Chi Cuadrado (CHAI: Chi Square Automatic Interaction Detection) CART Árboles de clasificación y regresión Técnica usada para la clasificación de un conjunto da datos. Requiere menos preparación de datos que CHAID. Puede incluir varios atributos de predicción en un modelo y pueden ser de tipos diferentes.3 Construcción de arboles de decisión para regresión y clasificación Arboles de decisión: estructuras de forma de árbol que representan conjuntos de decisiones. . numérico o discreto. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado. CHAID Detección de interacción automática de Chi cuadrado Técnica similar a la anterior. pero segmenta un conjunto de datos utilizando tests de chi cuadrado para crear múltiples divisiones. el incremento del número de atributos de predicción puede aumentar el tiempo de procesamiento. Ver CART y CHAID.Minería de Datos Antología Ramón Edgardo Rincón Fernández Datos requeridos para los modelos de árboles de decisión Cuando prepare los datos para su uso en un modelo de árboles de decisión. Sin embargo. Métodos específicos de árboles de decisión incluyen: Árbol de decisión: Estructura en forma de árbol que representa un conjunto de decisiones. Columnas de entrada.

Es útil en aquellas situaciones en las que el objetivo es dividir una población en distintos segmentos basándose en algún criterio de decisión.Minería de Datos Antología Ramón Edgardo Rincón Fernández El método Chaid (Chi Squared Automatic Interaction Detector) es un análisis que genera un árbol de decisión para predecir el comportamiento de una variable. La raíz del árbol es el conjunto de datos íntegro. El árbol de decisión se construye partiendo el conjunto de datos en dos o más subconjuntos de observaciones a partir de los valores que toman las variables predictoras. a partir de una o más variables predictoras. Un nodo interno contiene un test sobre algún valor de una de las propiedades. Cada uno de estos subconjuntos vuelve después a ser particionado utilizando el mismo algoritmo. Un nodo hoja representa el valor que devolverá el árbol de decisión y finalmente las ramas brindan los posibles caminos que se tienen de acuerdo a la decisión tomada. Este proceso continúa hasta que no se encuentran diferencias significativas en la influencia de las variables de predicción de uno de estos grupos hacia el valor de la variable de respuesta. de forma que los conjuntos de una misma rama y un mismo nivel son disjuntos. los subconjuntos y los subsubconjuntos conforman las ramas del árbol. Un nodo de probabilidad indica que debe ocurrir un evento aleatorio de acuerdo a la naturaleza del problema. . El número de subconjuntos en una partición puede ir de dos hasta el número de valores distintos que puede tomar la variable usada para hacer la separación. nodos hojas y arcos. El árbol de decisión suele contener nodos internos. La variable de predicción usada para crear una partición es aquella más significativamente relacionada con la variable de respuesta de acuerdo con test de independencia de la Chi cuadrado sobre una tabla de contingencia. los demás son cuadrados.4 Nodos de arboles de decisión Un árbol de decisión lleva a cabo un test a medida que este se recorre hacia las hojas para alcanzar así una decisión. Un conjunto en el que se hace una partición se llama nodo. este tipo de nodos es redondo. nodos de probabilidad. 3.

El volumen de datos que se acumula continuamente. han convertido a la Minería de Datos en una disciplina de importancia estratégica para la planeación y la toma de decisiones. Diciendo cuando el conocimiento representa conocimiento útil o no. y específicamente del uso redes neuronales artificiales. 4. Data Mining envuelve modelos para determinar patterns a partir de los datos observados. en base a un conocimiento previo del entorno del problema. el reconocimiento de patrones y los sistemas de control adaptativo. Las Redes Neuronales (Neural Networks) son utilizadas para la predicción. básicamente dos tipos distintos de redes neuronales: Redes de Kohonen y perceptrones multicapa o redes de backpropagation. las cuales serán entrenadas para reaccionar (valores O). las estadísticas. Las redes neuronales se han revelado como un útil instrumento para obtener información a partir de grandes masas de datos. al cerebro humano. Los modelos juegan un rol de conocimiento inferido. la minería de datos (data mining). Estos sistemas emulan. los algoritmos genéticos. Constituyen una parte muy importante en el estudio y desarrollo de la inteligencia artificial (AI) y el de la vida artificial (a-life). En la minería de datos se han utilizado. Esta estructura posee varias entradas y salidas.: Minería de Datos Descriptivas :. 4. esto es parte del proceso de extracción de conocimiento en bases de datos (Knowledge Discovery in Databases-KDD). Las RN pueden ser combinadas con otras herramientas como la lógica difusa (lógica fuzzy). etc. El problema es que tal algoritmo eventualmente puede dar información que no es relevante. Las reglas de Asociación están siempre definidas sobre atributos binarios. de una manera deseada. a los estímulos de entrada (valores I). de una cierta manera. y la necesidad de encontrar métodos que permitan descubrir conocimiento (dentro de esas enormes masas de datos).1 Reglas de Asociación Reglas de Asociación: establece asociaciones en base a los perfiles de los clientes sobre los cuales se está realizando el data mining. los sistemas expertos.. No es muy complicado generar reglas en grandes bases de datos.2 Redes neuronales Redes Neuronales. las transformadas de Fourier. . La Minería de Datos se apoya en la aplicación de métodos matemáticos de análisis. que son de gran utilidad para llevar a cabo el análisis inteligente de grandes volúmenes de información digital.Es un sistema compuesto por un gran número de elementos básicos (Artificial Neurons). agrupados en capas (Layers) y que se encuentran altamente interconectados (Synapses). Requieren aprender a comportarse (Learning) y alguien debe encargarse de enseñarles o entrenarles (Training). Las redes de Kohonen o mapas autoorganizativos son redes neuronales que forman un mapa bidimensional de rasgos a partir de los datos de entrada de forma que cada caso agrupado en clases o clústers de máxima similaridad.Minería de Datos Antología Ramón Edgardo Rincón Fernández Unidad IV .

los pesos de las conexiones del nivel anterior de la red. dando lugar a un proceso de retroalimentación mediante el cual la red se reconfigura. que básicamente construye un análisis factorial a partir de la matriz de correlación entre personas y no entre variables. .  Los supuestos sobre independencia de reactivos se violan al pedir que sean clasificados por orden de rango. mercadeo. Neural Connection (SPSS Inc). hasta obtener unas salidas. no lineales que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica. Normalmente. Genéricamente son métodos de proceso numérico en paralelo.1 Análisis Factorial Este análisis se usa para agrupar casos (sujetos u objetos) en lugar de variables que es el propósito principal de un análisis factorial típico. es capaz de descubrir clases de casos. Rencon Data Mining System (Lokeed Martin Product and Services). El análisis factorial se originó en psicometría.  No se puede trabajar con muestras grandes. gestión de productos. Entre las herramientas de redes neuronales actualmente disponibles se encuentran NeuralWorks (NeuralWare). entre otros. en el que las variables interactúan mediante transformaciones lineales o no lineales. 4. Darwin (Thinking Machine). hasta obtener un modelo adecuado. como los perceptrones multicapa o redes backpropagation. basándose en unos datos de prueba. Desventajas:  Sólo puede ser usado con variables ordinales o de intervalo.Minería de Datos Antología Ramón Edgardo Rincón Fernández El rasgo diferencial más importante de este tipo de red es que aprende sin supervisión. investigación de operaciones y otras ciencias aplicadas que tratan con grandes cantidades de datos. lo que se repite hasta llegar a la capa de entrada.  Un mismo segmento puede contener sujetos completamente desiguales aunque tengan el mismo perfil ya que uno califica alto en la escala y otro bajo. Matlab Neural Network Toolbox (The Math Works). Estas salidas se contrastan con los que tenían que haber salido. y se usa en las ciencias del comportamiento tales como ciencias sociales. Por lo tanto. Metodología desarrollada por el británico William Stphenson (1902-1989).2. a partir del error de salida. se combinan con otras redes de aprendizaje supervisado. las Redes neuronales artificiales son modelos predecibles. Estos sistemas de aprendizaje supervisado permiten identificar clases no linealmente separables reajustando. El Análisis factorial es una técnica estadística de reducción de datos usada para explicar la variabilidad entre las variables observadas en términos de un número menor de variables no observadas llamadas factores. es decir. Las variables observadas se modelan como combinaciones lineales de factores más expresiones de error.

 El análisis factorial confirmatorio.Minería de Datos Antología Ramón Edgardo Rincón Fernández Existen dos tipos de análisis factorial:  El análisis factorial exploratorio. Permiten hacer visualizaciones de realidades multivariantes complejas y. Las cargas de los distintos factores se utilizan para intuir la relación de éstos con las distintas variables. trata de determinar si el número de factores obtenidos y sus cargas se corresponden con los que cabría esperar a la luz de una teoría previa acerca de los datos. . se usa para tratar de descubrir la estructura interna de un número relativamente grande de variables. así como eventuales discrepancias respecto de aquella y sugerir hipótesis de explicación. manifestar las regularidades estadísticas. por ende. Es el tipo de análisis factorial más común. Los Análisis Factoriales Descriptivos. La hipótesis a priori es que existen unos determinados factores preestablecidos y que cada uno de ellos está asociado con un determinado subconjunto de las variables. La hipótesis a priori del investigador es que pueden existir una serie de factores asociados a grupos de variables. AFE. AFC. El análisis factorial confirmatorio entonces arroja un nivel de confianza para poder aceptar o rechazar dicha hipótesis.