You are on page 1of 17

[Escribir el nombre de la compañía

]

Redes_PC-2

Generalmente. cuando se sigue nuestra navegación por Internet o cuando nos sacan una fotografía del rostro al haber pasado cerca de una oficina gubernamental.Unidad I DATA MINING Objetivo: toma de decisiones Revisar los conceptos fundamentales de los sistemas orientados a la toma de decisiones. 2. Un nuevo tipo de dato al cual hemos denominado dato- 2 . todas las empresas usan un dato llamado dato-escritura-lectura. pero nunca se hace uso de él. si una empresa tiene una pérdida total o parcial de información provoca bastantes perjuicios. Las mejoras en la confiabilidad y aumento de la velocidad en la transmisión de datos. Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la información en las bases de datos. ya que sólo se guarda (o escribe) en el disco duro. cuando pagamos con una tarjeta de crédito o cuando reservamos un billete de avión. Otras veces no nos damos cuenta de que generamos información. pero también explotada. ¿Con qué finalidad queremos generar información? Son muchos los motivos que nos llevan a generar información. Podemos decir que algunas empresas almacenan un cierto tipo de datos al que hemos denominado dato-escritura. Describir los procesos metodológicos y lenguajes de modelados aplicados a sistemas analíticos. Es evidente que la información debe ser protegida. algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos damos cuenta de que generamos información cuando registramos nuestra entrada en el trabajo. debido al desarrollo tecnológico a niveles exponenciales tanto en el área de cómputo como en la de transmisión de datos. Introducción Cada día generamos una gran cantidad de información. Sin duda existen cuatro factores importantes que nos han llevado a este suceso: 1. De esta forma. ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la información. El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente. someter. planificar. El incremento de las velocidades de cómputo en los procesadores. ¿Qué nos ha permitido poder generar tanta información? En los últimos años. como cuando conducimos por una vía donde están contabilizando el número de automóviles que pasan por minuto. predecir. ya que nos pueden ayudar a controlar. 4. investigar. que utilizan para hacer consultas dirigidas. optimizar. negociar o tomar decisiones de cualquier ámbito según el dominio en que nos desarrollemos. 1. La información por sí misma está considerada un bien patrimonial. administrar. 3. examinar.1. El desarrollo de sistemas administradores de bases de datos más poderosos. cuando entramos en un servidor para ver nuestro correo.

existe una clara necesidad de disponer de tecnologías que nos ayuden en nuestros procesos de búsqueda y. La separación del triángulo representa la estrecha unión entre dato e información. por lo tanto. comportamientos. Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171. El data mining surge como una tecnología que intenta ayudar a comprender el contenido de una base de datos. aún más. secuencias. información y conocimiento (Molina. no así entre la información y el conocimiento. El área interna dentro del triángulo representa los objetivos que se han propuesto. Relación entre dato. de tecnologías que nos ayuden a comprender su contenido. tendencias o asociaciones que puedan generar algún modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisión. 1998). haciendo que la interpretación del confronto entre la información y ese modelo represente un valor agregado. información y conocimiento (Molina. y. entonces nos referimos al conocimiento. 1998).2. En la figura 1 se ilustra la jerarquía que existe en una base de datos entre dato. Data mining: conceptos e historia 3 . El data mining trabaja en el nivel superior buscando patrones. Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquía. La cantidad de información que nos llega cada día es tan inmensa que nos resulta difícil asimilarla. Suponiendo que nos tomemos un minuto para ver el contenido de cada página. Es necesario contar con tecnologías que nos ayuden a explotar el potencial de este tipo de datos. 1.escritura-lectura-análisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones. De forma general. agrupaciones.416 sitios donde nos pueden decir algo al respecto. Cuando los especialistas elaboran o encuentran un modelo. Esto es imposible. Figura 1.769. tardaríamos entonces 326 años en visitarlas todas. los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información.

universidades. potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos" (Fayyad y otros. Determinación de los objetivos. de visualización de datos o de inteligencia artificial. hospitales y diversas organizaciones que están interesadas en explorar sus bases de datos. novedosa. así como en este trabajo. 2001).Aunque desde un punto de vista académico el término data mining es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases de datos (Knowledge Discovery in Databases o KDD) en el entorno comercial. principalmente usando como materia prima las bases de datos. Sin embargo. data mining o data archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. 4 . el data mining se ha ido incorporando a la vida de empresas. Robert Blum y Gregory Piatetsky-Shapiro. el enriquecimiento. Esta tecnología ha sido un buen punto de encuentro entre personas pertenecientes al ámbito académico y al de los negocios. en términos generales. 2. en 2002 existen más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. La idea de data mining no es nueva. la limpieza. la Computación Gráfica. Preprocesamiento de los datos. Podemos decir que "en data mining cada caso es un caso". Desde nuestro punto de vista. Gio Wiederhold. ambos términos se usan de manera indistinta. 1. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. la reducción y la transformación de las bases de datos. 1996).[3] A finales de los años ochenta sólo existían un par de empresas dedicadas a esta tecnología. Las listas de discusión sobre este tema las forman investigadores de más de ochenta países. Lo que en verdad hace el data mining es reunir las ventajas de varias áreas como la Estadística. Una definición tradicional es la siguiente: "Un proceso no trivial de identificación válida. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas.3. Sin embargo. entre otros. gobiernos. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. principalmente. las Bases de Datos y el Procesamiento Masivo. el proceso se compone de cuatro etapas principales: 1. Ya desde los años sesenta los estadísticos manejaban términos como data fishing. lo definimos como "la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión" (Molina y otros. Se refiere a la selección. casi siempre acaban complementándose con otra herramienta. la Inteligencia Artificial. simposios y talleres que se realizan en el mundo se reúnen investigadores con aplicaciones muy diversas. empezaron a consolidar los términos de data mining y KDD. A principios de los años ochenta. Rakesh Agrawal. en los diferentes congresos. Sobre todo en los Estados Unidos. Aplicaciones de uso Cada año. El data mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software.

pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial. redes neuronales. las revistas a las que está suscrito. En un principio estaba pensado. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. Se han seleccionado de diversos dominios y con diversos objetivos para observar su potencial. las instituciones financieras a escala mundial perdieron más de 2. algoritmos genéticos y lógica difusa. 1. en instituciones financieras de Norteamérica. Determinación del modelo.3. algoritmos de agrupación (clustering). A principios del mes de julio de 2002. En 2001. sus enfermedades crónicas (como diabetes o asma). conjuntos aproximados (rough sets). desarrollar redes de seguridad para compartir información e implementar nuevo software analítico y de visualización. para detectar fraudes en tarjetas de crédito.1. entre otros. de combustibles y de débito. máquinas de soporte vectorial. sus contribuciones a la Iglesia. reglas de asociación. su altura y peso. Análisis de los resultados. Según los objetivos planteados y la tarea que debe llevarse a cabo. con esta información. se ha comprobado que en ellos se utilizan principalmente árboles y reglas de decisión. su registro de arrestos. Sin embargo. si tomó clases de vuelo o si tiene cuentas de banco abiertas. El Falcon Fraud Manager[6] es un sistema inteligente que examina transacciones.000 millones de dólares estadounidenses en fraudes con tarjetas de crédito y débito. Respecto a los modelos inteligentes.2. propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. 4. En el gobierno El FBI analizará las bases de datos comerciales para detectar terroristas.[7] El sistema Falcon ha permitido ahorrar más de seiscientos millones de dólares estadounidenses cada 5 . actualmente se le han incorporado funcionalidades de análisis en las tarjetas comerciales. John Aschcroft.[4] Algunos expertos aseguran que. los libros que lee. En la empresa  Detección de fraudes en las tarjetas de crédito. grupos políticos u organizaciones no gubernamentales. anunció que el Departamento de Justicia comenzará a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores. el director del Federal Bureau of Investigation (FBI). qué talla y tipo de ropa usa.3. 1. los productos de supermercado que compra. Se comienza realizando unos análisis estadísticos de los datos. el FBI unirá todas las bases de datos probablemente mediante el número de la Seguridad Social y permitirá saber si una persona fuma. con el fin de descubrir potenciales terroristas antes de que ejecuten una acción.[5] La inversión inicial ronda los setenta millones de dólares estadounidenses para consolidar los almacenes de datos. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones. su salario. A continuación se describen varios ejemplos donde se ha visto involucrado el data mining.3. y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. redes bayesianas.

 Descubriendo el porqué de la deserción de clientes de una compañía operadora de telefonía móvil. El objetivo era saber si con los planes de estudio de la universidad y el 6 . 1. la operadora tuvo que diseñar un trato más personalizado para sus clientes actuales con esas características. etc. Al contrario de lo que se podría pensar.3. En la universidad  Conociendo si los recién titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. sexo. Se quería observar si sus recién titulados se insertaban en actividades profesionales relacionadas con sus estudios y.[8] La versión final se desempeña tan bien como un experto humano con la ventaja de que se adapta más fácilmente a los cambios porque es constantemente reentrenada con datos actuales. La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para predecir el tamaño de las audiencias televisivas para un programa propuesto.[9] en Méjico (Rodas. así como el tiempo óptimo de exhibición (Brachman y otros. También se analizaron las variables personales de cada cliente (estado civil. en caso negativo. De esta forma se recomendó a la operadora hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. 1996). Este estudio fue desarrollado en una operadora española que básicamente situó sus objetivos en dos puntos: el análisis del perfil de los clientes que se dan de baja y la predicción del comportamiento de sus nuevos clientes. sin embargo. se buscaba saber el perfil que caracterizó a los exalumnos durante su estancia en la universidad. los clientes que abandonaban la operadora generaban ganancias para la empresa. nacionalidad.6%) y de clientes que continuaban con su servicio (87. la morosidad.año y protege aproximadamente más de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo –aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crédito. El sistema utiliza redes neuronales y árboles de decisión aplicados a datos históricos de la cadena para determinar los criterios que participan según el programa que hay que presentar. para cada cliente. Para poder predecir el comportamiento de sus nuevos clientes se diseñó un sistema de predicción basado en la cantidad de datos que se podía obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores. interprovinciales. internacionales y gratuitas. edad. Al descubrir el perfil que presentaban. De igual forma se estudiaron. los descuentos y el porcentaje de llamadas locales. Se analizaron los diferentes históricos de clientes que habían abandonado la operadora (12.). una de las conclusiones más importantes radicó en el hecho de que los clientes que se daban de baja recibían pocas promociones y registraban un mayor número de incidencias respecto a la media. 2001).4%). Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en Sistemas Computacionales del Instituto Tecnológico de Chihuahua II.  Prediciendo el tamaño de las audiencias televisivas.3. la frecuencia y el horario de uso del servicio.

Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo. Durante seis años. 1. sistemas. creado por Computer Associates International. es alimentado por datos de cada jugador. alimentación y respuesta a estímulos externos. la escuela de procedencia. Los resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásars con corrimiento hacia el rojo que los incluye entre los objetos más lejanos del universo y. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con 23. 1996).3. En los clubes deportivos  El AC de Milán utiliza un sistema inteligente para prevenir lesiones. el desempeño académico. galaxias. que son citadas de acuerdo con su importancia: zona económica donde habitaba el estudiante. entre otras variables. planetas. el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos. el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo.5. más antiguos. Mediante la aplicación de conjuntos aproximados se descubrió que existían cuatro variables que determinaban la adecuada inserción laboral. la universidad tendrá que hacer un estudio socioeconómico sobre grupos de alumnos que pertenecían a las clases económicas bajas para dar posibles soluciones. la zona económica donde tenía su vivienda y la actividad profesional.3. Esta temporada el club comenzará a usar redes neuronales para prevenir lesiones y optimizar el acondicionamiento de cada atleta. relacionados con su rendimiento. En investigaciones espaciales  Proyecto SKYCAT. con una alta confiabilidad (Fayyad y otros.040 x 23.[10] El sistema. lo que haría incluso renegociar su contrato. Dentro de la información considerada estaba el sexo. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (clustering) y árboles de decisión para poder clasificar los objetos en estrellas.040 píxeles por imagen.4. la edad. El objetivo era formar un catálogo de todos esos objetos. 1.aprovechamiento del alumno se hacía una buena inserción laboral o si existían otras variables que participaban en el proceso. Por otra parte. el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesión.000 casos registrados que permiten predecir alguna posible lesión. etc. Con ello. Actualmente el sistema dispone de 5. por consiguiente. debido a que tres de las cuatro variables no dependían de la universidad. Esto ayudará a seleccionar el fichaje de un posible jugador o a alertar al médico del equipo de una posible lesión. así como saber si una determinada lesión se relaciona con el estilo de juego de un país concreto donde se practica el fútbol. colegio de donde provenía. A partir de estos resultados. que se obtienen y analizan cada quince días. 7 . nota al ingresar y promedio final al salir de la carrera. El jugador lleva a cabo determinadas actividades que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten señales de radio que posteriormente son almacenadas en una base de datos.

Los accesos totales por dominio. etc. Extensiones del data mining 1. Para saber el porqué. Dieciocho equipos lo están haciendo hasta el momento obteniendo descubrimientos interesantes. Sin embargo. lo que se llama web mining (minería de web) (Kosala y otros.1. La temporada pasada. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. metadatos o hiperligas. le hicieran doble marcaje era extremadamente bajo. 8 . IBM ofreció el Advanced Scout a la NBA. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en película.) que los servidores automáticamente almacenan en una bitácora de accesos (log). Debido a que los contenidos de Internet consisten en varios tipos de datos. navegador. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar más fácilmente. encestes. horarios de accesos más frecuentes y visitas por día. galletas. como texto. que se convirtió así en un patrocinador corporativo. Patrick Ewing. 2000). investigaciones recientes usan el término multimedia data mining (minería de datos multimedia) como una instancia del web mining (Zaiane y otros. Tiene una interfaz gráfica muy amigable orientada a un objetivo muy específico: analizar el juego de los equipos de la National Basketball Association (NBA). imagen. Las herramientas de web mining analizan y procesan estos logs para producir información significativa. Web mining Una de las extensiones del data mining consiste en aplicar sus técnicas a documentos y servicios del Web. por ejemplo. el cuerpo de entrenadores estudió cuidadosamente todas las películas de juegos contra Chicago. cómo es la navegación de un cliente antes de hacer una compra en línea. cuando los Bulls de Chicago jugaban contra los Knicks. El Advanced Scout[11] es un software que emplea técnicas de data mining y que han desarrollado investigadores de IBM para detectar patrones estadísticos y eventos raros. entre otros. entre otros datos.Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. son registrados por herramientas estadísticas que complementan todo el proceso de análisis del web mining. El software utiliza todos los registros guardados de cada evento en cada juego: pases. 1. rebotes y doble marcaje (double team) a un jugador por el equipo contrario. Observaron que los jugadores de Chicago rompían su doble marcaje muy rápido de tal forma que podían tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento. indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. 1998) para tratar ese tipo de datos. vídeo.4.4. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. se encontró que el porcentaje de encestes después de que al centro de los Knicks. los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP.

Web content mining (minería de contenido web). Igualmente. Sin duda. 1. Sin embargo. Los clientes que hacen una compra en línea cada semana en /compra/producto1.html tienden a ser de sectores del gobierno. 9 . ver Mena (1999). Esto podría resultar en proponer diversas ofertas a este sector para potenciar más sus compras. por lo que técnicas como la categorización de texto. La localización de patrones en el texto de los documentos. Esto podría indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. categorización. Algunos de los resultados que pueden obtenerse tras la aplicación de los diferentes métodos de web mining son: El ochenta y cinco por ciento de los clientes que acceden a /productos/home. en la realidad existen herramientas de mercado muy poderosas con métodos variados y visualizaciones gráficas excelentes. Web structure mining (minería de estructura web). clasificación.4. el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría. apoyan al text mining (minería de texto).html. Es el proceso de extracción de modelos interesantes usando los logs de los accesos al web. entre otras. 1999). etc. Text mining Estudios recientes indican que el ochenta por ciento de la información de una compañía está almacenada en forma de documentos.html después de un mes.html y a /productos/noticias. el procesamiento de lenguaje natural. el web mining puede clasificarse en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos: 1. Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. Los anteriores ejemplos nos ayudan a formarnos una pequeña idea de lo que podemos obtener.html acceden también a /productos/historias_suceso. este resultado permitiría detectar la noticia sobresaliente y colocarla quizá en la página principal de la empresa. la extracción y recuperación de la información o el aprendizaje automático.Normalmente. Esto indica que se podría recomendar en la página del producto 1 comprar el producto 4 y ahorrarse el costo de envío de este producto. Es el proceso de inferir conocimiento de la organización del WWW y la estructura de sus ligas. Ésta última consiste en la recuperación automática de documentos relevantes mediante indexaciones de textos.html también compraron en /compra/producto4. Web usage mining (minería de uso web). El sesenta por ciento de los clientes que hicieron una compra en línea en /compra/producto1. Para más información. En ocasiones se confunde el text mining con la recuperación de la información (Information Retrieval o IR) (Hearst. 3.2. 2. este campo de estudio es muy vasto.

una hipótesis que no existía en la literatura y que Swanson encontró mediante esas ligas. En cambio. la tecnología de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades:  Predicción automatizada de tendencias y comportamientos. Los pacientes con migraña tienen una alta agregación plaquetaria. La depresión cortical diseminada (DCD) está implicada en algunas migrañas. El magnesio es un bloqueador natural del canal de calcio. el text mining se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección. De acuerdo con Swanson (Swanson y otros. Algunas de esas claves fueron: El estrés está asociado con la migraña. Los niveles altos de magnesio inhiben la DCD. dicho investigador extrajo varias piezas de evidencia a partir de títulos de artículos presentes en la literatura biomédica.5. 1994). Los bloqueadores de canales de calcio previenen algunas migrañas. Data Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos para maximizar los resultados de la inversión en futuros mailing. Ambos procesos requieren examinar una inmensa cantidad de material. El Alcance de Data Mining El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos . Otros problemas predecibles incluyen pronósticos de problemas 10 . Así.Generalmente se utilizan palabras clave para encontrar una página relevante. Un típico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted marketing). 1. El magnesio puede suprimir la agregación plaquetaria.por ej. Una aplicación muy popular del text mining es relatada en Hearst (1999). o investigar inteligentemente hasta encontrar exactamente donde residen los valores.: encontrar información de la venta de un producto entre grandes montos de Gigabytes almacenados . Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. estudios posteriores han probado experimentalmente esta hipótesis obtenida por text mining con buenos resultados. ahora pueden ser contestadas directa y rápidamente desde los datos. El estrés puede conducir a la pérdida de magnesio. Don Swanson intenta extraer información derivada de colecciones de texto. en otras palabras. trata de obtener información sin haber partido de algo (Nasukawa y otros. algunas de las cuales han recibido pruebas de soporte experimental. Preguntas que tradicionalmente requerían un intenso análisis manual. 2001). Teniendo en cuenta que los expertos sólo pueden leer una pequeña parte de lo que se publica en su campo.y minar una montaña para encontrar una veta de metales valiosos. Investigando las causas de la migraña. Dadas bases de datos de suficiente tamaño y calidad. Estas claves sugieren que la deficiencia de magnesio podría representar un papel en algunos tipos de migraña. por lo general no se dan cuenta de los nuevos desarrollos que se suceden en otros campos. Swanson ha demostrado cómo cadenas de implicaciones causales dentro de la literatura médica pueden conducir a hipótesis para enfermedades poco frecuentes.

Método del vecino más cercano: una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases del/de los k registro (s) más similar/es a él técnica del vecino k-más cercano. financieros futuros y otras formas de incumplimiento. a su vez. y permite a los usuarios hacer inferencias acerca de pequeños pero importantes segmentos de población. Muestras mayores producen menos errores de estimación y desvíos. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Métodos específicos de árboles de decisión incluyen Arboles de Clasificación y Regresión (CART: Classification And Regression Tree) y Detección de Interacción Automática de Chi Cuadrado (CHAI: Chi Square Automatic Interaction Detection) Algoritmos genéticos: técnicas de optimización que usan procesos tales como combinaciones genéticas.   11 . Las bases de datos pueden ser grandes tanto en profundidad como en ancho:  Más columnas. Arboles de decisión: estructuras de forma de árbol que representan conjuntos de decisiones. Las técnicas de Data Mining pueden redituar los beneficios de automatización en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos. Sin embargo. Más filas. sin preseleccionar un subconjunto de variables. e identificar segmentos de población que probablemente respondan similarmente a eventos dados. producen mejores predicciones. Grandes bases de datos. Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alta performance. Descubrimiento automatizado de modelos previamente desconocidos. mutaciones y selección natural en un diseño basado en los conceptos de evolución. Alta velocidad hace que sea práctico para los usuarios analizar inmensas cantidades de datos. Procesamiento más rápido significa que los usuarios pueden automáticamente experimentar con más modelos para entender datos complejos. variables que son descartadas porque parecen sin importancia pueden proveer información acerca de modelos desconocidos. Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un sólo paso. Los analistas muchas veces deben limitar el número de variables a examinar cuando realizan análisis manuales debido a limitaciones de tiempo.  Las técnicas más comúnmente usadas en Data Mining son:   Redes neuronales artificiales: modelos predecible no-lineales que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica. pueden analizar bases de datos masivas en minutos. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de créditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos.

¿Cómo puede saber si es realmente un buen modelo? La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes . no es muy diferente de la manera en que la gente construye modelos. requiriendo pasos extra para 12 . Una vez que el modelo se construyó. Con Data Mining. probablemente encontrará el tesoro. Lo que ocurre en las computadoras. 1. si busca un galeón español hundido en los mares lo primero que podría hacer es investigar otros tesoros españoles que ya fueron encontrados en el pasado. éstas deben estar totalmente integradas con el data warehouse así como con herramientas flexibles e interactivas para el análisis de negocios. puede ser usado en situaciones similares donde usted no conoce la respuesta. Si el modelo funciona.donde usted ya conoce la respuesta. Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo más probabilidad de darse una situación similar. seguramente desde antes del auge de las computadoras y de la tecnología de Data Mining.7 Una arquitectura para Data Mining Para aplicar mejor estas técnicas avanzadas. las observaciones deben mantenerse para los datos excluidos. Notaría que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas características respecto de las corrientes oceánicas y ciertas rutas que probablemente tomara el capitán del barco en esa época. Las computadoras son cargadas con mucha información acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a través de los datos y distinguir las características de los datos que llevarán al modelo. Modelado es simplemente el acto de construir un modelo en una situación donde usted conoce la respuesta y luego la aplica en otra situación de la cual desconoce la respuesta. los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo. 1. Una vez que el proceso está completo. Varias herramientas de Data Mining actualmente operan fuera del warehouse. Usted nota esas similitudes y arma un modelo que incluye las características comunes a todos los sitios de estos tesoros hundidos.6 ¿Cómo Trabaja el Data Mining? ¿Cuán exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar? La técnica usada para realizar estas hazañas en Data Mining se llama Modelado. Muchas de estas tecnologías han estado en uso por más de una década en herramientas de análisis especializadas que trabajan con volúmenes de datos relativamente pequeños. si tiene un buen modelo. Estas capacidades están ahora evolucionando para integrarse directamente con herramientas OLAP y de Data Warehousing. Por ejemplo. Este acto de construcción de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo. la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining. Con un poco de esperanza. Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes. Regla de inducción: la extracción de reglas if-then de datos basados en significado estadístico.

metadata centrado en procesos define los objetivos del Data Mining para resultados específicos tales como manejos de campaña. El Data warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización. 1. A medida que el data warehouse crece con nuevas decisiones y resultados. la organización puede "minar" las mejores prácticas y aplicarlas en futuras decisiones. lanzamiento de nuevos productos. Un avanzado. u otras perspectivas claves para su negocio. Más que simplemente proveer datos a los usuarios finales a través de software de consultas y reportes. prospecting. en áreas tales como manejo de campañas promocionales. la integración con el warehouse simplifica la aplicación de los resultados desde Data Mining.extraer. el server de Análisis Avanzado aplica los modelos de negocios del usuario directamente al warehouse y devuelve un análisis proactivo de la información más relevante. Análisis de series de tiempo (time-series): Análisis de una secuencia de medidas hechas a intervalos específicos. mutación y selección natural en un diseño basado en los conceptos de evolución natural.resumido por línea de producto.    13 . El punto de inicio ideal es un data warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Análisis exploratorio de datos: Uso de técnicas estadísticas tanto gráficas como descriptivas para aprender acerca de la estructura de un conjunto de datos. Este diseño representa una transferencia fundamental desde los sistemas de soporte de decisión convencionales. visualizadores y otras herramientas de análisis pueden ser aplicadas para planificar futuras acciones y confirmar el impacto de esos planes. El tiempo es usualmente la dimensión dominanate de los datos. importar y analizar los datos. El server de Data Mining debe estar integrado con el data warehouse y el server OLAP para insertar el análisis de negocios directamente en esta infraestructura. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rápido.8 Glosario de Términos de Data Mining  Algoritmos genéticos: Técnicas de optimización que usan procesos tales como combinación genética. y optimización de promociones. Además. Las estructuras multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera mirar el negocio . Estos resultados mejoran los metadatos en el server OLAP proveyendo una estrato de metadatos que representa una vista fraccionada de los datos. comportamientos o eventos basado en datos históticos. La integración con el data warehouse permite que decisiones operacionales sean implementadas directamente y monitoreadas. Análisis prospectivo de datos: Análisis de datos que predice futuras tendencias. cuando nuevos conceptos requieren implementación operacional. detección de fraudes. Generadores de reportes. Un server multidimensional OLAP permite que un modelo de negocios más sofisticado pueda ser aplicado cuando se navega por el data warehouse. Información histórica sobre potenciales clientes también provee una excelente base para prospecting. etc.

un árbol de decisión es un modelo para la clasificación de un conjunto de datos 14 . Árbol de decisión: Estructura en forma de árbol que representa un conjunto de decisiones.: errores en el tipeado durante la carga) o que representan eventos inusuales. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado. Dimensión: En una base de datos relacional o plana. donde la distancia está medida con respecto a variable(s) específica(s) las cuales se están tratando de predecir. Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean consistentes y correctamente registrados. Por ejemplo. En una base de datos multidimensional. comportamientos o eventos basado en datos históricos. un problema típico de clasificación es el de dividir una base de datos de compañías en grupos que son lo más homogéneos posibles con respecto a variables como "posibilidades de crédito" con valores tales como "Bueno" y "Malo". y grupos diferentes estén lo "más lejos" posible uno del otro. y grupos diferentes estén lo "más lejos" posible uno del otro. por ej. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Data Warehouse: Sistema para el almacenamiento y distribución de cantdades masivas de datos Datos anormales: Datos que resultan de errores (por ej. Base de datos multidimensional: Base de datos diseñada para procesamiento analítico online (OLAP). CHAID Detección de interacción automática de Chi cuadrado: Una técnica de árbol de decisión usada para la clasificación de un conjunto da datos. Data Mining: La extracción de información predecible escondida en grandes bases de datos. CART Árboles de clasificación y regresión: Una técnica de árbol de decisión usada para la clasificación de un conjunto da datos. Por ejemplo. que CART. Segmenta un conjunto de datos creando 2 divisiones. Ver procesamiento paralelo. Computadoras con multiprocesadores: Una computadora que incluye múltiples procesadores conectados por una red. Antecede. Clasificación: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano" posible a otro.: una base de datos multidimensional de ventas podría incluir las dimensiones Producto. y requiere más preparación de datos. Modelo analítico: Una estructura y proceso para analizar un conjunto de datos. Requiere menos preparación de datos que CHAID . Segmenta un conjunto de datos utilizando tests de chi cuadrado para crear múltiples divisiones. Ver CART y CHAID. cada campo en un registro representa una dimensión. Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano" posible a otro.              Análisis retrospectivo de datos: Análisis de datos que provee una visión de las tendencias . Estructurada como un hipercubo con un eje por dimensión. una dimensión es un conjunto de entidades similares. donde la distancia está medida con respecto a todas las variables disponibles. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado. Tiempo y Ciudad.

Vecino más cercano: Técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases del/de los k registro (s) más similar/es a él en un conjunto de datos históricos (donde k 1). nuestra capacidad para procesarlos y utilizarlos no ha ido a la par. OLAP Procesamiento analítico on-line (On Line Analitic prossesing): Se refiere a aplicaciones de bases de datos orientadas a array que permite a los usuarios ver. Descubrir nuevos caminos que nos ayuden en la identificación de interesantes estructuras en los datos es una de las tareas fundamentales en el data mining. En el ámbito comercial. Modelo no lineal: Un modelo analítico que no asume una relación lineal en los coeficientes de las variables que son estudiadas. el data mining se presenta como una tecnología de apoyo para explorar. navegar. Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas en un conjunto de datos. Puede indicar datos anormales. manipular y analizar bases de datos multidimensionales. analizar. tal como Tipo de Consumidor. Conclusiones Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales. En contrapartida. Regresión lineal: Técnica estadística utilizada para encontrar la mejor relación lineal que encaja entre una variable seleccionada (dependiente) y sus predicados (variables independientes). Deberían ser examinados detenidamente. Por este motivo. Algunas veces se llama la técnica del vecino k-más cercano. pueden dar importante información. Tecnología para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de alto rendimiento.9. "fetas" y niveles de una base de datos multidimensional.            Modelo lineal: Un modelo analítico que asume relaciones lineales entre una variable seleccionada (dependiente) y sus predictores (variables independientes). Procesamiento paralelo: Uso coordinado de múltiples procesadores para realizar tareas computacionales. Regresión logística: Una regresión lineal que predice las proporciones de una variable seleccionada categórica. RAID: Formación redundante de discos baratos (Redundant Array of inexpensive disks). en una población. Ver OLAP. resulta interesante encontrar patrones ocultos de consumo de los clientes para poder explorar nuevos horizontes. Navegación de datos: Proceso de visualizar diferentes dimensiones. El procesamiento paralelo puede ocurrir en una computadora con múltiples procesadores o en una red de estaciones de trabajo o PCs. SMP Multiprocesador simétrico (Symmetric multiprocessor): Tipo de computadora con multiprocesadores en la cual la memoria es compartida entre los procesadores 1. comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos. Outlier: Un item de datos cuyo valor cae fuera de los límites que encierran a la mayoría del resto de los valores correspondientes de la muestra. Saber que un vehículo deportivo corre un riesgo de accidente casi igual al de un vehículo normal cuando su dueño tiene un segundo vehículo en casa 15 .

Procesos: para producir. Las hay orientadas al estudio del web o al análisis de documentos o de clientes de supermercado. mientras que otras son de uso más general. desplegar y usar modelos. incluyendo aspectos en: Modelos: para representar datos estadísticos y de data mining. 16 . Interfaces y API: para facilitar la integración con otros lenguajes o aplicaciones de software y API. predecir el comportamiento de un futuro cliente. con varias ventajas: por un lado. resulta un buen punto de encuentro entre los investigadores y las personas de negocios. Esto nos lleva a la necesidad de establecer estándares para hacer un ambiente interoperable. Su correcta elección depende de la necesidad de la empresa y de los objetivos a corto y largo plazo que pretenda alcanzar. no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra "toma de decisiones". ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. ayuda a poder retenerlo durante el mayor tiempo posible. transformación y agregación de atributos usados como entrada en los modelos. En resumen. En Grossman y otros (2002) se exponen algunas iniciativas para estos estándares. Atributos: para representar la limpieza.ayuda a crear nuevas estrategias comerciales para ese grupo de clientes. Asimismo. estrategias. eficiente y efectivo. Datos remotos y distribuidos: para analizar y explorar datos remotos y distribuidos. basándose en los datos históricos de clientes que presentaron el mismo perfil. Como se ha visto a lo largo del este artículo. Además. son muchas las áreas. el data mining se presenta como una tecnología emergente. tipos de bases de datos y personas que intervienen en un proceso de data mining. Es necesario consultar a expertos en el área con vista a seleccionar la más adecuada para el problema de la empresa. Los negocios requieren que las soluciones tengan una integración transparente en un ambiente operativo. La decisión de seleccionar una solución de data mining no es una tarea simple. técnicas. por otro. Esfuerzos en este sentido se están desarrollando actualmente. Las herramientas comerciales de data mining que existen actualmente en el mercado son variadas y excelentes. Configuración: para representar parámetros internos requeridos para construir y usar los modelos.

17 .