You are on page 1of 6

MINERIA DE DATOS 1. CONCEPTOS.

El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que permiten explorar grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Bsicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, en algunos casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y a las redes neuronales. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin que surge entre la informacin y ese modelo represente un valor agregado, entonces nos referimos al conocimiento.

La idea de datamining no es nueva. Ya desde los aos sesenta los estadsticos manejaban trminos como data shing, datamining o data archaeology con la idea de encontrar correlaciones sin una hiptesis previa en bases de datos con ruido. A principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de data mining y KDD. El data mining es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia articial, principalmente. Actualmente existen aplicaciones o herramientas Comerciales de datamining muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta

2. Principales caractersticas y objetivos de la Minera de Datos Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen informacin almacenada durante varios aos. En algunos casos, los datos se consolidan en un almacn de datos y en Mercados El entorno de la minera de datos suele tener una arquitectura cliente servidor. Las herramientas de la minera de datos ayudan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros pblicos, archivados. El minero es, muchas veces un usuario nal con poca o ninguna habilidad de programacin, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rpidamente respuestas.

Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesarse rpidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minera de datos. La minera de datos produce cinco tipos de informacin: Asociaciones. Secuencias. Clasicaciones. Agrupamientos. Pronsticos. Los mineros de datos usan varias herramientas y tcnicas.

La minera de datos es un proceso que invierte la dinmica del mtodo Cientco en el siguiente sentido: En el mtodo cientco, primero se formula la hiptesis y luego se disea el experimento para coleccionar los datos que conrmen o refuten la hiptesis. Si esto se hace con la formalidad adecuada (cuidando cules son las variables controladas y cules experimentales), se obtiene un nuevo conocimiento. En la minera de datos, se coleccionan los datos y se espera que de ellos emerjan hiptesis. Se busca que los datos describan o indiquen por qu son como son. Luego entonces, se valida esa hiptesis inspirada por los datos en los datos mismos, ser numricamente signicativa, pero experimentalmente invlida. De ah que la minera de datos debe presentar un enfoque exploratorio, y no conrmador. Usar la minera de datos para conrmar las hiptesis formuladas puede ser peligroso, pues se est haciendo una inferencia poco vlida. VENTAJAS En resumen, usar minera de datos para construir un modelo desde las bases de datos tiene las siguientes ventajas.

Los modelos son fciles de entender.

Personas sin un back up importante de estadsticas (como un analista financiero o ejecutivos en general) pueden interpretar el modelo y compararlo con sus propias ideas; recordemos que en la organizacin de hoy, son los mismos ejecutivos los que deben meter las manos a las bases de datos para obtener la informacin que necesitan. As, el usuario gana ms conocimientos sobre el comportamiento de los clientes y puede (y debe) usar esta ventaja para optimizar el proceso de negocios de la organizacin.

Enormes bases de datos pueden ser analizadas.

Enormes bases de datos pueden ser analizadas mediante la tecnologa de la minera de datos. Estas Bases de datos pueden ser enormes tanto en largo como en ancho. Por ejemplo, para cada cliente se puede tener cientos de atributos que contienen informacin detallada; y adems tener miles de registros de clientes.

La minera de datos descubre informacin que no se esperaba obtener.

Como muchos modelos diferentes son validados, algunos resultados inesperados tienden a aparecer. En muchos estudios, se ha descubierto que combinaciones particulares de factores entregan efectos inesperados que entregan valor a la compaa.

Los Modelos Son Confiables

El modelo es probado y comprobado usando tcnicas estadsticas antes de ser usado, luego las predicciones que se obtienen por el modelo son vlidas y confiables.

Los modelos se construyen de manera rpida.

La minera de datos permite construir y generar modelos en slo uno minutos u horas. El modelado se torna mucho ms fcil puesto que muchos algoritmos son probados y slo el mejor modelo es entregado al usuario. Desventajas Dificultad de recopilacin de los datos

Dependiendo del tipo de datos que se quieran recopilar puede conllevar mucho trabajo o la necesidad de tecnologa de elevado coste. El pre-procesamiento de datos puede llevar demasiado tiempo No est asegurada la obtencin de un modelo vlido

3. Fases de un Proyecto de Minera de Datos Los pasos a seguir para la realizacin de un proyecto de minera de datos son siempre los mismos, independientemente de la tcnica especca de extraccin de conocimiento usada. El proceso de minera de datos pasa por las siguientes fases: Filtrado de datos. Seleccin de Variables. Extraccin de Conocimiento. Interpretacin y Evaluacin.

Filtrado de datos El formato de los datos contenidos en la fuente de datos (base de datos, DataWarehouse...) nunca es el idneo, y la mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera sobre los datos en bruto. Mediante el pre-procesado, se ltran los datos (de forma que se eliminan valores incorrectos, no vlidos, desconocidos... segn las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el nmero de valores posibles (mediante redondeo, clustering,...). Seleccin de variables An despus de haber sido pre-procesados, en la mayora de los casos se tiene una cantidad ingente de datos. La seleccin de caractersticas reduce el tamao de los datos eligiendo las variables ms inuyentes en el problema, sin apenas sacricar la calidad del modelo de conocimiento obtenido del proceso de minera. Los mtodos para la seleccin de caractersticas son bsicamente dos: Aquellos basados en la eleccin de los mejores atributos del problema, Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heursticos. Algoritmos de Extraccin de Conocimiento Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un pre-procesado diferente de los datos. Interpretacin y evaluacin Una vez obtenido el modelo, se debe proceder a su validacin, comprobando que las conclusiones que arroja son vlidas y sucientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

4. TCNICAS DE MINERIA DE DATOS REDES NEURONALES Esta tcnica de inteligencia artificial, en los ltimos aos se ha convertido en uno de los instrumentos de uso frecuente para detectar categoras comunes en los datos, debido a que son capaces de detectar y aprender complejos patrones, y caractersticas de los datos. Una de las principales caractersticas de las redes neuronales, es que son capaces de trabajar con datos incompletos e incluso paradjicos, que dependiendo del problema puede resultar una ventaja o un inconveniente. Adems esta tcnica posee dos formas de aprendizaje: supervisado y no supervisado. RBOLES DE DECISIN Est tcnica se encuentra dentro de una metodologa de aprendizaje supervisado. Su

representacin es en forma de rbol en donde cada nodo es una decisin, los cuales a su vez generan reglas para la clasificacin de un conjunto de datos. Los rboles de decisin son fciles de usar, admiten atributos discretos y continuos, tratan bien los atributos no significativos y los valores faltantes. Su principal ventaja es la facilidad de interpretacin. ALGORITMOS GNETICOS Los algoritmos genticos imitan la evolucin de las especies mediante la mutacin, reproduccin y seleccin, como tambin proporcionan programas y optimizaciones que pueden ser usadas en la construccin y entrenamiento de otras estructuras como es el caso de las redes neuronales. Adems los algoritmos genticos son inspirados en el principio de la supervivencia de los ms aptos. CLUSTERING (Agrupamiento) Agrupan datos dentro de un nmero de clases preestablecidas o no, partiendo de criterios de distancia o similitud, de manera que las clases sean similares entre s y distintas con las otras clases. Su utilizacin ha proporcionado significativos resultados en lo que respecta a los clasificadores o reconocedores de patrones, como en el modelado de sistemas. Este mtodo debido a su naturaleza flexible se puede combinar fcilmente con otro tipo de tcnica de minera de datos, dando como resultado un sistema hbrido. Un problema relacionado con el anlisis de cluster es la seleccin de factores en tareas de clasificacin, debido a que no todas las variables tienen la misma importancia a la hora de agrupar los objetos. Otro problema de gran importancia y que actualmente despierta un gran inters es la fusin de conocimiento, ya que existen mltiples fuentes de informacin sobre un mismo tema, los cuales no utilizan una categorizacin homognea de los objetos. Para poder solucionar estos inconvenientes es necesario fusionar la informacin a la hora de recopilar, comparar o resumir los datos. APRENDIZAJE AUTOMTICO Esta tcnica de inteligencia artificial es utilizada para inferir conocimiento del resultado de la aplicacin de alguna de las otras tcnicas antes mencionadas. 5. APLICACIONES Negocios La minera de datos puede contribuir significativamente en las aplicaciones de administracin empresarial basada en la relacin con el cliente. En lugar de contactar con el cliente de forma indiscriminada a travs de un centro de llamadas o enviando cartas, slo se contactar con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promocin. Por lo general, las empresas que emplean minera de datos ven rpidamente el retorno de la inversin, pero tambin reconocen que el nmero de modelos predictivos desarrollados puede crecer muy rpidamente. En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa podra construir modelos separados para cada regin y/o para cada tipo de cliente. Tambin puede querer determinar qu clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, ...) y slo enviar las ofertas a las personas que es probable que sean rentables. Para

mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minera de datos lo ms automatizada posible. Hbitos de compra en supermercados El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la deteccin de hbitos de compra en supermercados. Un estudio muy citado detect que los viernes haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventas compulsivas. Patrones de fuga Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas industrias como la banca, las telecomunicaciones, etc. existe un comprensible inters en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes y en funcin de su valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo ltimo de retenerlos. La minera de datos ayuda a determinar qu clientes son los ms proclives a darse de baja estudiando sus patrones de comportamiento y comparndolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado. Fraudes Un caso anlogo es el de la deteccin de transacciones de lavado de dinero o de fraude en el uso de tarjetas de crdito o de servicios de telefona mvil e, incluso, en la relacin de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos para tomar medidas rpidas frente a ellas. Recursos humanos La minera de datos tambin puede ser til para los departamentos de recursos humanos en la identificacin de las caractersticas de sus empleados de mayor xito. La informacin obtenida puede ayudar a la contratacin de personal, centrndose en los esfuerzos de sus empleados y los resultados obtenidos por stos. Adems, la ayuda ofrecida por las aplicaciones para Direccin estratgica en una empresa se traducen en la obtencin de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de produccin o gestin de mano de obra. Comportamiento en Internet Tambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre todo, cuando son clientes potenciales en una pgina de Internet. O la utilizacin de la informacin obtenida por medios ms o menos legtimos sobre ellos para ofrecerles propaganda adaptada especficamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la informacin histrica disponible acerca de los clientes que han comprado el primero. Ciencia e Ingeniera En los ltimos aos la minera de datos se est utilizando ampliamente en diversas reas relacionadas con la ciencia y la ingeniera. Algunos ejemplos de aplicacin en estos campos son:

You might also like