123

UNIVERSIDAD NACIONAL DE INGENIERIA Tema del trabajo: Minera de Datos Profesor: Csar Martn Cruz Salazar Facultad: Seccin:
Ciencias C
Integrantes: Mayte Coronado Gonzales 20111334D Alyssa Garay Garca 20114549F Mara Hidalgo Castro 20112643E Especialidad: Ciencia de la Computacin
2011
ndice
Minera de Datos
Introduccin Qu es la minera de datos? Principales caractersticas y objetivos de la Minera de Datos Diferencia entre Datos, Informacin y Conocimiento. Fases de la Minera de Datos o Filtrado de datos o Seleccin de variables o Algoritmos de Extraccin de Conocimiento o Interpretacin y evaluacin La World Wide Web La minera de datos y el proceso de descubrimiento de conocimiento en bases de datos Relacin con otras disciplinas Tcnicas de Minera de Datos Aplicaciones de Uso Bibliografa
Introduccin
En el pasado, los datos eran almacenados en cuadernos y libros. Estos datos eran archivados y solo las personas con conocimientos especiales podan llegar a sacar provecho a la informacin contenida en dichos datos. La primera consecuencia de la aparicin del ordenador fue la mayor capacidad de almacenamiento de datos. A raz de esta nueva capacidad varias empresas comenzaron a desarrollar mtodos y herramientas para el almacenamiento ms eficaz y fcil manejo de estos datos. Estas aplicaciones son conocidas como bases de datos. La eficacia de las bases de datos genero una insaciable necesidad de guardar grandes cantidades de datos. Posteriormente se crearon aplicaciones que permitan la extraccin de informacin de los datos. Esta informacin es usada principalmente para entender y explicar los procesos de negocio, la poblacin (o clientes), etc. As naci la era de la Informtica. Esta informacin permite a gerentes y polticos tomar decisiones. Sin embargo, el incremento de la capacidad de los medios de almacenamiento y su abaratamiento, y conjuntamente, la posibilidad de guardar informacin remota (internet) han generado un diluvio de datos que es muy difcil de manejar. La idea de minera de datos no es nueva. Ya desde los aos sesenta los estadsticos manejaban trminos como data fishing (pesca de datos), data mining (minera de datos) o data archaeology (arqueologa de datos) con la idea de encontrar correlaciones sin una hiptesis previa en bases de datos con ruido. A principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de data mining y KDD (knowledge discovery in databases, descubrimiento de conocimiento en bases de datos) A finales de los aos ochenta slo existan un par de empresas dedicadas a esta tecnologa. Actualmente la minera de datos es una herramienta muy importante para las organizaciones que cuentan con importantes bases de datos y que contienen informacin valiosa sobre sus clientes; pero que sin embargo, les resulta difcil analizarlas y sacar provecho de ellas.
Qu es la minera de datos?
El primer pensamiento de muchos al or por primera vez el trmino minera de datos fue la reflexin nada nuevo bajo el sol. En efecto, la minera de datos no aparece por el desarrollo de tecnologas esencialmente diferentes a las anteriores, sino que se crea, en realidad, por la aparicin de nuevas necesidades y, especialmente, por el reconocimiento de un nuevo potencial: el valor, hasta ahora generalmente infrautilizado, de la gran cantidad de datos almacenados informticamente en los sistemas de informacin de instituciones, empresas, gobiernos y particulares. Los datos pasan de ser un producto (el resultado histrico de los sistemas de informacin) a ser una materia prima que hay que explotar para obtener el verdadero producto elaborado, el conocimiento; un conocimiento que ha de ser especialmente valioso para la ayuda en la toma de decisiones sobre el mbito en el que se han recopilado o extrado los datos. Es bien cierto que la estadstica es la primera ciencia que considera los datos como su materia prima, pero las nuevas necesidades y, en particular, las nuevas caractersticas de los datos (en volumen y tipologa) hacen que las disciplinas que la integran lo que se conoce como minera de datos sean numerosas y heterogneas. La minera de datos es un campo multidisciplinar que se ha desarrollado en paralelo o como prolongacin de otras tecnologas. Por ello, la investigacin y los avances en la minera de datos se nutren de los que se producen en estas reas relacionadas.
Principales caractersticas y objetivos de la Minera de Datos

Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen informacin almacenada durante varios aos. En algunos casos, los datos se consolidan en un almacn de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet. El entorno de la minera de datos suele tener una arquitectura cliente-servidor. Las herramientas de la minera de datos ayudan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros pblicos, archivados El minero es, muchas veces un usuario final con poca o ninguna habilidad de programacin, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas y obtener rpidamente respuestas. Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesarse rpidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minera de datos. La minera de datos produce cinco tipos de informacin:
Asociaciones. Secuencias. Clasificaciones. Agrupamientos. Pronsticos. Los mineros de datos usan varias herramientas y tcnicas. La minera de datos es un proceso que invierte la dinmica del mtodo cientfico en el siguiente sentido: En el mtodo cientfico, primero se formula la hiptesis y luego se disea el experimento para coleccionar los datos que confirmen o refuten la hiptesis. Si esto se hace con la formalidad adecuada (cuidando cules son las variables controladas y cules experimentales), se obtiene un nuevo conocimiento. En la minera de datos, se coleccionan los datos y se espera que de ellos emerjan hiptesis. Se busca que los datos describan o indiquen por qu son como son. Luego entonces, se valida esa hiptesis inspirada por los datos en los datos mismos, ser numricamente significativa, pero experimentalmente invlida. De ah que la minera de datos debe presentar un enfoque exploratorio, y no confirmador. Usar la minera de datos para confirmar las hiptesis formuladas puede ser peligroso, pues se est haciendo una inferencia poco vlida. La minera de datos es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de minera de datos muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta.
Diferencia entre Datos, Informacin y Conocimiento.

Muchas personas tienden a confundir y a usar los trminos datos , informacin y conocimiento como si se tratara de la misma cosa. Sin embargo estos terminos no son sinnimos. Los datos son conjuntos de cifras y descripciones que determinan las caractersticas y los comportamientos de objetos o sujetos.
De los datos al conocimiento... Los datos, por si solos, no tienen ningn significado. Pero los datos en conjunto permiten la generacin de informacin. La informacin es el anlisis de los datos con la finalidad de entender los patrnes que nos permite clasificar los objetos o individuos de acuerdo a sus caractersticas y comportamientos, y explicar las relaciones o diferencias existentes entre ellos. La informacin se obtiene a travs del analysis de los datos. El conjunto de informaciones obtenidas con el anlisis de los datos nos permiten sacar conclusiones y entender los procesos en los que estn involucrados nuestros objetos o sujetos. Esto es lo que conocemos como conocimiento. La intencin primordial de la recoleccin de datos es la generacin de conocimiento.
Fases de la Minera de Datos

Los pasos a seguir para la realizacin de un proyecto de minera de datos son siempre los mismos, independientemente de la tcnica especfica de extraccin de conocimiento usada: Filtrado de datos: El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse, etc.) nunca es el idneo, y la mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera sobre los datos en bruto. Mediante el pre-procesado, se filtran los datos (de forma que se eliminan valores incorrectos, no vlidos, desconocidos, etc. segn las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el nmero de valores posibles (mediante redondeo, clustering, etc.). Seleccin de variables: An despus de haber sido pre-procesados, en la mayora de los casos se tiene una cantidad ingente de datos. La seleccin de caractersticas reduce el tamao de los datos eligiendo las variables ms influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera. Los mtodos para la seleccin de caractersticas son bsicamente dos: Aquellos basados en la eleccin de los mejores atributos del problema, Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heursticos.
Algoritmos de Extraccin de Conocimiento: g Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un pre-procesado diferente de los datos.
Interpretacin y evaluacin: Una vez obtenido el modelo, se debe proceder a su validacin, comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Fases del Proyecto de M.D.
Las prcticas de minera de datos se realizan con base a procedimientos como: Clasificacin. Consiste en examinar las caractersticas de una entidad nueva y asignarle una clase predefinida. Por ejemplo: Clasificar a un nuevo cliente segn su riesgo de crdito (alto, medio, bajo). Estimacin. Similar a lo anterior, pero aplicado a variables continas. Por ejemplo: ingresos, balance de tarjetas de crdito, etc. Prediccin. Prediccin de fidelidad de clientes "Churn Modeling". Por ejemplo: predecir qu clientes nos abandonarn en los prximos 6 meses Grupos Afines o Reglas de Asociacin. El objetivo de los grupos afines es determinar que cosas van juntas. Tambin puede ser usado para identificar oportunidades de crossselling (venta cruzada de productos complementarios). Por ejemplo: que productos debieran ir juntos en un supermercado, recomendaciones de productos. Clustering tiene como objetivo el segmentar a un grupo diverso en un conjunto de subgrupos o cluster. A diferencia de clasificacin, clustering no depende de clases predefinidas. Y es el primer paso en segmentacin de mercado. Por ejemplo: un cluster particular de sntomas puede indicar una enfermedad particular Descripcin y Visualizacin. Algunas veces el objetivo es simplemente describir qu est ocurriendo en una base de datos compleja, para as aumentar nuestro entendimiento de las personas, productos o procesos que generaron los datos inicialmente.
La World Wide Web

La World Wide Web es el repositorio de informacin ms grande y diverso de los existentes en la actualidad. Por ello, hay gran cantidad de datos en la web de los que se puede extraer conocimiento relevante y til. Este es precisamente el reto al que se enfrenta la minera web. Minar la web no es un problema sencillo, debido a que muchos de los datos son no estructurados o semis-estructurados, a que muchas pginas web contienen datos multimedia (texto, imgenes, video y/o audio), y a que estos datos pueden residir en diversos servidores o en archivos (como los que contienen los logs). Otros aspectos que dificultan la minera web son como determinar a qu paginas debemos acceder y como seleccionar la informacin que va ser til para extraer el conocimiento. Toda esta diversidad hace que la minera web se organice en torno a tres categoras: Minera de contenido, para encontrar patrones de los datos de las pginas web. Minera de la estructura, entendiendo por estructura los hipervnculos y URLs. Minera del uso que hace el usuario de las pginas web (navegacin).
La minera de datos y el proceso de descubrimiento de conocimiento en bases de datos

Existen trminos que se utilizan como sinnimos de la minera de datos. Uno de ellos se conocen como `ànlisis (inteligente) de datos, que suele hacer un mayor hincapi en las tcnicas de anlisis estadstico. Otro termino muy utilizado, y el ms relacionado con la minera de datos, es la extraccin o ``descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases, KDD). De hecho, en muchas ocasiones ambos trminos se han utilizado indistintamente, aunque existen claras diferencias entre los dos. As, ltimamente se ha usado el termino KDD para referirse a un proceso que consta de una serie de fases, mientras que la minera de datos es solo una de esas fases. Se define el KDD como `èl proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y, en ltima instancia, comprensibles a partir de los datos. En esta definicin se resumen cules deben ser las propiedades deseables del conocimiento extrado:
Valido: hace referencia a que los patrones deben seguir siendo precisos para datos nuevos (con un cierto grado de incertidumbre), y no solo para aquellos que han sido usado en su obtencin. Novedoso: que aporte algo desconocido tanto para el sistema y preferiblemente para el usuario. Potencialmente til: la informacin debe concluir a acciones que reporten algn tipo de beneficio para el usuario. Compresible: la extraccin de patrones no comprensibles dificulta o imposibilita su interpretacin, revisin, validacin y uso en la toma de decisiones. De hecho una informacin incomprensible no proporciona conocimiento (al menos desde el punto de vista de su utilidad). As los sistemas de KDD permiten la seleccin, limpieza, transformacin y proyeccin de los datos; analizar los datos para extraer patrones y modelos adecuados, evaluar e interpretar los patrones para convertirlos en conocimiento disponible para su uso. Esta definicin clarifica la relacin entre el KDD y la minera de datos: el KDD es el proceso global de descubrir conocimiento til desde las bases de datos mientras que la minera de datos se refiera a la aplicacin de los mtodos de aprendizaje y estadsticos para la obtencin de patrones y modelos. Al ser la fase de generacin de modelos, comnmente se asimila KDD con minera de datos.
Relacin con otras disciplinas

La minera de datos es un trmino relativamente moderno que integra numerosas tcnicas de anlisis de datos y extraccin de modelos. Aunque se basa en varias disciplinas, algunas de ellas ms tradicionales, se distingue ellas en la orientacin ms hacia el fin que hacia el medio, hecho que permite nutrirse de todas ellas sin prejuicios. Y el fin lo merece: ser capaces de extraer patrones, de describir tendencias y regularidades, de predecir comportamientos y, en general, de sacar partido a la informacin computarizada que nos rodea hoy en da, generalmente heterognea y en grandes cantidades, permite a los individuos y a las organizaciones comprender y modelar de una manera ms eficiente y precisa el contexto en el que deben actuar y tomar decisiones.
Concurrencia de mltiples disciplinas
Podemos destacar como disciplinas ms influyentes las siguientes Las bases de datos: conceptos como los almacenes de datos y el procesamiento analtico en lnea (OCAP) tienen una gran relacin con la minera de datos, aunque en este ltimo caso no se trata de obtener informes avanzados a base de agregar los datos de cierta manera compleja pero predefinida (como incluyen muchas herramientas de business intelligence, presentes en sistema de gestin de bases de datos comerciales), sino de extraer conocimiento novedoso y comprensible. Las tcnicas de indizacin y de acceso eficiente a los datos son muy relevantes para el diseo de algoritmos eficientes de minera de datos. La recuperacin de informacin (information retrieval, IR): consiste en obtener informacin desde datos textuales, por lo que su desarrollo histrico se ha basado en el uso efectivo de bibliotecas (recientemente digitales) y en la bsqueda por Internet. Una tarea tpica es encontrar documentos a partir de palabras claves, lo cual puede verse como un proceso de clasificacin de los documentos en funcin de estas palabras clave. Para ello se usan medidas de similitud entre los documentos y la consulta. Muchas de esas medidas se han empleado en aplicaciones ms generales de minera de datos. La estadstica: esta disciplina ha proporcionado muchos de los conceptos, algoritmos y tcnicas que se utilizan en minera de datos, como por ejemplo, la media, la varianza, las distribuciones, el anlisis univariante y multivariante, la regresin lineal y no lineal, la teora del muestreo, la validacin cruzada, la modelizacin paramtrica y no paramtrica, las tcnicas bayesianas, y un largo etctera. De hecho, algunos paquetes de anlisis estadstico se comercializan como herramientas de minera de datos. El aprendizaje automtico: esta es el rea de la inteligencia artificial que se ocupa de desarrollar algoritmos (y programas) capaces de aprender, y constituye, junto con la estadstica, el corazn del anlisis inteligente de los datos. Los principios seguidos en el aprendizaje automtico y en la minera de datos son los mismos: la maquina aprende un modelo a partir de ejemplos y lo usa para resolver el problema.
Los sistemas para la toma de decisin: son herramientas y sistemas informatizados que asisten a los directivos en la resolucin de problemas y en la toma de decisiones. El objetivo es proporcionar la informacin necesaria para realizar decisiones electivas en el mbito empresarial o en tareas de diagnstico (por ejemplo medicina). Herramientas como el anlisis ROC o los mismos arboles de decisin proviene de esta rea. La visualizacin de datos: el uso de tcnicas de visualizacin permite al usuario descubrir, intuir o entender patrones que seran ms difciles de ver a partir de descripciones matemticas o textuales de los resultados. Existen tcnicas de visualizacin, como, por ejemplo, las grficas de dispersin, histogramas, etc.), las icnicas (basadas en figuras, colores, etc.), las basadas en pixeles (cada dato se representa como un nico pixel), las jerrquicas (dividiendo el rea de representacin en regiones dependiendo de los datos) y muchas otras. La computacin paralela y distribuida: actualmente, muchos sistemas de bases de datos comerciales incluyen tecnologas de procesamiento paralelo, distribuido o de computacin en grid. En estos sistemas el coste computacional de las tareas ms complejas de minera de datos se reparte entre diferentes procesadores o computadores. Su xito se debe en parte a la explosin de los almacenes de datos (su adaptacin distribuida) y de la minera de datos, en los que las prestaciones de los algoritmos de consulta son crticas. Una de las principales ventajas del procesamiento paralelo es precisamente la escalabilidad de los algoritmos, lo que hace idneo para estas aplicaciones. Otras disciplinas: dependiendo del tipo de datos a ser minados o del tipo de aplicacin, la minera de datos usa tambin tcnicas de otras disciplinas como el lenguaje natural, el anlisis de imgenes, el procesamiento de seales, los grficos por computadora, etc.
Tcnicas de Minera de Datos

Las tcnicas ms usadas en minera de datos son: Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son:

El Perceptron. El Perceptron multicapa. Los Mapas Auto organizados, tambin conocidos como redes de Kohonen.
Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2 variables. rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, muy similares a los sistemas de prediccin basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos:

Algoritmo ID3. Algoritmo C4.5.
Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos:

Algoritmo K-means. Algoritmo K-medoids.
Aplicaciones de Uso
Cada ao, en los diferentes congresos, simposios y talleres que se realizan en el mundo se renen investigadores con aplicaciones muy diversas. Sobre todo en los Estados Unidos, el data mining se ha ido incorporando a la vida de empresas, gobiernos, universidades, hospitales y diversas organizaciones que estn interesadas en explorar sus bases de datos. En el Gobierno El FBI analizar las bases de datos comerciales para detectar terroristas. A principios del mes de julio de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunci que el Departamento de Justicia comenzar a introducirse en la vasta cantidad de datos comerciales referentes a los hbitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una accin. Algunos expertos aseguran que, con esta informacin, el FBI unir todas las bases de datos probablemente mediante el nmero de la Seguridad Social y permitir saber si una persona fuma, qu talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que est suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos polticos u organizaciones no gubernamentales, sus enfermedades crnicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tom clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversin inicial ronda los setenta millones de dlares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir informacin e implementar nuevo software analtico y de visualizacin. En la Empresa Deteccin de fraudes en las tarjetas de crdito En 2001, las instituciones financieras a escala mundial perdieron ms de 2.000 millones de dlares estadounidenses en fraudes con tarjetas de crdito y dbito. El Falcon Fraud Manager es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio estaba pensado, en instituciones financieras de Norteamrica, para detectar fraudes en tarjetas de crdito. Sin embargo, actualmente se le han incorporado funcionalidades de anlisis en las tarjetas comerciales, de combustibles y de dbito. El sistema Falcon ha permitido ahorrar ms de seiscientos millones de dlares estadounidenses cada ao y protege aproximadamente ms de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo-aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crdito. Descubriendo el porqu de la desercin de clientes de una compaa operadora de telefona mvil. Este estudio fue desarrollado en una operadora espaola que bsicamente situ sus objetivos en dos puntos: el anlisis del perfil de los clientes que se dan de baja y la prediccin del
comportamiento de sus nuevos clientes. Se analizaron los diferentes histricos de clientes que haban abandonado la operadora (12,6%) y de clientes que continuaban con su servicio (87,4%). Tambin se analizaron las variables personales de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y gratuitas. Al contrario de lo que se podra pensar, los clientes que abandonaban la operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones ms importantes radic en el hecho de que los clientes que se daban de baja reciban pocas promociones y registraban un mayor nmero de incidencias respecto a la media. De esta forma se recomend a la operadora hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. Al descubrir el perfil que presentaban, la operadora tuvo que disear un trato ms personalizado para sus clientes actuales con esas caractersticas. Para poder predecir el comportamiento de sus nuevos clientes se dise un sistema de prediccin basado en la cantidad de datos que se poda obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores. Hbitos de compra en supermercados. Un estudio muy citado detect que los viernes haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventas compulsivas. Prediciendo el tamao de las audiencias televisivas. La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para predecir el tamao de las audiencias televisivas para un programa propuesto, as como el tiempo ptimo de exhibicin (Brachman y otros, 1996). El sistema utiliza redes neuronales y rboles de decisin aplicados a datos histricos de la cadena para determinar los criterios que participan segn el programa que hay que presentar. La versin final se desempea tan bien como un experto humano con la ventaja de que se adapta ms fcilmente a los cambios porque es constantemente reentrenada con datos actuales. En la Universidad Conociendo si los recin titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recin titulados de la carrera de Ingeniera en Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II, en Mjico (Rodas, 2001). Se quera observar si sus recin titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracteriz a los ex alumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se haca una buena insercin laboral o si existan otras variables que participaban en el proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela de procedencia, el desempeo acadmico, la
10
zona econmica donde tena su vivienda y la actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos aproximados se descubri que existan cuatro variables que determinaban la adecuada insercin laboral, que son citadas de acuerdo con su importancia: zona econmica donde habitaba el estudiante, colegio de donde provena, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendr que hacer un estudio socioeconmico sobre grupos de alumnos que pertenecan a las clases econmicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependan de la universidad. En Investigaciones Espaciales Proyecto SKYCAT. Durante seis aos, el Second Palomar Observatory Sky Survey (POSS-II) coleccion tres terabytes de imgenes que contenan aproximadamente dos millones de objetos en el cielo. Tres mil fotografas fueron digitalizadas a una resolucin de 16 bits por pxel con 23.040 x 23.040 pxeles por imagen. El objetivo era formar un catlogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en tcnicas de agrupacin (clustering) y rboles de decisin para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. Con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrnomos a descubrir diecisis nuevos qusares con corrimiento hacia el rojo que los incluye entre los objetos ms lejanos del universo y, por consiguiente, ms antiguos. Estos qusares son difciles de encontrar y permiten saber ms acerca de los orgenes del universo. En los Clubes Deportivos Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout es un software que emplea tcnicas de data mining y que han desarrollado investigadores de IBM para detectar patrones estadsticos y eventos raros. Tiene una interfaz grfica muy amigable orientada a un objetivo muy especfico: analizar el juego de los equipos de la National Basketball Association (NBA). El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en pelcula. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar ms fcilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los Knicks, se encontr que el porcentaje de encestes despus de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. Para saber el porqu, el cuerpo de entrenadores estudi cuidadosamente todas las pelculas de juegos contra Chicago. Observaron que los jugadores de Chicago rompan su doble marcaje muy rpido de tal forma que podan tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el
doble marcaje. La temporada pasada, IBM ofreci el Advanced Scout a la NBA, que se convirti as en un patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo estn haciendo hasta el momento obteniendo descubrimientos interesantes.
Bibliografa
``Minera de datos, http://oicp.blogspot.es/ `Èstadstica Per, http://estadisticaperu.blogspot.com/2009/07/sobre-la-minera-dedatos.html ``Facultad de Ciencias Exactas y Naturales y Agrimensura, http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vall ejos.pdf ``Minera de Datos, http://mineria-de-datos.it4biotech.com/ `Ìntroduccin a la Minera de Datos, Jos Hernndez Orallo, M.Jos Ramrez Quintana, Csar Ferri Ramrez, Editorial Pearson, 2004, pg. 3-16

123

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

123

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD NACIONAL DE INGENIERIA Tema del trabajo: Minera de Datos Profesor: Csar Martn Cruz Salazar Facultad: Seccin:

Principales caractersticas y objetivos de la Minera de Datos

Diferencia entre Datos, Informacin y Conocimiento.

Fases de la Minera de Datos

La World Wide Web

La minera de datos y el proceso de descubrimiento de conocimiento en bases de datos

Relacin con otras disciplinas

Concurrencia de mltiples disciplinas

Tcnicas de Minera de Datos

Algoritmo ID3. Algoritmo C4.5.

Algoritmo K-means. Algoritmo K-medoids.

You might also like