Instituto Tecnológico Superior de Lerdo

AUDITORIA INFORMATICA. Tema: “5 Ejemplos de la aplicación de la minería de datos”

Miriam Cecilia Moreno Luján 06230248 Semestre: VIII

ING. RICARDO BUSTAMANTE.

Ejemplo 1 Aplicaciones de la Minería de Datos para recuperar información
En la actualidad, la implantación de la Minería de Datos para recuperar información en las diversas organizaciones (bibliotecas y centros de documentación) así como en el ámbito empresarial es una técnica habitual. Tradicionalmente, quienes más han empleado las técnicas de la Minería de Datos para recuperar información han sido las relacionadas con la publicidad y con los negocios de la distribución. Sin embargo, existen multitud de áreas que han integrado en su actividad las técnicas de la Minería de Datos para Recuperar Información Destacan, entre las áreas que utilizan la Minería de Datos para recuperar información, las siguientes: 1. Económicas o Uso fraudulento de tarjetas de crédito o Cálculo de indicadores financieros o Análisis de riesgos de crédito 2. Educación 3. Procesos Industriales o Modelos de calidad o Extracción de modelos de coste o Predicción de fallos y accidentes 4. Medicina o Gestión hospitalaria o Mejorar el uso de consultas, habitaciones y salas o Recomendación de fármacos o Análisis de procedimientos médicos solicitados 5. Biología y demás ciencias afines o Análisis de los genes o Análisis de proteínas 6. Telecomunicaciones o Modelos de carga en redes o Establecimiento de patrones de llamadas 7. Turismo o Indentificar patrones de reserva 8. Tráfico o Establecimiento de cámaras, GPS... 9. Política o Diseño de campañas

Referencia bibliográfica
políticashttp://es.oocities.com/mineria.datos/aplicaciones.htm

Ejemplo 2 Implantación de la Minería de Datos para Recuperar Información
Para poder implantar con éxito un programa de Minería de Datos para recuperar información hay que tener en cuenta una serie de factores clave: 1. Especificar claramente los problemas y objetivos de la organización. De esta forma se pueden conocer los datos necesarios para poder elaborar dicha Minería de Datos para recuperar información 2. Trasladar correctamente los objetivos de la organización a los objetivos propiamente de la Minería de Datos para recuperar información. Si ambos objetivos se corresponden, esto indica que la Minería de Datos para recuperar información se está llevando a cabo de forma adecuada 3. La integración del resto de los programas con la organización en la cual se va a llevar a cabo la Minería de Datos para recuperar información 4. La calidad de los datos es esencial 5. Uso de herramientas integradas y entornos amigables, destacando principalmente la informatización del proceso en todos los niveles, principalmente la comunicación entre los miembros del grupo en el cual se va a instalar la Minería de Datos para recuperar información, como en la documentación que va a ser generada 6. Necesidad de que los componentes del grupo de la propia organización en la que se va a implantar la Minería de Datos para recuperar información, esté formada en disciplinas que integren la propia Minería de Datos para recuperar información como en estadística, por ejemplo 7. Evaluación de los modelos holísticos relativos a la implantación de la toma de decisiones en la organización en materia de Minería de Datos para recuperar información

Referencia bibliográfica
http://es.oocities.com/mineria.datos/aplicaciones.htm

Ejemplo 3 EL TRATAMIENTO DE LOS DATOS PARA LA TOMA DE DECISIONES EN LAS ACTIVIDADES DE NEGOCIO
Desde un punto de vista más pragmático y asociándolo directamente a las Actividades de Negocios, la Minería de Datos es el conjunto de metodologías, aplicaciones y tecnologías que permiten reunir, depurar y transformar datos de los sistemas transaccionales e información no estructurada (interna y externa a la compañía) en información estructurada, para su explotación directa o para su análisis y conversión en conocimiento y así dar soporte a la toma de decisiones sobre el negocio. Ahora bien, Piatesky-Shapiro (1991) destacan que desde un punto de vista más teórico, la Minería de Datos se define como el proceso completo de extracción de información, que se encarga además de la preparación de los datos y de la interpretación de los resultados obtenidos, a través de grandes cantidades de datos, posibilitando de esta manera el encuentro de relaciones o patrones entre los datos procesados. Por su parte, Molina y García (2004) explican que los datos tal cual se almacenan en las bases de datos no suelen proporcionar beneficios directos; su valor real reside en la información que podamos extraer de ellos, es decir, información que nos ayude a tomar decisiones o a mejorar la comprensión de los fenómenos que nos rodean. Ejemplos de ello pueden ser: contrastar que todo va bien, analizar diferentes aspectos de la evolución de la empresa, presentar información de forma más intuitiva, comparar información en diferentes períodos de tiempo, comparar resultados con previsiones, identificar comportamientos y evoluciones excepcionales, confirmar o descubrir tendencias e interrelaciones, entre otras acciones. Para tal efecto, se deben definir medidas cuantitativas para los patrones obtenidos (precisión, utilidad y beneficio obtenido), para establecer medidas de interés que consideren la validez y simplicidad de los patrones obtenidos mediante alguna de las técnicas de Minería de Datos. El objetivo final de todo esto es incorporar el conocimiento obtenido en algún sistema real, tomar decisiones a partir de los resultados alcanzados, o simplemente registrar la información conseguida y suministrársela a quien esté interesado. Cabe resaltar que los efectos sobre la eficiencia de los resultados en la Minería de Datos como apoyo a la toma de decisiones está generando miles de opiniones desde diferentes perspectivas, entre ellas se puede destacar: la imposibilidad de encontrar conclusiones únicas referentes a la evaluación de un resultado obtenido con esta técnica. Sin embargo, la consecuencia de los datos arrojados es interesante, por algo más que su precisión. En el siguiente artículo se realizó un análisis de la aplicación del Data Mining en los negocios, haciendo énfasis en cuatro indicadores propuestos por los autores, Castañeda y Rodríguez (2003), los cuales esbozan el atractivo que ofrece la Minería de Datos en la implementación de las actividades de negocio: tales como la bondad, aplicabilidad, la relevancia y la novedad; indicadores que aportan una idea de las implicaciones y utilidades que proporciona esta práctica.

a) Indicadores de la bondad del resultado Los índices de bondad de resultado tratan de aportar una idea acerca del error que se comete al emplear un modelo para realizar una tarea. Tal como manifiestan Padmanabhan y Tuzhilin (1999), ésta es una medida de la fortaleza estadística del resultado. Para este indicador se utilizan las siguientes medidas: Precisión, Ratio de error, Varianza y Matriz de confusión, siendo las dos últimas derivaciones de las anteriores. La precisión se utiliza cuando el resultado se presenta en forma de clasificación o estimación, la cual se mide a través del porcentaje de predicciones que son correctas. Para efectos de la clasificación, se emplea el porcentaje de casos bien clasificados y para la estimación del porcentaje de registros, se emplea una estimación que el decisor considere correcta. Para medir la precisión se puede emplear el coeficiente de confianza, el cual no es más que la probabilidad condicionada de un hecho con respecto a otro. La distancia es otra técnica de Minería de Datos empleada cuando se disponen de variables continuas y numéricas, mediante la raíz cuadrada de la suma al cuadrado de las distancias en cada eje. Una medida que complementa a la precisión es el Ratio de error, que mide el porcentaje de casos en los que el resultado no coincide con la realidad. b) Indicadores de relevancia del resultado Los indicadores más representativos en este grupo son el Coeficiente de cobertura, el Coeficiente de apoyo y el Coeficiente de significación. Estos indicadores tienen que ver directamente con la importancia que tiene el resultado arrojado por las técnicas de minería y miden la aportación a la situación actual y la frecuencia de utilidad del resultado, cuando la presentación de éstos se hace en forma de reglas. El Coeficiente de cobertura mide el porcentaje de registros en los cuales se puede aplicar la regla. Por otro lado, el Coeficiente de apoyo permite mostrar el porcentaje de ocasiones en que globalmente aparece la relación descrita por la regla, se recomienda representar el resultado en porcentaje. Por último, el Coeficiente de significación sirve para medir el grado de importancia de la regla a través de la aportación que supone respecto a la pura probabilidad. c) Indicadores de novedad del resultado Cuando la información es excesivamente abundante y obvia, puede presentarse el problema al generar reglas. Para ello, existe el Coeficiente de novedad, creado para indicar si una regla es interesante o no en función del número de reglas ya generadas, para un área de conocimiento concreta. Su objetivo es ayudar a evitar las redundancias en su obtención. Autores como Buchner et al. (1999), entre otros, abogan por la inclusión del conocimiento previo del negocio, e intuición que detentan las decisiones para de esta manera: restringir el espacio de búsqueda, obtener conocimiento más preciso y eliminar aquél que resulte no interesante. d) Indicadores de aplicabilidad del resultado

La dinámica de las organizaciones actuales demanda cada vez más, tiempos de respuesta más rápidos, por lo cual es necesario que tanto la creación o generación de modelos como los resultados del mismo, deben estar disponibles en el menor tiempo posible. Para lograr esto, hay que buscar la simplicidad de los modelos y de la forma de representar la salida o resultados del análisis, para transformar el conocimiento obtenido y poder aplicarlo al negocio; para lograr esto, se cuenta con el Coeficiente de Simplicidad, la Tasa Interna de Retorno y el Valor Actual Neto.

Ejemplo 4 LA RENTABILIDAD ECONÓMICA DE LAS EMPRESAS A TRAVÉS DE LOS PROCESOS MINERÍA DE DATOS, COMO HERRAMIENTA INTELIGENTE COMPETITIVA
Es innegable que organizaciones comerciales, analistas de inversiones, entidades de crédito y demás usuarios especializados, cada vez solicitan más información sobre la rentabilidad de todas las actividades de negocio de la organización. ¿Están capacitados los solicitantes para procesar correctamente todo ese recurso de datos, cada vez más voluminoso y complejo? Nos inclinamos a pensar que no, por la siguiente razón: El volumen creciente de datos a que se enfrentan los usuarios, especialmente aquellos especializados en economía, finanzas y marketing, está haciendo que la sobrecarga informativa convierta los datos en una masa en la cual no es posible ver con claridad los ámbitos y complejos procesos de la situación y perspectivas de la empresa. Ante este panorama nos preguntamos ¿Qué medidas pueden adoptarse? Cabe indicar que los avances tecnológicos han conducido a un mundo complejo y cambiante, pero contradictoriamente es una fuente de soluciones. Siguiendo en el mismo orden de ideas, se resalta que la Minería de Datos o explotación de datos ha revolucionado y potenciado las bases de datos tradicionales, pues permite identificar mediante la aplicación automática de algoritmos recursivos, las variables más relevantes para una decisión concreta o los subconjuntos de entidades (empresas, clientes, entre otros) más homogéneos con arreglo a unas características determinadas. Otro importante hecho que describen Molina y García (2004) es que con la implementación de procesos de Minería de Datos, a través de la aplicación de algunas técnicas estadísticas avanzadas y nuevos métodos de extracción de conocimiento en grandes base de datos, se pueden determinar las características contables de las empresas más rentables, al igual que el perfil de sus clientes. Se hace imprescindible, por un lado, un análisis exploratorio profundo de la base de datos y el empleo de métodos robustos, que hagan que dichos componentes sean menos sensibles a los amplios casos estadísticos. Por otro lado, es aconsejable diseñar con base a opiniones de expertos, si no hay información adecuada, o utilizar algún sistema de aprendizaje, por ejemplo, la utilización de redes neuronales, para el descubrimiento de patrones y extraer la información de la base de datos disponible. En fin, estos métodos y procedimientos se han convertido en retos tecnológicos para procesar los datos y convertirlos en conocimiento útil para la toma de decisiones. Este

camino se presenta como una opción para las organizaciones que quieran ser competitivas, valiéndose de la experiencia acumulada, la cual sin duda alguna constituye el principal activo del que se dispone para la creación de valor. De esta manera, una organización que reflexiona, documenta y aprende, está en condiciones de innovar y obtener ventajas competitivas. NOTA: Los ejemplos 3 y 4 fueron extraídos de la misma referencia bibliográfica

Referencia bibliográfica
http://www.scielo.org.ve/scielo.php?pid=S1012-15872007000100008&script=sci_arttext

Ejemplo 5 Zaragoza Ciudad del Conocimiento Minería de Datos
Introducción El Ayuntamiento de Zaragoza está participando en un proyecto de investigación, conjuntamente con la Universitat Pompeu Fabra de Barcelona, en el que se pretende desarrollar una herramienta que utilice técnicas de Visualización de la Información a los datos recolectados mediante un sistema de Minería Web. La Minería Web es el proceso de descubrir la información o conocimiento potencialmente útil y previamente desconocido a partir de datos web. Existen tres tipos de minería web: Minería de la estructura web: es el tipo de minería que se encarga de analizar como están estructurados los documentos y como están enlazados. Minería del contenido web: es el tipo de minería que se encarga de analizar el contenido que se encuentra en cada una de las páginas que se encuentran en un sitio web. Minería del uso web: es el tipo de minería que interpreta el comportamiento de los usuarios analizando los ficheros log del sitio. Las técnicas de minería generan una serie de valores o métricas que cuantifican la información contenida en el sitio web en términos de estructura, contenido y uso del mismo. Esa información es muy útil para poder entender el comportamiento de los usuarios de la web, su estructura, como están enlazados sus contenidos, etc. La gran mayoría de herramientas existentes hoy en día son capaces de recopilar toda esta información pero suelen representarla de una manera confusa, y difícil de entender. En este proyecto se pretende utilizar técnicas de Visualización de la Información para crear un sistema visual e interactivo que permita la fácil exploración de los datos, con el objetivo de proporcionar un mayor conocimiento del sitio web. La Visualización de la Información es

la disciplina que estudia el uso de representaciones interactivas de datos abstractos para mejorar su entendimiento. Sistema desarrollado El sistema creado en el marco de este proyecto se encarga de recolectar la información de Internet mediante un robot que captura todas las páginas existentes en la web de Zaragoza, siguiendo todos los enlaces de ésta y obteniendo así su estructura; y mediante un analizador semántico de los ficheros log para analizar el comportamiento de los usuarios. Un fichero log es un fichero existente en el servidor web que almacena cada una de las peticiones que hacen los usuarios al servidor. Una petición se genera cada vez que un usuario pincha en un enlace, o escribe una dirección en el navegador. De este modo, el sistema generará representaciones visuales basadas en la información extraída del proceso de minería de datos web, permitiendo un profundo análisis de esa información y así entender mejor los patrones de comportamiento de los ciudadanos dentro de la web. Ese análisis permitirá una mejor toma de decisiones para poder ofrecer un mejor servicio. Los principales objetivos del sistema son: Desarrollar una herramienta que permita analizar el sitio web de Zaragoza Crear un sistema de Minería Web que extraiga el mayor número de métricas o indicadores relativos a la web Analizar distintos tipos de visualizaciones que permitan representar toda la información recolectada, y la implementación de las que más se ajusten al problema Crear una interfaz de usuario interactiva que permita explotar al máximo las capacidades visuales del sistema, y así, permitir un mayor entendimiento de los mismos Primer prototipo Actualmente se ha desarrollado un primer prototipo funcional del sistema. Esta captura de pantalla muestra una parte de la web de Ayuntamiento de Zaragoza. Cada objeto de la imagen con forma corresponde a una página de la web accesible des de Internet, mientras que las líneas que los juntan corresponden a enlaces entre ellas. Cada color y forma está relacionado con valores extraídos de los ficheros log, y son asignados mediante un menú por parte del usuario del sistema. En la imagen mostrada anteriormente, se pueden visualizar al mismo tiempo tres valores: Número de visitas: el número de veces que cada una de las páginas ha sido visualizada por un usuario. En la imagen, cuanto más visitada ha sido una página, mayor es su tamaño, y su color es más azulado. Ranking en buscadores: la forma de cada página está asociado al valor interno que le ha asignado el motor de búsqueda Google. De este modo, sabemos que la estrella

tiene un ranking en Google muy alto, y por lo tanto, esa página saldrá en las posiciones más altas de Google cuando un usuario la busque. Los hexágonos son páginas con menos ranking, seguido de los triángulos. Número de enlaces salientes: en la imagen, se puede apreciar que cada página tiene un color asignado a su borde. Ese color corresponde al número de enlaces que contiene esa web. Identificar fácilmente las páginas con muchos enlaces es una tarea de alta importancia, ya que estás páginas sirven de ?punto de entrada? al sitio web. Descubrir que una página contiene muchos enlaces, y que además es muy visitada implica deducir, que todos los usuarios que vistan esta página podrán acceder a más contenidos de forma sencilla, lo cual corrobora el buen diseño de la web. Otras métricas o valores han sido extraídos de los ficheros log, que siempre pueden ser visualizados por parte del usuario de la aplicación con el atributo visual (color, forma o color del borde) que el desee.

Referencia bibliográfica
http://www.zaragoza.es/ciudad/conocimiento/mineria.htm