You are on page 1of 5

Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal

Sistema de Informacin Cientfica

Apolinar Velarde Martnez Minera de Datos. Una Introduccin Conciencia Tecnolgica, nm. 23, 2003 Instituto Tecnolgico de Aguascalientes Mxico
Disponible en: http://www.redalyc.org/articulo.oa?id=94402303

Conciencia Tecnolgica, ISSN (Versin impresa): 1405-5597 contec@correo.ita.mx Instituto Tecnolgico de Aguascalientes Mxico

Cmo citar?

Fascculo completo

Ms informacin del artculo

Pgina de la revista

www.redalyc.org
Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

Minera de Datos Una Introduccin


M. C. Apolinar Velarde Martnez Departamento del Centro de Cmputo Instituto Tecnolgico de Aguascalientes Aguascalientes, Ags. Mxico avelarde@ita.mx

RESUMEN.

El fcil almacenamiento de la informacin en sistemas de cmputo, conocido como generacin masiva de datos, a travs de la automatizacin de aplicaciones, el uso de lectores de cdigo de barras y otros mtodos de captura, han permitido la creacin de almacenes masivos de informacin, hasta el punto en el que consultas enunciadas con hiptesis concretas en lenguajes de consulta estructurados (SQL) han sido insuficientes para explotar estos almacenes. El sueo del hombre a travs de la historia de la computacin ha sido el desarrollar sistemas inteligentes para el manejo de la informacin en sistemas de cmputo [1]. La minera de datos es una disciplina que combina tcnicas de Inteligencia Artificial, Aprendizaje Computacional, Probabilidad, Estadstica, y Bases de Datos para extraer informacin y conocimientos tiles desde grandes cantidades de datos [2].

Este documento est distribuido en 4 partes principales, en la primera parte se describe el concepto de Minera de Datos, en la segunda se presenta un esquema genrico para el descubrimiento de conocimiento en un sistema de minera de datos; las reas de investigacin aplicables a la minera de datos se describen en la tercera seccin. Los algoritmos de aplicacin a la Minera de Datos se mencionan en la cuarta seccin. Los trabajos futuros encaminados a hacer uso de la Minera de Datos se exponen en la seccin cinco. Finalmente, se presentan las conclusiones de ste trabajo.

Palabras Clave. Minera de datos, algoritmos de rboles de decisin y reglas, Matemticas Multivariantes, Algoritmos de clasificacin, Redes Neuronales Artificiales, Modelos grficos de dependencias probabilsticas.

I. CONCEPTO DE MINERA DE DATOS

Existen varias definiciones para el concepto de Minera de Datos, pero la esencia de stas se fundamenta en el concepto de escarbar en la informacin almacenada para descubrir elementos de utilidad desde grandes cantidades

de datos almacenadas, con el objetivo de detectar patrones de comportamiento consistentes, o relaciones entre los diferentes campos de una base de datos para aplicarlos a nuevos conjuntos de datos.

Puede visualizarse tambin como un proceso analtico, diseado para explorar grandes cantidades de datos, con el objetivo de encontrar relaciones entre las diferentes variables, para aplicarlas a nuevos conjuntos de datos [3].

II. PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

El proceso de descubrimiento de conocimiento en Bases de Datos involucra nueve pasos que a continuacin se describen y que se muestran esquemticamente en la figura 1 [4]:

1. Entendimiento del dominio de aplicacin, el conocimiento relevante a usar y las metas del usuario. 2. Seleccionar un conjunto de datos y enfocar la bsqueda en subconjuntos de variables y / muestras de datos en donde realizar el proceso de descubrimiento. 3. Limpieza y preprocesamiento de datos, diseando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo y otros. 4. Reduccin de datos y proyecciones para reducir el nmero de variables a considerar. 5. Seleccin de la tarea de descubrimiento a realizar, por ejemplo, clasificacin, agrupamiento, regresin, etctera. 6. Seleccin de el los algoritmos a utilizar. 7. Llevar a cabo el proceso de minera de datos. 8. Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizs con otros datos, otros algoritmos otras metas y otras estrategias. 9. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente. 3. Limpieza y preprocesamiento de datos, diseando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo y otros. 4. Reduccin de datos y proyecciones para reducir el nmero de variables a considerar. 5. Seleccin de la tarea de descubrimiento a realizar, por ejemplo, clasificacin, agrupamiento, regresin, etctera. 6. Seleccin de el los algoritmos a utilizar. 7. Llevar a cabo el proceso de minera de datos. 8. Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizs con otros datos, otros algoritmos otras metas y otras estrategias. 9. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente.

Interpretacin / Evaluacin

Minera de Datos

Transformacin

Preprocesado

Seleccin

Figura 1. Proceso de descubrimiento de conocimiento en bases de datos.

III. REAS DE INVESTIGACIN APLICABLES A LA MINERA DE DATOS

Para llegar al conocimiento de los datos la Minera de Datos hace uso de las siguientes reas de investigacin: la Inteligencia Artificial, las Bases de Datos, la Estadstica y la Visualizacin de Datos.

IV. ALGORITMOS DE APLICACIN A LA MINERA DE DATOS

Destacan entre los algoritmos de aplicacin a la Minera de Datos [4]:

1. Los algoritmos de rboles de decisin y reglas. 2. Los Algoritmos de clasificacin entre las que se pueden destacar las Redes Neuronales Artificiales (Backpropagation). 3. Mtodos basados en ejemplos, como el Mtodo del vecino ms cercano. 4. Modelos grficos de dependencias probabilsticas como las Redes bayesianas.

V. TRABAJOS FUTUROS

El presente trabajo ha servido como punto de partida para el desarrollo de un Minero de datos utilizando PHP (processor Hipertext) el permitir el procesamiento de la Base de Datos de Alumnos del Instituto Tecnolgico de Aguascalientes, dadas la necesidades de generacin de reportes a gran escala, as como la explotacin de la misma por los usuarios.

CONCLUSIONES

Una tecnologa emergente como la Minera de Datos, se presenta como una herramienta de mucha aplicabilidad para la exploracin y explotacin de informacin en grandes almacenes de datos, almacenes que se tornan difciles de explorar con herramientas clsicas de administracin de Bases de Datos. La Minera de Datos utiliza modelos predictivos, modelos de segmentacin, modelos de agrupamiento y de afinidad sobre el conjunto de datos existentes, lo que permite el manejo y estructuracin eficiente de la informacin para presentar datos visuales de gran utilidad en la toma de decisiones, generacin de datos estadsticos y otras aplicaciones tiles en Instituciones y Empresas. REFERENCIAS

[1] Velarde M. A.(1998), Sistema de Visin Artificial; Tesis de Maestra, Centro Nacional de Investigacin y Desarrollo Tecnolgico, CENIDET. [2] Communications of the ACM: Special Issue on Data Mining:, November, 1996. [3] Fayyad U.; Piatetsky-Shapiro, G.; Editors (1996). Advances in Knowledge Discovery and Data Mining. AAAI Press. [4] Gmez Flechoso A. J., (1998), Induccin de Conocimiento con Incertidumbre en Bases de Datos Relacinales Borrosas. Tesis Doctoral ETSIT-UPM Madrid. [5] Westphal, C y Blaxton, T. (1999); Data Mining Solutions. Wiley.

You might also like