Minería de Textos o Text Mining

Resumen
Con la evolución de las computadoras y el aumento exponencial de los datos, que son producen
diariamente por la sociedad. Condujo a varios investigadores a buscar información que fuere
potencialmente valioso, dado que un dato en si es inservible, es necesario de aplicar y establecer
patrones para poder extraer conocimientos sobre los datos, es de esta forma como nace la minería
de datos. Por otro lado también evoluciona la digitalización de documentos que de igual forma que
los datos crece de forma exponencial lo que crea nuevos horizontes para la minería de datos.
Aunque con una notable diferencia ya que con la minería de Datos, estos datos se encuentran
estructurados de alguna forma, sin embargo en la minería de texto los datos no poseen ninguna
estructura, de esta forma se crea la minería de Texto, al igual que los datos la minería de Texto
también ofrece la posibilidad de proporcionar conocimiento.

Palabras-clave: Minería, Datos, Texto. Bases de Datos Textuales, Procesamiento del
Lenguaje Natural (PLN), Métodos, Patrones.

Introducción
La minería de Texto

busca analizar texto ya existente para lo cual es necesario desarrollar

procedimientos automáticos para: obtener los temas, indexar los documentos, construir bases de
documentos para una búsqueda automática. La principal finalidad es la de buscar información para
lo cual es necesario tratar los textos de varios documentos, para poder construir o descubrir algún
tipo de información.
Que es Minería: Minería es el estudio y tratamiento de datos masivos para extraer información, la
cual era desconocida y potencialmente útil.

También se distribuye bajo licencias GNU GPL. entre las cuales podemos mencionar: Weka es una plataforma de software que fue desarrollado en Java por la universidad Waikato. con la finalidad de obtener algún tipo de información que sea potencialmente útil.” Otra definición es:“Es una de las ramas de la lingüística computacional que trata de obtener información y conocimiento a partir de conjuntos de datos que en principio no tienen un orden o no están dispuestos en origen para transmitir esa información” Concepto de Minería de Texto: La minería de texto es el tratamiento de grandes volúmenes de texto que no proporcionan ninguna información a través de programas informáticos que detecten patrones o regularidades entre los textos. este lenguaje de programación es el más popular en los campos de la investigación biomédica. .Wikipedia define la Minería de texto como “La minería de textos se refiere al proceso de derivar información nueva de textos. Además de contar con un entorno gráfico.RapidMiner fue desarrollado inicialmente por la Universidad de Dortmun. La minería de Texto abarcar la minería en la web también conocida como Web Mining.Minería de Texto. también desarrollada en Java. este software es distribución libre. Y está orientada a su base de datos. Para poder realizar la minería de texto contamos con varias herramientas computacionales. y puede ser utilizado para el aprendizaje automatico (IA) y la minería de datos. la bioinformática y las matemáticas financieras. esta herramienta ocupo el segundo lugar entre las herramientas analíticas y de minería de datos. por otro lado en un documento de texto está compuesto Graficas. la Minería de texto los datos no están estructurados. Imágenes. o que sea desconocida. Complejidad de la Minería de Texto: a diferencia de la Minería de datos. Lenguaje R: Software para el análisis estadístico. la cual busca encontrar alguna información en la web. tablas y el texto propiamente. RapidMiner. llamada Ror.Web structuremining (minería de estructura web)Web usagemining (minería de uso web) Herramientas de minería de texto. Es un software para el análisis de la minería de datos. lo cual puede crear confusión. sin embargo existe otra versión del lenguaje R. para ello también se puede basar en la Web contentmining (minería de contenido web). y también es de licencia Gratuita. esta última versión es distribuida por Oracle. todo esto sumado a la jerga lingüística.

jEdit. Utilidad de la Minería de textos. . SciTE.Los bloqueadores de canales de calcio previenen algunas migrañas.8 Crimson Editor. WordStat es un software de análisis de texto. Eclipse.El magnesio es un bloqueador natural del canal de calcio. el cual es muy utilizado en las ciencias sociales.14 SPSS Programa estadístico. Stata. y se vende por módulos. este ultimo software. gedit. Fue desarrollado por IBM. 4. 5. si bien las anterior poseen herramientas para la minería de texto.000 variables. En el describe como Don Swanson trato de extraer información a partir de colecciones de texto y demostró cómo cadenas de implicaciones causales dentro de la literatura médica pueden conducir a hipótesis para enfermedades poco frecuentes.También esta MATLAB. 3. Quien al dia de hoy sigue dando soporte la última versión es la 22 la cual fue liberada en septiembre del 2013 SAS. es que posee varios editores de textos.9 Emacs (Emacs Speaks Statistics). Excel.10 Kate.El estrés está asociado con la migraña. TextMate. Geany. Se pudieron extraer evidencias a partir de varios artículos de literatura biomédica y algunas de las claves fueron: 1. Como Bluefish. Entre otras herramientas . como por ejemplo ocurrió con la migraña. Tinn-R. el problema es su alto costo. Vim. en la versión 12 ya se podía trabajar con 2 millones de registros y 250.13 Syn. ConTEXT. está orientado totalmente a la minería de texto. Statistica. Un ejemplo de minería de textos lo realizó Hearst en 1999 y es incluido como ejemplo en el artículo en “Data mining: torturando a los datos hasta que confiesen” de Luis Carlos Molina Félix.Otra característica importante de R.El estrés puede conducir a la pérdida de magnesio.12 RKWard. 2.La depresión cortical diseminada (DCD) está implicada en algunas migrañas. Es otro programa estadístico. SPSS es de pago. muy utilizado junto con SPSS son considerados los mejores. Lo que más sobre sale de esta herramienta es su capacidad para trabajar con grandes volúmenes de datos. WinEdt (R Package RWinEdt) y notepad++.11 RStudio.

cambiante y que puede adaptarse a diferentes situaciones y casos. y por lo tanto. Con estos objetivos los lingüistas han adoptado varias perspectivas de análisis las cuales se basan en los conocimientos de la estructura de los idiomas. Esta forma de visualizar los textos ha permitido encontrar las palabras o frases relevantes de textos y también encontrar textos similares. que en su parte más simple son proporcionadas por los interesados para luego ser comparadas con los textos. Aclarar que es lo que se está buscando con esta investigación. de la cual solo nos interesen algunos de ellos o seleccionamos solo los que creemos que tiene alguna información.En Internet cuando se realiza una consulta. Sin embargo. en términos generales se podría decir que existente algunas técnicas que puedes ser aplicadas. los buscadores proporcionan una variedad de información.Pre procesamiento de los datos. que sería la selección.Determinación de los objetivos. 1. seleccionar la información que deseamos de entre el millar de posibilidades. o que requieren la intervención de expertos en cada campo para extraer la información. acotando hasta qué punto se quiere profundizar en la misma y definiendo claramente los limites. por lo que no hay un método estricto a seguir. Otra perspectiva es la extracción de palabras o frases claves. . Esta etapa consume la mayor parte del tiempo. 1. hay que destacar que la minería web es una división de la Minería de texto por lo que las técnicas a utilizar son las misma: Técnica Clásica. Pasos para realizar la minería de textos (Text Mining)? La minería es una técnica relativamente nueva. análisis y reducción de los textos o documentos de los que se extraerá la información. Estas dos formas de tratar el problema generan códigos computacionales complejos.

etc. Normalmente se utiliza Prolog para programar las herramientas. Todas estas técnicas se basan en suministrar a los algoritmos. Grafos Conceptuales Un grafo conceptual es un grafo bipartito que tiene dos tipos de nodos. Programación lógica inductiva Esta técnica permite introducir conocimiento a priori del dominio en forma de definiciones mediante predicados relacionados.1. Programación genética Es un método de generación automática de programas para computadoras con inspiración evolutiva. Para agrupar los grafos. La agrupación de dos o más grafos permite descubrir la estructura oculta de la colección de textos. pueden utilizarse unas técnicas u otras. La ventaja que posee es su capacidad de representación basada en una lógica de segundo orden. mediante el cruce de unos con otros y procesos . similitudes. que puedan servir al especialista o al usuario que haya encargado el estudio para extraer conclusiones que pueda utilizar para mejorar algún aspecto de su empresa. administración u organización en general. Requiere no sólo de un conjunto de entrenamiento con ejemplos sino también de las relaciones descubiertas por el diseñador y basadas en las cláusulas de Horn. Los grafos se comparan utilizando conocimiento del dominio como diccionarios de sinónimos y jerarquías de conceptos. que permite generalizar conceptos y descubrir definiciones de conceptos de forma automática.Análisis de los resultados. se pueden utilizar técnicas de agrupamiento como las estrategias colaborativas. Según los objetivos planteados y la tarea que debe llevarse a cabo. 1. el agrupamiento en k medias o Comweb. conceptos y relaciones conceptuales. A partir de los datos extraídos se tratara de ver su coherencia y se buscaran evidencias. sobre la base de programas muy simples. compañía. excepciones.Determinación del modelo. Se realiza una operación de intersección entre dos grafos para dar un resumen de ambos y a dicho resumen se le valora con una puntuación que indica el grado de similitud entre ambos textos. un conjunto de ejemplos a partir de los cuales se generan las agrupaciones. Las técnicas de grafos conceptuales aportan mayor semántica.

lo cual refleja una gran utilidad en el análisis experimental de datos. que se pondera con la longitud de la definición para guiar al algoritmo a soluciones sencillas y el descubrimiento de conceptos intermedios. que no son más que evoluciones paralelas de otras primitivas que se pueden utilizar en la definición principal. Conclusión Actualmente estamos en la era de la información. probablemente sean mejor solución las técnicas anteriormente descritas. se generan programas más y más aptos para la realización de la tarea que se le asigna.de mutación aleatoria. porque permite mejorar los recursos de las organizaciones. La aptitud de los programas se mide de forma numérica mediante una función denominada de fitness. La función de fitness deberá medir el número de ejemplos que se cubren con la definición de cada uno de los individuos generados en cada generación. la idea consiste en introducir como primitivas las relaciones expresadas como cláusulas de Horn y utilizar un sistema que permita utilizar las denominadas ADFs. Es en este punto donde la minería juega un papel importante al proporcionar información desconocida u oculta en los textos. debido a que la programación genética tiene problemas de eficiencia con primitivas recursivas. y es donde la información constituye un recurso altamente valorado. para generar definiciones muy resumidas de los conceptos. Estas técnicas han sido utilizadas en diversas disciplinas y aplicadas en diferentes contextos. Algunas extensiones de la programación genética permiten describir nuevas primitivas a partir de las primitivas inicialmente descritas. Esta técnica ha tenido problemas con las definiciones recursivas. . datos o vectores de característicos) en grupos o clusters. Si se conoce que la naturaleza de la definición a encontrar es recursiva. Su aplicación no es sencilla o fácil de realizar por lo que las organizaciones necesitaran contar con expertos en el área para que puedan realizar los estudios e interpretar los resultados Definición de Términos Clustering Las técnicas de clustering son técnicas de clasificación no supervisadas de patrones (observaciones. Básicamente.

El objetivo es encontrar regularidades en los comportamientos de los clientes dentro de términos de combinaciones de productos que son comprados muchas veces en un conjunto. tomates} {naranjas. papas} {frijoles. dulcería} {manzana. cebolla. plátanos. lo cual se adapta mejor al comportamiento humano. Clasificación: se posee información de que clase pertenece cada ?tem y lo que se desea es determinar cuáles son los factores que intervienen en la definición de las clases y que valores de los mismos determinan estas. dulcería} {manzana. papas} Se puede ver. que hay 3 transacciones que la contienen. dulcer?a} {manzanas. dulcer?a} {dulcer?a} {manzanas. tomates. lechuga.Clustering vs clasificación Clustering no tiene ninguna información relacionada con la organización de los ?tems en los grupos o clases y el objetivo es encontrar dicha organización en base a la proximidad entre ?tems. apio. así el: . naranjas. ciruelas. zanahorias. lechuga. naranjas. Lógica Difusa La lógica difusa o borrosa parte del principio de que las cosas no son blancas o negras. o sea reglas que reflejen relaciones entre los atributos presentes en los datos {ciruela. dulcer?a} {duraznos. tal como establece la lógica clásica.4 . sino con tonalidades y con múltiples valores. zanahorias. si se quiere obtener el soporte de manzana. por lo que supp(manzana)=4/10 = 0. igualmente para el soporte de la zanahoria. tomates. papas. tomates. tomates} {apio. de 10 transacciones disponibles 4 contienen a manzana. Se puede clasificar el agrupamiento y la clasificación en general según distintos criterios. tomates. lechuga. Reglas de Asociación Las reglas de asociación describen como varias combinaciones de items estan apareciendo juntas en los mismos conjuntos. zanahorias. lechuga.

75 Conf(manzana ? tomates)=0. poniéndolos como antecedentes y consecuentes. y en este caso también el factor de certeza mínimo. Anexos Etapas de la Minería de Texto Etapas de la Minería Web .3/0. contendrá el consecuente.3 Supp(manzana ? tomate)=0. entonces se evaluara el soporte y la confianza de cada regla.4 = 0. Esto es necesario porque sino la búsqueda se hará exhaustiva. y no sabiendo que reglas son las que mejor representan el conjunto de datos. y se descartaran todas las reglas que no satisfacen las restricciones. Del ejemplo se ve que: Conf(manzana?dulcer? a)=Supp(manzana ?dulcer?a) ÷ supp(manzana)=0.75 Conf(zanahoria ? tomates)=1.0 El algoritmo de asociación tratara de descubrir todas las reglas que excedan las cotas mínimas especificadas para el soporte y confianza. Algoritmo Aprioritid El objetivo en todo algoritmo de búsqueda de reglas de asociación es encontrar las reglas que satisfacen con la condición de confianza y soporte mínimo.3 supp(dulcer?a)=0.3 Si el soporte es suficientemente alto y el conjunto de transacciones es grande. La búsqueda exhaustiva de reglas de asociación considerara simplemente todas las combinaciones posibles de los elementos. entonces la confianza es un estimado de la probabilidad que cualquiera transacción futura que contenga el antecedente.supp(zanahoria)=3/10 = 0. encontrándose al final una cantidad demasiado grandes de reglas generadas.6 Supp(manzana ? dulcer?a)=0.

Tipos de Minería Web Arquitectura del sistema WebMiner Proceso de obtención de datos desde la actividad del usuario .

daedalus.50webs.uoc.com http://eprints.galeon.rclis. http://textmining.rclis.html http://www.org/11501/1/Galvez-Encontros3.galeon.edu/web/esp/art/uoc/molina1102/molina1102.dataprix.es/que-tecnologias-nos-diferencian/inteligencia-de-negocio/mineria-de-datos/ http://eprints.html .com/recuperacion-informacion.pdf http://www.Modelo para la obtención de perfiles Referencias Bibliográficas.com/ http://www.pdf http://mineriatexto.com/171-evoluci-n-historia-miner-datos http://textmining.org/10615/1/05-Miner%C3%ADa_de_textos__una_herramienta_%C3%BAtil.