You are on page 1of 3

Cenfotec Especialidades en Tecnologa de Bases de Datos MBD 305 Minera de Datos 1 Aprovechando el poder de la minera de texto

Profesor: Dr. Carlos A. Gonzlez A. Elaborado por: Alexandra Natalia Porras Valverde Resumen La gestin de la informacin electrnica demuestra lograr integrar los documentos combinandolos. Adems de disminuir los costos, reducir el tiempo del procesamiento de los documentos y eliminar los errores en los datos. Por esto, los documentos electrnicos se han convertido en el principal medio de almacenamiento, acceso y clasificacin de la comunicacin escrita, pero ello conlleva que grandes cantidades de datos se encuentran en el ciberespacio y que se busque la generacin de tecnologa de minera de texto. La minera de texto realiza la extraccin automtica de informacin de diferentes fuentes escritas, est diseado para manejar datos estructurados en bases de datos o archivos XML, trabajar con conjuntos de datos no estructurados o semi-estructuradas. La inteligencia artificial es un problema para la mineria de datos, la capacidad que tiene el ser humano para poder comprender, distinguir y aplicar el lenguaje natural, por el contrario el equipo para procesar el texto en grandes cantidades a altas velocidades.La clave para la minera de textos es la creacin de una tecnologa que combina las capacidades lingsticas de un ser humano con la velocidad y la precisin de un ordenador. A partir de una coleccin de documentos, una herramienta de minera de texto recupera un documento en particular y preprocesa tras comprobar su formato y juegos de caracteres. Luego pasa por el anlisis de textos, a veces repitiendo las tcnicas hasta que la informacin dirigida se extrae. La informacin resultante puede ser colocado en un sistema de gestin de la informacin para producir conocimiento a sus usuarios. FUNDAMENTOS DE LA TECNOLOGA El campo del procesamiento del lenguaje natural ha producido tecnologas para ensear a las computadoras el lenguaje natural, lo que les permite analizar, comprender y incluso generar texto.

Extraccin de informacin. Esta tecnologa representa un punto de partida para el anlisis de los ordenadores de texto no estructurado y la identificacin de frases clave y las relaciones dentro del texto. Lo hace mediante la bsqueda de secuencias predefinidos en el texto, un proceso denominado coincidencia de patrones. El software infiere de las relaciones entre todas las personas identificadas, los lugares y tiempos para dar al usuario informacin til. La tecnologa puede ser til cuando se trata de grandes volmenes de texto. Tema de seguimiento. Un sistema de seguimiento mantiene perfiles de usuario y, basndose en los documentos de una vista del usuario, prev otros documentos de inters para el usuario. Sumarizacin. Ayuda a los usuarios a determinar si un documento extenso se adapta a sus necesidades y vale la pena leer. Con grandes volmenes de textos, el software procesa y resume el documento en el tiempo que llevan al usuario a leer el primer prrafo. La clave es la reduccin de la longitud y el detalle de un documento sin perder sus puntos principales y el significado general. Categorizacin. Implica la identificacin de los temas principales de un documento . La categorizacin cuenta slo las palabras que aparecen y, a partir de las cuentas, se identifican los principales temas abordados en el documento. A menudo se basa en un diccionario de sinnimos para que los temas estn predefinidos y relaciones identificadas mediante la bsqueda de trminos generales, la forma ms estrecha, sinnimos,y trminos relacionados. Herramientas de categorizacin normalmente tienen un mtodo para la clasificacin de los documentos con el fin de que los documentos tienen el mayor contenido de un determinado tema. Clustering. Es una tcnica utilizada para agrupar documentos similares, pero difiere de la clasificacin en la que los documentos se agrupan sobre la marcha en lugar de a travs de temas predefinidos. Los documentos tambin pueden aparecer en varios subtemas, que los documentos de utilidad no se omiten los resultados de bsqueda. Un algoritmo de clustering de base crea un vector de temas para cada documento y las medidas de los pesos de la forma en que el documento se ajusta a cada grupo. Concepto de vnculo. Conecta los documentos relacionados con la identificacin de sus conceptos compartidos,ayuda a los usuarios a encontrar la informacin que quizs no han encontrado a travs de mtodos tradicionales de bsqueda. Visualizacin de la informacin. La minera de textos visuales, o visualizacin de la informacin, pone grandes fuentes textuales en una jerarqua visual o mapa, as como la capacidad de navegacin. Adems de la bsqueda simple. Consideraciones sobre el paper Cuenta con un buen manejo del tema, los trminos son claros y pueden ser entendidos por cualquier persona. Al inicio explica de una manera sencilla la importancia de la minera de

textos, dado el uso que se le est dando en los ltimos tiempos , complementa con el concepto propio de la minera de textos y la diferencias que existen entre sta y la minera normal. A pesar de esto, al intentar abarcar todo el tema de la minera de textos y sus diferentes herramientas, se profundiza poco en el como se llevan a cabo cada uno de estos procesos, al slo realizar un repaso de su utilidad, ventajas y desventajas, pero no muestra el como realizar esto, ni ejemlos de algunas herramientas. Conclusiones La minera de textos es una tecnologa recuperacion y organizacion de la informacion que aunque todava es emergente y necesita ser mejor desarrollada, nos sirve para obtener un tipo de informacin muy til en cualquier tipo de organizacin publica o privada. Econmicamente es una tcnica que puede utilizarse para ahorrar dinero y abrir oportunidades de negocio a las empresas. En cualquier organizacin, las conclusiones a las que se puede llegar a travs del text mining pueden ser utilizadas para la toma de decisiones. Y todo esto es consecuencia del desarrollo tan abrumador que la sociedad de la informacin a supuesto en cuanto a la generacin de informacin y nuestra capacidad para almacenarla. Cada vez es mas fcil recabar datos y guardarlos adecuadamente. El reto es saber aprovechar el potencial de conocimiento escondido en ellos. Gracias a tcnicas de apoyo como el Text Mining se ha podido ver mas all de lo que a simple vista ofrecen los documentos. Con esta y otras tecnicas de recuperacion y organizacion de la informacion se ha podido explorar, analizar, comprender y aplicar el conocimiento encerrado en los textos. En el mbito comercial, resulta interesante encontrar patrones ocultos de consumo de los clientes para poder explorar nuevos horizontes. Saber que un vehculo deportivo corre un riesgo de accidente casi igual al de un vehculo normal cuando su dueo tiene un segundo vehculo en casa ayuda a crear nuevas estrategias comerciales para ese grupo de clientes. Asimismo, predecir el comportamiento de un futuro cliente, basndose en los datos histricos de clientes que presentaron el mismo perfil, ayuda a poder retenerlo durante el mayor tiempo posible. El campo de la minera de textos, text mining y data mining ofrece importantes expectativas profesionales para los documentalistas y los expertos en el campo de la informacin y las nuevas tecnologas. Su aplicacin no siempre es sencilla y las organizaciones o administraciones que necesitan de estos estudios necesitaran consultar a expertos en el rea para llevar a cabo estos estudios. Explicndole los objetivos el experto sabr cual es la mejor manera de llevar a cabo el anlisis de esos textos.

You might also like