Welcome to Scribd, the world's digital library. Read, publish, and share books and documents. See more
Download
Standard view
Full view
of .
Save to My Library
Look up keyword
Like this
90Activity
0 of .
Results for:
No results containing your search query
P. 1
Indizacion y Busqueda a traves de Lucene

Indizacion y Busqueda a traves de Lucene

Ratings:

4.4

(5)
|Views: 9,798 |Likes:
Published by pabloe
Es mi trabajo de Verano de Investigación realizado en el Instituto Tecnologico de Orizaba
Es mi trabajo de Verano de Investigación realizado en el Instituto Tecnologico de Orizaba

More info:

Published by: pabloe on May 19, 2008
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

07/25/2013

pdf

text

original

 
Indización y Búsqueda a través de Lucene
Juan Pablo Ramos Hernández
1
, Giner Alor Hernández
2
 
1
Facultad de Informática, Universidad Autónoma de Sinaloa, prolongación Josefa Ortiz deDomínguez Ciudad Universitaria, Culiacán, Sinaloa.
2
División de Estudios de Posgrado e Investigación, Instituto Tecnológico de Orizaba,Avenida Oriente 9 No. 852 Col. Emiliano Zapata C. P. 94320, Orizaba, Veracruz.E-mail: jpramoshernandez@gmail.com, galor@itorizaba.edu.mx
Resumen:
Lucene es una tecnología para la Recuperación de Información querealiza procesos de indización y búsqueda, cuenta con una API escrita en Java,también está disponible en otros lenguajes de programación, soporta laindización de documentos con formatos: txt, pdf, doc, ppt, rtf, xml y html, lafinalidad de este reporte técnico es darle a conocer al lector el uso de estatecnología, se muestra la introducción e historia, características de Lucene,ejemplos y uso de las principales clases, estructura de un índice, comparacióncon otras tecnologías y como resultado final la construcción de un motor debúsqueda utilizando Lucene.
Palabras clave: Lucene, Recuperación de Información, Indización.
1 Introducción
Lucene es una novedosa herramienta que permite tanto la indización cómo la búsqueda de documentos.Creada bajo una metodología orientada a objetos e implementada completamente enJava, no se trata de una aplicación que se descarga, instala y ejecuta sino de una APIflexible, a través de la cual se añaden, con esfuerzos de programación, capacidades deindización y búsqueda a cualquier sistema que se esté desarrollando. [1]Existen otras herramientas, aparte de Lucene, que permiten realizar la indización y búsqueda de documentos pero dichas herramientas se utilizan para usos concretos, loque implica que el intentar adaptarlas a un proyecto específico sea una tarea realmentedifícil. La idea que engloba Lucene es completamente diferente, ya que su principalventaja es su flexibilidad, permite su utilización en cualquier sistema que lleve a cabo procesos de indización o búsqueda. [1]Lucene tiene versiones para otros lenguajes como Perl, C#, Ruby y C++.Para entrar más a detalle en el siguiente apartado se tratan los orígenes de Lucene.
2 Historia de Lucene
El desarrollo y crecimiento masivo de las redes de computadoras y medios dealmacenamiento a lo largo de los últimos años, motiva la aparición de un crecienteinterés por los sistemas de clasificación automática de documentos. [1]Esta necesidad de búsqueda de datos en la web o en cualquier archivo que contengatexto dio origen a Lucene, para implementarse en cualquier aplicación o sistema que
 
requiera un motor de búsqueda, en la figura 1 se muestra como una aplicación haceuso de Lucene.Estos sistemas realizan diferentes operaciones de clasificación basándose en elanálisis del contenido del texto de los documentos que procesan. La mayoría de lastécnicas de análisis y representación de documentos utilizadas en la actualidad en lossistemas de clasificación, se basan en criterios fundamentalmente estadísticos,centrados en frecuencias de aparición de términos en los documentos. [1]
Figura 1:
Lucene primero que nada indiza los documentos o BD que contiene la aplicaciónpara que después a través de una consulta del usuario, Lucene busque en el índice y muestre losresultados con éxito.
El creador de Lucene, Doug Cutting, tiene la experiencia teórica y prácticasignificativa en el campo de Recuperación de Información (IR). Cutting preocupado por el decrecimiento de los motores de búsqueda en la web, creó Nutch, unaaplicación basada en Lucene, para manejar los índices y buscar en millones de páginas web actualizadas. [2]Después de analizar los orígenes de Lucene se pasa a ver las características (ventajaso desventajas) de esta tecnología.
 
3 Características de Lucene
A continuación se detallan algunas características que hacen de Lucene unaherramienta flexible y adaptable:
!
Lucene es un API de desarrollo para indización y búsquedas, escrita en Java.
!
Está disponible en C++, Perl, C# y Ruby.
!
Multiplataforma.
!
Permite indización incremental.
!
Algoritmos de búsquedas fiables y confiables.
!
Permite ordenar resultados por relevancia.
!
Lenguaje de consulta.
!
Stemming
!
Búsqueda por campos, rangos de fecha, entre otras.
!
Ordenación por cualquier campo.
!
Permite búsqueda mientras se actualiza el índice.
!
Lucene soporta la indización de documentos con formato: TXT, PDF, DOC,RTF, XML,PPT y HTML. [3]Lucene tiene muchas ventajas en cuanto a otras bibliotecas de funciones de IR. En elsiguiente apartado se definen indización y búsqueda así como las principales clasesque Lucene utiliza para lograr con sus objetivos.
4 Funcionalidad Básica de Lucene
4.1 Indización y Búsqueda
En este apartado, y puesto que indización y búsqueda son dos objetivos muygenerales, que abarcan multitud de aspectos, se definen y se detallan cada una deellos.
4.1.1 Concepto de indización
Cuando se requiere hacer uso de búsquedas dentro de una aplicación, rápido se vienea la mente crear un programa que haga esto, es decir, que busque en todos losarchivos palabras o frases relacionadas, esto tendría fallas en el caso de archivos muygrandes. Por eso es importante crear los índices, transformar el texto en un formatodonde la búsqueda sea más rápida, eliminando el proceso de exploración lento. Este proceso de conversión es llamado indización y al archivo resultante se le llama índice.Un índice separa las palabras el documento en campos y permite el acceso rápido alos datos que fueron almacenados en el proceso de indizado. [2]
4.1.2 Concepto de búsqueda
La búsqueda es el proceso de entrar al índice y buscar palabras relacionadas, paraencontrar documentos donde aparezca.Es importante para la búsqueda tomar en cuenta dos factores: la destitución y la precisión.

Activity (90)

You've already reviewed this. Edit your review.
1 thousand reads
1 hundred reads
Marcelo Moyano liked this
Pacho Delgado liked this
CaRo Balarezo liked this
CaRo Balarezo liked this
CaRo Balarezo liked this
Muy bueno para DMS

You're Reading a Free Preview

Download
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->