You are on page 1of 17

Apache Lucene

Integrantes:

Gerson Aguirre
Kevin Canales
Sebastin Ossandn

Contenido

Introduccin
Qu es Apache Lucene?
Por qu Apache Lucene?
Cmo funciona?
Ventajas/Desventajas
Ejemplo
Conclusiones
Consultas
2/17

Introduccin
Buscadores existentes antes de internet.
-> ndices de libros.
Yahoo, Google.

3/17

Qu es Apache Lucene?
API de cdigo abierto
Soporte adems para Delphi, Perl, C#, C++, Python,
Ruby y PHP.
til para cualquier aplicacin que requiera indexado y
bsqueda a texto completo.

4/17

Por qu Apache Lucene? (1/2)

Ofrece escalabilidad.

Ranking por relevancia.

Puede integrar diferentes fuentes de datos (correos, sitios web, archivos,


bases de datos).

Cdigo abierto.

Gran cantidad de documentacin.

5/17

Por qu Apache Lucene? (2/2)

6/17

Cmo funciona? (1/3)


Pasos:
Se indexa la informacin
del Corpus.
-> Analyzer

Normalizar el texto (tokens).

Bsqueda.

Ordenar por relevancia.

7/17

Cmo funciona? (2/3)

8/17

Cmo funciona? (3/3)


Clases bsicas en el proceso de indexacin:
IndexWriter
Directory
Analyzer
Document
Field
9/17

Ventajas/Desventajas
Ventajas de Apache Lucene
1. Poderosa sintaxis de bsqueda.
2.

Pueden ser creados desde el input del usuario o programticamente.

3.

Rpido indexamiento.

4.

Bsqueda rpida.

5.

Ordenamiento por relevancia y otros tipos de campos.

6.

Bajo la licencia Apache 2.0

10/17

Ventajas/Desventajas

11/17

Comparacin (1/2)
I
n
d
e
x
a
c
i

Lucene

Compass

Terrier

Solr

Trec9

Html1G

Html2G

Trec9

Html1G

Html2G

Trec9

Html1G

Html2G

Trec9

Html1G

Html2G

Tiempo
(min)

3:01

9:17

16:19

6:31

5:20

10:52

3:08

7:09

12:06

10:07

3:07

7:17

Tam.
ndice
(MB)

130

79,9

135

645

399

681

222

145

178

341

84,1

143

Consu
mo
memori
a (MB)

52,5

70

66

93

95

95

220

130

149

84,8

72,65

77,3

Consu
mo de
CPU
(%)

28

25

25,34

40,73

44

41,55

38,93

19,54

21,4

28

38,8

36,37

12/17

Comparacin (2/2)
B

s
q
u
e
d
a
(ms)

Consultas ( TREC-9 / HTML)

Lucene

Bsicas 1 palabra

9,09

Bsicas 2 palabras

Compass

Terrier

Solr

5,25

27,4

43,7

27,74

72,16

153,5

125,73

10,16

8,34

32,46

71,26

47,73

120,2

99,86

158,53

Bsicas 3 palabras

20,16

11,26

51,77

99

65,77

135,22

330,77

176,44

Comodines

29,04

99,24

81

183

N/D

N/D

295,4

549

Frases

61,18

15,72

56,8

20,6

131

43,6

344,8

234

Fuzzy

181,24

1332,84

606,4

2538,6

N/D

N/D

4845,2

4301,6

Proximidad

10,94

16,94

31,2

82,2

87,6

146,4

383,2

203

Variadas

153,31

637,9

113,25

1532,75

N/D

N/D

996,25

1907,25

13/17

Recursos Asociados

Documentacin sobre Apache Lucene en https://lucene.apache.org/core/

NetBeans IDE 8.0.2

Ejemplo alojado en UdeSantiagoVirtual.cl

Documentacin sobre el conector de MySQL para Java en http://dev.


mysql.com/doc/connector-j/en/

14/17

Ejemplo

https://bitbucket.org/ApacheLucene/demo-lucene

15/17

Conclusiones

Gran conocimiento sobre la tecnologa.

Aprendizaje terico y prctico.

Logro de una demostracin bsica.

Base para agregar mejoras y funcionalidad.

Ayuda de los cdigos ejemplos.

Existencia de una gran logstica detrs de cada buscador.

16/17

Consultas

17/17

You might also like