You are on page 1of 8

A influˆ

encia do t´ıtulo e dos subt´ıtulos
na recupera¸c˜
ao de documentos
Juan Augusto
Universidade Federal do Rio de Janeiro, Departamento de Ciˆencia da Computa¸ca
˜o
juan.augusto@ufrj.br
http://www.dcc.ufrj.br/~augusto.juan

Resumo O artigo pesquisado tem como principal objetivo demonstrar a
importˆ
ancia que o t´ıtulo e os subt´ıtulos de um documento possuem para a
Recupera¸ca
˜o da Informa¸ca
˜o. Atrav´es de uma abordagem implementando
o esquema de pondera¸ca
˜o de termos TF-IDF, deseja-se aproveitar o fato
que tanto o t´ıtulo como os subt´ıtulos costumam serem bons indicadores
do conte´
udo dos par´
agrafos referentes, contribuindo para a melhora da
performance das consultas em muitos casos.
Keywords: XML recupera¸ca
˜o informa¸ca
˜o t´ıtulo subt´ıtulo documento
lucene TF-IDF

1

Introdu¸c˜
ao

Em geral documentos longos abordam diversos assuntos, que por sua vez est˜ao
espalhados pelas se¸c˜
oes destes documentos, onde cada se¸c˜ao possui um subt´ıtulo
e os par´
agrafos que descrevem seu conte´
udo. Os subt´ıtulos possuem uma importˆ
ancia consider´
avel para indicar o conte´
udo dos par´agrafos, sendo muito u
´teis
para a recupera¸c˜
ao da informa¸c˜ao.
Quando um documento escrito ´e dividido em se¸c˜oes, normalmente aplica-se
para o t´ıtulo dessas se¸c˜
oes uma formata¸c˜ao especial, diferente da formata¸c˜ao do
conte´
udo para que os leitores entendam facilmente que esses termos s˜ao particularmente importantes no texto, j´a que descrevem em poucas palavras o conte´
udo
que vir´
a a seguir.
Quando um documento possui itens tais como t´ıtulo, autor, data, resumo,
palavras-chave e etc, esses itens s˜ao chamados de metadados, ou seja, s˜ao dados
que descrevem dados, sendo portanto informa¸c˜oes u
´teis para identificar, localizar,
compreender e gerenciar os dados. O uso de metadados melhora o resultado
das buscas e minimiza a recupera¸c˜ao de documentos irrelevantes. Quando os
metadados s˜
ao documentados e disponibilizados, a semˆantica do dado produzido
´e enriquecida, agregando seu significado real, e dando suporte `a atividade de
administra¸c˜
ao de dados executada pelo produtor desse dado.
Estudos s´erios na ´
area de Recupera¸c˜ao da Informa¸c˜ao utilizam a estrutura

ogica dos documentos para melhorar os resultados de revoca¸c˜ao e precis˜ao. Este
trabalho ´e limitado `
a dar um determinado peso `a algumas tags (t´ıtulo, resumo...);

..... o t´ıtulo.. O trabalho consistiu ent˜ ao em extrair e indexar o conte´ udo principal. Por exemplo. Por isso. se¸c˜oes.. mas para criar anota¸c˜oes de tal forma que seja poss´ıvel entender o significado de cada uma delas..... o outro para os subt´ıtulos... dentre outros. Para isso foi utilizada a API Open-Source Apache Lucene na vers˜ ao 5.... j´a que elas representam um excelente indicador do cont´eudo do documento e dos par´agrafos......xml"> List of years in poetry</link></b> ....... .. de forma a aumentar a performance das consultas..... o cabe¸calho.... 2 2.... pois usam o conceito de tags para representar o conte´ udo.... .2 A influˆencia do t´ıtulo e dos subt´ıtulos na recupera¸c˜ ao de documentos ou tentar calcular o peso de todas as tags por´em sem levar em conta a semˆantica escondida por exemplo na tag de t´ıtulo ou na tag de subt´ıtulo.... <title>1956 in poetry</title> <id>5776006</id> ..1 Indexa¸c˜ ao Corpus A maior parte dos documentos XML s˜ao muito bem estruturados... Deseja-se demonstrar que o uso de um ´ındice com v´arios campos ir´a melhorar a relevˆ ancia dos resultados. . <b>This is part of the <link xlink:type="simple" xlink:href="... Exemplo de um documento do corpus INEX 2009 estruturado em XML <?xml version="1..4........ ./778/3327778...... Foi criado um ´ındice invertido com alguns campos.. par´agrafos) no processo de busca dos documentos.. o objetivo ´e dar uma aten¸c˜ao especial ao significado contido por essas tags para a recupera¸c˜ ao de informa¸c˜ao.. e outro para o texto em si......... um para o t´ıtulo principal... Logo. Segue abaixo a estrutura comum `a todos os documentos que fazem parte do corpus escolhido........ e essas tags s˜ao usadas n˜ao apenas para fragmentar o documento em v´arios elementos... t´ıtulo e subt´ıtulos de cada documento do corpus INEX 2009 que cont´em todos os documentos do site em inglˆes da Wikipedia at´e Outubro de 2009... ´e poss´ıvel usar os t´ıtulos de alguns objetos (cap´ıtulos.. A semˆantica dessas tags ´e de extrema importˆancia para a recupera¸c˜ ao da informa¸c˜ ao..0" encoding="UTF-8"> ...0 para indexa¸c˜ao e recupera¸c˜ao dos documentos.. <bdy> . ´e poss´ıvel ter tags para englobar o cont´eudo principal do documento....

<ss1> <st>Subtitle of subsection</st> </ss1> </sec> </bdy> ..3 Tamanho dos campos ap´ os a indexa¸ c˜ ao Tabela 1. Para isso.A influˆencia do t´ıtulo e dos subt´ıtulos na recupera¸ca ˜o de documentos 3 <sec> <st> Awards and honors </st> Consultant in Poetry to the Library of Congress. a quantidade de termos distintos para os campos de t´ıtulo e dos subt´ıtulos ´e razoavelmente menor que a referente ao campo conte´ udo.. e de todos os subt´ıtulos (jun¸c˜ao dos textos envolvidos pelas tags st) removendo caracteres como pontua¸c˜oes e outros que n˜ao importam para o prop´ osito desejado e ent˜ ao a partir da´ı tornar poss´ıvel a utiliza¸c˜ao da API Apache Lucene para realizar o stemming e a remo¸c˜ao de stopwords para os campos desejados e finalmente proceder-se `a indexa¸c˜ao dos documentos nos campos apropriados....2 Extra¸ c˜ ao dos dados Antes de se realizar a indexa¸c˜ao propriamente dita.05% Ap´ os a indexa¸c˜ ao foi feito um c´alculo baseado nos ´ındices constru´ıdos para cada campo.8% subt´ıtulos 297340 6. ´e necess´ario realizar um grande trabalho de extra¸c˜ ao na cole¸c˜ao disponibilizada para que o ´ındice seja constru´ıdo de forma correta. Quantidade de termos distintos para cada campo indexado Campo Quantidade de termos Porcentagem conte´ udo 3889525 78. 2. Conforme ´e poss´ıvel ver na Tabela 1..... Os campos de subt´ıtulos possuem uma quantidade muito menor de termos em rela¸c˜ao ao conte´ udo pois s˜ao poucos os documentos que possuem esse tipo de metadado. do t´ıtulo (texto envolvido pela tag title)... 3 Lucene Scoring Function O esquema de pondera¸c˜ ao de termos utilizado para a realiza¸c˜ao das buscas foi o TF-IDF. 2.. foi criado um programa em linguagem Java respons´ avel pela extra¸c˜ao do conte´ udo principal (texto que est´a envolvido pela tag bdy e que n˜ ao esteja envolvido pela tag st).15% t´ıtulo 790045 15.. O Lucene por padr˜ao trabalha com este esquema mas suporta outros ..

Um documento tamb´em pode corresponder a uma consulta em v´ ` arios termos sem conter todos os termos dessa consulta.4 A influˆencia do t´ıtulo e dos subt´ıtulos na recupera¸c˜ ao de documentos como o BM25. o Lucene refina o score padr˜ao calculado atrav´es do cosseno para melhorar a qualidade das consultas j´a que ao normalizar V(d) para um vetor unit´ ario. o qual usualmente ´e maior quando mais termos casam. f ) · queryNorm(f ) · X (tf (t in f) · idf(t)2 · t. J´a no tempo de consulta ´e poss´ıvel especificar os termos ou campos com maior peso e para isto query-boost(q) ´e utilizado.V (d) · doc-len-norm(d) · doc-boost(d) |V (q)| (1) Nesta fun¸c˜ ao conceitual. A forma conceitual ´e uma simplifica¸c˜ao considerando que o ´ındice contenha apenas um campo no qual todo o conte´ udo de cada documento ´e indexado. Para isso doc-boost(d) ´e utilizado. o fator de normaliza¸c˜ao doc-len-norm(d) ´e usado. f )) (2) Os componentes dessa nova fun¸c˜ao s˜ao calculados como segue nas equa¸c˜oes abaixo: tf (t in f) = p f requency idf (t) = 1 + log numDocs docF req + 1 queryN orm(q) = pP norm(t. f ) = coord(q. Para uma computa¸c˜ ao eficiente no c´alculo do score e considerando que cada documento possa ter mais de um campo associado. A seguir ´e apresentado a fun¸c˜ao conceitual que o Lucene utiliza para caracterizar o score de um determinado documento. f ) = 1 idf (t)2 1 numT ermsF ield (3) (4) (5) (6) . Para evitar isso.getBoost() · norm(t. d) = coord-factor(q. perde-se toda a informa¸c˜ao sobre o tamanho de cada documento. ´ poss´ıvel tamb´em durante o tempo de indexa¸c˜ao especificar quais documentos E s˜ ao mais importantes que outros. score(q.d). score(q. com f representando os campos de cada documento. Esta ´e a fun¸c˜ao pr´atica. alguns componentes a mais s˜ ao calculados e da´ı uma nova fun¸c˜ao ´e derivada. V(d) e V(q) s˜ao os vetores relativos ao documento e ` a consulta respectivamente. e os usu´ arios podem futuramente ’premiar’ documentos que casem com mais termos das consultas atrav´es de um fator de coordena¸c˜ao coord-factor(q. d) · query-boost(q) · V (q).

A influˆencia do t´ıtulo e dos subt´ıtulos na recupera¸ca ˜o de documentos 4 5 Experiˆ encia O tempo de indexa¸c˜ ao da cole¸c˜ao foi de 9 horas e 20 minutos.. A seguir ´e apresentado um exemplo de consulta contida no set: Exemplo de consulta para o corpus INEX 2009 <topic id="2009007" ct_no="192"> <title> financial and social man made .. Esses pesos foram obtidos de forma aproximada dividindo o tamanho total no ´ındice do campo conte´ udo pelo campo t´ıtulo e o campo conte´ udo pelo campo de subt´ıtulos respectivamente.. o melhor valor encontrado foi de 5 para o campo de t´ıtulo e 10 para o campo de subt´ıtulos. </title> <castitle> //article[about(. quando consideradas todas as consultas e utilizando-se as diversas combina¸c˜oes de campo. </narrative> </topic> O autor n˜ ao informa sobre como as consultas s˜ao montadas. A quantidade de documentos relevantes encontrados quando a busca ´e feita apenas no campo conte´ udo foi sempre maior que em todos os outros casos. Os campos de t´ıtulo e dos subt´ıtulos das se¸c˜ oes tamb´em tiveram seus pesos associados alterados de forma a melhorar o resultado das consultas..190 documentos.//(misfortune|catastrophe|adversity). Segundo o artigo pesquisado.666.. contrariando os resultados apresentados pelo artigo pesquisado. phrasetitle e description e faz-se cada consulta considerando para cada campo a jun¸c˜ao desses n´os e utilizando o operador OR entre esses campos. o melhor resultado ´e obtido quando une-se o conte´ udo dos n´os title. Para cada consulta foram retornados no m´aximo 150 documentos. Foram indexados um total de 2. </phrasetitle> <description> find examples of major financial and social disaters and . financial and social -"natural disaster" catastrophes)] </castitle> <phrasetitle> -"natural disaster" "financial misfortune" "financial disaster" .. I have a report. </description> <narrative> I am writing an article evaluating the cost of man made disasters... O corpus veio acompanhado de um set de 115 consultas e seus respectivos julgamentos de relevˆ ancia. . Ap´os v´arias tentativas com o aux´ılio de um algoritmo autom´atico de busca e da ferramenta trec-eval foi poss´ıvel verificar que no contexto geral.

) e no artigo pesquisado (` a dir. a precis˜ao para o primeiro n´ıvel de revoca¸c˜ao foi cerca de 13% maior. Por´em. Para todos os n´ıveis de revoca¸c˜ ao as consultas tiveram precis˜ao menor. Esse resultado particular contraria totalmente as expectativas com rela¸c˜ao `a melhora dos resultados quando as consultas s˜ ao feitas de forma combinada. .1 A influˆencia do t´ıtulo e dos subt´ıtulos na recupera¸c˜ ao de documentos Compara¸ c˜ ao entre as consultas A partir da compara¸c˜ ao entre as consultas feitas apenas no campo conte´ udo em rela¸c˜ ao ` a trˆes casos em que mais de um campo ´e considerado. j´a que no experimento realizado pelo artigo pesquisado a curva de precis˜ao para ambos os casos era muito semelhante. Busca no campo conte´ udo e t´ıtulo principal Quando comparada com a busca apenas no campo conte´ udo. Figura 1. o que indica que houve pouca altera¸c˜ ao na revoca¸c˜ao enquanto na experiˆencia realizada aqui menos documentos relevantes foram retornados. al´em das curvas para os mesmos casos encontradas pelo artigo pesquisado. para os n´ıveis seguintes as consultas feitas apenas no campo conte´ udo retornaram mais documentos relevantes.6 4. Ser˜ao apresentadas as curvas de precis˜ao interpolada para cada caso. com leve vantagem no caso em que os dois campos s˜ao considerados.) Busca no campo conte´ udo e subt´ıtulos Neste caso foi poss´ıvel notar que a performance foi ainda pior quando os subt´ıtulos s˜ao considerados. J´ a no artigo pesquisado essa diferen¸ca foi de apenas ´ inte8% com vantagem para as consultas feitas considerando os dois campos. A diferen¸ca para o primeiro n´ıvel de revoca¸c˜ao foi de 16% com vantagem para o campo conte´ udo. ´e poss´ıvel ver que neste caso em que o t´ıtulo principal tamb´em ´e considerado. ser´a poss´ıvel identificar se ´e razo´ avel levar em conta os campos de t´ıtulo e subt´ıtulo. J´a na mesma experiˆencia desenvolvida no artigo pesquisado a diferen¸ca foi de cerca de 21% e ap´ os os primeiros n´ıveis de revoca¸c˜ao as curvas ficam bem pr´oximas. Precis˜ ao interpolada para o campo conte´ udo e para os campos conte´ udo e titulo na experiˆencia realizada aqui (` a esq. E ressante observar esse resultado apresentado pois o campo dos subt´ıtulos possui pouqu´ıssimos termos no ´ındice comparado ao campo do conte´ udo.

por´em j´ a a partir do segundo n´ıvel em diante a precis˜ao cai de forma consider´avel.) Busca em todos os campos J´a quando a busca ´e feita considerando os trˆes campos.) e no artigo pesquisado (` a dir. . Figura 3. No artigo pesquisado esse aumento foi de cerca de 21% e ap´os os primeiros n´ıveis de revoca¸c˜ ao as curvas parecem estar muito pr´oximas enquanto no mesmo experimento desenvolvido aqui as curvas tiveram um afastamento consider´avel havendo grande perda de precis˜ao ap´os o primeiro n´ıvel de revoca¸c˜ao.) 4. A precis˜ao no topo do ranking sempre foi maior para as consultas realizadas apenas no campo conte´ udo. Precis˜ ao interpolada para o campo conte´ udo e para os campos conte´ udo e de subt´ıtulos na experiˆencia realizada aqui (` a esq. por´em n˜ ao foi poss´ıvel alcan¸c´a-lo.) e no artigo pesquisado (` a dir. Precis˜ ao interpolada para o campo conte´ udo e para todos os campos na experiˆencia realizada aqui (` a esq. Caso valores maiores tivessem sido atingidos quando as consultas foram realizadas em mais de um campo esse seria um bom resultado. por´em eles s˜ ao interessantes do ponto de vista de m´aquinas de busca para Web e foram portanto calculados aqui.2 Valores de P@N O artigo pesquisado n˜ ao fornece estes valores para o experimento feito. a precis˜ ao para o primeiro n´ıvel de revoca¸c˜ao aumenta cerca de 8%.A influˆencia do t´ıtulo e dos subt´ıtulos na recupera¸ca ˜o de documentos 7 Figura 2.

: The impact of sections headings on the document retrieval In: 2014 Ninth International Conference on Digital Information Management (ICDIM). and Pinon.2961 0.3500 0. Valores de P@N para as consultas feitas em diversos modos Campo conte´ udo conte´ udo + t´ıtulo conte´ udo + subt´ıtulos todos os campos 5 P@5 0.2485 0.3838 0.-M. https://lucene. Mais informa¸c˜ oes sobre a forma como as consultas s˜ao estruturadas poderiam ajudar a obter resultados pr´oximos aos que s˜ao descritos no artigo pesquisado.1794 0. B. a precis˜ao pode aumentar de forma significativa pelo menos para o primeiro n´ıvel de revoca¸c˜ ao.4353 P@10 0.3147 0. O. 2.2485 Conclus˜ ao Foi poss´ıvel verificar que quando combinados os campos conte´ udo.org/core/5_4_0/ core/org/apache/lucene/search/similarities/TFIDFSimilarity. and Kazar.4441 0.8 A influˆencia do t´ıtulo e dos subt´ıtulos na recupera¸c˜ ao de documentos Tabela 2. pp.4529 0.2098 0.html .3500 0.2853 P@20 0.0 API).apache.2618 0.3368 P@15 0.3184 0. TFIDFSimilarity (Lucene 5.4. J. 128–134. Abdelli. Referˆ encias 1. t´ıtulo e subt´ıtulo apesar de n˜ ao haver uma contribui¸c˜ao para aumento de revoca¸c˜ao.