Algoritmos de Extracaode Palavras Chave

Implementao, Avaliao e Validao de Algoritmos de Extrao de PalavrasChave de Textos Cientficos em Portugus
MARCEL BRITO PEREIRA* CAROLINA F. REIS DE SOUZA* MARIA DAS GRAAS VOLPE NUNES (ORIENTADORA) Ncleo Interinstitucional de Lingstica Computacional (NILC) Instituto de Cincias Matemticas e de Computao ICMC Universidade de So Paulo So Carlos {marcelbp@grad|carol@grad|mdgvnune@.icmc.sc.usp.br}
Resumo: Palavraschaves desempenham um importante papel na indexao de documentos e, nesse cenrio, algoritmos de extrao automtica de palavraschave de documentos digitalizados tornamse bastante teis em variadas aplicaes. Este artigo apresenta os resultados de um projeto de iniciao cientfica destinado a implementar, avaliar e validar, por meio de sua utilizao numa aplicao de sumarizao automtica, alguns algoritmos de extrao de palavraschave de textos cientficos em portugus. A relevncia e originalidade desse trabalho so ressaltadas pela dependncia da lngua nesse tipo de tarefa e pela escassez de trabalhos para o portugus nessa rea. Palavras Chaves: Algoritmos de Extrao de PalavrasChave, Sumarizao Automtica.
* Bolsistas PIBICCNPq (20002001) *
A aplicao que motivou diretamente esse estudo embora no a nica a gerao automtica de sumrios (resumos) extrativos de textos em portugus. A sumarizao extrativa, ao contrrio da fundamentalista, emprega tcnicas puramente estatsticas e superficiais para a seleo de um subconjunto de sentenas do texto original que possam expressar a idia central do mesmo [Black & Johnson, 1998]. Enquanto que os mtodos fundamentais se baseiam em tcnicas sofisticadas de PLN, tendo um alto custo de projeto, os extrativos so fortemente baseados no conjunto de palavraschave associadas aos textos, e em algumas outras "pistas" simples para a seleo de informao relevante, como ser introduzido na Seo 6. Evidentemente, essa simplicidade paga um preo com a falta de coeso e coerncia do texto gerado [Sparck Jones, 1993]. Dependendo da aplicao a que se destina, no entanto, esse custo pode ser compensador. Com esse cenrio em mente, os algoritmos implementados nesse trabalho foram utilizados para a criao do SUMEX [Souza & Nunes, 2001], um ambiente de apoio anlise de heursticas de sumarizao extrativa de textos cientficos em portugus. Este artigo relata o projeto, a implementao, a anlise de desempenho de dois algoritmos de extrao de palavraschave de textos cientficos em portugus, e a aplicao de um deles na tarefa de sumarizao automtica. O primeiro, EPCP, de concepo dos autores, baseado na freqncia de determinados padres morfossintticos obtidos de um corpus de artigos cientficos, conforme discutido na Seo 3. O segundo, EPC R, uma adaptao do algoritmo concebido para o ingls, Extractor [Turney, 1997;1999], e se baseia nas freqncias de radicais, conforme discutido na Seo 4. Introduo Palavraschave (keywords ou keyphrases)1 podem ser teis em diversas aplicaes computacionais, em especial aquelas que necessitam indexar documentos para buscas posteriores. A literatura apresenta diversas tcnicas de extrao de palavraschave de textos, em sua quase totalidade aplicada lngua inglesa. Nenhum trabalho que leve em conta a lngua portuguesa foi encontrado na literatura. provvel que, no caso do portugus, o que tm sido usadas so tcnicas bastante superficiais (p.ex. as baseadas unicamente na freqncia de palavras). Tcnicas extrativas baseadas na seleo de frases do texto so consideradas simples se comparadas a tcnicas que incluem compreenso de texto (e, portanto, muito complexas), mas podem ser sofisticadas com algum conhecimento lingstico e assim alcanarem ndices razoveis de eleio de palavraschave. O trabalho apresentado aqui teve o objetivo de investigar o desempenho de dois algoritmos de extrao de palavraschave de textos em portugus, usando tcnicas extrativas simples, recursos adicionais de processamento de lngua natural (PLN), e metodologia compatvel com os trabalhos desenvolvidos para outras lnguas. A relevncia desse trabalho est menos nos resultados aqui apresentados do que no cenrio de aplicao das tcnicas estudadas: a parcela em lngua portuguesa disponvel na Web. Na Seo 2 apresentada uma metodologia de avaliao de algoritmos de extrao de palavraschave, que ser utilizada para a avaliao dos algoritmos implementados. Na Seo 5 so apresentados e analisados os resultados obtidos. A aplicao do EPCP em sumarizao automtica discutida na Seo 6, e as concluses so apresentadas na Seo 7. Avaliao de Performance de Algoritmos de Extrao de PalavrasChave A avaliao de um algoritmo de extrao de palavraschave pode ser muito subjetiva quando feita a partir da leitura e anlise do texto original, quer seja pelo autor ou por terceiros. No entanto, qualquer mtodo alternativo a esse corre o risco de ignorar critrios de relevncia altamente dependentes de significado e intenes, portanto, difceis de se obter atravs de tcnicas extrativas simples. Para minimizar esse gargalo de avaliao, optamos por aplicar os algoritmos a textos cientficos (aqui chamados de artigos), para os quais os autores usualmente fornecem um conjunto pequeno de palavraschave, e comparlo aos conjuntosresultado dos algoritmos. Evidentemente, o conjunto do autor muito reduzido, se considerarmos que em muitas aplicaes esse limite usualmente imposto pelas publicaes no relevante ou desejvel. Dessa forma, o conjunto produzido pelo algoritmo deve ser substancialmente maior do que o do autor, e a extrao de uma palavrachave que no conste da lista do autor no significa necessariamente um mau desempenho do algoritmo. J a ausncia de uma palavrachave do conjunto do autor no conjunto produzido pelo algoritmo poder indicar deficincia, desde que no ocorram outras semanticamente similares. Acrescentase a esse cenrio o fato de que nem sempre as palavraschave do autor expressam corretamente os tpicos compreendidos pelo artigo. comum que uma certa porcentagem das palavraschave 1 Palavraschave engloba, aqui, fraseschave (keyprhases), que seria o termo mais apropriado, dado que palavras
chave no so compostas necessariamente por palavras isoladas, mas sim por frases nominais ou verbais.
O EPCP no trabalha sobre o texto original, e sim sobre um texto etiquetado, onde todas as palavras onde Nome pode ser um Nome Prprio ou um Substantivo Comum. Decidimos utilizar esses padres pelo fato de os mesmos cobrirem 189 das 219 palavraschave analisadas, portanto, cerca de 86.3 %. aparecem associadas s suas categorias gramaticais (substantivo, verbo, pronome, etc.), j que necessita dessas para o casamento de padres. Dessa forma, o texto prprocessado por um etiquetador (PartofSpeech Tagger) de portugus, produzido no NILCSo Carlos [Aires et al., 2000]. O texto etiquetado percorrido em sua totalidade e so construdas seis listas, cada uma contendo todas as palavras do texto (em ordem alfabtica) que casam com um dos seis padres procurados, bem como so computados o nmero de vezes que cada uma das palavras ocorre no texto e o nmero de vezes que cada padro se repete. Paralelamente construo dessas seis listas, outras seis so construdas, uma para cada padro, sendo que nessas so inseridos somente os radicais (raiz) das palavras, isto , o morfema que comum famlia das palavras derivadas ou flexionadas a partir dele. De modo geral, um radical obtido pela extrao de eventuais sufixos e prefixos e de terminaes de uma palavra. Neste trabalho, os radicais so obtidos por meio do programa de extrao de radicais (stemmer) de Porter [Porter, 1980], verso portugus, que identifica os sufixos e prefixos, utilizandose de regras heursticas para isolar os radicais das palavras. Uma adaptao feita foi a de desconsiderar os radicais das preposies, por serem de classe fechada, ou seja, no carregarem contedo semntico. Desse modo, por exemplo, conceitos visuais em radiologia e conceitos visuais para radiologia compartilham os mesmos radicais (conceit visu radiolog, computando pelo stemmer de Porter), contando duas ocorrncias de uma mesma frase, a despeito da diferena das preposies. As seis listas de radicais so ordenadas decrescentemente do nmero de ocorrncias de cada palavra no texto, enquanto que as seis listas que contm as palavras originais continuam ordenadas alfabeticamente. Terminada a fase de construo das doze listas, criamos uma nova lista, a qual chamamos de lista1. A partir desse momento, mantido um ponteiro associado ao primeiro elemento de cada uma das seis listas de radicais; para cada um dos seis elementos analisados, dividimos o seu nmero de ocorrncias pelo nmero de ocorrncias do padro em que ele se encontra (o que chamamos de freqncia relativa); o radical que tiver a maior freqncia relativa (e que ocorrer pelo menos duas vezes no texto) ser inserido na lista1, juntamente com um marcador para indicar de qual lista ele foi retirado, avanando o ponteiro da lista que possui a palavra escolhida; repetese o processo at que a lista1 possua 50 elementos (nmero este escolhido por se mostrar suficiente para a obteno das 30 palavraschave finais, no prximo passo do algoritmo). Decidimos utilizar a freqncia relativa ao invs de simplesmente escolher a palavra que ocorre mais vezes, porque conclumos que no se pode analisar simplesmente o nmero de vezes que a palavra ocorre, sem levar em conta seu padro, j que padres como nome e nome adjetivo so mais freqentes do que padres como nome adjetivo preposio nome e nome adjetivo adjetivo, que certamente no seriam considerados se o segundo mtodo fosse utilizado. Por exemplo, este mtodo considera o fato de formao de recursos humanos aparecer sete vezes no texto ser mais relevante do que recursos humanos aparecer dez vezes, o que nos parece mais razovel. Depois de construda a lista1, uma lista2 criada e preenchida da seguinte maneira: tomase o primeiro elemento da lista que armazena os radicais do padro <<Nome>> (este elemento representaria o radical de <<Nome>> mais freqente no texto, j que esta lista encontrase ordenada decrescentemente quanto ao nmero de ocorrncias de cada um desses radicais no texto); tomase a primeira ocorrncia desse radical na lista1, se que ele ocorre na mesma (dessa forma, consideramos as primeiras palavras da lista de radicais de nomes como sendo as mais relevantes para o texto, e encontramos a melhor ocorrncia de cada um deles considerando todos os padres); inserimos o elemento encontrado na lista2, junto com o marcador que indica o padro ao qual este pertence; repetese o processo para o prximo elemento da lista de radicais de nomes, inserindo um novo radical na lista2 sempre que ele ainda no pertencer mesma, at que a lista2 tenha 30 elementos, ou que acabe a lista de radicais de nomes, o que faz com que a lista de palavraschave no tenha necessariamente trinta elementos. A lista1 poderia ser considerada a lista final de palavraschave, porm ela possui algumas imperfeies. A principal delas que acabam por coexistir nela coisas muito parecidas, que poderiam ser resumidas a apenas uma delas. Por exemplo, obtivemos na lista1, em um dos testes, as frases projeto cooperativo na Internet, participao em projetos cooperativos, projeto cooperativo. Com o mtodo utilizado para a criao da lista2, projeto cooperativo na Internet foi considerada a melhor forma em que aparece o radical projet e, portanto, a nica relevante entre as trs. Esta limpeza na lista acaba por liberar espao para que outros temas que tambm forem importantes sejam citados na lista. No caso citado anteriormente, por exemplo, participao em projetos cooperativos s seria considerada relevante pelo mtodo utilizado se a palavra participao tambm tivesse uma certa importncia no texto. S nos resta ento recuperar as palavras originais da lista2, j que ela composta apenas por radicais. Isto simples, j que, para cada elemento da lista2, temos armazenado um marcador que indica o padro com que ele casa, ou seja, a lista qual ele pertencia. Basta, ento, para cada elemento, percorrer a lista de palavras originais correspondente ao padro associado, recuperando a melhor ocorrncia desse radical na lista. Com isto, temos uma lista com at trinta palavraschave para o texto.
eleitas pelos autores dos artigos sequer aparea no texto, ou aparea com baixa freqncia, fazendo com que mtodos estatsticos baseados em freqncia de ocorrncia no consigam selecionlas. Isso pode ocorrer por vrias razes: (1) o autor pode preferir adotar como palavrachave um termo mais geral; (2) num artigo cientfico em portugus, ele opta por usar como palavrachave o termo mais conhecido em ingls, e no texto usa sua traduo; (3) o autor escolhe as palavraschave de forma usualmente subjetiva e aleatria. Mesmo sendo pouco determinsticos, no entanto, desejvel que esses critrios se traduzam em valores numricos, para uma fcil comparao. A maioria dos trabalhos similares em recuperao da informao usa as medidas complementares de preciso (precision) e recuperao (recall)2 para medir a performance de seus algoritmos. A medida de precision fornece a probabilidade de uma palavra que o programa de extrao classificou como palavrachave tambm ter sido classificada como tal pelo autor do artigo. A de recall fornece a probabilidade de uma palavra classificada como palavrachave pelo autor tambm ser classificada como tal pelo programa. Extrao Baseada em Freqncia de Padres Ao delimitarmos a lngua (portugus) e o gnero (cientfico) dos textosalvo, podemos nos concentrar em padres j estabelecidos, que podem aumentar a eficcia do mtodo de extrao. Neste primeiro mtodo, que chamamos simplesmente de EPCP (Extrator de PalavrasChave por freqncia de Padres), foi implementado um sistema que busca no texto conjuntos de palavras que casam com padres morfossintticos. Para tanto, foi necessrio compilar um corpus de textos de uma determinada rea da Cincia e definir os padres mais relevantes. O mtodo consiste, ento, em encontrar todas as frases que se encaixam nos padres, utilizamonos de mtodos estatsticos para definir, dentre estas, quais seriam as de maior relevncia, sendo essas consideradas candidatas a palavraschave do texto. A seguir, apresentamos em detalhes a fase de levantamento dos padres, assim como uma descrio verbal do algoritmo. Levantamento de Padres O corpus consistiu de 58 artigos em portugus, extrados de 12 exemplares de revistas cientficas brasileiras da rea de Computao: Revista Brasileira de Informtica na Educao (4 exemplares) e Revista Brasileira de Computao (edies antigas, em portugus, 8 exemplares). Todos os artigos do corpus tinham palavras chave associadas, e fornecidas pelos autores (em mdia 4 cada artigo; num total de 219 palavraschave). Fez se, ento, um levantamento dos padres morfossintticos (combinaes de categorias gramaticais) das palavraschave dos autores dos artigos. Ressaltase que no foi feito qualquer julgamento prvio sobre a adequao das escolhas dos autores. Nome (internet); Nome Preposio Nome (Educao distncia); Nome Adjetivo (Inteligncia Artificial); Nome Adjetivo Adjetivo ("Programao Linear Inteira"); Nome Adjetivo Preposio Nome (Ambiente telemtico de ensino); Nome Preposio Nome Adjetivo ("Desenvolvimento de atividades cooperativas). O Algoritmo EPCP 1 Extrao Baseada em Freqncia de Radicais Neste segundo mtodo, que simplesmente chamamos de EPCR (Extrator de PalavrasChave por freqncia de Radicais), procuramos nos basear no algoritmo Extractor [Turney, 1999], concebido para o ingls, que utiliza somente a freqncia de radicais no texto, no se prendendo a padres, e portanto a uma anlise morfossinttica das palavras, diferentemente do algoritmo EPCP. 1.1 Algoritmo Extractor Extractor um algoritmo de extrao de palavraschave a partir da freqncia de radicais no texto. Ele conta quantas vezes seqncias de palavras (simples, duplas ou trios) ocorrem no texto, utilizandose de mtodos estatsticos e de listas de stopwords, que so palavras irrelevantes ao processo; em geral aquelas de classes fechadas conjunes, artigos, preposies, pontuao, etc. 2 Seguindo uma tendncia da rea, usaremos os termos em ingls (precision e recall) e no suas tradues.
Extractor determina alguns dos parmetros que usa por meio de algoritmos de aprendizado de mquina. Como no era nossa inteno perseguir o mesmo caminho, decidimos utilizlos tal como aparecem, mesmo sabendo que tais valores carregam consigo uma dependncia do corpus a partir do qual foram determinados. O objetivo , posteriormente, investigar melhor o quanto sua variao influencia nos resultados produzidos pelos algoritmos para o portugus. Outros parmetros, como o que representa a posio do texto at a qual uma palavra deve ocorrer pela primeira vez, para que seja considerada relevante (first_low_thresh), e o que representa a posio a partir da qual a primeira ocorrncia de uma palavra a torna irrelevante (first_high_thresh) foram alterados, para se acomodarem melhor aos padres de tamanho dos textos em portugus. Para a obteno dos mesmos, foi realizada uma pesquisa no corpus de artigos cientficos, calculandose o tamanho mdio das introdues dos artigos, por considerar que se uma dada palavra relevante para o texto ela deve aparecer na introduo3, e chegamos aos valores: 450 e 800, respectivamente. Isso significa, portanto, que palavras relevantes tendem a ocorrer pela primeira vez at a posio 450 e que palavras que apenas ocorrem pela primeira vez aps a posio 800 podem ser consideradas irrelevantes, ou de menor relevncia. Tratamos este problema multiplicando por um fator maior que 1 a freqncia das palavras que ocorrem pela primeira vez at a posio 450 e por um fator menor que 1 a freqncia daquelas que ocorrem pela primeira vez depois da posio 800. Para as palavras cuja primeira ocorrncia entre 450 e 800, sua freqncia foi mantida inalterada. Percebese a dependncia desses valores quanto ao corpus utilizado. Outra diferena entre o Extractor e o EPCR decorre da utilizao das listas de stopwords. No EPCR, duas listas de stopwords so utilizadas para que uma considerao especial fosse feita quanto s preposies, o que ser esclarecido na prxima seo. Adicionalmente, o Extractor faz o uso de uma lista de verbos mais freqentes do ingls, a fim de reconhecer essa categoria gramatical, j que no considera etiquetas morfossintticas. Decidiuse no proceder da mesma forma para o portugus, uma vez que um algoritmo de reconhecimento morfolgico das formas verbais no seria simples e nos desviaria de nossos objetivos. Essa diferena, no entanto, teve um impacto sensvel no desempenho do EPCR. Algoritmo EPCR O texto percorrido e so construdas trs listas: a primeira contendo todas as palavras simples do texto, a segunda, todas as duplas, e a terceira, todos os trios de palavras do texto (sendo as trs listas mantidas em ordem alfabtica). As listas armazenam tambm o nmero de vezes que cada de seus elementos ocorre no texto. Duas listas de stopwords so utilizadas para o descarte de palavras irrelevantes: uma delas contm as preposies juntamente com as demais palavras sem contedo semntico (classes fechadas), e a outra diferindo apenas por no conter as preposies. Utilizamos essas duas listas para que os trios de palavras possam ter preposies como palavra do meio padro bastante freqente, como j foi observado no corpus. A idia que, por exemplo, gerenciamento de software seja uma candidata vlida, mas que o mesmo no ocorra com de software educacional. Ou seja, neste algoritmo sempre descartamos as preposies, a no ser que ocorram como ligaes entre duas palavras. Simultaneamente construo dessas trs listas, so construdas outras trs, correspondentes s listas de simples, duplas e trios, sendo que nessas so inseridos somente os radicais das palavras. Esses radicais so igualmente obtidos pelo stemmer de Porter. Para cada radical, se ele aparecer pela primeira vez antes de first_low_thresh, multiplicase sua freqncia por um valor que a valoriza (first_low_factor = 2.0). Se o radical aparecer depois de first_high_thresh, ento se multiplica sua freqncia por um valor que a desvalorize (first_high_factor = 0.65), caso contrrio, a freqncia mantida. Um outro ajuste que precisa ser feito referese ao nmero de radicais nas candidatas a palavraschave. Se a candidata tiver apenas um radical, nada feito. Se ela tiver dois radicais, valorizase a mesma multiplicandose sua freqncia por um fator maior que um. Se a palavra tiver trs radicais, multiplicamos sua freqncia por um fator ainda maior4. O efeito dessa valorizao a preferncia por sintagmas mais complexos sobre os mais simples. Ao final do processo, as listas de radicais so ordenadas na forma decrescente de freqncia, enquanto que as trs listas que contm as palavras originais continuam ordenadas alfabeticamente.
3 Uma Introduo de artigo cientfico deve fornecer o cenrio, a relevncia e os objetivos do trabalho, apontar a metodologia utilizada e adiantar sobre a natureza dos resultados obtidos [Weissberg & Buker, 1990]. 4 No Extractor, esses fatores foram aprendidos por meio de um algoritmo de aprendizado e um corpus de referncia. Neste trabalho, os valores foram arbitrariamente escolhidos como 2 e 5, respectivamente.
De forma anloga ao mtodo anterior, criase a lista1 com os 50 elementos de maior freqncia das trs listas de radicais. A lista2 ento construda da seguinte maneira: tomase o primeiro elemento da lista de radicais simples; tomase a primeira ocorrncia desse radical na lista1, se que ele ocorre na mesma (desta forma, consideramos as primeiras palavras da lista de radicais simples como sendo as mais relevantes para o texto, e encontramos a melhor ocorrncia de cada uma delas considerando todas as trs listas); inserese o radical encontrado na lista2; tomase o prximo elemento da lista de radicais simples; repetese o processo, inserindo um novo radical na lista2 sempre que ele ainda no pertencer mesma, at que a lista2 tenha trinta elementos, ou que acabe a lista de radicais simples (o que faz com que a lista de palavraschave no tenha necessariamente trinta elementos). Como no caso do EPCP, a lista1 poderia ser considerada a lista final de palavraschave, mas nela ainda podem coexistir frases redundantes. Resta ento recuperar as palavras originais da lista2, j que ela composta apenas por radicais. Isso simples, j que para cada elemento da lista2 basta contar por quantos radicais ele composto para saber a que lista ele pertencia originalmente. Com isto, temos uma lista com at trinta palavraschave para o texto. 2 Avaliao dos Algoritmos EPCP e EPCR Nessa seo, mostramos alguns exemplos da aplicao dos dois algoritmos, bem como uma anlise dos resultados apresentados. Na Tabela 1 mostramos os resultados da aplicao do EPCP e EPCR a trs textos especialmente selecionados para ilustrar alguns pontos relevantes, discutidos a seguir. Adicionalmente, mostramos a lista de palavraschave obtidas pelo software comercial WordSmith5, que consiste de um conjunto de programas integrados para manipulao de corpora, independente de lngua, em ambiente Windows, e que largamente utilizado pelos pesquisadores da rea de Lingstica de Corpus. As ferramentas do WordSmith utilizadas no experimento foram a Wordlist e a Keywords. A primeira gera listas de palavras referentes a um ou mais arquivostexto; produz a relao de freqncia de cada palavra nos textos processados e a freqncia de cada palavra em relao ao total de palavras, entre outros tipos de informaes estatsticas. Keywords, por sua vez, identifica as palavraschave realizando comparaes entre dois corpora: o que est sob investigao e um outro, maior, de referncia. Assim, comparando a freqncia de uma palavra no textoalvo com a freqncia da mesma no corpus de referncia, o programa determina se esta palavra ou no uma palavrachave. Nos testes realizados para o WordSmith, o corpus de referncia utilizado era composto pelos mesmos 18 textos utilizados no testes do EPCP e do EPCR. Na Tabela 1 so apresentados, para cada texto, os conjuntos de palavraschave gerados pelos autores, pelos algoritmos EPCP e EPCR, e pelo sistema WordSmith. Palavras e frases coincidentes com as dos autores foram grifadas. Como nos testes realizados fixamos o nmero de palavraschave a serem obtidas pelo programa em trinta (nmero este muito grande em comparao ao nmero de palavraschave elaboradas pelos autores de cada artigo), tornase irrelevante analisarmos a precision (porcentagem das palavraschave geradas pelo algoritmo que tambm so consideradas chave pelo autor), ento fizemos apenas uma anlise do recall (porcentagem das palavraschave do autor que foram encontradas pelo algoritmo). Mesmo sob a luz de parmetros bem definidos, impossvel deixar de olhar mais detalhadamente os resultados. Vemos no Texto 3, por exemplo, que, apesar dos recall atingidos por ambos os mtodos serem zero, isso ocorreu devido a fatos como: CSCL aparece apenas trs vezes no texto, Ambientes de Aprendizagem Cooperativa Apoiados por Computador tratase de uma frase muito grande para ser encontrada com exatido no se encaixa nos padres do EPCP e nem pode ser encontrada pelo EPCR, por ser uma seqncia de mais de trs palavras. Observouse, ainda, por meio da leitura do texto, que os resultados obtidos pelo algoritmo, apesar de no coincidirem com as palavraschave do autor, so bem representativos do texto. No Texto 2, vemos uma limitao do EPCR que no consegue encontrar as palavraschave do autor, j que essas possuem mais de trs palavras (design centrado no usurio, design centrado no aprendiz), apesar de chegar perto disso (encontrou centrado no usurio, processo de design). Nesse exemplo, vemos que o EPCP teve um recall de 100%.
5 http://www.liv.ac.uk/~ms2928/wordsmit.html
Texto 1 Palavraschave do autor: Educao Distncia, Sistemas MultiAgentes, Ensino Colaborativo Distncia, Internet. Palavraschave encontradas pelo EPCP (30): agentes No sistema multiagentes, mensagem de email, Aluno, ambiente telemtico de ensino, sistema Multiagentes proposto, Lista de discusso, agente do professor, Anlise das Interaes, ASSUNTOS, informao, tipo de associao, ferramentas de comunicao, banco de dados, Educao Distncia, tarefa do professor, Trabalhos Futuros, Catlica do Rio, Ensino Distncia, separao fsica, reunio de chat, conceitos de Educao, conjunto de agentes, endereo do arquivo, palavraschave prpria, participao dos alunos, Arquitetura geral do Sistema, Grande do Sul, Sala de Aula, salto de qualidade, caso do chat. Recall EPCP: 0.25 Palavraschave encontradas pelo EPCR (30): Agent, Aluno, professor, Ambiente de Ensino, COMUNICAO, Educao Distncia, Sistema MultiAgentes, Anlise das Interaes, conhecem, Ensino Distncia, 97, deve, outra, pode, ASSUNTOS, ir, Todas, dados, Lista de discusso, Colaborao, informao, Internet, Grande do Sul, mensagem de email, Sistema MultiAgentes proposto, Ambientes Telemticos, encontram em andamento, ferramentas de comunicao, dados a partir, Sala de Aula. Recall EPCR: 0.75 Palavraschave encontradas pelo WordSmith (27): Agentes, Agente, Assuntos, Newsgroup, Mensagem, Ir, Multi, Professor, Distncia, Chat, Java, Sherry, Sichman, Mail, Assunto, Sub, Url, Interaes, Lista, Coletar, Coletores, Bigus, Jat, Horstmann, Cornell, Frost, Alunos Recall WordSmith: 0.00 Texto 2 Palavraschave do autor: Design Centrado no Usurio, Design Centrado no Aprendiz, Aumento de Inteligncia. Palavraschave encontradas pelo EPCP (30): Sistemas, design centrado no usurio, processo de design, design centrado no aprendiz, necessidades dos usurios, Interfaces, Jonas, ambiente Enxuto, Computao, proposta inicial, objetivos educacionais, desenvolvimento, sistemas baseados, mecanismo de scaffolding, melhoria do modelo, abordagem, adaptao das tcnicas, construo de sistemas, dupla de funcionrios, realizao de experimentos, elemento central, funcionamento do sistema, realizao da tarefa, treinamento da fbrica, Aumento de Inteligncia, sistema especialista, folha de papel, poder computacional, sistema Enxuto, interface do software. Recall EPCP: 1.00 Palavraschave encontradas pelo EPCR (30): Sistemas, usurio, processo de design, Aprendizado, Interfaces, no, pode, Computao, base, desenvolve, proposta, DCU, objetivo, centrado no usurio, necessidades dos usurios, utiliza, funcionrios, conhece, Segundo, Tcnicas, abordagem, computacional, 990, Soloway et al., no apenas, Desta, enquanto, Aprender, construda, contexto. Recall EPCR: 0.00 Palavraschave encontradas pelo WordSmith (28): Design, Jonas, Dcu, Dca, Sistema, Fbrica, Usurios, Usurio, Scaffolding, Funcionrios, Enxuto, Soloway, Centrado, Borges, Interface, Proposta, Experimento, Baranauskas, Apoiar, Necessidades, Ai, Computacional, Nicol, Aprendiz, Manufatura, Dupla, Laurel, Human Recall WordSmith: 0.00 Texto 3 Palavraschave do autor: CSCL, Ambientes de Aprendizagem Cooperativa Apoiados por Computador. Palavraschave encontradas pelo EPCP: ambientes de aprendizagem cooperativa, Aprendizagem Cooperativa, Teorias de Aprendizagem, Tipos, Desenvolvimento, Interao social, Atividades, tarefas cooperativas, construo de conhecimento, processos mentais, estudantes, aquisio de conhecimento, Domnios, forma, membros do grupo, objetivo, perspectiva, Aspectos, Computador, Modelos de Cooperao, trabalho, reas, desenvolvimento cognitivo, Cognio, comportamento, comunidade, contexto, elaborao, Framework, indivduos. Recall EPCP: 0.00 Palavraschave encontradas pelo EPCR: Aprendizagem, Ambiente, Aprendizagem Cooperativa, conhecer, estudantes, Outras, Atividades, pode, Desenvolvimento, grupo, Interao, objetivo, No, forma, Tarefa, processo, Cognitiva, Dados, Trabalho, Memria de grupo, relacionada, Aprendiz, Desta, Framework, informao, Perspectivas, sobre, Estudo, diferente, problema. Recall EPCR: 0.00 PalavrasChave Encontradas Pelo Wordsmith: 26 Informtica, Rede, Municipal, Recife, Secretaria, Educao, Ufpe, Especializao, Programa, Na, rea, Capacitao, Ncleos, Profissionais, Telemtica, Escolas, Implantao, Pernambuco, Da, Proinfo, Ensino, Sette, Aguiar, Poltica, Formao, Docentes Recall WordSmith: 0.00
Analisando os resultados do Texto 1, vemos que o EPCR teve um recall melhor, ou seja, encontrou mais palavraschave do autor do que o EPCP, porm, o EPCR encontrou tambm muitas palavras sem importncia, como 97, deve, outra, pode, entre outras. O EPCP, por sua vez, manteve suas palavraschave mais prximas ao tema central do texto e s palavraschave do autor. Atribumos isso ao fato de o EPCP estar preso a padres morfossintticos, evitando, por exemplo, considerar relevantes verbos e numerais. Consideramos, portanto, que, se por um lado isso bom para o EPCP, j que faz com que quase toda sua lista de palavraschave seja composta por palavras bem estruturadas (ao contrrio do EPCR), por outro lado ruim, j que faz com que o mtodo no encontre algumas palavras importantes por no casarem com os padres. Comparando os resultados obtidos pelos dois mtodos com os obtidos pelo WordSmith, podemos observar que este ltimo apresenta um desempenho limitado, j que s leva em conta a freqncia de palavras simples no texto. Outras deficincias apresentadas pelo WordSmith em relao aos mtodos desenvolvidos seriam: (1) a falta de relevncia quanto ao radical das palavras, gerando avaliaes separadas para palavras que derivam do mesmo radical (o que pode ser visto, por exemplo, no Texto 1, onde so consideradas palavraschave tanto Agentes como Agente); (2) necessita realizar comparaes entre dois corpora: o que est sob investigao e um outro, maior, de referncia, dependendo assim de um corpora de referncia bem relacionado ao que est sendo investigado, para sejam geradas palavraschave mais significativas, possuindo maior complexidade computacional. Em vista de todos esses dados, consideramos os resultados dos mtodos desenvolvidos mais representativos do que os obtidos pelo WordSmith. No total, foram testados 18 textos utilizando os dois mtodos desenvolvidos. O EPCP obteve um recall de 22.08%, ou seja, encontrou com exatido 22.08% das palavraschave dos autores, enquanto que o EPCR teve um desempenho ligeiramente superior, obtendo um recall de 24.68%. Definimos "encontrar a palavrachave do autor com exatido" como sendo "o radical da palavra encontrada coincide com o radical da palavra dada como chave pelo autor". Essa limitao torna esse tipo de anlise do desempenho do algoritmo menos eficiente do que uma anlise mais subjetiva, pois no faz nenhuma considerao quanto a sinnimos ou expresses de significado semelhante. Verificamos ainda que 70.58% das palavraschave geradas pelo EPCP, que correspondiam a alguma palavrachave do autor, estavam entre as 10 consideradas mais relevantes pelo algoritmo, enquanto que apenas 17.64% estavam entre as 15 consideradas menos relevantes (ltimas da lista). J no caso do EPCR, verificamos que 68.42% das palavraschave geradas que correspondiam a alguma palavrachave do autor estavam entre as 10 consideradas mais relevantes pelo algoritmo, enquanto que 21.05% estavam entre as 15 consideradas menos relevantes. importante notar que a escolha do mtodo de extrao de palavraschave deve levar em conta o objetivo final da aplicao. Seria mais importante utilizar um mtodo de extrao com alto recall ou um que gerasse palavraschave mais representativas, mesmo sendo distintas das do autor? (vale notar que em muitas aplicaes essa informao nem estar disponvel). Segundo nossa avaliao, no cenrio de sumarizao extrativa, o EPCP mostrouse mais eficiente, uma vez que quase a totalidade das palavras geradas possui um bom valor representativo, segundo uma anlise absoluta, ou seja, no considerando o texto original, mas o grau de informao que elas carregam consigo. Podemos justificar melhor esta escolha de uma maneira simples: suponha que vamos utilizar os dois mtodos desenvolvidos para criar um sumrio do Texto 1 e que para tanto utilizamos a estratgia de incluir no sumrio todas as sentenas que possuam uma das palavras consideradas chave. Vemos que no sumrio gerado utilizando o EPCR, muitas sentenas seriam inseridas graas ao fato de conterem palavras que, apesar de serem consideradas chave pelo algoritmo, no carregam nenhum contedo semntico ou idia importante para o texto, como : conhecem, 97, deve, outra, pode, ir, Todas, encontram em andamento e dados a partir. J no sumrio gerado utilizando o EPCP, isso no ocorreria, j que as palavraschave geradas por este mtodo se encontram presas a padres. Devese lembrar que um bom gerador de palavras chave para um programa de sumarizao seria aquele que elege palavras que carregam um maior contedo semntico, estando mais prximas aos tpicos discutidos no texto, e no necessariamente as palavraschave do autor.
Tabela 1 Resultados de Trs Textos
Validao do EPCP na Sumarizao Automtica Uma vez tendo se mostrado ligeiramente superior na avaliao feita para a aplicao em questo, o algoritmo EPCP foi empregado na implementao de um sistema de sumarizao automtica extrativa (SUMEX) de artigos cientficos em portugus [Souza & Nunes, 2001]. Essa experincia, alm de contribuir para a avaliao de tcnicas de sumarizao extrativa, teve o papel de validar a proposta do algoritmo de extrao de palavras chave. A sumarizao automtica extrativa consiste da extrao de sentenas relevantes do textofonte para a formao de um sumrio ou resumo. Uma das principais vantagens das tcnicas extrativas sua simplicidade e, portanto, seu baixo custo na gerao do resultado. As palavraschave tm um papel fundamental nessas tcnicas pois servem como indexadoras de sentenas significativas: todas as sentenas que contiverem essas palavras, so selecionadas para o sumrio. Apesar da simplicidade do mtodo, ou mesmo por causa dela, no foram encontrados, na literatura, trabalhos experimentais com a lngua portuguesa, o que torna este trabalho relevante. As dificuldades dos mtodos extrativos esto na falta de garantia de que o sumrio gerado tenha (a) uma boa textualidade, ou seja, seja coeso e coerente, e (b) uma boa proximidade, ou seja, se preserva a idia principal do textofonte [Martins et al., 2001]. Tanto o EPCP quanto o EPCR foram avaliados no cenrio do SUMEX, e aps uma anlise dos resultados, concluiuse que, para a sumarizao automtica, o EPCP gera palavraschave mais significativas. Dessa forma, esse algoritmo foi escolhido para o teste de algumas estratgias de sumarizao, descritas a seguir. O SUMEX extrai, atravs do stemmer, os radicais das palavraschave encontradas pelo EPCP e estes sero utilizados para a seleo de sentenas para o sumrio. Ou seja, os radicais das palavraschave que sero as palavraschave propriamente ditas. Por exemplo, se a palavra educao selecionada como palavrachave, o seu radical educ ser utilizado pelo sumarizador como palavrachave na extrao de sentenas. Portanto, todas as sentenas que contiverem alguma palavra cujo radical tambm seja educ, sero selecionadas para o sumrio. De certa forma, ele desfaz o passo do EPCP que parte dos radicais recuperar as palavras originais. Todas as estratgias de seleo de sentenas so baseadas nas palavraschave, e so elas: Estratgia 1: Palavraschaves Nessa tcnica, sero selecionadas todas as sentenas que contiverem alguma palavrachave gerada pelo EPCP. Estratgia 2: Palavraschaves + Localizao Alm de selecionar as sentenas com alguma palavrachave, sero adicionadas ao sumrio a primeira e a ltima frase de cada pargrafo. Estratgia 3: Palavraschaves + Sinalizadoras Seleciona sentenas com palavraschave e sentenas que possuem alguma das frases sinalizadoras abaixo (dependentes do gnero do texto): objetivo, resultado, neste artigo, este artigo, neste texto, este texto, a concluso, as concluses, neste trabalho, este trabalho. Essas palavras foram escolhidas pois foi observado que normalmente elas esto presentes em frases com contedo explicativo, indicando algo importante sobre o texto. Estratgia 4: Palavraschave do Autor Nesta tcnica, simplesmente sero utilizadas como palavraschave as palavras que o usurio fornecer ao programa, podendo assim selecionar as palavraschave do prprio autor do texto para analisar o sumrio resultante. A avaliao do SUMEX foi feita utilizandose 18 artigos cientficos de computao extrados da Revista Brasileira de Informtica na Educao e dos anais do Simpsio Brasileiro de Informtica na Educao (1998), e foram gerados sumrios apenas da introduo dos artigos. Gerouse um sumrio para cada uma das 4 estratgias de sumarizao e tambm por meio da ferramenta AutoResumo, do Word/Portugus da Microsoft (neste, com percentual de sumarizao fixado em 25%). Foram feitas, por um leitor humano, comparativamente ao textofonte, anlises da textualidade (Tabela 3) e da proximidade de cada sumrio. Utilizouse cinco palavraschave para todas as estratgias
Estratgia 1
Texto 1 Texto 2 Texto 3 Texto 4 Texto 5 Texto 6 Texto 7 Texto 8 Texto 9 Texto 10 Texto 11 Texto 12 Texto 13 Texto 14 Texto 15 Texto 16 Texto 17 Texto 18 25 20 0 100 50 57.1 14.3 8.3 0 83.3 0 0 7.1 25 0 25 0 0 Estratgia 2 0 11.7 0 0 0 0 0 0 9.1 25 18 0 0 0 0 25 0 20 Estratgia 3 40 8.3 0 16.6 71.4 57.1 14.3 7.6 14.2 87.5 20 0 7.1 25 0 25 0 20 Estratgia 4 100 33.3 0 25 100 100 25 100 0 0 20 0 100 50 0 25 0 0
Auto Resumo 33.3 42.8 0 0 42.8 0 25 50 55.5 100 25 100 40 0 50 0 0 100
Tabela 3 Percentual (%) de erros de Coeso e Coerncia (nmero de sentenas problemticas / nmero total de sentenas do sumrio)
Analisandose os dados da Tabela 3, observase que a estratgia que apresentou menor percentual mdio foi a Estratgia 2. Isto ocorre pois o sumrio resultante praticamente o texto original, portanto, praticamente no apresenta erros de coeso e coerncia (em mdia o sumrio menor que o textofonte em menos que 30%). As estratgias 1 e 3 apresentaram resultados razoveis; poucos textos apresentaram alto percentual de erros. A maioria dos sumrios resultantes do AutoResumo do Word apresenta erros de coeso e coerncia, mas poucos so os completamente incoerentes. Na estratgia 4, 27.7% dos textos resultaram completamente incoerentes (obtendo o pior resultado entre todas as estratgias) evidenciando que muitas vezes as palavras chave do autor no so suficientes para a gerao extrativa de um bom sumrio. Quanto proximidade, ou seja, preservao da idia principal, a anlise revelou que 100% dos sumrios gerados pela estratgia 2, 77% dos gerados pela estratgia 1, 83% dos gerados pela estratgia 3, 55% dos gerados pela estratgia 4 e 61% dos gerados pelo AutoResumo preservaram a idia principal. De um modo geral, a estratgia que apresentou melhores resultados relativos foi a Estratgia 1, aquela que considera apenas as palavraschave geradas pelo algoritmo EPCP. Interessante notar, portanto: (a) quo pouco informativas so as heursticas envolvendo localizao e palavras sinalizadoras; (b) a insuficincia do conjunto de palavraschave do autor em muitos casos; e (c) a relevncia da tarefa de extrao automtica de palavraschave para a aplicao de sumarizao automtica. Concluses e Trabalhos Futuros Neste artigo foram discutidos a implementao, a anlise e o experimento de validao de algoritmos de extrao de palavraschave de textos em portugus, utilizando tcnicas extrativas simples. O primeiro algoritmo (EPCP) faz uma anlise da freqncia de determinados padres morfossintticos no texto para decidir quais palavras podem ser utilizadas para representar o tema central do mesmo. Um dos problemas encontrados na sua utilizao foi que, por estar preso aos padres, acaba por no encontrar outras construes interessantes. Um lado positivo de sua utilizao foi que, tambm por estar preso aos padres, acaba desconsiderando coisas que certamente no tm importncia alguma, como verbos, numerais e pronomes. Uma perspectiva para a sua melhoria seria a utilizao de mais padres, ou de recursos para verificao de sinnimos, como um thesaurus. O segundo algoritmo (EPCR) faz uma anlise da freqncia de radicais (simples, duplas ou trios) no texto, em detrimento utilizao de padres. Um dos problemas encontrados em sua utilizao foi o fato de
ele estar preso busca de, no mximo, trio de radicais. Outro provm do fato de ele no estar preso aos padres, acabando por considerar relevantes algumas coisas que deveriam ser descartas, tendo o foco principal deste problema nos verbos. Porm, assim como no outro algoritmo, o fato de ele no estar preso a padres tem o seu lado positivo, pois isso fornece a ele uma variedade maior das palavras a serem geradas. Uma perspectiva para a sua melhoria seria a possibilidade de busca de uma maior seqncia de radicais, assim como a utilizao de outras tcnicas adicionais, como a verificao de verbos, numerais, pronomes, alm da verificao de sinnimos. Esse trabalho mostrou a relao direta entre a eficcia do algoritmo de extrao de palavraschave e a eficcia do mtodo de sumarizao automtica extrativa. Outras aplicaes devem igualmente depender de bons extratores de palavraschave, notadamente os sistemas de busca de documentos na chamada Web semntica. Considerando a urgncia da tarefa de se criar aplicaes dedicadas lngua portuguesa, ferramentas como as ilustradas aqui devem ser exploradas em maior escala, num prazo bastante curto. Referncias Bibliogrficas [Aires et al., 2000] Aires, Rachel V.X.; Alusio, S. M.; Kuhn, D. C. S.; Andreeta, M. L. B.; Oliveira Jr., O. N. Combining Multiple Classifiers to Improve Part of Speech Tagging: A Case Study for Brazilian Portuguese. (SBIA2000) Atibaia, SP, November, 2022, 2000. [Black & Johnson, 1998] Black, W.J. & Johnson, F.C. Expert Systems for Information Management: a Practical Evaluation of TwoBased Automatic Abstraction Techniques. Department of Computaion. University of Manchester Institute of Science and Technology 1(3), 1998. [Martins et al., 2001] Martins, C.B.; Pardo, T.A.S., Espina, A.P.; Rino, L.H.M. Introduo Sumarizao Automtica. RTDC 002/2001, Departamento de Computao, UFSCAr, Abril, 2001, 38p. [Porter, 1980] Porter, M. F. An algorithm for suffix stripping. Program, 14(3):130137, 1980. [Souza & Nunes, 2001] Souza, C. F. R. & Nunes, M. G. V. Nunes. Algoritmos de Sumarizao Extrativa de Textos em Portugus. Relatrios Tcnicos do ICMCUSP. Setembro, 2001. [Spark Jones, 1993] Spark Jones, Karen. Discourse Modelling for Automatic Summarising. Tecnhical Report 290, University of Cambrige, 1993. [Turney, 1999] Turney, Peter. Learning to Extract Keyphrases from Text, Tech. Report Number NRC41622, National Research Council Canada, Institute for Information Technology, 1999. [Turney, 1997] Turney, Peter. Extraction of keyphrases from text:Evaluation of four algorithms. Technical report, Institute for Information Technology, 1997. [Weissberg & Buker, 1990] Weissberg, R.; Buker, S. Writing up Research: Experimental Research Report Writing for Students of English. Prentice Hall, New Jersey, 1990.

Algoritmos de Extracaode Palavras Chave

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Algoritmos de Extracaode Palavras Chave

Uploaded by

Copyright:

Available Formats

Implementao, Avaliao e Validao de Algoritmos de Extrao de PalavrasChave de Textos Cientficos em Portugus

* Bolsistas PIBICCNPq (20002001) *

Auto Resumo 33.3 42.8 0 0 42.8 0 25 50 55.5 100 25 100 40 0 50 0 0 100

You might also like