You are on page 1of 148

Organizao flexvel de documentos

Tatiane Nogueira Rios


SERVIO DE PS-GRADUAO DO ICMC-USP

Data de Depsito:

Assinatura:________________________
______

Organizao flexvel de documentos

Tatiane Nogueira Rios

Orientadora: Profa. Dra. Solange Oliveira Rezende


Coorientadora: Profa. Dra. Heloisa de Arruda Camargo

Tese apresentada ao Instituto de Cincias Matemticas


e de Computao - ICMC-USP, como parte dos
requisitos para obteno do ttulo de Doutor em
Cincias - Cincias de Computao e Matemtica
Computacional. VERSO REVISADA.

USP So Carlos
Abril 2013
Ficha catalogrfica elaborada pela Biblioteca Prof. Achille Bassi
e Seo Tcnica de Informtica, ICMC/USP,
com os dados fornecidos pelo(a) autor(a)

Rios, Tatiane Nogueira


R586o Organizao flexvel de documentos / Tatiane
Nogueira Rios; orientadora Solange Oliveira Rezende;
co-orientadora Heloisa de Arruda Camargo. -- So
Carlos, 2013.
128 p.

Tese (Doutorado - Programa de Ps-Graduao em


Cincias de Computao e Matemtica Computacional) --
Instituto de Cincias Matemticas e de Computao,
Universidade de So Paulo, 2013.

1. Minerao de textos. 2. Agrupamento fuzzy. 3.


Agrupamento de documentos. 4. Organizao de
documentos. I. Rezende, Solange Oliveira, orient.
II. Camargo, Heloisa de Arruda, co-orient. III.
Ttulo.
Agradecimentos

Aps quatro anos de muito estudo e trabalho, chegou o momento da defesa de douto-
rado. Em mais um momento importante da minha vida, eu no posso deixar de agradecer
todos aqueles que de alguma forma participaram desta jornada, pois nada disso teria
sido possvel sem o apoio advindo do carinho da famlia, dos amigos e dos colegas de
prosso.

Em primeiro lugar, agradeo a Deus, porque creio que Ele sempre est no controle de
tudo.

Ao meu amado esposo, Ricardo, que sempre me estimula a crescer cientca e pessoal-
mente. Agradeo ele, por ser o pilar de sustentao da minha vida pessoal e prossional
com seu inestimvel apoio que preenche as minhas diversas falhas. Sua pacincia e com-
preenso foram to importantes quanto as pesquisas que resultaram diretamente nesta
tese.

minha querida lha, Marina, minha grande companheira na nalizao deste tra-
balho, porque ela j me faz uma pessoa mais otimista e feliz.

Aos meus pais e irmos, Valdeci, Dilzete, Tiago e Rodrigo, pelo incansvel amor, apoio
e carinho que ultrapassam distncias e me fazem mais forte a cada dia.

famlia que Deus me deu de presente, Robrio, Josinha, Gustavo, Bel, Joyce e Eva,
por sempre conarem no meu potencial. eles o meu eterno carinho.

Solange, por sua orientao e amizade. Sem a sua colaborao e persistncia, no


teria sido possvel concluir esta tese.

Heloisa, por sua orientao segura e sua serenidade que sempre me serviro como
exemplo.

Ao Dr. Enrique Herrera-Viedma, por sua orientao e apoio no perodo em que realizei
pesquisas na Universidade de Granada, em Granada - Espanha.

Ao Dr. Pierre Pluye, por sua orientao e apoio no perodo em que realizei pesquisas
na Universidade McGill, em Montreal-Canad.

Aos colegas e amigos do Labic, agradeo pela amizade, disponibilidade e pelas trocas
vivenciadas.

Aos amigos do CIG, agradeo pela amizade, pelo companheirismo e pelas divertidas
reunies que me encheram de otimismo.

Aos amigos espalhados pelo mundo que o doutorado me deu a oportunidade de conhe-
cer. Aos amigos de Montreal-Canad, Pedro, Tay, Aninha, Leo, Naty, Lucas, os pequenos
Tho e Sophie, Janique, David, Dr. Grad, Mme Marrie, Mme Yanick, Mme Nacera,
Afshin, Roza, Ali, Maria e todos os outros colegas que animaram as aulas de francs. Aos
amigos de Granada-Espanha, Prof. Francisco Herrera, Michela, Mara, Manolo, Luisa,
Jorge, Mati, Joaquim, Victoria, Alvaro e Isaac. Aos amigos de Hong Kong-China, Rouxi,
Arisa, Asako, Naoko e Chano, que partiu mas deixou grandes recordaes.

i
Aos professores de ingls, Marcos, Anand, Fernanda, Marika e Peter, que me mostra-
ram que a lngua ultrapassa barreiras e me auxiliaram para que este trabalho fosse ainda
mais longe.
Aos amigos do Brasil, os que z durante o doutorado e aqueles que a amizade foi
fortalecida nesse perodo.
Ao Santander pelo suporte nanceiro na Espanha.
CAPES pelo suporte nanceiro no Brasil e no exterior.
E, por m, mas no menos importante, todos aqueles que no tem os seus nomes
citados aqui, mas que de alguma forma estiveram comigo durante este perodo.
Resumo

Diversos mtodos tm sido desenvolvidos para a organizao da crescente quantidade

de documentos textuais. Esses mtodos frequentemente fazem uso de algoritmos de agru-

pamento para organizar documentos que referem-se a um mesmo assunto em um mesmo

grupo, supondo que contedos de documentos de um mesmo grupo so similares. Porm,

existe a possibilidade de que documentos pertencentes a grupos distintos tambm apresen-

tem caractersticas semelhantes. Considerando esta situao, h a necessidade de desen-

volver mtodos que possibilitem a organizao exvel de documentos, ou seja, mtodos

que possibilitem que documentos sejam organizados em diferentes grupos com diferentes

graus de compatibilidade. O agrupamento fuzzy de documentos textuais apresenta-se

como uma tcnica adequada para este tipo de organizao, uma vez que algoritmos de

agrupamento fuzzy consideram que um mesmo documento pode ser compatvel com mais

de um grupo. Embora tem-se desenvolvido algoritmos de agrupamento fuzzy que possi-

bilitam a organizao exvel de documentos, tal organizao avaliada em termos do

desempenho do agrupamento de documentos. No entanto, considerando que grupos de

documentos devem possuir descritores que identiquem adequadamente os tpicos re-

presentados pelos mesmos, de maneira geral os descritores de grupos tem sido extrados

utilizando alguma heurstica sobre um conjunto pequeno de documentos, realizando as-

sim, uma avaliao simples sobre o signicado dos grupos extrados. No entanto, uma

apropriada extrao e avaliao de descritores de grupos importante porque os mesmos

so termos representantes da coleo que identicam os tpicos abordados nos documen-

tos. Portanto, em aplicaes em que o agrupamento fuzzy utilizado para a organizao

exvel de documentos, uma descrio apropriada dos grupos obtidos to importante

quanto um bom agrupamento, uma vez que, neste tipo de agrupamento, um mesmo des-

critor pode indicar o contedo de mais de um grupo. Essa necessidade motivou esta tese,

cujo objetivo foi investigar e desenvolver mtodos para a extrao de descritores de grupos

fuzzy para a organizao exvel de documentos. Para cumprir esse objetivo desenvolveu-

se: i) o mtodo SoftO-FDCL ( Soft Organization - Fuzzy Description Comes Last ), pelo
qual descritores de grupos fuzzy at so extrados aps o processo de agrupamento fuzzy,

visando identicar tpicos da organizao exvel de documentos independentemente do

iii
algoritmo de agrupamento fuzzy utilizado; ii) o mtodo SoftO-wFDCL ( Soft Organization
- weighted Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy at tam-
bm so extrados aps o processo de agrupamento fuzzy utilizando o grau de pertinncia

dos documentos em cada grupo, obtidos do agrupamento fuzzy, como fator de pondera-

o dos termos candidatos a descritores; iii) o mtodo HSoftO-FDCL ( Hierarchical Soft


Organization - Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy hi-
errquicos so extrados aps o processo de agrupamento hierrquico fuzzy, identicando

tpicos da organizao hierrquica exvel de documentos. Adicionalmente, apresenta-se

nesta tese uma aplicao do mtodo SoftO-FDCL no contexto do programa de educa-

o mdica continuada canadense, reforando a utilidade e aplicabilidade da organizao

exvel de documentos.
Abstract

Several methods have been developed to organize the growing number of textual do-

cuments. Such methods frequently use clustering algorithms to organize documents with

similar topics into clusters. However, there are situations when documents of dierent

clusters can also have similar characteristics. In order to overcome this drawback, it is

necessary to develop methods that permit a soft document organization, i.e., clustering

documents into dierent clusters according to dierent compatibility degrees. Among the

techniques that we can use to develop methods in this sense, we highlight fuzzy clustering

algorithms (FCA). By using FCA, one of the most important steps is the evaluation of the

yield organization, which is performed considering that all analyzed topics are adequately

identied by cluster descriptors. In general, cluster descriptors are extracted using some

heuristic over a small number of documents. The adequate extraction and evaluation of

cluster descriptors is important because they are terms that represent the collection and

identify the topics of the documents. Therefore, an adequate description of the obtained

clusters is as important as a good clustering, since the same descriptor might identify

one or more clusters. Hence, the development of methods to extract descriptors from

fuzzy clusters obtained for soft organization of documents motivated this thesis. Aiming

at investigating such methods, we developed: i) the SoftO-FDCL (Soft Organization -

Fuzzy Description Comes Last) method, in which descriptors of fuzzy clusters are extrac-

ted after clustering documents, identifying topics regardless the adopted fuzzy clustering

algorithm; ii) the SoftO-wFDCL (Soft Organization - weighted Fuzzy Description Comes

Last) method, in which descriptors of fuzzy clusters are also extracted after the fuzzy clus-

tering process using the membership degrees of the documents as a weighted factor for

the candidate descriptors; iii) the HSoftO-FDCL (Hierarchical Soft Organization - Fuzzy

Description Comes Last) method, in which descriptors of hierarchical fuzzy clusters are

extracted after the hierarchical fuzzy clustering process, identifying topics by means of a

soft hierarchical organization of documents. Besides presenting these new methods, this

thesis also discusses the application of the SoftO-FDCL method on documents produ-

ced by the Canadian continuing medical education program, presenting the utility and

applicability of the soft organization of documents in real-world scenario.

v
Sumrio

Lista de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix

Lista de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi

Notao Matemtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv

1 Introduo 1
1.1 Motivao, hiptese e objetivo . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Contribuies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Organizao da tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Fundamentos da Organizao de Documentos 7


2.1 Consideraes iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Agrupamento de documentos . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2.1 Agrupamento fuzzy de documentos . . . . . . . . . . . . . . . . . . 10

2.2.2 Algoritmo de agrupamento Fuzzy C-Means . . . . . . . . . . . . . . 10

2.2.3 Algoritmo de agrupamento Possibilstico C-Means . . . . . . . . . . 13

2.2.4 Algoritmo de agrupamento Hierrquico Fuzzy C-Means . . . . . . . 14

2.2.5 Validao de agrupamento fuzzy . . . . . . . . . . . . . . . . . . . . 17

2.3 Extrao de descritores de grupos . . . . . . . . . . . . . . . . . . . . . . . 19

2.4 Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Abordagem para Organizao Flexvel de Documentos 27


3.1 Consideraes iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2 Contextualizao do problema . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.3 Exploraes preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3.1 Gerao de regras fuzzy para classicao de documentos . . . . . . 31

3.3.2 Recuperao de informao por meio de regras fuzzy . . . . . . . . 35

3.4 Uma Abordagem Proposta para Organizao exvel de documentos . . . . 37

3.4.1 Trabalhos relacionados organizao exvel de documentos . . . . 38

3.4.2 Mtodos propostos para extrao de descritores de grupos fuzzy . . 40

3.5 Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

vii
4 Mtodos Propostos para Extrao de Descritores de Grupos na Orga-
nizao Flexvel de Documentos 43
4.1 Consideraes iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2 O mtodo SoftO-FDCL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.3 O mtodo SoftO-wFDCL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.4 O mtodo HSoftO-FDCL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.5 Avaliao dos mtodos propostos . . . . . . . . . . . . . . . . . . . . . . . 52

4.5.1 Colees de documentos utilizados na avaliao dos mtodos propostos 53

4.5.2 Pr-processamento dos documentos utilizados na avaliao dos m-

todos propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.5.3 Algoritmos de classicao utilizados na avaliao dos mtodos pro-

postos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.5.4 Avaliao do mtodo SoftO-FDCL . . . . . . . . . . . . . . . . . . . 57

4.5.5 Avaliao do mtodo SoftO-wFDCL . . . . . . . . . . . . . . . . . . 71

4.5.6 Avaliao do mtodo HSoftO-FDCL . . . . . . . . . . . . . . . . . . 74

4.6 Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5 Aplicao do Mtodo SoftO-FDCL: organizao exvel de comentrios


de mdicos de famlia sobre um processo de avaliao da educao m-
dica continuada canadense 81
5.1 Consideraes iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

5.2 Seleo manual de comentrios construtivos . . . . . . . . . . . . . . . . . 85

5.3 Identicao automtica de comentrios . . . . . . . . . . . . . . . . . . . 86

5.4 Resultados obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.5 Consideraes nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

6 Concluses 95
6.1 Resumo das contribuies . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.2 Publicaes provenientes deste doutorado . . . . . . . . . . . . . . . . . . . 98

6.3 Parcerias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6.4 Limitaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6.5 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

Referncias Bibliogrcas 115


A Classicao de Documentos Utilizando Regras Fuzzy 117
B Estratgia de matching para Recuperao Flexvel de Documentos 125
Lista de Figuras

2.1 Posio dos documentos d 1 e d 1 com relao aos grupos A1 e A2 (Adaptado


de Oliveira e Pedrycz (2007)) . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2 Agrupamento hierrquico fuzzy obtido da execuo do algoritmo HFCM

(Adaptado de Pedrycz (1996)) . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Abordagem DCF (Description Comes First ) . . . . . . . . . . . . . . . . . 21

2.4 Abordagem DCL (Description Comes Last ) . . . . . . . . . . . . . . . . . 21

3.1 Nveis de um Sistema de Recuperao de Informao . . . . . . . . . . . . 29

3.2 Exemplo de Organizao Flexvel com trs grupos . . . . . . . . . . . . . . 30

3.3 Nvel de representao de documentos em um SRI . . . . . . . . . . . . . . 31

3.4 Nvel de organizao de documentos em um SRI . . . . . . . . . . . . . . . 34

3.5 Nvel de recuperao de documentos em um SRI . . . . . . . . . . . . . . . 36

3.6 Contextualizao da abordagem proposta para organizao exvel no nvel

da organizao de um SRI . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.1 Agrupamento fuzzy hierrquico . . . . . . . . . . . . . . . . . . . . . . . . 49

4.2 Frequncia de 50 descritores nos sumrios dos documentos que possuem

grau de pertinncia no grupo representado por um grco maior ou igual

ao limiar =0,25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.3 Organizao exvel hierrquica de documentos da coleo Opinosis . . . . 75

4.4 Viso Parcial da Organizao exvel hierrquica de documentos da coleo

Opinosis - observao da especializao/generalizao dos tpicos identi-

cados por descritores de grupos . . . . . . . . . . . . . . . . . . . . . . . . 76

4.5 Exemplo de hierarquia fuzzy com cinco documentos . . . . . . . . . . . . . 76

5.1 Exemplo de email enviado para um mdico de famlia canadense sobre um

e-Therapeutics+ Highlight . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.2 Exemplo de um e-Therapeutics+ Highlight. O trecho destacado em verde

corresponde a um Highlight . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.3 Questionrio IAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

ix
5.4 Frequncia dos descritores obtidos da aplicao do mtodo SoftO-FDCL

sobre a coleo all-2011 nas colees cfb-2011 e ncfb-2011 . . . . . . . . . 89

5.5 Frequncia dos descritores obtidos da aplicao do mtodo SoftO-FDCL

sobre a coleo all-2012 nas colees cfb-2012 e ncfb-2012 . . . . . . . . . 91

A.1 Mtodo fuzzy para classicao de documentos . . . . . . . . . . . . . . . . 117

A.2 Varivel lingustica G1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

A.3 Inuncia da quantidade de termos no desempenho da classicao obtida

pelo mtodo proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

A.4 Inuncia da quantidade de termos no desempenho da classicao pelo

mtodo proposto e pelos mtodos KNN, J48, Naive Bayes e OneR . . . . . 123

A.5 Resultados obtidos pela mudana na frequncia mnima . . . . . . . . . . . 124

B.1 Funo de pertinncia da palavra-chave 1 . . . . . . . . . . . . . . . . . . 127


Lista de Tabelas

2.1 Exemplo de matriz documentos-termos de uma coleo de 3 documentos . 8

2.2 Exemplo de matriz documentos-grupos de uma coleo de 3 documentos . 11

2.3 Mtodos de extrao de descritores de grupos . . . . . . . . . . . . . . . . 22

4.1 Matriz de contingncia do termo tj para o grupo gl para as medidas de

Recuperao de Informao utilizadas pelo mtodo SoftO-FDCL . . . . . . 45

4.2 Matriz de contingncia para as medidas de Recuperao de Informao

utilizadas pelo mtodo SoftO-wFDCL . . . . . . . . . . . . . . . . . . . . . 47

4.3 Matriz de contingncia do termo tj para o grupo glu para as medidas de

Recuperao de Informao utilizadas pelo mtodo HSoftO-FDCL . . . . . 50

4.4 Colees de documentos utilizadas nos experimentos . . . . . . . . . . . . . 53

4.5 Sumrios escritos por humanos sobre o documento  battery life of the ama-
zon kindle  da coleo opinosis . . . . . . . . . . . . . . . . . . . . . . . . 54

4.6 Vinte descritores com maior valor de f 1 obtidos pelo mtodo SoftO-FDCL
para cada grupo da coleo Opinosis . . . . . . . . . . . . . . . . . . . . . 59

4.7 Taxas de acerto obtidas pelos algoritmos de classicao utilizando os des-

critores extrados pelos mtodos Centroide e SoftO-FDCL . . . . . . . . . . 59

4.8 Organizao exvel da coleo Opinosis representada no formato documentos-

grupos obtida pelo mtodo SoftO-FDCL . . . . . . . . . . . . . . . . . . . 61

4.9 Exemplo de matriz documentos-termos . . . . . . . . . . . . . . . . . . . . 63

4.10 Matriz documentos-grupos obtida do agrupamento FCM para o exemplo

da Tabela 4.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.11 Matriz documentos-grupos obtida do agrupamento PCM para o exemplo

da Tabela 4.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.12 Qualidade dos descritores extrados pelo mtodo SoftO-FDCL para os gru-

pos obtidos pelos algoritmos PCM e FCM (Coleo Opinosis) . . . . . . . 65

4.13 Qualidade dos descritores extrados pelo mtodo SoftO-FDCL para os gru-

pos obtidos pelos algoritmos PCM e FCM (Coleo 20Newsgroups) . . . . 65

xi
4.14 Qualidade dos descritores extrados pelo mtodo SoftO-FDCL para os gru-

pos obtidos pelos algoritmos PCM e FCM (Coleo Reuters-21578) . . . . 65

4.15 Qualidade dos descritores extrados pelo mtodo SoftO-FDCL para os gru-

pos obtidos pelos algoritmos PCM e FCM (Coleo WAP) . . . . . . . . . 66

4.16 Qualidade dos descritores extrados pelo mtodo SoftO-FDCL para os gru-

pos obtidos pelos algoritmos PCM e FCM (Coleo Hitech) . . . . . . . . . 66

4.17 Qualidade dos descritores extrados pelo mtodo SoftO-FDCL para os gru-

pos obtidos pelos algoritmos PCM e FCM (Coleo NSF) . . . . . . . . . . 66

4.18 Comparao entre o mtodo SoftO-FDCL e os mtodos de seleo de atri-

butos MI e 2 (Coleo Opinosis) . . . . . . . . . . . . . . . . . . . . . . . 69

4.19 Comparao entre o mtodo SoftO-FDCL e os mtodos de seleo de atri-

butos MI e 2 (Coleo 20NewsGroups) . . . . . . . . . . . . . . . . . . . . 70

4.20 Comparao entre o mtodo SoftO-FDCL e os mtodos de seleo de atri-

butos MI e 2 (Coleo Reuters) . . . . . . . . . . . . . . . . . . . . . . . . 70

4.21 Comparao entre o mtodo SoftO-FDCL e os mtodos de seleo de atri-

butos MI e 2 (Coleo WAP) . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.22 Avaliao comparativa entre os mtodos SoftO-wFDCL e SoftO-FDCL uti-

lizando a coleo Opinosis . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.23 Avaliao comparativa entre os mtodos SoftO-wFDCL e SoftO-FDCL uti-

lizando a coleo 20NewsGroups . . . . . . . . . . . . . . . . . . . . . . . . 72

4.24 Avaliao comparativa entre os mtodos SoftO-wFDCL e SoftO-FDCL uti-

lizando a coleo Reuters . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.25 Avaliao comparativa entre os mtodos SoftO-wFDCL e SoftO-FDCL uti-

lizando a coleo WAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.26 Avaliao comparativa entre o mtodo SoftO-wFDCL e os mtodos de se-


2
leo de atributos wMI e w (Coleo Opinosis) . . . . . . . . . . . . . . 73

4.27 Avaliao comparativa entre o mtodo SoftO-wFDCL e os mtodos de se-


2
leo de atributos wMI e w (Coleo 20NewsGroups) . . . . . . . . . . . 73

4.28 Avaliao comparativa entre o mtodo SoftO-wFDCL e os mtodos de se-


2
leo de atributos wMI e w (Coleo Reuters) . . . . . . . . . . . . . . . 73

4.29 Avaliao comparativa entre o mtodo SoftO-wFDCL e os mtodos de se-


2
leo de atributos wMI e w (Coleo WAP) . . . . . . . . . . . . . . . . 73

4.30 Matriz atributo-valor obtida do corte no nvel 3 da hierarquia apresentada

na Figura 4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.31 Comparao entre o mtodo SoftO-FDCL e o mtodo HSoftO-FDCL (Co-

leo Opinosis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.32 Comparao entre o mtodo SoftO-FDCL e o mtodo HSoftO-FDCL (Co-

leo Hitech) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.33 Comparao entre o mtodo SoftO-FDCL e o mtodo HSoftO-FDCL (Co-

leo Reuters) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.1 CFB e non-CFB para o Highlight - Exemplo . . . . . . . . . . . . . . . . . 85

5.2 Colees utilizadas na aplicao do mtodo SoftO-FDCL para organizao

exvel dos comentrios de mdicos de famlia canadenses. As colees so

identicadas pela coluna ID e a quantidade de comentrios que compe

cada coleo identicada pela coluna # comentrios. A porcentagem de

CFBs e non-CFBs obtida a partir das colees de 2011 e 2012 so tambm

apresentadas na coluna # comentrios . . . . . . . . . . . . . . . . . . . 87

5.3 Descritores de grupos obtidos da aplicao do mtodo SoftO-FDCL sobre

a coleo all-2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.4 Descritores de grupos obtidos da aplicao do mtodo SoftO-FDCL sobre

a coleo cfb-2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.5 Descritores de grupos obtidos da aplicao do mtodo SoftO-FDCL sobre

a coleo ncfb-2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.6 Exemplo de comentrios em que o descritor  good  ocorre . . . . . . . . . . 89

5.7 Descritores de grupos obtidos da aplicao do mtodo SoftO-FDCL sobre

a coleo all-2012 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.8 Descritores de grupos obtidos da aplicao do mtodo SoftO-FDCL sobre

a coleo cfb-2012 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.9 Descritores de grupos obtidos da aplicao do mtodo SoftO-FDCL sobre

a coleo ncfb-2012 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.10 Graus de pertinncia de trs comentrios em dois grupos . . . . . . . . . . 91

A.1 Variao de frequncia para seleo de termos . . . . . . . . . . . . . . . . 121

A.2 Colees utilizadas nos experimentos e respectivas quantidades de docu-

mentos e termos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

A.3 Teste 1 - Taxas de classicao corretas obtidas pelo mtodo proposto e

pelos mtodos KNN, J48, Naive Bayes e OneR . . . . . . . . . . . . . . . . 121

A.4 Teste 2 - Taxas de classicao corretas obtidas pelo mtodo proposto e

pelos mtodos KNN, J48, Naive Bayes e OneR . . . . . . . . . . . . . . . . 122

A.5 Teste 3 - Taxas de classicao corretas obtidas pelo mtodo proposto e

pelos mtodos KNN, J48, Naive Bayes e OneR . . . . . . . . . . . . . . . . 122

A.6 Teste 4 - Taxas de classicao corretas obtidas pelo mtodo proposto e

pelos mtodos KNN, J48, Naive Bayes e OneR . . . . . . . . . . . . . . . . 122

A.7 Teste 5 - Taxas de classicao corretas obtidas pelo mtodo proposto e

pelos mtodos KNN, J48, Naive Bayes e OneR . . . . . . . . . . . . . . . . 122

A.8 Congurao das frequncias dos Testes 1 a 5 organizados em ordem cres-

cente da frequncia mnima e renomeados como testes de A a E . . . . . . 124

B.1 Base de regras geradas a partir da matriz documentos-grupos . . . . . . . . 126

B.2 Critrios de relevncia denidos pelo usurio . . . . . . . . . . . . . . . . . 127


Notao Matemtica

Notao Signicado
D coleo de documentos
n quantidade de documentos
di um documento da coleo, com 1 i n
k quantidade de termos
tj um termo, com 1 j k
(tj , di ) frequncia do termo tj no documento di
c quantidade de grupos
gl um grupo, com 1 l c
P = {g1 , g2 , ..., gc } pseudo partio fuzzy
(di , gl ) grau de pertinncia do documento di no grupo gl
1 (di ) primeiro maior grau de pertinncia do documento di
2 (di ) segundo maior grau de pertinncia do documento di
vl prottipo do grupo gl
dist(di , vl ) distncia entre o documento di e o prottipo vl do grupo gl
(di , gl ) distncia mdia entre o documento di e todos os outros docu-
mentos pertencentes ao grupo gl
(di , gl ) distncia mdia entre o documento di e todos os documentos
pertencentes todos os grupos diferentes de gl
m fator de fuzicao
 critrio de parada do algoritmo Fuzzy C-Means
J(P ) funo objetivo J do algoritmo Fuzzy C-Means sobre a pseudo
partio P
(di , gl ) tipicidade do documento di com relao ao grupo gl
K(Q) funo objetivo K do algoritmo Possibilistico C-Means sobre
a pseudo partio Q
y quantidade de nveis da hierarquia fuzzy de documentos
S(di ) silhueta do documento di
Mnk matriz documentos-termos
Wnc matriz documentos-grupos
z quantidade de regras
Rs uma regra, com 1 s z
Class classe de um documento
Gl varivel lingustica representativa do grupo gl
xi varivel auxiliar do documento di no agrupamento CFCM
Compat (Rs , di ) grau de compatibilidade do documento di com a regra Rs
A = {a1 , a2 , ..., ao } conjunto de termos lingusticos
o quantidade de termos lingusticos
aq termo lingustico, no qual 1 q |A|
Aq ((di , gl )) grau de pertinncia do grau de pertinncia do documento di
no grupo gl no conjunto fuzzy aq
limiar que dene se um documento pertence ou no a um
determinado grupo no mtodo SoftO-FDCL
limiar que dene se um documento pertence ou no a um
determinado grupo no mtodo HSoftO-FDCL
I ndice de desempenho de um grupo, o qual indica a qualidade
de estrutura hierrquica a ser formada a partir deste

xv
Captulo
1

Introduo

meio da Minerao de Dados (MD) (Fayyad et al., 1996), a qual atua como um interme-

dirio entre os dados registrados em um determinado conjunto de dados e o conhecimento

que pode ser extrado por meio da identicao de padres e regularidades presentes nos

mesmos. Uma das principais caractersticas da MD a forma como os dados so estrutu-

rados e organizados, que pode ser, por exemplo, por meio de tabelas de bancos de dados.

Entretanto, nem todos os dados como, por exemplo, os documentos textuais, podem ser

estruturados e organizados em um formato bem denido.

O avano e a popularizao da tecnologia vivenciados ao longo dos anos tornaram

comum o uso de sistemas de coleta e armazenamento digital de dados por parte das

mais diversas organizaes, gerando bases de dados que crescem rapidamente, atingindo

quantidades de dados que extrapolam a capacidade humana de, manualmente, analis-las

e compreend-las por completo.

A extrao automtica de conhecimento a partir dessa crescente quantidade de dados

armazenada digitalmente tornou-se uma tarefa de grande importncia para as corpora-

es, uma vez que, dessa maneira, possvel obter conhecimento por meio de informaes

novas e potencialmente teis. Essa extrao pode ser obtida por meio da Minerao de Da-

dos (MD) (Tan et al., 2005), o qual possui como principal caracterstica a explorao dos

dados, de forma a estruturar e evidenciar padres nestes dados, auxiliando na descoberta

de conhecimento. Entretanto, nem todos os dados como, por exemplo, os documentos

textuais, podem ser estruturados e organizados em um formato bem denido.

Quando o conjunto de dados consiste de documentos textuais, isto , dados no-

estruturados, utiliza-se uma especializao do processo de MD, denominada Minerao

de Textos (MT) (Berry e Kogan, 2010; Aggarwal e Zhai, 2012). A MT diferencia-se da

MD pela incorporao de atividades que visam a estruturao dos documentos em um

formato apropriado para a obteno automtica de conhecimento, sem que haja perda de

1
informaes relevantes em relao ao formato originalmente no-estruturado. Uma vez

estruturados os documentos, algoritmos de MD convencionais podem ser aplicados para

extrair conhecimento e informao desses dados por meio de padres detectados em toda

a coleo de documentos.

Uma grande variedade de mtodos tem sido desenvolvida para gerenciar e organizar a

crescente quantidade de documentos textuais, alm de extrair automaticamente o conhe-

cimento embutido nesses documentos (Bordogna e Pasi, 2001, 2004; Zadrozny e Nowacka,

2009). Entre esses mtodos, pode-se destacar o agrupamento de documentos, o qual

muito utilizado para se obter conhecimento til sobre os documentos.

Nesse contexto, Sistemas de Recuperao de Informao (SRIs) tm sido desenvolvidos

para que os usurios deste tipo de sistema tenham acesso ao conhecimento obtido de

documentos textuais, de maneira mais natural e intuitiva. Para tanto, faz-se necessrio

organizar os documentos a m de que sejam compreendidos. Sendo assim, o tratamento

de impreciso e incerteza na organizao de documentos um problema de pesquisa

importante devido ao grande volume de documentos que os SRIs tm gerenciado. Em

geral, a impreciso e incerteza esto presentes em documentos, porque diferentes usurios

dos SRIs veem o documento sob diferentes perspectivas. Por exemplo, um determinado

usurio pode organizar um conjunto de documentos com base em algum critrio, como

por exemplo pelos assuntos abordados nos documentos, enquanto outro usurio pode

organizar o mesmo conjunto de documentos com base em algum outro critrio, como por

exemplo pela importncia de cada documento com relao a um assunto especco. Do

mesmo modo, ao realizar uma consulta em uma mquina de busca, os documentos obtidos

como resultado desta consulta podem ter graus de importncia diferentes para diferentes

usurios.

No entanto, geralmente, SRIs so intolerantes em termos de incorporar impreciso e

incerteza. Para solucionar este problema e organizar os documentos de forma exvel,

existe a necessidade de desenvolver SRIs exveis, os quais so capazes de gerenciar in-

formaes imperfeitas, isto , informaes imprecisas e/ou incertas (Kraft et al., 2006).

Para tanto, a Computao Flexvel ( Soft Computing ) (CF) (Zadeh, 1997) tem sido am-

plamente experimentada (Crestani e Pasi, 2000; Herrera-Viedma et al., 2006). A CF um

paradigma abrangente que agrega, tradicionalmente, as metodologias de Redes Neurais

Articiais, da Teoria de Conjuntos Fuzzy e da Computao Evolutiva, oferecendo uma

nova viso para a soluo de problemas complexos, os quais muitas vezes no dispem

de modelos matemticos especcos (Pedrycz, 1998). A aplicao da CF em problemas

complexos pode introduzir o conhecimento humano como, por exemplo, a cognio, o

reconhecimento, a compreenso e a aprendizagem.

Considerando que no h a denio de um modelo matemtico especco para o

tratamento da impreciso e incerteza presentes em documentos, a Teoria de Conjuntos

Fuzzy (Zadeh, 1965) (TCF) tem sido bastante aplicada a m de obter SRIs exveis

(Zadrozny e Nowacka, 2008; Lopez-Herrera et al., 2009; Akinribido et al., 2011; Yan et al.,

2
Captulo 1. Introduo

2012).

Portanto, o grande volume de documentos disponveis digitalmente, a impreciso e

incerteza inerente aos documentos e a exigncia de interpretao dos grupos de documen-

tos, resultaram em novos requisitos, com seus respectivos desaos cientcos, os quais so

objetivos de pesquisa deste doutorado.

Partindo-se desse contexto, o cenrio motivacional, a hiptese e o objetivo que guiam

este doutorado so apresentados a seguir.

1.1 Motivao, hiptese e objetivo


A TCF possibilita a denio de tcnicas de recuperao capazes de modelar, at

certo ponto, a subjetividade humana em termos de estimativa da relevncia parcial de

documentos que atendem s necessidades dos usurios como, por exemplo, documentos

que resultam de uma consulta na web (Kraft et al., 2006). A TCF tambm permite

a representao de conceitos vagos expressos por meio de termos lingusticos como, por

exemplo, temperatura alta, custo baixo ou clima frio, oferecendo mecanismos mais pode-

rosos para representao do conhecimento (Klir e Yuan, 1995). Entre estes mecanismos, o

agrupamento fuzzy de documentos destaca-se como mecanismo associativo para capturar

a inerente impreciso e incerteza dos documentos dentro de uma coleo.

Agrupamento de documentos, de maneira geral, aplicado no contexto de RI por-

que se existe um documento relevante para a busca requisitada que pertencente a um

determinado grupo, ento provvel que outro documento deste mesmo grupo tambm

seja relevante (Bordogna e Pasi, 2011). A suposio de que contedos de documentos de

um mesmo grupo so similares ocorre devido ao processo de agrupamento, o qual busca

organizar documentos que referem-se a um mesmo assunto em um mesmo grupo.

Por outro lado, o agrupamento fuzzy de documentos propicia a alocao de documen-

tos em mais de um grupo ao mesmo tempo, j que existe a possibilidade de que docu-

mentos pertencentes a grupos distintos tambm apresentem caractersticas semelhantes.

Para observar como esse mecanismo auxilia no tratamento de impreciso e incerteza em

documentos, considere como exemplo o documento cujo ttulo  Extrao de Regras de


Redes Neurais via Algoritmos Genticos  (Santos et al., 1999), o qual aborda os tpicos:
Redes Neurais e Algoritmos Genticos. Considerando que cada tpico identicado por
descritores de grupos de documentos encontrados na coleo de documentos, da qual esse

documento faz parte, o mesmo pode estar em dois grupos distintos: o grupo que repre-

senta o tpico Redes Neurais ou o grupo que representa o tpico Algoritmos Genticos.
No entanto, o documento citado como exemplo aborda os dois tpicos simultaneamente,

dicultando a alocao exata desse documento em somente um dos grupos. Logo, cada

grupo deve possuir uma descrio sucinta, ou seja, descritores que identiquem tpicos da

coleo de documentos e que permitam auxiliar o usurio na sua busca pela informao

contida nos documentos. Essa organizao em tpicos facilita a busca pela informao de

3
1.1. Motivao, hiptese e objetivo

interesse, obtendo-se uma viso complementar ao modelo baseado em uma simples lista

ordenada de acordo com a relevncia dos documentos. No entanto, o agrupamento de

documentos tem desaos e requisitos especcos. Portanto, tanto o agrupamento fuzzy de

documentos, quanto a extrao de descritores de grupos que identiquem adequadamente

os tpicos representados por cada grupo de documentos, so tarefas chave para a obteno

de exibilidade na organizao de documentos.

Existem na literatura vrias abordagens para organizao de documentos por meio

de agrupamento fuzzy (Lee, 2001; Horng et al., 2005; Rodrigues e Sacks, 2005; Bordogna

et al., 2006; Kozielski, 2007; Saraoglu et al., 2007, 2008; Chowdhury e Bhuyan, 2010;

Hllermeier, 2011). Essas abordagens apresentam boas estratgias, as quais podem ser

utilizadas para obter exibilidade na organizao de documentos pelo tratamento de im-

preciso e incerteza inerentes aos documentos. No entanto, os autores possuem como

foco principal de suas abordagens o agrupamento fuzzy de documentos e destacam a des-

crio de grupos como um problema em aberto, indicando a necessidade de extrao de

descritores para que seja possvel compreender os grupos de documentos encontrados.

Geralmente, as abordagens apresentadas na literatura para a organizao exvel de

documentos so avaliadas em termos do desempenho do agrupamento de documentos,

enquanto os descritores de grupos so extrados utilizando alguma heurstica sobre um

conjunto pequeno de documentos, realizando assim, uma avaliao simples sobre o signi-

cado dos grupos extrados. No entanto, uma apropriada extrao e avaliao de descritores

de grupos que considere toda a coleo e seja fundamentada em critrios bem denidos

importante porque os descritores so termos representantes da coleo que identicam os

tpicos abordados nos documentos.

A extrao de bons descritores um problema desaador, pois colees de documen-

tos so geralmente representadas por uma grande quantidade de termos, isto , por um

espao de caractersticas de alta dimensionalidade. Alm disso, em aplicaes em que o

agrupamento fuzzy utilizado para a organizao exvel de documentos, uma descrio

apropriada dos grupos obtidos to importante quanto um bom agrupamento, pois, neste

tipo de agrupamento, um mesmo descritor pode indicar o contedo de mais de um grupo,

uma vez que no agrupamento fuzzy um mesmo documento pode ser compatvel com mais

de um grupo (Feldman e Sanger, 2007).

Sendo assim, dado que a falta de uma descrio apropriada para os grupos obti-

dos diculta a interpretao desses grupos (Anaya-Snchez et al., 2008), este doutorado

benecia-se deste cenrio motivacional e guiado pela seguinte hiptese:

A extrao de descritores de grupos fuzzy de documentos viabiliza a orga-


nizao exvel de documentos, a qual permite que usurios de sistemas de
recuperao de informao acessem o contedo dos documentos organizados
considerando a impreciso e incerteza tpicas de situaes reais.

Partindo-se dessa hiptese, este doutorado tem como principal objetivo:

4
Captulo 1. Introduo

Investigar e desenvolver mtodos para a extrao de descritores de grupos fuzzy


que viabilizem a organizao exvel de documentos.

Dados esta hiptese e objetivo, este doutorado apresenta como contribuio principal

a organizao exvel de documentos pela proposta de investigao e desenvolvimento de

mtodos para a extrao de descritores de grupos fuzzy. Por meio dessa organizao,

possvel alocar documentos a mltiplos grupos simultaneamente, respeitando as relaes

entre seus tpicos abordados e considerando a impreciso e incerteza inerentes aos docu-

mentos. Partindo-se dessa contribuio, outras contribuies especcas da extrao de

descritores de grupos fuzzy so apresentadas a seguir.

1.2 Contribuies
De maneira geral, a inovao da pesquisa desenvolvida neste doutorado consiste no

estudo, proposta, desenvolvimento, avaliao e aplicao de mtodos para extrao de

descritores de grupos fuzzy que viabilizam a organizao exvel de documentos. Neste

contexto, quatro principais contribuies foram obtidas neste doutorado.

A primeira contribuio consiste da proposta e desenvolvimento do mtodo SoftO-

FDCL ( Soft Organization - Fuzzy Description Comes Last ). Por meio desse mtodo,
descritores de grupos fuzzy at so extrados aps o processo de agrupamento fuzzy inde-

pendentemente do algoritmo de agrupamento fuzzy utilizado, visando identicar tpicos

da organizao exvel de documentos.

A segunda contribuio consiste da proposta e desenvolvimento do mtodo SoftO-

wFDCL ( Soft Organization - weighted Fuzzy Description Comes Last ). Por meio desse
mtodo, descritores de grupos fuzzy at tambm so extrados aps o processo de agru-

pamento fuzzy. Porm, o grau de pertinncia dos documentos em cada grupo, obtidos do

agrupamento fuzzy, utilizado diretamente como fator de ponderao dos termos candi-

datos a descritores.

A terceira contribuio consiste da proposta e desenvolvimento do mtodo HSoftO-

FDCL ( Hierarchical Soft Organization - Fuzzy Description Comes Last ). Por meio desse

mtodo, descritores de grupos fuzzy hierrquicos so extrados aps o processo de agru-

pamento hierrquico fuzzy, identicando tpicos da organizao hierrquica exvel de

documentos.

Por m, uma quarta contribuio foi obtida neste doutorado pela aplicao do m-

todo SoftO-FDCL no contexto do programa de educao mdica continuada canadense,

reforando a utilidade e aplicabilidade da organizao exvel de documentos.

Alm dessas quatro principais contribuies, foram obtidas duas outras contribuies

que no fazem parte da proposta principal deste doutorado, mas que foram importantes

para o entendimento do problema abordado no mesmo: a primeira contribuio consiste

na representao de documentos por meio de agrupamento fuzzy e a gerao de regras

5
1.3. Organizao da tese

fuzzy a partir desta; e a segunda contribuio est relacionada aplicao de regras fuzzy

no nvel da consulta de um Sistema de Recuperao de Informao (SRI).

Cada uma destas contribuies so apresentadas e discutidas ao longo desta tese, a

qual organizada conforme apresentado na prxima seo.

1.3 Organizao da tese


Para mostrar a validao da hiptese, cumprindo com o objetivo deste doutorado, esta

tese est dividida em 6 captulos:

Captulo 2. Neste captulo, so apresentados os fundamentos da organizao de

documentos por meio do agrupamento de documentos, bem como a descrio de algoritmos

de agrupamento fuzzy bem conhecidos na literatura. Uma reviso da literatura acerca da

extrao de descritores de grupos tambm apresentada neste captulo.

Captulo 3. Neste captulo, apresentada uma abordagem proposta para organizao

exvel de documentos. Para tanto, a contextualizao do problema e os experimentos

preliminares que levaram abordagem proposta tambm so apresentados.

Captulo 4. Neste captulo, so apresentados os mtodos propostos para extrao de

descritores de grupos importantes para a organizao exvel de documentos, bem como

os resultados experimentais obtidos a partir da avaliao desses mtodos.

Captulo 5. Neste captulo, apresentada uma aplicao do mtodo SoftO-FDCL

no contexto do programa de educao mdica continuada canadense.

Captulo 6. Por m, neste captulo, so apresentados um resumo das contribuies

deste doutorado, as parcerias com grupos de pesquisa de outras instituies, as quais

enriqueceram a pesquisa desenvolvida neste doutorado, as limitaes encontradas e os

trabalhos futuros.

6
Captulo
2

Fundamentos da Organizao de Documentos

2.1 Consideraes iniciais


A organizao de documentos de bastante importncia para a recuperao de infor-

mao textual. Tradicionalmente, mtodos de agrupamento so utilizados para auxiliar

a organizao de documentos em grupos, cujos documentos similares e relacionados a um

mesmo tema so alocados juntos em um mesmo grupo.

Nesse contexto, os fundamentos da organizao de documentos por meio de agrupa-

mento, bem como da extrao de descritores de grupos, so apresentados neste captulo.

2.2 Agrupamento de documentos


O agrupamento de documentos muito utilizado para se obter conhecimento til sobre

os documentos (Feldman e Sanger, 2007; Manning et al., 2008; Baeza-Yates e Ribeiro-

Neto, 2011). Para tanto, em uma etapa anterior ao agrupamento de documentos, no pr-

processamento de documentos, os mesmos devem ser estruturados de maneira a torn-los

processveis pelos algoritmos de agrupamento.

A estruturao mais comum para documentos a representao destes em um es-

pao vetorial no formato de tabelas atributo-valor. Considerando que cada linha dessas

tabelas corresponde a um documento da coleo e cada coluna corresponde a um termo

presente em toda a coleo de documentos, estas tabelas so usualmente nomeadas matriz

documentos-termos. Assim, a cada clula da matriz associada uma medida, como a me-

dida binria, que indica a presena ou no de um termo em um documento; a frequncia

de um termo em um documento; e a frequncia ponderada de um termo em um documento

em funo de sua distribuio ao longo da coleo.

Geralmente, os termos presentes nas matrizes documentos-termos so previamente

7
2.2. Agrupamento de documentos

analisados e tratados. Em um esforo inicial, busca-se desconsiderar dos documentos ter-

mos que no representem conhecimento til, via eliminao de stopwords, as quais so

palavras no relevantes na anlise dos textos, sendo geralmente constitudas por preposi-

es, pronomes, artigos, interjeies, dentre outras. Posteriormente, busca-se identicar

similaridades de signicados entre palavras, como em casos de variaes morfolgicas ou

de palavras sinnimas. Para tal, pode-se reduzir uma palavra sua raiz por meio de

processos de stemming ou reduzir as palavras ao seu lema (lematizao). O efeito do uso

de diferentes formas de extrao de termos, das quais destacam-se as duas anteriormente

descritas, stemming e lematizao, bem como a substantivao, a qual visa reduzir o

termo sua forma semelhante quela prpria de um nome, foi explorado por Conrado

(2009).

A matriz documentos-termos referente coleo de documentos inerentemente es-

parsa e de alta dimensionalidade, o que, por vezes, pode tornar o processo de anlise

computacionalmente muito custoso ou mesmo invivel, alm de afetar negativamente o

resultado de alguns algoritmos de extrao de conhecimento. vital para o processo de

anlise, portanto, selecionar os termos mais relevantes da coleo de documentos, tor-

nando o conjunto de termos com o qual se trabalha mais conciso, porm no menos

representativo em relao ao conjunto original.

Sendo assim, considere que uma coleo de documentos D formada por n docu-
mentos, no qual di um documento da coleo, com 1 i n. Um documento di

representado por um vetor de valores relacionados aos k termos representativos da cole-

o, tal que di = [(t1 , di ), (t2 , di ), (tk , di )], no qual tj um termo, com 1 j k ,

e (tj , di ) a medida de associao entre um termo tj e o documento di , a qual pode

ser uma medida binria, que indica a presena ou no do termo tj no documento di ;

a frequncia do termo tj no documento di ; ou a frequncia ponderada do termo tj no

documento di em funo de sua distribuio ao longo da coleo D .

Como exemplo de representao de documentos, observa-se na Tabela 2.1 uma coleo

D, a qual possui 3 documentos, {d1 , d2 , d3 }, e 5 termos representativos da coleo, {sade,


poltica, educao, esporte, segurana }, ou seja n = 3 e k = 5. As clulas da tabela so
compostas por valores de frequncia dos termos nos documentos. Por exemplo, o termo

 sade  ocorre 2 vezes no documento d1 .

Tabela 2.1: Exemplo de matriz documentos-termos de uma coleo de 3 documentos

Termos representativos da coleo


Documentos
sade poltica educao esporte segurana
d1 2 3 0 2 1
d2 1 2 4 0 0
d3 3 0 1 3 0

Uma vez representados os documentos por meio da matriz documentos-termos, o agru-

pamento de documentos visa organizar em um mesmo grupo documentos similares. No

agrupamento, a distribuio dos documentos em grupos realizada de acordo com as

8
Captulo 2. Fundamentos da Organizao de Documentos

caractersticas prprias da coleo de documentos. Sendo assim, o parmetro chave de

um algoritmo de agrupamento a medida de similaridade entre dois documentos. Essa

medida inuencia diretamente o processo de agrupamento. Diferentes medidas, levam a

diferentes agrupamentos.

Quando os objetos a serem agrupados so representados por atributos contnuos, a

medida de distncia mais comum utilizada para medir a similaridade entre esses objetos

a distncia Euclidiana. No entanto, quando os objetos a serem agrupados referem-se a

documentos, a matriz documentos-termos que representa os documentos naturalmente

esparsa, i.e., os vetores que representam os documentos possuem muitos termos cujos

valores de frequncia so iguais a zero. Portanto, a medida de similaridade mais comum

para este tipo de objeto o coeciente de similaridade de cosseno, a qual no considera

os termos que no ocorrem nos documentos e, portanto, desconsidera os valores iguais a

zero dos vetores que representam os documentos, considerando apenas o ngulo formado

entre eles. O coeciente de similaridade de cosseno apresentado na Equao (2.1), com

a qual mede-se a similaridade sim(d1 , d2 ) entre os documentos d1 e d2 . A similaridade

entre dois documentos pode variar entre 0 e 1, no qual 1 indica que o ngulo entre dois

documentos de zero grau e que, portanto, eles so muito similares.

d1 d2
sim(d1 , d2 ) = cos = [0, 1] (2.1)
|d1 | |d2 |
De maneira geral, o processo de agrupamento tem por objetivo organizar os docu-

mentos mais similares entre si dentro de um mesmo grupo e documentos que apresentam

mxima dissimilaridade dentro de grupos diferentes. Como resultado desse processo,

pode-se obter gruposat, nos quais os grupos so isolados, ou hierrquicos, nos quais os
grupos apresentam alguma estrutura hierrquica. Alm disto, pode-se obter grupos hard,

cujos documentos so alocados em um nico grupo, ou soft, cujos documentos podem

pertencer a mais de um grupo com diferentes graus de pertinncia (Manning et al., 2008;

Baeza-Yates e Ribeiro-Neto, 2011).

O agrupamento hard baseado na tradicional lgica booleana, pela qual um docu-

mento alocado em um nico grupo, sendo intolerante em termos de incorporar impreciso

e incerteza. Por outro lado, o agrupamento soft baseado em tcnicas que acrescentam

melhorias abordagem booleana, possibilitando que um documento seja alocado em mais

de um grupo. Entre essas tcnicas, destacam-se aquelas que so baseadas na Teoria de

Probabilidades e na Lgica Fuzzy (Bordogna e Pasi, 2011). Tcnicas baseadas na Teo-

ria de Probabilidades representam e processam a incerteza considerando que a mesma

ocasionada pela no ocorrncia de um determinado evento. Por outro lado, tcnicas ba-

seadas na Lgica Fuzzy consideram que a incerteza ocasionada pela falta de signicado

das palavras, j que as mesmas so naturalmente imprecisas e dependentes do contexto

no qual so utilizadas.

Considerando que descritores de grupos de documentos identicam tpicos da coleo

de documentos, a abordagem proposta neste doutorado est relacionada grupos soft,

9
2.2. Agrupamento de documentos

uma vez que documentos podem referir-se a mais de um tpico e, portanto, apresentarem

alguma similaridade com documentos de outros grupos. Alm disso, considerando que

os descritores de grupos so extrados a partir de palavras representativas da coleo de

documentos, o agrupamento fuzzy uma tcnica de agrupamento soft baseada na Lgica

Fuzzy apropriada para o tratamento de impreciso e incerteza em documentos.

2.2.1 Agrupamento fuzzy de documentos


Os algoritmos de agrupamento fuzzy mais comuns so os algoritmos Fuzzy C-Means

(FCM) (Bezdek, 1981), Guztafson-Kessel (GK) (Guztafson e Kessel, 1979) e Gath-Geva

(GG) (Gath e Geva, 1989). Com base nestes algoritmos, em especial o FCM, foi desen-

volvida a maioria dos algoritmos de agrupamento fuzzy hierrquicos como, por exemplo,
2
os algoritmos H -FCM ( Hierarchical Hyper-spherical c-Means Algorithm ) (Rodrigues e
Sacks, 2005), HFCM (Hierarchical FCM in a stepwise discovery of structure in data )

(Pedrycz e Reformat, 2006) e A Dynamic Hierarchical Fuzzy Clustering Algorithm for

Information Filtering (Bordogna et al., 2006).


Os algoritmos de agrupamento fuzzy so, de maneira geral, baseados em prottipo, ou

seja, eles otimizam um conjunto de prottipos, um para cada grupo, o qual consiste de

parmetros de localizao, tamanho ou formato do grupo. Cada prottipo, por sua vez,

capta a distribuio de um grupo de objetos com base na semelhana entre os objetos

e o prottipo de cada grupo ou a aproximao de sua localizao (distncia). Assim,

diferentes algoritmos de agrupamento so distinguidos pelo prottipo e pela medida de

distncia entre os objetos e o grupo.

Dentre os algoritmos de agrupamento fuzzy mais conhecidos, os algoritmos FCM,

Possibilistico C-Means (PCM) (Pal et al., 2005), o qual consiste de uma melhoria do

algoritmo FCM, e HFCM so descritos detalhadamente a seguir.

2.2.2 Algoritmo de agrupamento Fuzzy C-Means


O algoritmo FCM o mais comum dos algoritmos de agrupamento fuzzy, o qual con-

siste de uma generalizao do algoritmo de agrupamento convencional K-Means (Kaufman

e Rousseeuw, 1990).

O algoritmo FCM consiste de um processo iterativo que atualiza os prottipos dos

grupos, denidos inicialmente a partir de uma pseudo partio fuzzy. No agrupamento

hard utiliza-se o termo partio para a denio de cada grupo, uma vez que neste tipo de
agrupamento os objetos so alocados exatamente em um nico grupo. J no agrupamento

fuzzy utiliza-se o termo pseudo partio, pois no h uma diviso bem denida dos grupos,
estando os objetos em mais de um grupo simultaneamente. A pseudo partio fuzzy inicial,

geralmente, composta pela distribuio aleatria de graus de pertinncia dos objetos nos

grupos denida previamente.

Assim, uma pseudo partio fuzzy uma famlia de grupos fuzzy P = {g1 , g2 , ..., gc },

10
Captulo 2. Fundamentos da Organizao de Documentos

sendo c a quantidade de grupos, obtidas da coleo de documentos D = {d1 , d2 , , dn },


sendo n a quantidade de documentos, que satisfaz as Equaes (2.2) e (2.3), nas quais

(di , gl ) o grau de pertinncia do documento di no grupo gl , para 1 l c (Klir e


Yuan, 1995).

c
X
(di , gl ) = 1 (2.2)
l=1

n
X
0< (di , gl ) < n (2.3)
i=1

Para exemplicar este processo, observa-se na Tabela 2.2 o resultado do agrupa-

mento fuzzy da coleo de documentos apresentada na Tabela 2.1, no formato matriz

documentos-grupos, a qual possui agora os mesmos n = 3 documentos agrupados, na qual


as clulas contm os graus de pertinncia dos documentos nos c = 3 grupos. Observa-se

ainda que a soma dos graus de pertinncia de um documento em todos os grupos igual

a 1, satisfazendo a restrio da Equao 2.2. Este exemplo tambm satisfaz a restrio

apresentada na Equao 2.3, pela qual evita-se a construo de grupos vazios.

Tabela 2.2: Exemplo de matriz documentos-grupos de uma coleo de 3 documentos

Grupos
Documentos
g1 g2 g3
d1 0,2 0,5 0,3
d2 0,4 0,1 0,5
d3 0,6 0,2 0,2

c vetores de prottipos dos grupos, v1 , v2 , ..., vc , so calculados pela Equao (2.4),


Os

sendo m > 1 um nmero real chamado fator de fuzicao (fuzzier ) ou expoente de

ponderao. A exponenciao m das pertinncias dos documentos a serem agrupados pode

ser vista como uma funo sobre os graus de pertinncia que leva a uma generalizao da

funo de erro mnimo quadrado aplicado no agrupamento hard (agrupamento que no

permite sobreposio de grupos). Assim, o valor de m controla a fuzicao (fuzziness ) do


agrupamento fuzzy. Quando m 1, o FCM converge para o clssico k-means. J quando

m , as fronteiras entre os grupos so mais suaves. Finalmente, a denio do valor


de m feita de acordo com o problema considerado, embora m = 2 seja usualmente

escolhido (Pedrycz e Gomide, 2007; Klir e Yuan, 1995).

n
[(di , gl )]m di
P

vl = i=1
n , l c (2.4)
[(di , gl )]m
P
i=1

O processo iterativo do FCM d-se por meio da atualizao da pseudo partio denida

inicialmente. Esta atualizao ocorre na tentativa de minimizar a distncia, |di vl |, entre


um determinado documento di e um prottipo de grupo vl .

11
2.2. Agrupamento de documentos

No agrupamento de documentos, essa distncia calculada a partir do coeciente de

similaridade de cosseno, Equao (2.5) e Equao (2.6), ao invs da distncia euclidiana

utilizada no algoritmo FCM original, uma vez que a matriz documentos-termos que re-

presenta os documentos naturalmente esparsa e de alta dimensionalidade (Deng et al.,

2010).

di vl
sim(di , vl ) = cos = [0, 1] (2.5)
|di | |vl |

dist(di , vl ) = 1 sim(di , vl ) [1, 0] (2.6)

Sendo assim, os graus de pertinncia de cada documento em cada grupo, ou seja, a

pseudo partio inicial, so redenidos pela Equao (2.7).

(di , gl ) = 1
1
c
kdi vl k (2.7)
 
P m1

h=1 kdi vh k

O objetivo do FCM minimizar a funo objetivo J(P ) sobre a pseudo partio

P, conforme Equao (2.8), ou seja, minimizar a distncia entre os documentos e os

prottipos dos grupos.

n X
X c
J(P ) = [(di , gl )]m kdi vl k (2.8)
i=1 j=1

(di , gl ) que o FCM atribui a um documento di est relacionado


O grau de pertinncia

distncia relativa do documento di ao prottipo de grupo vl , l c. Se um documento

di igualmente distante de dois prottipos, v1 e v2 , o grau de pertinncia do documento


di em cada grupo ser o mesmo: (di , g1 ) = 0, 5 e (di , g2 ) = 0, 5.
Nesse contexto, considere um dado ruidoso como um documento que est distante,

porm igualmente distante, dos prottipos de dois grupos. Por meio do FCM, pode-se

atribuir a este dado o mesmo grau de pertinncia de um documento que est mais prximo

do prottipo de um grupo. Esta situao ilustrada na Figura 2.1, na qual os documentos

d 1 e d 2 tem ambos os mesmos graus de pertinncia, 0, 5 nos grupos, embora o documento


d 1 esteja mais prximo dos grupos do que o documento d 2 .
De acordo com Pal et al. (2005), esta situao decorre da noo bsica de partio
c
(di , gl ) = 1,
P
probabilstica do conjunto de dados do FCM, o qual possui a restrio
l=1
i.e.
, a soma dos graus de pertinncia de um documento em todos os grupos devem ser

igual a 1.

Para solucionar este problema, foi desenvolvido o algoritmo Possibilstico C-Means

(PCM) (Krishnapuram e Keller, 1993), o qual relaxa a restrio do FCM considerando o

valor absoluto da distncia de um documento di aos prottipos de grupos. Neste sentido,

o grau de pertinncia do documento di em um grupo gl obtido por meio do PCM deve

ser interpretado como a tipicidade do documento di com relao ao grupo gl .

12
Captulo 2. Fundamentos da Organizao de Documentos

Figura 2.1: Posio dos documentos d1 e d1 com relao aos grupos A1 e A2 (Adaptado de Oliveira e
Pedrycz (2007))

2.2.3 Algoritmo de agrupamento Possibilstico C-Means

De maneira similar ao FCM, o PCM um processo iterativo que atualiza os prottipos

de grupos denidos inicialmente a partir de uma pseudo partio. Essa atualizao tenta

minimizar a distncia entre um documento e os prottipos de grupos. A atualizao de

prottipos de grupos do PCM idntica atualizao de prottipos do FCM, conforme

apresentado na Equao (2.4). Assim, utilizando a medida de distncia apresentada

na Equao (2.6), o PCM realiza uma srie de atualizaes na pseudo partio denida

inicialmente de acordo com a Equao (2.9) (Pal et al., 2005), no qual (di , gl ) tipicidade
do documento di com relao ao grupo gl .

1
(di , gl ) = 1 (2.9)
kd i v l k
  m1
1+ i

A constante i > 0 denida pelo usurio para minimizar o problema de singulari-

dade do FCM e, assim, a distncia kd i v l k pode ser zero, relaxando a restrio do FCM
(Equao 2.2). Mais detalhes sobre a denio de i foram apresentados por Krishnapu-

ram e Keller (1993).

O objetivo do PCM minimizar a funo objetivo K(Q) sobre a pseudo partio Q,


de acordo com a Equao (2.10).

n X
X c c
X n
X
K(Q) = (di , gl )m kd i v l k + i (1 (di , gl ))m (2.10)
i=1 l=1 l=1 i=1

n P
c
(di , gl )m kd i v l k,
P
A primeira parte, da funo objetivo K(Q) do PCM cor-
i=1 l=1
responde funo objetivo J(P ) do FCM, portanto, na ausncia da segunda parte,
c n
(1 (di , gl ))m , a otimizao sem restries leva a uma soluo trivial (di , gl ) =
P P
i
l=1 i=1
0. Assim, a segunda parte de P (Q) atua como uma penalidade que tenta aproximar

13
2.2. Agrupamento de documentos

(di , gl ) do valor 1 (Pal et al., 2005).

Alm dos algoritmos de agrupamento at, FCM e PCM, apresentados anteriormente,


possvel obter uma hierarquia de documentos por meio do algoritmo de agrupamento

Hierrquico Fuzzy C-Means ( Hierarchical Fuzzy C-Means ) (HFCM) (Pedrycz e Reformat,


2006), o qual apresentado a seguir.

2.2.4 Algoritmo de agrupamento Hierrquico Fuzzy C-Means


O algoritmo de agrupamento Hierrquico Fuzzy C-Means ( Hierarchical Fuzzy C-Means )
(HFCM) executa um modelo de agrupamento hierrquico divisivo cujos grupos so for-

mados e renados pela diviso dos ns da hierarquia (grupos individuais) por meio do

algoritmo de agrupamento FCM.

Em contraste com conceitos e algoritmos existentes para agrupamento, os autores com-

binam em sua abordagem a ideia de agrupamento hierrquico com agrupamento baseado

em objetivo fuzzy. Para tanto, o nvel mais alto da hierarquia considerado o contexto

no qual o agrupamento realizado. Essa restrio baseada em contexto obtida por meio

do algoritmo de agrupamento Fuzzy C-Means Condicional ( Conditional Fuzzy C-Means )


(CFCM) proposto por Pedrycz (1996). O algoritmo CFCM executa um agrupamento

sensvel a contexto, pelo qual o agrupamento direcionado.

A Figura 2.2 ilustra como os algoritmos FCM e CFCM so aplicados no algoritmo de

agrupamento fuzzy hierrquico proposto por Pedrycz e Reformat (2006).

Coleo de
documentos

FCM

Nvel 1

CFCM

Nvel 2

Figura 2.2: Agrupamento hierrquico fuzzy obtido da execuo do algoritmo HFCM (Adaptado de Pe-
drycz (1996))

O algoritmo HFCM denido como segue. Considere a coleo D = {d1 , d2 dn }


composta por n documentos. O algoritmo HFCM tem incio com o agrupamento de todos

14
Captulo 2. Fundamentos da Organizao de Documentos

os documentos em c grupos fuzzy por meio do algoritmo FCM. Desse agrupamento obtm-
se uma pseudo partio fuzzy P = {g1 , g2 , ..., gc } e um conjunto de prottipos de grupo

v1 [1], v2 [1], ..., vc [1], cujos valores entre colchetes correspondem ao nvel da hierarquia no
qual esses grupos esto. Sendo assim, o algoritmo FCM utilizado pelo algoritmo HFCM

para obter o primeiro nvel da hierarquia, cuja largura no primeiro nvel corresponde

quantidade de grupos c.
Para continuar gerando a hierarquia, o algoritmo HFCM mede o desempenho do agru-

pamento em um determinado nvel por meio do ndice I, o qual indica a qualidade da

estrutura hierrquica a ser formada. Esse ndice considera que quanto menores os valo-

res dos prottipos de grupos, melhores so os grupos. Assim, quando um grupo possui

valor I prximo de zero, diz-se que ele apresenta o mapeamento ideal e no precisa ser

renado. Por outro lado, o grupo que apresenta maior valor de I necessita ser expan-

dido. Por exemplo, considere que o grupo gl no nvel 1 possui o maior valor de I, uma

vez identicados os documentos que apresentam maior grau de pertinncia no grupo gl ,


considere Dl a coleo de documentos do grupo gl . Para que esse grupo seja expandido,

o algoritmo CFCM aplicado sobre Dl ec novos grupos so obtidos, cujos prottipos so


v1l [2], v2l [2], ..., vcl [2], essa notao refere-se aos c prottipos dos novos grupos expandidos
do grupo gl e o nmero entre colchetes indica o nvel em que os mesmos encontram-se. O

processo de avaliao dos grupos por meio do ndice I repetido considerando o critrio

de parada pr-denido pelo usurio, como por exemplo um valor mnimo de I .

Formalmente, o processo iterativo descrito anteriormente ocorre como segue. Primei-

ramente, o algoritmo FCM executado para agrupar os documentos da coleo D =


{d1 , d2 dn }, formando c grupos e obtendo a matriz de partio U [1] = [(di , gl )[1]],
l = 1, 2, , c; i = 1, 2 , n, cujas clulas correspondem ao grau de pertinncia de cada

documento em cada grupo e o valor entre colchetes indica o nvel no qual esses grupos

se encontram. Esse agrupamento inicial guiar a formao do restante da hierarquia.

Para tanto, o algoritmo de agrupamento CFCM executado utilizando os documentos do

grupo que apresenta maior valor de I. Antes de vericar como o valor de I computado,

observe como um determinado grupo expandido utilizando o algoritmo CFCM.

O algoritmo HFCM utiliza como fator condicionante do algoritmo CFCM a restrio

de que os grupos em um nvel mais abaixo na hierarquia so inuenciados pelo grupo que

os originaram em um nvel mais acima. Assim, a restrio do algoritmo de agrupamento

FCM, a qual arma que a soma dos graus de pertinncia em todos os grupos deve ser

igual a 1, conforme Equao (2.11), modicada no algoritmo CFCM conforme Equao

(2.12).

c
X
(di , gl ) = 1 (2.11)
l=1

c
X
(di , gh )[l, 2] = (di , gl )[1], di Dl (2.12)
h=1

15
2.2. Agrupamento de documentos

De acordo com a Equao (2.12), tem-se que o grupo gl expandido nos grupos gh ,
h = 1, , c. Assim, considere gl o grupo a ser expandido e Dl a coleo de documentos

composta pelos documentos que apresentam maior valor de pertinncia no grupo gl . Esse
grupo ser expandido em c novos grupos visando obter a matriz de partio U [2], i.e., a
matriz de partio obtida no nvel 2, considerando a restrio de que a soma dos graus de

pertinncia de um documento di Dl nos grupos gh [2], h = 1, , c, expandidos a partir

do grupo gl [1], equivalente ao grau de pertinncia desse documento no grupo gl [1].


A execuo do algoritmo CFCM realiza a atualizao dos prottipos de grupos da

mesma maneira que o algoritmo FCM. Porm, de forma a satisfazer a restrio apresentada

na Equao (2.12), o algoritmo CFCM calcula a matriz de partio U [2] modicando a

Equao (2.13), do algoritmo FCM, conforme Equao (2.14).

(di , gl ) = 1
1
c
kdi vl k (2.13)
 
P m1

h=1 kdi vh k

(di ,gl )[1]


(di , gh )[l, 2] =  1 , h = 1, , c, di Dl
c
kdi vh [2]k m1 (2.14)

P
e=1 kdi ve [2]k

Conforme mencionado anteriormente, o algoritmo CFCM executado visando ex-

pandir os grupos que apresentam menor desempenho I. Essa medida de desempenho

considera que a capacidade de mapeamento de um grupo est relacionada aos prottipos

dos grupos. Assim, assumindo que os prottipos de grupos correspondem a uma verso

condensada dos documentos agrupados, cada documento di pode ser representado pela

combinao linear entre os prottipos de grupo e os graus de pertinncia desses docu-

mentos nos grupos, conforme Equao (2.15) para os documentos alocados nos grupos do

nvel 1, e conforme Equao (2.16) para os documentos alocados no nvel 2.

c
di =
X
(di , gl )[1]vl [1] (2.15)
l=1

c
di =
X
(di , gh )[l, 2]vh [2], di Dl (2.16)
h=1

no qual os graus de pertinncia (di , gl )[l, 2] so computados de forma a somarem 1,

conforme restrio do algoritmo FCM.

Para documentos em um nvel mais abaixo da hierarquia, a Equao (2.16) tambm

aplicada considerando os prottipos correspondentes. A representao di , deve ser o mais


prximo possvel do documento original di . Assim, a soma das distncias kd i di k2 entre
di e di captura o mapeamento do grupo. Quanto menor o valor dessa soma, melhor a
capacidade de aproximao dos grupos e, portanto, melhor a qualidade do grupo.

Sendo assim, o desempenho I de cada grupo medido conforme Equao (2.17), para

os grupos do nvel 1, e conforme Equao (2.18), para os grupos do nvel 2.

16
Captulo 2. Fundamentos da Organizao de Documentos

kdi di k2
X
Il [1] = (2.17)
i:di Dl

kdi di k2
X
Ih [2] = (2.18)
i:di Dh

Assim, computado o desempenho I de cada grupo em um determinado nvel da hie-

rarquia e ser expandido aquele que possuir maior valor de I. A composio da hierarquia

, portanto, realizada de maneira sucessiva pela determinao do desempenho de todos

os grupos em todos os nveis, expandindo aqueles que possurem desempenho menor em

grupos mais especializados. O critrio de parada do algoritmo HFCM estabelecido pelo

usurio e depende do problema abordado. No entanto, os autores sugerem dois critrios:

a determinao de um limiar relacionado ao valor de I , pelo qual a hierarquia expandida


at que se obtenha este valor terminal de I; ou pela observao da estrutura de agrupa-

mento obtida, j que se os prottipos de grupos tendem a ser alocados muito prximos

uns dos outros signica que nenhuma nova estrutura est sendo revelada. Logo, no h

necessidade de expanso do grupo. Assim, de acordo com os autores, o algoritmo HFCM

centrado no usurio ( user-centric ) signicando que sempre prudente que o usurio ob-
serve o passo-a-passo da estrutura revelada e decida se a hierarquia deve ou no continuar

sendo expandida.

No processo de agrupamento fuzzy, a validao do agrupamento obtido muito im-

portante, pois o mesmo determina a estrutura de agrupamento mais adequada de acordo

com os dados e o problema Gomez-Skarmeta et al. (1999). No h um mtodo geral que

valide os mtodos de agrupamento fuzzy, mas existem vrias abordagens de validao que

sugerem diferentes solues para diferentes problemas (Bezdek, 1981; Bezdek e Pal, 1992).

Uma medida de validao conhecida a medida de validao Silhueta Fuzzy ( Fuzzy Si-
lhouette - FS ) (Campello e Hruschka, 2006) para escolha do nmero adequado de grupos
de documentos, uma vez que a mesma apresenta melhor equilbrio entre eccia e custo

computacional, alm de utilizar os graus de pertinncia e os valores dos dados em sua

funo. Essa medida em geral utilizada para escolha da quantidade de grupos porque o

processo de partio de um conjunto de dados em um nmero apropriado de subconjun-

tos uma tarefa difcil, uma vez que a diviso deste em muitos grupos pode levar uma

organizao de difcil interpretao e/ou anlise, enquanto a diviso em poucos grupos

pode causar a perda de informao. Essa medida apresentada detalhadamente a seguir.

2.2.5 Validao de agrupamento fuzzy


O mtodo FS uma extenso da verso simplicada do critrio de largura mdia da

silhueta (Average Silhouette Width Criterion - ASWC ) (Kaufman e Rousseeuw, 1990),

o qual foi originalmente desenvolvido para validao de agrupamento crisp. A ASWC

denida como segue (Adaptado de Campello et al. (2009)): considere um documento

di {d1 , d2 , ..., dn }, pertencente a um grupo gl {g1 , g2 , ..., gc }, para c igual a quantidade

17
2.2. Agrupamento de documentos

de grupos. Em um agrupamento crisp, isto signica que o documento di mais prximo do


prottipo do grupo gl (di , gl ) a distncia mdia entre
do que dos outros prottipos. Seja

o documento di e todos os outros documentos pertencentes ao grupo gl . Seja tambm

(di , gp ) a distncia mdia entre o documento di e todos os documentos pertencentes


outro grupo gp , p 6= l . Considere o menor valor de (di , gp ) computado sobre p = 1, , c,

p 6= l, como a dissimilaridade (di , gl ) do documento di ao grupo vizinho mais prximo


de gl . Desta maneira, a silhueta do documento di denida pela Equao (2.19)

(di , gl ) (di , gl )
S(di ) = , (2.19)
max {(di , gl ), (di , gl )}
na qual o denominador utilizado apenas como um fator de normalizao. Quanto maior

o valor de S(di ) mais o documento di considerado pertencente ao grupo gl . importante


ressaltar que se um grupo contm apenas um nico documento S(di ), ento a silhueta

deste objeto S(di ) = 0. Esta restrio evita que, por meio da medida de silhueta, um

agrupamento encontre um grupo para cada documento. Sendo assim, a silhueta mdia de

todos os documentos denida pela equao (2.20).

n
1X
ASW C = S(di ) (2.20)
n i=1

O melhor agrupamento encontrado aquele com maior ASWC, ou seja, com a menor

distncia intra-grupos (di , gl ) e a maior distncia inter-grupos (di , gl ).


Para validao de um agrupamento fuzzy, deve-se considerar que, quando um docu-

mento di dito pertencente ao grupo gl , o documento di tem grau de pertinncia maior no


grupo gl do que nos outros grupos. Mesmo assumindo este critrio de denio exata da
pertinncia de um documento a um grupo, no h explicitamente a utilizao da pseudo

partio (graus de pertinncia do objeto em todos os grupos) quando da utilizao da

medida ASWC para validao do agrupamento fuzzy.

Diante disto, o mtodo Silhueta Fuzzy considera no apenas o grupo no qual um

determinado documento possui maior grau de pertinncia, mas tambm o grupo no qual

ele possui o segundo maior grau de pertinncia explicitando a importncia do documento

no grupo vizinho mais prximo. Sendo assim, a denio da silhueta do agrupamento

fuzzy d-se como segue na Equao (2.21)

n
(1 (di ) 2 (di )) S(di )
P
i=1
FS = n , (2.21)
(1 (di ) 2 (di ))
P
i=1

na qual 1 (di ) e 2 (di ) so, respectivamente, o primeiro e segundo maiores graus de

pertinncia do documento di nos grupos.

Sendo assim, a escolha da quantidade de grupos por meio dessa medida de avaliao de

grupos fuzzy d-se conforme Algoritmo 1, pela execuo repetida do algoritmo FCM para

diferentes valores de c, ou seja, diferentes quantidades de grupos. Calcula-se a medida FS

18
Captulo 2. Fundamentos da Organizao de Documentos

a cada execuo e aquele que obtiver maior valor escolhido como um nmero adequado

de grupos. Para ns de otimizao do custo computacional, conforme sugerido pelos

autores do mtodo, considerou-se apenas a similaridade dos documentos aos prottipos

dos grupos vizinhos ao invs da similaridade entre um documento e todos os outros da

coleo (Hruschka et al., 2004).

Algoritmo 1: Validao de agrupamento fuzzy de documentos (Adaptado de Cam-


pello e Hruschka (2006))

Entrada: Coleo de documentos D = {d1 , d2 dn };


Quantidade mnima de grupos cmin ;
Quantidade mxima de grupos cmax ;
Quantidade de grupos c [cmin , cmax ];
Silhueta Fuzzy atual F Satual = 0;
Silhueta Fuzzy nal F Sf inal = 0;
Sada: Pseudo partio nal Pf inal , a qual corresponde a melhor pseudo partio
fuzzy Pc ;
incio
c = cmin ;
repita
Obter uma pseudo partio fuzzy Pc a partir de um algoritmo de
agrupamento fuzzy sobre a coleo D com c grupos;
Calcular o F Satual da pseudo partio Pc pela Equao (2.21);
se F Satual > F Sf inal ento
F Sf inal = F Satual
Pf inal = Pc
m
c = c + 1;
at c = cmax ;
retorna Pf inal
m

Alm da validao do grupos obtidos a partir de um processo de agrupamento, a

extrao de descritores de grupos uma tarefa de muita importncia quando da utilizao

de agrupamento para organizar documentos e extrair automaticamente o conhecimento

embutido nos mesmos. Alguns dos principais mtodos existentes na literatura para a

realizao da tarefa de extrao de descritores de grupos, em especial, grupos fuzzy, so

apresentados na seo a seguir.

2.3 Extrao de descritores de grupos


Existem na literatura vrios trabalhos que abordam a extrao de descritores de grupos

de documentos, os quais podem ser divididos em: abordagens baseadas em conhecimento

interno e abordagens baseadas em conhecimento externo. Entende-se por conhecimento

interno o conhecimento que pode ser adquirido diretamente dos documentos como, por

exemplo, a medio de importncia de um determinado termo pela frequncia do mesmo

na coleo dos documentos. Por outro lado, o conhecimento externo adquirido por meio

19
2.3. Extrao de descritores de grupos

de ferramentas ou mtodos que auxiliam os desenvolvedores na escolha de termos mais

compreensveis aos usurios, ainda que o mesmo no ocorra na coleo de documentos.

Um exemplo de ferramenta utilizada nesse contexto a Wikipedia1 , uma enciclopdia livre


disponvel na web, a qual pode ser utilizada para interpretao dos termos escolhidos como

descritores de grupos.

As abordagens baseadas em conhecimento interno so, geralmente, abordagens que

utilizam alguma medida estatstica para escolha dos descritores de grupos, buscando pe-

los termos mais importantes na coleo de documentos e escolhendo-os como os termos

representativos da coleo. Neste sentido, Geraci et al. (2006) props o uso de uma ver-

so modicada da medida de ganho de informao ( information gain ) para identicar

termos que melhor representam o contedo de um determinado grupo de documentos e

que so menos representativos de outros grupos. Nos trabalhos apresentados por Osinski

e Weiss (2005); Treeratpituk e Callan (2006), no apenas a frequncia de termos con-

siderada, mas tambm a frequncia de frases nos documentos, as quais correspondem

uma sequncia de termos. Toda e Kataoka (2005) utilizam entidades nomeadas extradas

dos documentos como descritores de grupos de documentos. A abordagem Scatter/Gather


(Cutting et al., 1992) obtm descritores considerando a frequncia dos termos no ttulo

dos documentos.

Por outro lado, as abordagens baseadas em conhecimento externo fazem uso de al-

gum conhecimento a priori para melhorar a gerao dos descritores de grupos como, por

exemplo, a abordagen proposta por Chin et al. (2006), no qual os autores utilizaram o

banco de dados lxico WordNet2 (Miller, 1995) para encontrar o signicado dos termos

escolhidos como descritores, bem como determinar relaes semnticas entre eles. Neste

mesmo contexto, Hotho et al. (2003) propem a utilizao do WordNet para reduzir a

varincia de documentos dentro de um mesmo grupo, uma vez que termos diferentes, mas

semanticamente similares presentes em dois documentos podem contribuir para melhorar

a taxa de similaridade entre estes documentos. Porm, segundo Hu et al. (2008), o uso do

WordNet para extrao de conhecimento externo pode no ser a melhor abordagem, dada

sua capacidade limitada para desambiguao de palavras e simplicidade nas estratgias de

enriquecimento da representao de texto, a qual feita pela substituio dos termos do

documento pelos seus sinnimos. Sendo assim, os autores propuseram a construo de um

thesaurus com base em relaes semnticas extradas da Wikipedia e desenvolveram um


framework que utiliza estas relaes semnticas para reforar a medida de similaridade
tradicional no agrupamento de texto. Segundo Carmel et al. (2009), a Wikipedia um

recurso bem sucedido quando da sua utilizao para a gerao de descritores de grupos

de documentos, embora o conhecimento interno dos documentos deva ser considerado

para os casos em que a Wikipedia no abrange o contedo dos grupos. Assim, os autores

propem, diferentemente dos mtodos que utilizam a Wikipedia para a identicao de

categorias de documentos (Gabrilovich e Markovitch, 2007), um mtodo que extrai dos

1 http://www.wikipedia.org/
2 http://wordnet.princeton.edu/

20
Captulo 2. Fundamentos da Organizao de Documentos

documentos um conjunto de termos considerados importantes para representao de cada

grupo e, a partir destes so identicados os descritores nais dos grupos de documentos

por meio da Wikipedia.


A tarefa de extrair descritores de grupos de documentos pode ser dividida ainda em

duas possibilidades: Description Comes First (DCF), ilustrado na Figura 2.3, e Descrip-
tion Comes Last (DCL) (Zhang, 2009), ilustrado na Figura 2.4. Por meio de mtodos

do tipo DCF, tambm conhecido como baseado em rtulo ( label-based ), os descritores

so extrados na etapa de pr-processamento dos documentos antes, ou ao mesmo tempo,

do agrupamento dos documentos. Por meio de mtodos do tipo DCL, tambm conhe-

cido como baseado em documentos ( document-based ), os descritores so extrados aps o


agrupamento dos documentos.

Descritores 1 Descritores 2

Extrao de descritores Agrupamento


Coleo de Coleo de
documentos documentos
Descritores

Descritores 3

Figura 2.3: Abordagem DCF ( Description Comes First )

? ? Descritores 1 Descritores 2

Agrupamento Extrao de descritores


Coleo de
documentos

? Descritores 3

Figura 2.4: Abordagem DCL ( Description Comes Last )

Existem na literatura vrios mtodos de extrao de descritores de grupos, cujas ca-

ractersticas variam de acordo com o resultado do agrupamento: agrupamento at, agru-


pamento hierrquico, grupos hard, grupos soft. Alm disso, mtodos do tipo DCF, geral-

mente, so compostos por algoritmos de agrupamento que tem a extrao de descritores

embutida em seu processo de agrupamento. Por outro lado, mtodos DCL independem

21
2.3. Extrao de descritores de grupos

do algoritmo de agrupamento utilizado. Alguns mtodos e algoritmos mais conhecidos

da literatura so apresentados na Tabela 2.3 de acordo com suas caractersticas: agrupa-

mento obtido, grupos obtidos e tipo de mtodo de extrao de descritores de grupos. Por

serem os mais citados na literatura, os mesmos citam uns aos outros em suas avaliaes.

A seguir, esses mtodos so apresentados do mais antigo para o mais recente.

Tabela 2.3: Mtodos de extrao de descritores de grupos

Autores Nome Agrupamento Grupos Tipo

Zamir e Etzioni (1998) STC at soft DCF


Fung et al. (2003) FIHC hierrquico hard DCF
Osinski e Weiss (2005) Lingo at soft DCF
Chen et al. (2010a) FMDC at/hierrquico hard DCF
Chen et al. (2010b) F 2 IHC hierrquico hard DCF
Matsumoto e Hung (2012) FTCA at/hierrquico soft DCL

Zamir e Etzioni (1998) propuseram o algoritmo de agrupamento STC, o qual um

algoritmo de agrupamento incremental cujos grupos obtidos so baseados em frases com-

partilhadas por documentos extrados da web. Os autores realizaram avaliaes com-

parativas com outros algoritmos de agrupamento nas quais foram observadas somente o

desempenho do processo de agrupamento, no considerando a qualidade dos descritores

de grupo obtidos.

Fung et al. (2003) propuseram um mtodo chamado Frequent Itemset-based Hierarchi-


cal Clustering (FIHC), o qual produz uma hierarquia de tpicos para agrupar documentos.
Esse mtodo oferece bons resultados relacionados reduo da dimensionalidade, quan-

tidade de grupos e fcil explorao com descritores de grupos obtidos da minerao de

regras de associao cujos itemsets frequentes so os termos chave candidatos a descritores


de grupos. Um itemset frequente denido pelos autores como um conjunto de palavras

que ocorrem juntas em uma quantidade mnima de documentos em um grupo. Uma vez

obtidos os descritores candidatos, uma hierarquia de grupos construda. Os autores

realizaram avaliaes comparativas com outros algoritmos de agrupamento hierrquico,

mas no realizaram uma avaliao dos descritores de grupo.

Osinski e Weiss (2005) propuseram o mtodo Lingo, que um mtodo de extrao

de descritores do tipo DCF. O autores sugerem o uso de um algoritmo de agrupamento

baseado em rtulo ( label-based ) que identica os conceitos abstratos que melhor descre-

vem uma amostra da coleo de documentos a serem agrupados. A representao desses

conceitos obtida a partir das frases mais frequentes dos documentos. Os conceitos, por

sua vez, produzem um conjunto de descritores que determinam o contedo dos grupos e

o algoritmo de agrupamento utilizado orientado por esses descritores. Os autores rea-

lizaram apenas avaliaes empricas com um conjunto reduzido de grupos e descritores,

cujos resultados foram comparados com os resultados obtidos pela utilizao do mtodo

STC.

Chen et al. (2010a) propuseram o algoritmo FMDC ( Fuzzy-based Multi-label Document

22
Captulo 2. Fundamentos da Organizao de Documentos

Clustering ) que integra a minerao de regras de associao com a ontologia da Word-

Net de forma a explorar as relaes semnticas fuzzy entre os termos que ocorrem nos

documentos. Em sua abordagem, os autores extraem um conjunto de termos chave para

representao inicial dos documentos os quais so enriquecidos pelo uso da WordNet. A

partir dessa seleo de termos, um algoritmo de minerao de regras de associao fuzzy

executado para extrair um conjunto de itemsets frequentes altamente relacionados com-

postos por termos chave que sero considerados como candidatos a descritores de grupos.

Uma vez selecionados os descritores os documentos so organizados em grupos denidos

por esses descritores.

Segundo Chen et al. (2010a), a utilizao de minerao de regras de associao como

parte do processo de agrupamento um caso especial de agrupamento, com o qual pode-se

obter tanto agrupamento at quanto hierrquico. Assim como o F 2 IHC, a extrao de

descritores do algoritmo FMDC considera a possibilidade de descritores serem signicati-

vos para mais de um documento, i.e., fuzzy. Porm, o algoritmo proposto obtm grupos

hard, ou seja, documentos so alocados em um nico grupo.

Chen et al. (2010b) propuseram uma extenso do algoritmo FIHC chamado Fuzzy Fre-
quent Itemset-Based Hierarchical Clustering (F 2
IHC) no qual um algoritmo de minerao

de regras de associao aplicado para descobrir um conjunto de itemsets frequentes que

contm os termos chave candidatos a descritores de grupos. Uma vez extrados os descri-

tores candidatos, os documentos so organizados em uma estrutura hierrquica baseada

nos descritores candidatos. A hierarquia de grupos construda em um modelo top-down,


o qual seleciona recursivamente os grupos pais no nvel e1 distribuindo os documentos

dentro de seus grupos lhos no nvel e. Embora a extrao de descritores considere a

possibilidade de descritores serem signicativos para mais de um documento, o algoritmo

proposto obtm grupos hard, ou seja, documentos so alocados em um nico grupo.

Chen et al. (2010b) realizaram avaliaes comparativas com outros algoritmos de agru-

pamento hierrquico, mas no realizaram uma avaliao dos descritores de grupo. Inclu-

sive, os autores realizaram avaliaes comparativas com o algoritmo FIHC, o qual tambm

sugere a extrao de descritores em uma etapa anterior ao agrupamento. No entanto, os

descritores extrados por cada um dos mtodos no foram avaliados. Considerou-se apenas

o desempenho do processo de agrupamento.

Matsumoto e Hung (2012) propuseram o algoritmo de agrupamento FTCA ( Fuzzy


Transduction-based Clustering Algorithm ) para agrupar documentos extrados da Web.

Para tanto, os autores aplicam um modelo de relevncia ( transduction-based relevance


model - TRM) que considera a relao local entre documentos. Resultados experimentais

sobre o FTCA utilizando colees de documentos reais e sintticas mostraram que os

resultados so favorveis quando comparados com dois algoritmos bastante comuns: STC

e Lingo. No entanto, embora os autores propuseram a extrao de descritores de grupos

aps a execuo do algoritmo FTCA, os autores no realizaram uma avaliao quantitativa

dos descritores. Alm disso, STC e Lingo so mtodos DCF de extrao de descritores de

23
2.4. Consideraes nais

grupos, no correspondendo ao algoritmo FTCA que sugere a utilizao de um mtodo

DCL para extrao de descritores.

Considerando os trabalhos citados anteriormente e outros trabalhos disponveis na li-

teratura, observa-se que o estado-da-arte aponta a existncia de uma grande quantidade

de algoritmos de agrupamento cuja extrao de descritores embutida no processo de

agrupamento, i.e., a maioria dos autores propem mtodos DCF para extrao de descri-
tores. Por esta razo, a qualidade dos descritores de grupos medida pelo desempenho do

algoritmo de agrupamento. Entretanto, apenas o agrupamento de documentos no des-

creve a organizao de documentos, j que os grupos resultantes no possuem signicado

sem quem sejam extrados descritores dos mesmos. Logo, quando a organizao de docu-

mentos obtida usando grupos de documentos, preciso extrair descritores apropriados

dos grupos e a qualidade dos mesmos deve ser avaliada considerando sua conciso, que

signica que eles devem ser o mais curtos possveis, mas sucientes para abordar o tpico

do grupo; sua compreensibilidade, tambm conhecida como transparncia, que signica

que eles devem mapear o contedo dos grupos; acurcia, que signica que eles devem

reetir o tpico que corresponde ao grupo; e, distino, que signica que eles devem ser

mais frequentes em um grupo do que em outros (Zhang et al., 2009). Cada um destes pon-

tos de avaliao dos descritores possuem desaos cientcos especcos e so considerados

conforme o domnio dos documentos a serem organizados.

Alm disso, segundo Zhang (2009), mtodos DCF apresentam um intervalo semntico

entre a extrao de descritores e os prottipos de grupos, o qual contradiz que Primeiro

agrupa-se, segundo descreve-se ( First clustering, second description ), e diminui a ha-

bilidade explicativa dos descritores de grupo. Esse intervalo signica que no possvel

identicar se os descritores inuenciam no agrupamento ou o contrrio. Mtodos DCL so

tipicamente menos complexos e capazes de obter tanto bom desempenho no agrupamento

quanto descritores signicativos. Alm disto, separando o algoritmo de agrupamento da

extrao de descritores, diferentes algoritmos podem ser testados e usados.

2.4 Consideraes nais


No contexto da pesquisa de doutorado apresentada nesta tese, considera-se o tra-

tamento de impreciso e incerteza de documentos por meio da organizao exvel de

documentos. Assumindo que a organizao de documentos pode ser obtida por meio do

agrupamento de documentos, neste captulo foram apresentados os fundamentos bsicos

relacionados ao processo de agrupamento de documentos. Alm disso, a m de obter

exibilidade na organizao de documentos, considera-se que um documento pode ser

alocado em diferentes grupos. Assim, o agrupamento fuzzy de documentos indicado

como principal tcnica utilizada para obter a pertinncia de documentos em mais de um

grupo. Ainda neste captulo foram apresentados os principais algoritmos de agrupamento

fuzzy, uma medida de validao de agrupamento fuzzy e uma reviso de trabalhos sobre

24
Captulo 2. Fundamentos da Organizao de Documentos

extrao de descritores de grupos.

Especicamente neste doutorado, ser abordada a extrao de descritores de grupos a

partir de conhecimento interno, uma vez que os algoritmos de agrupamento fuzzy utilizam

a representao documentos-termos em seu processo e que, portanto, natural que os des-

critores de grupos sejam obtidos desta mesma representao. Para tanto, neste doutorado

abordado o desenvolvimento de mtodos DCL ( Description Comes Last ) para extrao


de descritores de grupos fuzzy.

No captulo a seguir apresentada a contextualizao da pesquisa desenvolvida neste

doutorado, os experimentos iniciais realizados e a abordagem proposta para organizao

exvel de documentos.

25
Captulo
3

Abordagem para Organizao Flexvel de


Documentos

3.1 Consideraes iniciais


O tratamento de impreciso e incerteza na representao, organizao e recuperao

de documentos um problema de pesquisa importante especialmente para a rea de Re-

cuperao de Informao (RI). Em geral, a impreciso e a incerteza esto presentes em

qualquer documento, pois diferentes leitores veem o documento sob diferentes perspec-

tivas. Assim sendo, um determinado leitor pode organizar um conjunto de documentos

com base em algum critrio por ele denido, como por exemplo, pelos assuntos que ele

considera mais importantes, enquanto outro leitor pode organizar o mesmo conjunto de

documentos com base em algum outro critrio, como por exemplo, pelos documentos que

ele l com mais frequncia. Do mesmo modo, ao realizar uma consulta em uma m-

quina de busca, os documentos obtidos como resultado desta consulta podem ter graus

de importncia diferentes para diferentes leitores.

Nesse contexto, abordado o tratamento de impreciso e incerteza tpicas de situaes

reais por meio de uma organizao exvel de documentos. Nessa organizao considera-

se que um conjunto de documentos organizado por tpicos e que um mesmo documento

pode referir-se a diferentes tpicos. Uma proposta de abordagem para tal organizao

apresentada neste captulo.

3.2 Contextualizao do problema


Geralmente, Sistemas de Recuperao de Informao (SRIs) so baseados no modelo

booleano, apresentando limitaes quanto exibilidade, uma vez que tal modelo into-

27
3.2. Contextualizao do problema

lerante em termos de incorporar impreciso e incerteza. Para superar essa limitao, dois

outros modelos so comumente utilizados: modelo probabilstico e modelo exvel.

Por meio do modelo probabilstico de RI, os documentos a serem recuperados so

listados em ordem decrescente de suas avaliaes probabilsticas de relevncia infor-

mao que o usurio do SRI necessita. Muitas pesquisas tem sido feitas com o uso da

teoria formal de probabilidade e da estatstica a m de avaliar, ou at mesmo estimar, a

probabilidade de relevncia dos documentos (Crestani et al., 1998). O problema em se

estimar probabilisticamente a relevncia de um determinado documento em uma coleo

est na grande quantidade de variveis envolvidas na representao dos documentos em

comparao com a pequena quantidade de informao disponvel acerca da relevncia dos

documentos. Assim, os modelos probabilsticos diferem principalmente pela forma como

so estimadas estas informaes relacionadas probabilidade de relevncia. Para tanto,

os modelos de inferncia probabilstica aplicam conceitos e tcnicas de lgica e inteligncia

articial.

Por outro lado, o modelo exvel de RI prov melhorias nos SRIs por meio da aplicao

de tcnicas baseadas em Redes Neurais e Conjuntos Fuzzy. Tais modelos sao referidos por

modelos de recuperao de informao exvel ( Soft Information Retrieval ), em analogia


rea de computao exvel ( Soft Computing ) (Crestani e Pasi, 1999; Kraft et al., 2006).
Tem-se utilizado conjuntos fuzzy a m de permitir a caracterizao dos elementos de RI

por meio do conceito de gradualidade. Com isto, os principais nveis de aplicao da teoria

de conjuntos fuzzy para a RI esto na denio de extenses do modelo booleano, tanto

em relao representao de documentos quanto consulta realizada por um usurio de

um SRI, e denio de mecanismos associativos, como por exemplo agrupamento fuzzy,

o qual captura a inerente impreciso e incerteza dos documentos dentro da coleo. J

as Redes Neurais ou modelos conexionistas de RI podem ser aplicadas tanto como um

procedimento de aprendizado supervisionado quanto no supervisionado. No aprendizado

supervisionado, durante a fase de aprendizado, a rede neural adapta os valores dos pesos

nas conexes a m de obter a sada desejada. Assim, no modelo neural cada documento

representado por uma unidade, cujo nvel de ativao indica a relevncia do documento.

Porm, uma vez que os pesos entre documentos so identicados apenas por 1 ou 1,
isso no reete a importncia da representao do contedo dos documentos. J no

aprendizado no-supervisionado, as redes neurais so utilizadas nos SRIs principalmente

para agrupamento ou classicao de documentos ou termos, uma vez que no h feedback


no processo de aprendizado e a rede neural executada sobre informaes locais e controles

internos para capturar regularidades nos padres de entrada.

denies a eventos; simplicao sempre necessria. Finalmente, pode-se inves-

tigar probabilidade como uma descrio da crena, porm o tratamento de abstrao

matemtica (admitindo eventos bem denidos), que tem relao no muito clara com a

realidade.

Neste doutorado, foi investigada a utilizao de um modelo exvel para o trata-

28
Captulo 3. Abordagem para Organizao Flexvel de Documentos

mento de impreciso e incerteza dos SRIs. Mais especicamente, foi considerado o uso de

agrupamento fuzzy de documentos como mecanismo associativo para capturar a inerente

impreciso e incerteza dos documentos dentro de uma coleo. A fuzzicao uma am-

biguidade ocasionada por palavras, ou a falta de informao em signicados, uma vez que

termos requerem denies, e denies so impossveis de obter, j que o uso de palavras

para expressar a realidade impreciso. O grau de impreciso medido como graus de

fuzzicao. Assim, por meio de tal modelo, a exibilidade dos SRIs pode ser considerada

em seus trs nveis: representao, organizao e recuperao, conforme apresentado na

Figura 3.1.

Figura 3.1: Nveis de um Sistema de Recuperao de Informao

O agrupamento de documentos, entretanto, no uma tarefa simples porque um de-

terminado documento pode, eventualmente, abordar diferentes tpicos, sendo necessrio

atribu-lo a mais de um grupo. Assim, visando solucionar esse problema, tcnicas de

agrupamento fuzzy so aplicadas sobre documentos permitindo realizar uma organiza-

o exvel, alocando documentos mltiplos grupos simultaneamente e respeitando as

relaes entre seus assuntos abordados (Saraoglu et al., 2008; Hllermeier, 2011). Os

graus de pertinncia obtidos no agrupamento fuzzy podem ser utilizados como medio

da compatibilidade dos documentos com os grupos. Tal compatibilidade pode ainda ser

representada por meio de termos lingusticos, aproximando-se da indicao de importn-

cia dada pelos seres humanos. Por exemplo, um documento pode ser muito ou pouco

compatvel com um determinado grupo.

Como exemplo de organizao exvel de documentos por meio de agrupamento fuzzy,

considere a Figura 3.2. Nesta gura, o documento, em formato de notcia, (a)  Educao
deixada de lado, e povo que paga  pertence tanto ao grupo de notcias sobre Educao
quanto ao grupo de notcias sobre Poltica. Neste mesmo exemplo, observa-se que a notcia

(b)  Vereadores retomam debate sobre coleta de lixo  pertence aos trs grupos de notcias:

Educao, Poltica e Sade. J a notcia (c)  Sade abandonada  encontra-se no grupo


sobre Poltica e Sade.

Pode-se observar ainda na Figura 3.2 que cada notcia tem compatibilidade maior com

um grupo do que com outro(s). Por exemplo, a notcia  Educao deixada de lado, e povo

29
3.3. Exploraes preliminares

Educao Sade

Poltica

Figura 3.2: Exemplo de Organizao Flexvel com trs grupos

que paga  aborda com mais intensidade o assunto Educao do que o assunto Poltica,
e no aborda o assunto Sade. Esta intensidade pode ser o grau de compatibilidade

de documentos com grupos, o qual obtido por meio do grau de pertinncia, quando

executado o agrupamento fuzzy.

Nesse contexto, deu-se o desenvolvimento deste doutorado. Tendo como objetivo o

tratamento de impreciso e incerteza de documentos, foram realizadas exploraes pre-

liminares, descritas na Seo 3.3, que, juntamente com a avaliao do estado da arte,

apresentado no Captulo 2 e na Seo 3.4.1, apontaram a organizao exvel como um

problema em aberto, o qual foi o foco principal deste doutorado.

3.3 Exploraes preliminares


O tratamento de impreciso e incerteza um problema amplo e em aberto. Sendo

assim, foram feitas exploraes iniciais de maneira a explorar o estado da arte do problema

e propor uma abordagem adequada para o desenvolvimento de um SRI exvel.

A primeira explorao deu-se sobre a gerao de regras fuzzy para classicao de

documentos, uma vez que o processo de classicao de documentos uma das principais

tarefas dos SRIs. Alm disso, as regras fuzzy tornam a modelagem do problema mais el

e adequada ao mundo real. Essa primeira explorao, por sua vez, levou explorao de

um SRI que faz uso das regras fuzzy propostas em seu processo de recuperao.

Conforme apresentado na Seo 2.2 do Captulo 2, a representao de documentos

usualmente realizada no formato de uma matriz documentos-termos obtida do pr-

30
Captulo 3. Abordagem para Organizao Flexvel de Documentos

processamento da coleo de documentos. Cada linha desta matriz representa um docu-

mento di , com 1 i n, e cada coluna representa um termo tj , com 1 j k. Cada

clula desta matriz composta pela frequncia (tj , di ) do termo tj no documento di .


Neste projeto de doutorado, especicamente, a matriz documentos-termos utili-

zada para extrao de padres por meio do agrupamento fuzzy de documentos. Este

agrupamento reduz a dimensionalidade da matriz documentos-termos e modica a re-

presentao dos documentos para a forma documentos-grupos. Cada clula da matriz

documentos-grupos composta pelo grau de pertinncia (di , gl ) do documento di no

grupo gl , 1 l c. Uma ilustrao desse formato de representao de documentos de

um SRI apresentada na Figura 3.3.

Figura 3.3: Nvel de representao de documentos em um SRI

Portanto, considerando que os tpicos abordados pelos diferentes documentos da co-

leo podem ser representados por grupos, dada essa representao possvel explorar o

nvel de organizao e recuperao em um SRI de modo a torn-lo exvel.

3.3.1 Gerao de regras fuzzy para classicao de documentos


As regras fuzzy permitem a representao de conhecimento impreciso e possuem o

seguinte formato:

SE antecedente ENTO consequente

Este formato tem a nalidade de estabelecer relaes entre as variveis que apare-

cem no antecedente, tambm chamado de condio ou premissa, e as que aparecem no

consequente, tambm chamado de concluso ou ao. Por exemplo, a regra:

SE um documento importante ENTO a possibilidade_de_recuper-lo alta.

31
3.3. Exploraes preliminares

Esta regra estabelece uma relao entre as documento e


variveis lingusticas

possibilidade_de_recuper-lo usando os termos lingusticos importante e alta. Com o con-


ceito de variveis lingusticas, problemas naturalmente imprecisos e complexos passam a

ser manipulveis por computadores. A interpretao de um determinado conhecimento

expresso na forma lingustica torna-se passvel de uma representao matemtica por meio

destas variveis.

Sendo assim, variveis lingusticas so variveis cujos valores so palavras ou senten-

as em linguagem natural em vez de nmeros (Zimmermann, 1991). Elas so denidas

sobre um determinado domnio, o qual granularizado em termos lingusticos denidos

por conjuntos fuzzy. O processo de granularizao de um domnio de uma varivel em

conjuntos fuzzy dene a chamada partio fuzzy.

Os conjuntos fuzzy so usados para modelar informao imprecisa, os quais podem ser

a de maneira geral como, por exemplo, imagens e vdeos.bordados como uma generalizao

da noo clssica de conjuntos. Nos conjuntos fuzzy, os elementos pertencem ao conjunto

com um certo grau, que usualmente um valor entre 0 e 1. Quando os graus de pertinncia

de um elemento assumem os valores 0 ou 1, tem-se o caso clssico de no pertinncia total

ou pertinncia total do elemento ao conjunto, respectivamente. Assim, a denio de um

conjunto fuzzy obtida ampliando-se o contradomnio da funo caracterstica {0, 1}, da

denio clssica de conjuntos, para o intervalo [0, 1], de forma a atribuir o grau com

que um elemento pertence a um conjunto fuzzy. A generalizao da funo caracterstica

passa a ser chamada de funo de pertinncia, a qual denir o conjunto fuzzy, associando

elementos de um dado conjunto universo U a nmeros reais do intervalo [0, 1].


Logo, um conjunto fuzzy aq no conjunto universo U caracterizado pela funo

aq : U [0, 1]

e (x, aq ) dene o grau com que o elemento x pertence ao conjunto fuzzy aq (Klir e Yuan,

1995).

Assim, uma proposio fuzzy a parcela de informao bsica que pode aparecer em

uma regra e seu formato mais simples :

X aq

na qual X uma varivel lingustica e aq um termo lingustico do conjunto de termos


lingusticos A = {a1 , a2 , ..., ao }, 1 q |A|, da varivel X que representa um conjunto
fuzzy, o qual caracterizado por uma funo de pertinncia.

Por exemplo, se X for a varivel documento e aq o termo importante, a proposio

X aq representa formalmente a parcela de informao do exemplo anterior que diz  um


documento importante .
Utilizando proposies fuzzy, regras fuzzy so geradas de forma a serem utilizadas

nos chamados Sistemas Fuzzy Baseado em Regras (SFBR), os quais so compostos por

dois componentes principais: a Base de Conhecimento (BC) e o Mecanismo de Inferncia

32
Captulo 3. Abordagem para Organizao Flexvel de Documentos

(MI) (Klir e Yuan, 1995). A BC composta pela Base de Dados (BD), a qual contm

as denies dos conjuntos fuzzy relacionados aos termos lingusticos usados nas regras

fuzzy e pela Base de Regras (BR), que armazena o conjunto de regras que modelam

um determinado problema. O MI responsvel pelo processamento das regras, o qual

realizado por algum mtodo de raciocnio. Este consiste da aplicao de um procedimento

de inferncia para derivar concluses a partir das regras e de fatos conhecidos.

O modo de operao de um SFBR, geralmente, consiste das seguintes etapas:

1. Transformao dos valores de entrada em conjuntos fuzzy, ou fuzicao. Para

entradas numricas este passo consiste no clculo do grau de pertinncia de cada

valor de entrada no conjunto correspondente, e indica a compatibilidade da entrada

com o antecedente de cada regra.

2. Agregao de antecedentes de cada regra por meio de operadores para o clculo de

conjuno fuzzy. O resultado obtido chamado de Grau de Disparo da regra;

3. Aplicao da inferncia com a derivao de resultados individuais para cada regra;

4. Combinao de possveis sadas fuzzy;

5. Transformao do resultado fuzzy em um resultado preciso, processo conhecido como

defuzicao. Esta etapa nem sempre ocorre, pois depende do tipo de problema em

que ser aplicado o Sistema Fuzzy.

Quando os SFBRs so desenvolvidos com o objetivo especco de executar a tarefa de

classicao, tem-se os chamados Sistemas de Classicao Fuzzy (SCF), os quais utilizam

mtodos de raciocnio prprios para essa tarefa.

O formato usual de regras fuzzy para classicao :

SE X aq ENTO Class

na qual X uma varivel lingustica sobre o domnios X, e aq um termo lingustico, que


rotula um conjunto fuzzy denido sobre o domnio X.
Os SCF utilizam mtodos de raciocnio prprios para a tarefa de classicao utili-

zando regras fuzzy, cujos mais utilizados so: Mtodo de Raciocnio Fuzzy Clssico (Chi

et al., 1996) e Mtodo de Raciocnio Fuzzy Geral (Ishibuchi et al., 1999).

No contexto deste doutorado, apresentado na Seo 3.2, assume-se que a representao

dos documentos (Figura 3.3) propiciam o tratamento de impreciso e incerteza de docu-

mentos. Assim, a gerao de regras fuzzy a partir do agrupamento fuzzy de documentos

uma abordagem interessante para a classicao de documentos, uma vez que o agru-

pamento fuzzy de documentos reduz a dimensionalidade da matriz documentos-termos.

Geralmente, a alta dimensionalidade da matriz documentos-termos diculta a interpre-

tabilidade de regras geradas a partir desta. Se fossem geradas regras a partir da matriz

documentos-termos, as variveis lingusticas que comporiam as regras corresponderiam a

33
3.3. Exploraes preliminares

cada um dos termos que representam toda a coleo de documentos. Gerando as regras

a partir da matriz documentos-grupos, esta diculdade superada.

Uma ilustrao do nvel de organizao de documentos em um SRI apresentada na

Figura 3.4. Nessa organizao, regras fuzzy so geradas a partir do agrupamento fuzzy

de documentos possibilitando o tratamento de impreciso e incerteza para classicao

de documentos.

Figura 3.4: Nvel de organizao de documentos em um SRI

Nessa organizao proposta, as regras fuzzy so geradas por meio do algoritmo Wang

& Mendell (Wang e Mendel, 1992) aps o agrupamento fuzzy de documentos obtido pela

aplicao do algoritmo Fuzzy C-Means (FCM) (Bezdek, 1981), obtendo-se um SCF cujas

regras assumem o seguinte formato:

SE G1 a1 E G2 a2 E E Gc a3 ENTO Class
Nesse formato de regra, G1 , G2 Gc so variveis lingusticas que representam os c
grupos formados pelo agrupamento fuzzy de documentos, as quais foram granularizadas

nos termos lingusticos A = {a1 , a2 , a3 }. Por exemplo, o grupo g1 representado como


uma varivel lingustica G1 granularizada nos termos lingusticos a1 = Baixo, a2 = Mdio,

a3 = Alto, os quais so caracterizados por uma funo de pertinncia. Os termos Baixo,


Mdio e Alto referem-se aos graus de pertinncia dos documentos nos grupos.
Os resultados obtidos com esta explorao preliminar mostraram que a classicao

de documentos utilizando regras fuzzy apresenta um bom desempenho quando comparada

com mtodos para classicao bastante conhecidos na literatura: KNN, J48, Naive Bayes,

OneR e SVM. Os resultados obtidos com o mecanismo proposto foram apresentados por

Nogueira et al. (2010) e Nogueira et al. (2011b).

Por outro lado, a interpretabilidade das regras geradas a partir do agrupamento fuzzy

de documentos comprometida pela ausncia de signicado nos grupos. Entende-se por

signicado, os descritores de grupos que referem-se aos tpicos abordados pelos documen-

tos agrupados. Por exemplo, na regra

34
Captulo 3. Abordagem para Organizao Flexvel de Documentos

SE G1 Alto ENTO Class Redes Computadores,

o grupo G1 no tem signicado. Logo, no possvel interpretar a proposio G1 Alto.


Por outro lado, se o grupo G1 fosse composto pelos descritores { rede de sensores, redes
wireless, grades computacionais ...}, seria possvel a interpretao de que documentos

do grupo G1 so compostos por palavras que correspondem aos descritores deste grupo.

Alm disso, se a ocorrncia de tais palavras Alto, ento este documento corresponde

ao tpico Redes Computadores. Sendo assim, a interpretabilidade de regras impor-

tante porque possibilita a expresso do conhecimento, alm de propiciar transparncia e

compreensibilidade ao sistema (Luger, 2004).

Dessa explorao, portanto, observou-se a necessidade de extrao de descritores de

grupos de forma a melhorar a interpretabilidade dos grupos e, consequentemente, das

regras fuzzy a partir do agrupamento fuzzy de documentos.

Um detalhamento da abordagem proposta para gerao de regras fuzzy para classi-

cao de documentos, bem como os resultados obtidos dessa explorao preliminar, so

apresentados no Apndice A.

Outra explorao para o tratamento de impreciso e incerteza de documentos deu-se

no nvel da recuperao. Essa explorao faz uso da proposta de gerao de regras fuzzy

descrita anteriormente e apresentada na prxima seo.

3.3.2 Recuperao de informao por meio de regras fuzzy


Considerando que a representao dos documentos por meio da matriz documentos-

grupos obtidas do processo de agrupamento fuzzy reduz a dimensionalidade da matriz

documentos-termos, optou-se por explorar o tratamento de impreciso e incerteza no

nvel da recuperao de um SRI quando da anlise da consulta realizada por um usurio.

A noo de medio da importncia de uma palavra-chave na consulta a um SRI am-

plamente defendida. Por outro lado, no bvio como isto deve ser medido e expressado.

Usualmente, o intervalo [0,1] adotado como faixa do grau de importncia. Entretanto,

pouco realista esperar que esta medida possa ser precisamente expressa por um n-

mero. Logo, tem-se utilizado a Recuperao de Informao Fuzzy (RIF), a qual uma

extenso do modelo booleano e representa um documento como um conjunto de termos

fuzzy tornando a descrio da informao contida nos documentos mais precisa (Radecki,

1979). A lgica fuzzy tem sido reconhecida como uma forma conveniente de modelagem

do processo de RI, ou seja, interpretao dos conceitos de relevncia de um documento

com relao consulta ou importncia de uma palavra-chave para a representao de

um documento e/ou consulta.

Nesse contexto, a exibilidade de um SRI pode ser obtida usando dois tipos de tcnicas

para renamento de consultas (Manning et al., 2008; Baeza-Yates e Ribeiro-Neto, 2011):

Mtodos Globais e Mtodos Locais. O primeiro tipo inclui tcnicas para expandir ou

reformular os termos da consulta (Chli e Wilde, 2006; Dae-Young e Choi, 2003). Esta

35
3.3. Exploraes preliminares

reformulao modica a consulta para obter uma nova consulta que corresponda a outros

termos semanticamente similares. Este tipo de tcnica usualmente prov uma estratgia

de matching, ou seja, uma estratgia que possibilite a correspondncia entre os termos

utilizados pelo usurio no momento da consulta e os termos que caracterizam a informao

a ser recuperada. O segundo tipo, por sua vez, inclui tcnicas que ajustam uma consulta

de acordo com os documentos que inicialmente aparecem como resultado da consulta.

Para proporcionar exibilidade a um SRI no nvel da consulta, conforme ilustrado na

Figura 3.5, foi desenvolvida em uma explorao preliminar uma estratgia de matching
para recuperao de documentos com base em um critrio de relevncia denido pelo

usurio.

Figura 3.5: Nvel de recuperao de documentos em um SRI

Para tanto, considere uma coleo de documentos e um conjunto de regras geradas

a partir do agrupamento destes documentos. Considere ainda um conjunto de termos

representativos da coleo e um conjunto de classes dos documentos denidos manual-

mente. Ao realizar a consulta, o usurio deve denir a relevncia de cada um dos termos,

bem como das classes dos documentos. Com isto, a estratgia de matching deve rea-

lizar as composies necessrias sobre as regras fuzzy para garantir que os documentos

recuperados satisfaam os critrios de relevncia denidos pelo usurio.

Desta explorao observou-se dois problemas: a denio de termos a serem utili-

zados pelo usurio no momento da consulta e a utilizao de colees de documentos

manualmente classicados.

O primeiro aspecto limita o espao de busca do SRI, pois somente termos previamente

selecionados podem ser utilizados na consulta. Alm disto, no momento desta explorao,

os termos utilizados na consulta eram selecionados por especialistas do domnio a partir

de todos os termos obtidos do pr-processamento dos documentos. Esta seleo custosa

e invivel dado que, no geral, SRIs possuem colees de documentos que crescem ao

longo do tempo. O segundo aspecto limita a exibilidade de um SRI, uma vez que, para a

36
Captulo 3. Abordagem para Organizao Flexvel de Documentos

estratgia de matching proposta, deve-se considerar documentos previamente classicados,


o que no corresponde ao conceito de agrupamento fuzzy de documentos, cujo aprendizado

no-supervisionado e um documento pode ser compatvel com mais de um grupo.

O funcionamento da estratgia de matching desenvolvida nesta explorao pode ser

conferida detalhadamente no Apndice B.

J existem na literatura mtodos que gerenciam a impreciso e incerteza de um SRI

no nvel da consulta. Porm, elas dependem dos termos utilizados na consulta e da parti-

cipao do usurio, conforme observado na estratgia proposta no experimento preliminar

e em algumas abordagens existentes. Lopez-Herrera et al. (2009); Zadrozny e Nowacka

(2008) desenvolveram modelos de RI utilizando variveis lingusticas fuzzy para caracte-

rizar a subjetividade da iterao com o usurio, assinalando valores qualitativos para os

termos da consulta. Pasi (2002) apresenta algumas pesquisas relacionadas consultas

que tornam um SRI exvel, tais como o controle personalizado do processo de indexao

pela insero de restries sobre a estrutura do documento, ou a introduo de nveis

de importncia e quanticadores fuzzy nas consultas. Lynn e Ng (2008) propuseram um

modelo de IR baseado em conjuntos fuzzy que classica documentos recuperados para

qualquer consulta imprecisa usando uma pontuao de impreciso dos documentos com

base no signicado das palavras. Por meio desta pontuao, os documentos que melhor

correspondem aos diferentes signicados dos termos usados na consulta so recuperados.

Akinribido et al. (2011) propuseram um SRI baseado em ontologia fuzzy que determina a

equivalncia semntica entre termos da consulta e termos nos documentos pela relao de

sinnimos dos termos das consultas com os termos dos documentos. Segundo Zadrozny e

Nowacka (2009), o primeiro passo para a aplicao da lgica fuzzy em sistemas de RI

aplicar a lgica multivalorada ao invs da clssica, ou seja, binria. Logo, um documento

tratado como um conjunto fuzzy de palavras-chave, as quais so palavras com capacidade

de descrever semanticamente o contedo de um documento. Essas palavras so utilizadas

pelos SRIs para realizar pesquisas relacionadas a um assunto especco e a pertinncia

das palavras-chave reete sua importncia em representar o signicado do documento.

Portanto, a partir das exploraes preliminares realizadas e da reviso da literatura,

concluiu-se que para que um documento seja satisfatoriamente recuperado por um SRI,

considerando que a impreciso e incerteza so tpicas de documentos textuais, a coleo

da qual ele faz parte deve ser organizada de maneira exvel, pois, em concordncia com

Chowdhury e Bhuyan (2010), a exibilidade abordada somente no nvel da consulta, limita

um SRI.

3.4 Uma Abordagem Proposta para Organizao exvel de docu-


mentos
Entende-se por organizao exvel aquela em que documentos sobre assuntos dife-

rentes podem apresentar caractersticas similares. Neste sentido, neste doutorado, deu-se

37
3.4. Uma Abordagem Proposta para Organizao exvel de documentos

incio investigao da exibilidade de um SRI no nvel da organizao de documentos

por meio de agrupamento fuzzy e da descrio dos grupos obtidos.

Alguns trabalhos tem sido desenvolvidos de forma a obter exibilidade na organizao

de documentos. Tais trabalhos fazem uso de agrupamento fuzzy como principal meio

para o tratamento de impreciso e incerteza inerentes documentos. Alguns deles so

brevemente apresentados na seo a seguir.

3.4.1 Trabalhos relacionados organizao exvel de documentos


Torra (2005) apresenta uma proposta de algoritmo de agrupamento fuzzy hierrquico,

no qual alguns grupos so previamente denidos por meio do algoritmo de agrupamento

Fuzzy C-Means (FCM) (Bezdek, 1981). Com isso, um processo iterativo aplicado para

a construo da hierarquia seguindo a estratgia top-down, na qual os grupos denidos

anteriormente so particionados utilizando um agrupamento hierrquico divisivo.

Segundo Rodrigues e Sacks (2005), tpicos que caracterizam um dado domnio de

conhecimento so algumas vezes associados uns aos outros e podem, tambm, ser re-

lacionados tpicos de outros domnios. Logo, documentos podem conter informaes

relevantes para diferenciar domnios em algum grau e descobrir relacionamento til en-

tre os domnios. Nessa linha, Rodrigues e Sacks (2004) propuseram uma modicao

do algoritmo FCM para agrupamento de documentos que utiliza o coeciente de simi-

laridade de cosseno ao invs da distncia euclidiana. Esta modicao, por sua vez, foi

considerada por Rodrigues e Sacks (2005) para o desenvolvimento de um algoritmo de

agrupamento fuzzy hierrquico chamado Hierarchical Hyper-spherical c-Means Algorithm


2
(H -FCM) para construo de uma taxonomia de tpicos que explora a noo de similari-

dade assimtrica para organizar grupos fuzzy hierarquicamente formando uma hierarquia

de tpicos signicante baseada no centride dos grupos.

De acordo com Bordogna et al. (2006), usurios de um SRI podem buscar por docu-

mentos considerando interesses especcos ou gerais de acordo com seu perl. Ou seja, um

determinado usurio pode realizar uma busca por um conjunto de documentos que abor-

dam um determinado assunto de maneira geral, ou que abordam um determinado assunto

de maneira especca. Portanto, um SRI exvel deve prover documentos organizados

em categorias de interesse que correspondam tanto a um tpico geral, como por exem-

plo, esportes, quanto a um tpico especco, como por exemplo, futebol. Nesse contexto,

Bordogna et al. (2006) propuseram um algoritmo de agrupamento fuzzy hierrquico di-

nmico, o qual obtm uma estrutura de grupos hierrquicos de documentos, cujos grupos

so identicados automaticamente. Nessa estrutura, cada nvel da hierarquia corresponde

a um nvel distinto de sobreposio de grupos, no qual no nvel mais alto da hierarquia

o valor de sobreposio aumenta, uma vez que os tpicos representados nestes nveis so

mais gerais.

Saraoglu et al. (2007) propuseram, e posteriormente Saraoglu et al. (2008) melhora-

ram, uma abordagem com o uso da lgica fuzzy tambm para busca de similaridade entre

38
Captulo 3. Abordagem para Organizao Flexvel de Documentos

documentos na tentativa de solucionar o problema de multi categorias. Segundo Sarao-

glu et al. (2007), o maior problema dos atuais sistemas de busca o resultado da busca,

os quais disponibilizam documentos no relacionados ou diminuem ao mximo o nmero

de documentos no relacionados como resultado da busca. Geralmente, nestes sistemas,

os documentos pertencem apenas a uma categoria. Assim, os autores propuseram a inde-

xao da sada dos documentos pertencentes a mais de uma categoria e determinada as

categorias as quais pertencem.

Tjhi et al. (2009) propuseram um algoritmo de agrupamento de documentos que cap-

tura simultaneamente as vantagens do agrupamento fuzzy, do agrupamento possibilstico

e do co-agrupamento. O algoritmo proposto chamado DFPC ( Dual Fuzzy-Possibilistic


Co-clustering ). Esse algoritmo identica e representa grupos de documentos mais re-

alistas, alm de ser mais robusto com relao rudos e estvel com relao grupos

coincidentes. A formulao de co-agrupamento, por sua vez, possibilita a organizao

de documentos e habilita o algoritmo para gerar a pertinncia exvel das palavras nos

documentos, beneciando a interpretabilidade dos grupos de documentos.

Chowdhury e Bhuyan (2010) propuseram um mtodo que faz uso do algoritmo de agru-

pamento FCM para vericar similaridade entre documentos de grupos diferentes: grupos

de documentos recuperados e grupos de documentos no-recuperados pelos SRIs. Se-

gundo os autores, de maneira geral, um SRI recupera documentos que so relevantes para

um usurio considerando a similaridade entre os termos utilizados pelo usurio no mo-

mento da consulta e os termos que ocorrem nos documentos. No entanto, documentos que

no so recuperados a partir dessa estratgia podem ter similaridade com os documentos

recuperados.

Yan et al. (2012) propuseram um novo algoritmo denominado SS-HFCR ( Heuristic


Semi-Supervised Fuzzy Co-clustering ) para organizao de grandes volumes de documen-
tos provenientes da Web. No processo de agrupamento realizado pelo algoritmo proposto,

os autores incluem um conhecimento obtido previamente na forma de restries fornecidas

por usurios de SRIs. Cada restrio especica se um par de documentos deve ou no

ser agrupado junto. Por meio desse algoritmo, no somente os graus de pertinncia dos

documentos nos grupos so obtidos, mas tambm os graus de pertinncia das palavras

nos documentos. Ao desenvolver este algoritmo, os autores tinham como principal ob-

jetivo melhorar a acurcia do agrupamento e reduzir a sensiblidade dos parmetros de

fuzzicao pela insero do conhecimento prvio.

Diante dos trabalhos citados anteriormente e de outras abordagens para organizao

de documentos por meio de agrupamento fuzzy, as quais podem ser conferidas em (Lee,

2001; Horng et al., 2005; Bordogna et al., 2006; Kozielski, 2007; Song et al., 2011; Bor-

dogna e Pasi, 2011, 2012), observa-se que, de maneira geral, todos eles apresentam boas

estratgias para organizao exvel de documentos, considerando como principal foco de

suas abordagens o processo de agrupamento.

No entanto, para uma organizao exvel completa, alm do agrupamento, impor-

39
3.4. Uma Abordagem Proposta para Organizao exvel de documentos

tante a extrao de bons representantes de grupos, como pode ser observado no exemplo

apresentado na Figura 3.2 na Seo 3.2. Neste exemplo, os representantes de grupos Edu-
cao, Poltica e Sade foram escolhidos manualmente para indicar o tpico abordado

por cada grupo de documentos naquela organizao de notcias. No entanto, a escolha

de representantes de grupos no uma tarefa trivial, uma vez que os mesmos devem ser

capazes de representar, da melhor maneira possvel, o contedo de todos os documentos

de um determinado grupo. As tcnicas tradicionais de agrupamento no proveem uma

descrio apropriada para os grupos obtidos, dicultando a interpretao dos mesmos

(Anaya-Snchez et al., 2008). Esta diculdade ainda maior quando deseja-se obter re-

presentantes de grupos fuzzy. Neste tipo de agrupamento um mesmo representante pode

indicar o contedo de mais de um grupo, uma vez que no agrupamento fuzzy um mesmo

documento pode ser compatvel com mais de um grupo.

Em agrupamento de documentos a escolha de representantes de grupos realizada por

meio da identicao de descritores, que so termos signicantes dos tpicos abordados

nos documentos. Contudo, documentos so representados por uma grande quantidade de

termos, isto , por um espao de caractersticas de alta dimensionalidade. Logo, a extrao

de bons descritores um problema desaador e em aberto. Alm disso, em aplicaes

em que o agrupamento utilizado para a RI, a extrao do signicado dos grupos to

importante quanto um bom agrupamento (Feldman e Sanger, 2007). Neste contexto, a

principal contribuio deste doutorado deu-se na organizao exvel de documentos pela

proposta de investigao e desenvolvimento de mtodos para a extrao de descritores de

grupos fuzzy.

3.4.2 Mtodos propostos para extrao de descritores de grupos fuzzy


Conforme apresentado na Seo 2.3 do Captulo 2, existem na literatura duas possibi-

lidades de extrao de descritores: DCF ( Description Comes First ) e DCL (Description


Comes Last ). Os mtodos desenvolvidos neste doutorado so do tipo DCL, o qual permite

que diferentes algoritmos de agrupamento sejam utilizados, dependendo do que deseja-se

obter a partir da organizao de documentos, tornando a proposta de organizao exvel

mais abrangente.

Na Figura 3.6 apresentada a contextualizao da abordagem proposta para orga-

nizao exvel no nvel da organizao de um SRI. Neste contexto, a abordagem pro-

posta para organizao exvel tem incio com a representao dos documentos, a qual

composta pelo pr-processamento e agrupamento dos documentos. Especicamente neste

doutorado, foram realizadas investigaes utilizando o algoritmo de agrupamento Fuzzy C-

Means (FCM) (Bezdek, 1981), o algoritmo de agrupamento Possibilistico C-Means (PCM)

(Pal et al., 2005) e o algoritmo de agrupamento Hierrquico Fuzzy C-Means (HFCM) (Pe-

drycz e Reformat, 2006), apresentados na Seo 2.2.1. Uma vez agrupados os documentos,

os grupos no possuem signicados. Para tanto, foram desenvolvidos mtodos para ex-

trao de descritores de grupos, considerando o processo de agrupamento fuzzy, pelo qual

40
Captulo 3. Abordagem para Organizao Flexvel de Documentos

documentos podem pertencer a diferentes grupos com diferentes graus de pertinncia. A

partir do tipo de agrupamento utilizado para organizar os documentos, foram propostos

mtodos para extrao de descritores que utilizam esta informao de pertinncia.

Figura 3.6: Contextualizao da abordagem proposta para organizao exvel no nvel da organizao
de um SRI

O ponto de inovao deste doutorado concentra-se no desenvolvimento de mtodos

para extrao de descritores de grupos fuzzy que possibilitam organizar, de maneira e-

xvel, os documentos de acordo com os principais tpicos da coleo, considerando que

cada grupo refere-se a um tpico. Esses mtodos foram desenvolvidos com base em me-

didas conhecidas da rea de RI (preciso, revocao e medida-F (F1)) e, a partir do tipo

de agrupamento utilizado para organizar os documentos ( at ou hierrquico), utilizam a

informao de pertinncia para extrao de descritores de grupos fuzzy. As investigaes

realizadas sobre cada um dos mtodos propostos sero apresentadas detalhadamente no

prximo captulo divididos em dois tpicos:

Organizao exvel de documentos usando agrupamento fuzzy at. Desta


investigao, foram propostos dois mtodos: SoftO-FDCL (Soft Organization -

Fuzzy Description Comes Last ) e SoftO-wFDCL (Soft Organization - weighted Fuzzy


Description Comes Last ).

Organizao exvel de documentos usando agrupamento fuzzy hierr-


quico. Nesta investigao, na qual foi utilizado o algoritmo HFCM, foi proposto
um mtodo para extrao de descritores de grupos hierrquicos fuzzy com base

na medida F1 denominado HSoftO-FDCL ( Hierarchical Soft Organization - Fuzzy


Description Comes Last ).

41
3.5. Consideraes nais

3.5 Consideraes nais


Neste captulo foi apresentado o contexto em que este doutorado se insere, o qual

consiste do tratamento de impreciso e incerteza de documentos de modo a proporcionar

exibilidade aos Sistemas de Recuperao de Informao.

Foram apresentadas tambm exploraes preliminares realizadas, as quais apoiaram a

especicao do foco principal da proposta de doutorado. As exploraes realizadas so

relacionadas gerao de regras fuzzy para classicao de documentos e recuperao

de informao a partir de tais regras. Assim, com os experimentos iniciais e a reviso do

estado-da-arte, concluiu-se que a organizao exvel de documentos de grande impor-

tncia para o tratamento de impreciso e incerteza em SRI. Alm disso, observou-se que a

organizao exvel de documentos pode ser obtida por meio de agrupamento fuzzy, sendo

a extrao de descritores de grupos a principal tarefa a ser realizada neste doutorado.

Sendo assim, ainda neste captulo, foi apresentada a abordagem proposta para a or-

ganizao exvel de documentos, cujos detalhes relacionados aos mtodos desenvolvidos

para extrao de descritores de grupos fuzzy, experimentos realizados e resultados obtidos

so apresentados no prximo captulo.

42
Captulo
4

Mtodos Propostos para Extrao de


Descritores de Grupos na Organizao Flexvel
de Documentos

4.1 Consideraes iniciais


Conforme apresentado no captulo anterior, o tratamento de impreciso e incerteza de

documentos pode ser abordado nos nveis de representao, organizao e recuperao de

um Sistema de Recuperao de Informao (SRI). Nesse contexto, considerando os expe-

rimentos preliminares realizados e a reviso da literatura, observou-se a necessidade da

organizao exvel de documentos. Esse tipo de organizao abordado neste doutorado

por meio do agrupamento fuzzy de documentos, para o qual a extrao de descritores dos

grupos obtidos de grande importncia, uma vez que por meio dos descritores de grupos

possvel interpretar o signicado dos grupos.

Sendo assim, neste captulo so apresentados trs novos mtodos para extrao de

descritores de grupos fuzzy do tipo Description Comes Last (DCL) (Zhang, 2009), pelo

qual o processo de agrupamento separado da extrao de descritores. Os mtodos pro-

postos viabilizam a organizao exvel de documentos pela extrao de descritores de

grupos aps um processo de agrupamento fuzzy de documentos e possuem como base

medidas clssicas da rea de Recuperao de Informao (RI): preciso ( precision ), revo-


cao (recall ) e medida f 1. O primeiro mtodo proposto denominado SoftO-FDCL (Soft

Organization - Fuzzy Description Comes Last ), o qual extrai descritores de grupos fuzzy
at de documentos. O segundo mtodo proposto denominado SoftO-wFDCL (Soft Or-
ganization - weighted Fuzzy Description Comes Last ), o qual tambm extrai descritores de
grupos fuzzy at de documentos, porm incluindo os graus de pertinncia dos documentos

43
4.2. O mtodo SoftO-FDCL

nos grupos no clculo da preciso, revocao e medida f1 dos candidatos a descritoresde

grupos. Por m, o terceiro mtodo proposto denominado HSoftO-FDCL ( Hierarchical


Soft Organization - Fuzzy Description Comes Last ), o qual extrai descritores de grupos

fuzzy hierrquicos de documentos.

Aps a descrio dos mtodos propostos, a avaliao realizada e os resultados obtidos

sobre os mesmos tambm so apresentados neste captulo.

4.2 O mtodo SoftO-FDCL


O mtodo SoftO-FDCL ( Soft Organization - Fuzzy Description Comes Last ) foi de-

senvolvido com o propsito de fornecer exibilidade a um SRI no nvel da sua organizao

por meio da extrao de descritores de grupos fuzzy at de documentos.

Quando a organizao de documentos obtida por meio do agrupamento at conven-

cional, ou hard, tem-se grupos cujos documentos no apresentam relao nenhuma com

documentos de outros grupos que compem a organizao. No entanto, no agrupamento

fuzzy at, documentos de grupos distintos possuem uma relao de semelhana denida
pelo conceito de grau de pertinncia dos documentos nos grupos. O grau de pertinncia

de um documento em um grupo obtido pelo processo de agrupamento fuzzy, pelo qual

medido o quanto um documento pertence a um determinado grupo. Dessa maneira,

documentos podem pertencer a mais de um grupo e se assemelhar com documentos de

grupos distintos.

A semelhana entre documentos de grupos distintos de extrema importncia para

a obteno da organizao exvel de documentos, pois se assumirmos que grupos de

documentos representam tpicos abordados pelos documentos da coleo organizada, dois

documentos que abordam tpicos diferentes, ou seja, que esto alocados em dois grupos

diferentes, podem tambm abordar um tpico em comum, i.e, podem tambm ambos

estarem alocados em um terceiro grupo.

Alm disso, por meio do agrupamento fuzzy de documentos, dois documentos que

abordam um mesmo tpico, mas com diferente intensidade, so alocados em um mesmo

grupo, pois o grau de pertinncia mede o quanto um determinado documento pertence

a um determinado grupo, i.e, com qual intensidade um determinado documento aborda

um determinado tpico.

Sendo assim, o mtodo SoftO-FDCL extrai descritores de grupos fuzzy de forma a

identicar tpicos para a organizao exvel de documentos. Para tanto, a informao

de pertinncia obtida do processo de agrupamento fuzzy da coleo de documentos a

ser organizada fundamental. Essa informao considerada pelo mtodo SoftO-FDCL

quando todos os termos representativos da coleo de documentos so avaliados como can-

didatos a descritores de grupos. Tal avaliao realizada utilizando as medidas clssicas

para avaliao quantitativa da efetividade da Recuperao de Informao (RI): preciso

(precision ), revocao ( recall ) e medida f 1 (F1-measure ) (Salton e McGill, 1983). Uma

44
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

medida de preciso verica a proporo de documentos relevantes entre os documentos

recuperados. A revocao indica a proporo de documentos relevantes recuperados entre

todos os documentos que so conhecidamente relevantes para uma dada consulta em um

SRI. A medida f1 a mdia harmnica entre preciso e revocao.

No mtodo SoftO-FDCL, um documento di , com 1 i n, para n igual a quanti-


dade de documentos da coleo, pertence a um grupo gl , com 1 l c, para c igual a

quantidade de grupos, se o mesmo possui grau de pertinncia no grupo maior ou igual a

, i.e., (di , gl ) , no qual um limiar denido por = 1


c
. Esse limiar considerado

por duas razes. Primeiro, ele permite que os candidatos a descritores de grupos repre-

sentem documentos que pertenam mais de um grupo com diferentes graus, ao invs de

considerar somente documentos com o maior grau de pertinncia em um grupo. Segundo,

por meio desse limiar possvel penalizar os candidatos a descritores que ocorrem em

documentos com baixo grau de pertinncia em um grupo. Assim, todos os termos tj , com

1 j k, para k igual a quantidade de termos representativos da coleo, so avaliados

como candidatos a descritores de um grupo gl , considerando a matriz de contingncia

apresentada na Tabela 4.1.

Tabela 4.1: Matriz de contingncia do termo tj para o grupo gl para as medidas de Recuperao de
Informao utilizadas pelo mtodo SoftO-FDCL

Documentos que per- Documentos que no

tencem ao grupo gl pertencem ao grupo gl


Documentos que pos-

suem o descritor can-


ganhos(tj , gl ) ruidos(tj , gl )
didato tj
Documentos que no

possuem o descritor

candidato tj perdas(tj , gl ) rejeitos(tj , gl )

Sendo (di , gl ) o grau de pertinncia do documento di no grupo gl e (tj , di ) a


frequncia do termo tj no documento di , a formalizao da medio dos ganhos(tj , gl ),

perdas(tj , gl ), ruidos(tj , gl ) e rejeitos(tj , gl ), denida pelas Equaes (4.1), (4.2), (4.3)

e (4.4), respectivamente, considerando as funes degrau apresentadas nas Equaes (4.5)

e (4.6).

n
X
ganhos(tj , gl ) = (tj , di ) (di , gl ) (4.1)
i=1

n
X
perdas(tj , gl ) = (1 (tj , di )) (di , gl ) (4.2)
i=1

n
X
ruidos(tj , gl ) = (tj , di ) (1 (di , gl )) (4.3)
i=1

45
4.3. O mtodo SoftO-wFDCL

n
X
rejeitos(tj , gl ) = 1 ((tj , di ) (di , gl )) (4.4)
i=1

1, (t , d ) > 0
j i
(tj , di ) = (4.5)
0, (t , d ) = 0
j i

1, (d , g )
i l
(di , gl ) = (4.6)
0, (d , g ) <
i l

Sendo assim, a extrao de descritores de um determinado grupo gl tem incio com o


clculo do f 1 de cada descritor candidato tj . Ao nal, tem-se um ranking de termos can-

didatos a descritores de cada grupo. Considerando a matriz de contingncia apresentada

na Tabela 4.1, o clculo do f1 de cada descritor candidato tj obtido como segue.

i. Calcular a preciso p(tj , gl ) do termo tj candidato a descritor do grupo gl :

ganhos(tj , gl )
p(tj , gl ) = (4.7)
ganhos(tj , gl ) + ruidos(tj , gl )

ii. Calcular a revocao r(tj , gl ) do termo tj candidato a descritor do grupo gl :

ganhos(tj , gl )
r(tj , gl ) = (4.8)
ganhos(tj , gl ) + perdas(tj , gl )

iii. Calcular a medida f 1(tj , gl ) do termo tj candidato a descritor do grupo gl :

2 p(tj , gl ) r(tj , gl )
f 1(tj , gl ) = (4.9)
p(tj , gl ) + r(tj , gl )

Assim, a quantidade de descritores de cada grupo selecionada empiricamente a partir

dos candidatos a descritores que possuem maior f 1. A medida f1 mede quo represen-

tativo um descritor para um grupo e os descritores identicam tpicos da organizao

exvel. Essa exibilidade alcanada porque os graus de pertinncia indicam a compa-

tibilidade entre documentos e grupos. Alm disso, grupos distintos podem ter os mesmos

descritores.

4.3 O mtodo SoftO-wFDCL


O mtodo SoftO-wFDCL ( Soft Organization - weighted Fuzzy Description Comes Last )
uma extenso do mtodo SoftO-FDCL. O mtodo SoftO-wFDCL avalia a ecincia de

cada descritor candidato em identicar os documentos em um grupo incluindo o grau de

pertinncia dos documentos em cada grupo nas medidas de preciso, revocao e f 1. Essa

nova forma de avaliao considera que os graus de pertinncia carregam uma informao

46
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

adicional sobre a representatividade dos termos, a qual pode contribuir para uma avaliao

mais precisa acerca da importncia de um termo candidato a descritor de grupo. O uso

do grau de pertinncia na avaliao de um descritor candidato til, pois, essa medida

garante que os descritores extrados representam a informao de que o documento pode

pertencer a mais de um grupo com diferentes graus de compatibilidade.

Assim como no mtodo SoftO-FDCL, no mtodo SoftO-wFDCL um documento di ,


com 1 i n, pertence a um grupo 1 l c, para c igual a quantidade de
gl , com

grupos, se o mesmo possui grau de pertinncia (di , gl ) , no qual um limiar denido


1
por = .
c

A extrao de descritores de um determinado grupo pelo mtodo SoftO-wFDCL

tem incio com o clculo da medida f1 de cada descritor candidato. Um ranking


de termos ponderados pela sua medida f1 obtido para cada grupo, considerando

a matriz de contingncia apresentada na Tabela 4.2 .


1 Nas equaes (4.10), (4.11),

(4.12) e (4.13), tem-se a formalizao da insero dos graus de pertinncia na medio

dos ganhos(tj , gl ), perdas(tj , gl ), ruidos(tj , gl ) e rejeitos(tj , gl ), respectivamente, con-

siderando funes degrau apresentadas nas Equaes (4.15) e (4.16). A denio de

ganhos(tj , gl ), perdas(tj , gl ) e rejeitos(tj , gl ) inclui o maior grau de pertinncia dos do-

cumentos no grupo para o qual esto sendo avaliados os termos candidatos a descritores.

A denio de ruidos(tj , gl ) para o mtodo SoftO-wFDCL, por sua vez, tem uma parti-

cularidade. Considerando que se um termo tj ocorre em um documento que no pertence

ao grupo gl , ento este documento pertence a um outro grupo com um grau de pertinn-

cia maior do que o grau de pertinncia em gl , ou seja, o grupo para o qual esto sendo

avaliados os termos candidatos a descritores. Sendo assim, a informao de pertinncia a

ser inserida na medida de ruidos utilizada pelo mtodo SoftO-wFDCL o maior grau de

pertinncia que o documento que contm o termo tj possui em um grupo diferente de gl .


Essa denio apresentada na Equao (4.14).

Tabela 4.2: Matriz de contingncia para as medidas de Recuperao de Informao utilizadas pelo mtodo
SoftO-wFDCL

Documentos que per- Documentos que no

tencem ao grupo gl pertencem ao grupo gl


Documentos que pos-

suem o descritor can-


ganhos(tj , gl ) ruidos(tj , gl )
didato tj
Documentos que no

possuem o descritor

candidato tj perdas(tj , gl ) rejeitos(tj , gl )

1 Esta tabela igual a Tabela 4.1, porm o clculo de ganhos, ruidos, perdas e rejeitos realizado
diferentemente do mtodo SoftO-FDCL

47
4.4. O mtodo HSoftO-FDCL

n
X
ganhos(tj , gl ) = (tj , di ) (1 + (di , gl )) (di , gl ) (4.10)
i=1

n
X
perdas(tj , gl ) = (1 (tj , di )) (1 + (di , gl )) (di , gl ) (4.11)
i=1

n
X
ruidos(tj , gl ) = (tj , di ) (1 + (di , gl )) (1 (di , gl )) (4.12)
i=1

n
X
rejeitos(tj , gl ) = (1 (tj , di )) (1 + (di , gl )) (1 (di , gl )) (4.13)
i=1

c
(di , gl ) = max (di , gx ), gx 6= gl (4.14)
x=1


1, (t , d ) > 0
j i
(tj , di ) = (4.15)
0, (t , d ) 0
j i

1, (d , g )
i l
(di , gl ) = (4.16)
0, (d , g ) <
i l

O clculo de f1 do candidato a descritor tj para o grupo gl feito como segue.

i. Calcular a preciso do termo tj candidato a descritor do grupo gl :

ganhos(tj , gl )
p(tj , gl ) = (4.17)
ganhos(tj , gl ) + ruidos(tj , gl )

ii. Calcular a revocao do termo tj candidato a descritor do grupo gl :

ganhos(tj , gl )
r(tj , gl ) = (4.18)
ganhos(tj , gl ) + perdas(tj , gl )

iii. Calcular a medida f1 do termo tj candidato a descritor do grupo gl :

2 p(tj , gl ) r(tj , gl )
f 1(tj , gl ) = (4.19)
p(tj , gl ) + r(tj , gl )

A quantidade de descritores de cada grupo selecionada empiricamente a partir dos

candidatos a descritores que possuem maior f 1.

4.4 O mtodo HSoftO-FDCL


O mtodo HSoftO-FDCL ( Hierarchical Soft Organization - Fuzzy Description Comes
Last ) foi desenvolvido como uma extenso do mtodo SoftO-FDCL e tem como prop-

48
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

sito fornecer exibilidade a um SRI no nvel da sua organizao por meio da extrao de

descritores de grupos fuzzy hierrquicos de documentos. Como apresentado, o agrupa-

mento hierrquico fornece uma viso dos documentos agrupados em diferentes nveis de

abstrao. Alm disso, a organizao hierrquica de documentos permite que a coleo

de documentos seja visualizada e explorada iterativamente, j que por meio desta orga-

nizao dois tpicos podem ser a especializao ou generalizao um do outro. Ou seja,

documentos podem abordar um tpico, como por exemplo esporte, representado por um
grupo em um nvel mais alto da hierarquia, ou um sub-tpico, como por exemplo futebol,

representado por um grupo em um nvel abaixo.

Assim como o mtodo SoftO-FDCL, o mtodo HSoftO-FDCL tambm considera a

informao de pertinncia obtida do processo de agrupamento fuzzy, j que os documentos

tambm podem estar alocados em mais de um grupo em um nvel da hierarquia. No

entanto, para o mtodo HSoftO-FDCL, um documento di ,


1 i n, para n igual a
com

quantidade de documentos da coleo organizada, pertence a um grupo glu , com 1 l c,

para c igual a quantidade de grupos, e 1 u y , para y igual a quantidade de nveis

da hierarquia, se o grau de pertinncia do documento di no grupo glu maior ou igual a


(di ,glu1 )
, i.e., (di , glu ) , no qual um limiar denido por = c
, para (di , glu1 )

o grau de pertinncia do documento di no grupo glu1 , i.e., o grau de pertinncia do

documento textbfdi no grupo que deu origem a glu .

Sendo assim, o mtodo HSoftO-FDCL considera que a informao de pertinncia de

um documento em um grupo em um determinado nvel da hierarquia est condicionada

informao de pertinncia desse documento em um nvel acima. Por exemplo, observe a

hierarquia ilustrada na Figura 4.1, na qual tem-se a distribuio dos graus de pertinncia

do documento d1 .

Coleo de
documentos

(d1,g11 ) = 0.3 (d1,g21 ) = 0.1 (d1,g31 ) = 0.6


Nvel 1

(d1,g12 ) = 0.3 (d1,g22 ) = 0.2 (d1,g32 ) = 0.1


Nvel 2

Figura 4.1: Agrupamento fuzzy hierrquico

Observa-se na Figura 4.1 que a soma dos graus de pertinncia do documento d1 nos

grupos do nvel 2 da hierarquia igual ao grau de pertinncia do documento d1 no grupo

que deu origem aos grupos nos quais ele est alocado no nvel 2.

Sendo assim, o mtodo HSoftO-FDCL extrai descritores dos grupos do nvel u da hie-

49
4.4. O mtodo HSoftO-FDCL

rarquia fuzzy de documentos considerando o limiar de pertinncia apresentado anterior-

mente e a matriz de contingncia apresentada na Tabela 4.3. Nas equaes (4.20), (4.21),

(4.22) e (4.23), tem-se a formalizao da medio dos ganhos(tj , glu ), perdas(tj , glu ),
ruidos(tj , glu ) e rejeitos(tj , glu ), respectivamente, considerando funes degrau apresen-

tadas nas Equaes (4.24) e (4.25). Considerando (di , gl ) o grau de pertinncia do

documento di no grupo gl e (tj , di ) a frequncia do termo tj no documento di .

Tabela 4.3: Matriz de contingncia do termo tj para o grupo glu para as medidas de Recuperao de
Informao utilizadas pelo mtodo HSoftO-FDCL

Documentos que per- Documentos que no

tencem ao grupo glu pertencem ao grupo

glu
Documentos que pos-

suem o descritor can-


ganhos(tj , glu ) ruidos(tj , glu )
didato tj
Documentos que no

possuem o descritor

candidato tj perdas(tj , glu ) rejeitos(tj , glu )

n
X
ganhos(tj , glu ) = (tj , di ) (di , glu ) (4.20)
i=1

n
X
perdas(tj , glu ) = (1 (tj , di )) (di , glu ) (4.21)
i=1

n
X
ruidos(tj , glu ) = (tj , di ) (1 (di , glu )) (4.22)
i=1

n
X
rejeitos(tj , glu ) = 1 ((tj , di ) (di , glu )) (4.23)
i=1

1, (t , d ) > 0
j i
(tj , di ) = (4.24)
0, (t , d ) = 0
j i

1, (d , g )
i lu
(di , glu ) = (4.25)
0, (d , g ) <
i lu

Assim como o mtodo SoftO-FDCL, o mtodo HSoftO-FDCL avalia todos os termos

representativos da coleo, os quais so considerados candidatos a descritores dos grupos,

utilizando as medidas de preciso, revocao e f 1. Tal avaliao visa obter um ranking


de termos candidatos a descritores de cada grupo em cada nvel, considerando a matriz

de contingncia apresentada na Tabela 4.3. O mtodo HSoftO-FDCL tem incio com

50
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

a aplicao do mtodo SoftO-FDCL para extrair os descritores dos grupos do primeiro

nvel da hierarquia, uma vez que nesse nvel os grupos so isolados, ou seja, os grupos

no so originados de outros grupos. Alm disso, pelo mtodo HSoftO-FDCL, os termos

que tenham sido escolhidos como descritores do grupo glu1 no so considerados termos

candidatos a descritores dos grupos glu . Sendo assim, os descritores de grupos fuzzy

hierrquicos so extrados pelo mtodo HSoftO-FDCL como segue.

1. Extrair descritores dos grupos do primeiro nvel, u = 1, utilizando o mtodo SoftO-

FDCL.

2. Para cada nvel u, 2 u y , faa:

(a) Se o termo tj tiver sido escolhido como descritor do grupo glu1 , desconsider-lo.
(b) Para cada grupo g l , 1 l c, do nvel u, faa:

i. Calcular a preciso p(tj , glu ) do termo tj candidato a descritor do grupo

glu :
ganhos(tj , glu )
p(tj , glu ) = (4.26)
ganhos(tj , glu ) + ruidos(tj , glu )
ii. Calcular a revocao r(tj , glu ) do termo tj candidato a descritor do grupo

glu :
ganhos(tj , glu )
r(tj , glu ) = (4.27)
ganhos(tj , glu ) + perdas(tj , glu )
iii. Calcular a medida f 1(tj , glu ) do termo tj candidato a descritor do grupo

glu :
2 p(tj , glu ) r(tj , glu )
f 1(tj , glu ) = (4.28)
p(tj , glu ) + r(tj , glu )

3. A quantidade de descritores de cada grupo selecionada empiricamente a partir dos

candidatos a descritores que possuem maior f 1.

Ao nal desse procedimento, tem-se a organizao exvel de documentos apresentada

em um estrutura hierrquica obtida pelo agrupamento fuzzy hierrquico de documentos

e pela extrao dos descritores de grupos. Nessa organizao, a exibilidade alcanada

porque os documentos pertencem a mais de um grupo, em um mesmo nvel da hierarquia,

e os graus de pertinncia indicam a compatibilidade entre documentos e grupos. Alm

disso, os descritores extrados identicam tpicos da organizao, os quais podem ser a

especializao ou generalizao uns dos outros.

Sendo assim, a principal novidade dos mtodos propostos consiste em possibilitar a

organizao exvel de documentos. Por meio dos mtodos apresentados, descritores de

grupos so extrados para representar o contedo dos documentos de um determinado

grupo considerando a impreciso e a incerteza inerentes aos documentos. Alm disso,

os mtodos propostos so independentes do algoritmo de agrupamento utilizado. Foram

51
4.5. Avaliao dos mtodos propostos

propostos trs mtodos que extraem descritores de grupos fuzzy sobre as seguintes pers-

pectivas: o mtodo SoftO-FDCL extrai descritores de grupos fuzzy at, o qual suciente
para proporcionar a organizao exvel de documentos; o mtodo SoftO-wFDCL uma

extenso do mtodo SoftO-FDCL, o qual tambm extrai descritores de grupos fuzzy at,
mas acrescenta o grau de pertinncia obtido do agrupamento fuzzy, como uma informa-

o adicional para a extrao de descritores; e o mtodo HSoftO-wFDCL, o qual tambm

uma extenso do mtodo SoftO-FDCL para extrao de descritores de grupos hierr-

quicos, proporcionando uma viso dos documentos em diferentes nveis de abstrao. A

avaliao de cada um desses mtodos propostos apresentada a seguir.

4.5 Avaliao dos mtodos propostos


Conforme apresentado na Seo 2.3 do Captulo 2, muito comum que os descritores

de grupos obtidos pelos mtodos disponveis na literatura sejam avaliados de acordo com

o desempenho do processo de agrupamento. No entanto, de acordo com Zhang et al.

(2009), os descritores de grupos devem ser avaliados com relao sua conciso, sua

compreensibilidade, sua acurcia e/ou distino.

Nos experimentos realizados para a avaliao dos mtodos propostos neste doutorado,

avaliou-se a acurcia dos descritores obtidos, considerando que, em qualquer organizao

de documentos, importante que um tpico seja o mais representativo possvel para o con-

junto de documentos. Quando a organizao de documentos alcanada utilizando grupos

de documentos, os descritores de grupos devem ser representativos para os documentos

pertencentes a um determinado grupo. Com o objetivo de avaliar quo representativos

os descritores so, foi avaliado o poder preditivo dos descritores considerando um grupo

como uma classe e os descritores dos grupos como atributos dos documentos. Uma vez

que no agrupamento fuzzy os documentos podem pertencer a mais de um grupo, a classe

do documento considerado o grupo no qual ele possui maior grau de pertinncia.

Depois de rotular cada documento na coleo com o grupo correspondente, foi criada

uma matriz atributo-valor com cada descritor sendo um atributo. As clulas da ma-

triz contm a frequncia ponderada de um termo em um documento em funo de sua

distribuio ao longo da coleo, denominada tf -idf (Term Frequency-Inverse Document


Frequency ). A partir dessa medida, a clula dij = tf idf (tj , di ) = f req(tj , di ) idf (tj ),
1 j k e 1 i n. A frequncia do termo tj no documento di f req(tj , di ), e o
inverso da frequncia do termo tj no documento di idf (tj ) = log
d(tj ) , com d(tj ) igual a
K

quantidade de documentos em que tj ocorre. Por meio dessa medida, a importncia dos

termos no documento ponderada, de forma que os termos presentes em muitos documen-

tos tem um peso menor do que os termos que ocorrem mais raramente na coleo. Termos

que ocorrem em muitos documentos no distinguem tpicos. Por outro lado, termos que

ocorrem em poucos documentos podem distinguir tpicos.

Utilizando essa matriz, foram realizados experimentos de forma a analisar as taxas

52
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

de acerto obtidas da utilizao de algoritmos de classicao bastante conhecidos na

literatura. Para tais experimentos, foram utilizadas colees de documentos conhecidas

na literatura e considerou-se o pr-processamento dos documentos como a primeira etapa

de todas as anlises, uma vez que muito importante que os documentos estejam em um

formato adequado para que seja realizado o processo de agrupamento.

As colees de documentos, a forma de pr-processamento dos documentos e os al-

goritmos de classicao utilizados na avaliao dos mtodos propostos so descritos a

seguir.

4.5.1 Colees de documentos utilizados na avaliao dos mtodos propostos


Para avaliar os mtodos propostos foram utilizadas as colees de documentos cujas

caractersticas, quantidade de classes e quantidade de documentos, so apresentadas na

Tabela 4.4.

Tabela 4.4: Colees de documentos utilizadas nos experimentos

Coleo # classes # documentos


Opinosis 3 51

Reuters-21578 43 1052

WAP 20 1560

20Newsgroups 4 2000

NSF 16 1600

Hitech 6 600

Nos experimentos, foram utilizados subconjuntos das colees visando a otimizao do

custo computacional dos algoritmos de classicao, bem como uma observao manual

dos descritores obtidos pelos mtodos propostos. Os subconjuntos foram obtidos pela

seleo aleatria de documentos de cada classe das colees. A descrio de cada coleo

apresentada a seguir.

Opinosis
A coleo de documentos Opinosis composta por documentos que possuem como

contedo revises feitas por consumidores sobre as caractersticas de algum produto. As

revises dos consumidores foram obtidas dos seguintes stios da web: Tripadvisor.com,
pelo qual consumidores podem fazer revises sobre hotis; Amazon.com, pelo qual con-

sumidores podem fazer revises sobre carros; e Edmunds.com, pelo qual consumidores

podem fazer revises sobre produtos eletrnicos. Essa coleo foi adquirida do repositrio

UCI Machine Learning Repository (Frank e Asuncion, 2010).

Essa coleo foi bastante utilizada nos experimentos, pois ela apresenta caractersticas

que remetem bastante ao problema abordado neste doutorado. As sentenas dos documen-

tos dessa coleo so altamente subjetivas, imprecisas e incertas, uma vez que diferentes

documentos com diferentes revises e sobre diferentes caractersticas de produtos podem

53
4.5. Avaliao dos mtodos propostos

compartilhar sentenas semelhantes. O objetivo de organizar esses documentos por meio

de agrupamento fuzzy encontrar grupos de documentos que apresentam alguma simila-

ridade relacionada aos tpicos das revises realizadas pelos consumidores. Por exemplo,

considere as revises de dois produtos: carro e computador porttil, respectivamente: O

limite de velocidade deste carro bom e Este computador porttil tem boa velocidade

de desempenho. Nesse contexto, o tpico velocidade um tpico em comum entre os

dois produtos. Na organizao exvel de documentos proposta, diferentes produtos como

esses podem ser alocados em um mesmo grupo que representa o tpico velocidade.

Alm disso, essa coleo possui um conjunto de sumrios dos documentos, com os quais

possvel realizar uma avaliao qualitativa acerca dos descritores de grupos obtidos pelos

mtodos propostos.

Os sumrios dos documentos da coleo Opinosis foram escritos por humanos por

meio do Amazon's Online Workforce 2 pelo qual 5 diferentes pessoas puderam escrever

livremente um sumrio para cada documento. Os sumrios foram previamente utilizados

pelos autores da coleo para avaliar um mtodo de sumarizao automtica proposto

pelos mesmos (Ganesan et al., 2010). Segundo os autores, a comparao dos sumrios

escritos por humanos com os sumrios gerados automaticamente tem melhor relao com

o julgamento humano de qualidade do mtodo proposto, pois os sumrios so compostos

por sentenas curtas compostas por palavras que representam a informao essencial dos

documentos.

Um exemplo do conjunto de sumrios do documento que contm revises sobre a vida

til da bateria do equipamento amazon kindle ( battery life of the amazon kindle )

apresentado na Tabela 4.5.

Tabela 4.5: Sumrios escritos por humanos sobre o documento  battery life of the amazon kindle  da
coleo opinosis

The Kindle can run for days without a need for rechar-
ging.
Battery life is exceptional.
It can be a very dicult process when trying to replace
the battery. The battery seems to lose charge quickly.
The battery meter is hard to distinguish and provides
little insight into the expected life of the battery.
Although the battery cannot be replaced as there are large
number of ways to charge the device.
The battery life of the Kindle is very long.

Reuters
A coleo Reuters-21578
3 uma das colees mais utilizadas para testes de pesquisas

2 http://aws.amazon.com/mturk/
3 http://www.daviddlewis.com/resources/testcollections/

54
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

sobre categorizao de documentos. Essa coleo foi obtida pelo Carnegie Group, Inc.
and Reuters, Ltd durante o desenvolvimento do sistema de categorizao de documentos

chamado CONSTRUE (Hayes e Weinstein, 1990). Essa coleo composta por 21578

documentos em seu formato original distribudos em 43 categorias. Nos experimentos

realizados neste doutorado, foi utilizado um subconjunto composto por 1052 documen-

tos obtidos da coleo original. Este subconjunto foi obtido pela seleo aleatria de

documentos de cada classe da coleo.

Wap
A coleo Wap foi obtida por Moore et al. (1997) no projeto chamado WebACE

(Han et al., 1998). Cada documento dessa coleo corresponde a uma pgina da web em
4
um dos tpicos da hierarquia do Yahoo! . A coleo composta por 1560 documentos

distribudos em 20 categorias em seu formato original, dos quais todos foram utilizados

nos experimentos.

20Newsgroups
A coleo 20Newsgroups tem se tornado uma das colees mais populares para ava-

liao de aplicaes de tcnicas de aprendizado de mquina sobre documentos, tal como

classicao de documentos e agrupamento de documentos. Essa coleo foi adquirida

por Lang (1995) para a pesquisa chamada Newsweeder. A coleo original composta

por 20000 documentos, distribudas em aproximadamente 20 categorias. Nos experimen-

tos realizados neste doutorado, foram selecionados os documentos da categoria science,


os quais so distribudos nas classes sci.crypt, sci.electronics, sci.med and sci.space. Esse

subconjunto de documentos da coleo 20Newsgroups composto por 2000 documentos,

o qual foi obtido pela seleo aleatria de documentos de cada classe da coleo.

NSF
National Science Foundation ) foi adquirida por meio do repositrio
A coleo NSF (

UCI Machine Learning Repository (Frank e Asuncion, 2010). A coleo original consiste
de 129000 resumos relacionados aos prmios oferecidos pela NSF para pesquisas bsicas.

Neste doutorado foram selecionados aleatoriamente 1600 documentos para a realizao

dos experimentos.

Hitech
A coleo Hitech foi obtida a partir da conferncia Text REtrieval Conference
5
(TREC) . Seus documentos so compostos de notcias da revista Jose Mercury News, as
quais so classicadas em diferentes tpicos. A coleo original consiste de 2301 documen-

tos, dos quais foram selecionados aleatoriamente 600 documentos para os experimentos

realizados neste doutorado.

4 http://www.yahoo.com
5 http://trec.nist.gov

55
4.5. Avaliao dos mtodos propostos

4.5.2 Pr-processamento dos documentos utilizados na avaliao dos mtodos


propostos
Para a extrao de descritores de grupos, considera-se que a coleo de documentos

primeiramente pr-processada, de forma a obter a matriz documentos-termos, conforme

apresentado na Seo 2.2 do Captulo 2. Nos experimentos realizados para avaliao dos

mtodos propostos para extrao de descritores de grupos fuzzy, a matriz documentos-

termos foi gerada utilizando a ferramenta Pretext (Soares et al., 2008). Essa matriz con-

tem em suas clulas a tf -idf (Term Frequency-Inverse Document Frequency ) dos termos,

a qual refere-se a frequncia dos termos em um documento ponderada pela frequncia com

que os mesmos termos ocorrem na coleo inteira. Por meio desta medida, a importncia

dos termos em um documento ponderada, de tal forma que termos presentes em muitos

documentos tem um peso menor do que os termos que ocorrem raramente na coleo.

Termos que ocorrem em muitos documentos no distinguem assuntos. Por outro lado,

termos que ocorrem em poucos documentos podem distinguir assuntos.

Uma vez pr-processados, os documentos so agrupados por meio de algum dos algorit-

mos de agrupamento fuzzy apresentados no Captulo 2. A medida de validao Silhueta

Fuzzy, tambm apresentada no Captulo 2, utilizada em todos os experimentos para

determinar a quantidade de grupos adequada para organizar a coleo de documentos.

A partir do agrupamento fuzzy de documentos tem-se a matriz documentos-grupos e

os seus descritores podem ser extrados por um dos mtodos propostos.

4.5.3 Algoritmos de classicao utilizados na avaliao dos mtodos propostos


Para avaliar a acurcia dos descritores extrados pelos mtodos propostos, algoritmos

de classicao conhecidos foram utilizados: SVM, Naive Bayes (NB), Multinomial Naive

Bayes (M.Naive), KNN e C4.5.

A maior vantagem do SVM sua habilidade de aprender independente da dimensiona-

lidade do espao de caractersticas. Entretanto, de acordo com Shanahan e Roma (2003),

quando o SVM aplicado para classicao de documentos ele prov excelente preciso,

mas baixa revocao.

O classicador Naive Bayes (NB) baseado nas regras de Bayes sobre probabilidade

condicional. Ele usa todos os atributos contidos nos dados, e os analisa individualmente.

De acordo com Schneider (2005), este mtodo frequentemente utilizado para aplicaes

e experimentos devido sua simplicidade e ecincia.

K-Nearest Neighbor ) um mtodo de


O KNN ( aprendizado baseado em instncias

(Instance-Based Learning - IBL) (Mitchell, 1997). Abordagens IBL podem construir

aproximaes diferentes da funo objetivo para cada instncia a ser classicada. O

KNN constri uma aproximao local para a funo objetivo e a aplica nos vizinhos da

instncia a ser classicada. Isto possui signicativas vantagens quando a funo objetivo

muito complexa. A desvantagem do KNN que ele tipicamente considera todos os

56
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

atributos das instncias quando objetiva recuperar da memria exemplos de treinamento

semelhantes (Joachims, 1998).

O algoritmo C4.5 (Quinlan, 1993) um modelo de aprendizado de mquina preditivo

que decide o valor objetivo de um novo exemplo baseado em vrios valores de atributos

dos dados disponveis.

Resultados experimentais obtidos por Joachims (1998) mostraram que os SVMs con-

sistentemente obtm bom desempenho nas tarefas de categorizao de documentos, supe-

rando os demais mtodos. Contudo, Gabrilovich e Markovitch (2004) demonstraram que

em algumas colees o C4.5 supera o SVM e o KNN, embora o SVM seja considerado

substancialmente superior para categorizaes de documentos. De acordo com os autores,

quando a seleo de caractersticas executada, C4.5 constri pequenas rvores de deciso

que capturam o conceito melhor que o SVM e o KNN. Alm disso, mesmo quando a se-

leo de caractersticas otimizada para cada classicador, o C4.5 formula um poderoso

modelo de classicao, o qual signicativamente superior ao KNN e marginalmente

inferior ao SVM.

A implementao desses mtodos est disponvel na ferramenta Weka (Hall et al.,

2009), cuja verso 3.6 foi utilizada para realizao dos experimentos de avaliao dos

mtodos propostos para neste doutorado para extrao de descritores de grupos. Os al-

goritmos Naive Bayes (NB), Multinomial Naive Bayes (M.Naive) e J48 (a implementao

Weka do mtodo C4.5) foram executados nos experimentos utilizando os parmetros pa-

dro da ferramenta. Apenas o desempenho do SVM foi renado usando os Normalized


Polynomial Kernel e o parmetro de complexidade c=2.0. Esse renamento foi necess-

rio porque o SVM conhecidamente sensvel inicializao de seus parmetros. O IBk

(implementao weka do mtodo KNN) foi experimentado utilizando as quantidades de

vizinhos variando de 1 a 7. Os melhores resultados foram obtidos utilizando 5 vizinhos.

Sendo assim, devido s caractersticas distintas de cada um, estes algoritmos de clas-

sicao so boas opes para avaliar os descritores de grupos obtidos pelos mtodos

propostos e vericar a acurcia dos descritores quando utilizados por diferentes tipos de

algoritmos de classicao.

A seguir, so avaliados os mtodos propostos neste doutorado, os quais foram apre-

sentados nas Sees 4.2, 4.3 e 4.4, respectivamente.

4.5.4 Avaliao do mtodo SoftO-FDCL


Visando a organizao exvel de documentos, o mtodo SoftO-FDCL foi proposto

para extrair descritores de grupos obtidos do agrupamento fuzzy at de documentos.

Sendo assim, importante que os descritores sejam o mais representativos possveis para

a coleo de documentos. Para vericar se os descritores extrados pelo mtodo SoftO-

FDCL satisfazem esta armao, foram realizadas quatro avaliaes: avaliao qualita-

tiva, avaliao quantitativa, teste possibilstico e comparao com mtodos de seleo de

atributos, as quais so apresentadas a seguir.

57
4.5. Avaliao dos mtodos propostos

Avaliao quantitativa

A avaliao quantitativa do mtodo SoftO-FDCL foi realizada para vericar o poder

preditivo dos descritores extrados. Para tanto, os descritores de grupos so considera-

dos atributos dos documentos e a classe do documento considerado o grupo no qual

ele possui maior grau de pertinncia. Assim, a qualidade dos descritores medida pelo

desempenho dos algoritmos de classicao e de uma anlise comparativa entre o desem-

penho dos mesmos algoritmos de classicao utilizando descritores obtidos pelo mtodo

centroide (Manning et al., 2008). Por meio desse mtodo, os termos que ocorrem com

maior frequncia no vetor que corresponde ao centroide de um determinado grupo so

selecionados como descritores deste grupo.

Utilizando os descritores de grupos extrados pelos mtodos Centride e SoftO-FDCL

foram obtidas, portanto, taxas de acerto pelos mtodos de classicao: SVM, Naive

Bayes (NB), Multinomial Naive Bayes (M.Naive), KNN e C4.5.

A avaliao quantitativa do mtodo SoftO-FDCL foi realizada utilizando a coleo

de documentos Opinosis, descrita anteriormente na Seo 4.5.1. Vale ressaltar que, para

um vocabulrio grande como o vocabulrio da coleo Opinosis, uma quantidade razovel

de descritores deve ser considerada para a categorizao de documentos. O vocabu-

lrio da coleao Opinosis considerado grande devido diversidade dessa coleao. A

mesma composta por 51 documentos distribudos em 3 categorias, ou seja, os docu-

mentos so compostos por palavras que distinguem cada uma das trs categorias. Assim,

considerando o tamanho dos documentos, a quantidade de 100 descritores foi escolhida

arbitrariamente para representar cada grupo.

Um exemplo de descritores obtidos pelo mtodo SoftO-FDCL, para a organizao da

coleo Opinosis, pode ser observado na Tabela 4.6. Observe que os termos foram stem-

mizados durante o pr-processamento dos documentos, conforme apresentado na Seo

2.2 do Captulo 2.

As taxas de acerto obtidas para cada classicador so apresentadas na Tabela 4.7. Os

melhores resultados esto destacados em cinza. Com estas taxas, a representatividade

dos descritores obtidos pelo mtodo SoftO-FDCL e pelo mtodo centroide foi analisada.

Estes resultados foram apresentados por Nogueira et al. (2011a) concluindo-se que o

mtodo SoftO-FDCL extrai bons descritores para os grupos obtidos da coleo Opinosis.

importante ressaltar que o alto desvio padro foi obtido devido pequena quantidade

de documentos ter sido avaliada usando 10- fold cross validation.


Alm da extrao dos descritores, foi obtida a organizao exvel da coleo Opinosis

pela distribuio dos documentos em mais de um grupo. Considerando que os graus de

pertinncia dos documentos nos grupos reetem a compatibilidade dos documentos com os

tpicos representados pelos descritores de grupos, a organizao exvel permite organizar

documentos em vrios tpicos simultaneamente, uma vez que documentos podem abordar

vrios tpicos ao mesmo tempo.

58
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

Tabela 4.6: Vinte descritores com maior valor de f1 obtidos pelo mtodo SoftO-FDCL para cada grupo
da coleo Opinosis

easi read, touch screen, post speed, gp unit, top notch,


Grupo 1
readi navig, coupl time, updat garmin, estim time arriv,

miss turn, turn direct, year ago, speed limit, long trip,

nice featur, time arriv, estim time, text speech, post

speed limit, turn turn

place stai, sta friendli, servic room, great locat, hotel


Grupo 2
great, front desk, book room, conveni locat, great room,

nice touch, room servic, comfort room, room larg, good

servic, room nice, clean room, room small, locat great,

bed comfort, room clean

increa batteri life, keyboard larg comfort type, keyboard


Grupo 3
larg, long batteri life, comfort type, usb port, decent size

screen, speed perform, keyboard great, light weight, long

batteri, full size, screen small, keyboard larg comfort,

life great, make hard, batteri life great, remov batteri,

keyboard layout, batteri life

radio excel, sound qualiti, interior qualiti, screen bi,


Grupo 4
great sound, great screen, qualiti good, qualiti interior,

love pedomet, batteri longer, sound system, ipod nano,

gen nano, video camera, love fact, design aw, ga mileag,

love car, built speaker, batteri life

Tabela 4.7: Taxas de acerto obtidas pelos algoritmos de classicao utilizando os descritores extrados
pelos mtodos Centroide e SoftO-FDCL

Algoritmo de classicao Centroide SoftO-FDCL


SVM 0,56 (0,21) 0,70 (0,24)

NB 0,44 (0,19) 0,79 (0,17)

MM.Naive 0,58 (0,23) 0,77 (0,19)

KNN-5 0,44 (0,16) 0,60 (0,24)

J48 0,55 (0,22) 0,45 (0,18)

O mtodo SoftO-FDCL permite ainda a organizao dos documentos em tpicos de

maneira totalmente no-supervisionada, i.e., sem participao do especialista de domnio.


Logo, esta organizao pode ser generalizada e explorada por diferentes usurios.

Avaliao qualitativa
Em adio avaliao quantitativa apresentada anteriormente, uma avaliao qualita-

tiva do mtodo SoftO-FDCL foi realizada tambm utilizando a coleo Opinosis. A orga-

59
4.5. Avaliao dos mtodos propostos

nizao exvel da coleo Opinosis apresentada no formato matriz documentos-grupos na

Tabela 4.8 e os tpicos identicados por descritores de grupos j apresentados na Tabela

4.6 so os principais resultados dessa avaliao.

Na primeira coluna da Tabela 4.8 tem-se a identicao (ID) de cada documento

da coleo Opinosis. Na segunda coluna, a caracterstica do produto revisado em cada

documento apresentada, e nas demais colunas tem-se os graus de pertinncia de cada

documento nos quatro grupos obtidos a partir do agrupamento fuzzy (Grupo 1, Grupo 2,

Grupo 3 e Grupo 4). Nesta tabela, os valores destacados em negrito representam o maior

grau de pertinncia do documento.

Para explorar a avaliao qualitativa, considere o documento D20 na Tabela 4.8. Esse

documento composto pela reviso de consumidores sobre o teclado do computador por-

ttil 1005ha ( keyboard of the netbook 1005ha ). Esse documento tem grau de compati-

bilidade com os grupos 1, 2, 3 e 4, igual a 0.21, 0.19, 0.38, e 0.21, respectivamente. A

organizao do documento D20 pode apresentar a seguinte interpretao. Uma vez que

ele possui maior compatibilidade com o grupo 3, ele compatvel com o tpico relacio-

nado s caractersticas do produto teclado, uma vez que o grupo 3 representado por

descritores que identicam o tpico teclado ( keyboard ). Por outro lado, o documento D20

possui menor compatibilidade com o grupo 2. Como esperado, esse grupo representado

por descritores mais prximos em signicado das palavras presentes nos documentos sobre

hotis, os quais no tem relao com o documento D20. Entretanto, o documento D20

tambm tem grau de compatibilidade com o grupo 4 e o grupo 1, os quais so repre-

sentados por descritores que identicam os tpicos qualidade ( quality ) e tempo ( time ),
respectivamente.

Os grupos 4 e 1 so representativos da organizao exvel, uma vez que documentos

compostos por revises sobre diferentes caractersticas de um produto (hotel, carro ou

produtos eletrnicos) podem abordar os tpicos identicados pelos descritores de ambos

os grupos. Por exemplo, documentos sobre hotis e/ou sobre carros podem ser compatveis

com o tpico relacionado a tempo, se os revisores avaliarem o tempo gasto para chegar,

de carro, a um destino a partir de um hotel. Alm disso, um produto eletrnico tambm

pode ser revisado pelo tempo de sua bateria. Como outro exemplo, os produtos podem

ser compatveis com o tpico relacionado qualidade, uma vez que todos eles podem ser

revisados de acordo com a qualidade de suas caractersticas.

Uma vez obtida essa organizao, foi avaliado se os descritores de grupos extrados pelo

mtodo SoftO-FDCL capturam a informao essencial da coleo Opinosis, no sentido

de que as principais palavras utilizadas por humanos em seus sumrios so similares

aos descritores extrados. Essa avaliao foi realizada observando se a frequncia dos

descritores, extrados automaticamente, nos sumrios dos documentos feitos por humanos

aumenta quando a compatibilidade de um documento com um tpico tambm aumenta.

Na Figura 4.2 tem-se quatro grcos, um para cada grupo, os quais representam os

graus de compatibilidade (pertinncia) (representados por linhas no grco) dos docu-

60
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

Tabela 4.8: Organizao exvel da coleo Opinosis representada no formato documentos-grupos obtida
pelo mtodo SoftO-FDCL

ID Caracterstica do produto Grupo 1 Grupo 2 Grupo 3 Grupo 4

D1 accuracy_garmin_nuvi_255W_gps 0,99998 0,00001 0,00001 0,00001


D2 bathroom_bestwestern_hotel_sfo 0,23280 0,30607 0,22693 0,23420
D3 battery-life_amazon_kindle 0,22154 0,22052 0,30602 0,25192
D4 battery-life_ipod_nano_8gb 0,00003 0,00002 0,00003 0,99992
D5 battery-life_netbook_1005ha 0,00000 0,00000 0,99999 0,00000
D6 buttons_amazon_kindle 0,24933 0,24888 0,25046 0,25133
D7 comfort_honda_accord_2008 0,25001 0,25066 0,24837 0,25096
D8 comfort_toyota_camry_2007 0,25170 0,24938 0,24978 0,24913
D9 directions_garmin_nuvi_255W_gps 0,68597 0,10174 0,10417 0,10812
D10 display_garmin_nuvi_255W_gps 0,31475 0,22445 0,22675 0,23405
D11 eyesight-issues_amazon_kindle 0,25169 0,24765 0,25108 0,24959
D12 features_windows7 0,25086 0,24787 0,25153 0,24974
D13 fonts_amazon_kindle 0,25169 0,25008 0,24766 0,25057
D14 food_holiday_inn_london 0,20458 0,38809 0,20258 0,20475
D15 food_swissotel_chicago 0,24767 0,25456 0,24651 0,25126
D16 free_bestwestern_hotel_sfo 0,24750 0,25781 0,24646 0,24823
D17 gas_mileage_toyota_camry_2007 0,24928 0,24839 0,25297 0,24936
D18 interior_honda_accord_2008 0,25292 0,24903 0,24883 0,24922
D19 interior_toyota_camry_2007 0,24893 0,24999 0,24829 0,25279
D20 keyboard_netbook_1005ha 0,21047 0,18917 0,38453 0,21582
D21 location_bestwestern_hotel_sfo 0,24664 0,26283 0,24282 0,24771
D22 location_holiday_inn_london 0,20394 0,39104 0,20048 0,20455
D23 mileage_honda_accord_2008 0,25114 0,24802 0,24870 0,25214
D24 navigation_amazon_kindle 0,25013 0,25007 0,24982 0,24998
D25 parking_bestwestern_hotel_sfo 0,24879 0,26096 0,24422 0,24603
D26 performance_honda_accord_2008 0,24944 0,25175 0,24936 0,24945
D27 performance_netbook_1005ha 0,05800 0,05487 0.82842 0,05870
D28 price_amazon_kindle 0,24646 0,25125 0,25307 0,24922
D29 price_holiday_inn_london 0,20791 0,37717 0,20596 0,20896
D30 quality_toyota_camry_2007 0,24950 0,25054 0,24949 0,25048
D31 room_holiday_inn_london 0,00000 0,99999 0,00000 0,00000
D32 rooms_bestwestern_hotel_sfo 0,23290 0,31676 0,21243 0,23790
D33 rooms_swissotel_chicago 0,23404 0,31132 0,21400 0,24064
D34 satellite_garmin_nuvi_255W_gps 0,29992 0,23188 0,23124 0,23696
D35 screen_garmin_nuvi_255W_gps 0,26127 0,24102 0,24743 0,25027
D36 screen_ipod_nano_8gb 0,16818 0,15751 0,16332 0,51099
D37 screen_netbook_1005ha 0,13792 0,12259 0,59537 0,14413
D38 seats_honda_accord_2008 0,24917 0,25043 0,24985 0,25056
D39 service_bestwestern_hotel_sfo 0,24755 0,26357 0,24027 0,24860
D40 service_holiday_inn_london 0,05528 0.83669 0,05245 0,05558
D41 service_swissotel_hotel_chicago 0,24612 0,27135 0,23661 0,24592
D42 size_asus_netbook_1005ha 0,18775 0,17004 0,44958 0,19263
D43 sound_ipod_nano_8gb 0,15830 0,14842 0,15039 0,54289
D44 speed_garmin_nuvi_255W_gps 0,45658 0,17701 0,17716 0,18924
D45 speed_windows7 0,24717 0,24179 0,26343 0,24761
D46 sta_bestwestern_hotel_sfo 0,24674 0,26955 0,23401 0,24969
D47 sta_swissotel_chicago 0,24875 0,26227 0,23940 0,24957
D48 transmission_toyota_camry_2007 0,24891 0,25034 0,25064 0,25011
D49 updates_garmin_nuvi_255W_gps 0,29744 0,23134 0,23058 0,24064
D50 video_ipod_nano_8gb 0,16080 0,15033 0,15751 0,53136
D51 voice_garmin_nuvi_255W_gps 0,28940 0,23193 0,23555 0,24312

61
4.5. Avaliao dos mtodos propostos

mentos da coleo Opinosis com o grupo no qual esse documento tem grau de pertinncia
1
maior ou igual ao limiar = c
, para c igual a quantidade de grupos, ou seja, documentos

que possuem grau de pertinncia maior ou igual a 0, 25; e a frequncia (representada por

barras no grco) dos 50 melhores descritores do grupo nos sumrios dos documentos. O

eixo y dos grcos representa a escala dos graus de compatibilidade e frequncia. No eixo

x dos grcos tem-se os documentos que possuem maior grau de compatibilidade com o

grupo representado pelo grco correspondente.

Nos grcos apresentados na Figura 4.2 observa-se que o documento D3 possui grau

de compatibilidade 0, 31 com o grupo 3 e os descritores do grupo 3 ocorrem nos sumrios

do documento D3 com 80% de frequncia, ou seja, 80% dos descritores extrados pelo

mtodo SoftO-FDCL foram utilizados nos sumrios do documento D3. Por outro lado, o

documento D1 tem grau de compatibilidade 0, 99 com o grupo 1 e os descritores do grupo


1 ocorrem nos sumrios do documento D1 com 10% de frequncia. Dessa observao,

conclui-se que alguns descritores so mais frequentes nos sumrios dos documentos que

possuem baixa compatibilidade com um grupo do que nos sumrios dos documentos que

possuem alta compatibilidade com um grupo. Logo, os descritores que apresentam menor

relevncia para representar um determinado grupo so aqueles que ocorrem com alta

frequncia nos sumrios dos documentos que possuem baixa compatibilidade com este

grupo.

Por outro lado, uma caracterstica especca observada no documento D1. possuem

grau de compatibilidade 0, 99 com algum grupo. Ele possui grau de compatibilidade 0, 99


com o grupo 1, mas os descritores do grupo 1 possuem baixa frequncia nos sumrios

desse documento. Uma explicao para isto que os descritores so obtidos a partir de

toda a coleo de documentos, enquanto a frequncia utilizada na avaliao apresentada

na Figura 4.2 foi computada sobre os sumrios escritos por humanos. Portanto, existem

palavras que foram utilizadas nos sumrios mas que no foram utilizadas nos documentos,

especialmente palavras sinnimas. Alm disso, os sumrios so menores que os documen-

tos.

Esses resultados foram apresentados por Nogueira et al. (2012a), concluindo-se que o

mtodo SoftO-FDCL extrai descritores de grupos que capturam a informao essencial

dos documentos a serem organizados de maneira exvel, uma vez que grande parte dos

descritores extrados pelo mtodo SoftO-FDCL foram tambm utilizados nos sumrios

escritos por humanos.

Teste possibilstico
Uma vez que em mtodos de extrao de descritores do tipo DCL o agrupamento

separado da extrao de descritores, qualquer algoritmo de agrupamento fuzzy pode ser

utilizado para agrupar os documentos. No entanto, os graus de pertinncia obtidos podem

interferir na qualidade dos descritores, j que cada algoritmo de agrupamento fuzzy tem

sua prpria denio de grau de pertinncia.

62
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

Figura 4.2: Frequncia de 50 descritores nos sumrios dos documentos que possuem grau de pertinncia
no grupo representado por um grco maior ou igual ao limiar =0,25

Sendo assim, uma vez que o mtodo SoftO-FDCL depende dos graus de pertinncia

obtidos do processo de agrupamento fuzzy para ponderar um termo candidato a descritor

de grupo, importante vericar o quanto os graus de pertinncia inuenciam na extrao

de descritores de grupos fuzzy.

Como exemplo de vericao de tal inuncia, considere a situao na qual existem 3

documentos compostos por 3 termos cada um, para a qual a matriz documentos-termos

ilustrada na Tabela 4.9. Esses documentos foram agrupados em 2 grupos utilizando

os algoritmos de agrupamento Fuzzy C-Means (FCM) (Bezdek, 1981) e Possibilistico C-

Means (PCM) (Pal et al., 2005), ambos apresentados no Captulo 2. Considere a matriz

documentos-grupos ilustrada na Tabela 4.10 obtida do algoritmo FCM. Para esse exemplo,

o mtodo SoftO-FDCL inicialmente executado utilizando essas duas matrizes.

Tabela 4.9: Exemplo de matriz documentos-termos

Termos
Documentos
t1 t2 t3
d1 0 0 1

d2 1 1 1

d3 0 1 1

63
4.5. Avaliao dos mtodos propostos

Tabela 4.10: Matriz documentos-grupos obtida do agrupamento FCM para o exemplo da Tabela 4.9

Grupos
Documentos
g1 g2
d1 0,5 0,5

d2 0,3 0,7

d3 0,6 0,4

Considerando cada termo na Tabela 4.9 como candidato a descritor de grupo, conforme

denio do mtodo SoftO-FDCL apresentado anteriormente na Seo 4.2, a extrao de

descritores de um determinado grupo tem incio com a ponderao dos termos candidatos

a descritores pela medida f 1. Para o exemplo apresentado, obteve-se os seguintes valores

de f1 para todos os termos em todos os grupos utilizando a informao de pertinncia

apresentada na Tabela 4.10 : f 1(t1 , g1 ) = 0, f 1(t2 , g1 ) = 0.5, f 1(t3 , g1 ) = 0.79, f 1(t1 , g2 ) =


0.5, f 1(t2 , g2 ) = 0.66, f 1(t3 , g2 ) = 1.0
Para vericar a inuncia do grau de pertinncia no mtodo SoftO-FDCL, considere

a matriz documentos-grupos obtida do agrupamento PCM na Tabela 4.11.

Tabela 4.11: Matriz documentos-grupos obtida do agrupamento PCM para o exemplo da Tabela 4.9

Grupos
Documentos
g1 g2
d1 0,3 0,3

d2 0,3 0,7

dn 0,6 0,4

Aplicando o mtodo SoftO-FDCL utilizando a informao de pertinncia apresentada

na Tabela 4.11, obteve-se os seguintes valores de f 1 para todos os termos em todos os


grupos: f 1(t1 , g1 ) = 0, f 1(t2 , g1 ) = 1.0, f 1(t3 , g1 ) = 0.49, f 1(t1 , g2 ) = 1.0, f 1(t2 , g2 ) =

0.66, f 1(t3 , g2 ) = 0.49.


Sendo assim, a partir do exemplo apresentado, foram obtidos diferentes rankings de

termos candidatos a descritores. Aplicando o mtodo SoftO-FDCL aps o agrupamento

de documentos realizado por meio do algoritmo FCM, obteve-se um ranking de termos

candidatos a descritores igual a t1 < t2 < t3 para o grupo 1 e t1 < t2 < t3 para o grupo

2. Aplicando o mtodo SoftO-FDCL aps o agrupamento de documentos realizado por

meio do algoritmo PCM, obteve-se um ranking de termos candidatos a descritores igual

a t1 < t3 < t2 para o grupo 1 e t3 < t2 < t1 para o grupo 2. Portanto, h indcios de

que essa diferena pode afetar a organizao de documentos por meio de descritores de

grupos.

Diante disto, para vericar se a diferena de rankings de termos obtidos pelo m-

todo SoftO-FDCL aps o agrupamento de documentos realizado por meio do algoritmo

FCM e PCM inuencia na qualidade dos descritores obtidos, alguns experimentos foram

64
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

realizados utilizando diferentes colees de documentos. Para avaliar a qualidade dos des-

critores, o poder de predio dos descritores obtidos pelo mtodo SoftO-FDCL foi medido

considerando que os mesmos so bons atributos para categorizao dos documentos. Para

tanto, os descritores de grupos so considerados atributos dos documentos e a classe do

documento o grupo no qual ele possui maior grau de pertinncia.

Para essa avaliao, algoritmos de classicao conhecidos e denidos na Seo 4.5.3

foram executados. Os resultados obtidos so apresentados nas Tabelas 4.12, 4.13, 4.14,

4.15, 4.16 e 4.17.

Tabela 4.12: Qualidade dos descritores extrados pelo mtodo SoftO-FDCL para os grupos obtidos pelos
algoritmos PCM e FCM (Coleo Opinosis)

Algoritmo de Classicao PCM FCM


NB 84,00(15,78) 66,00(18,97)

M.Naive 88,00(10,33) 80,00(21,08)

KNN 62,00(19,89) 62,00(17,51)

SVM 82,00(19,89) 62,00(22,01)

J48 68,00(21,50) 54,00(28,36)

Tabela 4.13: Qualidade dos descritores extrados pelo mtodo SoftO-FDCL para os grupos obtidos pelos
algoritmos PCM e FCM (Coleo 20Newsgroups)

Algoritmo de Classicao PCM FCM


NB 58,43(3,20) 62,53(2,45)

M.Naive 48,82(1,69) 40,17(2,27)

KNN 54,03(2,66) 52,18(4,25)

SVM 66,08(2,66) 69,93(1,57)

J48 64,63(2,74) 62,83(2,82)

Tabela 4.14: Qualidade dos descritores extrados pelo mtodo SoftO-FDCL para os grupos obtidos pelos
algoritmos PCM e FCM (Coleo Reuters-21578)

Algoritmo de Classicao PCM FCM


NB 20,37(3,54) 61,47(3,40)

M.Naive 50,71(1,21) 97,34(1,25)

KNN 59,85(3,75) 98,10(0,44)

SVM 55,38(6,00) 98,67(0,92)

J48 61,00(4,23) 98,57(0,67)

65
4.5. Avaliao dos mtodos propostos

Tabela 4.15: Qualidade dos descritores extrados pelo mtodo SoftO-FDCL para os grupos obtidos pelos
algoritmos PCM e FCM (Coleo WAP)

Algoritmo de Classicao PCM FCM


NB 53,37(3,75) 51,19(3,37)

M.Naive 56,77(1,91) 92,62(0.88)

KNN 53,63(3,64) 93,14(0.87)

SVM 71,84(3,50) 91,79(0,58)

J48 66,84(4,29) 95,70(1,42)

Tabela 4.16: Qualidade dos descritores extrados pelo mtodo SoftO-FDCL para os grupos obtidos pelos
algoritmos PCM e FCM (Coleo Hitech)

Algoritmo de Classicao PCM FCM


NB 40,72(5,45) 38,21(5,80)

M.Naive 41,82(4,95) 41,27(3,43)

SVM 46,98(5,63) 46,14(5,14)

KNN 43,46(6,30) 35,05(5,36)

J48 36,76(6,65) 36,09(6,03)

Tabela 4.17: Qualidade dos descritores extrados pelo mtodo SoftO-FDCL para os grupos obtidos pelos
algoritmos PCM e FCM (Coleo NSF)

Algoritmo de Classicao PCM FCM


NB 90,62(1,55) 93,56(1,82)

M.Naive 85,90(0,57) 93,94(0,16)

SVM 98,25(0,97) 99,94(0,13)

KNN 93,37(0,78) 97,59(0,87)

J48 97,22(1,18) 98,19(0,60)

Devido a diferena de resultados obtidos utilizando o FCM e o PCM para essas bases,

percebeu-se que o mtodo SoftO-FDCL dependente do conceito de pertinncia embu-

tido no agrupamento fuzzy utilizado. Logo, importante considerar as especicaes do

algoritmo de agrupamento fuzzy escolhido para agrupar os documentos, de forma que o

agrupamento obtido seja o mais apropriado para a coleo a ser organizada.

Considerando os resultados obtidos nessa avaliao, concluiu-se que o algoritmo FCM

foi mais apropriado para a organizao dos documentos das colees NSF, WAP e Reuters,

enquanto o algoritmo PCM foi mais apropriado para as colees Opinosis, 20Newsgroups

e Hitech. Portanto, observa-se que os descritores extrados de grupos de colees com um

menor nmero de classes representam melhor os grupos obtidos pelo algoritmo PCM do

que os grupos obtidos pelo algoritmo FCM. Embora a quantidade de classes das colees

no corresponda quantidade de grupos obtida pelos algoritmos de agrupamento, nem

66
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

a informao de classe seja utilizada no processo de agrupamento, o algoritmo FCM tem

melhor desempenho sobre uma quantidade maior de grupos porque o algoritmo PCM

pode apresentar o problema de grupos coincidentes.

O problema de grupos coincidentes ocorre quando a inicializao do agrupamento,

a qual est relacionada a matriz de tipicidades inicial (denies no Captulo 2) no

sucientemente distinta, i.e., a execuo do algoritmo de agrupamento resulta em c


grupos, embora a quantidade correta de grupos seja c0 < c. Quando uma coleo apresenta

muitas classes de documentos, os vetores de caractersticas que denem os documentos

so usualmente esparsos, uma vez que documentos de diferentes classes so compostos

por diferentes termos. Isso diculta a inicializao do algoritmo PCM.

Na avaliao sobre os algoritmos FCM e PCM, a medida Silhueta Fuzzy (Campello

e Hruschka, 2006), apresentada no Captulo 2, foi utilizada para avaliar o agrupamento

de documentos e escolher a quantidade apropriada de grupos para organizar as colees.

Alm disso, o algoritmo PCM foi inicializado utilizando as sadas do algoritmo FCM,

como sugerido por Krishnapuram e Keller (1993) para evitar o problema de inicializao.

No entanto, os resultados obtidos nos experimentos indicam que no h garantia de que

c0 = c a quantidade de grupos correta, inclusive quando o PCM e a medida FS sugerem

isso.

Comparao com mtodos de seleo de atributos


No processo de classicao de documentos, a seleo de atributos uma tarefa bas-

tante importante. Por meio da seleo de atributos o subconjunto de termos que sero

utilizados no processo de classicao selecionado com dois propsitos: primeiro, ela

reduz a quantidade de termos a serem analisados no processo de classicao; segundo,

ela melhora a acurcia da classicao pela eliminao de rudos, os quais so termos que

levam a classicao errada dos documentos (Manning et al., 2008).

Sendo assim, uma vez que o mtodo SoftO-FDCL extrai descritores de grupos, os quais

so considerados como atributos importantes dos documentos distribudos nos grupos, foi

realizada uma comparao entre o desempenho do mtodo SoftO-FDCL e dois conhecidos

mtodos de seleo de atributos: Informao Mtua ( Mutual Information - MI) e Qui-

quadrado ( chi-squared - 2
), os quais so tambm utilizados para extrair descritores de

grupos (Popescul e Ungar, 2000; Treeratpituk e Callan, 2006; Manning et al., 2008; Chitsaz

et al., 2009; Muhr et al., 2010).

O mtodo MI para seleo de atributos mede o grau de dependncia entre duas vari-

veis. No contexto da extrao de descritores, uma varivel refere-se ao termo tj candidato

a descritor do grupo gl , o qual tambm considerado uma varivel. Assim, a informao

mtua entre um termo tj e um grupo gl medido conforme Equao (4.29).

X X prob(gl , tj )
M I(gl , tj ) = prob(gl , tj ) log2 , (4.29)
prob(gl )prob(tj )
gl {0,1} tj {0,1}

67
4.5. Avaliao dos mtodos propostos

no qual prob(gl = 1) representa a probabilidade de um documento pertencer ao grupo


gl , prob(gl = 0) representa a probabilidade de um documento no pertencer ao grupo
gl , prob(tj = 1) representa a probabilidade do termo tj ocorrer em um documento e
prob(tj = 0) representa a probabilidade do termo tj no ocorrer em um documento.
Sendo assim, considerando a matriz de contingncia utilizada pelo mtodo SoftO-FDCL

apresentada na Tabela 4.1, as probabilidades prob(gl , tj ), prob(gl ) e prob(tj ) so calculadas


como segue, para n igual a quantidade de documentos da coleo.

ganhos(tj ,gl )
prob(gl = 1, tj = 1) = n

perdas(tj ,gl )
prob(gl = 1, tj = 0) = n

ruidos(tj ,gl )
prob(gl = 0, tj = 1) = n

rejeitos(tj ,gl )
prob(gl = 0, tj = 0) = n

ganhos(tj ,gl )+perdas(tj ,gl )


prob(gl = 1) = n

ruidos(tj ,gl )+rejeitos(tj ,gl )


prob(gl = 0) = n

ganhos(tj ,gl )+ruidos(tj ,gl )


prob(tj = 1) = n

perdas(tj ,gl )+rejeitos(tj ,gl )


prob(tj = 0) = n

Assim, o mtodo MI mede quanta informao um determinado termo possui sobre um

grupo. Portanto, quanto maior o valor de MI de um termo, mais o termo representa o

grupo, pois isso signica que o termo contm bastante informao sobre o grupo.

Por outro lado, o mtodo 2 de seleo de atributos mede a probabilidade que a

ocorrncia de um evento aproxima-se da expectativa inicial, ou seja, mede a independncia

entre dois eventos. No contexto da extrao de descritores, um evento refere-se ao termo

tj candidato a descritor do grupo gl , o qual tambm considerado uma varivel. Assim,

a independncia estatstica entre um termo tj e um grupo gl medido conforme Equao

(4.30).

X X (Ogl ,tj Egl ,tj )2


X 2 (gl , tj ) = , (4.30)
Egl ,tj
gl {0,1} tj {0,1}

no qual Ogl ,tj refere-se quantidade de documentos observados e Egl ,tj refere-se quanti-

dade de documentos esperados, os quais so calculados, considerando a matriz de contin-

gncia utilizada pelo mtodo SoftO-FDCL apresentada na Tabela 4.1, como segue, para

n igual a quantidade de documentos da coleo.

Ogl =0,tj =0 = rejeitos(tj , gl )

Ogl =0,tj =1 = ruidos(tj , gl )

Ogl =1,tj =0 = perdas(tj , gl )

68
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

Ogl =1,tj =1 = ganhos(tj , gl )

Egl =0,tj =0 = n prob(gl = 0) prob(tj = 0)

Egl =0,tj =1 = n prob(gl = 0) prob(tj = 1)

Egl =1,tj =0 = n prob(gl = 1) prob(tj = 0)

Egl =1,tj =1 = n prob(gl = 1) prob(tj = 1)

ganhos(tj ,gl )+perdas(tj ,gl )


prob(gl = 1) = n

ruidos(tj ,gl )+rejeitos(tj ,gl )


prob(gl = 0) = n

ganhos(tj ,gl )+ruidos(tj ,gl )


prob(tj = 1) = n

perdas(tj ,gl )+rejeitos(tj ,gl )


prob(tj = 0) = n

Assim, o mtodo 2 mede o quanto um termo independente de um grupo. Portanto,

quanto menor o valor de 2 do termo, mais o termo representa o grupo, pois isso signica

que o termo dependente do grupo.

Ao obter os descritores de grupos extrados pelos mtodos MI, 2 e SoftO-FDCL, os

mesmos foram comparados, considerando que os descritores extrados so bons atributos

para classicar os documentos nos grupos. Sendo assim, os descritores de grupos so

considerados atributos dos documentos e a classe do documento o grupo no qual ele

possui maior grau de pertinncia.

Os resultados obtidos do processo de classicao utilizando os algoritmos de classi-

cao SVM, Naive Bayes (NB), Multinomial Naive Bayes (M.Naive), KNN e C4.5, so

apresentados nas Tabelas 4.18, 4.19, 4.20 e 4.21.

Tabela 4.18: Comparao entre o mtodo SoftO-FDCL e os mtodos de seleo de atributos MI e 2


(Coleo Opinosis)

Algoritmo de Classicao SoftO-FDCL MI 2


NB 66,00(18,97) 72,00(13,98) 74,00(16,47)

M,Naive 80,00(21,08) 80,00(18,86) 80,00(18,86)

KNN 62,00(17,51) 52,00(23,48) 56,00(24,59)

SVM 62,00(22,01) 58,00(23,94) 62,00(22,01)

J48 54,00(28,36) 50,00(23,57) 52,00(23,48)

69
4.5. Avaliao dos mtodos propostos

Tabela 4.19: Comparao entre o mtodo SoftO-FDCL e os mtodos de seleo de atributos MI e 2


(Coleo 20NewsGroups)

Algoritmo de Classicao SoftO-FDCL MI 2


NB 62,53(2,45) 61,78(2,89) 61,43(2,61)

M,Naive 40,17(2,27) 44,17(2,03) 44,22(2,26)

KNN 52,18(4,25) 59,78(2,71) 59,63(3,25)

SVM 69,93(1,57) 71,03(1,65) 69,88(2,38)

J48 62,83(2,82) 61,68(2,69) 61,53(2,91)

Tabela 4.20: Comparao entre o mtodo SoftO-FDCL e os mtodos de seleo de atributos MI e 2


(Coleo Reuters)

Algoritmo de Classicao SoftO-FDCL MI 2


NB 61,47(3,40) 50,81(4,89) 39,68(5,75)

M.Naive 97,34(1,25) 98,00(0,94) 98,38(0,64)

KNN 98,10(0,44) 98,10(0,44) 98,10(0,44)

SVM 98,67(0,92) 98,67(0,92) 98,29(1,33)

J48 98,57(0,67) 98,38(0,64) 98,57(0,67)

Tabela 4.21: Comparao entre o mtodo SoftO-FDCL e os mtodos de seleo de atributos MI e 2


(Coleo WAP)

Algoritmo de Classicao SoftO-FDCL MI 2


NB 50,67(5,21) 57,02(4,49) 37,40(5,67)

M.Naive 63,95(1,12) 69,02(1,33) 69,53(1,78)

KNN 61,45(2,81) 71,97(3,11) 72,42(2,97)

SVM 66,07(2,67) 78,64(2,50) 81,46(3,08)

J48 62,48(3,97) 77,55(3,43) 77,61(2,52)

Observando os resultados obtidos, concluiu-se que, de maneira geral, o mtodo de

extrao de descritores SoftO-FDCL semelhante aos mtodos de seleo de atributos

MI e 2 quando esses so tambm utilizados como mtodos para extrao de descrito-

res de grupo. O que os diferencia o signicado associado cada mtodo: O mtodo

SoftO-FDCL seleciona termos que melhor recuperam os documentos de um determinado

grupo, o mtodo MI seleciona termos que apresentam melhor informao mtua com um

determinado grupo e o mtodo 2 seleciona termos que apresentam maior dependncia

estatstica com um determinado grupo.

Neste doutorado, o diferencial em utilizar qualquer um desses mtodos (SoftO-FDCL,

MI e 2 ), conforme apresentado na avaliao comparativa, a organizao exvel de

documentos, uma vez que a matriz de contingncia apresentada na Tabela 4.1 permite

70
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

que um documento pertena a mais de um grupo e que, portanto, os descritores de grupos

identiquem tpicos da organizao exvel proposta.

O mtodo SoftO-FDCL considerado o principal mtodo proposto neste doutorado,

uma vez que o mesmo possibilita a organizao exvel de documentos de maneira sim-

plicada. Por este motivo, um maior nmero de avaliaes foi realizado sobre o mtodo

SoftO-FDCL do que sobre os demais mtodos, os quais foram propostos a m de viabilizar

melhorias na organizao exvel de documentos.

4.5.5 Avaliao do mtodo SoftO-wFDCL

Conforme apresentado na Seo 4.3, o mtodo SoftO-wFDCL uma extenso do

mtodo SoftO-FDCL desenvolvida para extrao de descritores de grupos fuzzy f lat com
a insero dos graus de pertinncia no clculo da medida f1 dos termos. Com essa

extenso pretende-se obter descritores que sejam mais representativos para os grupos

de documentos dos que os descritores extrados pelo mtodo SoftO-FDCL e o mtodo

Centroide.

Visando vericar o poder preditivo dos descritores extrados pelo mtodo SoftO-

wFDCL e compar-lo com os mtodos SoftO-FDCL e Centroide, algoritmos de classi-

cao foram executados. Para tanto, os descritores extrados foram considerados como

atributos dos documentos e a classe do documento como o grupo no qual ele possui

maior grau de pertinncia. Assim, o desempenho dos mtodos Centroide, SoftO-FDCL e

SoftO-wFDCL foram comparados por meio das taxas de acerto obtidas pelos mtodos de

classicao: SVM, Naive Bayes (NB), Multinomial Naive Bayes (M.Naive), KNN e C4.5.

As colees utilizadas nessa avaliao foram: Opinosis, 20NewsGroups, Reuters e WAP,

cujos resultados so apresentados nas Tabelas 4.22, 4.23, 4.24 e 4.25, respectivamente. Os

melhores resultados para cada caso esto destacados em cinza.

Tabela 4.22: Avaliao comparativa entre os mtodos SoftO-wFDCL e SoftO-FDCL utilizando a coleo
Opinosis

Algoritmo de Classicao Centroide SoftO-FDCL SoftO-wFDCL


NB 48,00(19,32) 66,00(18,97) 60,00(23,09)

M.Naive 40,00(18,86) 80,00(21,08) 68,00(21,50)

KNN 30,00(25,39) 62,00(17,51) 48,00(21,50)

SVM 42,00(27,41) 62,00(22,01) 52,00(27,00)

J48 44,00(33,73) 54,00(28,36) 56,00(26,33)

71
4.5. Avaliao dos mtodos propostos

Tabela 4.23: Avaliao comparativa entre os mtodos SoftO-wFDCL e SoftO-FDCL utilizando a coleo
20NewsGroups

Algoritmo de Classicao Centroide SoftO-FDCL SoftO-wFDCL


NB 45,82(1,90) 62,53(2,45) 56,38(3,03)

M.Naive 37,37(0,84) 40,17(2,27) 38,32(1,18)

KNN 43,42(3,29) 52,18(4,25) 52,92(2,04)

SVM 49,57(2,30) 69,93(1,57) 61,78(2,16)

J48 43,92(3,25) 62,83(2,82) 56,93(2,61)

Tabela 4.24: Avaliao comparativa entre os mtodos SoftO-wFDCL e SoftO-FDCL utilizando a coleo
Reuters

Algoritmo de Classicao Centroide SoftO-FDCL SoftO-wFDCL


NB 56,99(3,61) 61,47(3,40) 61,47(3,40)

M.Naive 98,00(0,70) 97,34(1,25) 97,34(1,25)

KNN 97,34(0,87) 98,10(0,44) 98,10(0,44)

SVM 98,10(0,63) 98,67(0,92) 98,67(0,92)

J48 98,00(0,29) 98,57(0,67) 98,57(0,67)

Tabela 4.25: Avaliao comparativa entre os mtodos SoftO-wFDCL e SoftO-FDCL utilizando a coleo
WAP

Algoritmo de Classicao Centroide SoftO-FDCL SoftO-wFDCL


NB 28,54(7,44) 50,67(5,21) 24,18(2,33)

M.Naive 64,14(1,07) 63,95(1,12) 63,18(0,76)

KNN 58,24(3,92) 61,45(2,81) 59,91(3,22)

SVM 63,25(1,18) 66,07(2,67) 63,57(1,71)

J48 61,07(2,37) 62,48(3,97) 58,69(3,51)

Assim como o mtodo SoftO-FDCL, o mtodo SoftO-wFDCL tambm foi comparado

com mtodos de seleo de atributos para extrao de descritores. No entanto, para

uma comparao mais justa, considerou-se que os mtodos MI e 2 extraram descritores

utilizando a matriz de contingncia utilizada pelo mtodo SoftO-wFDCL apresentada na

Tabela 4.2. Por meio dessa matriz, a informao de pertinncia embutida no processo de

ponderao de um termo candidato a descritor de grupo. Considerando tal caracterstica,

na avaliao comparativa entre os mtodos SoftO-wFDCL, MI e 2 , os mtodos MI e


2 2
so denominados wMI e w , respectivamente. Os resultados dessa avaliao so

apresentados nas Tabelas 4.26, 4.27, 4.28 e 4.29.

72
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

Tabela 4.26: Avaliao comparativa entre o mtodo SoftO-wFDCL e os mtodos de seleo de atributos
2
wMI e w (Coleo Opinosis)

Algoritmo de Classicao SoftO-wFDCL wMI w2


NB 60,00(23,09) 56,00(24,59) 54,00(23,19)

M.Naive 68,00(21,50) 62,00(23,94) 64,00(22,71)

KNN 48,00(21,50) 34,00(13,50) 38,00(14,76)

SVM 52,00(27,00) 50,00(23,57) 54,00(21,19)

J48 56,00(26,33) 54,00(21,19) 52,00(21,50)

Tabela 4.27: Avaliao comparativa entre o mtodo SoftO-wFDCL e os mtodos de seleo de atributos
2
wMI e w (Coleo 20NewsGroups)

Algoritmo de Classicao SoftO-wFDCL wMI w2


NB 56,38(3,03) 57,83(2,66) 57,83(2,66)

M.Naive 38,32(1,18) 38,62(1,87) 38,62(1,87)

KNN 52,92(2,04) 51,68(3,09) 51,68(3,09)

SVM 61,78(2,16) 58,83(2,93) 58,83(2,93)

J48 56,93(2,61) 54,88(1,53) 54,88(1,53)

Tabela 4.28: Avaliao comparativa entre o mtodo SoftO-wFDCL e os mtodos de seleo de atributos
2
wMI e w (Coleo Reuters)

Algoritmo de Classicao SoftO-wFDCL wMI w2


NB 61,47(3,40) 98,10(0,89) 98,10(0,89)

M.Naive 97,34(1,25) 97,72(0,49) 97,72(0,49)

KNN 98,10(0,44) 98,00(0,70) 98,00(0,70)

SVM 98,67(0,92) 98,10(1,00) 98,10(1,00)

J48 98,57(0,67) 97,72(0,49) 97,72(0,49)

Tabela 4.29: Avaliao comparativa entre o mtodo SoftO-wFDCL e os mtodos de seleo de atributos
2
wMI e w (Coleo WAP)

Algoritmo de Classicao SoftO-wFDCL wMI w2


NB 24,18(2,33) 62,73(11,12) 62,03(10,86)

M.Naive 63,18(0,76) 69,85(2,29) 70,30(2,27)

KNN 59,91(3,22) 81,66(2,28) 81,08(2,14)

SVM 63,57(1,71) 83,45(2,09) 83,26(1,68)

J48 58,69(3,51) 77,04(2,78) 77,29(3,09)

Assim como observado na avaliao comparativa entre o mtodo SoftO-FDCL e os

mtodos de seleo de atributos MI e 2 , na avaliao comparativa entre o mtodo SoftO-


2
wFDCL e os mtodos de seleo de atributos wMI e w observou-se que os mtodos

73
4.5. Avaliao dos mtodos propostos

apresentam resultados semelhantes. Assim, a escolha de qual mtodo utilizar para extrair

descritores de grupos depende do problema abordado, uma vez que cada mtodo apresenta

um signicado diferente: o mtodo SoftO-wFDCL seleciona termos que melhor recuperam

os documentos de um determinado grupo; o mtodo MI seleciona termos que apresentam

melhor informao mtua com um determinado grupo e o mtodo 2 seleciona termos que

apresentam maior dependncia estatstica com um determinado grupo. Neste doutorado, o


2
diferencial em utilizar qualquer um desses mtodos (SoftO-wFDCL, wMI e w ), conforme

apresentado na avaliao comparativa, a organizao exvel de documentos, uma vez

que a matriz de contingncia utilizada pelos mesmos permite que um documento pertena

a mais de um grupo e que, portanto, os descritores de grupos identiquem tpicos da


2
organizao exvel proposta. Alm disso, nos mtodos SoftO-wFDCL, wMI e w , tem-se

a informao de pertinncia embutida no processo de extrao de descritores. O uso dessa

informao favorece a escolha de descritores de grupos que melhor identicam tpicos da

organizao exvel proposta, pela qual documentos podem abordar mais de um tpico

com diferentes graus de intensidade.

4.5.6 Avaliao do mtodo HSoftO-FDCL

O mtodo HSoftO-FDCL uma extenso do mtodo SoftO-FDCL desenvolvida para

extrao de descritores de grupos fuzzy hierrquicos. Geralmente, a estrutura hierrquica

utilizada para a organizao de documentos em um SRI porque a mesma possibilita uma

melhor visualizao e explorao da coleo organizada. Assim, a organizao exvel de

documentos tambm pode beneciar-se de tal estrutura.

Como exemplo de organizao exvel hierrquica, observe a organizao dos documen-

tos da coleo Opinosis apresentada na Figura 4.3. Nesta gura, tem-se apenas os grupos

dos nveis 1 e 2 da hierarquia obtida por meio do algoritmo de agrupamento Hierarchical

Fuzzy C-Means (HFCM) (Pedrycz e Reformat, 2006), apresentado no Captulo 2.

Nesse exemplo, possvel observar que os documentos podem pertencer a mais de um

grupo no mesmo nvel da hierarquia com diferentes graus de compatibilidade (em parente-

ses) e os descritores podem representar mais de um grupo com pesos de representatividade

diferentes nos grupos. Por exemplo o termo ga_mileage em destaque na Figura 4.3, foi

escolhido como descritor de dois grupos, ambos no nvel 2. No primeiro, esse descritor

tem 0.581 de representatividade e no segundo ele tem 0.378 de representatividade. Essa

ponderao indica que documentos sobre carros podem ser alocados em ambos os grupos.

Porm, documentos nos quais o termo ga_mileage mais frequente so alocados com

maior grau de compatibilidade no primeiro grupo.

74
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

Figura 4.3: Organizao exvel hierrquica de documentos da coleo Opinosis

Outra caracterstica interessante da organizao hierrquica que, nessa estrutura, os

grupos em um nvel mais abaixo da hierarquia so especializaes dos grupos em um nvel

acima. Por exemplo, observe a Figura 4.4. O primeiro grupo, representado pelos descri-

tores extrem_friendli, free_wine_recept, level_servic, free_wine e wine_recept (indicado

por Grupo 1), composto por documentos sobre hotis, carros e produtos eletrnicos.

Por outro lado, um dos grupos que extenso desse grupo, o qual representado pelos

room_larg_comfort, room_good_size, clean_nice, shop_sherman_wharf e


descritores

hotel_happi_chill_drink (indicado por Grupo 1A), composto somente por documen-


tos sobre hotis. Alm disso, os descritores de grupos originados do Grupo 1 que no

identicam um nico tpico so estendidos para outros grupos. Por exemplo, o grupo

originado do Grupo 1, representado pelos descritores miss_turn, speed_limit, make_easi,


text_speech e turn_turn (indicado por Grupo 1C), estendido em outros grupos de do-

cumentos cujos descritores identicam tpicos mais especcos.

Sendo assim, para avaliar a qualidade dos descritores obtidos pelo mtodo HSoftO-

FDCL, comparou-se o poder preditivo dos descritores obtidos para os grupos hierrquicos

e os descritores obtidos pelo mtodo SoftO-FDCL para os grupos at. Para que fosse

possvel a execuo dos mesmos algoritmos de classicao utilizados para avaliao do

75
4.5. Avaliao dos mtodos propostos

mtodo SoftO-FDCL, foram feitos cortes na hierarquia nos nveis 2, 3, 4 e 5, e a anlise

comparativa foi realizada sobre esses nveis. Ou seja, os algoritmos de classicao foram

executados sobre a matriz composta pelos descritores dos grupos de um determinado nvel

da hierarquia.

Figura 4.4: Viso Parcial da Organizao exvel hierrquica de documentos da coleo Opinosis - ob-
servao da especializao/generalizao dos tpicos identicados por descritores de grupos

Por exemplo, considere a Figura 4.5. Nesta gura tem-se a distribuio de 5 documen-

tos na hierarquia. Cada documento disposto no grupo no qual ele possui maior grau de

pertinncia.

Coleo de
documentos
d1,d2,d3,d4,d5

A B
d1,d2 d3,d4,d5

C D E F
d1 d2 d3,d4 d5 Nvel 2

G H
d3 d4 Nvel 3

Figura 4.5: Exemplo de hierarquia fuzzy com cinco documentos

Considerando essa distribuio, a matriz obtida, por exemplo, do corte no nvel 3

76
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

dessa hierarquia apresentada na Tabela 4.30. Observe que a classe do documento o

grupo no qual ele possui maior grau de pertinncia e o nome da classe remete ao caminho

percorrido pelo mesmo ao longo da hierarquia. Por exemplo, o documento d4 no nvel 3

pertence classe BEG, pois ele possui maior grau de pertinncia no grupo B do nvel 1

da hierarquia, seguido do grupo E do nvel 2 e do grupo G no nvel 3.

Tabela 4.30: Matriz atributo-valor obtida do corte no nvel 3 da hierarquia apresentada na Figura 4.5

Documentos Descritor 1 Descritor 2 Classe


d3 BEG
d4 BEH

As tabelas 4.32, 4.31 e 4.33, apresentam os resultados obtidos pelos mtodos SoftO-

FDCL e HSoftO-FDCL sobre as colees Opinosis, Hitech e Reuters. Nesta avaliao

foram utilizadas as colees Opinosis, Hitech e Reuters de forma a observar os resulta-

dos obtidos sobre o agrupamento hierrquico de colees de documentos de diferentes

quantidades de classes e documentos: a coleo Opinosis composta por 51 documentos

distribudos em 3 classes, a coleo Hitech composta por 600 documentos distribudos

em 6 classes e a coleo Reuters composta por 1052 documentos distribudos em 43

classes.

Tabela 4.31: Comparao entre o mtodo SoftO-FDCL e o mtodo HSoftO-FDCL (Coleo Opinosis)

HSoftO- HSoftO- HSoftO- HSoftO-


SoftO-
Algoritmo de FDCL FDCL FDCL FDCL
FDCL
Classicao nvel2 nvel3 nvel4 nvel5
NB 66,00(18,97) 31,67(14,34) 40,00(25,50) 23,50(23,46) 3,33(10,54)

M.Naive 80,00(21,08) 61,00(15,24) 60,50(21,92) 30,00(20,28) 13,33(23,31)

SVM 62,00(22,01) 60,67(26,75) 49,50(24,55) 33,50(17,17) 19,17(31,93)

KNN 62,00(17,51) 51,33(19,89) 37,50(20,72) 35,50(16,57) 22,50(15,74)

J48 54,00(28,36) 39,33(13,50) 35,00(15,63) 31,00(16,30) 15,83(16,87)

Tabela 4.32: Comparao entre o mtodo SoftO-FDCL e o mtodo HSoftO-FDCL (Coleo Hitech)

HSoftO- HSoftO- HSoftO- HSoftO-


SoftO-
Algoritmo de FDCL FDCL FDCL FDCL
FDCL
Classicao nvel2 nvel3 nvel4 nvel5
NB 38,21(5,80) 23,17(6,16) 14,50(3,34) 9,67(3,22) 6,90(2,79)

M.Naive 41,27(3,43) 38,50(5,90) 27,67(6,77) 17,17(5,03) 15,83(2,55)

SVM 35,05(5,36) 52,17(3,77) 41,67(3,85) 30,50(3,69) 25,59(4,37)

KNN 46,14(5,14) 47,67(5,04) 36,50(3,46) 24,50(3,93) 18,19(2,38)

J48 36,09(6,03) 41,67(5,15) 31,50(4,04) 22,00(2,19) 14,81(4,93)

77
4.6. Consideraes nais

Tabela 4.33: Comparao entre o mtodo SoftO-FDCL e o mtodo HSoftO-FDCL (Coleo Reuters)

HSoftO- HSoftO- HSoftO- HSoftO-


SoftO-
Algoritmo de FDCL FDCL FDCL FDCL
FDCL
Classicao nvel2 nvel3 nvel4 nvel5
NB 61,47(3,40) 30,60(6,07) 19,77(3,14) 17,21(2,15) 18,35(1,73)

M.Naive 97,34(1,25) 41,15(3,85) 23,00(3,05) 20,82(4,65) 17,40(4,05)

SVM 98,67(0,92) 58,17(2,35) 47,05(3,09) 37,27(5,93) 32,51(3,63)

KNN 98,10(0,44) 52,75(5,58) 43,91(4,39) 33,09(3,90) 28,81(3,79)

J48 98,57(0,67) 62,45(3,63) 52,37(3,88) 45,16(5,27) 41,63(4,15)

Nesta avaliao, os descritores obtidos pelo mtodo SoftO-FDCL apresentam, de ma-

neira geral, resultados superiores aos descritores obtidos pelo mtodo HSoftO-FDCL, os

quais so destacados em cinza nas tabelas. A justicativa para tal resultado decorre do

fato de que os algoritmos de classicao utilizados no consideram a estrutura hierr-

quica em seu processo e, portanto, a acurcia dos algoritmos diminuda devido perda

de informao nos cortes da hierarquia, j que a quantidade de documentos em um nvel

mais abaixo da hierarquia reduzida.

4.6 Consideraes nais


Neste captulo foram apresentados os mtodos propostos neste doutorado. Esses m-

todos possibilitam a organizao exvel de documentos pela extrao de descritores de

grupos aps o agrupamento fuzzy de documentos, que permite a organizao de docu-

mentos assumindo-se que eles podem abordar diferentes tpicos com diferentes graus de

intensidade. Os descritores de grupos so importantes porque eles identicam os tpicos

abordados pelos documentos.

Os mtodos propostos possibilitam a organizao exvel de documentos, uma vez que

os mesmos extraem descritores de grupos considerando a impreciso e a incerteza ine-

rentes aos documentos. Embora os mtodos propostos sejam independentes do algoritmo

de agrupamento fuzzy utilizado, foram propostos trs mtodos porque considerou-se trs

perspectivas na organizao: i) o mtodo SoftO-FDCL extrai descritores de grupos fuzzy

at ; ii) o mtodo SoftO-wFDCL, uma extenso do mtodo SoftO-FDCL e tambm

extrai descritores de grupos fuzzy at, mas acrescenta o grau de pertinncia obtido do

agrupamento fuzzy, como uma informao adicional para a extrao de descritores; e iii)

o mtodo HSoftO-wFDCL, o qual tambm uma extenso do mtodo SoftO-FDCL para

extrao de descritores de grupos hierrquicos, mas proporcionam uma viso dos docu-

mentos em diferentes nveis de abstrao. Sendo assim, a utilizao de um determinado

mtodo proposto depende da estrutura, at ou hierrquica, que deseja- se obter com a

organizao exvel de documentos.

78
Captulo 4. Mtodos Propostos para Extrao de Descritores de Grupos na Organizao Flexvel de
Documentos

Tambm neste captulo foram apresentados os resultados obtidos a partir dos experi-

mentos realizados para avaliar cada um dos mtodos propostos.

No prximo captulo, uma aplicao do mtodo SoftO-FDCL para um problema real

de organizao exvel de documentos ser apresentada.

79
Captulo
5

Aplicao do Mtodo SoftO-FDCL: organizao


exvel de comentrios de mdicos de famlia
sobre um processo de avaliao da educao
mdica continuada canadense

5.1 Consideraes iniciais


Neste captulo, uma aplicao do mtodo SoftO-FDCL sobre um problema real

apresentada. Esse problema refere-se organizao de comentrios de mdicos de famlia

canadenses sobre recomendaes de tratamento enviadas para os mesmos por meio de um

Canadian Pharmacists
recurso desenvolvido pela associao de farmacuticos canadenses (

Association - CPhA). Esse recurso chamado de e-Therapeutics+ 1 , pelo qual possvel


o gerenciamento de recomendaes de tratamento baseado em evidncias farmacolgicas

e no farmacolgicas. e-Therapeutics+ ajudam os mdicos de famlia


Especicamente,

canadenses (Canadian Family Physicians - FPs) a saber quais opes teraputicas esto

disponveis em uma determinada situao clnica. Alm disso, para sensibilizar os FPs

de que a informao teraputica pode ser til no cuidado de seus pacientes, os editores

da CPhA selecionam informaes chave, chamadas de e-Therapeutics+ Highlights 2 . High-


lights so enviados semanalmente por e-mail para os FPs. Um exemplo de email recebido

pelos mdicos de famlia canadenses pode ser observado na Figura 5.1.

Em parceria com a CPhA e a faculdade de mdicos de famlia do Canad ( College of


Family Physicians of Canada - CFPC), o grupo Information Technology Primary Care
1 http://www.pharmacists.ca/index.cfm/function/store/PublicationDetail.cfm?pPub=9
2 http://www.pharmacists.ca/index.cfm/more-information/et-mcgill/

81
5.1. Consideraes iniciais

Figura 5.1: Exemplo de email enviado para um mdico de famlia canadense sobre um e-Therapeutics+
Highlight

Research Group (ITPCRG) da Universidade de McGill implementou o programa de edu-

cao mdica continuada (Continuing Medical Education - CME) o qual faz uma conexo
entre o mtodo Information Assessment Method (IAM) e os Highlights (Pluye et al., 2009,

2010a,b). O mtodo IAM avalia o valor da informao contida nos Highlights em quatro

situaes: relevncia, impacto cognitivo, uso e benefcios esperados sade. Quando os

FPs recebem um email informando sobre um novo e-Therapeutics+ Highlights, eles podem
ler a informao contida no e-Therapeutics+ Highlights e avaliar um Highlight, o qual

um trecho importante dos e-Therapeutics+ Highlights destacados em verde no texto do

email. Essa avaliao realizada por meio do questionrio IAM aberto ao pressionar o

boto Useful Info?. Esse questionrio objetiva avaliar a informao clnica contida nos

Highlights. Um exemplo de e-Therapeutics+ Highlights pode ser observado na Figura 5.2.

O questionrio IAM pode ser observado na Figura 5.3.

Dados do IAM permitem aos pesquisadores do grupo ITPCRG coletar feedbacks


dos FPs e ento avaliar o contedo dos Highlights sob a perspectiva dos FPs. Uma

grande quantidade de feedbacks dos FPs so comentrios construtivos (Constructive Fe-


edback Comments - CFBs), os quais possibilitam CPhA melhorar o contedo dos e-

Therapeutics+.
Atualmente, CFBs so identicados manualmente (Pluye et al., 2012). No entanto, a

coleo de comentrios cresce rapidamente, a qual pode atingir uma quantidade de co-

mentrios que aumenta o esforo de editores e pesquisadores para analis-los. A extrao

automtica de conhecimento a partir destes comentrios uma importante tarefa para

82
Captulo 5. Aplicao do Mtodo SoftO-FDCL: organizao exvel de comentrios de mdicos de
famlia sobre um processo de avaliao da educao mdica continuada canadense

Figura 5.2: Exemplo de um e-Therapeutics+ Highlight. O trecho destacado em verde corresponde a um


Highlight

encontrar conhecimento til que ajude no processo de tomada de deciso dos editores da

CPhA.

Portanto, o principal objetivo da aplicao do mtodo SoftO-FDCL proposto neste

doutorado auxiliar a seleo de CFBs e, consequentemente, otimizar o gerenciamento

dos Highlights.
Utilizando o mtodo SoftO-FDCL para a extrao de descritores de grupos de comen-

trios enviados pelos mdicos de famlia, a organizao exvel da coleo de comentrios

obtida. Essa organizao considerada apropriada para o problema apresentado porque

comentrios construtivos (CFBs) e no-construtivos (non-CFBs) apresentam caracters-

ticas similares, j que um mesmo termo pode ser utilizado em ambos os tipos de comen-

trios. Ou seja, ao organizar os comentrios em dois grupos, um mesmo comentrio pode

estar alocado no grupo cujos descritores identicam CFBs e no grupo cujos descritores

identicam non-CFBs. A partir dos graus de pertinncia dos comentrios nos grupos, os

pesquisadores podem decidir se um determinado comentrio considerado construtivo ou

no.

Sendo assim, a organizao exvel de comentrios no elimina a participao dos

pesquisadores na seleo de comentrios, mas reduz o esforo realizado pelos mesmos, j

que a organizao exvel dos comentrios d um indcio do tipo de cada comentrio.

83
5.1. Consideraes iniciais

Figura 5.3: Questionrio IAM

84
Captulo 5. Aplicao do Mtodo SoftO-FDCL: organizao exvel de comentrios de mdicos de
famlia sobre um processo de avaliao da educao mdica continuada canadense

5.2 Seleo manual de comentrios construtivos


Por meio do questionrio IAM, mdicos de famlia canadenses ( Canadian Family
Physicians - FPs) submetem milhares de comentrios de feedback relacionados aos e-
Therapeutics+ Highlights recebidos por e-mail. Por exemplo, de 20 de Janeiro de 2010 a
19 de Janeiro de 2011, 51 Highlights foram enviados para cerca de 17000 FPs, dos quais

5346 submeteram 31429 questionrios IAM (avaliaes dos Highlights ). Desses questio-

nrios, 4166 (13.3%) contm comentrios, gerando 682 (2.2%) CFBs.

FPs podem ler, avaliar o Highlight e escrever um comentrio com sua opinio

sobre o assunto do Highlight utilizando uma caixa de texto no questionrio IAM. Os

comentrios so, ento, selecionados como CFB ou non-CFB. Os pesquisadores do grupo

ITPCRG selecionam como CFBs os comentrios que referem-se a um comentrio textual

que requer ateno para disparar uma investigao futura (Pluye et al., 2012). Dois

comentrios sobre o Highlight - Exemplo apresentado a seguir, um construtivo (CFB) e

um no construtivo (non-CFB), so apresentados na Tabela 5.1.

Highlight - Exemplo:
The dual-action serotonin and noradrenaline reuptake inhibitor (SNRI) du-
loxetine is benecial in improving pain, stiness, fatigue and overall quality
of life in bromyalgia patients; these eects appear to be independent of the
drug's eect on depression. Duloxetine is generally well tolerated. There
is little evidence to support the ecacy of venlafaxine in patients with -
bromyalgia.

Tabela 5.1: CFB e non-CFB para o Highlight - Exemplo


Comentrio Tipo de comentrio
In my own practice I've seen little/no bene-
t from pregabalin or duloxetine. I wonder
CFB
about the quality of the studies supporting
their use.
Good review of disease process, current
nonpharm and pharm treatment options.
SNRIs are very well tolerated, evidence
that Duloxetine is useful apart from anti- non-CFB
depressant eects for treatment of bromyal-
gia excellent knowledge - will modify my
practice.

O comentrio CFB apresentado na Tabela 5.1 demonstra a insatisfao de um FP, o

qual questiona os editores do e-Therapeutics+ Highlights para vericar os estudos referen-


ciados no Highlight - Exemplo. Por outro lado, o comentrio non-CFB uma repetio e

elogio informao contida no Highlight - Exemplo.

85
5.3. Identicao automtica de comentrios

De maneira geral, a rotulao dos comentrios em CFB e non-CFB uma tarefa

difcil e custosa por duas razes: (a) comentrios so compostos de sentenas com alta

subjetividade, impreciso e incerteza; e (b) diferentes tipos de comentrios sobre um

mesmo Highlight podem ser compostos por sentenas similares (Hripcsak et al., 2007).

A m de rotular manualmente os comentrios e selecionar aqueles que podem prover

melhorias para um Highlight, pesquisadores do grupo ITPCRG desenvolveram 7 regras

para selecionar manualmente CFBs, pelas quais um comentrio considerado CFB quando

ele :

1. Um comentrio que corresponde em signicado a uma avaliao IAM de Desacordo,

Dano potencial, Insatisfao ou Problema com a informao;

2. Um comentrio sobre uma informao ausente ou que indique a necessidade de mais

informao;

3. Um comentrio que inclui nuances ou reservas (por exemplo, Eu concordo, mas...);

4. Um comentrio que revela que o leitor no cou `convencido' pela informao;

5. Um comentrio dizendo que a informao relevante no foi encontrada;

6. Um comentrio armando que o Highlight `conhecimento antigo' ou equivalente;

7. Um comentrio negativo no questionrio IAM ou no processo de avaliao.

Embora as regras sejam simples e teis, algumas inconsistncias podem ocorrer. Por

exemplo, o comentrio  concise summary on the state of evidence for dierent dementia
treatments  foi selecionado manualmente como um CFB. No entanto, esse comentrio no
condiz com nenhuma regra apresentada anteriormente, o que indica uma limitao do pro-

cesso manual de seleo de CFBs. Visando solucionar este tipo problema, a organizao

automtica de comentrios proposta. Tal organizao foi realizada por meio do mtodo

SoftO-FDCL, no qual as palavras mais frequentes nos comentrios ajudam a organizar os

comentrios em construtivos e no-construtivos com algum grau de compatibilidade.

5.3 Identicao automtica de comentrios


Considerando que comentrios construtivos e no-construtivos so documentos que

podem apresentar caractersticas similares, j que um mesmo termo pode ser utilizado em

ambos os tipos de comentrios, a organizao exvel considerada apropriada para este

caso. Sendo assim, o mtodo SoftO-FDCL proposto neste doutorado foi utilizado para

a extrao de descritores de grupos de comentrios de maneira a identicar comentrios

construtivos e no-construtivos.

Para que seja possvel a utilizao do mtodo SoftO-FDCL, os comentrios, conside-

rados documentos, so pr-processados, conforme apresentado no Captulo 2 Seo 2.2,

86
Captulo 5. Aplicao do Mtodo SoftO-FDCL: organizao exvel de comentrios de mdicos de
famlia sobre um processo de avaliao da educao mdica continuada canadense

para poderem ser agrupados por meio de um algoritmo de agrupamento fuzzy. Nesta

aplicao, foi utilizado o algoritmo de agrupamento Fuzzy C-Means, tambm apresentado

no Captulo 2.

O mtodo SoftO-FDCL foi aplicado sobre duas colees de documentos reais: (1)

comentrios enviados por FPs no perodo entre 01 de Janeiro de 2011 e 31 de Dezembro

de 2011; e (2) comentrios enviados por FPs no perodo entre 03 de Janeiro de 2012 e

14 de Fevereiro de 2012. Todos os comentrios que compem essas duas colees foram

manualmente rotuladas em CFBs ou non-CFBs por pesquisadores do grupo ITPCRG

utilizando as regras apresentadas anteriormente. Essa rotulao manual foi utilizada

para avaliar o resultado obtido pela aplicao do mtodo SoftO-FDCL. Considerando

este conhecimento prvio, cada uma das colees deu origem a trs outras colees: uma

coleo composta por todos os comentrios, uma coleo composta por somente CFBs

e uma coleo composta por somente non-CFBs. As caractersticas dessas colees so

apresentadas na Tabela 5.2.

Tabela 5.2: Colees utilizadas na aplicao do mtodo SoftO-FDCL para organizao exvel dos co-
mentrios de mdicos de famlia canadenses. As colees so identicadas pela coluna ID e a quantidade
de comentrios que compe cada coleo identicada pela coluna # comentrios. A porcentagem de
CFBs e non-CFBs obtida a partir das colees de 2011 e 2012 so tambm apresentadas na coluna #
comentrios

Comentrios recebi- Coleo ID # comentrios


dos
Todos os comentrios all-2011 4998
de 01 de Janeiro de 2011
31 de Dezembro de CFBs cfb-2011 1183 (23,67%)
2011 (12 meses)
non-CFBs ncfb-2011 3815 (76,33%)
Todos os comentrios all-2012 656
de 03 de Janeiro de 2012
14 de Fevereiro de 2012 CFBs cfb-2012 117 (17,84%)
(1 ms)
non-CFBs ncfb-2012 539 (82,16%)

O objetivo principal da aplicao do mtodo SoftO-FDCL sobre essas colees or-

ganizar de maneira exvel os documentos da coleo all-2011 por meio de grupos cujos

descritores identiquem dois tipos de comentrios: CFBs e non-CFBs.

Os resultados obtidos com a aplicao do mtodo SoftO-FDCL sobre as colees apre-

sentadas na Tabela 5.2, bem como a discusso sobre os mesmos, so apresentados a seguir.

5.4 Resultados obtidos


Para comparar a organizao exvel obtida pelo mtodo SoftO-FDCL com a catego-

rizao manual de comentrios, alm da coleo all-2011, as colees cfb-2011 e ncfb-2011


tambm tiveram seus documentos agrupados. Embora essas duas ltimas colees sejam

87
5.4. Resultados obtidos

compostas por comentrios de apenas um tipo (CFB ou non-CFB), elas tambm foram

agrupadas em uma quantidade mnima de grupos porque o mtodo SoftO-FDCL requer

que documentos sejam organizados em grupos para que, posteriormente, seja possvel a

extrao de descritores.

Uma organizao exvel foi obtida para cada uma das colees all-2011, cfb-2011 e

ncfb-2011 para observar se os descritores de grupos obtidos a partir da coleo composta

por todos os comentrios, coleo all-2011, compartilham alguma similaridade com os

descritores de grupos obtidos a partir das colees que foram manualmente rotuladas

como CFB (coleo cfb-2011 ) ou non-CFB (coleo ncfb-2011 ). Consequentemente, foi

observado tambm se os descritores identicam adequadamente os tipos de comentrios

de cada grupo da coleo all-2011.


Nas Tabelas 5.3, 5.4 e 5.5, os descritores de dois grupos encontrados para cada coleo

so apresentados. Para uma melhor observao manual dos descritores extrados pelo

mtodo SoftO-FDCL, os 10 melhores descritores foram selecionados. Essa quantidade foi

escolhida arbitrariamente.

Tabela 5.3: Descritores de grupos obtidos da aplicao do mtodo SoftO-FDCL sobre a coleo all-2011
Descritores do grupo 1 Descritores do grupo 2
patient, inform, practic, good, info, remind, sum-
help, excel, review, interest, mari, manag, common, pro-
relev, treatment, topic blem, articl, nice, great

Tabela 5.4: Descritores de grupos obtidos da aplicao do mtodo SoftO-FDCL sobre a coleo cfb-2011
Descritores do grupo 1 Descritores do grupo 2
inform, eect, good, dose, patient, recommend, prac-
treatment, interest, benet, tic, help, drug, treat, review,
risk, medic, parent evid, don, studi

Tabela 5.5: Descritores de grupos obtidos da aplicao do mtodo SoftO-FDCL sobre a coleo ncfb-2011
Descritores do grupo 1 Descritores do grupo 2
patient, inform, practic, good, common, remind, ar-
help, excel, review, relev, in- ticl, overview, nice, sum-
terest, treatment, topic mari, manag, problem, info

Os resultados indicam que mais fcil identicar non-CFBs do que CFBs. Para tanto,

observou-se se os descritores dos grupos 1 e 2 da coleo all-2011, apresentados na Tabela


5.3, so iguais aos descritores de ambos os grupos das colees cfb-2011 e ncfb-2011,

apresentados nas Tabelas 5.4 e 5.5, respectivamente.

88
Captulo 5. Aplicao do Mtodo SoftO-FDCL: organizao exvel de comentrios de mdicos de
famlia sobre um processo de avaliao da educao mdica continuada canadense

patient, inform, practic, help, review, interest e treatment )


A maioria dos descritores (

do grupo 1 da coleo all-2011, apresentado na Tabela 5.3, aparecem entre os descrito-

res de um dos grupos de ambas as colees: CFBs (cfb-2011 ) e non-CFBs (ncfb-2011 ).

Assim, no se encontram evidncias de que o grupo 1 da coleo all-2011 representa

completamente uma das duas colees.

Por outro lado, exceto o descritor great, todos os descritores do grupo 2 da coleo all-
2011 foram tambm extrados como descritores do grupo 2 da coleo ncfb-2011. Alm
disso, possvel observar que, exceto os descritores manag e great, os descritores do grupo

2 da coleo all-2011 so muito mais frequentes nos comentrios que foram manualmente

rotulados como non-CFBs (coleo ncfb-2011 ) do que nos comentrios da coleo cfb-

2011. Essa informao apresentada na Figura 5.4. Esse resultado sugere que o grupo 2
da coleo all-2011 contm, em sua maioria, comentrios no construtivos.

0.25

0.2

0.15
Frequncia

0.1 CFB
Non-CFB
0.05

0
l

m a ri

l
w
e st
t ic

re le v

t o p ic
nt

in fo

m on

t
go o d

nd

ag
he lp

nice
m

le m
ar tic
e x ce

m en

gr ea
r e vie
p a t ie
in fo r
pr a c

rem i

m an
in te r

pr ob
su m

co m
tr e a t

Descritores do grupo 1 Descritores do grupo 2

Figura 5.4: Frequncia dos descritores obtidos da aplicao do mtodo SoftO-FDCL sobre a coleo
all-2011 nas colees cfb-2011 e ncfb-2011
Para observar como um determinado descritor pode ocorrer tanto em comentrios

construtivos, quanto no construtivos, observe a ocorrncia do descritor  good  em um

CFB e em um non-CFB, ambos apresentados na Tabela 5.6.

Tabela 5.6: Exemplo de comentrios em que o descritor  good  ocorre


non-CFB CFB
Good to have a reputable I enjoy these highlights,
source conrm what phar- concise, easy to read and
maceutical companies are useful, keep doing this good
claiming about their pro- work.
duct.

89
5.4. Resultados obtidos

Os mesmos experimentos realizados sobre os comentrios enviados por FPs em 2011

foram realizados sobre os comentrios recebidos em 2012. O principal objetivo dessa

observao encontrar um padro de escrita de comentrios que permanece ao longo do

tempo e que pode auxiliar no processo de organizao dos comentrios independente do

perodo no qual os comentrios so escritos pelos mdicos de famlia. Nas Tabelas 5.7,

5.8 e 5.9, os descritores de cada grupo so apresentados.

Tabela 5.7: Descritores de grupos obtidos da aplicao do mtodo SoftO-FDCL sobre a coleo all-2012
Descritores do grupo 1 Descritores do grupo 2
good, patient, inform, prac- review, treatment, learn, ex-
tic, medic, drug, interest, cel, treat, manag, highlight,
articl, info, help good_review, topic, adhd

Tabela 5.8: Descritores de grupos obtidos da aplicao do mtodo SoftO-FDCL sobre a coleo cfb-2012
Descritores do grupo 1 Descritores do grupo 2
treatment, read, drug, pati- medic, start, cost, eect, re-
ent, nd, med, inform, po- view, children, chang, speci-
tenti, articl, practic alist, pt

Tabela 5.9: Descritores de grupos obtidos da aplicao do mtodo SoftO-FDCL sobre a coleo ncfb-2012
Descritores do grupo 1 Descritores do grupo 2
good, review, inform, pati- learn, treatment, help, ma-
ent, practic, interest, excel, nag, highlight, medic, drug,
info, articl, treat topic, adhd, ib

O grupo 2 da coleo all-2012, apresentada na Tabela 5.7, contm, em sua maioria,

descritores que ocorrem somente nos grupos da coleo ncfb-2012 : review, learn, excel,
treat, manag, highlight e adhd. Esses descritores, exceto o descritor treat, possuem mais
alta frequncia na coleo ncfb-2012 do que na coleo cfb-2012, como pode ser observado

na Figura 5.5.

90
Captulo 5. Aplicao do Mtodo SoftO-FDCL: organizao exvel de comentrios de mdicos de
famlia sobre um processo de avaliao da educao mdica continuada canadense

0.25

0.2

0.15

0.1
Frequncia

CFB
0.05 Non-CFB

l
t ic

t o p ic
nt

in fo

ht
ie w
ic
go o d

e st

t
le a rn

tr e a t
ag

ad h d
dr ug

he lp
m

ar tic

e xce
m en
r e v ie
m ed
p a t ie
in f o r

g
pr a c

m an
inte r

i
_rev
l
hig h
tr e a t

go o d
Descritores do grupo 1 Descritores do grupo 2

Figura 5.5: Frequncia dos descritores obtidos da aplicao do mtodo SoftO-FDCL sobre a coleo
all-2012 nas colees cfb-2012 e ncfb-2012

Observando os resultados obtidos da aplicao do mtodo SoftO-FDCL sobre coment-

rios enviados em 2011 e 2012, embora alguns descritores extrados das colees all-2011 e

all-2012 sejam diferentes, eles apresentam caractersticas similares: mais fcil identicar

non-CFBs do que CFBs.

Sendo assim, os descritores de grupos encontrados nos experimentos apresentam um

indicativo acerca do grupo no qual os comentrios so predominantemente non-CFBs.

Essa informao pode auxiliar os pesquisadores do grupo ITPCGR na tarefa de separar

comentrios construtivos dos no construtivos. A m de tornar mais clara esta observa-

o, considere dois grupos, g1 e g2 . Suponha que os descritores obtidos a partir do grupo

g1 indicam que este grupo composto em sua maioria por non-CFBs. Por outro lado, os

descritores do grupo g2 no garantem que seus comentrios so construtivos ou no. Con-

sidere tambm trs comentrios, {d1 , d2 , d3 }, e seus graus de pertinncia nos grupos ob-
tidos do agrupamento fuzzy {(d1 , g1 ), (d1 , g2 ), (d2 , g1 ), (d2 , g2 ), (d3 , g1 ), (d3 , g2 )},
conforme apresentado na Tabela ??.
Tabela 5.10: Graus de pertinncia de trs comentrios em dois grupos

Grupos
Comentrios
g1 g2
d1 0.9 0.1

d2 0.1 0.9

d3 0.5 0.5

Analisando os graus de pertinncia, possvel descartar o comentrio d1 porque ele

91
5.5. Consideraes nais

considerado um non-CFB, uma vez que ele possui maior grau de pertinncia no grupo

g1 , (d1 , g1 ) = 0.9. No entanto, o comentrio d2 deve ser manualmente analisado para

vericar se ele um CFB ou non-CFB porque seu grau de pertinncia maior no grupo g2 ,
(d2 , g2 ) = 0.9. J o comentrio d3 tambm dever ser manualmente analisado porque seu

grau de pertinncia igualmente distribudo em ambos os grupos, (d3 , g1 ) = (d3 , g2 ) =


0.5. Assim, percebeu-se que a organizao exvel no elimina a interveno humana,

mas a apia, uma vez que a quantidade de comentrios a ser analisada reduzida pela

eliminao de comentrios que apresentam alto grau de pertinncia nos grupos cujos

descritores identicam non-CFBs.

5.5 Consideraes nais


Neste captulo foi apresentada a aplicao do mtodo SoftO-FDCL sobre um problema

real. Tal aplicao resultou na organizao exvel de comentrios de mdicos de famlia

canadenses sobre recomendaes de tratamento recebidos por e-mail pelos mesmos. Essa

organizao auxilia os pesquisadores do grupo ITPCRG na seleo de CFBs pela reduo

da quantidade de comentrios a serem manualmente analisados.

Essa aplicao foi desenvolvida durante estgio de doutorado realizado no exterior e

teve participao direta dos pesquisadores envolvidos com o projeto de e-Therapeutics+


Highlights. Como trabalho futuro, importante desenvolver um software que automatize

a organizao de comentrios proposta, por meio de uma interface amigvel ao usurio, de

forma que os comentrios sejam avaliados em CFB ou non-CFB a medida que os mesmos

forem sendo enviados pelos FPs.

Alm disso, o algoritmo de agrupamento utilizado nos experimentos um algoritmo

no-supervisionado, o qual busca por uma estrutura de grupos em dados no rotulados.

Ou seja, o algoritmo de agrupamento utilizado no considera nenhuma informao prvia

em seu processo de agrupamento. Portanto, a informao acerca da rotulao manual

dos comentrios foi utilizada somente na avaliao dos descritores obtidos aps o pro-

cesso de agrupamento. Como pesquisa futura, estuda-se a possibilidade de insero deste

conhecimento prvio no processo de agrupamento pela utilizao de um algoritmo de

agrupamento semi-supervisionado. Em geral, neste tipo de agrupamento, uma pequena

quantidade de documentos da coleo a ser organizada rotulada de forma a calibrar o

algoritmo de agrupamento a ser executado sobre os demais documentos.

Conforme apresentado, o mtodo SoftO-FDCL foi aplicado para a organizao exvel

de comentrios de mdicos de famlia canadenses, obtendo de forma simplicada uma

organizao exvel adequada para o problema abordado. No entanto, possvel, em um

trabalho futuro, aplicar tambm o mtodo wSoftO-FDCL, esperando-se obter descritores

que melhor identiquem os comentrios construtivos e no construtivos. Por outro lado,

a aplicao do mtodo HSoftO-FDCL para o problema em questo precisa ser melhor

investigada, pois a organizao exvel de comentrios de mdicos de famlia canadenses

92
Captulo 5. Aplicao do Mtodo SoftO-FDCL: organizao exvel de comentrios de mdicos de
famlia sobre um processo de avaliao da educao mdica continuada canadense

sucientemente boa utilizando apenas dois grupos at : um para os comentrios constru-

tivos e outro para os no construtivos. Assim, preciso investigar em um trabalho futuro

a necessidade de generalizao/especializao dos grupos de comentrios que obtm-se da

organizao exvel hierrquica com a aplicao do mtodo HSoftO-FDCL.

93
Captulo
6

Concluses

Mtodos de agrupamento de documentos tm sido bastante utilizados para obter co-

nhecimento til sobre documentos (Manning et al., 2008; Baeza-Yates e Ribeiro-Neto,

2011). Esse conhecimento obtido medida que documentos que abordam assuntos se-

melhantes so alocados em um mesmo grupo. No entanto, existem situaes em que a

escolha de um nico grupo para um dado documento no a mais apropriada, uma vez

que esse documento pode abordar diversos assuntos, possuindo relacionamentos com di-

versos grupos simultaneamente. Sendo assim, conforme apresentado ao longo desta tese,

por meio do agrupamento fuzzy de documentos possvel obter uma organizao exvel

de documentos, cujo diferencial a possibilidade de um documento abordar diferentes as-

suntos com diferentes graus de intensidade, caracterizando a impreciso e incerteza tpicas

de situaes reais. Visto que documentos so melhor interpretados quando organizados

em grupos cujos descritores identicam tpicos da coleo de documentos, a organizao

exvel de documentos proposta neste doutorado alcanada pela extrao de descritores

de grupos fuzzy de documentos.

Este cenrio motivou a vericao da hiptese desta tese de doutorado:

A extrao de descritores de grupos fuzzy de documentos possibilita a orga-


nizao exvel de documentos, a qual permite que usurios de sistemas de
recuperao de informao acessem o contedo dos documentos organizados
considerando a impreciso e incerteza tpicas de situaes reais.

A partir dos estudos e experimentos realizados e da hiptese estabelecida, deniu-se

como objetivo desta tese:

Investigar e desenvolver mtodos para a extrao de descritores de grupos fuzzy


que permitam a organizao exvel de documentos.

95
6.1. Resumo das contribuies

Para atender o objetivo estabelecido, diversas atividades de pesquisa foram realizadas,

dentre as quais se destacam a proposta e desenvolvimento de trs mtodos de extrao de

descritores de grupos fuzzy: SoftO-FDCL, Soft-wFDCL e HSoftO-FDCL. Esses mtodos

contribuem para o estado da arte, extraindo descritores de grupos fuzzy separadamente

do processo de agrupamento.

Neste captulo, um resumo das contribuies deste doutorado, as parcerias com grupos

de pesquisa de outras instituies, as limitaes encontradas e os trabalhos futuros so

apresentados.

6.1 Resumo das contribuies


As contribuies ao estado da arte obtidas neste doutorado esto diretamente relaci-

onados com a proposta de uma organizao exvel de documentos. De maneira geral,

essas contribuies consistem de estudo, proposta, desenvolvimento e avaliao de m-

todos para extrao de descritores de grupos fuzzy. Alm disso, uma das contribuies

consiste da aplicao de um dos mtodos propostos em uma aplicao real no contexto

da educao mdica continuada canadense.

A primeira contribuio consiste da proposta e desenvolvimento do mtodo SoftO-

FDCL ( Soft Organization - Fuzzy Description Comes Last ). Por meio desse mtodo,

descritores de grupos fuzzy at so extrados aps o processo de agrupamento, visando

identicar tpicos da organizao exvel de documentos. Os experimentos realizados

mostraram que a exibilidade da organizao de documentos alcanada a partir da

utilizao dos graus de pertinncia obtidos do agrupamento fuzzy, indicando a compa-

tibilidade entre documentos e grupos. Alm disso, por meio desse mtodo, a avaliao

dos termos candidatos a descritores mede quo representativo um descritor para um

grupo e os descritores identicam tpicos da organizao exvel (Nogueira et al., 2011a),

(Nogueira et al., 2012a), (Nogueira et al., 2012b), (Nogueira et al., 2013).

A segunda contribuio consiste da proposta e desenvolvimento do mtodo SoftO-

wFDCL ( Soft Organization - weighted Fuzzy Description Comes Last ), pelo qual descri-
tores de grupos fuzzy at tambm so extrados aps o processo de agrupamento, porm

o grau de pertinncia dos documentos em cada grupo, obtidos do agrupamento fuzzy,

diretamente utilizado na avaliao dos termos candidatos a descritores. Essa nova forma

de avaliao considera que os graus de pertinncia carregam uma informao adicional

acerca da representatividade dos termos, a qual pode contribuir para uma avaliao mais

precisa da importncia de um termo candidato a descritor de grupo. Nos experimentos

realizados, o mtodo SoftO-wFDCL apresentou resultados iguais ou superiores ao m-

todo SoftO-FDCL, ressaltando a importncia dos mesmos para a organizao exvel de

documentos.

A terceira contribuio consiste da proposta e desenvolvimento do mtodo HSoftO-

FDCL ( Hierarchical Soft Organization - Fuzzy Description Comes Last ). Por meio desse

96
Captulo 6. Concluses

mtodo, descritores de grupos fuzzy hierrquicos so extrados aps o processo de agru-

pamento, identicando tpicos da organizao hierrquica exvel de documentos. Os

experimentos realizados mostraram que a organizao hierrquica exvel de documentos

permite que a coleo de documentos seja visualizada e explorada iterativamente, j que

por meio desta organizao dois tpicos podem ser a especializao ou generalizao um

do outro. Alm disso o agrupamento fuzzy hierrquico e a extrao de descritores pelo

mtodo HSoftO-FDCL garantem que os documentos pertenam a mais de um grupo no

mesmo nvel da hierarquia com diferentes graus de compatibilidade, uma vez que os des-

critores podem representar mais de um grupo com pesos de representatividade diferentes

nos grupos.

Uma quarta contribuio foi obtida neste doutorado pela aplicao do mtodo SoftO-

FDCL no contexto da educao mdica continuada canadense. Desta aplicao obteve-se

a organizao exvel de comentrios de mdicos de famlia canadenses ( Canadian Family


Physicians - FPs) sobre recomendaes de tratamento recebidos por e-mail. A associao

de farmacuticos canadenses ( Canadian Pharmacists Association - CPhA) tem utilizado


um recurso chamado e-Therapeutics+ 1 , pelo qual possvel o gerenciamento de reco-
mendaes de tratamento baseado em evidncias farmacolgicas e no farmacolgicas.

Especicamente, e-Therapeutics+ ajuda os FPs a saber quais opes teraputicas esto

disponveis em uma determinada situao clnica. Para sensibilizar os FPs de que a in-

formao teraputica pode ser til em cuidar de seus pacientes, os editores da CPhA

selecionam informaes chave, chamadas de e- Therapeutics+ Highlights 2 . Highlights so

enviados semanalmente por e-mail para os FPs. Assim, a aplicao do mtodo SoftO-

FDCL foi realizada neste contexto possibilitando a organizao dos comentrios dos FPs

acerca de uma nova informao contida no Highlight recebido, de forma que os edito-
res da CPhA consigam acrescentar melhorias nos Highlights pela seleo de comentrios

construtivos.

Alm dessas quatro principais contribuies, foram obtidas duas outras contribuies

que no fazem parte da proposta principal de extrao de descritores de grupos para a

organizao exvel proposta neste doutorado, mas que foram importantes para o enten-

dimento do problema abordado no mesmo.

A primeira consiste na representao de documentos por meio de agrupamento fuzzy

e a gerao de regras fuzzy a partir desse agrupamento. Os resultados obtidos com

esta abordagem de gerao de regras fuzzy mostraram-se promissores para a classicao

de documentos, permitindo a reduo da dimensionalidade da representao usual de

documentos (Nogueira et al., 2010), (Yaguinuma et al., 2010a), (Yaguinuma et al., 2010b),

(Nogueira et al., 2011b), (Yaguinuma et al., 2012). Alm disso, essa contribuio propicia

o tratamento de impreciso e incerteza de documentos, aspecto chave da proposta de

organizao exvel de documentos abordada neste doutorado.

A segunda est relacionada Recuperao de Informao (RI) exvel. Para tanto, foi

1 http://www.pharmacists.ca/index.cfm/function/store/PublicationDetail.cfm?pPub=9
2 http://www.pharmacists.ca/index.cfm/more-information/et-mcgill/

97
6.2. Publicaes provenientes deste doutorado

realizado um estudo sobre a aplicao de regras fuzzy no nvel da consulta de um Sistema

de Recuperao de Informao (SRI). A partir deste estudo e da reviso da literatura,

concluiu-se que para que um documento seja satisfatoriamente recuperado por um SRI,

considerando que a impreciso e incerteza so tpicas de documentos textuais, a coleo

da qual ele faz parte deve ser organizada de maneira exvel.

Alm dessas contribuies, resume-se a seguir contribuies adicionais desta tese de

doutorado.

Levantamento bibliogrco de trabalhos relacionados extrao de descritores de

grupos (Captulo 2);

Explorao e implementao de algoritmos de agrupamento fuzzy (Captulo 2);

Explorao e implementao de algoritmos de agrupamento fuzzy hierrquicos

((Eico et al., 2012));

Levantamento bibliogrco de trabalhos relacionados organizao exvel de do-

cumentos (Captulo 3);

Explorao da inuncia do pr-processamento de documentos no agrupamento de

documentos ((Nogueira et al., 2010), (Yaguinuma et al., 2010a));

Proposta de um projeto cientco intitulado Tratamento de impreciso e incer-

teza na representao, organizao e recuperao de informao textual utilizando

abordagem fuzzy, o qual foi submetido e aprovado no programa de mobilidade in-

ternacional Santander. Este projeto foi desenvolvido na Universidade de Granada -

Espanha no perodo de Maio a Setembro de 2010.

Proposta de um projeto cientco intitulado Gerenciamento de Impreciso e Incer-

teza para Organizao Flexvel de Documentos Textuais', o qual foi submetido e

aprovado no Programa Institucional de Doutorado Sanduche no Exterior (PDSE-

CAPES). Este projeto foi desenvolvido na Universidade McGill - Canad no perodo

de Fevereiro a Agosto de 2012.

Participao em um projeto regular de pesquisa intitulado Mtodos de Agrupa-

mento Hierrquico para Organizao Automtica de Resultados de Motores de

Busca, o qual foi aprovado pela FAPESP (processo 2011/19850-9). O mtodo

HSoftO-FDCL proposto neste doutorado tem sido investigado e avaliado junto a

outros pesquisadores que participam deste projeto de pesquisa.

6.2 Publicaes provenientes deste doutorado


Durante o perodo deste doutorado, vrios resultados foram obtidos e alguns artigos

foram publicados. A lista de artigos provenientes da pesquisa realizada neste doutorado

apresentada a seguir.

98
Captulo 6. Concluses

1. NOGUEIRA, T. M. ; CAMARGO, H. A. ; REZENDE, S. O. . Descriptor extraction

of overlapped document clusters: a comparison between a fuzzy and a possibilistic

approach proposed for exible document organization. Applied Soft Computing,

2013 (Artigo em fase nal de reviso para submisso).

2. NOGUEIRA, T.; CAMARGO, H.; ROSSI, R.; PLUYE, P; GRAD, R.; TANG, D.;

JOHNSON-LAFLEUR, J.; LEWIS, D. ; REZENDE, S. . Automatic organization

of family physicians textual comments about treatment recommendations can help

to identify non-constructive comments. Computers in Biology and Medicine. 2013

(Artigo submetido em outubro de 2012).

3. NOGUEIRA, T. M. ; CAMARGO, H. A. ; REZENDE, S. O. . Fuzzy-DDE: a fuzzy

method for the extraction of document cluster descriptors. International Journal of

Computer Information Systems and Industrial Management Applications, 2013, v.

5, pp. 472-479.

4. NOGUEIRA, T. M. ; CAMARGO, H. A. ; REZENDE, S. O. . Fuzzy cluster

descriptors improve exible organization of documents. In: International Conference

on Intelligent Systems Design and Applications (ISDA), 2012, Kochi, ndia, pp. 616-

621.

5. NOGUEIRA, T. M. ; CAMARGO, H. A. ; REZENDE, S. O. . Fuzzy Rules for

Document Classication to Improve Information Retrieval. International Journal of

Computer Information Systems and Industrial Management Applications, v. 3, p.

210-217, 2011.

6. NOGUEIRA, T. M. ; CAMARGO, H. A. ; REZENDE, S. O. . Fuzzy cluster des-

criptor extraction for exible organization of documents. In: 11th International

Conference on Hybrid Intelligent Systems (HIS), 2011, Melacca-Malsia. 11th In-

ternational Conference on Hybrid Intelligent Systems (HIS), 2011. p. 528-533.

7. EICO, CYNTIA H. N. ; NOGUEIRA, T. M. ; REZENDE, S. O. . Apoio ao gerenci-

amento de impreciso e incerteza em documentos textuais utilizando agrupamento

fuzzy. In: SIICUSP, 2011, So Carlos - SP. SIICUSP, 2011.

8. NOGUEIRA, T. M. ; CAMARGO, H. A. ; REZENDE, S. O. . On The Use of Fuzzy

Rules to Text Document Classication. In: 10th International Conference on Hybrid

Intelligent Systems, 2010, Atlanta-Georgia-USA. 10th International Conference on

Hybrid Intelligent Systems, 2010.

9. NOGUEIRA, T. M. ; CAMARGO, H. A. ; REZENDE, S. O. . Tratamento de impre-

ciso e incerteza na identicao de documentos textuais similares. In: Congresso

da Academia Trinacional de Cincias, 2009, Foz do Iguau-PR. Anais do C3N, 2009.

v. 1.

99
6.3. Parcerias

Alm desses trabalhos, houve tambm a colaborao em outros trabalhos relacionados:

1. YAGUINUMA, C. A., CAMARGO, H. A., SANTOS, M. T. P., NICOLETTI, M. C.,

e NOGUEIRA, T. M.. Fuzz-onto: A meta-ontology for representing fuzzy elements

and supporting fuzzy classication rules. International Conference on Intelligent

Systems Design and Applications (ISDA), p 166-171, 2012.

2. YAGUINUMA, C. A., NOGUEIRA, T. M., FERRAZ, V. R. T., SANTOS, M. T.

P., e CAMARGO, H. A.. A model for representing vague linguistic terms and

fuzzy rules for classication in ontologies. International Conference on Enterprise

Information Systems (ICEIS), p. 438-442, 2010.

3. YAGUINUMA, C. A., SANTOS, M. T. P., CAMARGO, H. A. e NOGUEIRA, T.

M.. A meta-ontology approach for representing vague linguistic terms and fuzzy

rules for classication in ontologies. International Enterprise Distributed Object

Computing Conference Workshops, EDOCW '10, p. 263-271, 2010.

6.3 Parcerias
Durante o desenvolvimento desta tese, vrias parcerias foram realizadas com grupos

cujas pesquisas possuem alguma relao com o foco deste trabalho. As parcerias possibi-

litaram a interao com pesquisadores do grupo de pesquisa no qual este doutorado est

inserido e de outras instituies de ensino. Essas parcerias so citadas a seguir.

Este doutorado foi realizado no grupo de pesquisadores da rea de Minerao de

Textos do LABIC (Laboratrio de Inteligncia Computacional) do Instituto de Cincias

Matemticas e de Computao da Universidade de So Paulo (ICMC-USP). Este grupo

coordenado pela Profa. Dra. Solange Oliveira Rezende e composto por alunos de

iniciao cientca, mestrandos, doutorandos, ps-doutorandos e pesquisadores externos,

todos realizando pesquisas em alguma etapa do processo de minerao de textos. Para

este doutorado, a interao com o grupo foi fundamental para a pesquisa relacionada ao

gerenciamento de documentos textuais nas cinco etapas da minerao de textos: identi-

cao do problema, pr-processamento, extrao de padres, ps-processamento e uso

do conhecimento. Essa interao obteve como resultado a participao na orientao de

uma iniciao cientca. Os resultados desse trabalho foi publicado e apresentado no

Simpsio Internacional de Iniciao Cientca (SIICUSP) 2011 (Eico et al., 2012), pelo

qual foi realizado o estudo de algoritmos de agrupamento fuzzy hierrquicos para organi-

zao de documentos. Tambm como resultado da interao com o grupo, foi proposto e

aprovado o projeto regular de pesquisa FAPESP intitulado Mtodos de Agrupamento

Hierrquico para Organizao Automtica de Resultados de Motores de Busca, processo

2011/19850-9, coordenado pela orientadora deste doutorado Profa. Dra. Solange Oliveira

Rezende e com participao dos demais doutorandos do grupo, cujo objetivo geral inves-

tigar novos mtodos de agrupamento hierrquico hard e soft para resultados provenientes

100
Captulo 6. Concluses

de motores de busca, e assim desenvolver um ambiente que permita explorar, de maneira

mais efetiva, os resultados obtidos por sistemas de recuperao de informao.

Este doutorado tambm foi realizado em parceria com o grupo CIG (Grupo de Inte-

ligncia Computacional) do Departamento de Cincia da Computao da Universidade

Federal de So Carlos (DC-UFScar). Este grupo coordenado pela Profa. Dra. Heloisa

de Arruda Camargo, coorientadora deste doutorado, e tambm composto por alunos de

iniciao cientca, mestrandos, doutorandos e pesquisadores, todos realizando pesquisas

da rea de teoria de conjuntos fuzzy. A interao com este grupo foi importante para

discusses dos conceitos relacionados teoria de conjuntos fuzzy, da qual obteve-se como

resultado publicaes de um estudo desenvolvido para a representao de regras fuzzy

de documentos via ontologias fuzzy (Yaguinuma et al., 2010a) (Yaguinuma et al., 2010b)

(Yaguinuma et al., 2012).

Por meio do programa de mobilidade internacional Santander, foi possvel tambm o

desenvolvimento de um trabalho colaborativo com o grupo de pesquisa da Universidade

de Granada - Espanha. Este grupo de pesquisa vem trabalhando com computao e-

xvel e sistemas de informao inteligentes ( Soft Computing and Intelligent Information


Systems 3 ) destacando-se como um grupo reconhecido mundialmente na rea de sistemas
fuzzy. Fazem parte do grupo mais de 40 pesquisadores, entre pesquisadores seniores e

estudantes de doutorado, sob a coordenao do professor Francisco Herrera. No geral,

o grupo tem como foco de suas pesquisas o desenvolvimento de tcnicas de computao

exvel: sistemas fuzzy, algoritmos genticos, sistemas fuzzy genticos, aprendizado evolu-

tivo e computao bioinspirada, bem como aplicaes nos campos da minerao de dados,

tomada de deciso, recuperao de informao e outros. Em parceria com esse grupo, as

pesquisas relacionadas a este doutorado foram realizadas no laboratrio SECABA , coor-


4

denado pelo Prof. Dr. Enrique Herrera Viedma juntamente com o coordenador geral do

grupo Prof. Dr. Franscisco Herrera, ambos trabalham juntos na recuperao de informa-

o e computao com palavras. As pesquisas realizados junto este grupo, deram origem

aos experimentos iniciais sobre o tratamento de impreciso e incerteza da recuperao de

informao apresentados no Apndice B.

Por m, por meio do Programa Institucional de Doutorado Sanduche no Exterior

(PDSE-CAPES), foi estabelecida uma parceria com o grupo Information Technology Pri-
mary Care Research Group (ITPCRG) da Universidade McGill - Canad, sob a superviso
do Prof. Dr. Pierre Pluye. Esse grupo de pesquisa desenvolveu um mtodo de avaliao

da informao ( Information Assessment Method (IAM) (Pluye et al., 2009)) que regu-

larmente enviada aos mdicos de famlia canadenses por e-mail como parte da educao

mdica continuada dada aos mesmos. Por meio deste mtodo, os pesquisadores do grupo

avaliam o contedo destes e-mails na perspectiva dos prossionais de sade canadenses

que recebem a educao mdica continuada na forma de e-Therapeutics+ Highlights. e-


Therapeutics+ um recurso exclusivo do Canad para a prescrio e gesto teraputica

3 http://sci2s.ugr.es/
4 http://sci2s.ugr.es/secaba/

101
6.4. Limitaes

farmacolgica no momento do atendimento, o qual prov aos farmacuticos ou outros

prossionais de sade o acesso on-line a uma base de evidncias sobre medicamentos

canadenses e informaes teraputicas conveis. Assim, e-Therapeutics+ auxilia os pro-


ssionais a saberem qual medicamento funciona em qual situao. Com isto, de forma

a fornecer acesso fcil e atual informao prtica e relevante que podem ser teis no

cuidado de seus pacientes, editores da associao de farmacuticos canadenses (Canadian

Pharmacists Association) selecionam destaques interessantes de cada um dos tpicos em

e-Therapeutics+, os quais so denominados e-Therapeutics+ Highlights. Estes destaques


so enviados duas vezes por semana por e-mail aos usurios do e-Therapeutics+. Assim,

o grupo ITPCRG desenvolveu um projeto que visa avaliar a forma como informaes

clnicas noe-Therapeutics+ so aplicadas na prtica pelos mdicos de famlia canadenses


e patrocinado pelos Institutos Canadenses de Pesquisa em Sade (Canadian Institutes

of Health Research (CIHR)) e o Fundo de Investigao de Sade do Quebec (Fonds de


Recherche en Sant du Qubec (FRSQ)). Nesse contexto, um dos mtodos propostos neste
doutorado foi aplicado e os resultados obtidos mostraram-se satisfatrios ao problema real

abordado pelo grupo ITPCRG. Como resultado da interao com o grupo, uma documen-

tao dos experimentos realizados e dos resultados obtidos foi submetido para o peridico

Computers in Biology and Medicine e encontra-se em fase de avaliao pelo seu corpo

editorial.

6.4 Limitaes
Segundo Zhang et al. (2009), a qualidade dos descritores de grupos deve ser avaliada

considerando 4 propriedades: (i) conciso, o qual signica que eles devem ser os mais

curtos possveis, mas sucientes para abordar o tpico do grupo; (ii) compreensibilidade,

tambm conhecida como transparncia, o qual signica que eles devem mapear o contedo

dos grupos; (iii) acurcia, que signica que eles devem reetir o tpico que corresponde ao

grupo; e, (iv) distino, o qual signica que eles devem ser mais frequentes em um grupo

do que em outros.

Neste doutorado os descritores foram avaliados pela sua acurcia, por meio do uso de

algoritmos de classicao. Por outro lado, embora a a compreensibilidade tenha sido

avaliada sobre coleo Opinosis, j que esta coleo composta por poucos documentos e

um conjunto de sumrios escritos por humanos, permitindo realizar uma avaliao qua-

litativa, a compreensibilidade considerada uma limitao, pois os mtodos propostos

extraem descritores na form stemizada, que difcil de entender, e para que sejam teis

de alguma forma, os descritores tem que ser usados em nmero elevado. J a avaliao de

conciso e distino dos descritores extrados pelos mtodos propostos considerada uma

limitao deste doutorado. No geral, a avaliao da conciso dos descritores extrados

bastante subjetiva e dependente do conhecimento de especialistas, o que seria oneroso

para avaliao de um grande volume de documentos. Por outro lado, a distino de des-

102
Captulo 6. Concluses

critores no condiz com o foco principal deste doutorado que a organizao exvel de

documentos. Neste tipo de organizao entende-se que um descritor pode ser igualmente

representativo para mais de um grupo, j que no apenas um descritor identica um

tpico, mas um conjunto de descritores.

Outra limitao est relacionada a anlises comparativas com o estado da arte. Os

mtodos mais citados na literatura, dos quais alguns foram citados no Captulo 2, realizam

a avaliao dos descritores por meio do desempenho do algoritmo de agrupamento. Isto

ocorre porque a maioria dos mtodos de extrao de descritores disponveis na literatura

so do tipo DCF ( Description Comes First ) em que a extrao de descritores ocorre antes,
ou ao mesmo tempo, do processo de agrupamento. Sendo assim, no foram realizados

experimentos comparativos com os mtodos disponveis na literatura porque os mtodos

propostos apresentam um mecanismo diferente dos mtodos citados no estado da arte,

concluindo-se que a comparao no seria adequada.

6.5 Trabalhos futuros


Considerando as limitaes apresentadas anteriormente, necessrio investir esforos

em realizar experimentos que permitam uma avaliao dos descritores extrados com re-

lao conciso dos mesmos. Embora oneroso, estes experimentos podem reforar ainda

mais a utilidade dos mtodos propostos.

No desenvolvimento deste doutorado, a maioria dos experimentos e avaliaes

concentraram-se sobre a validao do mtodo SoftO-FDCL. No entanto, faz-se necessrio

executar uma quantidade maior de experimentos e avaliaes sobre os mtodos HSoftO-

FDCL e SoftO-wFDCL, dadas suas potenciais utilidades. Em especial, sobre o mtodo

HSoftO-FDCL, o qual destaca-se como um mtodo promissor para organizao exvel de

documentos, visto que a estrutura hierrquica tem se destacado no estado da arte como

organizao que permite auxiliar o usurio em uma busca exploratria dos resultados ob-

tidos em Sistema de Recuperao de Informao, em diversos nveis de granularidade. A

organizao hierrquica exvel de documentos facilita a busca pela informao de inte-

resse do usurio, obtendo-se uma viso complementar ao modelo baseado em uma simples

lista ordenada de documentos de acordo com a relevncia denida pelo usurio.

Relacionada com a aplicao do mtodo SoftO-FDCL no contexto do grupo Infor-


mation Technology Primary Care Research Group (ITPCRG) da Universidade McGill -

Canad, espera-se ainda desenvolver um software que automatize a organizao de co-

mentrios proposta, por meio de uma interface amigvel ao usurio, de forma que os

comentrios sejam avaliados em construtivos ou no construtivos a medida que os mes-

mos forem sendo enviados pelos mdicos de famlia.

Adicionalmente, a comprovao da hiptese deste doutorado motiva a continuao das

pesquisas com a realizao de trabalhos futuros, como os citados anteriormente, por meio

de um estgio de ps-doutorado.

103
6.5. Trabalhos futuros

Por m, este doutorado possibilita a abertura de uma linha de pesquisa pela qual

possvel a realizao de exploraes relativas organizao exvel de dados. Por meio

desta linha de pesquisa, novas investigaes podem ser consideradas sobre problemas

relacionados ao tratamento de impreciso e incerteza de dados com diferentes estruturas

e padres, desenvolvendo aes que levem produo cientca inovadora na rea de

Recuperao de Informao.

104
Referncias Bibliogrcas

Aggarwal, C. C. e Zhai, C. (2012). Mining Text Data. Springer. Citado na pgina 1.

Akinribido, C. T., Afolabi, B. S., Akhigbe, B. I., e Udo, I. J. (2011). A fuzzy-ontology

based information retrieval system for relevant feedback. International Journal of Com-
puter Science Issues, 1:382389. Citado nas pginas 2 e 37.

Anaya-Snchez, H., Pons-Porrata, A., e Berlanga-Llavori, R. (2008). A new document

clustering algorithm for topic discovering and labeling. Proceedings of the 13th
Em

Iberoamerican congress on Pattern Recognition: Progress in Pattern Recognition, Image


Analysis and Applications, pginas 161168. Citado nas pginas 4 e 40.

Baeza-Yates, R. A. e Ribeiro-Neto, B. (2011). Modern Information Retrieval. Addison-

Wesley Professional, 2 edio. Citado nas pginas 7, 9, 35, e 95.

Berry, M. e Kogan, J. (2010). Text Mining: Applications and Theory. Wiley InterScience.

Wiley. Citado na pgina 1.

Bezdek, J. C. (1981). Pattern Recognition with Fuzzy Objective Function Algorithms.


Kluwer Academic Publishers, Norwell, MA, USA. Citado nas pginas 10, 17, 34, 38,

40, 63, e 118.

Bezdek, J. C. e Pal, N. R. (1992). Fuzzy Models for Pattern Recognition. IEEE Press, 1

edio. Citado na pgina 17.

Bordogna, G., Pagani, M., e Pasi, G. (2006). A dynamic hierarchical fuzzy clustering

algorithm for information ltering. Em Herrera-Viedma, E., Pasi, G., e Crestani, F.,

editores, Soft Computing in Web Information Retrieval, volume 197, pginas 323.

Citado nas pginas 4, 10, 38, e 39.

Bordogna, G. e Pasi, G. (2001). Modeling vagueness in information retrieval. Em Agosti,

M., Crestani, F., e Pasi, G., editores, Lectures on information retrieval, pginas 207

241. Citado na pgina 2.

105
Referncias Bibliogrcas

Bordogna, G. e Pasi, G. (2004). Soft fusion of information access. Fuzzy Sets and Systems,
148:205218. Citado na pgina 2.

Bordogna, G. e Pasi, G. (2011). Soft clustering for information retrieval applications.

Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 1(2):138146.


Citado nas pginas 3, 9, e 39.

Bordogna, G. e Pasi, G. (2012). A quality driven hierarchical data divisive soft clustering

for information retrieval. Knowledge-Based Systems, 26:919. Citado na pgina 39.

Campello, R. e Hruschka, E. (2006). A fuzzy extension of the silhouette width criterion

for cluster analysis. Fuzzy Sets and Systems, 157(21):2858  2875. Citado nas pginas

17, 19, e 67.

Campello, R. J., Hruschka, E. R., e Alves, V. S. (2009). On the eciency of evolutionary

fuzzy clustering. Journal of Heuristics, 15:4375. Citado na pgina 17.

Carmel, D., Roitman, H., e Zwerdling, N. (2009). Enhancing cluster labeling using Wiki-

pedia. Em Proceedings of the 32nd International ACM SIGIR (Special Interest Group
on Information Retrieval) Conference on Research and Development in Information
Retrieval, pginas 139146. Citado na pgina 20.

Chen, C.-L., Tseng, F. S., e Liang, T. (2010a). An integration of WordNet and fuzzy

association rule mining for multi-label document clustering. Data & Knowledge Engi-
neering, 69(11):1208  1226. Citado nas pginas 22 e 23.

Chen, C.-L., Tseng, F. S. C., e Liang, T. (2010b). Mining fuzzy frequent itemsets for

hierarchical document clustering. Information Processing and Management, 46:193

211. Citado nas pginas 22 e 23.

Chi, Z., Yan, H., e Pham, T. (1996). Fuzzy Algorithms with Applications to Image Pro-
cessing and Pattern Recognition. World Scientic. Citado nas pginas 33 e 119.

Chin, O. S., Kulathuramaiyer, N., e Yeo, A. W. (2006). Automatic discovery of concepts

from text. Em Proceedings of the IEEE/WIC/ACM International Conference on Web


Intelligence, pginas 10461049. Citado na pgina 20.

Chitsaz, E., Taheri, M., Katebi, S. D., e Jahromi, M. Z. (2009). An improved fuzzy feature

clustering and selection based on chi-squared-test. Em Proceedings of the International


MultiConference of Engineers and Computer Scientists, volume 1, pginas 16. Citado

na pgina 67.

Chli, M. e Wilde, P. D. (2006). Internet search: subdivision-based interactive query

expansion and the soft semantic web. Applied Soft Computing, 6(4):372  383. Citado

na pgina 35.

106
Referncias Bibliogrcas

Chowdhury, C. e Bhuyan, P. (2010). Information retrieval using fuzzy c-means clustering

and modied vector space model. Em Proceedings of the 3rd IEEE International Con-
ference on Computer Science and Information Technology, volume 1, pginas 696700.
Citado nas pginas 4, 37, e 39.

Conrado, M. S. (2009). O efeito do uso de diferentes formas de extrao de

termos na compreensibilidade e representatividade dos termos em colees tex-

tuais na lngua portuguesa. Dissertao de Mestrado, Instituto de Cincias

Matemticas e de Computao  ICMC  USP, So Carlos - SP. Dispon-

vel em http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19012010-112047/pt-

br.php. Citado na pgina 8.

Crestani, F., Lalmas, M., van Rijsbergen, C., e Campbell, I. (1998). Is this document

relevant? Probably. ACM Computing Surveys, 30(4):528552. Citado na pgina 28.

Crestani, F. e Pasi, G. (1999). Soft information retrieval: Applications of fuzzy set theory

and neural networks. Em N.Kasabov e Kozma, R., editores, Neuro-fuzzy Techniques


for Intelligent Information Systems, pginas 287313. Physica-Verlag, Springer-Verlag
Group. Citado na pgina 28.

Crestani, F. e Pasi, G. (2000). Soft Computing in Information Retrieval: Techniques and


Applications. Physica Verlag. Citado na pgina 2.

Cutting, D. R., Karger, D. R., Pedersen, J. O., e Tukey, J. W. (1992). Scatter/gather:

a cluster-based approach to browsing large document collections. Proceedings of Em

the 15th Annual International ACM SIGIR (Special Interest Group on Information
Retrieval) Conference on Research and Development in Information Retrieval, pginas
318329. Citado na pgina 20.

Dae-Young e Choi (2003). Enhancing the power of web search engines by means of fuzzy

query. Decision Support Systems, 35(1):31  44. Citado na pgina 35.

Deng, J., Hu, J., Chi, H., e Wu, J. (2010). An improved fuzzy clustering method for text

mining. Proceedings of the 2nd International Conference on Networks Security,


Em

Wireless Communications and Trusted Computing, volume 1, pginas 6569. Citado


na pgina 12.

Eico, C. H. N., Nogueira, T., Rezende, S., e Camargo, H. (2012). Apoio ao gerenciamento

de impreciso e incerteza em documentos textuais utilizando agrupamento fuzzy. Em

Anais do Simpsio Internacional de Iniciao Cientca (SIICUSP). Citado nas pgi-

nas 98 e 100.

Fayyad, U. M., Shapiro, G. P., e Smyth, P. (1996). The KDD process for extracting useful

knowledge from volumes of data. Communications of the ACM, 39(11):2734. Citado

na pgina 1.

107
Referncias Bibliogrcas

Feldman, R. e Sanger, J. (2007). The Text Mining Handbook: Advanced Approaches in


Analyzing Unstructured Data. Cambridge University Press. Citado nas pginas 4, 7,

e 40.

Frank, A. e Asuncion, A. (2010). UCI machine learning repository.

http://archive.ics.uci.edu/ml. Citado nas pginas 53 e 55.

Fung, B., Wang, K., e Ester, M. (2003). Hierarchical document clustering using frequent

itemsets. Em Proceedings of the International Conference on Data Mining, pginas

5970. Citado na pgina 22.

Gabrilovich, E. e Markovitch, S. (2004). Text categorization with many redundant fe-

atures: using aggressive feature selection to make SVMs competitive with C4.5. Em

Proceedings of the 21st International Conference on Machine Learning, pginas 4149.


Citado na pgina 57.

Gabrilovich, E. e Markovitch, S. (2007). Computing semantic relatedness using Wikipedia-

based explicit semantic analysis. Em Proceedings of the 20th International Joint Con-
ference on Articial Intelligence, pginas 16061611. Citado na pgina 20.

Ganesan, K., Zhai, C., e Han, J. (2010). Opinosis: a graph based approach to abstractive

summarization of highly redundant opinions. Em Proceedings of the 23rd International


Conference on Computational Linguistics, pginas 340348. Citado na pgina 54.

Gath, I. e Geva, B. (1989). Unsupervised optimal fuzzy clustering. IEEE Transactions


on Pattern Analysis and Machine Intelligence, 7:773781. Citado na pgina 10.

Geraci, F., Pellegrini, M., Maggini, M., e Sebastiani, F. (2006). Cluster generation and

cluster labelling for web snippets: A fast and accurate hierarchical solution. Em Cres-

tani, F., Ferragina, P., e Sanderson, M., editores, String Processing and Information
Retrieval, volume 4209, pginas 2536. Citado na pgina 20.

Gomez-Skarmeta, A. F., Delgado, M., e Vila, M. A. (1999). About the use of fuzzy cluste-

ring techniques for fuzzy model identication. Fuzzy Sets and Systems, 106(2):179188.
Citado na pgina 17.

Guztafson, E. E. e Kessel, W. C. (1979). Fuzzy clustering with a fuzzy covariance matrix.

Em Proceedings of the IEEE Conference on Decision and Control, pginas 761766.

Citado na pgina 10.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., e Witten, I. H. (2009).

The WEKA data mining software: an update. ACM SIGKDD (Special Interest Group
on Knowledge Discovery & Data Mining) Explorations Newsletter, 11(1). Citado nas
pginas 57 e 120.

108
Referncias Bibliogrcas

Han, E.-H., Boley, D., Gini, M., Gross, R., Hastings, K., Karypis, G., Kumar, V., Mo-

basher, B., e Moore, J. (1998). WebACE: a web agent for document categorization

and exploration. Em Proceedings of the 2nd International Conference on Autonomous


Agents, pginas 408415. Citado na pgina 55.

Hayes, P. J. e Weinstein, S. P. (1990). Construe/TIS: a system for content-based inde-

xing of a database of news stories. Em Proceedings of the 2nd Annual Conference on


Innovative Applications of Articial Intelligence, pginas 15. Citado na pgina 55.

Herrera-Viedma, E., Pasi, G., e Crestani, F. (2006). Soft Computing in Web Informa-
tion Retrieval: Models and Applications (Studies in Fuzziness and Soft Computing).
Springer-Verlag New York, Inc. Citado na pgina 2.

Horng, Y.-J., Chen, S.-M., , Chang, Y.-C., e Lee, C.-H. (2005). A new method for

fuzzy information retrieval based on fuzzy hierarchical clustering and fuzzy inference

techniques. IEEE Transactions on Fuzzy Systems, 13(2):216228. Citado nas pginas

4 e 39.

Hotho, A., Staab, S., e Stumme, G. (2003). Wordnet improves text document clustering.

Em In Proceedings of the SIGIR (Special Interest Group on Information Retrieval) 2003


Semantic Web Workshop, pginas 541544. Citado na pgina 20.

Hripcsak, G., Knirsch, C., Zhou, L., Wilcox, A., e Melton, G. B. (2007). Using discordance

to improve classication in narrative clinical databases: an application to community-

acquired pneumonia. Computers in Biology and Medicine, 37(3):296304. Citado na

pgina 86.

Hruschka, E. R., Castro, L. N. d., e Campello, R. J. G. B. (2004). Evolutionary algorithms

for clustering gene-expression data. Em Proceedings of the 4th IEEE International


Conference on Data Mining, pginas 403406. Citado na pgina 19.

Hu, J., Fang, L., Cao, Y., Zeng, H.-J., Li, H., Yang, Q., e Chen, Z. (2008). Enhancing text

clustering by leveraging Wikipedia semantics. EmProceedings of the 31st Annual In-


ternational ACM SIGIR (Special Interest Group on Information Retrieval) Conference
on Research and Development in Information Retrieval, pginas 179186. Citado na
pgina 20.

Hllermeier, E. (2011). Fuzzy sets in machine learning and data mining. Applied Soft
Computing, 11(2):1493  1505. Citado nas pginas 4 e 29.

Ishibuchi, H., Nakashima, T., e Murata, T. (1999). Voting fuzzy rule-based systems

for pattern classication problems. Fuzzy Sets and Systems, 103:223238. Citado na

pgina 33.

109
Referncias Bibliogrcas

Joachims, T. (1998). Text categorization with support vector machines: learning with

many relevant features. Em Proceedings of the 10th European Conference on Machine


Learning, pginas 137142. Citado na pgina 57.

Kaufman, L. e Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to


Cluster Analysis. Wiley Series in Probability and Mathematical Statistics. Citado nas

pginas 10 e 17.

Klir, G. J. e Yuan, B. (1995). Fuzzy Sets and Fuzzy Logic: theory and applications.
Prentice-Hall, 1 edio. Citado nas pginas 3, 11, 32, e 33.

Kozielski, M. (2007). Multilevel conditional fuzzy c-means clustering of XML documents.

Em Kok, J., Koronacki, J., Lopez de Mantaras, R., Matwin, S., Mladeni?, D., e Sko-

wron, A., editores, Knowledge Discovery in Databases, volume 4702, pginas 532539.
Springer Berlin Heidelberg. Citado nas pginas 4 e 39.

Kraft, D. H., Pasi, G., e Bordogna, G. (2006). Vagueness and uncertainty in information

retrieval: how can fuzzy sets help? Em Proceedings of the International Workshop on
Research Issues in Digital Libraries, pginas 110. Citado nas pginas 2, 3, e 28.

Krishnapuram, R. e Keller, J. M. (1993). A possibilistic approach to clustering. IEEE


Transactions on Fuzzy Systems, 1(2):98110. Citado nas pginas 12, 13, e 67.

Lang, K. (1995). Newsweeder: learning to lter netnews. Em Proceedings of the 20th


International Conference on Machine Learning, pginas 331339. Citado na pgina 55.

Lee, K.-M. (2001). Mining generalized fuzzy quantitative association rules with fuzzy ge-

Proceedings of the Joint 9th IFSA (International Fuzzy Systems


neralization hierarchies.

Association) World Congress and 20th NAFIPS (North American Fuzzy Information
Processing Society) International Conference, 5:29772982. Citado nas pginas 4 e 39.
Lopez-Herrera, A., Herrera-Viedma, E., e Herrera, F. (2009). Applying multi-objective

evolutionary algorithms to the automatic learning of extended boolean queries in fuzzy

ordinal linguistic information retrieval systems. Fuzzy Sets and Systems, 160:21922205.
Citado nas pginas 2 e 37.

Luger, G. (2004). Articial Intelligence: Structures and strategies for complex problem
solving. Addison Wesley Longman, 5 edio. Citado na pgina 35.

Lynn, S. e Ng, Y.-K. (2008). Using vagueness measures to re-rank documents retrieved by

Proceedings of the 5th International Con-


a fuzzy set information retrieval model. Em

ference on Fuzzy Systems and Knowledge Discovery, volume 5, pginas 3943. Citado
na pgina 37.

Manning, C. D., Raghavan, P., e Schtze, H. (2008). An Introduction to Information


Retrieval. Cambridge University Press. Citado nas pginas 7, 9, 35, 58, 67, e 95.

110
Referncias Bibliogrcas

Matsumoto, T. e Hung, E. (2012). A transduction-based approach to fuzzy clustering, re-

levance ranking and cluster label generation on web search results. Journal of Intelligent
Information Systems, 38(2):419448. Citado nas pginas 22 e 23.

Miller, G. A. (1995). WordNet: a lexical database for english. Communications of the


ACM, 38:3941. Citado na pgina 20.

Mitchell, T. (1997). Machine Learning. McGraw-Hill Education. Citado na pgina 56.

Moore, J., Han, E.-H., Boley, D., Gini, M., Gross, R., Hastings, K., Karypis, G., Kumar,

V., e Mobasher, B. (1997). Web page categorization and feature selection using asso-

ciation rule and principal component clustering. Em Proceedings of the 7th Workshop
on Information Technologies and Systems. Citado na pgina 55.

Muhr, M., Kern, R., e Granitzer, M. (2010). Analysis of structural relationships for hierar-

chical cluster labeling. EmProceedings of the 33rd International ACM SIGIR (Special
Interest Group on Information Retrieval) Conference on Research and Development in
Information Retrieval, pginas 178185. Citado na pgina 67.

Nogueira, T., Rezende, S., e Camargo, H. (2012a). Fuzzy cluster descriptors improve

exible organization of documents. EmProceedings of the 12th International Conference


on Intelligent Systems Design and Applications, pginas 616621. Citado nas pginas
62 e 96.

Nogueira, T. M., Camargo, H. A., e Rezende, S. O. (2011a). Fuzzy cluster descriptor

extraction for exible organization of documents. Proceedings of the 11th International


Conference on Hybrid Intelligent Systems, pginas 528533. Citado nas pginas 58

e 96.

Nogueira, T. M., Camargo, H. A., e Rezende, S. O. (2011b). Fuzzy rules for document

International Journal of Computer In-


classication to improve information retrieval.

formation Systems and Industrial Management Applications, 3:18. Citado nas pginas
34 e 97.

Nogueira, T. M., Camargo, H. A., e Rezende, S. O. (2013). Fuzzy-DDE: a fuzzy method

International Journal of Computer


for the extraction of document cluster descriptors.

Information Systems and Industrial Management Applications, 5:472479. Citado na


pgina 96.

Nogueira, T. M., de A. Camargo, H., Rossi, R. G., Pluye, P., Grad, R., Tang, D. L.,

Johnson-Laeur, J., Lewis, D., e Rezende, S. O. (2012b). Automatic organization

of family physicians textual comments about treatment recommendations can help to

identify non-constructive comments. Computers in Biology and Medicine. (Submetido

em outubro de 2012). Citado na pgina 96.

111
Referncias Bibliogrcas

Nogueira, T. M., Rezende, S. O., e Camargo, H. A. (2010). On the use of fuzzy rules to

text document classication. Em Proceedings of the 10th International Conference on


Hybrid Intelligent Systems, pginas 1924. Citado nas pginas 34, 97, e 98.

Oliveira, J. V. d. e Pedrycz, W. (2007). Advances in Fuzzy Clustering and its Applications.


John Wiley & Sons, Inc. Citado nas pginas ix e 13.

Osinski, S. e Weiss, D. (2005). A concept-driven algorithm for clustering search results.

IEEE Intelligent Systems, 20(3):4854. Citado nas pginas 20 e 22.

Pal, N. R., Pal, K., Keller, J. M., e Bezdek, J. C. (2005). A possibilistic fuzzy c-means

clustering algorithm. IEEE Transactions on Fuzzy Systems, 13(4):517530. Citado nas

pginas 10, 12, 13, 14, 40, e 63.

Pasi, G. (2002). Flexible information retrieval: some research trends. Mathware and Soft
Computing, 9:107121. Citado na pgina 37.

Pedrycz, A. e Reformat, M. (2006). Hierarchical FCM in a stepwise discovery of structure

in data. Soft Computing - A Fusion of Foundations, Methodologies and Applications,


10:244256. Citado nas pginas 10, 14, 40, e 74.

Pedrycz, W. (1996). Conditional fuzzy c-means. Pattern Recognition Letter, 17(6):625

631. Citado nas pginas ix e 14.

Pedrycz, W. (1998). Computational Intelligence: An Introduction. Boca Raton, FL.

Citado na pgina 2.

Pedrycz, W. e Gomide, F. (2007). Fuzzy Systems Engineering: Toward Human-Centric


Computing. Wiley-IEEE Press, 1 edio. Citado na pgina 11.

Pluye, P., Grad, R., Granikov, V., Jagosh, J., e Leung, K. H. (2010a). Evaluation of

email alerts in practice: part 1 - review of the literature on clinical emailing channels.

Journal of Evaluation Clinical Practice, 16(6):12271235. Citado na pgina 82.

Pluye, P., Grad, R., Johnson-Laeur, J., Bambrick, T., Burnand, B., e Mercer, J. (2010b).

Evaluation of email alerts in practice: part 2 - validation of the information assessment

method (IAM). Journal of Evaluation Clinical Practice, 16(6):12361243. Citado na

pgina 82.

Pluye, P., Grad, R., Repchinsky, C., Farrell, B., Johnson-Laeur, J., e Bambrick, T.

(2009). IAM: A comprehensive and systematic information assessment method for

electronic knowledge resources. Handbook of Research on IT Management and


Em

Clinical Data Administration in Healthcare, pginas 521548. Citado nas pginas 82


e 101.

112
Referncias Bibliogrcas

Pluye, P., Grad, R., Repchinsky, C., Jovaisas, B., Lewis, D., Tang, D., Granikov, V.,

Bonar, J., e Marlow, B. (2012). Better than best evidence? The information assessment

method can help information providers to use family physicians' feedback for 2-way

knowledge translation. Canadian Family Physician. (Aceito para publicao). Citado

nas pginas 82 e 85.

Popescul, A. e Ungar, L. (2000). Automatic labeling of document clusters. Disponvel em

http://citeseer.nj.nec.com/popescul00automatic.html. Citado na pgina 67.

Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Pu-

blishers Inc., San Francisco, CA, USA. Citado na pgina 57.

Radecki, T. (1979). Fuzzy set theoretical approach to document retrieval. Information


Processing and Management, 15(5):247260. Citado na pgina 35.

Rodrigues, E. M. e Sacks, L. (2005). Learning topic hierarchies from text documents using

a scalable hierarchical fuzzy clustering method. Em Proceedings of the International


Conference on Recent Advances in Soft Computing, pginas 269274. Citado nas

pginas 4, 10, e 38.

Rodrigues, M. E. S. M. e Sacks, L. (2004). A scalable hierarchical fuzzy clustering algo-

rithm for text mining. EmProceedings of the 5th International Conference on Recent
Advances in Soft Computing, pginas 16. Citado na pgina 38.
Salton, G. e McGill, M. J. (1983). Introduction to Modern Information Retrieval. McGraw-
Hill. Citado na pgina 44.

Santos, R. T., Nievola, J. C., Freitas, A. A., e Lopes, H. S. (1999). Extrao de regras de

redes neurais via algoritmos genticos. Em Anais do IV Congresso Brasileiro de Redes


Neurais, pginas 158163. Citado na pgina 3.

Saraoglu, R., Ttnc, K., e Allahverdi, N. (2007). A fuzzy clustering approach for

nding similar documents using a novel similarity measure. Expert Systems with Ap-
plications, 33:600605. Citado nas pginas 4, 38, e 39.

Saraoglu, R., Ttnc, K., e Allahverdi, N. (2008). A new approach on search for

similar documents with multiple categories using fuzzy clustering. Expert Systems with
Applications, 34:25452554. Citado nas pginas 4, 29, e 38.

Schneider, K. (2005). Techniques for improving the performance of nave bayes for text

Computational Linguistics and Intelligent Text Processing, Lecture Notes


classication.

in Computer Science, 3406:682693. Citado na pgina 56.


Shanahan, J. e Roma, N. (2003). Improving SVM text classication performance th-

rough threshold adjustment. Machine Learning, Lecture Notes in Computer Science,


2837:361372. Citado na pgina 56.

113
Referncias Bibliogrcas

Soares, M. V. B., Prati, R. C., e Monard, M. C. (2008). PreTexT II:descrio da

reestruturao da ferramenta de pr-processamento de textos. Relatrio Tcnico 333,

ICMC-USP. Citado nas pginas 56 e 117.

Song, S., Guo, Z., e Chen, P. (2011). Fuzzy document clustering using weighted conceptual

model. Information Technology, 10:11781185. Citado na pgina 39.

Tan, P.-N., Steinbach, M., e Kumar, V. (2005). Introduction to Data Mining, (First
Edition). Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA. Citado

na pgina 1.

Tjhi, W.-C., Chen, L., e Member, S. (2009). Dual fuzzy-possibilistic co-clustering for

categorization of documents. IEEE Transactions on Fuzzy Systems, 17(3):532543.

Citado na pgina 39.

Toda, H. e Kataoka, R. (2005). A clustering method for news articles retrieval system.

Em Special Interest Tracks and Posters of the 14th International Conference on World
Wide Web, pginas 988989. Citado na pgina 20.
Torra, V. (2005). Fuzzy c-means for fuzzy hierarchical clustering. Em Proceedings of
the IEEE International Conference on Fuzzy Systems, pginas 646651. Citado na

pgina 38.

Treeratpituk, P. e Callan, J. (2006). Automatically labeling hierarchical clusters. Em

Proceedings of the International Conference on Digital Government Research, pginas


167176. Citado nas pginas 20 e 67.

Wang, L. e Mendel, J. (1992). Generating fuzzy rules by learning from examples. IEEE
Transaction on Fuzzy Systems, Man and Cybernetics, 22:4141427. Citado nas pginas

34 e 118.

Yaguinuma, C. A., Camargo, H. A., Santos, M. T. P., Nicoletti, M. C., e Nogueira, T. M.

(2012). Fuzz-onto: a meta-ontology for representing fuzzy elements and supporting

fuzzy classication rules. EmProceedings of the 12th International Conference on In-


telligent Systems Design and Applications, pginas 166171. Citado nas pginas 97
e 101.

Yaguinuma, C. A., Nogueira, T. M., Ferraz, V. R. T., Santos, M. T. P., e Camargo, H. A.

(2010a). A model for representing vague linguistic terms and fuzzy rules for classi-

cation in ontologies. Em Proceedings of the International Conference on Enterprise


Information Systems, pginas 438442. Citado nas pginas 97, 98, e 101.

Yaguinuma, C. A., Santos, M. T. P., Camargo, H. A., e Nogueira, T. M. (2010b). A

meta-ontology approach for representing vague linguistic terms and fuzzy rules for clas-

sication in ontologies. Em Proceedings of the 14th IEEE International Enterprise

114
Referncias Bibliogrcas

Distributed Object Computing Conference Workshops, pginas 263271. Citado nas

pginas 97 e 101.

Yan, Y., Chen, L., e Tjhi, W.-C. (2012). Fuzzy semi-supervised co-clustering for text

documents. Fuzzy Sets and Systems, pginas 116. Citado nas pginas 2 e 39.

Zadeh, L. (1997). What is Soft Computing. Springer-Verlag. Citado na pgina 2.

Zadeh, L. A. (1965). Fuzzy sets. Information and Control, 8(3):338353. Citado na

pgina 2.

Zadrozny, S. e Nowacka, K. (2008). Interpretation of the keywords weights in informa-

Proceedings of the 19th International


tion retrieval: fuzzy logic based approaches. Em

Workshop on Database and Expert Systems Application, pginas 657661. Citado nas
pginas 2 e 37.

Zadrozny, S. e Nowacka, K. (2009). Fuzzy information retrieval model revisited. Fuzzy


Sets and Systems, 160:21732191. Citado nas pginas 2 e 37.

Zamir, O. e Etzioni, O. (1998). Web document clustering: a feasibility demonstration.

Em Proceedings of the 21st Annual International ACM SIGIR (Special Interest Group
on Information Retrieval) Conference on Research and Development in Information
Retrieval, pginas 4654. Citado na pgina 22.
Zhang, C. (2009). Document clustering description based on combination strategy. Em

Proceedings of the International Conference on Innovative Computing,Information and


Control, pginas 10841088. Citado nas pginas 21, 24, e 43.
Zhang, C., Wang, H., Liu, Y., e Xu, H. (2009). Document clustering description extraction

and its application. Em Proceedings of the 22nd International Conference on Compu-


ter Processing of Oriental Languages. Language Technology for the Knowledge-based
Economy, pginas 370377. Citado nas pginas 24, 52, e 102.
Zimmermann, H. J. (1991). Fuzzy Set Theory and Its Applications. Kluwer Academic

Publishers, Boston, USA, 2 edio. Citado na pgina 32.

115
Apndice
A

Classicao de Documentos Utilizando Regras


Fuzzy

Neste apndice apresentado um mecanismo para classicao de documentos utili-

zando regras fuzzy. Este mecanismo, ilustrado na Figura A.1, composto de duas etapas.

Matriz Matriz
Documentos- Documentos- Regras
termos grupos Fuzzy

(1) Agrupamento Fuzzy (2) Gerao de Regras

Figura A.1: Mtodo fuzzy para classicao de documentos

A primeira etapa consiste no agrupamento fuzzy. Nessa etapa ocorre a transformao

da matriz documentos-termos em uma matriz de menor dimensionalidade, chamada de

matriz documentos-grupos.

Para melhor compreender esta etapa, considere a matriz documentos-termos repre-

sentada em Mnk (Matriz A.1), para n igual a quantidade de documentos e k igual a

quantidade de termos. Esta matriz obtida do pr-processamento dos documentos de

uma determinada coleo utilizando a ferramenta Pretext (Soares et al., 2008). Cada

linha desta matriz representa um documento di , com 1 i n, e cada coluna repre-

senta um termo tj , com 1 j k . Cada clula da matriz composta pela frequncia


(tj , di ) do termo tj no documento di . A ltima coluna da matriz identica a classe dos

documentos, considerando que os mesmos foram previamente rotulados.

117

0.4 0.1 0.3 0.5 0.1 0.2 0.7 0.5 0.6 a


0.3 0.5 0.2 0.7 0.5 0.2 0.7 0.3 0.2 b


0.1 0.2 0.7 0.3 0.7 0.4 0.5 0.3 0.1 c



0.4 0.5 0.3 0.7 0.3 0.2 0.7 0.5 0.1 c

0.2 0.1 0.2 0.5 0.1 0.2 0.7 0.3 0.8 a
Mnk = (A.1)



0.5 0.3 0.4 0.3 0.1 0.4 0.5 0.3 0.1 a


0.8 0.9 0.3 0.7 0.1 0.2 0.7 0.5 0.0 b



0.4 0.5 0.3 0.5 0.3 0.4 0.3 0.1 0.9 c


0.4 0.5 0.3 0.3 0.3 0.2 0.7 0.5 0.1 c

0.4 0.5 0.2 0.5 0.7 0.4 0.3 0.1 0.9 a
Na primeira etapa do mecanismo proposto, os documentos so agrupados por meio

do algoritmo de agrupamento Fuzzy C-Means (FCM) (Bezdek, 1981) (apresentado no

Captulo 2) e obtm-se uma matriz documentos-grupos representada em Wnc (Matriz

A.2), para n igual a quantidade de documentos e c igual a quantidade de grupos. Cada

linha dessa matriz representa um documento di , com 1 i n, e cada coluna representa


um grupo gl , 1 l c.
com Cada clula da matriz composta pelo grau de pertinncia

(di , gl ) do documento di no grupo gl . A ltima coluna desta matriz tambm identica a

classe dos documentos. importante ressaltar que as classes so obtidas em um processo

de rotulao dos documentos anterior ao mecanismo proposto e que as mesmas no so

consideradas no processo de agrupamento, mas no processo de gerao das regras.


0.3 0.6 0.1 a


0.3 0.5 0.2 b


0.1 0.2 0.7 c



0.3 0.4 0.3 c

0.2 0.2 0.6 a
Wnc = (A.2)



0.4 0.5 0.1 a


0.1 0.8 0.1 b



0.3 0.3 0.4 c


0.1 0.1 0.8 c

0.2 0.1 0.7 a
Na segunda etapa do mecanismo proposto, as regras fuzzy so geradas a partir da

matriz documentos-grupos. Neste trabalho foi utilizado o mtodo de Wang&Mendell

(Wang e Mendel, 1992) para gerao de regras fuzzy pela sua facilidade de implementao.

As regras geradas para classicao de documentos assumem o seguinte formato:

SE G1 a1 E G2 a2 E E Gc a3 ENTO Class

Nesse formato de regra, G1 , G2 Gc so variveis lingusticas que representam os c


grupos formados pelo agrupamento de documentos, as quais foram granularizadas nos

118
Apndice A. Classicao de Documentos Utilizando Regras Fuzzy

termos lingusticos A = {a1 , a2 , a3 }. Por exemplo, o grupo g1 , representado na Figura


A.2 como uma varivel lingustica G1 granularizada nos termos lingusticos a1 = Baixo,

a2 = Mdio, a3 = Alto, os quais so caracterizados por uma funo de pertinncia trian-


gular. Esta funo considera os valores mnimo min{(di , g1 )|di , 1 i n} e mximo

max{(di , g1 )|di , 1 i n} dos graus de pertinncia dos documentos no grupo g1 .

Baixo Mdio Alto


1

Grau de Grau de (di,gl)


pertinncia pertinncia
mnimo mximo

Figura A.2: Varivel lingustica G1

No consequente da regra, Class uma das classes nas quais os documentos so previ-

amente rotulados.

Uma vez geradas as regras, as mesmas podem ser utilizadas para classicar os do-

cumentos por meio de um Sistema de Classicao Fuzzy (SCF), o qual consiste de um

Sistema Fuzzy Baseado em Regras (SFBR) desenvolvido com o objetivo especco de exe-

cutar a tarefa de classicao. Um SCF utiliza mtodos de inferncia que so especcos

para esta tarefa.

Na classicao de documentos utilizando o mecanismo proposto, o mtodo de infe-

rncia utilizado funciona como segue. Considere di = [(di , g1 ), (di , g2 ), , (di , gc )] a


representao de um documento a ser classicado, no qual (di , gl ), 1 i n e 1 l c,

o grau de pertinncia do documento di no grupo gl . Considere ainda {R1 , R2 , , Rz }

o conjunto de z regras do sistema de classicao. Cada regra possui c antecedentes, uma

vez que todos os grupos so considerados como variveis lingusticas das regras. Com

base no mtodo de Raciocnio Fuzzy Clssico (RFC), tambm conhecido como mtodo

da regra vencedora (Chi et al., 1996), o processo de inferncia utilizado para classicar o

documento di :

1. Calcular o grau de compatibilidade entre o documento de entrada di e cada regra

Rs , para s = 1, ..., z :

Compat (Rs , di ) = t(Aq ((di , g1 )), Aq ((di , g2 )), , Aq ((di , gc )),

no qual t denota uma t-norma e Aq ((di , gl )) denota o grau de pertinncia do grau


de pertinncia do documento di no grupo gl no conjunto fuzzy aq , o qual um

119
termo lingustico com 1 q |A|, para A = {a1 , a2 , a3 } o conjunto de termos

lingusticos da regra Rs .

2. Encontrar a regra Rsmax que possui o maior grau de compatibilidade com o docu-

mento di , isto ,

Compat (Rs , di ) = max {Compat(Rs , di )} , s = 1, , z

3. Atribuir a classeClasssmax ao documento di , na qual Classsmax a classe do conse-


quente da regra Rsmax que possui o maior grau de compatibilidade com o documento,

encontrada no passo anterior.

Uma vez geradas as regras a partir de grupos fuzzy de documentos e denido o mtodo

de inferncia a ser utilizado pelo SCF, foram realizados cinco testes para avaliar este

mecanismo. Em todos os testes, foram comparadas as taxas de classicao correta

obtidas a partir do mtodo proposto e de outros quatro mtodos bastante conhecidos

na literatura para classicao, disponveis na ferramenta WEKA (Hall et al., 2009):

KNN, J48, Naive Bayes e OneR.

Alm dos testes relacionados ao desempenho da classicao, tambm foi analisada a

inuncia do pr-processamento na gerao de regras fuzzy obtidas do agrupamento de

documentos. Essa anlise foi realizada porque, ao nal da etapa de pr-processamento,

a matriz documentos-termos de alta dimensionalidade e altamente esparsa. Tais ca-

ractersticas, em alguns casos, podem fazer com que o processo de agrupamento seja de

alto custo computacional ou mesmo impossvel, afetando negativamente o resultado da

extrao de conhecimento.

Para os experimentos de avaliao foram utilizadas cinco colees de documentos ex-


1
trados de anais da biblioteca digital da ACM . Cada coleo composta de 90 documentos

(instncias) escolhidos aleatoriamente e distribudos em 5 classes.

Utilizando a ferramenta Pretext para pr-processamento dos documentos, foi possvel

reduzir a quantidade de termos representativos da coleo pela frequncia. Esta tarefa de

reduo, chamada de seleo de termos, foi realizada de acordo com cinco diferentes con-

dies (testes) apresentadas na Tabela A.1. Estes testes foram denidos variando o valor

mnimo e mximo de frequncia dos termos nas colees de documentos. Estes valores

particulares de frequncias foram escolhidos com o objetivo de projetar as condies de

teste variando as frequncias mnimas e o nmero de termos, considerando que o obje-

tivo da avaliao era analisar o quanto possvel fazer uma seleo de termos sem perda

de informao. A quantidade de documentos e termos de cada coleo em cada teste

apresentada na Tabela A.2.

A dimensionalidade da matriz documentos-termos tambm foi reduzida pelo agrupa-

mento de documentos, na qual a quantidade de grupos escolhida foi a quantidade de

1 http://portal.acm.org/dl.cfm?coll=portal&dl=ACM&CFID=25286060
&CFTOKEN=97119727

120
Apndice A. Classicao de Documentos Utilizando Regras Fuzzy

Frequncias
Testes Mnimo Mximo
1 50 500
2 100 300
3 50 100
4 500 1000
5 50 1000

Tabela A.1: Variao de frequncia para seleo de termos

Quantidade de termos
Coleo Documentos Teste 1 Teste 2 Teste 3 Teste 4 Teste 5
Exp1 399 3132 1357 1436 1713 3398
Exp2 410 2722 1166 1299 1442 2945
Exp3 424 3073 1371 1356 1741 3326
Exp4 394 3072 1313 1430 1653 3352
Exp5 471 3471 1522 1577 1916 3807

Tabela A.2: Colees utilizadas nos experimentos e respectivas quantidades de documentos e termos

classes em cada coleo. Aps o agrupamento dos documentos, as regras foram geradas e

a quantidade de variveis das regras igual a quantidade de grupos, uma vez que a regras

so geradas a partir dos graus de pertinncia de cada documento em cada grupo.

Os resultados obtidos a partir dos mtodos de classicao em cada teste e a mdia de

cada mtodo testado so apresentados nas Tabelas A.3, A.4, A.5, A.6 e A.7. O ranking
de cada mtodo em cada coleo apresentado entre parnteses.

Para testar se h ou no diferena signicativa entre os mtodos, o teste de Fried-

man com o ps-teste de Bonferroni-Dunn foi realizado com a hiptese nula de que o

desempenho dos cinco mtodos, medidos em termos de taxas de classicao correta, so

comparveis. A hiptese nula foi rejeitada com 95% de conana e os resultados mostra-

ram que o mtodo proposto, o mtodo J48 e o mtodo Naive Bayes apresentam resultados

similares e a diferena entre os mtodos no estatisticamente signicante. Nos testes, o

mtodo Naive Bayes foi sempre o primeiro no ranking, e o mtodo proposto e o mtodo
J48 alternaram entre o segundo e o terceiro lugar no ranking. Apesar de apresentar re-

sultados semelhantes aos mtodos Naive Bayes e J48, o mtodo proposto apresenta como

vantagem a reduo da dimensionalidade da matriz documentos-termos pela gerao de

regras fuzzy a partir do agrupamento fuzzy de documentos. Assim, o mtodo proposto

uma abordagem interessante para a classicao de documentos porque a alta dimensio-

nalidade da matriz documentos-termos diculta a compreensibilidade dos documentos a

serem classicados.

Coleo Mtodo Proposto KNN J48 Naive Bayes OneR


Exp1 88.0 (1) 50.60 (4) 77.40 (3) 87.90 (2) 39.80 (5)
Exp2 84.0 (3) 50.70 (4) 91.50 (1) 90.40 (2) 50.40 (5)
Exp3 48.0 (3) 27.10 (5) 78.70 (2) 88.90 (1) 39.60 (4)
Exp4 88.0 (2) 51.00 (4) 87.30 (3) 97.90 (1) 46.70 (5)
Exp5 96.0 (1) 43.90 (4) 83.80 (3) 92.30 (2) 40.30 (5)
Average 80.8 44.66 83.74 91.48 43.36
Rank 2.00 4.20 2.40 1.60 4.80

Tabela A.3: Teste 1 - Taxas de classicao corretas obtidas pelo mtodo proposto e pelos mtodos KNN,
J48, Naive Bayes e OneR

Alm dos testes estatsticos, os resultados obtidos em cada teste foram analisados sob

121
Coleo Mtodo Proposto KNN J48 Naive OneR
Exp1 60.0 (3) 41.10 (4) 77.40 (2) 87.90 (1) 36.090 (5)
Exp2 40.0 (5) 56.09 (3) 86.09 (2) 90.00 (1) 49.260 (4)
Exp3 60.0 (3) 33.01 (5) 77.83 (2) 86.08 (1) 36.500 (4)
Exp4 72.0 (3) 61.16 (4) 87.05 (2) 94.41 (1) 41.870 (5)
Exp5 68.0 (3) 54.98 (4) 77.70 (2) 88.95 (1) 36.090 (5)
Rank 3.40 4.00 2.00 1.00 4.600

Tabela A.4: Teste 2 - Taxas de classicao corretas obtidas pelo mtodo proposto e pelos mtodos KNN,
J48, Naive Bayes e OneR

Coleo Mtodo Proposto KNN J48 Naive OneR


Exp1 84.0 (1) 37.09 (4) 71.92 (3) 80.20 (2) 31.82 (5)
Exp2 96.0 (1) 50.48 (4) 84.39 (2) 82.68 (3) 40.97 (5)
Exp3 88.0 (1) 23.82 (5) 69.57 (3) 79.24 (2) 30.66 (4)
Exp4 48.0 (4) 48.47 (3) 83.75 (2) 91.37 (1) 39.59 (5)
Exp5 60.0 (3) 32.27 (4) 73.03 (2) 83.65 (1) 29.08 (5)
Rank 2.00 4.00 2.40 1.80 4.80

Tabela A.5: Teste 3 - Taxas de classicao corretas obtidas pelo mtodo proposto e pelos mtodos KNN,
J48, Naive Bayes e OneR

Coleo Mtodo Proposto KNN J48 Naive OneR


Exp1 88.0 (2) 55.63 (4) 76.69 (3) 88.47 (1) 40.35 (5)
Exp2 84.0 (3) 55.12 (4) 86.58 (2) 90.73 (1) 50.48 (5)
Exp3 68.0 (3) 42.68 (4) 81.60 (2) 89.38 (1) 39.62 (5)
Exp4 52.0 (4) 60.65 (3) 89.84 (2) 94.92 (1) 46.70 (5)
Exp5 64.0 (3) 51.38 (4) 82.16 (2) 90.87 (1) 40.33 (5)
Rank 3.00 3.80 2.20 1.00 5.00

Tabela A.6: Teste 4 - Taxas de classicao corretas obtidas pelo mtodo proposto e pelos mtodos KNN,
J48, Naive Bayes e OneR

Coleo Mtodo Proposto KNN J48 Naive OneR


Exp1 84.0 (2) 53.63 (4) 81.95 (3) 87.96 (1) 33.08 (5)
Exp2 80.0 (3) 51.21 (4) 93.17 (1) 91.07 (2) 50.48 (5)
Exp3 68.0 (3) 32.54 (5) 77.59 (2) 89.38 (1) 40.09 (4)
Exp4 72.0 (3) 53.55 (4) 87.56 (2) 95.93 (1) 45.93 (5)
Exp5 60.0 (3) 42.46 (4) 82.37 (2) 91.93 (1) 40.12 (5)
Rank 2.80 4.20 2.00 1.20 4.80

Tabela A.7: Teste 5 - Taxas de classicao corretas obtidas pelo mtodo proposto e pelos mtodos KNN,
J48, Naive Bayes e OneR

trs diferentes pontos de vista, representados por grcos. Nos grcos, cada barra repre-

senta uma coleo ou mtodo, dependendo da anlise realizada e conforme apresentados

nas legendas, e o eixo vertical representa os resultados obtidos em cada teste. A m de

dispor mltiplas linhas em um mesmo grco, mas separadas umas das outras, um grco

de linhas empilhadas ( Stacked Line Chart ) foi utilizado.


Na primeira anlise, o objetivo foi vericar se as quantidades de termos derivadas da

seleo de termos apresentadas na Tabela 1, interfere no mtodo proposto. Assim, na

Figura A.3 apresentada a comparao entre os resultados obtidos pelo mtodo proposto

em cada teste para cada coleo. Nesta gura possvel observar que o pr-processamento

que mais interfere nos resultados, diminuindo a qualidade da classicao, a seleo de

termos do Teste 2, em que a quantidade de termos foi reduzida em relao ao Teste 1.

Este resultado sugere que uma grande reduo na quantidade de termos conduz a perda

de informao.

O objetivo da segunda anlise foi observar os resultados obtidos a partir de todos

os algoritmos de classicao em funo das condies de pr-processamento. Assim, na

122
Apndice A. Classicao de Documentos Utilizando Regras Fuzzy

120

100

80
Exp1
Exp2
60
Exp3
Exp4
40 Exp5

20

0
Teste 1 Teste 2 Teste 3 Teste 4 Teste 5

Figura A.3: Inuncia da quantidade de termos no desempenho da classicao obtida pelo mtodo
proposto

Figura A.4 so apresentadas apenas a mdia de resultados obtida por cada algoritmo em

cada teste. Essa anlise refora a concluso obtida na primeira anlise, de que o mtodo

proposto sensvel reduo de termos. Observa-se que os testes 2, 3 e 4, nos quais houve

uma grande reduo na quantidade de termos, o mtodo proposto tambm apresentou

desempenho inferior quando comparado com os outros algoritmos.

100

90

80

70

60 Mtodo Proposto
KNN
50
J48
40 Naive Bayes
OneR
30

20

10

0
Teste 1 Teste 2 Teste 3 Teste 4 Teste 5

Figura A.4: Inuncia da quantidade de termos no desempenho da classicao pelo mtodo proposto e
pelos mtodos KNN, J48, Naive Bayes e OneR

Por m, na terceira anlise, os testes 1 a 5 foram organizados em ordem crescente

da frequncia mnima e renomeados como testes de A a E, como mostrado na Tabela

A.8. Nesta anlise, apresentada na Figura A.5, o objetivo mostrar o que mais inuencia

nos resultados do mtodo proposto: a mudana na frequncia mnima (Testes A a E)

ou a quantidade de termos em um dado intervalo de frequncias (Testes 1 a 5). Como

possvel observar no grco, a mudana da frequncia mnima, a qual foi reduzida do

Teste C para o Teste D e do Teste D para o Teste E, implicam mudanas no resultado.

Do Teste C para o Teste D, a frequncia mnima foi aumentada e a frequncia mxima

123
foi reduzida, resultando em uma reduo da quantidade de termos. Do Teste D para o

Teste E, as frequncias mnima e mxima foram aumentadas, resultando no aumento da

quantidade de termos. As taxas de classicao, neste caso, voltaram ao mesmo nvel

do Teste C. Sendo assim, pode-se observar que as taxas de classicao so diretamente

inuenciadas pela quantidade de termos, j que a reduo da quantidade de termos leva

perda de informao.

Frequncias
Testes Mnimo Mximo
A (Teste 3) 50 100
B (Teste 1) 50 500
C (Teste 5) 50 1000
D (Teste 2) 100 300
E (Teste 4) 500 1000

Tabela A.8: Congurao das frequncias dos Testes 1 a 5 organizados em ordem crescente da frequncia
mnima e renomeados como testes de A a E

120

100

80
Exp1
Exp2
60
Exp3
Exp4
Exp5
40

20

0
Teste A Teste B Teste C Teste D Teste E

Figura A.5: Resultados obtidos pela mudana na frequncia mnima

A partir destas anlises, conclui-se que embora o mtodo proposto tenha um bom

desempenho, necessrio considerar o pr-processamento dos documento porque este

interfere diretamente nos resultados.

124
Apndice
B

Estratgia de matching para Recuperao


Flexvel de Documentos

Na estratgia de matching desenvolvida para considerar a exibilidade de um Sistema

de Recuperao de Informao (SRI) no nvel da consulta, a relevncia dos documentos

com relao aos termos utilizados nas consultas representada por meio de termos lin-

gusticos. Por exemplo, um termo pode ser muito importante ou pouco importante

para uma consulta. Esta representao se assemelha a indicao de importncia dada

pelos seres humanos.

Neste contexto, considere k, n e c a quantidade de termos, documentos e classes,

respectivamente. Seja o documento di , i = 1...n, representado pelas frequncias (tj , di )


do termo tj no documento di , 1 j k ; um conjunto de regras fuzzy {R1 , R2 , ..., Rz }
geradas conforme a abordagem apresentada no Apndice A; um subconjunto do conjunto

de termos representativos da coleo de documentos, os quais so selecionados pelo sistema

como palavras-chave a serem utilizadas na consulta do usurio {1 , 2 , ..., b }, com b


k ; um conjunto de classes dos documentos escolhidos como relevantes para o usurio
{1 , 2 , ..., x }, com x c, e os graus de relevncia lingusticos atribudos pelo usurio a
cada palavra-chave e classe dos documentos L = {(u1 , u2 , ..., u )}, com = b + x. Uma

vez executadas as etapas de classicao de documento e encontrada a classe de sada l ,

1 l c, para o documento di utilizando regras fuzzy conforme apresentado no Apndice


A, a estratgia de matching proposta para recuperar o documento di :

1. Verique o grau de relevncia da classe de documentos requisitada pelo usurio ul ,


1 l e compare-a com o grau de relevncia obtido no processo de classicao
Compat (Rs , di ), 1 s z , sendo Rs a regra pela qual obteve-se a classe l . Se
o grau de relevncia corresponde ao mesmo grau determinado pelo usurio, isto

, Compat (Rs , di ) = ul (l ), i.e., o grau de pertinncia da classe l no conjunto ul ,

125
execute a prxima etapa. Caso contrrio, o documento no recuperado, pois

nenhuma regra classica o documento com o grau de relevncia requisitado pelo

usurio.

2. Encontre o grau de pertinncia de cada palavra-chave escolhida pelo usurio como

relevantes para a consulta. Considere ul (l ) o grau de pertinncia da palavra-chave

l escolhida pelo usurio com algum grau de relevncia ul .

3. Por m, se min(u1 (1 ), u2 (2 ), ..., u ( )) , no qual um limiar, recupere o

documento di .

Esta estratgia de matching e a utilizao de regras fuzzy para classicao dos docu-

mentos so as atividades principais para a recuperao de documentos que correspondam

s preferncias do usurio. Entende-se por preferncias os graus de relevncia dados pelo

usurio aos termos e classes dos documentos.

Para melhor compreender o funcionamento da estratgia proposta, observe o exemplo

apresentado a seguir.

Para a execuo da estratgia de matching proposta, considere um conjunto de regras

geradas a partir da matriz documentos-grupos obtida do processo de agrupamento fuzzy,

conforme apresentado na Tabela B.1. Observe que o antecedente das regras correspondem

aos grupos dos documentos.

Tabela B.1: Base de regras geradas a partir da matriz documentos-grupos

Regras geradas
R1 SE G1 is baixo E G2 is medio E G3 is medio ENTO 1
R2 SE G1 is alto E G2 is baixo E G3 is baixo ENTO 2
R3 SE G1 is medio E G2 is baixo E G3 is alto ENTO 3
R4 SE G1 is alto E G2 is baixo E G3 is medio ENTO 2

Uma vez geradas as regras, as palavras-chave previamente selecionadas para serem

utilizadas na consulta so consideradas como variveis lingusticas fuzzy e granularizadas

em termos lingusticos fuzzy: relevante, pouco relevante e muito relevante. Desta maneira,

o usurio pode escolher a relevncia lingustica da palavra-chave utilizada na sua consulta.

Portanto, o SRI exvel no nvel da consulta deve apresentar ao usurio a opo de escolher

no somente as palavras-chave mais importantes para sua consulta, mas tambm a opo

de indicar qual a relevncia de cada uma delas por meio de termos lingusticos.

Por m, aps a denio de relevncia apresentada pelo usurio, pode-se aplicar a

estratgia de matching proposta para recuperar os documentos que melhor satisfazem a

requisio do usurio.

Para ilustrar este processo, considere os critrios de relevncia do usurio como apre-

sentados na Tabela B.2. As classes dos documentos so 1 , 2 e 3 . As palavras-chave

escolhidas pelo usurio so 1 e 3 .


Uma vez denidos os critrios de relevncia do usurio, o SRI acessa sua atividade de

ltragem e faz a correspondncia ( matching ) entre a requisio do usurio e um docu-

mento. Para isto, so considerados os graus de compatibilidade entre a classe relevante e a

126
Apndice B. Estratgia de matching para Recuperao Flexvel de Documentos

Tabela B.2: Critrios de relevncia denidos pelo usurio

Classes e palavras-chave Graus de relevncia denidos pelo usurio


1 muito relevante
2 pouco relevante
3 irrelevante
1 relevante
3 pouco relevante

regra disparada no processo de classicao Compat (Rs , di ) no qual 1 s z e 1 i n,


com z igual quantidade de regras e n igual quantidade de documentos. Aps checar

a relevncia da classe dos documentos, deve-se checar a relevncia das palavras-chave.

Continuando com o exemplo, o documento d1 , representado pelo vetor d1 =


[0.3, 0.6, 0.1, a] na matriz documentos-grupos, corretamente classicado pela regra
R1 , a primeira regra da base de regras apresentada na Tabela B.1. Supondo que o
grau de compatibilidade Compat (R1 , d1 ) corresponde a relevncia da classe requisitada

pelo usurio, muito relevante para a classe 1 , ento a classe do documento cor-

responde a requisio do usurio. O documento d1 , representado pelo vetor d1 =

[0.4, 0.1, 0.3, 0.5, 0.1, 0.2, 0.7, 0.5, 0.6, a] na matriz na matriz documentos-termos e as
palavras-chave escolhidas pelo usurio possuem frequncias 1 = 0.4 e 3 = 0.3.

Com a informao de frequncia das palavras-chave escolhidas como relevantes para

a consulta possvel encontrar o grau de pertinncia de cada uma delas na funo de

pertinncia que representa a relevncia da palavra-chave requisitada pelo usurio. Esta

funo de pertinncia considera as frequncias mnima e mxima da palavra-chave na

coleo para denio dos conjuntos fuzzy. Logo, como ilustrado na Figura B.1, a palavra-

chave 1 , cuja frequncia 0.4, possui grau de pertinncia 0.8 no conjunto fuzzy relevante,
o qual foi o critrio (relevncia lingustica) denido pelo usurio para a recuperao dos

documentos. Do mesmo modo, a palavra-chave t3 , cuja frequncia 0.3, possui grau de

pertinncia 0.4 no conjunto fuzzy pouco relevante tambm denido pelo usurio.

Pouco Muito
relevante relevante relevante

0.8

Frequncia t1=0.4 Frequncia


mnima mxima

Figura B.1: Funo de pertinncia da palavra-chave 1

Por m, considerando o limiar = 0.5, o Sistema de Recuperao de Informao

(SRI) no vai recuperar o documento d1 para o usurio, pois de acordo com a etapa 4

127
da estratgia de matching min(0.8, 0.4) = 0.4 e portanto menor que o limiar. Observe

que a palavra-chave 2 desconsiderada porque a mesma vista como irrelevante para o

usurio.

A estratgia de matching apresentada


1 foi idealizada considerando que o uso de mode-

los lingusticos fuzzy em problemas de recuperao de informao til quando os valores

de relevncia no podem ser expressos por meio de valores numricos. A abordagem

lingustica de um SRI apresenta uma maneira mais natural para o usurio fazer as suas

requisies. Assim, como trabalho futuro, pretende-se realizar investigaes a m de re-

duzir a participao do especialista na seleo das palavras-chave a serem utilizadas na

consulta, pois esta seleo limita o espao de busca do SRI.

1 A explorao sobre esta estratgia de matching foi realizada durante um estgio no exterior com o
grupo de pesquisa da Universidade de Granada - Espanha. Este grupo de pesquisa vem trabalhando com
Soft Computing and Intelligent Information
computao exvel e sistemas de informao inteligentes (
Systems 2 ) destacando-se como um grupo reconhecido mundialmente na rea de sistemas fuzzy. Durante
o estgio foi realizada a atualizao do levantamento bibliogrco e investigao de uma abordagem fuzzy
para recuperao de informao.

128