You are on page 1of 67
Alton Ferrosa ORGANIZACAO DA INFORMACAO NA WEB: DAS TAGS A WEB SEMANTICA. Estudos Avangados em Cigneia da Informagdo - V. 2 i PEs. ena Presidente Editorial Antonio Miranda - Un Secretira Executiva Tea Antunes Araujo omissa Fdtoral Kita Carvalho - UFB Neusa Dias de Macedo - USP Uma Sime - Un ads ateaions cde Catlgai se Paseo Fitte Feta Ait, raha Thesauri, 2008. A Glaucione, meu grande amor, ¢ a Natili, Amends © Lara, amores de outa natures, Sem fami. ia, meu mundo seria incompleto: meu teab sera Jmotivedo: minhas maiores conguistas seam meras ‘doe inacabadas,opaifcndas ao longo do tempo. Sumario Lista de abrevitues sigs ° 1 Introdugio n 2 Flementos de Organiza da Informagio. 0 2.1 Document 7 22 Ciclo Documentvio 18 2.5 Tiatamento intelectual da informagio 2 253.1 Indexago oR 253.14 Indices ¢ Resumos. 2% 253.12 Indenagio automtca 24 2.5.2 Recuperagio da Informayio 28 2.3.2.1 Modelos de Reeuperoio da Informayao 30 24 Reso do capitulo st Servgos de Indenasio Recuperacio na web 35 5311 Breve hstérico dos servigos de busca na Web 35 3.2 Meta Tags: as primeiras tnicas de otimizago da wed pata os mecansmos de busta ” 5.5 Padres de meta dados:tendéncias de organizagio na web 50 5.4 Resumo do capitulo 3 4 Web Semintica 65 4.1 Caractrizagio da web cemantca 65 42 Onlologias. 10 443 Infre-extutara da Web Semantics 8 4.4 As goragdes da web 8 44.1 AP geragio: HTML E XHTML 442 A 2 eragdo: XML, DTD e XML Schema $42.1 XML $422 XMLSchema 4.4.3 A" gerago:paderelinguagens de expecifcagao de ontologias (RDP, RDF Scheme, DAMLOIL, ow.) 445.1 RDF 445.2 RDFS. 44355 OWL. 45 Resume do capitulo 5 Consderngées fils Bibliografia rg Wri 8 site 85 Bs 98 101 118 3 120 Lista de abreviaturas ¢ siglas [ABNT Associ Brasileira de Normas Teenie {EDD Classifeagéo Docinal de Dewey CCDU Claeiicago Decimal Universal Cl Gitncia da Informagio ERG Clasifiation Research Group DAML Darpo Markup Language DARPADefenseAdvnced Research Projects Agency DID Defnigto de Tipo de Decunento FGDC Federal Geographic Data Commitee HYML Hypertext Markup Languoge IDF inverted Document Frequency 180 International Standardization Organization ISP Java ServePages KIWC Keyword in Context, LDAP Lightweight Directory Access Protocol [MIDI Musica nsrumrents Digital Interface ISO National Information Standards Organisation O1L Ontology Inference Layer (OWL Web Ontology Language PDF Portable Document Format RDF Resource Description Pramework DFS Resource Desrintion Framework Schema RFC Requests for Comments SGML Standardized Markup Language TE Tex Bnconding niiotive URI Universal Resource Identifier URL Universal Rescuree Locator URN Name Uniforme de Recurso WSC World Wide Web Consoetum |WER World Wide Web |WS Web Semintca YXITIML Linguogsm de Marcas Jnguagem de Marcapo de Hipertexto Extensive XML Estonsible Mackup Language XML-S Extensible Markup Language Schema 1 Introdugdo © advent do servigo World Wide Web na Internet proporcionos grande eescimento na quantidade de informarées, de usris ede com putadores igados rede, De acordo com dades ds instuigies do esau EDNUA Interact Sureys Nielsen NetRatings, em todo © mundo, dads td ano de 2003 epontavam para cerca de 605,60 miles de pessoas com fees Dntemet (abla 1) eno Brasil, em jlo de 2005, cerca de 143 nies, Segundo estinatives da NUA., somente nos Estados Unidos, até ‘inal de 2005, foram tealizodos negcios entre empresas na rede atingin doa soma do 13 tio de dares stasio 1), Dados do Comité Gestor ‘da Imeret no Brasil (2008, indicavar aexistéci, em janeiro de 2004, ‘de mais de 225 miles de seeidores de Internet en todo 0 mundo dist ‘uldoe entre rita paises. A tabela2 presenta as dex primeiras posigSes | nessa clasifiago, destacando o Brasil em 8° gar, Ao lado dessts est tstcas, © Servigo de Dominios pare a Intrtetno Brasil ~ Regstro.r | Gapresistrosb) contabilizava, em dezemlro de 2005, mis d= 509 mil | emninos em todo o pais, nomero que est oe (2006), na ordem do mais {de 859 mil ilusttago 2) Em todo © mundo so quase 37 miles de sites publicdos ne web (SERVER WATCH, 2004). Atualzando a3 informa (oes para o ano de 2005, pesquisas da site ClickZnetwork* apantam pare fev nimero de 1.08 bikie de usuiros,sendo 22.52 miles o nimero global de brasileios cm aceso a xed, dos qua crea de 12.52 mikes io asvios ativos. A previo para o ano de 2010 & de que o mimero de ‘uuiros da Intemet ern todo.o mundo sale pre 1,8 bilo, pea stm Wt bt | +A anise dos dads apresntados permite inferénias sobre o enor ni volume de informagies dsponiveis na Internet. Por certo, ocrescimen toda quantiade de informacioeltrnicadisponivel por meio da Internet {ana velidade ase pode ser perccbida em todos os campos do conhec mento humane. Por outro lado, exatamente devdo a esse ome de informagies tormanrae ena yer maipres os problemas de aceso ede recperagio de ing zo mt sin gd ne mt i es ean " r 8 ‘qualquer tipo de informagso na rede. Alguns deses problemas podem ser ‘araterizads, come aponta Macc (2000), po ftors como: ‘escimento acentuado ds fonts de lnformagdo digializad; acesso,lelizgfo e reumo de forages tomas cada Yee mais difes, tendo om vista a necesidade ee filrar Infra es ( ens fatores conapte se aindisponsbilidade de fermen tas que possibiltem fillagem) existncia de um hito entre o conceited informasio e satus formas de ermazenamento =o aor argumenta que e alte do wo 4e formas padronizades pra o armazenaineno de informagces na eb prejuica 0 comparthemente da conhecimento: Bacza-Yattes eRibeito-Neto (1999) si cts estudiosos ds autres totimavam que, naquela Epos, cerca de 309% das pina dn wed ji eram "dupicagios" tia qualidade dos das, sea por problemas de como oro sities, digitalizago og de eoresso conesitual Ao lado deses probleas, sf destacodas, ands, 8 dificaldades do wuiro na resuperagio da informagio,seja pela falta de conhecinento 30 nborar questées que refitam seus abetivos de busca, se pla sun inbi- Isa para intrpretar,casficar,priovizar ov iar os grandes quanti desde informacio retomadss pel sistema de busca, selecionando apenas ques dacumentes que lhe nteressar Quivey (2002), por exemplo, ass fala que, com o eresimento da Inveret e dus teenologas de comunicagso {isponfs, mance fo io fel encontrar Informacio, como o & atualmen: te Tl fcidade ¢ questionivel, no entanto 6 que freqientemente a5 pe fous perdem horas examinando informages que podem thes ser ttalmen- fe demecosirias,exessvas ov redundantes. A autora Jerbra que a malo te don meesnismen de busca tabalhim com a loralizacio de péinas para texto especiticamente digitado pelo usuirio e simplesmente reternam toihares de fontes como ocorrénias para 0 que fl pedido, sem rerum Uscrminagdo da informegio. leo, obvirente, dicta a anise do us fino que munca pode ter eerteza de que a extainformacio desjadn esta Toca ente es pritstesfonesretrnads. Assim, 8 web € provavel mente o mais ico repositéro de nformagdes na histris humana, mas ‘Como maioie dessa infrmagao € desestrutorad, no se pode sober © “Que ela contém ecom que propésto, ot que se pode esperar dla. A autora arsiala» existéela de algyns sites que armazenpm informagées de modo fatruturado e que uilzam sistemas de buss, mas fim Seren apenas ‘pequenah “has de orden, no cast mar de informagies ‘Do exposto nos pasgafos anteriores, & fil depreenderse que a cmizagio das ferramentas para armaznamento, bus ¢reeuperaio de Informaydes na web deve set uma preocupaso constant dos pesquisado- res, Portano, a falta de instruments que permitam a padronizagio de tmetedologios de estruturagio de pins e sites motivo diversas com « ee , dades académices por todo © mundo ao estado de altemativas de soluglo pa eses problemas. Algunsexerplosdeses projet si 9 Dulin Core TEI, a XML‘, mais receatemente,a Web Semitic, Web Semantica € Ontologa de Web sio denominagSes adotdas psto WS Consortium’, e ‘que trazem iniciatvas para a estraturagio ou desenvalvimento de etodologas que vibilizer a orgainagiosemntca das informages ds Pontes na web em todo a mundo, (© cresvimeato da informagso compars-e @ uma montanbs que se ‘toma cada vez mais alts € volumosa, © que toma necessria a busea de ‘melhores métodos para siniiatvamente se gerenciarainctvel quanta ‘de deinformagao dispoivel. Potato, na vanguarda dessa buses, est 0 conccto de Web Semdatca, como wm méteda de gravag de signiiados em plginas da web, undas com wm exquema pata sdcinar interpreagio legion aos documentes. A inicntiva busca cfereerinsrumentos pare ‘obter um sistema global, stator culdadowimente, de modo a penn ‘ue os usuriosseletioner ainfoemacdo desejads em conformidade com as suas preferénciasindvdualzadas (QUIVEY, 2002). ‘rns a a Sr ey nae Sect a ecupenaarecmayTae emcee ened ane once i te Sn he Teer pn ‘ont eal a ee Sorin aad at a nde | | | 2. Elementos de Organizacéo da Informacéo 21 Documentos 1d a0 tat ‘impossivel a abordagem de quatgueraesunt race mento da Informagio, mesmo tendo como suport a web, sem uma refle ‘io sobre conceitos bisios da fren de Ciencia da Informa. Ene esses imanto & um objeto que fore Conests, est ode documento, Um d um dao ov wna informacio e pole rmentos, de acordo com suse carateriteas fins ou inte racteristias fisias de um document elacionan-se aos concetos de mate Fis naturena, amano, peso, forma de produgo, soporte, ene ours, As caractersticasintle tans elacionam:-se aos oneetos de ajetvo, con tei, assunt,tpo de autor, one, forma de diusdo originale, entre ‘As soractersessinalostuis de wm documento permite definir seu interesse, piblicoalvo e valor. Ene as caracteristieasintelectuas, Guinchate Menou (1994) éestsca: = objtiva ~ referese 8 az pel para servir como prove, para por isis, para dvulgr resultados de um trabalho, para ensin, fn qual 0 documento foi produrids para outro documento, para ex- ‘rade labors reato, Com bas bocer-se uma clssificgdo dos documents em: storie finaidade de um doce cna nogio de grau de elaboraio &possvel ess ~_primétios - documentos origina elaborados pelo aut ~secundtios ~ documentes que descrevem documentas pr ‘mros, camo por exemplo as ibligrais, os cailoge eos = terivios- documentos saborados a partir de documentos primrios ou secundrose qu reinem, condensum ¢ cabo ram at infrmasocrigal na forma mais edequada as neces. sidades de um usutio ou grupo de usuos ~ conteido~o conteido pode ser avallado a parti da Wentfeagio do assunto, da forms de apeesentaéo, da exausividade da anai- se, do nivel cinta do testo, da novidade das infrmagcs, da reprecenatividado das iformagées pars um dado grupo de leo- tipo —refere'se a nivel de rene do documento; ha documen tos exsenciais, sto 6, que totam de assunts que possuem interes se deo para detenminada eomunidae de leitorese documentos rargnais, ou sea, que possuem pouca ou nenhuma ree 22 Ciclo Documentério En uma unidade de informaglo - que pode ser entendida como uma insituigdo ou sistema de infcrmagia ~ cada documento que en tra recebe tum tratamento visando a faciltar # recuperagdo das infor magées nelecontidas. Esse tatamento relacionase a operagbes de se lego, avaliagd0, anise, traducio e recuperagdo de documentos capa 2us de responder a neceisidadesexpeciticas, de acardo com o peril do usuério e com seus objetivos. O conjunto de operapses de tratamento dos documentos € organizado num ciclo conhecida como codeia documentéria ou ciclo documentaria. O cielo documentério, como ‘Gualqucr outro sistema, apresenta ume extremidade na qual entrain ene oma tah een ox documentos a rerem tratados © outta na qual sfo apresentados es produtos documentirics, que resultam desse processamento:referén Fins bibliogificas, deseigber de documentos, indices, instrumentos de pesquisa, documentos recund: 0s produtos ddocumentirios slo utlizados em atividades de pesquisa ¢, novamea te, lransformados em documentos que teaimentam o sistema (lusts 03). jos tercisrios = =] ‘As principas atividades do Ciclo documentirio envolvem a cole ta, o registro, o tratamento intelectual, a pesquisa e« difusio. A ilu teogdo 4 representa um modelo esquemitico para 0 cielo documento, bjido a partir da andive das definigdes de Guinchat e Menou(1994), de Lancaster (1995), Robredo e Cunha (1986) e de Nakayama (2001), ‘A andlise dessa ilutragio permite ideniiar operagdes de entrada, de processamento tGenica de sida, As operagdes de entrada comprecn tlm a slegio (que sed pela localzago e posterior escola) ea aguis to (que pode serrealizada por meio de compra, permura, doa, pro- jetos, convénios, entre ouleas formas. As operagbes de processemento fenieo, ou tratamenta intelectalcompreendem a catalogssi0, a clas sifcago, a indexagaoe 0 resumo, As operacies de sida coreespondem torner disponiveis as informagses: disseminagso fquelas que permitem amazenamento, disseminagio (divulgagio, distribu seltiva da informagio), recuperagio (acess), ou alert (forma de di valgagéo des novas aguisgGes, por meio de exposico, impressie ot armazenamento em midiaeletnies, como CD/DVD ou ent linha. : es . ae 2.3. Tratamento intelectuol do informagéio | partir da ealizgo das operagies documentiia, um servigo de infosnasées pode orginar produtos com aigum tipo de tatamento inte Ietual eu nao, Produlos que recebem tratamento inelectul podem set Tasificados, de acordo com o nivel desse trtamento &m simples, labore {fos analtices,analitico-crieos cu complenoe (CAVALCANTL, 1982). 0 trtameto intelectual da informacio compreende oper logasio ca anise temStica da informacio. A catalogos tibtogrfica& uma fonna de referencia que destinss a forocer uma des cu desericio trio precisa documento, ientificando-o materalmente de forma tica © io ambigva, de mado a pert sua Wentiicagio,localizagoe represen fasa0 em calogos ou emt outros instrumentos que faite a sua focal taste fsia, A-anélise temitica de informagio € eelatva ao conteido {nformacional dos documentos © permite a identifica do tema ou as onto « que se referem, Outros termes utizadas para dala ess oper {so andl da informa derrigio de conteide,anlive document, eto om rpretentagio de as Ascrgio de assunto rpresentagio doc ‘unto (NAKAVAMA, 2001). | andlse tein da informasio acorre no processamento Geico de informasdo, mais expeccamente na classificagdo, na indexago, nt iseminagdo, no reso, na rocuperacio‘e na busca, A operagdo de class Fis consste princpsmente na atibuigo de wm némero ou outro sim bolo para desctever o documento, A indoxago consist em atebuir um ot ratios desritores, que podem ter gues ene para descrever o cones fo do documento. De certo modo, uma lista de termos pode ser vist emo uma expéce de mini-resumo, uma ver que reine o& temas em uma st ou indice. Com roapao a extensio do registo, a indexago pode ser seletva (mas reiis) ou exaustiva (mais completa). A opeagio de res aaa Osea] ‘mo consiste na condensio da document em inguagem natura. O prin eT ‘pal objetivo do resumo & indicar de que trata © documento ou sntetza noise eu conteddo, Confoame o nivel de aprofundamento, o resumo pode set ‘lasicado como resumo breve 04 remo detalhado (amplindo). Esse fa de aprofundamteno & tanibém denominado extensio do resto de Clee Dectmetre tum reumo, De todas as operagées do processamento tenia, a mais i — portane paso contexte desta obra & sem divi, a indexagio, da qu pode depender em grande mee a quliade dos resultados avindos de tums operasao de husca e recuperasio. Por esse motivo, a operagio de inderaio ser aborca em una seg especifia dest epitle 23.1 Indexacéo Emborafontes de informacio contend texto-completotenham sido escasss por algum tempo, a partir de meados da década de 80 esas fonts comesaram a prlilearse, una vez que os pros dos eompuradores come- Gata a ear © que sua eapecdade de armazenamento comes tomate ada vex maior, de modo que buses de dados de textos-completos corespondem a um segmento cada ver minis crescente no mercado (ata mente, € not6rio como a disponibilidade de tais fontes eresceu ‘exponcncalmente). Cevtamenteavantagem dese acessa documentos com oes, ao janes di Eni apenas referencias a esas documents, & indicative nto, e por um lado o armazenamento de mais e mals documentos esse tipo € vantjoso, por outro trax uma série de diflealdades para & recuperagio da informacio. Os aspeios inteectuais da recuperagio tém Sido redzides i utiliza de palavaschaves, bem como de frases chaves, ‘combinads @ utlizago de operadores beoleanos cu de prosimidade, que io recursos mos eftivos em se tatando de recuperaglo et extos-com- letos. Técnicas de indexagio sutemsticas ov semi-automsiies, normal mente baseadas em process etasticos, ingens ou biseados mI tligncia Artificial ten sido pesquisads eutlizadas especialmente para squoles textos completos que no foram submetides a procossos do indexagdo manual ou de resem Definida por Robredo (1982) como “openigio de representa 0 com ‘edo dos documentos, qualquer que sea o metodo ulzado", @indexaco utliza-se de instumentes para o tatamento da infrmacio, de modo a cbteremse termos que representem coretamente os conodtos condos em ‘eterninado documento. Assim, © principal propéito de um servo de inderagio € asegurar da forma ms efclentee econémica possvel, que ‘qualquer documento ou informagae sea orneido ao usuério no momen- to previo (CARNEIRO, 1985). Par a consecugo dese objetivo, # ten (ae indexacdo necesita da uiagzo de iastramentos normative (oor ‘he, em como de instrument ingitcos como a linguagern naturale = Hnguagens documents, "A inguagem natural formada pela reuniio de sings ulizados © econhecios feilmente plo homer, Quando empregada na indesagio ‘onominada “ite, tla termes como se apresentam nos documentos ‘hlinguagem documenta compreende 0 cojunio de tepas,sibolos © termes previamenteetabelecidos, frmando uma linguagem ariel pars t indicagio do conteddo temitico dos documentos. E, por consepuinte tema metalinguagem, que uli uma construe simbotca,concabida come fmstrumento pora conversa de wm Eaguagem em outs, ‘A tGenica da indenogio necesita do uso de uma linguagem de indexaglo, que compreende a especializagio de uma lingungem ‘ocumentri. A Hinguagem de indexagao & uma “Tinguogem aia! uti dade para o resto ou indcagdo dos temas eontides nos documents, flotada de vocabulitio controlado e regida por uma sintaxe propria” (CAVALCANTI, 1982). Um yocabolti controlado relaciona termes wti- Tiaados em sistemes deindexagio, com vistas &uiformidade de armazens ‘gm, bem como i faclidade de recuperagio. A sintaxe cmpreende win onjunto de repras necesstis &tarcla de combinayo dos elementos do, vocabuliio 23.1.1 Tipos de indices 0 prods orginiios da aperago de indexaio soos indies. A principal fungdo da eaboragao deses indice, que si instruments ui ‘aes pata a Fepresentaio do canted de documentos primétcs,¢ fal tara rcuperagio de informages rlativas 9 documento indexado ou te smi, fice, bem como resumes, geralmente si inlutds em bases Ge dados que podem set Impress, amazendas em fcas, ou em format céettnico (LANCASTER, 1995) o¥, ainda, como asinala Harman (19), im arquivo invertido ou ena cura extrutura de dados, de modo que ce, wiivando operadores boolean, pesquisa poss ser realzaas no Cig mal i em nen ‘ou algortmos baseados no peso dos frmos, para se obte rstultados onde rados de acordo com criti eraisticos. A tabla 4 apresenis alguns esses spose indices. ta ee —_ ‘ence autos ete J Screeners ‘Sawer sss esse TD 23.1.2 — Indexagio outomética (Como jf mencionado, grandes quantidads de text esti stualmente Aisponives para acess em linha, incuindo tanto of texts eiadoe para aceso eletnico como publicaes trdicionas,Entetant, no € posit pesquisa informapaes noses textos scm © alo da indexagoautomiic Segundo Harman (1994), o ponte chave pra. qualauernexasio & a sco Tha dos mies do registeo que desea uma umidade peequissvel. Un te gstro pode ser defini como um lo, um capitulo emu fro, uma saga in om ‘ou um pevigrelo, A deisto depend, em pat, da natureza do objtoaaet ffsando, Por exenplo, quando se rata de uma pesquisa em restos Bibl tric, ovegisto& clramente dfnido como um dos rgistos do cao fe biiogetio, Quando se tata de uma spicaso em args de jr, Fat poder ser coda artigo. Desa forma escola do tana do ep {oo enbora iniialmente parege vag, pode beseur-e no tamano do docs tnento~ para docurenos mio grandes (e100 péignas ou mss), autora Tremenda a dvisio do registro po pias ou por sexes do documents importa aqui destacr que a escola do tamanho doregisto no € 0 importante para a exibigao dos resultados, mas, pincpshment, parm & re Tasso da pesquisa. Assim, um feist ruil pequenofornee pouco texto pur os agri de pesquisa, o gue fomece rrltads pobres um registro Fhuto pane, enteanto, poe dirs inportnci das paras encontrs (lac couse aos acorns. A segunda deciso chave para qualquer sist tne de indexacio & escolha do que consti uma palevae, por consi te ais dessas palavias dover sor indexadss, Nos sistemas de indexapio manual, a escola € faciimentefita por um indexador humano. Para a indexscdo automa, entictanto, 6 necessro dfinir que pontuacio deve serutizada como vparador entra palavras e defn que palares index. ‘Esa separaionormalment¢ fit com todos 0 espacos em branco todas as pontuages,ebaa aja excogbes, dependendo da aplcagio © fd software ulizado. Tratandose da informagio aemazsnada na web, todos os servigos de basce ullizada cera definigio. Definidos os Timites Gas polaviar,outo problema a ser retcvido & a indexagio de nimeros, ima vez que oconjunto de nimeros snicos €infiito, NBoindexat nie: ror, enreanto, pode acareiar problemas na recuperagio, quando umn fnomero fr imprescndivel para peeguisa, como &0 caso de datas, anos fu nlimeros de Mentifieacaa de documentos. Outro problema para & {ndexagdo€ relative aos eaacteresindviduas (a,b,c, ete). Se, por um Indo, indexar esses earacteres pode representar umn aumento no tamnho do indice, por ovteo, no indext-los pode representar pera de informa: G0, quando um caractere for imprescindivel & pesquisa (por exemple Vilamina C). Como solugdo para definir que palavras dover ot nfo ser {ndexadas, Harman (1994), sugere os seguntes“compromissos,w serem, cstabelesidos com o urna ponte deve ser extudada © potenclas problemas identifica dos Aleve. estar o uso de letns maculae minGsculs uma te nie usual, relota @ autora, é a conversa dos ceacttes ms: los para minGsculs durante a indexago, 0 que pode, entretanto, carotar problemas para a recuperagio de nomes prprios ~ a indexaséo de nimeros depende profendamente da aplicasie, datas, tus de spies e mers combinados com letras poder ser inderados; euros tipos de meres no deve se index ‘quanto indexayo de caaceres individ, poco veer ai bop, anotandose as letras que posuem um signifiado paricular aa pore, apés esa opera, tasers podem sr indexes, Com relao ao tatamentoautomatizad para indexaso automs tic, diverse te 1s tm sido deseavolvdss, algunas com aplicagies in feressantes, tanto no mbito de pequends celeste, como para grandes scervos, como ¢ o caso da téenice aseada na goorréncia dos termos. Ci ‘ase ainda ovteas tcnieas come indexasio de palavas no signi vas uso de sufios;¢ extensio ds busca ~ esta cima, segundo Harman (1994), muito bem sucedida em pequenss cles. ‘A técnica do indexagio de palavas ao sigiicativas basiase na construgo delstas de tenmos no que no possuem maior relevineia 80 ‘campo dagueleassunto espectcn. Como a consti dese tipo deltas, lentreianto, pode ser uma tareta dif do ponto de vista da escola, (0s sisteras utilizam trabathos deservolvidos no passado por pewuisad- tes. Assim, paves que ocorrem com froginca muito elevada nos textos so integradas a exss las. Uma técnica mss propria 6a produgo de ums lista de temos ndosgnfcavos based no prépria corpus do texto 4 ser indenado, com base a fregiencia com que determinadas palaras ‘corre naquele texto, conform, por esemplo, a sua laste gram ou cutto eritéro defini por eepecalisas, Assim, palavras como aquelas perlencentes is clases dos artigos, das eonjungacse dar preposiis, por texemplosio removides do dccamentomatrz. Eno o documento smen- te ser indexado plas paras cujo contesdo& szifcatvo. prego mg wb sn : 72 edn yl ined cn us aes, Ox alts liza a var ua tte norgnbnns pas te pre ma etic ‘efit de ter da ples unit de exces unt ‘fatmenles A ulgio de sktemas desu onda devs 3 Simate da pevormance,devito so wo de nts das ples de indxainéad uuign de pesos ac eon, qe frece possi tad do ordoar ot documentos com tase no nimi de temos ave CSrmspeedom psn doen eA sora ese terms nos ‘Povmentos Bit na iia oases eatin comple «ple eo lzn qundo se dear women a pei et uma bse om foros temen, de mado qe eso guano io conver mds os peng sem strate doctmenton que pou 8 outs {tomes frelon vs bua, Alin stems Je medida aue poem Pr cinnea pores ic seam 0 Inver Document Feeney Gib), quemelea cae de um foo no texto, Ovo za lam tps doing de mada da frei do temo not Pe opndztoment de tan ets Kena © metodo, um ds nits blenny cco ao lemme de recuproio de informe {foe que domnents reat adds porgu ao conn ose Sov tase Pre prenos cle de extorceplets ma eats “ave poor ua de um noc dc expanas de busca, Un metodo ccrprao de uma busca pote ero zo dou ngage document, ome dcenotermeodlois para constr aon de eas, SoS une dil ecatemament dependent do domino Jo cone fereladortewic de sats pode er a aleraira was Wire 20 tue ver refer &obtenso de resultados mas precios, 2.3.2Recuperacdo do Informacéo De acordo com Lancaster (1993), para qualquer nacessidade espect fica de informacdo, hver sempre muito mai ens que io possum rel ‘ncia ov pestingneis ao assunto pesquisa pelo consuente (ens fie {eis do qu itens que posrunm rlevneis ou pestinéncin ds necessiodes desseusuirio (tens set) Portanto, a principal Fangio de um sistema de recuperasio de informasies 6 permite que o usu localize o mace mi mero possive de tens relevant, A tlago entre o ttl de itens Geis para o ust eo total de tens recuperados & denominada coefcionte de prio. Essa rlagao pode set representa pela formula ep = aluint onde oeiclente de precsio enero de tens eis vero total de tens recuperndos A relagio entre o total ten Stes encontradas pelo o wast em uma determinada busca e 2 quantidade total de iene tes shidamente Aispoives na base de dados &denominada coefcients de revocagi. Psa relago pode ser eepresentadn pele emul ie = nines onde i= indice de evocagio iv = nero deen civis tu = timer total de tens eis © indice de revocasdo © coefciene de precisio so grandezas inversamente proporcionas. Portanto, quanto menor foro indice de evocato, mais precio seréo reratado da pesquisa so maior ser a ‘quantdade de itens seis recuperados. & importante desacars, tn bem, que resultados satisfatéios na reeuperago dependem diretamente «qualidade com que a indexagi foi relizad isto €, da pottien de indexagdoutlizade, das regras usa por a redaga0 do resumo, da qu lidade do vocabulério contolado, da qualidade das estatias de busca entre outros fates, na Men wi i 8 iin ‘Segundo Ped (1977), 08 dls fatores que mais influenciann evocayo ¢a presi, roa exustvdade isto &, a extenso ou nimero fs conceitosescalidos para te epresontar 0 conteido de determinado document; ea espeifcidade it 6 exatdo com que os terms eco Ios descrever @ contetido do documento em questio. A esclha de ‘its frmos par & reperentago do conteido de-uma hase de doe entos, isto 6 alta exsustivdade, poderé aumentar a revocagio ~ mais fins serio recuperaos —, mas alguns documents recuperados tratario apentssupenfiialmente sabre o assuntoe, nese caso,» preciso srt bs {a Por outro lado esolha de poucos trmos, mas exsos, para a rept fentagao do conteide de uma base de documentos, isto &, alts Cepeciicidade, poderéaumentat a preciso ~ apenas tens que eoinidam ‘ramente com o temo de busca serio reeuperados-,sendo recuperado jraeno © némero de tens que tarda sobre o assunto em profundidade Em resumo, o aumento da exautividade aumenta a revocago ediminei preciso, Por outro ldo, o aumento da especfidade diminul a revoceg 0 aumenta a preciso, ‘Quanto mais especies fora indexaeo, mais precias serio as res posts e menor ser a revocao (CARNEIRO, 1985). Tomando ese pon to de vst, e lembrando que a revocaglo, que & defnida por Lancaster {1985 p 4}, como “a capacidae de recuperar documentos dies” tn me- ‘or importa em um sistema do indexago automa, ent, o deat & {que se aumente nivel de preciso, que oautor define como “a capacidade de evitar docements inte", por meio do aumento da espciihad da indexagio. Lancaster (1993) argument anda, que quanto maior for 0 cervo da base de des, menos aceitivel ser uma hua previo so 6 fm bases de dados muito grands, toma-se progessivarente mais dif tleangar win_nivel de revoeagdo scetével, com um nivel de precisio ‘atisfatrio. Com 0 avento ds servgas de busca na web e tendo em vis 4 grande quontidade de informacesdisponiveis na rede, eses conceit, tmbora ind muito elevates do ponto de vista da orginizago da infor Inacio, ganham menor aplicabiidde no momento da recuperago, uma Yer que éImposiveladefnigio do nme de total do iten eis dispont- rena we nt am et rn 2.3.2.1 Modelos de Recuperogao da Informagéo (Os modelos de recupero mais comuns soo booleano, 0 vetoril, © probilisico eo de atibugao de pesos. De acordo cam a defnigo do MOLE Text Analysis Group (1999), modo de recuperasio boolean E0 mis simples dos métodos de rcyperagoe, eam dir ose nom, basi ‘© no uso de operadores boolean. Assim, os termos cm uma busca $0 ligados por meio dos conectores ¢, ow © nd0. O método borleano & freqientementevilizado em mecanismos de busca na Inert, ume vez ‘Ue € répido e que pode ser utiizado em fina, No entento, para maior efiiénci, esse metodo equer que © usario tea pelo mence algum co nbecimento acerca da tépia de pesquisa desejedo, ‘Atwalmente, 2 recuperagdo baseads no métcdo boolean tem sido ‘combina com 0 métedo de navegaio por conteudo,utizando-se redes e conecios, nas quais termes compartihados de documentos obtidos previamente so utiliza para rfinar ou expandira base. Em divers sislemas, os operadores booleans tém sido sbsttidos por operadores fury’ (MOLE, 1999). © modelo de vetor-espago pale rer dividida em trés esos: a) indexagao do documento, na qual a trmoschaves so extaidos Jo doce ‘mento; b) extenséo dos termos inderados pata melhorar a recperogso dos documents relevant pata 0 usu, e)casifiagio do documento ‘om rela @ buses, de acordo cm ums made desimiaridade (MOLE, 19996), A Indexagio probailstica& haseada no pressupcet de que existe slum nivel de difeenga nu dstebuigso do conte de tennos-sinifiat vas ede termos no-significatives. Recentemente um método de inlexagio ulométca que utiliza um agrapamento serial de palavras tem sido into ‘duido. valor de tal agrupamento 6 um indicador se 0 termo & ou no significative. Essa infexasao pode ser baseada na freqiéncia do termo, isto 6 os termos que tim ata ou bisa freiénca em umn documento $60 considerados nfo signifiatves. Des modo, em gel, de 40 4 50% do sa bet at ai ys ep vn a ia em i i me nosis (MOLE, 135 “ 'A ponderagdo de termos tem sido explicada pelo controle da castle epee nob oe exit seth a cea nes om preciso MOLE, 1850 seem Jetemesfr omsa de we spare on tone TA ni tres de pondered terms: 2) lator de fein 5S mon by tor da once clo) far da xno no foto, dtniem 0 psa tmalizagio, Esesfatores 0 combinados pa restate ara o terme, 2.4 Resumo do capitulo 1 pone abrdage do tame da noma a we feevunm coe no sigue coco ¢ ocx J ita da norm tis com acl, 4 nde, © 3 Um incon um tet eee wm ad oa ink tpi efecto ce outed, odo nn (pr exon: tel, ae, Cao, po, lama de pod, tp) ea cl Por

You might also like