You are on page 1of 23
Tony Berber Sardinha Lin uistica Visdo geral da Linguistica de Corous* Quando foi langado © primeiro corpus lingiiistico ele- tronico, em/ 1964, @ Brown University Standard Corpus of Present-day American English continha uma quantidade in- vejdvel de dados para a época: 1 milhao de palavras. Nos anos de 1960, as dificuldades para informatizar um conjunto de textos eram tremendas, Vale lembrar, por exemplo, que os tex- tos tiveram de ser transferidos para 0 computador por meio. de cart6es, perfurados um a um, tal era a tecnologia da épaca, Esse feito, por si s6, ja traria respeito e admiragao 4 empreita- da, Mas niio foi somente © pioneirismo! que garantiu uma aia . ceiras para a coleta de registros lingllisticos era vista com dulidade e hostilidade, structures, obra de Noam Chomsky, que teria papel fundamental em nada menos do que uma mudanga de paradigma na linguistica, Dentro da visio de linguagem instaurada a partir dessa publicagio, os dados necessdrios para o lingilista estayam em sua mente ¢ eram acessiveis por meio da introspecgao. Nao havia necessidade de coletar dados abundan- tes de terceiros, pois serviriam apenas para o estudo do desempenho, quando todos sabiam que o interesse era a investigacdo da competéncia lingiistica, Portanto, o corpus Brown surgiu numa época em que seu mérito era discutide. Essa nota histérica tem a fungao nao sé de homenagear o corpus Brown como tal, mas também (e principalmente) de salientar sua importancia como fato propulsor do desenvolvimento da Lingiiisti- ca de Corpus, uma das dreas de pesquisa de linguagem mais ativas nos tiltimos anos,’ Nao que ela nao existisse nde fosse © corpus Brown, mas com certeza seria muito diferente, Este capitulo ird se ocu- par ndo desse corpus, em particular, mas da Lingtiistica de Corpus em geral, 0 objetive do capitulo é aproveitar o ensejo da comemoragie do rio do corpus Brown para fazer uma retrospectiva da Lingitis- amis tica de Corpus, na qual se pretende apresentar os principais marcos na sua histétia, como também discutir algumas questoes tedricas e prati- cas subjacentes a ela. A maior parte do texto sera dedicada ao processa- mento da lingua inglesa, visto que é em relacio a essa lingua que se deu o maior desenvolvimento na drea. A discussto sobre a Lingaistica de Corpus ser diseiplina ou metodolo- gia serd apresentada na secao 1.13. Vale lembrar que ha apenas sete anos havia sido langado Syntactic OU eonjuntos de dados lingiifsticos textuais coletados criteriosa- com © propdsito de servirem para a pesquisa de uma lingua ou -lingilstica, Como tal, dedica-se & exploragie da linguagem elo cle evidencias empiricas, extraidas por computador, i corpora antes do computador, ja que o sentido original da orpus é corpo, conjunto de documentos (conforme-o dicioné- lio), Na Grécia Antiga, Alexandre, o Grande definiu Corpus snistico, Na Antiguidade ¢ na Idade Média, produziam-se corpora tages da Biblia, Durante boa parte do século xx houve muitos pesquisadores que dedicaram a descri¢ao da linguagem por meio de corpora, entre eles eadores como Thorndike ¢ lingiiistas, como Boas ¢ Fries. Ha duas dl ferengas fundamentais entre essa época e a atual. A primeira, obvia- te, 6 que os corpora nao eram eletrén.cos, ou seja, cram coletados, Hantidos e analisados manualmente, A segunda é que a énfase desses {rabalhos era, em geral, 0 ensino de linguas. Haje 0 que prepondera na literatura é a deseri temente tenha ressurgide um interesse no emprego de corpora na sala de aula ¢ na investigagde da linguagem de alunos de lingua (99}. ‘ao de linguagem e nao a pedagogia, embora recen- Foi um corpus nao-computadorizado que deu feigio aos corpora atuais, o seu (Suzvey of English Usage), corrpilado por Randolf Quirk e sua equipe, em Londres, a partir de 1959. O SFU, milhao de palavras, serviu como referéneia para outros corpora, inclu: sive o Brown. A composicao do corpus também foi influente, ao defi- nir um niimero fixe de textos (duzentos} ¢ uma quantidade igual de pulavras para cada texto (5.000), © Survey foi organizado em fichas de papel, cada uma contendo uma palavra de corpus inserida em dezesse- te linhas de texto. As palavras foram analisadas gramaticalmente, com cada ficha recebendo uma categoria gramatical, O conjunto de catego- planejado para 1 rias resultante serviu de base para o desenvolvimento dos etiquetado- tes computadorizados contemporineos, que fazem a identificagio de tragos gramaticais automaticamente. A famosa Comprehensive grant- ar of the english language de Quirk, Greenbaum, Leech e Svartvik foi baseada no sev. A transformagao completa do Survey em corpus ele- trénico s6 foi atingida muitos anos depois, em 1989, mas a sua parte falada foi computaderizada antes ¢ ficou conhecida como o London- Lund Corpus. No final dos anos de 1950 apareceria Syntactic structures, de Chomsky, ¢ com ele uma mudanca de paradigma na lingiistica; sala de cena o empirismo e a sustentagao dos trabalhos baseadas em corpora, tomande lugar central as teorias racionalistas da linguagem (veja dis- cussio a seguir), notadamente a lingilistica gerativa. Além do apelo natural da lingilistica chomskyana, uma crescente leva de criticas ao processamento manual de corpora contribuiu para a perda de folego de abordagens baseadas em corpus, Uma das criticas mais contundentes era exatamente que © processamento de corpora gigantescas, coma o de Thorndike, com 18 milhdes de palavras, por meios manuais, nao era confidvel, pois o ser humano nao é talhado para tarefas desse tipo. Nao seria o caso de simplesmente aumentar a equipe de analistas para resol- ver o problema, pois o trabalho ja era realizado com grandes contin: gentes de assistentes. A pesquisa de Kiiding, por exemplo, sobre a ortografia do alemao, consumiu a mao-de-obra de 5.000 analistas! A possibilidade de erro ¢ falta de consisténcia persistem, ou até pioram, com grandes equipes, Qutra alternativa era diminuir o tamanho dos corpora para facilitar a inspegdo manual, mas isto atentava contra a pré- pria natureza da pesquisa. Faltava justamente um instrumento que per- mitisse a analise de grandes quantidades de dados de modo confiawel. _ Ainvengao do computader mudou esse quadro. Nos anos de 1960, os computadores sainframe passaram a equipar centros de pesquisa universitarios ¢ foram aproveitadas para a pesquisa em linguagem. 4 popularizagao dos computadores possibilitou o acesso de mais pesqui sadores ao processamento de linguagem natural enquanto a sofistica- a consecugio de tarefas mais complexas eficiente, jd que o aumento da capacidade de armazena- 0 64 introdugio de novas midias (fitas magnéticas, em vez de car- hollerith perfurados etc.) facilitaram a criagdo e manutengao de em maior ntimero, Com a entrada em cena dos microcompu- tadores pessoas, nos anos de 1980, uma neva onda de mudangas acon- teceu, como a popularizagao de corpora e de ferramentas de Mento, o que contribuiu decisivamente para o reaparecimento fortalecimento da pesquisa lingiifstica baseada em corpus. Hoje a Linguistica de Corpus exerce grande influéncia na pesquisa J lingUistica, Na Gra-Bretanha, um dos centros de pesquisa mais desen- Wolvidos, varias universidades (Birmingham, Brighton, Lancaster, Liverpool, Londres) dedicam-se a pesquisa baseada em corpus para a deserigao dos mais variados aspectos da linguagem. A pesquisa em ins- tituigdes britinicas tem possibilitado tanto a teorizag’o quanto a cria- gio de corpora e de materiais de apoio em diversas areas. Nos paises eseandinavos (Noruega, Suécia e Dinamarca) também existem centros estabelecidos dedicados a Lingitistica de Corpus com papel atuante ha ydrios anos, Pora da Europa, a Lingiiistica de Corpes nao est tio desenvolvida, mas jd ha centros nos quais a pesquisa estd instalada, Paradoxalmente, nos Estados Unidas, tendo-se em vista a pujanga de seus centres de pesquisa e a facilidade de obtengao de recursos de informatica, a area tem presenca mais modesta, Uma explicagaio € a forca da lingitistica geraliva-transtormacional nos departamentos de lingiiistica, que con- flita naturalmente com a Lingitistica de Cerpus, Bvidencla disto é que um dos maiores expoentes da Lingiiistica de Corpus mundial, 0 ame- ricano Douglas Biber, atua em um departamento de inglés. Por outro lado, ha nes Estados Unidos um alto estigio de desenvolvimento na pesquisa em Processamento de Linguagem Natural (PLN), tanto em nivel académico quanto industrial {as empresas de informatica inves- tem pesado na pesquisa lingilistica com fins comerciais), O PLN é uma disciplina com Lagos fortes com a Gigneia da Computagao e, embora compartilhe varios temas com a Lingiiistica de Corpus, as duas man= tém-se independentes. No Brasil, a Lingiiistica de Corpus ainda esté em estagio inieial. A pesquisa em corpus se dé em centros mais voltados ae Processamento de Linguagem Natural, a Lexicografia ¢ A Lingiifstica Computacional (19). Nio é s6 nos centros académicos que a Lingiiistica de Corpus ganha espace, Também no ambito empresarial ha um interesse cres- cente nas aplicagdes comerciais de estudos baseados em corpora. Deve- se destacar as parcerias entre empresas e universidades: a norma é a associacao de um centro de pesquisa em Lingitistica de Corpus com uma editora, O pioneiro é 0 Cobuild, uma parceria entre a Universidade de Birmingham (Gra-Bretanha) ¢ a editora Collins. No ambito do Cobuild foram produzidos varios diciondrios, gramaticas e livros di- daticos para o ensino do inglés. Hoje quase desativada, o Cobuild per- manece come referéncia no desenvolvimento e aplicagao da pesquisa baseada em corpus com fins comerciais. Os principais membros do Cobuild fundaram novos centros ou se incorperaram a outros. Antoinette Renouf, por exemplo, pesquisadora sénior no projeto Cobuild, instituiu a Unidade de Pesquisa ¢ Desenvol- vimento junto 4 Universidade de Liverpool (Gra-Bretanha), que se dedica a parcerias entre as empresas ¢ @ universidade. Parcerias seme- Jhantes ao Cobuild entre empresas ¢ universidades britanicas hoje sio comuns, notadamente voltadas para a produgio de dicionirios, como entre o grupo Addison-Wesley/Longman e a Universidade de Lancaster (Gra-Bretanha). Hé também um desenvolvimento crescente de centros de pesquisa mantides por empresas, que utilizam pesquisas baseadas em corpus para varias finalidades comerciais, como o processamenta automatico de textos, informatizacao de grandes bases de dados e a montagem de sistemas inteligentes de reconhecimento de voz e gerenciamento de investem nessas informagio. As grandes empresas de telecomunicagé areas, reconhecende o potencial econémico do campo. Outras empre- sas de predutos de informatica, como Xerox, Microsoft ¢ Canon, tam- ‘QUADRO. Langamento/ teferéncia na — | literatura Fow (Polytechnic of Wales 1993, Corpus} ‘AL (international Corpus of | 1997 Learner English) uc (London-Lund Corpus) 7980 Biown Corpus (Bown | 1964 University Standard Corpus of Present-day American English} — 08 (Lancaster-Oslo-Bergen) | 1978 Kolhapur Corpus (of Indian | 1988 English) suv Corpus (Survey of English Usage) Wellington Corpus of Written 1993 New Zealand English Wellingten Corpus of Spoken New Zealand English Corpus of Spoken American English Palavras | 65 nil 200 nil 500 mil | 1 minao 1 mihao 2 milhoes Imilhio | 1 mithao Adisponibilidade de corpora eletronicos, notadamente da lingua Alguns dos principais corpora da lingua inglesa, compilades ou ompilagdo, estio elencados no quadro a seguir. ais corpora da lingua inglesa existentes. Composisio esirangeiros Inglés britanico, falado Inglés americano, escrito | Ingles britanico, | escrito. - Inglés indiana, escri Ingles britanico, escrito e falada Inglés neozelandes, | escrito Inglés neozelandés, alado. Inglés americano, falado | Ingles infantil falado Ingles escrito por ito Alguns dos prineipais corpora da lingua inglesa existentes (continuacae). Carpus Langamento/ | Palavras referéncia na | | “asi (American Heritage 5 milles “Intermediate Corpus) : “Longman Spoken American 1997 5 amills Corpse { icte (Longman Corpus of 1992 10 mithoes Learner's English), atualmente ‘Langman Learner's Corpus? | Bireningharn Corpus 1987 1 20 milhdes (Birmingham University International Language | Database} | cHtoes (Child Language 1990 20 miles Data Exchange) L “usic (Longman-Lancaster 988" 30 milhaes. English Language Corpus) | onc (British National Corpus) | 1995 100 milhdes Longman Written American | 1997* 100 milhoes Corpus? a | "| Bank of English q9a7e* 450 milhoes*** T Composicao Inglés americano, falado Ingles escrito por estrangelros Ingles britannico Inglés infantil, falado inglés de varias tipas, escrito e falado inglés britanico, escrito e falado, ‘inglés americano, escrita [jamais five Inglés britanico * Cada variedade nacional: portuguesa frrcir) ** Aproximadamente. = Data refere-se ae Birminghart Caraus, do qual o Bank of English derivou. =o Em Fevereint dle 2002, “Componente do Longenan Corpus Network, sualmente ha dezoite sariedades, ineluindo uma brasileira (Breut} e uma Trés corpora da lista servem como marcos de referéncia histéricos: Brown, BNC ¢ Bank of English. O corpus Brown é um marco por razves Sbvias: é o pioneiro, G ANC € de destaque parque foi o primeiro a con- ter 100 milhées de palavras e ainda é dentre os megacorpora, o tinico disponivel para compra (a versio World Edition é comercializada para o mundo todo, depois de ter havido restrigdo durante anos para a planejados ¢ fechados, o Bank of English ¢ um corpus ‘orpinico © em crescente expans2o. O Bank of English nao é 0 Hesse tipo de corpus ~ 0 Sprikbanken, ou Bank of Swedish, se em 1975, originado do corpus Birmingham e de acesso res- OK pesquisadores ligados ao Cobuild, 1.3. CORPORA DE LINGUA PORTUGUESA Na lingua portuguesa, ha varios corpora eletronicos de destaque, forme mostra o quadro a seguir. Corpora de portugués, Corpus : Palavras Composigao Localizagao Banco de Portugués 233 milhdes Portugués brasileiro, | pucise esi 0 Borba-Ramsey Carpus 1.67 milo Portugués brasileiro, | Brigham Young af Brazilian Portuguese™™ cescita | University coves (Corpus de Extractos 223 milhdes Jornal pertugués, Projeta Linguateca de Textos Blectranicos wer} | "paiblieo! Pabiica corr (Corpus Multiltngue [5 milhoes usp para Ensino € Tradugio)* partugués escrito, 2 compardvel com ingles. cosbiaL (Conus de Discurso | Na Portugués escrito uAi6 | para a Analise de Lingua e |dspontvel Literatura) | Corpus Uxse/Araraquara’ [200 milhdes Portugués brasileiro, ‘Usos do Portugués* to eeuw (Corpus de 5 milhées Portugués escrito | Relerencia Lacio-Web}* I uses, Araraquara Use, wi Corpora de portugues (continuagdo). Corpus “Palavras _ Compe Localizacao cere (Corpus de 152.6 milhées | Portugués dos varies | aut ~ Centro de Referencia do Portugues | paises lusélonos, | Linguistica da Contemporaneo) com predomindncia | Universidade de da variedade européia | Lisboa Historical Portuguese 2.8 miles | Portugués escrito ‘Brigham Young | Prose** (1300 a 1900) University Mader Newspapers** 28 milhdes Portugues escrito, jor- Brigham Young, nalfstico e entrevistas | University | publicadasem jornais Madern Portuguese** 315 mil Portugués literdrio Brigham Young, Corpus de Partuguss 100 milhaes, Brasileiro Contemporneo wut 35 milhoes /wuriu (Nceleo de Nao - Pesquisas ern Inforimdtica, disponivel Limguisticas e Letras)** sure [Projeto de Estudo Nao romances) Portugués brasileiro, escrito € Une Araraquara Portugués by VLC (USP, UFSCAR, escrito uNesp Araraquara) Portugués escrito usc. © Portugués brasileiro, USP, UFR), UFEA, LFPE, fonte de pesquisa. Para uma visio mais ampla dos corpora de uesa, © leitor deve consultar Bacelar do Nascimento et al. |, Oksefjell © Santos (179), Castilho et al. (54), que elencam varios de bancos de dados do portugués. A pesquisa com corpora eletronicos de portugues ja vem de longa Hacelar do Nascimento (10) relata que o trabalho de compilagao pora portugueses data des anos de 1960, em Portugal, sendo o de Lingiiistica da Universidade de Lisboa (CLUL) um dos pio- Biderman (40, p.265-6) cita o corpus do Frequency dictionary Portuguese words como um dos primeiros corpora eletrénicos de ugués, contendo 500 mil palavras de 2ortugués europeu referen- 4 publicagées de 1920 a 1940. O dicioaario de freqiiéncias feito a irtir dele foi concluido em 1972, mas permanece inédito (73). Bider- nin (40, p.65-7) ainda menciona varios cutres corpora pioneiros no sil usados para pesquisas no campo da Estatistica Léxica, destacan- se os compilados por Jean Roche (Universidade de Toulouse, Fran- da Norma Lingitistica ——disponvel-—_ falado srs e Letras) (570.000)** | rapa (Projeto para a Nao Portugués escrita | UFFE, UFFBA, uFMs, Historia do Portugués dispontvel RR, EFSC, FPG, USP Brasileiro)® | [ _— __| | PuRrext Portugués escritade | Universidade de Portugués Falada do Ceard | Nao dispontvel Tycho Brahe Parsed Corpus | 1,9 milhao of Historical Portuguese™ | \vanporr (Anise Cantrastiva Nao | de Variantes do disponivel [Portugues® | varsue (Variagao Linguistica | Naa Urbana da Regiao Sul* {di "30 milhoes | varios paises Nice Portugués brasileiro, | ure. ueca falado | Portugués antigo | Unicamp | (1550 a 1850) | Portugués escrito ¢ falado, brasileiro e europeu Portugués falado UFR). LUL USC, URGS, LPR * Pinheiro, Oliveira, Tagnin, Alu‘sia: http :f/www.nilc icmc.usp bi/tilencontro/programaceo. © fhavies, Mark: htlp:é/davieslinguistics.byu.edurpersonal/texts asp. —___] ‘pty na década de 1960), J. Hutchins (Academia Naval de Andpolis, Eva, anos de 1970), Cléa Rameh (Universidade Stanford, £Ua, 1972), além daquele compilado por ela mesma (Maria Teresa Biderman, usp, 1969) e de uma série de corpora de textos literarios de autores brasi- Jeiros construidos e analisados por uma equipe do 114 (Sa0 José dos Campos). Castilho et al. (54) oferecem um panorama dos projetos de criacdo ¢ informatizagio de corpora em varias regides do Brasil. O levanta- mento indicou que havia um interesse na criagae de corpora por parte de varios grupos de pesquisa, embora o indice de informatizagao esti- yesse apenas pouco acima de 50%, Qs autores concluem pormenori- zando o que seria 0 Banco de Dados da Lingua Portuguesa, um. corpus de lingua escrita e falada, que nao foi coneretizado.

You might also like