You are on page 1of 10
Apertctade wee IS Joruader de binpwlihce Compote couc Agha, Dewule 1999 Um sistema de traducio automatica do inglés para 0 portugués Diana Santos ‘Grupo Cientifico IBM-INESC R.Alves Redo, 9, 1000 Lisbos, Portugal O ambiente Este artigo apresenta o sistema de tradugio automitica desenvolvido pelo Grupo Cientifico IBM-INESC, do inglés para 0 portugués. O trabalho descrito teve a duracio de dois anos, € uma ‘miédia de 3.25! pessoas colaborando a tempo intciro, provindo de Engenharia, Letras ¢ Matematica. Dados técnicos trabalho foi desenvolvido em méquinas IBM de médio porte, no sistema operative VM, num ambiente PLNLP, versio LISP/VM. A linguagem de programacio PLNLP|2] foi exclusivamente uitilizada, nao s6 por ter sido especialmente concebida para o processamento de linguagem natural ‘mas porque também a gramitica inglesa foi desenvolvida neste ambiente. Para a criagio de utilitaios para o sistema de tradugao, foi usada a linguagem de programacio do sistema operativo, REXX, Ponto de partida O sistema foi desenvolvido no ambito de um projecto interno da IBM reunindo as seguinteslinguas de destino: castelhano, finlandés, hebraico e portugués, ¢ tendo como lingua de origem o inglés Contudo cada grupo teve autonomia completa no seu trabalho, ¢ assim apenas a parte portuguesa sera descrita aqui. Os tinicos requisitos globais a que tivemos de nos cingir foram: * usar PEG ("PLNLP English Grammar”) para a analise do inglés ‘© seguir um modelo de transferéncia PEG Seguc-se uma breve descrigaio de PEG|3), remetendo os interessados para a bibliografia ‘© PEG € uma gramética de cobertura vaste do inglés americano (recorrendo a um dicionario que possui mais de 70000 termos ingleses nao inflectidos). © E.uma gramitica no normativa, que accita frases incorrectas ou meros fragmentos de texto, tenta produzir a melhor deserigdo do que quer que lhe tenha sido apresentado. 1 correspondendo a duas pessoas no inicio até cerca de vinte colaboradores com varios lipos de ligagio a tempo parcial durante 05 ulti + Produz como resultado, para cada “frase” que analisa, um (ou mais) grafos representando a sua descricéo sintictica. Podemos separar trés niveis conceptuais nessa analise, ainda que computacionalmente se encontrem representados na mesma estrutura de informagao - o grafo: + anilise sintictica de superficie (em termos de dominancia e modificagio) + anilise sintéctica profunda (em termos de relagdes gramaticais tais como sujeito ou ‘objecto) + anilise de discurso intrafrase (em termos de tépico) Esta gramética foi desenvolvida independentemente de quaisquer consideragdes relativas a tradugio automitica, e tem sido usada em virias aplicagdes, tais como critica de texto, indexagao automitica, consulta de dicionarios humanos, ctc.. Gostivamos portanto de salientar que PEG é uma gramitica de descrigio da Hingua inglesa, que nao foi desenhada tendo em vista uma aplicagao especifica, nem muito menos tendo entrado em conta com consideragdes provenientes de outras linguas. Transferéncia © facto anterior (PEG ser completamente independente em relagio a tradugio) determina implicitamente que, de entre as duas grandes classes de arquitectura cm tradugio automitica, nomeadamente 0 método de transferéncia ¢ a interlingua, 0 primeiro fosse escolhido. Resumidamente, um sistema de traduglo baseado num método de transferéncia produz/considera uma estrutura por cada lingua em presenga, sendo efectuada a tradugio pela passagem de uma estruture para outra, enquanto que o método da interlingua requer uma tinica estrutura para a qual ~ ou da qual - todas as linguas sto analisadas - ou geradas. Representagao Representagao / \ f \ Frase inglesa Frase portuguesa Figura 1. Método de transferéncia Descrigdo do sistema Podemos distinguir duss fireas distintas sobre as quais fizemos investigagao relevante no campo da tradugio automatica: © 20 nivel da arquitectura do sistema ‘© 20 nivel dos fenémenos linguisticos Arquitectura Em relagio ao primeiro ponto, consideramos de maior importancia os seguintes aspectos (veja-se também Figura 2 na pagina 3) © Distingo entre tradugo possivel e melhor traducio (esta diltima a ser tratada pelo médulo de estilo, escolhendo entre as varias tradugdes estilisticamente possiveis apenas uma), © Separaciio completa entre andlise, transferéncia e geragio, a todos os niveis, 0 que no nosso caso, e dado que j a gramética inglesa era completamente independente das fases que se Ihe segucm, sc resumiu a produzir uma estrutura portuguesa (ponto de partida da geracdo) valida por si s6, sem trago da estrutura inglesa a partir da qual € produzida (durante a fase de transferéncia) >| lexica v Analise inglesa >| estrutural >| estilo >| geracao (PEG) A >| tempos A caina maior representa a fase de transferéncia, Interligagao dos varios médulos de transferéncia, obtendo, além das vantagens de um sistema modular, um poder de tradugio méximo: Por exemplo, a escolha de uma determinada traduco pode implicaralteragies quer a0 nivel da estrutura resultante I like children Eu gosto de criangas quer ao nivel do tempo verbal though I like children embora eu goste de criancas Por outro lado, pode ser a estrutura ou o tempo/aspecto que decidam a escotha de uma dada tradugao: Returning home, he returned the book. Regressando a casa, ele devolveu o livro. I ve just eaten. Acabei de comer. Finalmente, muitas palavras no sio sequer traduzidas, desaparecendo ou sendo criadas em Fungo das diferengas entre as duas linguas I like that one you see there. Gosto daquele que vés ali. 0 algoritmo que permite conjugar as varias dependéncias encontra-se deserito em {7] ¢ [8], nfo sendo portanto apresentado aqui. Criago de um dicionario bilingue + organizado por tradugao (ou seja, cada tradugao de uma palavra inglesa é independente © completa por si s6 no diciondrio) acautelar(VERB (NCOND self NEG) (COND SENTYPE IMPR) REFLEX (PREPO OBJECT com) ) observar(VERB (COND self PASSIVE)) observar(VERB (COND self PRESPART)) ver(VERB (COND self NEG)) ver(VERB (COND self OBJECT)) cuidar(VERB (NCOND self PASSIVE self NEG) (COND self OBJECT OBJECT ANIM)) relégio(NOUN) Figura 3. Transferéneia léxiea de "wate": Quatro verbos diferentes sio_contemplades como possiveis tradugdes para o verbo “to watch", NCOND e COND indicam respecivamente Condigbes exclusivas e necessarias. PREPO é uma caracteristica estrutural +c obedecendo ao principio de minima informagio, ou scja, apenas informagio respeitante as diferengas entre as duas linguas é 14 armazenada, deixando a caracterizagao quer do inglés quer do portugués para 0s dicionarios de cada uma destas linguas Este € um ponto crucial para o desenvolvimento de um dicionirio que € 0 médulo mais, trabalhoso de todo o sistema, j4 que tem de acomodar, para cada palavra inglesa, as varias, tradugdes, © para cada uma, as suas condicdes de sclecgdo ¢ as alteragdes estruturais, contrastivas que tais tradugdes implicam (por exemplo, alteragao da estrutura de argumentos de um verbo / nome / adjectivo, palavras que sio omitidas, etc.). ‘Nota: £ importante indicar que, para a criagio de uma estrutura portuguesa correcta, é necesstiria muito mais informacio sobre as palavras portuguesas, como por exemplo, verbo reflexo, conjungio pedindo modo conjuntivo, etc. Ou seja, fazemos uso de um dicionério com caracterizag‘es sinticticas para 0 portugués (depois de utilizar 0 diciondrio bilingue), de forma a produzir a estrutura desejada. As vantagens de tal separacdo sio evidentes, mesmo considerando apenas a utilizagao deste segundo Gicionirio no sistema de tradugio: toda a informagio associada a uma palavra portuguesa encontra-se apenas descrita uma vez (sob uma palavra) e nao tantas vezes quantas esta for considerada tradugio possivel de palavras inglesas. © Finalmente, € relacionado com o dicionirio bilingue, consideramos (¢ implementimos) a hipdtese de seleccionar tradugdes complexas (ou seja, de mais de uma palavra, ou com diferente parte de oragio). Recorrendo a uma gramitica do portugues, essa expressio € por sua vez analisada € a estrutura correspondente calculada, ¢ encaixada ento na estrutura global proveniente do inglés. Sobre este ponto, veja-se ainda (9},(10] e [II]. Fendmenos linguisticos Podemos afirmar que cobrimos a maior parte das estruturas sintacticas calculadas por PEG. Em vez de uma descripio exaustiva dessas estruturas (para uma primeira lista, veja-se [7]) exemplificaremos apenas algumas manipulagées complexas, tais como: © alteragio de adjectivos para oragGes relativas I like talking parrots. Gosto de papagaios que falam. © alteragdo de oragdes infinitivas para oragdes integrantes I want them to be happy. Quero que eles sejam felizes. © alteragdes de voz ‘They were supposed to come yesterday. Supds-se que eles vinham ontem. termos de transferéncia de tempos, também obtivemos uma primeira cobertura que permite roduzir todos os tempos verbais portugueses, ¢ que se encontra documentada em [4] Para a transferéncia Iéxica,fizemos uso dos seguintes tipos de informagio: © contexto sintictico (existéncia de argumentos, negagio, tipo de frase); * caracteristicas “universais” dos argumentos dos verbos; © caracteristicas “universais” dos nomes para os adjectivos que os modificam. ‘inalmente, no médulo da geraglo, tratimos, entre outros, dos seguintes pontos: * posigio dos eliticos e sua correcta hifenagao He won't give it to me, and I'll kill him. Ele nao mo dara, e mata-lo-ei. * listo dos pronomes pessoais sujeito sempre que nao dé origem a ambiguidades. he came but he was tired. ele veio mas estava cansado. ‘© conjugagio na forma reflexa He himself forgot her hirthday. Ele préprio se esqueceu do aniversario dela. Consideragées praticas Existem dois pontos de indole menos teérica (mas, em nossa opinido, de importincia extrema) sobre os quais produzimos algum trabalho: * Metodologia de construgio do dicionario © Avaliagao da tradugo produzida Criagio de um dicionario Nao existem no mercado dicionarios-maquina de inglés-portugués. Aqueles que existem em papel, Por outro lado, ndo foram de forma alguma desenhados para serem utilizados por um sistema automitico, nem obedecem, geralmente, a critérios uniformes e rigorosos na sua concepeao Assim, a distingao entre os virios sentidos de uma dada palavra nfo € clara, nem € evidentemente possivel la encontrar as condigdes em que cada uma das tradugdes pode ou deve ser escolhida. Além disso, por vezes as tradugdes mais comuns faltam, assim como a terminologia técnica cespecializada. ‘Tais razdes fazem com que seja impossivel automatizar a eriagio de um dicionario para tradugio automatica a partir de um dicionario bilingue, mesmo que este ja se encontre acessivel num computador. Por outro lado, a construgao de um diciondrio é uma tarefa gigantesca, que, como tal, tem de ser gosto de criangas . Por lotes (em “batch”) I miss you . sinto a tua falta . She was missed by him . > foi sentida a falta dela por ele . I ‘11 always miss people i like . ===> sentirei sempre a falta de pessoas de quem gosto . I miss the man who was here . ===> sinto a falta do homem que esteve aqui . he was missed , but who missed her ? foi sentida a falta dele , mas quem é que sentiu a falta dela ? he was the one who most missed his father . > ele foi o que sentiu mais a falta do seu pai . they were the ones who were least missed . ==> eles foram os de quem se sentiu menos a falta . I miss having you in the neighborhood . ===> sinto a falta de te ter na vizinhanga . De texto para texto This text was prepared to present the capabilities of the PORTUGA system. It was written by its authors in order to show some ways of translating into portuguese some test sentences that were input tit Many people think this task is impossible to accomplish, but we're happy with our work. Though the system was originally conceived to translate technical documentation, translating informal sentences fas been its main use. We give some examples we particularly like in the next lines. 1. Why did you give it to her? 2. badly miss him and she has been missed by everyone. 3. If he were an engineer, he would build no castles. 4. A friend of mine is interesting like that. Este texto foi preparado para apresentar as capacidades do sistema PORTUGA. Foi escrito pelos seus autores para mostrar algumas maneiras de traduzir para portugués algumas frases de teste que Ihe foram introduzidas, ‘Muitas pessoas pensam que esta tarefa é impossivel de realizar, mas estamos contentes com 0 nosso ‘rubalho. Embora o sistema tenha sido originalmente concebido para traduzir documentagio técnica, traduzir frases informais foi o seu uso principal Damos alguns exemplos de que gostamos especificamente nas linhas seguintes. 1. Porque é que Iho deste? 2. Sinto imenso a falta dele ¢ tem sido sentida a falta dela por todos. 3. Se ele fosse engenheiro, ele no construia castelos. 4. Um amigo do meu é interessante como isso. Agradecimentos Gostava de agradecer a todos os membros do Grupo que tomaram este artigo possivel, pela sua articipagio neste projecto: Paulo Libano Monteiro, Regina Reis, Ana Ferreira dos Santos, Nuno Alves dos Santos, Fatima Pedroso, José Carlos Medeiros, Anténio Colago, Dalila Rosales, José Campos de Azevedo, Filomena Galvao, Maria Eduarda Costa, Virgilio Fragoso, Paulo Femandes, Joao Cabeleira, Jorue Sietra, Jilio Rodrigues e Rui Marques. Bibliografia if RI 2) (4) 13] (6) 7) [8] (9) Berghorh, C. 1985 “REXPLI - An Interface between REXX and PL/I", IBM Poughkeepsie. Heidorn, George E. 1972 “Natural Language Inputs to a Simulation Programming System’, ‘Technical Report NPS-SSHD72101A, Naval Postgraduate Schoo], Monterey, CA. Jensen, Karen. 1986 "PEG 1986: A Broad-coverage Computational Syntax of English", IBM Rescarch Report RC draft, Feb 1986, T.J.Watson Research Center, Yorktown Heights, NY 10598, Reis, Regina. 1989 “Tense transfer in PORTUGA*, Documentagao do Grupo Cienifico IBM-INESC, 1989. Reis, Regina. 1989 "New bilingual dictionary’, em Documentagdo do Grupo Cientifico IBM-INESC, 1989. Richardson, Stephen D. 1980 “A High-Level Transfer Language for the BYU-TSI Interactive ‘Translation System’, M.A. Thesis, Brigham Young University Santos, Diana. 1988 “A fase de transferéncia de um sistema de tradugio automitica do inglés para o portugues", Tese de Mestrado, Instituto Superior Técnico, Universidade Técnica de Lisboa. Santos, Diana. 1988 “An MT prototype from English to Portuguese", Proceedings of the IBM Conference on Natural Language Processing, October 24-26, 1988 , Thomwood, NY. Santos, Diana. 1989 “MENTORS8/P - A brief overview", em Documentagdo do Grupo Cientifico IBM-INESC, 1989. [10] Santos, Diana ¢ Regina Reis. 1989 “On machine translation from English to Portuguese”, em Documentacao do Grupo Cientifico [BM-INESC, 1989. [11] Santos, Diana, 1989 “Lexical gaps and idioms in machine translation” [12] Porngués Fundamental, volume 1, tomo 1, Instituto Nacional de Investigagio Cientifica, Centro de Linguistica da Universidade de Lisboa, Lisbon, 1984,

You might also like