Professional Documents
Culture Documents
Apertium - Guia D'usuari PDF
Apertium - Guia D'usuari PDF
edu
20.05.2010
Introducci ................................................................................................................3
2
Introducci
L'Apertium s un motor de traducci automtica de codi obert desenvolupat per l'empresa Prompsit
(http://www.prompsit.com) i millorat per la Universitat Oberta de Catalunya (http://www.uoc.edu).
Aquest motor permet fer traduccions del catal al castell, a l'angls o al francs i viceversa. Les opcions
de traducci sn diverses i es poden traduir textos escrits directament a la finestra de la interfcie del
traductor, documents en mltiples formats, pgines web, fitxers html i fitxers comprimits, etc.
La versi actual d'aquest motor de traducci es va presentar a la UOC el desembre del 2009. Des
d'aleshores, hem rebut suggeriments, idees i correccions per part de la comunitat universitria que ens
han ajudat a millorar-lo.
Cal remarcar que el document que surt del motor de traducci en qualsevol de les llenges que ofereix s
un esborrany i que cal, imprescindiblement, fer una revisi acurada i extensa del document final per a
enviar als estudiants o per a publicar.
Esperem que aquesta eina lingstica sigui til i efica per a les tasques de l'activitat docent i acadmica
de la comunitat universitria i del pblic en general en qu la comunicaci presencial i no presencial
genera documentaci que cal elaborar i editar amb la mxima qualitat.
1. Observacions generals
L'Apertium (http://apertium.uoc.edu) s un motor de traducci de codi obert, de manera que pot ser
utilitzat, copiat, estudiat, modificat i redistribut per qualsevol usuari que aix ho vulgui. En aquest apartat
introdum molt breument quin s el funcionament general del motor, les consideracions que cal tenir en
compte a l'hora de treballar en traducci automtica i algunes recomanacions generals per a un bon s i
funcionament de l'eina.
La plataforma de traducci automtica de codi obert Apertium funciona amb un motor de traducci en
alguns parells de llenges com ara catal<>castell, catal/espanyol<>angls/francs.
Apertium fa servir un motor de traducci de transferncia sintctica que processa el text d'entrada en
etapes, com en una cadena de muntatge: desformatatge, anlisi morfolgica, desambiguaci de
categories gramaticals, transferncia estructural (que considera oracions en comptes de paraules),
transferncia lxica, generaci morfolgica i reformatatge.
La traducci automtica consisteix en l'obtenci d'un text en una llengua de destinaci equivalent i que
preservi el contingut d'un text en una llengua d'origen.
La cincia actual no s capa d'expressar de manera formal, mitjanant regles, tots els mecanismes que
sn subjacents al llenguatge natural ni als processos mentals involucrats en la comunicaci. Aquesta
impossibilitat per a obtenir una caracteritzaci precisa s un dels principals arguments que es poden
3
donar per a explicar la complexitat d'escriure un programa d'ordinador que tradueixi textos.
La traducci automtica continua essent un problema difcil de resoldre. El problema es redueix
considerablement quan les llenges implicades en la traducci estan emparentades, com ara el catal i
l'espanyol o el catal i el francs. En aquest cas, les afinitats morfolgiques, sintctiques i semntiques
simplifiquen el disseny d'aquests sistemes i permeten arribar fcilment a traduccions en les quals noms
una part relativament petita del text s incorrecta. En qualsevol cas, si es vol difondre el text, s'ha de fer
una revisi de la traducci lliurada pel sistema de traducci automtica.
El motor de traducci de la plataforma Apertium s de codi obert. Aix vol dir que pot ser utilitzat,
copiats, estudiats, modificats i redistributs amb l'nica restricci que el codi font ha d'estar sempre
disponible. Per descomptat, Apertium va acompanyat d'una llicncia compatible amb aquests principis, la
Llicncia Pblica General (GPL, General Public License). El motor de traducci d'Apertium, les eines
auxiliars, la documentaci corresponent i la majoria de les dades lingstiques desenvolupades fins avui
per Apertium es poden baixar des del web http://apertium.sourceforge.net.
Per a obtenir una bona traducci s recomanable fer els passos segents:
Escriure o copiar i enganxar textos i documents que siguin ortogrficament i sintcticament ben
escrits.
Redactar textos amb oracions simples, el sistema de traducci funcionar millor que amb oracions
molt complexes.
Comprovar les errades sistemtiques per a unificar la correcci del text.
Revisar sempre el text resultant abans de publicar-lo o difondre'l, ats que el resultat de la
traducci automtica es considera un esborrany.
4
2. Opcions disponibles
En aquest apartat descrivim les sis opcions de traducci i les funcions que actualment hi ha disponibles
en el motor.
La primera opci s la de traducci de textos curts (Figura 1), que es recomana quan l'objectiu s la
traducci d'oracions o paraules soltes. S'han de fer les accions segents:
Escriure o copiar i enganxar el text a la caixa de text original que apareix a la pantalla.
Seleccionar la direcci de la traducci que voleu obtenir: llengua origenllengua destinaci.
Podeu seleccionar una de les direccions segents:
catal espanyol
espanyol catal
catal angls
angls catal
catal francs
francs catal
5
Triar el tipus de sortida que voleu veure:
a) Text net mostra el text tradut pel sistema sense cap marca.
b) Colors mostra les paraules desconegudes amb marques (dos asteriscos de color vermell) o
diverses accepcions d'una paraula (separades per una barra vertical verda i entre claus).
La traducci resultant apareixer en una caixa de text tradut segons les opcions que s'hagin triat.
La segona opci s la traducci de documents (Figura 2). Es poden traduir documents en diversos
formats. S'han de fer les accions segents:
Cercar amb Examinar... el document que voleu traduir.
Seleccionar el tipus de document. s imprescindible que es desi el document que heu de traduir
en el format que heu triat. A la Taula 1 es presenta un quadre amb els formats possibles i el seu
significat:
6
Nom del format Descripci
Text Text planer codificat en ISO-8859-1/15 o UTF-8
RTF Rich Text Format, un dels formats del processador de textos Word de Microsoft
Office
Triar el tipus de sortida que voleu veure, igual que a l'opci de traducci de textos curts:
a) Text net mostra el text tradut pel sistema sense cap marca
b) Colors mostra les paraules desconegudes amb marques (dos asteriscos de color vermell) o
diverses accepcions d'una paraula (separades per una barra vertical verda i entre claus).
Prmer el bot Tradueix.
Com es pot veure a la Figura 3, el document que cont el resultat de la traducci automtica apareix en
una finestra perqu el pugueu baixar amb un nom anleg al del document original, amb la notaci del
sentit de traducci triat incorporada. Tamb apareix el nombre de paraules del document original que
s'han tradut.
7
Figura 3. Resultat de la traducci de documents
Amb aquesta opci es poden traduir pgines dinternet (Figura 4). S'han de fer les accions segents:
Escriure o copiar i enganxar la URL en la caixa de text. Cal comprovar que la URL s correcta i no
s una redirecci a una altra pgina. Per a comprovar-ho, heu d'enganxar la URL completa que hi
ha a la barra del navegador quan entreu a la pgina que voleu traduir.
Seleccionar correctament el sentit de la traducci que voleu al men del cant superior de la
dreta (llengua origen llengua destinaci). Podeu seleccionar una de les direccions segents:
8
catal espanyol
espanyol catal
catal angls
angls catal
catal francs
francs catal
La traducci resultant apareixer en una finestra de navegador nova segons les opcions que hagueu triat
i amb un enlla, a la part superior, que portar a la pgina original.
Aquesta opci permet traduir HTML, corregeix algunes errades del codi i deixa introduir modificacions de
manera automtica en alguns atributs propis de l'HTML si l'usuari ho vol (Figura 5). S'han de fer les
accions segents:
Cercar amb Examinar.... el document que voleu traduir.
Especificar el tipus de document. Compte! s imprescindible que el document que heu de
9
traduir sigui desat en el format que s'ha triat. Els formats que es poden traduir sn .html i .xhtml.
Triar el tipus de sortida que voleu veure:
a) Text net mostra el text tradut pel sistema sense cap marca.
b) Colors mostra les paraules desconegudes amb marques (dos asteriscos de color vermell) o
diverses accepcions d'una paraula (separades per una barra vertical verda i entre claus).
Triar la codificaci del document. Normalment l'haureu de deixar en Automtica, encara que, si
detecteu errades en alguns carcters, pot ser til triar UTF-8 o ISO-8859-1/15, segons sigui el
cas.
Seleccionar correctament la direcci de la traducci (llengua origen llengua destinaci). Podeu
seleccionar una de les direccions segents:
catal espanyol
espanyol catal
catal angls
angls catal
catal francs
francs catal
Corregir etiquetes HTML. Aquesta opci, activada per defecte, esmena automticament petites
errades de les etiquetes HTML del document original. Cal desactivar-la si no es vol la correcci de
les etiquetes.
Nova substituci, que serveix per a cercar i reemplaar cadenes en els atributs del codi HTML
seleccionats. Per a fer-la servir heu d'especificar, per a cada substituci, els elements segents.
a) Atribut. L'atribut en qu heu de fer la substituci. Pot tenir el valor 'Tots els atributs', que es
refereix a qualsevol atribut de codi HTML, o b un atribut especfic. A la Taula 2 es presenta un
quadre amb els atributs possibles i el seu significat:
Per exemple, si volem traduir la pgina d'inici de la UOC del catal al castell i volem que l'enlla en
10
catal (http://www.uoc.edu/portal/catala/index.html) se substitueixi per l'enlla de la pgina d'inici en
castell (http://www.uoc.edu/portal/castellano/index.html), farem:
L'opci Fitxers comprimits (Figura 6) permet traduir documents que estiguin en format comprimit (.zip
o altres). El resultat ser un fitxer tamb comprimit que contindr els documents traduts. S'han de
seguir les accions segents.
Cercar amb Examinar... el fitxer comprimit que voleu traduir.
Triar en el men desplegable el tipus de fitxer comprimit de l'original: .zip; .tgz; tar.gz; o tar.bz2.
Compte! s imprescindible que el fitxer comprimit que heu de traduir sigui desat en el format
triat.
Triar el tipus de sortida que voleu veure:
a) Text net mostra el text tradut pel sistema sense cap marca
b) Colors mostra les paraules desconegudes amb marques (dos asteriscos de color vermell) o
diverses accepcions d'una paraula (separades per una barra vertical verda i entre claus).
Seleccionar correctament la direcci de la traducci (llengua origen llengua destinaci). Podeu
seleccionar una de les direccions segents:
catal espanyol
espanyol catal
catal angls
11
angls catal
catal francs
francs catal
L'opci Creaci de TMX (Figura 7) permet generar un fitxer TMX per a crear una memria de traducci a
partir de dos textos: un original i un altre amb la traducci corresponent. La memria de traducci
resultant consistir en una srie de frases alineades: cada frase original anir associada a la seva
traducci corresponent. S'han de fer les accions segents:
Cercar amb Examinar... el document original que voleu traduir.
Cercar amb Examinar... el document tradut.
Triar amb el men desplegable el tipus de documents que voleu tractar. Compte! Els dos
documents han de ser del mateix format.
Text
RTF
ODT
HTML, XHTML
ODS
PPT
PPTX
DOC
DOCX
12
XLS
XLSX
De manera opcional, podeu afegir noves frases alineades a un TMX preexistent. s recomanable
desar el nou TMX amb un nom diferent per a evitar afegir frases que no hagin quedat ben
alineades.
Seleccionar correctament la direcci de la traducci (llengua origen llengua destinaci). Podeu
seleccionar una de les direccions segents:
catal espanyol
espanyol catal
catal angls
angls catal
catal francs
francs catal
13