Professional Documents
Culture Documents
Usuoc
Usuoc
edu
20.05.2010
Contingut
Introducci ................................................................................................................3
1. Observacions generals .............................................................................................3
1.1. Motor de traducci ..........................................................................................3
1.2. Traducci automtica .......................................................................................3
1.3. Codi obert ......................................................................................................4
1.4. Recomanacions generals ..................................................................................4
2. Opcions disponibles .................................................................................................5
2.1. Opci Text ......................................................................................................5
2.2. Opci Documents ............................................................................................6
2.3. Opci Pgines web ..........................................................................................8
2.4. Opci HTML avanat ........................................................................................9
2.5. Opci Fitxers comprimits ................................................................................11
2.6. Opci Creaci de TMX ....................................................................................12
Introducci
L'Apertium s un motor de traducci automtica de codi obert desenvolupat per l'empresa Prompsit
(http://www.prompsit.com) i millorat per la Universitat Oberta de Catalunya (http://www.uoc.edu).
Aquest motor permet fer traduccions del catal al castell, a l'angls o al francs i viceversa. Les opcions
de traducci sn diverses i es poden traduir textos escrits directament a la finestra de la interfcie del
traductor, documents en mltiples formats, pgines web, fitxers html i fitxers comprimits, etc.
La versi actual d'aquest motor de traducci es va presentar a la UOC el desembre del 2009. Des
d'aleshores, hem rebut suggeriments, idees i correccions per part de la comunitat universitria que ens
han ajudat a millorar-lo.
Cal remarcar que el document que surt del motor de traducci en qualsevol de les llenges que ofereix s
un esborrany i que cal, imprescindiblement, fer una revisi acurada i extensa del document final per a
enviar als estudiants o per a publicar.
Esperem que aquesta eina lingstica sigui til i efica per a les tasques de l'activitat docent i acadmica
de la comunitat universitria i del pblic en general en qu la comunicaci presencial i no presencial
genera documentaci que cal elaborar i editar amb la mxima qualitat.
1. Observacions generals
L'Apertium (http://apertium.uoc.edu) s un motor de traducci de codi obert, de manera que pot ser
utilitzat, copiat, estudiat, modificat i redistribut per qualsevol usuari que aix ho vulgui. En aquest apartat
introdum molt breument quin s el funcionament general del motor, les consideracions que cal tenir en
compte a l'hora de treballar en traducci automtica i algunes recomanacions generals per a un bon s i
funcionament de l'eina.
La plataforma de traducci automtica de codi obert Apertium funciona amb un motor de traducci en
alguns parells de llenges com ara catal<>castell, catal/espanyol<>angls/francs.
Apertium fa servir un motor de traducci de transferncia sintctica que processa el text d'entrada en
etapes, com en una cadena de muntatge: desformatatge, anlisi morfolgica, desambiguaci de
categories gramaticals, transferncia estructural (que considera oracions en comptes de paraules),
transferncia lxica, generaci morfolgica i reformatatge.
La traducci automtica consisteix en l'obtenci d'un text en una llengua de destinaci equivalent i que
preservi el contingut d'un text en una llengua d'origen.
La cincia actual no s capa d'expressar de manera formal, mitjanant regles, tots els mecanismes que
sn subjacents al llenguatge natural ni als processos mentals involucrats en la comunicaci. Aquesta
impossibilitat per a obtenir una caracteritzaci precisa s un dels principals arguments que es poden
donar per a explicar la complexitat d'escriure un programa d'ordinador que tradueixi textos.
La traducci automtica continua essent un problema difcil de resoldre. El problema es redueix
considerablement quan les llenges implicades en la traducci estan emparentades, com ara el catal i
l'espanyol o el catal i el francs. En aquest cas, les afinitats morfolgiques, sintctiques i semntiques
simplifiquen el disseny d'aquests sistemes i permeten arribar fcilment a traduccions en les quals noms
una part relativament petita del text s incorrecta. En qualsevol cas, si es vol difondre el text, s'ha de fer
una revisi de la traducci lliurada pel sistema de traducci automtica.
El motor de traducci de la plataforma Apertium s de codi obert. Aix vol dir que pot ser utilitzat,
copiats, estudiats, modificats i redistributs amb l'nica restricci que el codi font ha d'estar sempre
disponible. Per descomptat, Apertium va acompanyat d'una llicncia compatible amb aquests principis, la
Llicncia Pblica General (GPL, General Public License). El motor de traducci d'Apertium, les eines
auxiliars, la documentaci corresponent i la majoria de les dades lingstiques desenvolupades fins avui
per Apertium es poden baixar des del web http://apertium.sourceforge.net.
Per a obtenir una bona traducci s recomanable fer els passos segents:
Escriure o copiar i enganxar textos i documents que siguin ortogrficament i sintcticament ben
escrits.
Redactar textos amb oracions simples, el sistema de traducci funcionar millor que amb oracions
molt complexes.
Revisar sempre el text resultant abans de publicar-lo o difondre'l, ats que el resultat de la
traducci automtica es considera un esborrany.
2. Opcions disponibles
En aquest apartat descrivim les sis opcions de traducci i les funcions que actualment hi ha disponibles
en el motor.
La primera opci s la de traducci de textos curts (Figura 1), que es recomana quan l'objectiu s la
traducci d'oracions o paraules soltes. S'han de fer les accions segents:
Escriure o copiar i enganxar el text a la caixa de text original que apareix a la pantalla.
La traducci resultant apareixer en una caixa de text tradut segons les opcions que s'hagin triat.
La segona opci s la traducci de documents (Figura 2). Es poden traduir documents en diversos
formats. S'han de fer les accions segents:
Seleccionar el tipus de document. s imprescindible que es desi el document que heu de traduir
en el format que heu triat. A la Taula 1 es presenta un quadre amb els formats possibles i el seu
significat:
Descripci
Text
HTML, XHTML
RTF
Rich Text Format, un dels formats del processador de textos Word de Microsoft
Office
ODT
ODS
ODP
PPT
PPTX
DOC
DOCX
XLS
XLSX
Triar el tipus de sortida que voleu veure, igual que a l'opci de traducci de textos curts:
a) Text net mostra el text tradut pel sistema sense cap marca
b) Colors mostra les paraules desconegudes amb marques (dos asteriscos de color vermell) o
diverses accepcions d'una paraula (separades per una barra vertical verda i entre claus).
Com es pot veure a la Figura 3, el document que cont el resultat de la traducci automtica apareix en
una finestra perqu el pugueu baixar amb un nom anleg al del document original, amb la notaci del
sentit de traducci triat incorporada. Tamb apareix el nombre de paraules del document original que
s'han tradut.
Amb aquesta opci es poden traduir pgines dinternet (Figura 4). S'han de fer les accions segents:
Escriure o copiar i enganxar la URL en la caixa de text. Cal comprovar que la URL s correcta i no
s una redirecci a una altra pgina. Per a comprovar-ho, heu d'enganxar la URL completa que hi
ha a la barra del navegador quan entreu a la pgina que voleu traduir.
Seleccionar correctament el sentit de la traducci que voleu al men del cant superior de la
dreta (llengua origen llengua destinaci). Podeu seleccionar una de les direccions segents:
catal espanyol
espanyol catal
catal angls
angls catal
catal francs
francs catal
La traducci resultant apareixer en una finestra de navegador nova segons les opcions que hagueu triat
i amb un enlla, a la part superior, que portar a la pgina original.
Aquesta opci permet traduir HTML, corregeix algunes errades del codi i deixa introduir modificacions de
manera automtica en alguns atributs propis de l'HTML si l'usuari ho vol (Figura 5). S'han de fer les
accions segents:
traduir sigui desat en el format que s'ha triat. Els formats que es poden traduir sn .html i .xhtml.
Triar la codificaci del document. Normalment l'haureu de deixar en Automtica, encara que, si
detecteu errades en alguns carcters, pot ser til triar UTF-8 o ISO-8859-1/15, segons sigui el
cas.
Corregir etiquetes HTML. Aquesta opci, activada per defecte, esmena automticament petites
errades de les etiquetes HTML del document original. Cal desactivar-la si no es vol la correcci de
les etiquetes.
Nova substituci, que serveix per a cercar i reemplaar cadenes en els atributs del codi HTML
seleccionats. Per a fer-la servir heu d'especificar, per a cada substituci, els elements segents.
a) Atribut. L'atribut en qu heu de fer la substituci. Pot tenir el valor 'Tots els atributs', que es
refereix a qualsevol atribut de codi HTML, o b un atribut especfic. A la Taula 2 es presenta un
quadre amb els atributs possibles i el seu significat:
Etiqueta-atribut
Descripci
Exemple
a href
applet codebase
base href
embed src
img src
link href
object codebase
Indica
la
ruta
d'on
localitzen els objectes
script src
es <applet codebase=./objectes/>
<script type="text/javascript" src=myscript.js></script>
Per exemple, si volem traduir la pgina d'inici de la UOC del catal al castell i volem que l'enlla en
10
L'opci Fitxers comprimits (Figura 6) permet traduir documents que estiguin en format comprimit (.zip
o altres). El resultat ser un fitxer tamb comprimit que contindr els documents traduts. S'han de
seguir les accions segents.
Triar en el men desplegable el tipus de fitxer comprimit de l'original: .zip; .tgz; tar.gz; o tar.bz2.
Compte! s imprescindible que el fitxer comprimit que heu de traduir sigui desat en el format
triat.
angls catal
catal francs
francs catal
L'opci Creaci de TMX (Figura 7) permet generar un fitxer TMX per a crear una memria de traducci a
partir de dos textos: un original i un altre amb la traducci corresponent. La memria de traducci
resultant consistir en una srie de frases alineades: cada frase original anir associada a la seva
traducci corresponent. S'han de fer les accions segents:
Triar amb el men desplegable el tipus de documents que voleu tractar. Compte! Els dos
documents han de ser del mateix format.
Text
RTF
ODT
HTML, XHTML
ODS
PPT
PPTX
DOC
DOCX
12
XLS
XLSX
De manera opcional, podeu afegir noves frases alineades a un TMX preexistent. s recomanable
desar el nou TMX amb un nom diferent per a evitar afegir frases que no hagin quedat ben
alineades.
13