You are on page 1of 13

http://apertium.uoc.

edu

Guia d's del servei de traducci


Versi 1.1

20.05.2010

Prompsit Language Engineering, SL


Contingut

Introducci ................................................................................................................3

1. Observacions generals .............................................................................................3


1.1. Motor de traducci ..........................................................................................3
1.2. Traducci automtica .......................................................................................3
1.3. Codi obert ......................................................................................................4
1.4. Recomanacions generals ..................................................................................4

2. Opcions disponibles .................................................................................................5


2.1. Opci Text ......................................................................................................5
2.2. Opci Documents ............................................................................................6
2.3. Opci Pgines web ..........................................................................................8
2.4. Opci HTML avanat ........................................................................................9
2.5. Opci Fitxers comprimits ................................................................................11
2.6. Opci Creaci de TMX ....................................................................................12

2
Introducci

L'Apertium s un motor de traducci automtica de codi obert desenvolupat per l'empresa Prompsit
(http://www.prompsit.com) i millorat per la Universitat Oberta de Catalunya (http://www.uoc.edu).
Aquest motor permet fer traduccions del catal al castell, a l'angls o al francs i viceversa. Les opcions
de traducci sn diverses i es poden traduir textos escrits directament a la finestra de la interfcie del
traductor, documents en mltiples formats, pgines web, fitxers html i fitxers comprimits, etc.
La versi actual d'aquest motor de traducci es va presentar a la UOC el desembre del 2009. Des
d'aleshores, hem rebut suggeriments, idees i correccions per part de la comunitat universitria que ens
han ajudat a millorar-lo.
Cal remarcar que el document que surt del motor de traducci en qualsevol de les llenges que ofereix s
un esborrany i que cal, imprescindiblement, fer una revisi acurada i extensa del document final per a
enviar als estudiants o per a publicar.
Esperem que aquesta eina lingstica sigui til i efica per a les tasques de l'activitat docent i acadmica
de la comunitat universitria i del pblic en general en qu la comunicaci presencial i no presencial
genera documentaci que cal elaborar i editar amb la mxima qualitat.

1. Observacions generals

L'Apertium (http://apertium.uoc.edu) s un motor de traducci de codi obert, de manera que pot ser
utilitzat, copiat, estudiat, modificat i redistribut per qualsevol usuari que aix ho vulgui. En aquest apartat
introdum molt breument quin s el funcionament general del motor, les consideracions que cal tenir en
compte a l'hora de treballar en traducci automtica i algunes recomanacions generals per a un bon s i
funcionament de l'eina.

1.1. Motor de traducci

La plataforma de traducci automtica de codi obert Apertium funciona amb un motor de traducci en
alguns parells de llenges com ara catal<>castell, catal/espanyol<>angls/francs.
Apertium fa servir un motor de traducci de transferncia sintctica que processa el text d'entrada en
etapes, com en una cadena de muntatge: desformatatge, anlisi morfolgica, desambiguaci de
categories gramaticals, transferncia estructural (que considera oracions en comptes de paraules),
transferncia lxica, generaci morfolgica i reformatatge.

1.2. Traducci automtica

La traducci automtica consisteix en l'obtenci d'un text en una llengua de destinaci equivalent i que
preservi el contingut d'un text en una llengua d'origen.
La cincia actual no s capa d'expressar de manera formal, mitjanant regles, tots els mecanismes que
sn subjacents al llenguatge natural ni als processos mentals involucrats en la comunicaci. Aquesta
impossibilitat per a obtenir una caracteritzaci precisa s un dels principals arguments que es poden

3
donar per a explicar la complexitat d'escriure un programa d'ordinador que tradueixi textos.
La traducci automtica continua essent un problema difcil de resoldre. El problema es redueix
considerablement quan les llenges implicades en la traducci estan emparentades, com ara el catal i
l'espanyol o el catal i el francs. En aquest cas, les afinitats morfolgiques, sintctiques i semntiques
simplifiquen el disseny d'aquests sistemes i permeten arribar fcilment a traduccions en les quals noms
una part relativament petita del text s incorrecta. En qualsevol cas, si es vol difondre el text, s'ha de fer
una revisi de la traducci lliurada pel sistema de traducci automtica.

1.3. Codi obert

El motor de traducci de la plataforma Apertium s de codi obert. Aix vol dir que pot ser utilitzat,
copiats, estudiats, modificats i redistributs amb l'nica restricci que el codi font ha d'estar sempre
disponible. Per descomptat, Apertium va acompanyat d'una llicncia compatible amb aquests principis, la
Llicncia Pblica General (GPL, General Public License). El motor de traducci d'Apertium, les eines
auxiliars, la documentaci corresponent i la majoria de les dades lingstiques desenvolupades fins avui
per Apertium es poden baixar des del web http://apertium.sourceforge.net.

1.4. Recomanacions generals

Per a obtenir una bona traducci s recomanable fer els passos segents:
Escriure o copiar i enganxar textos i documents que siguin ortogrficament i sintcticament ben
escrits.
Redactar textos amb oracions simples, el sistema de traducci funcionar millor que amb oracions
molt complexes.
Comprovar les errades sistemtiques per a unificar la correcci del text.
Revisar sempre el text resultant abans de publicar-lo o difondre'l, ats que el resultat de la
traducci automtica es considera un esborrany.

4
2. Opcions disponibles

En aquest apartat descrivim les sis opcions de traducci i les funcions que actualment hi ha disponibles
en el motor.

2.1. Opci Text

Figura 1. Captura de pantalla de traducci de textos curts

La primera opci s la de traducci de textos curts (Figura 1), que es recomana quan l'objectiu s la
traducci d'oracions o paraules soltes. S'han de fer les accions segents:
Escriure o copiar i enganxar el text a la caixa de text original que apareix a la pantalla.
Seleccionar la direcci de la traducci que voleu obtenir: llengua origenllengua destinaci.
Podeu seleccionar una de les direccions segents:
catal espanyol
espanyol catal
catal angls
angls catal
catal francs
francs catal

5
Triar el tipus de sortida que voleu veure:
a) Text net mostra el text tradut pel sistema sense cap marca.
b) Colors mostra les paraules desconegudes amb marques (dos asteriscos de color vermell) o
diverses accepcions d'una paraula (separades per una barra vertical verda i entre claus).

Sortida amb l'opci Text net:

Sortida amb l'opci Colors:

Prmer el bot Tradueix.

La traducci resultant apareixer en una caixa de text tradut segons les opcions que s'hagin triat.

2.2. Opci Documents

Figura 2. Captura de pantalla de traducci de documents

La segona opci s la traducci de documents (Figura 2). Es poden traduir documents en diversos
formats. S'han de fer les accions segents:
Cercar amb Examinar... el document que voleu traduir.
Seleccionar el tipus de document. s imprescindible que es desi el document que heu de traduir
en el format que heu triat. A la Taula 1 es presenta un quadre amb els formats possibles i el seu
significat:

6
Nom del format Descripci
Text Text planer codificat en ISO-8859-1/15 o UTF-8

HTML, XHTML Hypertext Markup Language i la seva versi en XML

RTF Rich Text Format, un dels formats del processador de textos Word de Microsoft
Office

ODT Open Document Text, format del processador de textos d'OpenOffice.org

ODS Open Document Spreadsheet, format del full de clcul d'OpenOffice.org

ODP Open Document Presentation, format de l'aplicaci Impress d'OpenOffice.org

PPT Document de PowerPoint de Microsoft Office 97 i posterior

PPTX Document de PowerPoint de Microsoft Office 2007 i posterior

DOC Document de Word de Microsoft Office 97 i posterior

DOCX Document de Word de Microsoft Office 2007 i posterior

XLS Document d'Excel de Microsoft Office 97 i posterior

XLSX Document d'Excel de Microsoft Office 2007 i posterior

Taula 1. Formats de documents possibles i significat

Seleccionar la direcci de la traducci que voleu obtenir: llengua origenllengua destinaci.


Podeu seleccionar una de les direccions segents:
catal espanyol
espanyol catal
catal angls
angls catal
catal francs
francs catal

Triar el tipus de sortida que voleu veure, igual que a l'opci de traducci de textos curts:
a) Text net mostra el text tradut pel sistema sense cap marca
b) Colors mostra les paraules desconegudes amb marques (dos asteriscos de color vermell) o
diverses accepcions d'una paraula (separades per una barra vertical verda i entre claus).
Prmer el bot Tradueix.

Com es pot veure a la Figura 3, el document que cont el resultat de la traducci automtica apareix en
una finestra perqu el pugueu baixar amb un nom anleg al del document original, amb la notaci del
sentit de traducci triat incorporada. Tamb apareix el nombre de paraules del document original que
s'han tradut.

7
Figura 3. Resultat de la traducci de documents

2.3. Opci Pgines web

Figura 4. Captura de pantalla de la traducci de pgines web

Amb aquesta opci es poden traduir pgines dinternet (Figura 4). S'han de fer les accions segents:
Escriure o copiar i enganxar la URL en la caixa de text. Cal comprovar que la URL s correcta i no
s una redirecci a una altra pgina. Per a comprovar-ho, heu d'enganxar la URL completa que hi
ha a la barra del navegador quan entreu a la pgina que voleu traduir.
Seleccionar correctament el sentit de la traducci que voleu al men del cant superior de la
dreta (llengua origen llengua destinaci). Podeu seleccionar una de les direccions segents:

8
catal espanyol
espanyol catal
catal angls
angls catal
catal francs
francs catal

Triar el tipus de sortida que voleu veure:


a) Text net mostra el text tradut pel sistema sense cap marca
b) Colors mostra les paraules desconegudes amb marques (dos asteriscos de color vermell) o
diverses accepcions d'una paraula (separades per una barra vertical verda i entre claus).
Triar la codificaci de carcters de la URL (UTF-8 o ISO-8859-15) que voleu traduir.
Prmer el bot Tradueix.

La traducci resultant apareixer en una finestra de navegador nova segons les opcions que hagueu triat
i amb un enlla, a la part superior, que portar a la pgina original.

2.4. Opci HTML avanat

Figura 5. Captura de pantalla de la traducci de codi HTML

Aquesta opci permet traduir HTML, corregeix algunes errades del codi i deixa introduir modificacions de
manera automtica en alguns atributs propis de l'HTML si l'usuari ho vol (Figura 5). S'han de fer les
accions segents:
Cercar amb Examinar.... el document que voleu traduir.
Especificar el tipus de document. Compte! s imprescindible que el document que heu de

9
traduir sigui desat en el format que s'ha triat. Els formats que es poden traduir sn .html i .xhtml.
Triar el tipus de sortida que voleu veure:
a) Text net mostra el text tradut pel sistema sense cap marca.
b) Colors mostra les paraules desconegudes amb marques (dos asteriscos de color vermell) o
diverses accepcions d'una paraula (separades per una barra vertical verda i entre claus).
Triar la codificaci del document. Normalment l'haureu de deixar en Automtica, encara que, si
detecteu errades en alguns carcters, pot ser til triar UTF-8 o ISO-8859-1/15, segons sigui el
cas.
Seleccionar correctament la direcci de la traducci (llengua origen llengua destinaci). Podeu
seleccionar una de les direccions segents:
catal espanyol
espanyol catal
catal angls
angls catal
catal francs
francs catal

Corregir etiquetes HTML. Aquesta opci, activada per defecte, esmena automticament petites
errades de les etiquetes HTML del document original. Cal desactivar-la si no es vol la correcci de
les etiquetes.
Nova substituci, que serveix per a cercar i reemplaar cadenes en els atributs del codi HTML
seleccionats. Per a fer-la servir heu d'especificar, per a cada substituci, els elements segents.
a) Atribut. L'atribut en qu heu de fer la substituci. Pot tenir el valor 'Tots els atributs', que es
refereix a qualsevol atribut de codi HTML, o b un atribut especfic. A la Taula 2 es presenta un
quadre amb els atributs possibles i el seu significat:

Etiqueta-atribut Descripci Exemple


a href Especifica la url d'un enlla a <a href="http://www.xtec.cat">XTEC</a>
una pgina web
applet codebase Indica la ruta del directori <applet codebase=./applets/>
d'una miniaplicaci (applet)
base href Permet que les imatges es <base href=http://www.infomatics.cat/imatges/>
carreguin de l'enlla esmentat
embed src Indica la ruta d'un fitxer de so <embed src=../sons/mutimedia.mid>
o vdeo
img src Indica la ruta de la imatge <img src="imatges/logotip.png" alt="Logotip pgina"/>
link href Indica la ruta d'on es troba el <link href="file2.html" rel="next">
document
object codebase Indica la ruta d'on es <applet codebase=./objectes/>
localitzen els objectes
script src Indica la ruta del fitxer script <script type="text/javascript" src=myscript.js></script>

Taula 2. Atributs possibles en la traducci de codi HTML i significat

b) Cercar la cadena. S'ha d'escriure la cadena de text que voleu cercar.


c) Reemplaar-la per. S'ha d'escriure el text que cal substituir.

Per exemple, si volem traduir la pgina d'inici de la UOC del catal al castell i volem que l'enlla en

10
catal (http://www.uoc.edu/portal/catala/index.html) se substitueixi per l'enlla de la pgina d'inici en
castell (http://www.uoc.edu/portal/castellano/index.html), farem:

Prmer el bot Tradueix.

2.5. Opci Fitxers comprimits

Figura 6. Captura de pantalla de la traducci de fitxers comprimits

L'opci Fitxers comprimits (Figura 6) permet traduir documents que estiguin en format comprimit (.zip
o altres). El resultat ser un fitxer tamb comprimit que contindr els documents traduts. S'han de
seguir les accions segents.
Cercar amb Examinar... el fitxer comprimit que voleu traduir.
Triar en el men desplegable el tipus de fitxer comprimit de l'original: .zip; .tgz; tar.gz; o tar.bz2.
Compte! s imprescindible que el fitxer comprimit que heu de traduir sigui desat en el format
triat.
Triar el tipus de sortida que voleu veure:
a) Text net mostra el text tradut pel sistema sense cap marca
b) Colors mostra les paraules desconegudes amb marques (dos asteriscos de color vermell) o
diverses accepcions d'una paraula (separades per una barra vertical verda i entre claus).
Seleccionar correctament la direcci de la traducci (llengua origen llengua destinaci). Podeu
seleccionar una de les direccions segents:
catal espanyol
espanyol catal
catal angls

11
angls catal
catal francs
francs catal

Prmer el bot Tradueix.

2.6. Opci Creaci de TMX

Figura 7. Captura de pantalla de creaci de TMX

L'opci Creaci de TMX (Figura 7) permet generar un fitxer TMX per a crear una memria de traducci a
partir de dos textos: un original i un altre amb la traducci corresponent. La memria de traducci
resultant consistir en una srie de frases alineades: cada frase original anir associada a la seva
traducci corresponent. S'han de fer les accions segents:
Cercar amb Examinar... el document original que voleu traduir.
Cercar amb Examinar... el document tradut.
Triar amb el men desplegable el tipus de documents que voleu tractar. Compte! Els dos
documents han de ser del mateix format.
Text
RTF
ODT
HTML, XHTML
ODS
PPT
PPTX
DOC
DOCX

12
XLS
XLSX

De manera opcional, podeu afegir noves frases alineades a un TMX preexistent. s recomanable
desar el nou TMX amb un nom diferent per a evitar afegir frases que no hagin quedat ben
alineades.
Seleccionar correctament la direcci de la traducci (llengua origen llengua destinaci). Podeu
seleccionar una de les direccions segents:
catal espanyol
espanyol catal
catal angls
angls catal
catal francs
francs catal

Prmer el bot Envia per a enviar la petici de construcci de la memria TMX.

13

You might also like