You are on page 1of 19

Revista. Investig. (Esc.

Post Grado) V 5, N3, 2009


Presentado: 15/10/2013
ISSN 1997- 4035
Aceptado: 20/05/2014
ISSN 2077- 8686
Depsito legal 2010-06800
Instituto de Investigacin de la Escuela de Post Grado -Universidad Nacional del Altiplano Puno-Per

TRADUCTOR AUTOMTICO EN LINEA DEL ESPAOL A QUECHUA, BASADO


EN LA PLATAFORMA LIBRE Y CDIGO ABIERTO APERTIUM
AUTOMATIC TRANSLATOR IN LINE SPANISH A QUECHUA, BASED ON FREE
AND OPEN SOURCE PLATFORM APERTIUM
Hugo David Caldern1, Vilca Csar David Mamani Caldern2, Flor Cagniy Crdenas Mario3 &
Edwin Fredy Mamani Caldern4
1Universidad

Nacional Micaela Bastidas de Apurmac. C.E. hdcalderon@gmail.com


Superior de Formacin Artstica de Puno. C.E.cesardavid23@gmail.com
3Universidad Nacional Micaela Bastidas de Apurmac. C.E.clavelyfcm@gmail.com
4Universidad Nacional del Altiplano Puno. C.E. mcedwin@gmail.com
2Escuela

RESUMEN
Apertium es una plataforma de traduccin automtica libre y de cdigo abierto que ha sido creado
inicialmente para traducciones entre lenguas emparentadas, sin embargo por su evolucin permite crear
pares de lenguas divergentes. El objetivo del estudio fue la comparacin traductora entre una lengua
nativa aglutinante e idioma flexivo. La medicin de la calidad del traductor automtico fue entre espaol
y quechua mediante el mtodo Word Error Rate. La implementacin del traductor automtico
correspondi al Quechua del Este de Apurmac. El estudio se realiz durante el ao 2013 en la Regin
Apurmac-Per. Las etapas en la traduccin correspondieron a: incubacin del sistema traductor
automtico, creacin del diccionario monolinge quechua y reutilizacin del diccionario monolinge
espaol, creacin del diccionario bilinge y creacin de las reglas de transferencia estructural. El
resultado del sistema de traduccin automtica presenta, ms de 4000 palabras races, 5000 traducciones
de palabras races entre espaol y quechua, reglas de transferencia estructural de quechua a espaol y
reglas de transferencia estructural de espaol a quechua implementadas. Finalmente, la calidad del
traductor automtico aplicando el mtodo WER, present un promedio de error de calidad de traduccin
de quechua a espaol de 19,48 y calidad de traduccin de espaol a quechua con error de 24,19.
Palabras claves: Apertium, espaol, quechua, software libre, traductor automtico, traduccin
automtica.
ABSTRACT
Apertium is a translation automatic platform free and open code that has been initially created for
translations between related languages; however its evolution creates pairs from divergent language. The
aim of the study was the compared translation between a binder translator native language and
inflectional language. The quality measurement translator was between Spanish and Quechua using the
Word Error Rate method. The implementation of automatic translation corresponded to East Apurimac
Quechua. The study was conducted during 2013 in the Apurimac Region, Peru. The stages in the
translation corresponded to: incubation of the machine translator, creation of Quechua monolingual
dictionary and to reuse a Spanish monolingual dictionary, creation of a bilingual dictionary and creation
of structural transfer rules system. The result of automatic translation system has more than 4,000 root
words, 5000 translations of root words between Spanish and Quechua, structural transfer rules from
Quechua to Spanish and structural transfer rules from Spanish to Quechua were implemented. Finally, the
quality of the automatic translator using the WER method had an error average of 19.48 translating from
Spanish to Quechua and 24.19 of average error translating from Spanish to Quechau. .
Keywords: Apertium, Spanish, Quechua, free software, automatic translation, machine translation.

81

H. CALDERON, C. MAMANI, F. CARDENAS y E. MAMANI


Revista. Investig. (Esc. Post Grado) V 5, N3

desarrollo

INTRODUCCION

de

sistemas

de

automtica", presenta que


El contexto actual es un mundo globalizado

de

traductores automticos como aplicacin

en

que,

espaol,

la

calidad

de

oficial de Apertium.

traduccin

(Rios , 2011), afirma que los mtodos de


correccin de ortografa desarrollada para

Error Rate).

idiomas como el ingls por lo general

El traductor automtico entre espaol y


aportar

beneficiar
profesionales

portugus

disponibles para su descarga en su sitio

quechua

automtica con el mtodo WER (Word

quechua

gallegoespaol,

los datos para estos pares de lenguas estn

investigacin se implementa el traductor

midiendo

que

que se integra el motor de traduccin como

lenguas minoritarias. Por lo que en esta

programas

occitanocataln. Tanto la plataforma en la

traduccin automtica que incluyan a las

espaol

los

espaol, francscataln, inglscataln y

un vaco la creacin de sistemas de

entre

de

para la traduccin automtica cataln

lenguas

minoritarias como el quechua, por lo que es

automtico

adems

confeccionado datos lingsticos abiertos

como los traductores automticos poco


las

la

conforman el motor de traduccin, se han

natural a otro. Sin embargo, dichos avances

en

de

universidades y empresas de Espaa en los

traduccin de textos o habla de un lenguaje

todava

Transducens

varios proyectos de colaboracin con

la

interaccin de culturas permitiendo la

trascienden

investigacin

Universidad de Alicante en el marco de

del procesamiento de lenguaje natural han


significativamente

la plataforma

Apertium ha sido desarrollada por el grupo

de mltiples culturas e idiomas, donde los

aportado

traduccin

a
e

la

los

dependen de una lista completa de formas

educacin,

de las palabras completas, el requisito de

estudiantes,

investigadores

que no pueden ser satisfechas por idiomas

de

morfolgicamente

complejas.

Como

lenguas, quienes tendrn la posibilidad

resultado describe la implementacin de un

de traducir en lnea textos del idioma

corrector ortogrfico con mtodos de

espaol a la lengua quechua y de la

estados finitos para la lengua aglutinante

lengua quechua al idioma espaol. As

quechua.

mismo con el traductor automtico se

Asimismo

2009),

sintctica, y demuestran cmo se alinean la

(Armentano et al ., 2007) sostienen en su


"Apertium,

Ghring,

quechua y su anotacin morfolgica y

textos entre el par de lenguas.


sobre

&

describen las caractersticas de la lengua

acortar la brecha de incomprensin de

investigacin

(Rios

lengua quechua con el idioma espaol

una

mediante su anlisis morfolgico.

plataforma de cdigo abierto para el

82

TRADUCTOR AUTOMTICO EN LINEA DEL ESPAOL A QUECHUA


Enero - Junio 2009
Por otro lado (Rios,
2009),
paralelos

Ghring & Volk ,

experimentaron
entre

los

cdigo propio de acuerdo al ISO 639-3

alineamientos

idiomas

dada por SIL International, de los cuales 32

Alemn,

variantes

de

quechua

se

encuentran

Espaol y la lengua quechua, midiendo la

relacionadas con Per, Quechua del Este de

calidad de alineamiento y comparando los

Apurmac (qve) es una de las variantes

resultados, utiliza las herramientas GIZA++

(SIL, 2013).

de

en

El idioma espaol es una lengua flexiva de

los

tipo fusionante, hablado en diferentes pases

resultados que espaol y quechua no se

con ms de 400000,000 hablantes de

alinean para este mtodo de traduccin,

acuerdo al SIL International, pertenece a las

mientras que espaol y alemn tienen un

familias

mejor alineamiento.(Rataj , 2005), habla

occidental, con cdigo ES de acuerdo ISO

acerca la influencia del quechua en el

639-1 y

espaol andino, donde detecta fenmenos

segunda lengua del mundo por el nmero

ajenos al espaol general y peculiares del

de personas que tienen como lengua (Sil,

espaol andino, dice se dan tanto en el

2013).

traduccin

mtodos

automtica

estadsticos,

basados

llegando

plano fontico e incluso fonolgico, como

indoeuropeo, itlico e iberoSPA de acuerdo ISO 639-3

Las aplicaciones de procesamiento de

en la morfologa y sintaxis, ms tarde Rataj

lenguaje natural son: Sntesis del discurso,

implement un traductor automtica en un

anlisis del lenguaje, Comprensin del

sola direccin quechua espaol, tomando

lenguaje, reconocimiento del habla, sntesis

quechua de Cusco (quz), sistema en

de voz, Generacin de lenguajes naturales,

construccin. Adems, (Tyers et. al .,

traduccin automtica, recuperacin de la

2010), refieren que los recursos disponibles

informacin,

dentro de la plataforma que toman estados

dictado

automtico.

Asimismo, existen mltiples aplicaciones el

finitos para el anlisis morfolgico y la

Procesamiento

generacin de palabras.

contempla

Quechua tambin denominada quichua es

del

Lenguaje

Natural

como:

Anlisis

elementos

morfolgico, anlisis sintctico, anlisis

una familia de lenguas originaria de los

semntico y anlisis pragmtico (Nils,

Andes Centrales que se extiende por la

2004).

parte occidental de Sudamrica. Es una


macro lengua con una poblacin hablante

La

de ms de 9'000,000 distribuidos en los

considerada

pases Per, Argentina, Ecuador, Chile y

inteligencia artificial (IA), como todos los

Bolivia, es lengua co-oficial en Per (SIL,

campos dentro de la IA, se ocupa de la

2013). Quechua como macro lengua se

investigacin y sistematizacin de una

clasifica en 44 lenguas diferentes con

capacidad cognitiva. En el caso de la

83

lingstica
como

computacional
una

rama

est
de

la

H. CALDERON, C. MAMANI, F. CARDENAS y E. MAMANI


Revista. Investig. (Esc. Post Grado) V 5, N3

lingstica

computacional,

objetivo

de alto nivel para especificar lexicones y

central es la capacidad lingstica. Sin

TWOLC lenguaje de alto nivel para escribir

embargo,

reglas de fonologa y morfologas (Kenneth,

su

el

preocupacin

necesariamente

construir

psicolgicamente

no

es

un

modelo

realista

del

2002).
Apertium es una plataforma de traduccin

comportamiento lingstico humano; sino

automtica de cdigo abierto desarrollado

es identificar y caracterizar las clases de

por un grupo de investigadores de la

procesos y los tipos de conocimiento que

Universidad de Alicante Espaa, basado en

estn implicados en la habilidad de

reglas, cuya arquitectura usa transductores

comunicar y asimilar informacin pormedio


del

lenguaje

natural,

sin

tomar

de estados finitos para el procesamiento

en

lxico, modelos ocultos de Markov para la

consideracin su status psicolgico. Una de


las

contribuciones

de

la

desambiguacin lxica y procesamiento de

lingstica

patrones basado en estados finitos para la

computacional consiste en un conjunto de

transferencia estructural. Actualmente esta

tcnicas que capacitan al conocimiento

plataforma de traduccin automtica por

lingstico para guiar y constreir el

transferencia ha permitido implementar y

procesamiento lingstico realizado por un

poner en marcha a ms de 35 pares de

sistema de procesamiento del lenguaje

lenguas como sistemas de traduccin

natural (Halvorsen, 1991).

automtica (Armentano et al., 2007).

La traduccin automtica, es una aplicacin


de procesamiento de lenguaje natural,
tambin considerada como rea de la
lingstica computacional que investiga el
uso de software para traducir texto o habla
de un lenguaje natural a otro. El traductor
automtico debe analizar el texto original,
interrelacionar con la situacin referida y
como resultado debe encontrar el texto
correspondiente en el lenguaje destino
(Rusell, 2004).
HFST

(Helsinki

FiniteFigura 1. Mdulos del sistema de traduccin

StateTransducerToolkit) es software libre y

Automtica de Apertium
Fuente: Armentano et al (2007).

de cdigo abierto como herramienta para


anlisis

morfolgico,

desarrollado

por

Xerox finite-state, incluye LEXC lenguaje

84

TRADUCTOR AUTOMTICO EN LINEA DEL ESPAOL A QUECHUA


Enero - Junio 2009
Descripcin de los mdulos del sistema de

invocado

traduccin automtica de Apertium segn

transferencia

Armentano et al (2007):

forma lxica (FL) en lengua origen

blanco <b></b>.

cada

El

mdulo

de

transferencia

estructural.-Detecta y trata patrones de


palabras (sintagmas) que exigen un

El analizador morfolgic.-Segmenta el

tratamiento especial por causa de las

texto en formas superficiales (FS) (las

divergencias gramaticales entre las

unidades lxicas tal como se presentan


en los textos) y entrega para cada FS
una o ms formas lxicas (FL)

entre

como:

gnero,

nmero,

cambios

de

reordenamientos,

preposicionales

etc.

La

sus tres niveles: chunker, interchunk y

verbo,

otros)

tales

transferencia estructural se aplica en

usada en los diccionarios clsicos), la


(nombre,

lenguas
cambios

consistentes en un lema (forma base

postchunk.

la

informacin de flexin morfolgica

El generador morfolgico.- Genera a

(nmero, gnero, persona, tiempo,

partir de la forma lxica en lengua

entre otros).Las unidades lxicas de

meta una forma superficial flexionada

ms de una palabra (multipalabras) son

adecuadamente. El resultado para la

tratadas

frase de ejemplo sera:

como

formas

lxicas

individuales y segn su naturaleza.

lee

cada forma lxica de la LO.

encapsuladas son tratadas como un

preposicin,

estructural,

de

contiene un nico equivalente para

[ ] cada una de estas cadenas

lxica

mdulo

en lengua meta (LM). El diccionario

o superblancos poniendo delimitadores

categora

el

(LO) y entrega la FL correspondiente

El desformateador.- Encapsula las


cadenas de texto en bloques de formato

por

Los objetivos fueron: a) Diseo del sistema

El desambiguador lxico categorial.-

de traduccin automtica entre espaol -

Est basado en modelos ocultos de

quechua y b) Evaluacin de la calidad de

Markov

traduccin.

de

primer

orden,

que

representan categoras gramaticales y


los

observables

son

clases

MATERIALES Y MTODOS

de

ambigedad, esto es, conjunto de

La investigacin se ha realizado en la

categoras gramaticales, analiza una

Universidad Nacional Micaela Bastidas de

palabra ambigua de acuerdo con su

Apurmac

contexto.

Profesional de Ingeniera Informtica y

en

la

Escuela

Acadmico

Sistemas durante el ao 2013.Se ha tomado

El mdulo de transferencia lxica.-

para la investigacin una de las variantes de

Gestiona un diccionario bilinge y es

85

H. CALDERON, C. MAMANI, F. CARDENAS y E. MAMANI


Revista. Investig. (Esc. Post Grado) V 5, N3

la macro lengua quechua la elegida es

se ha utilizado la mtrica de evaluacin de

Quechua del Este de Apurmac cuyo

traductores automticos WER (Word Error

cdigo es qve de acuerdo al SIL

Rate):

Internacional.
La poblacin para la lengua quechua son
todas las palabras races. La muestra est
Dnde:

conformada por 400 palabras races de la


lengua Quechua e igual nmero de palabras

S es el nmero de sustituciones,

races de la lengua Aymara las palabras son

B es el nmero de borrados,

elegidas a criterio de los investigadores,

I es el nmero de inserciones,

entre

N es el nmero de palabras que tiene la

nombres,

adjetivos,

verbos,

interjecciones, pronombres, adverbios entre

frase de referencia.

otras categoras gramaticales, las fueron

Infraestructura tecnolgica utilizada

insertadas a los diccionarios.


Procedimientos

para

el

01 Oficina o ambiente de investigacin y


diseo

domicilio

del

01 Servidor de informacin implementado

traductor automtico

06 computadoras personales de laboratorio

Etapa de incubacin del sistema de

Servicios de Internet permanente

traduccin automtica.

Software utilizado

Etapa de Implementacin de

Sistema operativo Servidor Linux con

diccionarios monolinges(quechua y

espaol)

servicios habilitados:ftp, ssh, domain,

Etapa de implementacin de

http, netbios, imap, mocrosoft-ds.


Libreras instaladas: subversion, build-

diccionarios bilinge

Etapa de implementacin de reglas de

essential,

g++,

pkg-config,

transferencia estructural

libxml2,

libxml2-dev,

Etapa de medicin de la calidad del

xsltproc,

flex,

traductor automtico

libtool y libpcre3-dev.

gawk,

libxml2-utils,

automake,

autoconf,

Apertium software de cdigo abierto de

Implantacin del traductor automtico

Traduccin

en lnea

Automtica

instalado:

lttoolbox, apertium, apertium-lex-tools.

El mtodo de evaluacin de la calidad de

Software

traduccin automtica

especializado

de

anlisis

morfolgico y software especializado de


Para evaluacin de la eficiencia del

desambiguacin instalado: OpenFST,

traductor automtico de textos del idioma


espaol a quechua y de quechua a espaol

86

TRADUCTOR AUTOMTICO EN LINEA DEL ESPAOL A QUECHUA


Enero - Junio 2009

Foma, Hilsinke Finite State Transducer,

Resultados del diseo del sistema de

$lt-

complrapertium-es-qve.es.dix

chunker $apertium-preprocess-transfer
apertium-es-qve.es-qve.t1x

Dando formato con foma a apertiumes-qve.qve.lexc

$hfst-lexc

$hfst-twolc

lexc

twol

qve.t2x.bin

preprocess-transfer

quechua $hfst-invertqve.hfst | hfst-

diccionario

qve-es.t1x.bin

bilinge

interchunk

es-qve.es-qve.dixqve-es.autobil.bin
Compilando

diccionario

de

Compilando reglas de transferencia


estructural de Quechua-Espaol nivel

quechua-espaol $lt-complr apertium

$apertium-preprocess-

transferapertium-es-qve.qve-es.t1x

es-qve.es-qve.dix es-qve.autobil.bin.
Compilando

Compilando reglas de transferencia


chunker

bilinge

espaol-quechua $lt-comprl apertium

apertium-es-

estructural de Quechua-Espaol nivel

fst2fst -O o qve-es.automorf.hfst
diccionario

$apertium-

qve.es-qve.t3x es-qve.t3x.bin

Compilando diccionario morfolgico

Compilando

Espaol-

Quechuanivelpostchunk

qve.twol.hfst-o qve.hfst

Compilando reglas de transferencia


estructuralde

$hfst-

compose-intersect -1qve.lexc.hfst -2

Espaol-Quechuaes

transfer apertium-es-qve.es-qve.t2x es-

--

o qve.twol.hfst
Composicin

de

nivel interchunk $apertium-preprocess-

Dando formato foma para apertiumformatfomaapertium-es-qve.qve.twol

Compilando reglas de transferencia


estructural

qve.qve.lexcqve.lexc.hfst
es-qve.qve.twol

es-

qve.t1x.bin

--

formatfomaapertium-es

Compilando reglas de transferencia


estructural de Espaol-Quechua nivel

es-

qve.automorf.bin

apertium-es-qve.es-qve.rlx

es-qve.rlx.bin

diccionario

espaol

Compilando reglas de desambiguacin


$cg-comp

quechua
morfolgico

auto-

al diccionario monolinge quechua

traduccin automtica entre espaol y


el

de

es-qve.es.dixqve-es.autogen.bin

RESULTADOS Y DISCUSIN

Compilando

diccionario

generacin qve-es $lt-comprlapertium-

y Constrain Grammar VISLCG3.

Compilando

transfer

auto-

$apertium-preprocessapertium-es-qve.qve-es.t2x

qve-es.t2x.bin

generacin es-qve $hfst-fst2fst -O

qve.hfst -o es-qve.autogen.hfst

Compilando reglas de transferencia


estructural de Quechua-Esapaol nivel
postchunker

87

$apertium-preprocess-

H. CALDERON, C. MAMANI, F. CARDENAS y E. MAMANI


Revista. Investig. (Esc. Post Grado) V 5, N3

transfer

apertium-es-qve.qve-es.t3x

Por otro lado Rataj (2005), habla acerca la

qve-es.t3x.bin.

influencia del quechua en el espaol


andino, donde detecta fenmenos ajenos al

Segn

Tyers

investigacin

et

al

(2010),

presentan

en

su

Recursos

de

espaol general y peculiares del espaol


andino, dice se dan tanto en el plano
fontico e incluso fonolgico, como en la

cdigo abierto en la plataforma Apertium

morfologa y sintaxis, ms tarde Rataj

para la investigacin y desarrollo de


traductores

automticos,

describe

implement un traductor automtica en un

los

sola direccin quechua espaol, tomando

recursos disponibles dentro de la plataforma

quechua de Cusco (quz), sistema en

que toman estados finitos para el anlisis

construccin. Tomando la implementacin

morfolgico y la generacin de palabras. En

de Rataj (2005) traductor automtico en una

investigacin confirma la utilizacin de

sola direccin de quechua a espaol, su

recursos disponibles de la plataforma

lgica de implementacin tambin funciona

Apertium, ya que se ha tomado el

en la direccin traduccin automtica de

diccionario monolinge espaol del par de

espaol a quechua de manera que en este

sistema de traduccin automtica entre

experimento se ha incubado compilando en

espaol e ingls, as mismo las reglas de

ambas

desambiguacin son genricas en las

implementando

lenguas, de manera que los recursos de

cada

cualquier par de lenguas, siempre en

la

diccionario

utilizando

incubar un nuevo sistema de traduccin


en

los

se

logra

diccionarios
para

analizar

morfolgicamente cada palabra y adems

cuando sean cuidadosamente utilizadas para


basada

esto

monolinges para cada par y utilizando

cdigo abierto toman su mayor aporte para

automtica

direcciones,

el

mismo

diccionario para

generar cada palabra cuando viene en

plataforma

direccin contraria.

Apertium.

Cuadro 1. Estructura y contenido de los diccionarios morfolgicos.


Diccionariomonolinge QVEapertium-es-qve.lexc

Significado en espaol

%<n%>
%<adj%>
%<prnp%>
%<adv%>
%<vblex%>
%<m%>
%<sg%>
%<pl%>
Otros

! nombre
! adjetivo
! pronombre
! advervio
! verbo
! masculino
! singular
! plural

Nombres ;
Adjetivos ;

!Nombres
!Adjetivos

88

TRADUCTOR AUTOMTICO EN LINEA DEL ESPAOL A QUECHUA


Enero - Junio 2009
PrnPersonales ;
Adverbios ;
Verbos ;
Otros

!PronombresP
!Adverbios
!Verbos

Lexicon Plural
%<pl%>:%>kuna N-FLEX-Incl ;
LEXICON Caso
%<acc%>:%>ta
%<abl%>:%>manta
LEXICON Posv
%<px1sg%>

! plural s

Lexicon Nombres
wasi:wasi N ;
t%'anta:t%'anta N ;
Lexicon Adjetivos
hatun:hatun ADJ;
musuq:musuq ADJ;
LexiconPrnPerson
nuqa:nuqa PRNP;
Lexicon Advervio
may:may ADV;
Lexicon verbos
mikhuy:mikhu V;
munay:muna V;
otros

Significado
!casa
!pan

! acusativo a
! ablativo
(desde, de)
! posesivo 1ra persn singular

!grande
!nuevo
!yo
!dnde
!comer
!querer
...

Corroborando con el estudio Corrector

diccionario monolinge para enriquecer el

ortogrfico

sistema, est claro tambin que solamente

Quechua

una

lengua

aglutinante:

presentada por Rios (2011),

se analizarn las palabras insertadas.

fundamenta que los mtodos de correccin

De la misma forma que Tyers et al (2010),

de ortografa desarrolladas para idiomas

Recursos

como el Ingls por lo general dependen de

plataforma Apertium para la investigacin y

una lista completa de formas de las palabras

desarrollo de traductores automticos, que

completas, el requisito de que no pueden ser

describe los recursos disponibles dentro de

satisfechas por idiomas morfolgicamente

la plataforma

complejas. En cambio en esta investigacin

para el anlisis morfolgico y la generacin

no siendo un corrector ortogrfico pero si

de palabras. En tanto en esta investigacin

un traductor automtico que tambin trabaja

confirma

con

se

disponibles de la plataforma Apertium, ya

experimenta que funciona correctamente el

que se ha tomado el diccionario monolinge

analizador con pocas palabras insertadas en

espaol del par de sistema de traduccin

el diccionario, no necesariamente completa,

automtica entre espaol e ingls, as

un

analizador

morfolgico

se puede ir agregando las palabras en el

89

de

la

cdigo

abierto

en

la

que toman estados finitos

utilizacin

de

recursos

H. CALDERON, C. MAMANI, F. CARDENAS y E. MAMANI


Revista. Investig. (Esc. Post Grado) V 5, N3

mismo se ha tomado del par de sistema de

automtica entre espaol y quechua. La

traduccin automtica entre espaol e

frmula recibe como entrada una cadena de

ingls las reglas de desambiguacin de la

texto a traducir la cual est especificada en

parte de espaol,

confirmando de esta

la columna (TEXTO A TRADUCIR),

manera que los recursos de cdigo abierto

como resultado de la traduccin automtica

toman su mayor aporte para cualquier par

se

de lenguas, siempre en cuando sean

TRADUCIDO) marcada con * las palabras

cuidadosamente utilizadas para incubar un

que no fueron reconocidas por el sistema,

nuevo sistema de traduccin automtica

adems la mtrica WER requiere el texto

basada en la plataforma Apertium.

referencia denominada traduccin correcta

tiene

la

columna

(TEXTO

esto es corroborado por el humano, esta

Resultados de la medicin de la calidad

informacin se muestra en la columna

de traduccin automtica espaol y

(traducido por el humano), aplicando la

quechua

mtrica WER se tiene los siguientes

Siendo WER (Word Error Rate) el mtodo

resultados:

utilizando para la medicin de traductores


automticos, se ha aplicado en la traduccin

Cuadro 2. Resultado de la medicin del traductor automtico Quechua a Espaol con la mtrica WER.

No

Texto a traducir

Traductor
Traducido por WER
automtico
el humano
pukawasinchismanrisun
a nuestra casa roja iremos a
0,00
iremos
nuestra casa
1
roja
sumaqalquchachinkamusqawasiykima Perro lindo perdi un perro lindo
33,50
nta
de tu casa
se perdi de tu
2
casa
mihusun chiri lawata
comeremos *a
comeremos una 25,00
3
sopa fra
sopa fra
chirimantawausunkunanp'unchaw
de fro moriremos de fro
0,00
hoy da
moriremos hoy
4
da
yuraqmankaykitaapamusaq
a tu olla blanca
traer tu olla
25,00
5
traer
blanca
MarawanJaimewanmihushankulawat Mara y Jaime
Mara y Jaime
16,67
6 a
comen a sopa
comen una sopa
apasunrumitawasiykipirqanapaq
llevaremos piedra llevaremos
25,00
tu casa construir
piedra a tu casa
muro
para construir
7
muro
mamaywatukuyrirqaniAndahuaylasta mi madre visitar
fui a visitar a
25,00
fui a Andahuaylas mi madre a
8
Andahuaylas

90

TRADUCTOR AUTOMTICO EN LINEA DEL ESPAOL A QUECHUA


Enero - Junio 2009

PedrowanJuliawanripusqaLimamanku Pedro y Julia ido a Pedro y Julia


nanp'unchaw
Lima hoy da
han ido a Lima
9
hoy da
wawqiykuna Estados Unidos
mis hermanos
mis hermanos
watukuyhamushan
Estados Unidos
vienen de
visitar viene
Estados Unidos
10
a visitar
Promedio

11,11

33,50

19,48

Cuadro 3. Resultado de la medicin del traductor automtico espaol a quechua con la mtrica WER.

No

Texto a traducir
yo quiero comprar una casa para mi
hijo

1
la casa blanca est bonita
2
esas cinco piedras son para ti
3
quiero mucho azcar para m caf

Traductor
automtico
uqamunanirantiy
hukwasi *para
*mo churi
*La
wasiyuraqkashans
umaq
Chay
pisqarumikunakan
kuqanpaq
munaniaskhamisk'i
uqapaq *caf

Traducido por WER


el humano
%
uqawasimunan 33,33
irantiyhukchuri

uqanchisMikhuy
kut'antap'unchawn
intin
paykunaqunkuway
lla *el quwi
munaniupiyunu
*con misk'ikunan
ruwankichist'anta
*para
mikhuykunanp'unc
hay
*La
tiyanaq'illukashan
p'akiy
PayKashanMikhus
paaskha,
aknawiranqanishi
wta

25,00

4
nosotras comemos pan todo el da
5
ellos dan pasto al cuy
6
quiero tomar agua con azcar hoy
7
hagan pan para comer hoy da

8
la silla amarilla est rota
9
l est comiendo mucho, as
engordar demasiado

10
Promedio

yuraqwasisuma
qkashan

25,00

chay
pisqarumikunaq
anpaqkanku
askhamisk'imun
aniuqapaq
*caf
uqanchist'anta
tap'unchawninti
nMikhuyku
paykunaquwiw
ayllaqunku
kunanunumisk'i
upiymunani
t'antaruwankich
iskunanp'uncha
ymikhuy

20,00

q'illutiyanap'aki
ykashan

25,00

Pay
askhaMikhuspa
Kashan,
aknanishiwtawi
ranqa

28,57

20,00

25,00
20,00
20,00

24,19

En el cuadro 2 se tiene el promedio de error

100%de traducciones que se haga de

(WER) 19.48%, esto indica que de los

quechua a espaol, el 19.48% ms o menos

91

H. CALDERON, C. MAMANI, F. CARDENAS y E. MAMANI


Revista. Investig. (Esc. Post Grado) V 5, N3

traducciones se deben corregir puesto que

Contrastando con (APERTIUM, 2013) se

es el ndice de error en la traduccin

puede observar en el cuadro 4 su aplicacin

automtica. De la misma manera en el

con el mismo mtodo WER, el porcentaje

cuadro 3 se tiene el promedio de error

de error es similar, debiendo que los

(WER) 24.19%, es decir que de los 100%

traductores automticos basados en el

traducciones que se haga de espaol a

modelo

quechua,

insertando precisamente las correcciones

el

24.19%

ms

menos

traducciones se deben corregir teniendo en

de

transferencia

evolucionan

conociendo el ndice de error.

cuenta que es el ndice de error de este


mtodo.
Cuadro 4. Resultados de la medicin de la traduccin automtica de diferentes pares implementadas a
base de Apertium.
Translator

Date

Version

Direction

Unknown
words

fr eo
apertium-eo-fr

eo fr

11th February 2011

22.4 %
Yes

en mk
apertium-mk-bg 31st August 2010

0.1.0

mk bg
bg mk

12th October 2009

0.6.1

nb nn

Yes

12th October 2009

apertium-eu-es

2nd September 2009

apertium-cy-en

2nd January 2009

apertium-eo-en

8th May 2009

apertium-es-pt

15th May 2006

apertium-oc-ca

10th May 2006

apertium-pt-ca

28th July 2008

apertium-en-es

May 2009

0.5.0

sv da
da sv
eu es
es eu
cy en
en cy

0.9.0

en eo
eo en
es pt
pt es
oc ca
ca oc
pt ca
ca pt
en es
es en

92

26.67 %
-

Yes

fr br
apertium-sv-da

nn nb
apertium-nn-nb

WER

32.5%,
17.7%
-

Yes

Unknown

Unknown

Unknown

Unknown

Unknown

Unknown

Unknown

30.3 %
72.4 %
55.7 %
21.0 %
4.7 %
11.3 %
9.6 %
16.6%
14.1%
-

TRADUCTOR AUTOMTICO EN LINEA DEL ESPAOL A QUECHUA


Enero - Junio 2009
En

cuanto

experimentaron

(Rios

et.

Al.,

espaol,

gallegoespaol,

portugus

paralelos

espaol, francscataln, inglscataln y

entre los idiomas Alemn, Espaol y la

occitanocataln. Tanto la plataforma en la

lengua quechua, midiendo la calidad de

que se integra el motor de traduccin como

alineamiento y comparando los resultados,

los datos para estos pares de lenguas estn

utiliza

disponibles para su descarga en su sitio

las

alineamientos

2009),

herramientas

GIZA++

de

traduccin automtica basados en mtodos

oficial

estadsticos, llegando a los resultados que

(http://www.apertium.org).

espaol y quechua no se alinean para este

Esta investigacin demuestra la traduccin

mtodo de traduccin, mientras que espaol

entre espaol y quechua, siendo la lengua

y alemn se alinean mejor. Por tanto esta

quechua de la familia de aglutinantes que

investigacin apoya a la alternativa de

expresan

traduccin automtica por transferencia

gramaticales mediante la adicin de sufijos,

adems que la investigacin est basada en

sin embargo el idioma espaol una lengua

la plataforma de cdigo abierto y libre

flexiva de tipo fusional es considerado

Apertium siendo su arquitectura utilizando

diferente a las lenguas andinos, por lo que

el mtodo de traduccin automtica por

en contraste esta plataforma si se puede

transferencia, finalmente decir que la

usar entre lenguas bien diferenciadas no

traduccin automtica por transferencia

solamente entre pares emparentadas, pues el

sera la alternativa ms cercana e eficiente

avance y la madurez de esta plataforma

para

permite

ser

utilizado

para

las

lenguas

de

Apertum

conceptos

crear

sistemas

relaciones

de

traduccin

minoritarias.

automtica

Contrastando con (Armentano et al., 2007)

divergentes como dice el mismo autor.

que sostienen en su investigacin sobre

(Rios

"Apertium, una plataforma de cdigo

investigacin describen las caractersticas

abierto para el desarrollo de sistemas de

de la lengua quechua y su anotacin

traduccin automtica", presenta que

la

morfolgica y sintctica, y demuestran

plataforma Apertium ha sido desarrollada

cmo se alinean la lengua quechua con el

por el grupo de investigacin Transducens

idioma

de la Universidad de Alicante en el marco

morfolgico. La investigacin anterior por

de varios proyectos de colaboracin con

ser demostrada su alineamiento entre

universidades y empresas de Espaa en los

espaol y quechua, se confirma mediante

que,

que

esta investigacin ya que los resultados de

conforman el motor de traduccin, se han

la traduccin medida por el mtodo WER

confeccionado datos lingsticos abiertos

son aceptables.

adems

de

los

programas

para la traduccin automtica cataln

93

&

entre

pares

Ghring,

espaol

de

2009),

mediante

su

lenguas

en

su

anlisis

H. CALDERON, C. MAMANI, F. CARDENAS y E. MAMANI


Revista. Investig. (Esc. Post Grado) V 5, N3

Resultados

verificables

de

la

investigacin

monolinge

espaol

adaptada de otro sistema de traduccin


automtica

El sistema traductor automtico del

idioma espaol a la lengua quechua y

en

el

sitio

ms

de

5,000

Reglas de transferencia estructural de


quechua

http://www.lenguasandinas.org,

espaol

reglas

de

transferencia estructural de espaol a

realizado por los autores de esta

quechua implementadas.

investigacin.

Diccionario monolinge de quechua


implementado

con

traducciones de palabras races

en su versin beta se ha puesto en


funcionamiento

Diccionario bilinge espaol y quechua


implementada

de la lengua quechua al idioma espaol

Diccionario

con

ms

de

Sistema traductor automtico evaluado


con el mtodo WEB (Word Error Rate),

4,000

teniendo la tasa de error aceptable en la

palabras races

comprensin de textos.
Pruebas de entrada y salida del sistema de traduccin automtica entre espaol y quechua
Anlisis morfolgico de la palabra wasiykuna
Entrada: $echo "wasiykuna" | hfst-proc -x qve-es.automorf.hfst
Traduccin: Casas

Figura 2 Resultado de anlisis morfolgico de la palabra wasiykuna


Anlisis morfolgico de la palabra maypiraq
Entrada: $echo "maypiraq" | hfst-proc -x qve-es.automorf.hfst
Traduccin: Donde estar

94

TRADUCTOR AUTOMTICO EN LINEA DEL ESPAOL A QUECHUA


Enero - Junio 2009

Figura 3. Resultado de anlisis morfolgico de la palabra maypiraq

Figura 4. Anlisis morfolgico y traduccin de la frase qanpaniywanpukllanki.


Entrada: # echo "qanpaniywanpukllanki" | hfst-proc -x qve-es.automorf.hfst
Traduccin: T vas a jugar con mi hermana

Anlisis morfolgico y traduccin de la frase "nuqaqilqaytayachani


Entrada: $echo "nuqaqilqaytayachani" | hfst-proc -x qve-es.automorf.hfst
Traduccin:

Yo se escribir

Figura 5. Resultado de anlisis de la frase nuqayachaniqilqayta.

95

H. CALDERON, C. MAMANI, F. CARDENAS y E. MAMANI


Revista. Investig. (Esc. Post Grado) V 5, N3

Resultados de la Traduccin de Quechua a Espaol


Cuadro 5. Resultados dela traduccin de frases de quechua a espaol.

Ingresando la palabra "wasi" al sistema para su traduccin en la direccin de qve-es


quechua a espaol
Entrada: $echo "wasi" | apertium -d .qve-es
Salida: casa.

Teniendo la palabra raz "wasi" se agrega el sufijo "yki"


Entrada: $echo "wasiyki" | apertium -d .qve-es
Salida: tu casa.

Aglutinando mas sufijos en quechua "wasi+yki+man"


Entrada: $echo "wasiykiman" | apertium -d .qve-es
Salida: a tu casa.

Ingresando sufijos sobre sufijo "wasi+yki+manta"


Entrada: $echo "wasiykimanta" | apertium -d .qve-es
Salida: de tu casa.

Sucesivamente

quechua

puede

tener

mas

grande

las

palabras

aglutinadas

"wasi+yki+kuna+manta"
Entrada: $echo "wasiykikunamanta" | apertium -d .qve-es
Salida: de tus casas.

Ingresando una frase adjetivo+nombre+verbo para la traduccin


Entrada: $echo sumaqalquchachinkamusqawasiykimanta | apertium -d .qve-es
Salida: un perro lindo se perdi de tu casa

Ingresando una frase verbal


Entrada: $echo mamaywatukuyrirqaniAndahuaylasta | apertium -d .qve-es
Salida: fui a visitar a mi madre a Andahuaylas

Fuente: Elaboracin propia.


Traduccin de Espaol Quechua
Cuadro 6. Resultados dela traduccin de frases de espaol a quechua.

De forma analgica en la direccin de espaol-quechua, se ingresa la palabra "casa"


Entrada: $echo "casa" | apertium -d .es-qve
Salida: wasi.

96

TRADUCTOR AUTOMTICO EN LINEA DEL ESPAOL A QUECHUA


Enero - Junio 2009

En este caso se ingresa la frase corta "esta casa"


Entrada: $echo "esta casa" | apertium -d .es-qve
Salida: kaywasi.

Otra frase desde espaol a quechua


Entrada: $echo "esta casa nueva" | apertium -d .es-qve
Salida: kaywasimusuq.

Traduccin de una frase verbal


Entrada: $echo "nosotras comemos pan todo el da" | apertium -d . es-qve
Salida: uqanchist'antatap'unchawnintinMikhuyku

Traduccin de frases de dos frases cortas


Entrada: $echo "l est comiendo mucho, as engordar demasiado" | apertium -d . esqve
Salida: PayaskhaMikhuspaKashan, aknanishiwtawiranqa

Fuente: Elaboracin propia.


traducidos por el traductor automtico; el

CONCLUSIONES

promedio de error en la traduccin de

Se ha incubado el sistema de traduccin


automtica

entre

espaol

quechua a espaol es 19.48% siendo

quechua

aceptable

haciendo pruebas es funcional el sistema


compilado

con

sus

morfolgicos

del

textos

Quechua basado en Apertium es funcional y

idioma

se pone al servicio de la comunidad,


adems es software libre.

lenguas y el diccionario morfolgico de la


lengua quechua fue implementada, as

AGRADECIMIENTOS

mismo se ha implementado el diccionario

Al Consejo Nacional de Ciencia Tecnologa

bilinge del par espaol y quechua, de la

e Innovacin Tecnolgica del Per, por

misma manera se han definido reglas de

haber co-financiado la investigacin en

transferencia para la traduccin de idioma

beneficio de la Regin Apurmac.

espaol a la lengua quechua.

Especial agradecimiento a Vlastimil Rataj,

Finalmente se ha evaluado la calidad del

por

Traductor Automtico con la mtrica WER,

de

apoyo

constante

en

la

quin ha escrito el LEXC de quechua

espaol a quechua es 19.48% siendo esta


comprensin

su

implementacin del Traductor Automtico,

el promedio de error en la traduccin de

la

de

El sistema Traductor Automtico Espaol-

espaol fue reutilizado de otro par de

aceptable

comprensin

traducido por el traductor automtico.

diccionarios

respectivamente.
Diccionarios

la

Cusco.

textos

97

H. CALDERON, C. MAMANI, F. CARDENAS y E. MAMANI


Revista. Investig. (Esc. Post Grado) V 5, N3

superficial.

REFERENCIAS BIBLIOGRFICAS
APERTIUM,

Plataforma

libre

Departament

Llenguatges

de

Sistemas

Traduccin. 2013, recuperado el 30

InformticsUniversitat

de diciembre de 2013, de SIL,

Alacant.

Summer Institute of Linguistics


2013,

ISO

639

Code

Gonzales

Tables,

Traduccin

Armentano C., Corb A., Forcada M.,

Departamento

Tesis

de

la

Teora

Lingstica Traduccin J. Gmez

de

Guinovart

A.

Tusn

Valls.

EdicinEguren.

de la Universidad de Alicante.

Kenneth B. & Karttunen L. 2002. Finite-

Brea R. 2003. Autmatas y Lenguajes.

State Morphology Xerox Tools and

Tecnolgico de Monterrey, Campus

Techniques.

Monterrey. Editorial McGraw-Hill


Louden

9781456210779

C.

2004.

Construccin

de

Compiladores Principios y Practica.

Url:

Thomson.

[http://homepages.mty.itesm.mx/rbr

Mooney

ena/AyL.html].

A.

&

Raymond

J.

2003.

Fundamentals, Parte I Caps. II, III,

Cerrn P. 1987. Lingstica Quechua

IV,

Estudios Rurales

V.

Oxford

Handbook

of

Computacional Linguistics. Oxford

Andinos Bartolom de las Casas

University Pres.

Noviembre.

(RuslanMitkow

Ed.).

Forcada M., Boyan V. & Ortiz S. 2012.

Manteca C. 1987. Lingustica General.

Documentacin del sistema de


cdigo

Madrid, Ctedra.

abierto

OpentradApertium

de

Traduccin

de

transferencia

de

Automtica.

Informticas

Traduccin

Lingstica y Sistemas Informticos

Centro de

Estocsticos

Halvorsen K. 1991. Las Aplicaciones

Abierto Para el Desarrollo de


Automtica,

de

Valencia.

2007. Una Plataforma de Cdigo


de

Aprendizaje

Doctoral. Universidad Politcnica

Ginest M., Montava. & Ortiz M.

Sistemas

d'

Estados Finitos y su Aplicacin en

de http://www.sil.org.

ISBN:

2009.

Transductores

recuperado el 20 de mayo de 2013,

Mxico.

J.

de

Automtica

Moreno A. 2009. Estudios de Lingstica


Espaola: Diseo e Implementacin
de un Lexicn Computacional para

sintctica

Lexicografa

98

Traduccin

TRADUCTOR AUTOMTICO EN LINEA DEL ESPAOL A QUECHUA


Enero - Junio 2009
Automtica. Facultad de Filosofa y

Rusell S. & Norvig M. 2004. Inteligencia

Letras Universidad de Mlaga.

Artificial un enfoque moderno.

Volumen

Segunda Edicin. Madrid. Pearson

9,

Url:

[http://elies.rediris.es/elies9/index.h

Educacin S.A.

tm]. ISSN: 1139-8736.

SIL Summer Institute of Linguistics 2013,

Nida A. 1949. Morphology.The Descriptive

ISO 639 Code Tables, recuperado el

Analysis of Words, Michigan Ann

20

Arbor, University of

http://www.sil.org.

Michigan

Press.
Nils

N.

2004.

Inteligencia
McGraw

en la plataforma Apertium para la

S.A.

investigacin

Espaa.

lenguas indgenas. Caracas: Monte


vila. ISBN 9233019268.

Edicin.

Torero A. 1974. El quechua y la historia

McGraw-

social andina. Lima: Universidad

Hill/Interamericana S.A.

Ricardo

in

Language

UANCV,

Technology LiLT.

Andina

Nstor
2009.

Contrastiva

Quechua/Aymara/Castellano.

Treebank.

Escuela

University of Zurich Zurich

Segunda

Open Repository and Archive.


Checking

Investigacin.

Velsquez.

Morfologa

Rios A. & Volk M. 2009. A Quechua-

Spell

Universidad

Cceres

Parallel

de

Direccin

ISBN 9786034502109.

Spanish-Quechua,
Issues

palma,

Universitaria

Ros A. & Volk M. 2012. Parallel


Treebanking

de

quechua. Amrica Latina en sus

Rich E. & Knight K. 1994. Inteligencia


Segunda

desarrollo

Torero A. 1983. La familia lingstica

en el Espaol Andino.

Artificial.

traductores automticos.

Rataj V. 2005. La Influencia del Quechua

2011.

de

Madrid.

Faculta LatedraRomanistiky.

A.

2013,

2010. Recursos de cdigo abierto

MasarykovaUniverzitaFilozofika

Rios

de

Artificial.

Hill/Interamericana

Spanish

mayo

Tyers F., Snchez F., Ortiz S. & Forcada M.

Madrid.

Linguistic

de

de

Postgrado

de

Especializacin

la,
en

Educacin Bilinge Intercultural.,

an

Agglutinative Language: Quechua.


University of Zurich. Zurich Open
Repository and Archive.

99

You might also like