Lematizacién automatica y
iccionarios electrénicos*
(Automatic lemmatisation and electronic dictionaries)
Lleal Galceran, Coloma
Univ, de Barcelona. Fac. de Filologia. Dpto. de Filologia Hispanica.
Seccién de Lengua Espaola, Gran Via de les Corts Cataianes, 585
(08007 Barcelona
BIBLID [1437-4454 (2006), 21; 331-343) eep.: 18.10.05,
Deseripeiin de! procesa de elaboracién de un diccionario con le ayuda de los medios que
facilta la informatica: caractertacion del corpus ¥ de (os ertrios de seleccién y de transeripcin:
‘andlsis dela estructura de fa base de datos y de ls funaamentos de los programas de lematizaciin
‘automatca; descripcin del proceso lexicogréfico y avance de fos resultados,
Palanan Clave. Lenicagatio, Lomatizaciin. Diccionario eleeténioo. Diacroni, Siglo XV
iztegi bat informatikak bideraturiko batiabidcen laguntzaz osatzeko prozesuaren deskrpzioa:
corpusaren eta hautopen ‘nepideen karakterzazioa, datu asearen egitura eta lematicazio
Sutomatixorako programak actertzca, prozesu lexkografhoaren deskrinziog eta emaitzen
‘urrerapena,
Gitta Hitzak: Lexikograia.Lematizazioa. lzteg) elektronikoa. Diakronia XV. mendea.
Deseription du processus d'élaboration d'un dictionnalre avec (aide des moyens fourns par
informatique: coracténsetion du corpus et des eitares de selection et de transcription; analyse
de fa structure de 1a base de données et des tases des programmes de lématisation automatiaue;
\escrption du processus lexcographique et devancement des resuitats.
Mots Cis: Lexioagraphie. Lematisation, Dietionnaire électronique. Diachronio, XV" siecle.
* El presente estudio ha sido posible gracias a la ajuda del Min'sterio de Ciencia y Teo-
nologia, Proyectos 6e investigacién nimeros PB1998-1223 y BFF2002-00898,
Cihenart, 21, 2008, 331-343 331LUeal Gaiceran. Coloma: Lomatizacién automtica y diccionarios clectrénicos
1. PRESENTACION
Desde hace varios aiios, el Grupo de Historia y Contacto de Lenguas
(GHCL) esta trabajando en la confeccién de un diccionario del castellano del
siglo XV. Partimos de textos escritos 0 publicados en la Corona de Aragon
porque, desde un primer estudio que realizamos sobre el lenguaje cancille-
Tesco’, constatamos la importancia de estos textos en la contiguracion de la
lengua renacentista,
Recordemos que hacia mediados del siglo XV la monarqufa aragonesa
conauisté Napoles y el monarca con su corte se establecié en esa ciudad
Los contactos entre Napoles y las grandes ciudades de la Corona (Valen-
cla, Barcelona, Zaragoza...) fueron constantes y, sobre todo, los intercam-
bios entre los intelectuales de la época. De ahi que los usos linguisticos
renacentistas penetrasen profundamente en la lengua culta de la epoca,
tanto en el catalan como en el castellano ~ambas lenguas oficiales de
la Corona, tras el proceso castellanizador del aragonés iniciado en esa
epoca” y actuasen como modelo de un nuevo estilo, cuya influencia sobre
cl castellano inmediatamente posterior no auede ser negligida. Por ello, el
estudio de los textos escritos en castellano en esta zona peninsular mere-
cla una especial atencién,
Partiamos también de la hipétesis de que el nuevo estilo lingiistico
penetré profundamente en todos los niveles de la lengua’, por lo que no
podiamos limitaros al estudio de los textos literarios. Como consecuencia
de todo ello, iniciamos el proceso de recopilacién de materiales lingursticos
a partir de los cuales podriamos olaborar nuestro diccionario.
Nuestro corpus actual consta de dos tipos fundamentales de textos: tex-
tos no literarios (A) y textos literarios (8), cada uno de ellos subdividido en:
AL: textos administrativos, cancillerescos y juridicos: A2: textos cientifieas:
B-1: textos narratives € historicos y B-2: textos novelescos; con una exten-
si6n de cerca de un millén y medio de formas, distribuidas de forma regular
en cada una de las subdivisiones.
Dada a extensidn de nuestro corpus, vimos la necesidad de incorporar
las innovaciones metodologicas que presenta e! tratamiento automatico de
los textos. Porque, en efecto, en una epoca en que el estudio del vocabulario
medieval y renacentista con la ayuda de los medios informaticos es ya una
realidad, no nos podemos mantener al margen de esta aportacion. Pero, al
mismo tiempo, pretendiamos que nuestro trabajo no se viera sometido a
1. LLEAL. Coloma |1997). Vocabulario de fa Cancieriaaraonesa (salo XV) El eastallano de!
Siglo XV en la Corona de Aragan. Zaragoza: Institueién "Femando el Cat6ice
2. LLEAL, Coloma (2001), Historia de la Jongua e histria deta lengua fiteraria a la Wz del
‘catalan de los siglos XVI y XVle, Epos, XVI, 89-108,
3, LLEAL, Coloma (1995). +E secretario, el nuncio y la fusion del latinismo en et siglo XV
Listes Asturianes, 58, 19-34,
332 Oihenart, 21, 2006, 331-348Ueal Gatceran, Coloma: Lematizacidn automa y diccionarias electonicos
las imposiciones que tan a menudo parten del mundo de ia informatica y
que nos hiciera olvidar nuestra labor como fildlogos. Por ello emprendimos
el disefo de un sistema sencillo, a partir de un programario existente en el
mercado y de facil manejo, que adaptamos convenientemente a nuestras
necesidades*, Voy a intentar, en las lineas que siguen, resumir las principa-
les etapas de nuestro trabajo
2. PROCESO DE SELECCION Y TRANSCRIPCION DE LOS TEXTOS
Partimos siempre de textos originales, algunos de ellos manuscritos y
otros en ediciones de la época. En todos los casos, hemos procurado ser rigu-
rosamente fieles al original introduciendo el menor numero posible de modifica.
clones: separacién con un punto volado de las formas aglutinadas y unin de
los componentes de los nombres propios, entendidos como una Unica unidad
lingaistica. En cualquier caso, siempre es posible recuperar la forma original.
Asimismo, se incluye entre paréntesis cuadrados la referencia del texto y del
folio correspondiente al inicio de cada seccién, a fin de permitir la posterior
tubicacién automstica de cada une de las formas. Pero hemas evitada el 11s0
de una etiquetacion exhaustiva previa, que poco afade al conocimiento de!
texto, y en cambio complica considerablemente e! tratamiento inicial.
[b1-crotra 1234] tanta gracia se favorecia / y se scompaiaue que
todo fo real se vencia desu valet. amaua en-demasie fe eyna las
Cosas aue el rey smau, ¥ eonoeiendo que alld ol amor dl ey su
Cid y merecimientos fo adebdaven y reauerian / supico al rey Su
| Seftor / que diesse conclusion ai matrimonio que se tractoua del exce
| Tfonte nfante si hermano con faust dona Gullerma.do, Muncoda
ta del noble / magia / egregio don Gaston. de. Muncada: veconde
|. Se Beat que tenia sola en Cataluena terientos caualeros. Corel |
| ole! matrmere oor'a genta ue puso ene iaeyna ued et |
Infante y su esposa mas todo el linage tan principal ce Muncada mucho |
aticionado al seruicio dela reyna
Fig. 1. Tratamiento iniciat del texto
4, £1 ciseno del programa ha sida faciitado al equipo de la Universidad de Salamanca que
dite fa protesora NP Nieves Sanchez. eve lo utliza satistactoriamente en sus estucios texico
gratcos,
5, LLBAL, Colom (2002). -Una base de datos para el estudio del lexico Gel siglo XV, en
Ecnerique. MT. y Sancher J. (608), Aetas det V Congreso internacional de Historia de fa Lengua
Espariola, ll, Made, Grados. 2201-2210,
|ANGLADA AREOIX. Emilia (2003). Un diccionario general y etimolégico eel castellano det
siglo XV en la Corona de Aragon, comuneacion presentada en ei vi Congreso tnterracione te
Pistona de ia Lengua Espariola (Mad, octubre de 2003}. Se publicard en las Actas covresoor
ientes, on prensa.
ANGLADA ARBOIX, Emilia (2004). Un banco de datas electronica: a propdsito de fa con
teccion de un diccionario de! castellano del siglo XV on la Corona de Aragon. comunicacion
presentad en el | Cangreso Internacional de Cexcogratia Hispavica. Se publcaré en las Actas
‘ortessonaientes, en prensa,
Oihenart, 21, 2006, 331.343 333LUeal Galceran, Coloma: Lematizacién automitica y dicionarios electr6nicos
Este texto minimamente modificado es exportado a una base de datos,
con lo que podremos obtener ordenaciones de los elementos de que consta
2 partir de distintos criterios®. Esta base de datos consta, inicialmente, de
dos campos: uno para las formas y otro para la situacién. Ello nos va a per-
itr iniciar la tarea lexicogréfica.
siuscin ri
ata
Ei cowe toy
si cous ti
Bice hoy
eiconetioy
eicowe ty
ico ay
tcews 1
Biosws Mer
Btccstea,
prong ae
Bicester
el cue tay Wel dee
Gd he
E Gawste
Gantt bi
Bicaistiay don
Birt ay halen Hines
[letcowe or” ana
[lst cena tiay
Btcoas ir
pt ceretiay
Reant
prcwustan
ql
Fg, 2. La base inicial
3. PROCESO DE LEMATIZACION
3.4. No nos interesaba trabajar exclusivamente con las formas, sino con los
lemas a partir de los cuales confeccionar nuestro diccionario. Adems, daca
la multiplicidad de variantes que encontramos en todo texto medieval 0 rena:
centista, queriamos poder contar con un listado de variantes para facilitar
las hrisquedas posteriores. Asi, las distintas formas flexivas de un verbo ee
agrupan bajo un mismo lema —que podriamos considerar “canénico” segtin la
6. Las ventajas de trabajar con bases de datos, por la ductidad del sistema, son de sobras
conocidas. Precisamente por ello, quisiera hacer constar aqut nuestra admiracion y respeto por
‘quienes nos hen precedide y, con medios materiales muy rudimentanios, nos han legado obras
de inestimable valor
334 Oihenart. 21, 2006, 331-343Leal Galceran, Coloma: Lematizacion automaticay diccionarios electrénicos
norma culta de la época~, pero se especifican las variantes correspondiente
-piénsese, por ejemplo, en el lema hazer, que puede presentar las variantes
hazer, hacer, fazer, faser, far, Por ello, introducimos tres nuevos campos en
ruestra base: uno para los lemas 0 vocablos, otro para las variantes y otro
para la funcidn. Y, a continuacién, confeccionamos un programa que automa:
ticamente procede a la lematizacion del texto.
3.2. La primera cuestién que debfamos plantearnos era, precisamente, la
dé las funciones que asignabamos a las formas. No voy a reproducir aqui la
discusion acerca de los problemas relacionados con la categorizacion, por
que no se trataba tanto de formular teorlas como de establecer una norma
que nos permitiese aplicar una “etiqueta” a las formas del texto. De acuerdo
con ello, partimos inicialmente de las siguientes clases de palabras: sustan.
tivos, adjetivos, verbs, adverbios, pronombres personales, demostrativos,
posesivos, indefinidos, relativos, identificadores, locativos y numerales, pre-
posiciones, conjunciones, interjecciones y nombres propios’. Estas etiquetas
iniciales seran revisadas y completadas en una etapa posterior, con el texto
ya lematizado. Asi, en el caso de las formas pronominales, aistinguiremos,
por ejemplo, entre pronombres demostrativos con valor sustantivo o con
valor adjetiva. En el programa inicial, esta distincion solo podra hacerse para
clertas formas como esto, eso, aquelio, siempre con valor sustantivo, mien
tras que las demas se marcaran, inicialmente, con la etiqueta “pron. dem.
‘adj.”, etiqueta que posteriormente, en la etapa de andlisis del texto, deberd
ser revisada en funcion de! contexto. Y de manera similar actuamos con el
Testo de las formas pronominales. Asimismo, en el caso de los verbos se
marcard posteriormente el caracter auxiliar, transitivo, intransitive 0 pronomi-
nal. Algunas de estas subclasificaciones podrén hacerse automaticamente
(en el caso de la mayorla de verbos auxiliares, por ejemplo), pero otras debe-
ran establecerse manualmente en una etapa posterior de revision del texto.
3.3. Partimos, en primer lugar, de la constatacion de que en la lengua hay
Un niimero relativamente reducido de formas gramaticales. pertenecientes
@ inventarios cerrados, que presentan, en cambio, un alto indice de lectura
(adverbios, preposiciones, conjunciones, articulos, pronombres....). Piénsese
que en nuestro caso solo 138 formas gramaticales constituyen algo mas del
50% del total del texto, relacién que varia muy poco de un texto a otro®
7. Partimos, basicamente, de [a casiicacién de Alcina Blecua. 1989 y que, en lineas gene-
‘ales, comeide con la cue api can los grupos de investigacion CLIC y TALP, del Departamento de
Lingsties de fa Universitat de Barcelona y dol Departamento de Lenguajes y Sistemas Informs
ticas de la Unverstat Politécnica de Catalunya (séase CIVIT TORRUELLA, Montserrat. Criterios de
‘eiquetacion y desambisuacion merfosintctica de corpus de! esparol Barcelona: SEPLN. 2003}
£8, MULLER, Charles (1968); Estacsticalinguistica. Madtid, Gredos, 1973,
LOPEZ MORALES, Humberto (1983): -Linglstica estadistica.. en Lopez Morales. H. (ed).
Introduce a fa ingaistica actual, Madrid. Prayor, 209225,
Oihenart. 21, 2006, 331-343 335LUeal Galeeran,
ma: Lematizacion automata y diccionario
Exams ama
Im162 formas bx
(Oreste
Fig 3. Indice de tectura de las 300 formas mas frecuentes
Este cardcter constante del indice de lectura de las formas gramaticales,
asi como el hecho de pertenecer a inventarios cerrados, nos permite esta:
blecer un catalogo completo a partir del cual podamos programar las instruc
clones adecuadas para proceder a su lematizacion. Se trata, en suma, de
deseribir la gramatica basica del funcionamiento de estas formas. Asimismo,
podemos establecer un catdlogo de las formas léxicas fundamentales, for
mado por un reducido ntimero de unidades Iéxicas de cardcler muy repetitivo,
dependientes en este caso del tipo de texte, pera que pueden ser facilmen.
te ientificadas mediante un listado de frecuencia de las formas. Con ello
tendremos lo que podrfamos denominar el fexicén minimo® a partir del cual
Podremos lematizar mas de! 60% del texto, lo cual constituye, de entrada, un
porcentaje nada desdenable.
[Fees
ls. ose.
is 2rsr3
et Stoo
ayes 7822
qf se03
> 535
Pane
Fig. 4. Listado de frecuencia de las formas
sionneire des
9 jacqueline (1991): -Loxicographie théorique et appliquce: un d
mots de haute fréquence, Cademos de Lingua, 3, 87-210
336 Oihenart. 21, 2006, 331-343LUeal Galceran, Coloma: Lemabeacian automatica y decionarios electeénicos
Las instrucciones de lematizacién para las unidades gramaticales son de
dos tipos, segun el caracter invariable 0 flexivo de las formas que nos ocu
pan. En el primer caso, bastaré con indicar que en el campo correspondiente
al lema 0 vocablo y en el campo de las variantes hay que copiar el mismo
contenido que se halla en ei campo forma. Del tipo: “copia la forma en los
campos vocabio y varlante y escribe “prep.” en el campo funcién siempre
{que en el campo forma aparezca “a” 0 “de” 0 “por” 0" con’... ele.” EN olfas
‘ocasiones, habra que prever la existencia de variantes distintas de un Unico
lema: piénsese en el adverbio “assi”. que puede aparecer con las formas
"assy", “asy” "asi" “ansi” 0 “ass/". Finalmente, en las formas flexivas (articu
los. pronombres...) habra que dar cuenta de las formas a partir de las cuales
se manifiesta el lema correspondiente, con una instruccién del tipo: “escribe
‘el, la Jo” en los campos vocabio y variante y “art.” en el campo funcién siem-
pre que en el campo forma se encuentre “el” 0 “Ia” 0 “lo” 0 “las” 0 “los”
Obsénese que en esta etapa inicial lematizamos siempre de acuerdo con la
funcién de mayor frecuencia. En etapas posteriores se podran precisar. de
acuerdo con el contexto, muchas de estas categorizaciones.
3.4, En cuanto a las formas Iéxicas, de inventario abierto, hemos visto que,
por una parte, podiamos incluir en el Jexicdn previo aquellas formas que pre-
sentan un alto indice de frecuencia. Pero para el resto. deberemos aplicar
na serie de instrucciones que parten de su estructura morfologica,
Asi, a partir de fos morfemas derivativos y flexivos podemos lematizar un
numero considerable de estas formas léxicas. Para identificarlas debidamen:
te, partimos de un listado inverso de las formas que nos permite constatar
las regularidades y también las excepciones: asi, todas las formas termina:
das en [-ble) seran, en principio, adjetivos, 0 las terminadas en (-cion) 0 en
{ura} serdn sustantivos femeninos, o las que presenten el segmento final en
[miento) serain sustantives masculinos. Dastard, en este caso, introducir una
instruccion del tipo: “siempre que encuentres una forma terminada en ‘ura’.
copia la forma en los campos vocablo y variante y escribe “sust. fem.” en el
campo funcién.” Cuando constatamos la existencia de posibles excepciones,
la instruccidn correspondiente habrd de dar cuenta de ellas: asi, en el caso
de las formas en {ble} observamos la presencia del verbo hable/fable 0 del
sustantivo condestable; entre los adjetivos en {-0s0) encontramos los sustan-
tivos femeninos cosa y rosa; enite las formas terminadas en {ura} hallamos
el adjetivo femenino dura; entre las formas en (mente} no son adverbios el
sustantivo femenino mente, ni el adjetivo clemente o el verbo tormente.
Para los paradigmas verbales, aparte del listado de verbos de alta fre
cuencia (eer, estar, haver, dezir, hazer, ir...), @ Menudo con numerosas irre
gularidades. que habremos incluido en el fexicén inicial, disponemos de un
listado de desinencias verbales regulares a partir de las cuales podemos
deducir el lema correspondiente. Ast, siempre que encontremos una forma
terminada en {assemos} podemos formular una instruccién del tipo: “cuenta
el numero de letras de la forma, elimina las seis ultimas letras y escribe el
resto+"r” en el campo vacablo”. EI nimero de tormas que puede lematizarse
Ginenart, 21. 2006. 331-343 337{cal Galceran, Coloma: Lematizacién automatca y decionarios electrénicos
2 partir de reglas de este tipo es considerable. Y, también aqui, el istado
inverso de las formas nos ayuda a detectar las excepciones (pienso, por
ejemplo, en ia terminacién (amos), generalmente morfema de primera per
ssona plural, pero que también puede aparecer como secuencia final de los
sustantivos balsamos, clamos o ramos).
En ol analisis de las terminaciones verbales, el orden de aplicacién de las
instrucciones es fundamental para evitar la goneracién de vocabios inexisten,
tes: si aplicamos primero la regia correspondiente a {amos} generaremos voca:
blos como “pagariar, *contentariar, *abreviariar. Por tanto, primero habré que
pensar en identificar las formas de! condicional { ariamos} y solo después podre-
mos pasar a las del presente, es decir, habra que lematizar en primer lugar las
formas cuyo morfema verbal contenga un mayor numero de caracteres.
Con todo, dificilmente podremos diferenciar, solo por la forma de la
desinencia, las formas de presente de indicativo de os verbos de ia prime:
ra conjugacién de las formas de presente de subjuntiva de los verbos de la
segunda y tercera (amamos vs temamos), con lo que probablemente genera
remos vocablos del tina *temar que requericén una posteriar correccidn
3.5. Un tercer grupo de reglas parte de la estructura sintactica de las fra.
ses. Por una parte, constalamos la existencia de numerosas coincidencias
formales entre determinadas formas verbales y las formas de sustantivos y
adjetivos, que solo podran diferenciarse por el contexto. Veamos un ejemplo:
formas aparentemente idénticas en su segmento final como canta, manta. 0
santa, presentan posibilidades combinatorias diferenciadas. Asi, mientras es
posible Ja canta, fo canta, el canta (dada la ausencia de tilde en los textos de
la 6poca}, las canta, las canta, solo podremos encontrar la manta o la santa
pera no *e/ manta, “lo manta, “las manta, *los manta 0 bien *e! santa, 10
santa, *las santa, *los santa. La posibilidad de alternancia del elemento prece
Gente, leielzavo Iniieliente ome articulo por presentar mayor frecuer Gia
de uso en esta funcidn, nos permite categorizar la forma canta como verbo y
corregir la funcion de las formas el, ia 10, los, fas en esta posicién como pro-
hombres personales. Asimismo, canta presenta la posibilidad de combinarse
con Je, cosa que no ocurre en el caso de manta a santa. Ademas, dado que en
€! tratamiento inicial del texto hemos desaglutinado las formas verbales con
pronombre enclitico, separandolas mediante un punto volado, en el texto pode-
mos encontrar también la forma canta-, pero no “manta: o “santa Por otra
parte, el sustantivo solo presenta variaoién de numero, mientras que el adjcti:
vo presentaré variacién de género y numero. La aplicacién combinada de estas
normas nos permite identificar un nimero considerable de formas verbales y
nominales, asi como las formas de articulo de las pronominales.
A partir de criterios similares podemos diferenciar los frecuentes casos
de homonimia: fuera verbo ser (seguido de adjetivo) 0 verbo ir (seguido de la
preposicion a), de fuera adverbio: que conjuncidn, de que relativo; si pronom:
bre personal, de si conjuncion condicianal... también podemos identificar las
formas verbales compuestas, ast como las locuciones y perifrasis, que con-
signaremos en el campo variantes.
338 Oihnenart. 21, 2006, 331-343Leal Galceran, Coloma: Lematizacién automstica y diccionaros electrénicos
3.6. La ultima operacion del programa lematizador consiste en la correccion
automatica de los errores mas frecuentes. Piénsese, por ejemplo, en las
alternancias entre el diptongo [jé] 0 [we] en posicidn tdnica y la vocal simple
[ey [0] en posicién atona en numerosas formas verbales que puede haber
generado lemas del tipo pueder 0 tiener, que pueden corregirse automdtica-
mente. 0 bien en la existencia de numerosas alternancias graficas en los
textos de la Gpuca que puede yererar leinas uistintus (Naver, aver, auer,
haber; hazer, fazer, faser, azer, hacer; hablar, fablar, faular...) que, sin embar-
0, deberian aparecer unificados. En este caso, hemos incluido en nuestro
programa una instruccién ad hoc que mantiene las alternancias en el campo
variante, pero las unifica en el campo vocablo. Y, finalmente, en la existencia
de variantes puramente graficas igrafias dobles de 0