You are on page 1of 13
Lematizacién automatica y iccionarios electrénicos* (Automatic lemmatisation and electronic dictionaries) Lleal Galceran, Coloma Univ, de Barcelona. Fac. de Filologia. Dpto. de Filologia Hispanica. Seccién de Lengua Espaola, Gran Via de les Corts Cataianes, 585 (08007 Barcelona BIBLID [1437-4454 (2006), 21; 331-343) eep.: 18.10.05, Deseripeiin de! procesa de elaboracién de un diccionario con le ayuda de los medios que facilta la informatica: caractertacion del corpus ¥ de (os ertrios de seleccién y de transeripcin: ‘andlsis dela estructura de fa base de datos y de ls funaamentos de los programas de lematizaciin ‘automatca; descripcin del proceso lexicogréfico y avance de fos resultados, Palanan Clave. Lenicagatio, Lomatizaciin. Diccionario eleeténioo. Diacroni, Siglo XV iztegi bat informatikak bideraturiko batiabidcen laguntzaz osatzeko prozesuaren deskrpzioa: corpusaren eta hautopen ‘nepideen karakterzazioa, datu asearen egitura eta lematicazio Sutomatixorako programak actertzca, prozesu lexkografhoaren deskrinziog eta emaitzen ‘urrerapena, Gitta Hitzak: Lexikograia.Lematizazioa. lzteg) elektronikoa. Diakronia XV. mendea. Deseription du processus d'élaboration d'un dictionnalre avec (aide des moyens fourns par informatique: coracténsetion du corpus et des eitares de selection et de transcription; analyse de fa structure de 1a base de données et des tases des programmes de lématisation automatiaue; \escrption du processus lexcographique et devancement des resuitats. Mots Cis: Lexioagraphie. Lematisation, Dietionnaire électronique. Diachronio, XV" siecle. * El presente estudio ha sido posible gracias a la ajuda del Min'sterio de Ciencia y Teo- nologia, Proyectos 6e investigacién nimeros PB1998-1223 y BFF2002-00898, Cihenart, 21, 2008, 331-343 331 LUeal Gaiceran. Coloma: Lomatizacién automtica y diccionarios clectrénicos 1. PRESENTACION Desde hace varios aiios, el Grupo de Historia y Contacto de Lenguas (GHCL) esta trabajando en la confeccién de un diccionario del castellano del siglo XV. Partimos de textos escritos 0 publicados en la Corona de Aragon porque, desde un primer estudio que realizamos sobre el lenguaje cancille- Tesco’, constatamos la importancia de estos textos en la contiguracion de la lengua renacentista, Recordemos que hacia mediados del siglo XV la monarqufa aragonesa conauisté Napoles y el monarca con su corte se establecié en esa ciudad Los contactos entre Napoles y las grandes ciudades de la Corona (Valen- cla, Barcelona, Zaragoza...) fueron constantes y, sobre todo, los intercam- bios entre los intelectuales de la época. De ahi que los usos linguisticos renacentistas penetrasen profundamente en la lengua culta de la epoca, tanto en el catalan como en el castellano ~ambas lenguas oficiales de la Corona, tras el proceso castellanizador del aragonés iniciado en esa epoca” y actuasen como modelo de un nuevo estilo, cuya influencia sobre cl castellano inmediatamente posterior no auede ser negligida. Por ello, el estudio de los textos escritos en castellano en esta zona peninsular mere- cla una especial atencién, Partiamos también de la hipétesis de que el nuevo estilo lingiistico penetré profundamente en todos los niveles de la lengua’, por lo que no podiamos limitaros al estudio de los textos literarios. Como consecuencia de todo ello, iniciamos el proceso de recopilacién de materiales lingursticos a partir de los cuales podriamos olaborar nuestro diccionario. Nuestro corpus actual consta de dos tipos fundamentales de textos: tex- tos no literarios (A) y textos literarios (8), cada uno de ellos subdividido en: AL: textos administrativos, cancillerescos y juridicos: A2: textos cientifieas: B-1: textos narratives € historicos y B-2: textos novelescos; con una exten- si6n de cerca de un millén y medio de formas, distribuidas de forma regular en cada una de las subdivisiones. Dada a extensidn de nuestro corpus, vimos la necesidad de incorporar las innovaciones metodologicas que presenta e! tratamiento automatico de los textos. Porque, en efecto, en una epoca en que el estudio del vocabulario medieval y renacentista con la ayuda de los medios informaticos es ya una realidad, no nos podemos mantener al margen de esta aportacion. Pero, al mismo tiempo, pretendiamos que nuestro trabajo no se viera sometido a 1. LLEAL. Coloma |1997). Vocabulario de fa Cancieriaaraonesa (salo XV) El eastallano de! Siglo XV en la Corona de Aragan. Zaragoza: Institueién "Femando el Cat6ice 2. LLEAL, Coloma (2001), Historia de la Jongua e histria deta lengua fiteraria a la Wz del ‘catalan de los siglos XVI y XVle, Epos, XVI, 89-108, 3, LLEAL, Coloma (1995). +E secretario, el nuncio y la fusion del latinismo en et siglo XV Listes Asturianes, 58, 19-34, 332 Oihenart, 21, 2006, 331-348 Ueal Gatceran, Coloma: Lematizacidn automa y diccionarias electonicos las imposiciones que tan a menudo parten del mundo de ia informatica y que nos hiciera olvidar nuestra labor como fildlogos. Por ello emprendimos el disefo de un sistema sencillo, a partir de un programario existente en el mercado y de facil manejo, que adaptamos convenientemente a nuestras necesidades*, Voy a intentar, en las lineas que siguen, resumir las principa- les etapas de nuestro trabajo 2. PROCESO DE SELECCION Y TRANSCRIPCION DE LOS TEXTOS Partimos siempre de textos originales, algunos de ellos manuscritos y otros en ediciones de la época. En todos los casos, hemos procurado ser rigu- rosamente fieles al original introduciendo el menor numero posible de modifica. clones: separacién con un punto volado de las formas aglutinadas y unin de los componentes de los nombres propios, entendidos como una Unica unidad lingaistica. En cualquier caso, siempre es posible recuperar la forma original. Asimismo, se incluye entre paréntesis cuadrados la referencia del texto y del folio correspondiente al inicio de cada seccién, a fin de permitir la posterior tubicacién automstica de cada une de las formas. Pero hemas evitada el 11s0 de una etiquetacion exhaustiva previa, que poco afade al conocimiento de! texto, y en cambio complica considerablemente e! tratamiento inicial. [b1-crotra 1234] tanta gracia se favorecia / y se scompaiaue que todo fo real se vencia desu valet. amaua en-demasie fe eyna las Cosas aue el rey smau, ¥ eonoeiendo que alld ol amor dl ey su Cid y merecimientos fo adebdaven y reauerian / supico al rey Su | Seftor / que diesse conclusion ai matrimonio que se tractoua del exce | Tfonte nfante si hermano con faust dona Gullerma.do, Muncoda ta del noble / magia / egregio don Gaston. de. Muncada: veconde |. Se Beat que tenia sola en Cataluena terientos caualeros. Corel | | ole! matrmere oor'a genta ue puso ene iaeyna ued et | Infante y su esposa mas todo el linage tan principal ce Muncada mucho | aticionado al seruicio dela reyna Fig. 1. Tratamiento iniciat del texto 4, £1 ciseno del programa ha sida faciitado al equipo de la Universidad de Salamanca que dite fa protesora NP Nieves Sanchez. eve lo utliza satistactoriamente en sus estucios texico gratcos, 5, LLBAL, Colom (2002). -Una base de datos para el estudio del lexico Gel siglo XV, en Ecnerique. MT. y Sancher J. (608), Aetas det V Congreso internacional de Historia de fa Lengua Espariola, ll, Made, Grados. 2201-2210, |ANGLADA AREOIX. Emilia (2003). Un diccionario general y etimolégico eel castellano det siglo XV en la Corona de Aragon, comuneacion presentada en ei vi Congreso tnterracione te Pistona de ia Lengua Espariola (Mad, octubre de 2003}. Se publicard en las Actas covresoor ientes, on prensa. ANGLADA ARBOIX, Emilia (2004). Un banco de datas electronica: a propdsito de fa con teccion de un diccionario de! castellano del siglo XV on la Corona de Aragon. comunicacion presentad en el | Cangreso Internacional de Cexcogratia Hispavica. Se publcaré en las Actas ‘ortessonaientes, en prensa, Oihenart, 21, 2006, 331.343 333 LUeal Galceran, Coloma: Lematizacién automitica y dicionarios electr6nicos Este texto minimamente modificado es exportado a una base de datos, con lo que podremos obtener ordenaciones de los elementos de que consta 2 partir de distintos criterios®. Esta base de datos consta, inicialmente, de dos campos: uno para las formas y otro para la situacién. Ello nos va a per- itr iniciar la tarea lexicogréfica. siuscin ri ata Ei cowe toy si cous ti Bice hoy eiconetioy eicowe ty ico ay tcews 1 Biosws Mer Btccstea, prong ae Bicester el cue tay Wel dee Gd he E Gawste Gantt bi Bicaistiay don Birt ay halen Hines [letcowe or” ana [lst cena tiay Btcoas ir pt ceretiay Reant prcwustan ql Fg, 2. La base inicial 3. PROCESO DE LEMATIZACION 3.4. No nos interesaba trabajar exclusivamente con las formas, sino con los lemas a partir de los cuales confeccionar nuestro diccionario. Adems, daca la multiplicidad de variantes que encontramos en todo texto medieval 0 rena: centista, queriamos poder contar con un listado de variantes para facilitar las hrisquedas posteriores. Asi, las distintas formas flexivas de un verbo ee agrupan bajo un mismo lema —que podriamos considerar “canénico” segtin la 6. Las ventajas de trabajar con bases de datos, por la ductidad del sistema, son de sobras conocidas. Precisamente por ello, quisiera hacer constar aqut nuestra admiracion y respeto por ‘quienes nos hen precedide y, con medios materiales muy rudimentanios, nos han legado obras de inestimable valor 334 Oihenart. 21, 2006, 331-343 Leal Galceran, Coloma: Lematizacion automaticay diccionarios electrénicos norma culta de la época~, pero se especifican las variantes correspondiente -piénsese, por ejemplo, en el lema hazer, que puede presentar las variantes hazer, hacer, fazer, faser, far, Por ello, introducimos tres nuevos campos en ruestra base: uno para los lemas 0 vocablos, otro para las variantes y otro para la funcidn. Y, a continuacién, confeccionamos un programa que automa: ticamente procede a la lematizacion del texto. 3.2. La primera cuestién que debfamos plantearnos era, precisamente, la dé las funciones que asignabamos a las formas. No voy a reproducir aqui la discusion acerca de los problemas relacionados con la categorizacion, por que no se trataba tanto de formular teorlas como de establecer una norma que nos permitiese aplicar una “etiqueta” a las formas del texto. De acuerdo con ello, partimos inicialmente de las siguientes clases de palabras: sustan. tivos, adjetivos, verbs, adverbios, pronombres personales, demostrativos, posesivos, indefinidos, relativos, identificadores, locativos y numerales, pre- posiciones, conjunciones, interjecciones y nombres propios’. Estas etiquetas iniciales seran revisadas y completadas en una etapa posterior, con el texto ya lematizado. Asi, en el caso de las formas pronominales, aistinguiremos, por ejemplo, entre pronombres demostrativos con valor sustantivo o con valor adjetiva. En el programa inicial, esta distincion solo podra hacerse para clertas formas como esto, eso, aquelio, siempre con valor sustantivo, mien tras que las demas se marcaran, inicialmente, con la etiqueta “pron. dem. ‘adj.”, etiqueta que posteriormente, en la etapa de andlisis del texto, deberd ser revisada en funcion de! contexto. Y de manera similar actuamos con el Testo de las formas pronominales. Asimismo, en el caso de los verbos se marcard posteriormente el caracter auxiliar, transitivo, intransitive 0 pronomi- nal. Algunas de estas subclasificaciones podrén hacerse automaticamente (en el caso de la mayorla de verbos auxiliares, por ejemplo), pero otras debe- ran establecerse manualmente en una etapa posterior de revision del texto. 3.3. Partimos, en primer lugar, de la constatacion de que en la lengua hay Un niimero relativamente reducido de formas gramaticales. pertenecientes @ inventarios cerrados, que presentan, en cambio, un alto indice de lectura (adverbios, preposiciones, conjunciones, articulos, pronombres....). Piénsese que en nuestro caso solo 138 formas gramaticales constituyen algo mas del 50% del total del texto, relacién que varia muy poco de un texto a otro® 7. Partimos, basicamente, de [a casiicacién de Alcina Blecua. 1989 y que, en lineas gene- ‘ales, comeide con la cue api can los grupos de investigacion CLIC y TALP, del Departamento de Lingsties de fa Universitat de Barcelona y dol Departamento de Lenguajes y Sistemas Informs ticas de la Unverstat Politécnica de Catalunya (séase CIVIT TORRUELLA, Montserrat. Criterios de ‘eiquetacion y desambisuacion merfosintctica de corpus de! esparol Barcelona: SEPLN. 2003} £8, MULLER, Charles (1968); Estacsticalinguistica. Madtid, Gredos, 1973, LOPEZ MORALES, Humberto (1983): -Linglstica estadistica.. en Lopez Morales. H. (ed). Introduce a fa ingaistica actual, Madrid. Prayor, 209225, Oihenart. 21, 2006, 331-343 335 LUeal Galeeran, ma: Lematizacion automata y diccionario Exams ama Im162 formas bx (Oreste Fig 3. Indice de tectura de las 300 formas mas frecuentes Este cardcter constante del indice de lectura de las formas gramaticales, asi como el hecho de pertenecer a inventarios cerrados, nos permite esta: blecer un catalogo completo a partir del cual podamos programar las instruc clones adecuadas para proceder a su lematizacion. Se trata, en suma, de deseribir la gramatica basica del funcionamiento de estas formas. Asimismo, podemos establecer un catdlogo de las formas léxicas fundamentales, for mado por un reducido ntimero de unidades Iéxicas de cardcler muy repetitivo, dependientes en este caso del tipo de texte, pera que pueden ser facilmen. te ientificadas mediante un listado de frecuencia de las formas. Con ello tendremos lo que podrfamos denominar el fexicén minimo® a partir del cual Podremos lematizar mas de! 60% del texto, lo cual constituye, de entrada, un porcentaje nada desdenable. [Fees ls. ose. is 2rsr3 et Stoo ayes 7822 qf se03 > 535 Pane Fig. 4. Listado de frecuencia de las formas sionneire des 9 jacqueline (1991): -Loxicographie théorique et appliquce: un d mots de haute fréquence, Cademos de Lingua, 3, 87-210 336 Oihenart. 21, 2006, 331-343 LUeal Galceran, Coloma: Lemabeacian automatica y decionarios electeénicos Las instrucciones de lematizacién para las unidades gramaticales son de dos tipos, segun el caracter invariable 0 flexivo de las formas que nos ocu pan. En el primer caso, bastaré con indicar que en el campo correspondiente al lema 0 vocablo y en el campo de las variantes hay que copiar el mismo contenido que se halla en ei campo forma. Del tipo: “copia la forma en los campos vocabio y varlante y escribe “prep.” en el campo funcién siempre {que en el campo forma aparezca “a” 0 “de” 0 “por” 0" con’... ele.” EN olfas ‘ocasiones, habra que prever la existencia de variantes distintas de un Unico lema: piénsese en el adverbio “assi”. que puede aparecer con las formas "assy", “asy” "asi" “ansi” 0 “ass/". Finalmente, en las formas flexivas (articu los. pronombres...) habra que dar cuenta de las formas a partir de las cuales se manifiesta el lema correspondiente, con una instruccién del tipo: “escribe ‘el, la Jo” en los campos vocabio y variante y “art.” en el campo funcién siem- pre que en el campo forma se encuentre “el” 0 “Ia” 0 “lo” 0 “las” 0 “los” Obsénese que en esta etapa inicial lematizamos siempre de acuerdo con la funcién de mayor frecuencia. En etapas posteriores se podran precisar. de acuerdo con el contexto, muchas de estas categorizaciones. 3.4, En cuanto a las formas Iéxicas, de inventario abierto, hemos visto que, por una parte, podiamos incluir en el Jexicdn previo aquellas formas que pre- sentan un alto indice de frecuencia. Pero para el resto. deberemos aplicar na serie de instrucciones que parten de su estructura morfologica, Asi, a partir de fos morfemas derivativos y flexivos podemos lematizar un numero considerable de estas formas léxicas. Para identificarlas debidamen: te, partimos de un listado inverso de las formas que nos permite constatar las regularidades y también las excepciones: asi, todas las formas termina: das en [-ble) seran, en principio, adjetivos, 0 las terminadas en (-cion) 0 en {ura} serdn sustantivos femeninos, o las que presenten el segmento final en [miento) serain sustantives masculinos. Dastard, en este caso, introducir una instruccion del tipo: “siempre que encuentres una forma terminada en ‘ura’. copia la forma en los campos vocablo y variante y escribe “sust. fem.” en el campo funcién.” Cuando constatamos la existencia de posibles excepciones, la instruccidn correspondiente habrd de dar cuenta de ellas: asi, en el caso de las formas en {ble} observamos la presencia del verbo hable/fable 0 del sustantivo condestable; entre los adjetivos en {-0s0) encontramos los sustan- tivos femeninos cosa y rosa; enite las formas terminadas en {ura} hallamos el adjetivo femenino dura; entre las formas en (mente} no son adverbios el sustantivo femenino mente, ni el adjetivo clemente o el verbo tormente. Para los paradigmas verbales, aparte del listado de verbos de alta fre cuencia (eer, estar, haver, dezir, hazer, ir...), @ Menudo con numerosas irre gularidades. que habremos incluido en el fexicén inicial, disponemos de un listado de desinencias verbales regulares a partir de las cuales podemos deducir el lema correspondiente. Ast, siempre que encontremos una forma terminada en {assemos} podemos formular una instruccién del tipo: “cuenta el numero de letras de la forma, elimina las seis ultimas letras y escribe el resto+"r” en el campo vacablo”. EI nimero de tormas que puede lematizarse Ginenart, 21. 2006. 331-343 337 {cal Galceran, Coloma: Lematizacién automatca y decionarios electrénicos 2 partir de reglas de este tipo es considerable. Y, también aqui, el istado inverso de las formas nos ayuda a detectar las excepciones (pienso, por ejemplo, en ia terminacién (amos), generalmente morfema de primera per ssona plural, pero que también puede aparecer como secuencia final de los sustantivos balsamos, clamos o ramos). En ol analisis de las terminaciones verbales, el orden de aplicacién de las instrucciones es fundamental para evitar la goneracién de vocabios inexisten, tes: si aplicamos primero la regia correspondiente a {amos} generaremos voca: blos como “pagariar, *contentariar, *abreviariar. Por tanto, primero habré que pensar en identificar las formas de! condicional { ariamos} y solo después podre- mos pasar a las del presente, es decir, habra que lematizar en primer lugar las formas cuyo morfema verbal contenga un mayor numero de caracteres. Con todo, dificilmente podremos diferenciar, solo por la forma de la desinencia, las formas de presente de indicativo de os verbos de ia prime: ra conjugacién de las formas de presente de subjuntiva de los verbos de la segunda y tercera (amamos vs temamos), con lo que probablemente genera remos vocablos del tina *temar que requericén una posteriar correccidn 3.5. Un tercer grupo de reglas parte de la estructura sintactica de las fra. ses. Por una parte, constalamos la existencia de numerosas coincidencias formales entre determinadas formas verbales y las formas de sustantivos y adjetivos, que solo podran diferenciarse por el contexto. Veamos un ejemplo: formas aparentemente idénticas en su segmento final como canta, manta. 0 santa, presentan posibilidades combinatorias diferenciadas. Asi, mientras es posible Ja canta, fo canta, el canta (dada la ausencia de tilde en los textos de la 6poca}, las canta, las canta, solo podremos encontrar la manta o la santa pera no *e/ manta, “lo manta, “las manta, *los manta 0 bien *e! santa, 10 santa, *las santa, *los santa. La posibilidad de alternancia del elemento prece Gente, leielzavo Iniieliente ome articulo por presentar mayor frecuer Gia de uso en esta funcidn, nos permite categorizar la forma canta como verbo y corregir la funcion de las formas el, ia 10, los, fas en esta posicién como pro- hombres personales. Asimismo, canta presenta la posibilidad de combinarse con Je, cosa que no ocurre en el caso de manta a santa. Ademas, dado que en €! tratamiento inicial del texto hemos desaglutinado las formas verbales con pronombre enclitico, separandolas mediante un punto volado, en el texto pode- mos encontrar también la forma canta-, pero no “manta: o “santa Por otra parte, el sustantivo solo presenta variaoién de numero, mientras que el adjcti: vo presentaré variacién de género y numero. La aplicacién combinada de estas normas nos permite identificar un nimero considerable de formas verbales y nominales, asi como las formas de articulo de las pronominales. A partir de criterios similares podemos diferenciar los frecuentes casos de homonimia: fuera verbo ser (seguido de adjetivo) 0 verbo ir (seguido de la preposicion a), de fuera adverbio: que conjuncidn, de que relativo; si pronom: bre personal, de si conjuncion condicianal... también podemos identificar las formas verbales compuestas, ast como las locuciones y perifrasis, que con- signaremos en el campo variantes. 338 Oihnenart. 21, 2006, 331-343 Leal Galceran, Coloma: Lematizacién automstica y diccionaros electrénicos 3.6. La ultima operacion del programa lematizador consiste en la correccion automatica de los errores mas frecuentes. Piénsese, por ejemplo, en las alternancias entre el diptongo [jé] 0 [we] en posicidn tdnica y la vocal simple [ey [0] en posicién atona en numerosas formas verbales que puede haber generado lemas del tipo pueder 0 tiener, que pueden corregirse automdtica- mente. 0 bien en la existencia de numerosas alternancias graficas en los textos de la Gpuca que puede yererar leinas uistintus (Naver, aver, auer, haber; hazer, fazer, faser, azer, hacer; hablar, fablar, faular...) que, sin embar- 0, deberian aparecer unificados. En este caso, hemos incluido en nuestro programa una instruccién ad hoc que mantiene las alternancias en el campo variante, pero las unifica en el campo vocablo. Y, finalmente, en la existencia de variantes puramente graficas igrafias dobles de 0

en alternancia con consonantes simples; grupo en alternancia con , , ; alternancia entre , 0 , y similares), que también debe- ran ser unificadas en el campo vocablo y conservadas en el campo variante. 3.7. Terminada esta operacién, con el texto lematizado casi en su totalidad {actualmente nuestro programa lematiza autométicamente un 96,7% de las formas), deberemos proceder a una cuidadosa revisidn: la total ausencia de intuicién y de competencia lingliistica de los ordenadores es de todos conocida. ao es es ‘rvaeciey dese (at oc eee Biivge a5 a eepet = raat) Mages pada ots ton Mia y con * ie O64 ‘aipato fen pe ge O15 i setsta et iin “en ‘eaten foe Haetts: ‘pete st np Wige O15 ive 5r ae a ‘ae [Bt 015, a en i ga BN o5, ve etl D155 an es ae ‘ i os Fics lela fren pat Tarot ce Mtoe Erion t5 be es p ‘Brae O15 be oa ‘ber Brig 5 coer bats een iiige cre ise = jibe 1 ae cI5e ae be sus ton lenses Brifgedee ities 0 a Jakes ae 5 » co 2 ig 5 sie oe ia Brae Figura 8. El texto tematizado Otnenart, 21, 2006, 331-343 339 Ueal Gaiceran, Coloma: Lematizacién automética y diecionarios electr6nicos 4. PROCESO DE CONFECCION DEL DICCIONARIO A partir de la primera base, en la que cada una de las ocurrencias aparece acompariada del lema correspondiente, la funcién, la variante y la situacién, entramos de Ileno en la etapa claramente lexicografica. Para ello, creamos otras bases relacionadas que nos permiten, por una parte, definir el sentido que en cada contexto presentan estas formas y, por otra, introducir informacién acerca de la etimologfa del término. 4.1. En primer lugar, para facilitar la labor de comprensién del sentido de los términos, creamos una nueva base en la que afiadimos a nuestra base inicial dos nuevos campos: uno que presenta el contexto inmediato de cada una de las formas, con los doce términos precedentes y los doce siguientes, y otro en el que especificamos la acepcién que le corresponde a cada ocu- rrencia. Asimismo, mediante la totalizacién de los vocablos de esta base, creamos otra, llamada vator, que consta de los campos vocablo y funcién procedentes de la base anterior (inicialmente con una ocurrencia para cada vocablo), mas dos nuevos campos para la acepcidn y el sentido. A partir de este momento, trabajamos conjuntamente con las dos bases, context y VALOR, y vamos especificando el sentido de cada una de las ocurrencias de un vocablo, al tiempo que afadimos més registros a medida que encontra- mos nuevas acepciones de un vocablo: Fig. 6. Especificacion de las acepciones en las dos bases relacionadas 4.2. También a partir de la primera base, creamos otra denominada énmo, en la que tenemos de entrada un campo para los vocablos, y ahadimos cinco Nuevos campos para el étimo, la base léxica, la fecha de la primera documen- 340 Oinenart. 21, 2006, 331.343 Lea! Galceran, Coloma: Lematizacién automitica y diecionarios electronicos tacion en el ocecs, la fecha de nuestra primera documentacion y otro campo para comentarios adicionales, A partir de este base podremos establecer la etimologia de cada uno de los lemas, su cronologia, asf como el conjunto de términos que parten de una misma base léxica 8. REUNION DE LOS DATOS Como resultado final, pretendemos ofrecer un diccionario complejo que facilite datos de naturaleza muy diversa procedentes de las tres bases ~con TeATO, VALOR y €TIMO~ CoN que hemos trabajado. Para ello, elaboramos una nueva base, que denominames REUNION. que, tras [a aplicacién de un programa disehado para ello, agruparé todos los datos de que disponemos en las bases iniciales. Asi, podremos obtener informacién acerca de: a) cada uno de los lemas, con su correspondiente etimologia y cronologia y, en ou ease, la especificacién do cu caractar nooldgico; bj acerca de los lemas de nuestro corpus relacionados con una misma base léxica: c) acerca de todas las variantes y las formas con que se presenta un Tema, con especificacién del numero de ocurrencias de cada uno de ellos; 4) acerca de la frecuencia absoluta y relativa de cada lema, asi como de cada una de las acepciones; ej acerca del tino de texto en aue aparece cada una de las acepciones, con un ejemplo para cada uno de ellos; f) acerca de los sindnimos de cada acepcisn en nuestro corpus... Toda esta informacin puede ofrecerse en formato convencional y nos proporcionara datos de innegable interés para el estudio diacrsnico de la lengua. fuego Etimologia: latin rocuny “hogar, hoguera’. Documentacion: DCECH: Orr genes. Nebrija: huego, Frecuencia absoluta: 219; free. relativa: 0.02244 % Famfia léxiea en el corpus: fosaxe, fogoso -a, horaca, hoguera. fa. sust. mase. Materia en combustién que emite luz y calor. Frecuencia absoluta: 182 (=86.30%) Variantes atestiguadas: fuego (102), fuego (80); formas atest guadas: fuego (99), fuegos (3), huego (80). Distnibucién: A2: 115 ($63,18%); B1: 56 (=30,77%), B2: 11 (=6,05%). Oihenart. 21, 2006, 331-343 344 Leal Galceran, Coloma: Lematizacién automatica y diecionarios electrGnicos 342 b, ©. Ejemplos: anchos como tres dedos cumplidos 0 quatro siquiera y ten gan cerca muy viuo |fuego| para que los fierros de mucho rusientes >ueluan como blancos. [A2-Albey-024-v|; por ende traspassa todo ef calor sin que se vea nada del |fuego|. Tardamos en esta misma ciu- dad despues tres dias por vnas questiones que... [B1-Viaje- 057k: las ‘otras damas y donzelias que con ella staan de-las lamas del |fuego| a-fuerca la quitaron. y luego la reyna con otros caualieros llegaron... [ B2Grisel-0260), ssust, mase. Hoguera o incendio. Frecuencia absoluta: 15 (=6,84%) Variantes atestiguadas: fuego (9), huego (6); formas atestiguadas: fuego (3), fuegos (6), huego (3). huegos (3). Distribucién: Bt: 15 {100% Sinonimos: hoguera. Ejemplos: presentes muy poca parte segun aquellas que se perdieron Dor sus grandes guerras |fuegos| y derruecos de vnos a otros. nunca ‘se pudo tanto serevir (B1-Viaje-005v); dias y vii. noches queriendo saber con tal esperiencia que grandes fueron (os |huegos| de Troya {quando fue presa, mando que matassen la mayor parte de:[B1.Viaje- 136]. ‘sust. mase, Quemadura hecha en un tejido orgdnico con un hierro ‘candente con fines curativos, Frecuencia absoluta: 11 (=5,02%) Variantes atestiguadas: fuego (9), huego (2); formas atestiguadas fuego (1), fuegos (8), huegos (2). Distribucién: A2: 11 (=100%). Ejemplos: Si por ventura el agrion fuere de mucho tiempo den le vnos | uegos| de! traves y Iuengo con vn subtil ferro mucho quemante. (A2- Albeyt-043r}; Empero acaten con diigencia que al cortar ni dando los | uegos| no se acuesten a-a tetilla cle medio la boca por el mucho. [A2-Albeyt050), sust. masc. Enfermedad de las caballerfas en que se producen erup- clones en Is piel Frecuencia absoluta: 5 (=2,28%). Variantes atestiguadas: fuego (3), huego (2); formas atestiguadas: fuego (3), huegos (2). Distrioucion: A2: 5 (100%). Ejempios: que se embeua ensia hinchazon. § Cura para quitar ef dolor del [fuego] donde fo touiere e! caualio. § Vinagre alquena o alhenia vn poco azeyte (A2-Albeyt-031r); agua tan honda que pueda cubrir el di ‘cho dao del todo sobre fos |hnuegos |. Quando saliere echen le ceniza fecha de salzedo siquiere sale. (A2-Albeyt 0431 sust, masc. Ardor o exaltacién producida por los sentimientos, Frecuencia absoluta: 6 (=2,74%). Variantes atestiguadas: fuego (5), hueggo (1); formas atestiguadas: fue 0 (5), huego (1). Distribucion: B1: 4 (=66,66%), B2: 2 (=33,33%6), Ejemplos: y que dexasse tan a peligro 0s reynos que no atajasse ef | fuego| tan poderoso de-la comencada vnion contra el rey. [B1-CroAra- 0824]; Dios fo permite por sus pecados abhominables que siempre las Tuereas y |fuego| les cresce. Assi que se pueden estos herejes dezir agotes [81-Viaje-117" Fig, 7. Estructura de una entrada det diecionario Oinenart, 21, 2008, 331-343 Ueal Gaiceran, Coloma: Lematizacién automatica y diecionarios electronicos Pero si se ofrece ademés en formato electronico, las posibilidades de busqueda se multiplican considerablemente. Porque, en efecto, serd posible obtener también, a) listados de los lemas 0 de las formas de mayor frecuencia; ) podran hacerse biisquedas a partir de las variantes 0 de las formas, y no solo de los lemas; ¢) podrén obtenerse listados de todos los neologismos del siglo XV; 4) 0 de los lemas agrupados segin sus funciones gramaticales, tanto en el conjunto del corpus como en un tipo de texto 0 en un texto concreto; ) listados de los lemas en cuya definicién aparece determinado rasgo }0r ejemplo, en rasgos del tipo “aplicado a las caballerias”, que selecciona un grupo de adjetivos-: [Soper ee (fais te un cone ropa iss spnacnreccesrany ae Sei. — pea oseeccsasaanee Fg. 8. Seleccién de los adjetivos f) listados de las locuciones 0 de las perifrasis (identificadas en el campo variantes); 8) listados de las colocaciones 0 de los contextos mas frecuentes de un término; h) listados de todos los contextos en que aparece determinado fenéme- 7o lingiistico.. Y tantos otros que se podrian sugerir, posibles precisamente por el carécter intertextual de un diccionario electronico. Se trata, en suma, de un sinfin de posibilidades que, sin duda, compensarén el esfuerzo realizado. Oinenart, 24, 2006, 331.343 343

You might also like