You are on page 1of 34

MASARYKOVA UNIVERZITA

FILOZOFICKÁ FAKULTA

ÚSTAV ROMÁNSKÝCH JAZYKŮ A LITERATUR


ŠPANĚLSKÝ JAZYK A LITERATURA

LOS CORPUS CREA Y CORDE EN EL CONTEXTO DE


LOS CORPUS LINGÜÍSTICOS

BAKALÁŘSKÁ DIPLOMOVÁ PRÁCE

BRNO 2008 JITKA HRUŠKOVÁ

1
Vedoucí práce: Mgr. Petr Stehlík, Ph.D.

2
Prohlašuji, že jsem práci vypracovala
samostatně s využitím uvedených pramenů a literatury.

..............................

V Brně 30. dubna 2008

3
Děkuji na tomto místě Mgr. Petru Stehlíkovi, PhD. za odborné vedení a veškeré velmi
cenné rady, které mi poskytl při sestavování této bakalářské diplomové práce. Děkuji také
PhDr. Kláře Osolsobě za nesmírně přínosné semináře i přednášky z korpusové lingvistiky a za
její pozdější spolupráci. También muchas gracias a Roser Feliu Latorre y a Karel Svačina por
su ayuda.

4
LOS CORPUS CREA Y CORDE EN EL CONTEXTO DE LOS
CORPUS LINGÜÍSTICOS

Índice
1 INTRODUCCIÓN...................................................................................................................6
2 CARACTERÍSTICAS Y FUNCIONES DEL CORPUS........................................................7
2.1 El término del «corpus»........................................................................................................7
2.2. Las características de un corpus y sus tipos.........................................................................8
2.3. Los usos del corpus............................................................................................................12
2.4. El corpus vs. Internet.........................................................................................................13
3 BREVE HISTORIA DE LOS CORPUS LINGÜÍSTICOS..................................................13
4 LOS CORPUS CREA Y CORDE..........................................................................................15
4.1 Introducción a los corpus de RAE. Otros corpus lingüísticos en España...........................15
4.2. Estadísticas generales de CREA, CORDE y Cumbre........................................................16
4.3. Las áreas temáticas.............................................................................................................18
4.4. Los textos de España y los textos de Hispanoamérica.......................................................19
4.5. Texto escrito y texto oral....................................................................................................20
4.6.1. Los aspectos formales de los corpus CREA y CORDE..................................................21
4.6.2. El etiquetado morfosintáctico y la desambiguación.......................................................22
5 LOS CORPUS DE RAE DESDE EL PUNTO DE VISTA DEL USUARIO........................24
5.1. El ambiente........................................................................................................................24
5.2. La consulta, los filtros y otras posibilidades......................................................................25
5.3. La evaluación del ambiente de CREA y CORDE..............................................................27
5.4. Cinco ejemplos prácticos..................................................................................................27
5.5 Sugerencias.........................................................................................................................30
6 CONCLUSIÓN......................................................................................................................31
7 BIBLIOGRAFÍA...................................................................................................................32

5
1 INTRODUCCIÓN

„Thirty years ago [...] it was considered impossible to process texts of several million words
in length. Twenty years ago it was considered marginally possible but lunatic. Ten years ago
it was considered quite possible but still lunatic. Today it is very popular.“
(Sinclair, 1991)1

Los corpus textuales han aparecido en el mundo lingüístico hace poco y lo han
cambiado considerablemente. Aunque antes habían existido proyectos cuantitativos dignos de
atención, la historia de análisis cuantitativo de hecho empieza con su aparición.
Los corpus también facilitaron otra cosa nueva que antes no había sido posible:
acceder a la lengua en el «estado crudo y real». Nunca antes había sido posible tener a
disposición miles de ejemplos del uso auténtico de los elementos de la lengua. Esta novedad,
elogiada por unos, fue rechazada por otros; y cuando los lingüistas reconocidos, como por
ejemplo Noam Chomsky se oponían a los corpus lingüísticos, no fue fácil para la lingüística
computacional sobrepasar estos obstáculos. No obstante, hoy los corpus siguen usándose y su
popularidad aumenta.
Es interesante seguir el proceso de la creación de los corpus nacionales y las
herramientas que se desarrollan para su procesamiento; cada uno de ellos tiene sus
pecularidades, pero aparecen algunos problemas que son comunes para todos.
En este trabajo vamos a describir los rasgos más destacables de los corpus textuales de
la Real Academia Española, fijándonos sobre todo en la composición de los textos y en las
herramientas de procesamiento. Uno de los problemas que es común de muchos corpus, es la
desambiguación. Vamos a dedicarnos a este punto en el contexto del proceso de análisis y
etiquetación. Trataremos de aclarar este problema en el caso de los corpus de RAE. En la
parte práctica presentaremos algunos ejemplos concretos en los que veremos las ventajas y
también las limitaciones del sistema descrito antes.
El estudio está dividido en 3 partes: en la primera nos dedicaremos a las
características de los corpus en general, en la segunda veremos los corpus CREA y CORDE
desde el punto de vista teórico y técnico y en la tercera nos centraremos en ambos corpus
desde la perspectiva del usuario. Las tres partes corresponden a los capítulos 2-3, 4-5 y 6-7,
respectivamente.
1
«Hace treinta años, se consideraba como una cosa imposible procesar textos de varios millones de palabras de
largo. Hace veinte años se consideraba como una cosa parcialmente posible, pero loca. Hace diez años se
consideraba bien posible pero todavía loca. Hoy es una cosa muy popular.» SINCLAIR, J.M. (1991). Corpus,
Concordance, Collocation. Oxford: Oxford University Press, p. 7.

6
2 CARACTERÍSTICAS Y FUNCIONES DEL CORPUS

2.1 El término del «corpus»

El significado de la palabra corpus se expone de diferentes maneras. Esta voz proviene


del latín y sus acepciones son, entre muchas otras: cuerpo humano o de un animal, cuerpo de
un objeto, masa. Sin embargo, corpus posee también otro significado más abstracto:
conjunto, total, corporación.2 Para este último significado hay una nota entre paréntesis en el
diccionario que dice que los elementos de dicho conjunto comparten la siguiente cualidad:
todos están ordenadas. Esta referencia es muy importante para el significado del corpus
lingüístico, tal como lo entendemos hoy. A continuación veremos que la palabra ordenado
aparecerá en cada una de las definiciones del corpus lingüístico en el español actual.
Según el Gran Diccionario de Uso del Español Actual3, el corpus es «conjunto de
textos, procedentes del lenguaje oral o escrito o de ambos, recopilados de fuentes variadas y
ordenados y clasificados según determinados criterios, de tal manera que, sobre ese conjunto,
es posible realizar estudios e investigaciones lingüísticas o literarias.» Sin embargo, podemos
encontrar definiciones ligeramente diferentes, como la del Diccionario de la Lengua
Española de la Real Academia: «conjunto lo más extenso y ordenado posible de datos o
textos científicos, literarios, etc., que pueden servir de base a una investigación,» o por
ejemplo la de Sinclair: «a collection of naturally-occurring language text, chosen to
characterize a state or variety of a language.»4 En las primeras dos definiciones no hay un
acuerdo sobre la extensión de los textos. Un corpus lingüístico no tiene que ser necesariamene
lo más extenso posible,5 porque existen varios tipos de corpus, y según el objetivo elegimos la
extensión y el número de las muestras. Podemos tener un corpus pequeño, que consta sólo de
las obras de un autor y en este corpus estudiamos el estilo del autor. Por otro lado, el corpus
en su significado más estrecho es casi siempre entendido como el corpus nacional, un corpus

2
Véase: PRAŽÁK, Josef (1938). Latinsko – český slovník k potřebě gymnasií a reálných gymnasií. Praha,
Československá grafická unie. p. 310. La formulación exacta, de la que extraigo solo unas partes, es: «1. tělo,
těleso, hmota... 2 .tělo (lidské i zvířecí), postava, vzrůst… »3. metaf.(uspořádané) těleso, celek, kmen, soubor,
sbor, korporace.»
3
SÁNCHEZ, Aquilinio (2001). Gran Diccionario de uso del Español actual. Madrid, SGEL. Notemos que el
subtítulo dice que el diccionario está basado en el Corpus lingüístico Cumbre.
4
SINCLAIR, J.M. (1991). Ob.cit, p.15.
5
Según el Centro de Análisis Informático de los textos, el corpus puede tener entre 20 páginas hasta varios
miles:http://www.ucm.es/info/cait/Doc/INDICACIONES_SOBRE_LA_PREPARACION_FORMAL_DE_COR
PUS.pdf.

7
inmenso, que siempre trata de ser lo más extenso posible. De las definiciones también no
sabemos si las investigaciones pueden ser sólo lingüísticas, literarias o de cualquier tipo. El
objetivo primordial de los corpus es lingüístico, según dice su nombre, pero puede bien servir
a fines sociológicos o psicológicos.6
Cada definición enfoca un distinto aspecto del concepto del corpus. En este trabajo
vamos a entender el corpus como un conjunto ordenado de textos en forma electrónica que
debe tener ciertas características.

2.2. Las características de un corpus y sus tipos

Las características básicas del corpus lingüístico son: representatividad, tamaño final,
formato y anotaciones. Cada una de las características las vamos a estudiar por separado.
La representatividad es una cualidad necesaria para cada corpus lingüístico. Un corpus
lingüístico que es representativo puede ser útil en una investigación sobre la lengua. El corpus
que no es representativo es una mera conjunción de textos que no nos dirá mucho sobre el
estado de la lengua. Una cosa importante en relación con la representatividad es, como
menciona Sinclair, el objetivo con el que se crean los corpus. El objetivo es captar lo «típico y
lo central de la lengua»7. El corpus debe incluir los casos que están siempre presentes en la
lengua, y los casos que son marginales los debería incluir en una proporción razonable en
comparación con los casos frecuentes. Sin embargo, definir la «representatividad» es difícil,
los expertos no se ponen de acuerdo y «la representatividad sigue siendo, hasta ahora, un
concepto bastante vago.»8
El tamaño final es otra característica importante de los corpus. Si se crea un corpus
nuevo, se preconcibe su extensión, aunque el resultado puede ser un poco distinto. Al finalizar
el corpus, «se conserva»9 y se añaden anotaciones. Respecto al tamaño debemos distinguir
varios tipos de corpus. La división no es rígida, algunos de los tipos siguientes pueden
solaparse y un corpus puede ser miembro de más de una categoría.

6
Por ejemplo los corpus orales o corpus de corespondencia.
7
«One of the principle uses of a corpus is to identify what is central and typical in the language. » SINCLAIR,
J.M. Ob.cit, p.17.
8
PÉREZ, Chantal Hernández. (2002) Explotación de los córpora textuales informatizados para la creación de
bases de datos terminológicas basadas en el conocimiento. Apartado 2.3.2. (no hay números de páginas en la
versión electrónica) In: Estudios de Linguística Española. Vol.18. ISSN: 1139-8736.
9
Con la excepción de los corpus monitores.

8
1. Corpus de referencia. Es un corpus inmenso que debería proporcionar una visión
completa de la lengua. Estos corpus se usan para la creación de diccionarios y sirven como
punto de referencia para las gramáticas. Ejemplos: British National Corpus, Český národní
korpus (SYN2000), CREA.
2. Corpus de fragmentos textuales. Es característico de este corpus que no se incluyen
textos completos, sino sólo muestras. Las muestras normalmente tienen el mismo tamaño.
Hoy no se crean tanto como antes: el motivo para la recopilación de los corpus de fragmentos
textuales era sobre todo la técnica insuficiente que entonces no permitía el procesamiento y el
manejo de los corpus grandes. Ejemplo: Brown Corpus.
3. Corpus monitor. El corpus monitor es un corpus que tiene un tamaño constante y al
que se añaden textos nuevos y a la vez se eliminan textos antiguos en una cantidad
equivalente. Actualmente ya no se cuida tanto el tamaño, así que el corpus puede crecer. 10
Ejemplo: CREA.
4. Subcorpus. El subcorpus es una porción del corpus; según Atkins, Clear y Ostler
puede ser cualquier parte de un corpus mayor. Según Sinclair, también el subcorpus debería
tener las características de un corpus (por ejemplo la representatividad). Ejemplo: El
subcorpus oral de banco de datos CREA-CORDE.
5. Corpus especial. El corpus especial se crea con un objetivo diferente que un corpus
de referencia: se centra sólo en el estudio del lenguaje de un grupo social, de una zona, etc.
Suele ser pequeño y no debe cumplir la condición de representatividad. Ejemplo: Un corpus
especializado es un tipo de corpus especial: suele ser pequeño y se centra en algún «grupo
específico de hablantes, normalmente seleccionados por poseer unas características o
particularidades que los alejan del uso general.» 11 A pesar de que se trata de un tipo de corpus
especial, debería cumplir las características del corpus de referencia. Ejemplo: CLUVI
(Corpus Linguístico da Universidade de Vigo)
6. Corpus bilingüe. Normalmente se crea con el objetivo de la traducción automática.
Existen dos tipos de corpus bilingües:
a/ el corpus paralelo, que es un conjunto de textos y traducciones a otra lengua;
Ejemplo: CLUVI (Corpus Linguístico da Universidade de Vigo)
b/ el corpus comparable, que se compone de textos con características similares, pero
no se trata de traducciones. Ejemplo: BCRC (Bilingual Comparable Retrieval Collection;
corpus comparable de inglés y búlgaro. El ejemplo elegido con ciertas restricciones)

10
Comp. PÉREZ, Ch. H. Ob.cit, apartado 2.3.2.
11
PÉREZ, Ch. H. Ob.cit, apartado 4.3.

9
El formato. Para que un texto pueda formar parte de un corpus, es necesario que esté
en forma electrónica. Existen diferentes modos de transferir un texto a la forma electrónica y
prepararlo para el corpus: escanearlo (después el texto se analiza mediante OCR 12),
transcribirlo en el teclado (en el caso de alfabetos diferentes o manuscritos), o adaptarlo, si ya
está en forma electrónica. En 1991 Sinclair escribió en uno de sus libros sobre el TEI (Text
Encoding Initiative): «Esperamos que TEI va a definir los hechos siguientes: la completa
información bibliográfica..., la separación del propio texto de otros códigos de una forma
estándar..., la codificación del texto mediante un formato ampliamente admitido..., la
identificación y clasificación de los códigos diferentes de los códigos del propio texto, etc. »13
TEI fue creado en 1987 y hoy es un proyecto cuyos resultados (publicados en forma de
directrices en 1994) se usan con frecuencia. TEI formó un sistema estandarizado para la
codificación de los textos. La codificación suele hacerse según el sistema SGML (Standard
Generalised Markup Language) y TEI creó las etiquetas estándar para el DTD (Document
Type Definition). El proceso de codificación es bastante complejo por lo que no entraremos
en detalles.14 Lo importante es que gracias a estas herramientas se logra el siguiente objetivo:
todos los textos que formarán parte de un corpus están en el mismo formato, lo que facilita el
intercambio de textos entre varios centros de investigación. Gracias a los sistemas de
codificación podemos poner clasificaciones-anotaciones a un corpus, lo que es esencial en un
corpus.
Las anotaciones. Las anotaciones son clasificaciones e interpretaciones del texto.
Gracias a ellas podemos hacer búsquedas más precisas en el corpus. Las anotaciones son de
dos tipos: extratextuales e intertextuales. Las primeras nos ofrecen información sobre el texto
entero: el título de la obra, el nombre del autor, la fecha de publicación, etc. Las anotaciones
intertextuales son clasificaciones en el nivel de las palabras. Se trata de clasificaciones
gramaticales (tag), de las que las más frecuentes son las morfológicas (las categorías
lexicales) o las sintácticas (la estructura). Las palabras pueden ser también lematizadas: «es
decir, pueden ser asignadas a su lema o forma canónica (la forma base que suele
corresponderse con la entrada o voz en un diccionario).»15
12
Optical Character Recognition. Tecnología usada para el reconocimiento de las letras del texto escaneado,
transfiere el texto a una forma que es procesable mediante el ordenador.
13
«It is to be hoped that TEI will specify such things as: full „bibliographic“ information to be provided..., the
actual language text to be separated from all other codes by a standardized convention..., language text to be
coded in a widely recognized format..., any codes, other than those of running text, to be identified and
clasified..etc. »SINCLAIR, J.M. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press, p
21.
14
Más información sobre el proceso de codificación de los textos puede encontrarse en la página web oficial de
TEI: http://www.tei-c.org/index.xml.
15
PÉREZ, Ch. H. Ob.cit, apartado 2.3.3.

10
En el principio, los métodos de anotación no eran unificados. En 1993 Goffrey Leech
publicó sus 7 máximas que desde entonces sirven como un punto de salida para las
anotaciones:
 hacer posible que las anotaciones puedan ser eliminadas del texto y ése pueda ser
convertido en su forma original;
 que las anotaciones puedan ser extraídas del texto y funcionar independientemente;
 publicar las normas en las que se basan las anotaciones para que los usuarios las
conozcan;
 debería ser claro quién introdujo las anotaciones y cómo;
 ser consciente de que las anotaciones son interpretaciones y que no son 100% infalibles;
 las anotaciones deben estar basadas en unos principios ampliamente reconocidos y
neutrales;
 no existe ningún sistema de anotación que debería ser considerado a priori estándar.
En cuanto al último punto, debemos recordar que Leech publicó sus 7 máximas en
1993, cuando todavía no se conocían las directrices del TEI. Hoy día la mayoría de los
lingüistas considera estas directrices como normas obligatorias.16
Las anotaciones en un corpus de referencia no se insertan a mano; en un corpus tan
grande simplemente no es posible. Para este fin existen herramientas especiales: los
analizadores automáticos, que se especializan en una lengua (ya hemos mencionado algunas
de sus operaciones en la parte dedicada al formato). Hay 3 grados en el proceso del análisis
automático: la división de las palabras (tokens), lematización y puesta de tags
(clasificaciones) a las palabras y la desambiguación (elección de las clasificaciones correctas).
Se usan métodos estadísticos o se trabaja con frases en el nivel sintáctico. Aquí no vamos a
entrar en detalles técnicos, porque las operaciones entre los analizadores automáticos son muy
complejas y, cuando se crean, es necesaria una cooperación de profesionales de la Informática
y lingüistas. Sin embargo, en el análisis automático, aunque sólo sea a nivel morfólogico,
queda todavía mucho camino por recorrer.17

16
Comp. ABAITUA, Joseba. Tratamiento de corpora bilingües. p.8. Ponencia originalmente leída en el
seminario «La ingeniería lingüística en la sociedad de la información», Fundación Duques de Soria. Soria, 17-21
de julio de 2000. Posteriormente publicada en M.A.Martí y J.Llisterri. (2002). Tratamiento del lenguaje natural.
Edicions Universitat de Barcelona: 61-90.
17
En un trabajo dedicado al proceso de análisis morfológico y desambiguación en el corpus checo hemos
estudiado los errores en los resultados del análisis. HRUŠKOVÁ, Jitka. (2007) Slovesné tvary s předponou po- a
jejich homonymie, Frekvenční statistika v ČNK (bakalářská oborová práce). En el futuro vamos a estudiar cómo
podría aumentarse la precisión del análisis.

11
2.3. Los usos del corpus

El uso práctico de los corpus lingüísticos es amplio. Gracias a las estadísticas acerca
de las letras más frecuentes se diseñaron los teclados para las lenguas diferentes y estos datos
también ayudan en la taquigrafía. En cuanto al léxico, se usan para la creación de libros de
texto. Es importante que el estudiante conozca primero lo básico de una lengua y vaya
ampliando su léxico sistemáticamente: primero aprender lo más frecuente y proceder después
a lo marginal. Los textos de los corpus pueden servir también en el propio proceso de
aprendizaje de una lengua extranjera: se trata del llamado «Corpus learning» (cuya gran
ventaja consiste en que el estudiante tiene a mano el contexto natural y también puede
observar los tipos de texto en los que aparece el elemento) y del «DDT» (Data driven-
learning; el estudiante tiene a disposición los textos y a su base intenta responder las
preguntas). Otro uso muy obvio es la creación de diccionarios (por ejemplo: El Gran
Diccionario del Uso del Español Actual) que están dotados con información sobre la
frecuencia de las palabras y con ejemplos en un contexto natural. Pueden servir también para
la creación de diccionarios terminológicos: si necesitamos recopilar un diccionario con por
ejemplo 5000 palabras especializadas de alguna profesión, podemos utilizar el corpus como la
base y seleccionar los 5000 términos que aparecen en los textos con la mayor frecuencia.
Los corpus se usan para las descripciones gramaticales, en sociolingüística
(información sobre el autor, comparación del lenguaje de los hombres y de las mujeres, etc.)
Pueden servir para investigaciones sobre la paternidad literaria: se comparan los textos de
paternidad discutible con los de autoría indiscutible. Sirven también en estudios culturales:
por ejemplo para comparar la lengua española en España e Hispanoamérica, etc. El uso
práctico de los corpus es inmenso y todavía no hemos hablado sobre un sector en el que se
está desafiando la lengua: la traducción automática. Está claro que la traducción automática
no puede llegar a la perfección de la traducción humana, sin embargo, los proyectos son muy
interesantes y son una motivación para los lingüistas. Debemos apuntar en este contexto que
la traducción automática puede funcionar muy bien entre lenguas similares (checo –
eslovaco).

12
2.4. El corpus vs. Internet

Si ahora comparamos el corpus con Internet, vemos que aunque a veces Internet se
parece mucho al corpus lingüístico y puede servirnos para fines similares, no se trata de lo
mismo. Internet es un conjunto de textos sin ningún control lingüístico. Su representatividad
es problemática, porque no sabemos en qué proporción se encuentran allí los textos y qué
géneros predominan. El tamaño de Internet cambia cada día, incluso cada minuto algunos
textos desaparecen (porque ya no son actuales, por ejemplo) y surgen otros nuevos. El
problema mayor del Internet es, sin duda, la incertidumbre en cuanto al origen de los textos.
Por supuesto encontramos allí un montón de publicaciones de todo tipo, libros en forma
electrónica y artículos de revistas científicas con una referencia exacta. Pero, al mismo
tiempo, Internet está lleno de foros de discusión y artículos seudocientíficos cuyos autores se
esconden detrás de alias anónimos. Si volvemos al corpus, vemos que se trata de textos bien
«mantenidos» y controlados por los lingüistas y que están sistematizados por los informáticos.
Sin embargo, ni los corpus son infalibles, así que el usuario debería disponer de una
información básica sobre la creación y procesamiento de los corpus, para esquivar sus
defectos y evitar ciertos errores en su trabajo.

3 BREVE HISTORIA DE LOS CORPUS LINGÜÍSTICOS

Aunque a principios del siglo XX existían proyectos dignos de atención que se


basaban en un increíblemente minucioso y lento trabajo manual con los datos,18 la historia
auténtica de los corpus empieza en los años 60. Los corpus estaban íntimamente unidos a los
ordenadores, que empezaron a desarrollarse en esta década. Fue entonces cuando Nelson
Francis y Henry Kučera dieron el impulso a la creación del Brown Corpus of Standard
American English19. Su mayor aportación fue que era procesable mediante los ordenadores. El

18
Por ejemplo los listados de Kaeding en 1898 o los cálculos estadísticos de Estoup en 1907. Otros proyectos, ya
más avanzados, estaban unidos con la enseñanza de las lenguas: The Teacher's Workbook of 30 000 Words de
Thorndike y Lodge (1944) o un listado de palabras de Michael West (1953). De los más avanzados mencionamos
el Survey of English Usage de Randolph Quirk, un corpus del inglés que se llevó a cabo en 1959, pero debido a
que no estaba procesado por el ordenador, aparecían muchos problemas con su manejo.
19
La fuente la formaron los textos escritos en 1961.

13
Brown corpus tiene también su «hermano» en el Reino Unido: Lancaster-Oslo/Bergen
Corpus, que tiene características similares: el mismo número de las muestras y su extensión,
anotaciones parecidas, etc. Hoy se consideran pequeños (cada uno tiene aproximadamente un
millón de palabras textuales y los dos son ejemplos de los corpus de fragmentos textuales),
pero todavía se utilizan. Otro corpus era el London-Lund Corpus, creado gracias a Jan
Svartvik en 1975. Svartvik a su vez utilizó el corpus Survey of English Usage de Randolph
Quirk, que no estaba digitalizado, y lo transfirió a la forma digitalizada (véase la nota 18).
Estamos en 2008 y el avance de los corpus ha sido enorme desde aquella época. Por
eso los tres proyectos mencionados antes ya «podrían denominarse corpus de la primera
generación.»20 Pasemos ahora a la segunda generación de los corpus lingüísticos. Aquí el
proyecto más importante fue el Cobuild con 7 millones de palabras, que, posteriormente, se
incrementó a 20 millones. Fue dirigido por Sinclair y finalizó en 1987. ¿Y por qué está
incluido este proyecto ya entre los corpus de segunda generación? Con Cobuild la lingüística
computacional traspasó la puerta de los laboratorios y las universidades y llegó a un público
amplio. El corpus ya no era una cosa exclusiva. Los autores desarrollaron herramientas
computacionales para el manejo del corpus y también publicaron varios estudios, artículos e
informes sobre el trabajo con el corpus. El Cobuild sirvió de base para un corpus actual, Bank
of English, que hoy cuenta con 200 millones de palabras.
Como vemos en el ejemplo de Cobuild, el desarollo técnico ya facilitaba el
procesamiento de textos mucho más largos y así se producían unos corpus inmensos, a los
cuales Aquilino Sánchez denomina «corpus de la tercera generación.» 21 Ejemplos: British
National Corpus Initiative (100 millones de palabras) o algunos otros corpus nacionales, por
ejemplo el francés, el holandés o el checo (ČNK).
En cuanto al español, advierte Chantal Pérez que «existe una gran diferencia entre el
número de iniciativas dedicadas a la recopilación de córpora en lengua inglesa y en lengua
española, así como las dimensiones de éstos. La diferencia es tan grande que desafía cualquier
comparación o paralelismo que se pretenda establecer y muestra con claridad que, en lo que
se refiere a la lengua española, es necesario que se promuevan más (y más variadas)
iniciativas para la creación y distribución de recursos lingüísticos.» 22 También antes, en el
Informe sobre Recursos Lingüísticos para el Español (1995) se reconocía que «son más los

20
SÁNCHEZ, Aquilinio. (1995) Cumbre. Corpus lingüístico del Español contemporáneo. Madrid: SGEL. p. 16.
ISBN: 84-7143-546-2.
21
Ibid. p. 17.
22
PÉREZ, Ch. H. Ob.cit, apartado 2.4.2.

14
proyectos de repertorios textuales que los corpus disponibles…»23 Entonces Sánchez
mencionó que había más corpus españoles fuera de España (chileno, argentino, mexicano...)
que dentro de España; el corpus de la Real Academia estaba naciendo – ya desde los años 70
– y el corpus Cumbre tenía sólo 8 millones de palabras. Existía el Corpus Oral de Referencia
del Español Contemporáneo, pero tenía sólo un poco más de un millón de palabras (lo que de
hecho es bastante, al tratarse de un corpus oral). Sobre los corpus españoles que han sido
concluidos y que podemos usar vamos a hablar en el capítulo 4.1.

4 LOS CORPUS CREA Y CORDE

4.1 Introducción a los corpus de RAE. Otros corpus lingüísticos en España

En este apartado vamos a estudiar dos corpus textuales del español: CREA y CORDE.
Vamos a compararlos a menudo con el corpus Cumbre, que por sus características es también
digno de atención, pero debido a algunos hechos (que aclararemos más adelante) no podemos
incluirlo plenamente en el estudio. Hemos elegido estos dos, porque se trata de los corpus de
referencia, tal como lo hemos explicado en el capítulo 2. Además de los corpus mencionados
podemos encontrar otros, como ENTREVIS o El Corpus Oral del Español Peninsular,24 etc.,
pero dejamos estos aparte por su tamaño y por su falta de representatividad (para nuestro
objetivo: nos interesa la lengua en su totalidad). Sin embargo, es necesario tenerlos en cuenta,
porque algunos de los corpus pequeños forman parte de los corpus de la RAE.
Los Corpus de la Real Academia Española (o el banco de datos) tiene dos partes: la
actual, representada por el corpus CREA (Corpus de Referencia del Español Actual), y la
diacrónica, representada por el CORDE (Corpus Diacrónico del Español).
CREA y CORDE son accesibles mediante Internet. La recopilación y sistematización
del banco de datos fue una inmensa obra colectiva en la que participaron especialistas de las
universidades de toda España, muchos proporcionan los textos y otros colaboraron
23
Cita recogida de: SÁNCHEZ, A. Ob.cit, p.18.

24
ENTREVIS no está incluido aquí entre los corpus estudiados, sobre todo por su tamaño (menos de un millón
de palabras textuales), por la falta de representatividad (en ENTREVIS están las entrevistas publicadas en dos
revistas: Tiempo y Cambio16) y porque abarca solo un año (1990). Todo esto no significa que sea un corpus
defectivo o pobre, solo no serviría bien para este trabajo. El corpus oral no está incluido por motivos similares:
su tamaño es aproximadamente un millón de palabras textuales y tampoco es representativo. En el caso del
corpus oral se trata de transcripción de grabaciones con información de la situación en el momento de la
grabación y de los hablantes. Entre otros corpus mencionemos SISCOR (un corpus especial con textos
científicos), CRATER, LEXESP.

15
activamente en la sistematización.25 En la página web oficial de RAE están incluidos
agradecimientos a 40 instituciones y universidades.
Si comparamos ahora el proyecto de RAE con Cumbre es importante notar la
diferencia básica entre ambos. Cumbre es un proyecto llevado a cabo gracias a la financiación
privada de la editorial SGEL. Por eso no es accesible en la Red, aunque Aquilino Sánchez en
su libro26 asegura que los resultados a los que se llegue mediante el Cumbre serán publicados.
Cumbre sirvió de base para la creación del Gran Diccionario del Uso del Español Actual y se
ofrece al cliente una porción del corpus si se compra el diccionario, pero esta parte es muy
pequeña (2 millones de palabras).

4.2. Estadísticas generales de CREA, CORDE y Cumbre

CREA consta de 160 millones27 de palabras textuales (tokens). La palabra textual,


o solo palabra, en el ámbito de los corpus es «una secuencia de matrices concadenadas una
a otra sin espacios en blanco intercalados.»28 Así que el hecho de que el corpus tenga
160 millones de palabras no significa que en la lengua haya tantas palabras, sino que es
porque algunas se repiten con frecuencia y la repetición está incluida en la cifra. Si
comparamos CREA con Cumbre, vemos que Cumbre es más pequeño, ya que tiene «solo»
40 millones de palabras.29
En cuanto a la distribución temporal de los textos incluidos, para CREA fueron
elegidos los textos publicados desde el año 1975 hasta la actualidad. La exacta distribución
temporal de los textos en CREA es difícil de adivinar, porque las informaciones en la página
oficial de la RAE son válidas para la versión del corpus de 2000. Entonces los años
1995- 1999 abarcaron el 30% de los textos, los años 1990-1994 un 25%, y gradualmente el

25
Comp. la página oficial de RAE: http://www.rae.es/rae/gestores.
26
Comp. SÁNCHEZ, A. Ob.cit, p.18.
27
En la página web oficial de RAE se dice que CREA tiene 125 millones de palabras, en la sección «ayuda». Sin
embargo en la misma página encontramos otra cifra de 150 millones de palabras en la sección «estadísticas
generales». La cifra de 160 millones hemos encontrado en la sección de las informaciones sobre el banco de
datos de la RAE. Es casi increíble la inconsistecia de las informaciones que encontramos en un recurso único: la
página web oficial de RAE. Vamos a considerar el dato de 160 millones como el más reciente, y por eso correcto
(febrero 2008).
28
CANTOS, Pascual. (1995)Tratamiento informático y obtención de resultados. IN: SÁNCHEZ, Aquilinio.
Cumbre. Corpus lingüístico del Español contemporáneo. Madrid: SGEL. p. 44.
29
Comp. SÁNCHEZ, Aquilinio, SÁNCHEZ, Moisés Almela (2006). Formalización de las correspondencias
entre acepciones y contextos sintagmáticos en español e inglés. In: Actas del XXXV Simposio Internacional de
la Sociedad Española Lingüística. León, Universidad de León, Departamento de la Filología Hispánica y
Clásica. p. 2. Publicación electrónica: www3.unileon.es/dp/dfh/SEL/actas/Sanchez_Almela.pdf.

16
porcentaje iba disminuyendo hasta un 10% para los años 1975-1980. Marta Pino 30 indica que
CREA está concebido como un corpus monitor, de manera que se añaden textos nuevos y se
eliminan textos viejos, pasando al CORDE, y el corpus, por lo tanto, abarca siempre los
últimos 25 años. Geoffrey Leech también incluye CREA entre los corpus monitor.31
Si hacemos una consulta en la «nómina de autores y obras», veremos que los
documentos más recientes fueron publicados en el año 2005 (El Diario Montañés) y, en el
caso de los libros, en el año 2004 (Álvaro Pombo: Una ventana al norte). Eso se debe al
hecho de que el reajuste de los datos se hace cada 5 años.
El CORDE tiene casi 300 millones32 de palabras textuales y consta de textos que proceden de
la etapa más antigua de la lengua hasta la actualidad menos 25 años, lo que significa que
ahora (2008) el año límite para CORDE es el 1983. Sin embargo, si hacemos una consulta
paralela a la que hemos hecho en CREA, nos sale que los documentos que pasaron de CREA a
CORDE no son posteriores a 1980. Esto es causado de nuevo por lo que hemos mencionado
anteriormente: el reajuste se hace cada 5 años y tenemos que esperar hasta 2010 para
encontrar el año 1983 en CORDE. La distribución cronológica abarca 3 etapas principales: la
Edad Media (desde los orígenes de la literatura española hasta 1492), los Siglos de Oro (1493-
1713) y la etapa contemporánea (desde 1714). El mayor porcentaje de los textos está incluido
en la etapa contemporánea (51%), le siguen con el 28% los Siglos de Oro, y después está la
Edad Media con el 21%.

30
PINO, Marta. Encoding two large Spanish corpora with TEI scheme: design and technical aspects of textual
markup. Computational linguistic department. Instituto de Lexicografía. RAE. Presentado en el workshop The
Text Encoding Initiative Guidelines and Their Application to Building Digitial Libraries 20-23 de Marzo 1996.
31
LEECH, Goffrey (2002). The Importance of Reference Corpora. Hizkuntza-Korpusak. Oraina eta geroa. (2002-
10-24/25)
32
Otra vez podemos observar discrepancias en la propia página de RAE. En la sección «ayuda» pone que el
corpus tiene sólo 125 millones de palabras, en la información sobre CORDE pone 250 millones y en las
estsadísticas generales aparece el número de más de 299 millones de palabras. Está claro que el número va
cambiando siempre cuando los textos de CREA pasan a CORDE, sin embargo deberían ser actualizadas las
estadísticas. Así que la proporción de los textos en CORDE que mencionamos arriba tampoco es exacta.

17
4.3. Las áreas temáticas

Los textos que aparecen en el corpus provienen de recursos diferentes y los


diseñadores tratan de elegir los textos de las áreas temáticas más amplias posible, porque así
se puede lograr la representatividad. En CREA aparecen textos publicados en libros, revistas,
periódicos y también hay transcripción de grabaciones orales. Es interesante que este enorme
corpus «ha comido» a otros corpus más pequeños, entre ellos los mencionados ENTREVIS o
el Corpus oral de referencia del español. En cuanto a las áreas temáticas (hipercampos), cubre
CREA la ciencia y tecnología, ciencias sociales, pensamiento, política y economía, arte, ocio y
vida cotidiana, salud y ficción. En CORDE, además de lo mencionado, hay también poesía de
todo tipo, prosa narrativa (el mayor porcentaje del corpus: el 25%), prosa didáctica, jurídica,
científica, etc. y textos periodísticos. En CREA hay 79 millones de palabras provenientes de
los libros, 68 millones de prensa, y 3 millones misceláneos. En CORDE, por sus
características del corpus histórico, aparecen solamente 3 millones de palabras de prensa, y la
parte de libros representa 296 millones de palabras.33

33
Aquí otra vez no hay un acuerdo en cuanto a los datos. Dejamos aparte las discrepancias que ya están descritas
en la nota 26 y 31 y de ahora en adelante vamos a considerar los datos en «estadísticas generales» como las más
válidas.

18
4.4. Los textos de España y los textos de Hispanoamérica

Cuando se crea un corpus de la lengua española, uno de los problemas claves que
surge es la proporción adecuada de los textos de España y de Hispanoamérica. Para los
españoles es una cuestión problemática y hasta espinosa. En «los rasgos generales de
CREA»34 se dice que la proporción de los textos es de 50% y 50%. Pero si un usuario curioso
examina con cuidado las estadísticas, descubrirá que esta cifra no es precisa: hay
aproximadamente 84 millones de palabras procedientes de recursos españoles y 67 millones
hispanoamericanos, formando una proporción de 56% y 44%. En CORDE, que es un caso
especial, encontramos aproximadamente 58 millones de palabras textuales de Hispanoamérica
y casi 237 millones de palabras textuales de España.
En Cumbre, la proporción es la siguiente: 65% de los textos es de España, y el 35% de
Hispanoamérica.35 Aquilino Sánchez, autor y director del corpus Cumbre, explica lo que
influyó en las decisiones sobre el número de los textos de las dos áreas. El primer argumento
para el predominio de las muestras de España era que «los recursos disponibles no
permitían[…]equilibrar las muestras al 50%.»36 El segundo argumento era el prestigio del
español hablado en la Península Ibérica. Eso quiere decir que los textos escritos en España se
exportan más a Hispanoamérica que al revés.
En CREA la mayoría de los textos hispanoamericanos proviene de la zona mexicana
(40%)37, andina (20%)38 y rioplatense (14%)39. Hay que advertir que en las estadísticas
generales se indica entre 15 - 16 millones de palabras para cada una de las tres zonas, lo que
significa que en realidad casi no hay diferencia en la proporción, tal como se dice en la
sección «los rasgos generales de CREA»40.

34
http://corpus.rae.es/ayuda_c.htm#_Toc30228258
35
Comp. SÁNCHEZ, A. Ob.cit, p.27.
36
Ibid, p.26.
37
México, Sudoeste de Estados Unidos, Guatemala, Honduras, El Salvador México, Sudoeste de Estados
Unidos, Guatemala, Honduras, El Salvador (http://corpus.rae.es/ayuda_c.htm).
38
Parte de Venezuela y Colombia, Ecuador, Perú y Bolivia (http://corpus.rae.es/ayuda_c.htm).
39
Argentina, Paraguay y Uruguay (http://corpus.rae.es/ayuda_c.htm).
40
La causa de la discrepancia de las informaciones será probablemente el crecimiento del corpus en los últimos
años. En las estadísticas están informaciones sobre el corpus «viejo» que tenía 125 millones de palabras, pero
éste ha crecido, se iban añadiendo muestras y las proporciones cambiaron. Aquí vemos, que la amplificación de
los corpus puede ser un asunto problemático, porque no se pueden verificar los resultados o tenemos que buscar
la versión «antigüa» del corpus. Sin duda el manual debería incluir no sólo la información precisa sobre el
número de las palabras textuales que están en el corpus actual, sino también la historia de la amplificación del
corpus. Esto es un defecto fácil de remediar: o actualizar el manual del corpus o poner a la red varias versiones
del corpus para el usuario.

19
Cumbre divide las zonas de Hispanoamérica en México, América Central, América
Andina, etc., pero no pone ninguna nota sobre el porcentaje de los textos de las zonas
respectivas.

4.5. Texto escrito y texto oral

Otro problema, igual de importante y más general, es la proporción de muestras


escritas y orales. La predominancia del lenguaje escrito es típica para la mayoría de los corpus
nacionales y también es típica para CREA. La proporción es del 90% de textos escritos y del
10% de los textos orales. (Cumbre tiene una distribución más elaborada: los textos de España
tienen la proporción del 70% de textos escritos y el 30% de orales, mientras que los de
Hispanoamérica, el 60% de escritos y el 40% de orales). El motivo de esta diferencia es según
Sánchez «el mayor peso del uso escrito en España de cara a la fijación del estándar o de la
norma y en la abundante exportación de libros a Hispanoamérica.» 41 CORDE no tiene la parte
oral, debido la composición temporal de los textos.

41
SÁNCHEZ, A. Ob.cit, p.27.

20
4.6.1. Los aspectos formales de los corpus CREA y CORDE

Los dos corpus, CREA y CORDE, están en el formato SGML y están formalmente
definidos como un tipo de texto (DTD). En cuanto al tipo de las anotaciones 42 que aparecen,
son las siguientes:
 las que ayudan a identificar los textos y los documentos dentro del corpus. Cada texto
obtiene su código único que facilita su identificación. Los códigos tienen que diferir en
los dos corpus para que los textos puedan pasar de CREA a CORDE. En el caso de CREA
se trata concretamente de códigos43 que designan, por ejemplo, el nombre del corpus, el
título de la obra, el tema general o la fecha de publicación. En el caso de CORDE se trata
también del período histórico, el género o subgénero del texto;
 las que ayudan a encontrar fragmento de un texto dentro del corpus. Se trata por ejemplo
del nombre del texto, la página en la que se encuentra el extracto, etc;
 las que lleva (no siempre) el encabezamiento del TEI;
 las que sirven para la identificación de ciertos elementos en el texto.
Existen varios sistemas de clasificación. CREA tiene cuatro; por ejemplo el sistema
que lleva el mismo nombre que el corpus, «crea» sirve para distinguir diferentes campos
temáticos. El sistema «modal» del CORDE sirve para diferenciar la poesía y la prosa mientras
el «epoc» designa el período histórico al que pertenece el texto correspondiente.44
Los códigos y las etiquetas están introducidas o bien a mano, o bien a través de
analizadores automáticos. El procesamiento de texto tiene varias fases y algunas están
llevadas a cabo por un investigador, otras por la máquina (véase el 2.2). Primero se convierte
el texto a la forma electrónica mediante OCR. Después viene la introducción automática de
los códigos estructurales con una revisión humana posterior. Después el texto ya está
preparado para la exportación a SGML. Cuando el texto está introducido en SGML, se le
añaden otras etiquetas bibliográficas, estructurales y no-estructurales. Después de todos estos
procesos se puede acceder a la etiquetación mediante un analizador automático. 45 A las
palabras se añaden etiquetas morfosintácticas (marcan la categoría morfosintáctica y
propiedades morfológicas como el género, número, persona, caso, etc.) y lemas. Es

42
El término de anotación no es tan unificado y se usa distintamente. Lo vamos a entender como clasificaciones
e interpretaciones del texto (véase el capítulo 2.2). También se usa el término de «etiqueta» / « tag» o «código».
El código se usa más en el contexto extratextual y técnico, las etiquetas/tag en el contexto intertextual.
43
Estos códigos difieren ligeramente dependiendo del tipo de documento: un libro o un texto periodístico
necesitan un tratamiento distinto.
44
La parte entera dedicada a los aspectos formales: Comp. PINO, Marta. Ob.cit, (no aparecen números de
páginas en el documento)
45
Comp. PINO, Marta. Ob.cit.

21
imprescindible que después de esta fase venga la desambiguación, mediante la que se
identifica y elige la etiqueta correcta. Trataremos el proceso de etiquetación morfosintáctica y
desambiguación en los apartados siguientes.

4.6.2. El etiquetado morfosintáctico y la desambiguación

El etiquetado morfosintáctico puede hacerse o manualmente o automáticamente.


Aunque se supone que el tratamiento manual es más preciso que el automático (y sin duda lo
es), sus resultados no pueden sobreestimarse. «El factor humano» no es infalible y los
anotadores también cometen errores debido al cansancio, ignorancia, etc.
Nos dedicaremos a los etiquetadores automáticos empleados en el caso del español,
porque las herramientas son dependientes de la lengua a la que se aplican. «Hoy en día,
existen programas de etiquetación gramatical que alcanzan un grado de eficacia bastante alto
y satisfactorio, pero no hay ninguno que logre el cien por cien de precisión en la asignación de
las categorías gramaticales.»46
Para el español fueron creados varios etiquetadores, por ejemplo el generador
MMORPH, utilizado por la RAE: «Se trata de un programa que combina morfología de dos
niveles (para problemas de morfología) y gramáticas de unificación…»47 Otros etiquetadores
para el español son por ejemplo el SMORPH o el SPOST. También existen varios proyectos en
Cataluña: en las universidades se ha desarrollado el CATMORF para el catalán o el analizador
MACO+ para el catalán y para el castellano. MACO+ pone el lema y 13 etiquetas
morfosintácticas a cada una de las palabras, apoyándose sobre el contexto y sus restricciones
y haciendo la decisión con la ayuda de la estadística. El analizador hace un análisis sintáctico
parcial y eso con la ayuda del contexto de la oración analizada. El texto que ha pasado por el
etiquetador (MACO+) está verticalizado y junto a cada palabra vemos las etiquetas y los
lemas adscritos. El problema que aparece ahora es que algunas de las palabras han obtenido
más de una etiqueta (hecho que sucede en un porcentaje bastante alto). El motivo es que el
analizador considera las palabras como unidades separadas y no «es consciente» del contexto
en el que aparecen. En la mayoría de los casos la palabra dentro del contexto ya tiene solo una
única interpretación.

46
SÁNCHEZ, A; SÁNCHEZ, M. A. Ob.cit, p.4.
47
ABAITUA, J. Ob.cit, p. 11.

22
Para la elección de la etiqueta correcta sirve la desambiguación. 48 Hay básicamente
dos modos de cómo desambiguar: basándose en el conocimiento lingüístico o basándose en la
estadística (y el tercer modo: combinación de los dos modos). «Todas ellas [aproximaciones a
la desambigüación] parten de unas consideraciones comunes: la existencia de un conjunto
pequeño de etiquetas potencialmente válidas para cada palabra y la utilización de un contexto
local para realizar la desambiguación... »49
Los sistemas basados en el conocimiento lingüístico están elaboradas como gramáticas
especiales definidas anteriormente (muchas veces copian el formato de la Constraint
Grammar50).
Los modelos estadísticos trabajan con un «corpus entrenador». El proceso es
básicamente éste: se elige una porción pequeña del corpus cuya desambiguación se hace
manualmente. Después se entrena el desambiguador en la porción del corpus y se aplica al
corpus entero. Existen tres tipos de este modelo: TBL (Transformation-based Error-driven
Learning), MBL (Memory Based Learning) y ME (Maximum Entropy). El primer tipo asigna
primero la etiqueta más probable a la palabra. Si la palabra es desconocida, aplica el programa
reglas léxicas que ayudan a reconocer la palabra mediante prefijos o sufijos, etc. Si aún
después la palabra no es reconocida, se aplican reglas contextuales. Después de esto, el
programa que tiene las reglas en su «memoria» se aplica al corpus entero. El modelo MBL se
basa en la «memoria» y «experiencia» que tiene el programa con el corpus entrenador. El
programa está almacenando un conjunto de ejemplos y durante el proceso de la etiquetación
asigna la etiqueta que más se parece a la asignada al corpus entrenador. ME encuentra la
sucesión más probable de las etiquetas para la oración. El programa analiza las palabras en el
contexto más cercano y las etiquetas en el contexto a la izquierda. Si la palabra es
desconocida, el programa analiza también la información morfológica: los sufijos, los
prefijos, etc.51
Cada uno de los dos modelos tiene sus ventajas y desventajas. En los modelos basados
en la estadística puede haber imprecisiones si se aplican a un corpus que no es homogéneo.
Sin embargo, es más fácil preparar los modelos de este tipo, porque no requieren tanto trabajo

48
Vamos a dedicarnos aquí a la desambiguación de la categoría gramatical. Existe también la desambiguación de
la acepción correcta, que dejamos aparte.
49
MÀRQUÉZ, Lluís; PADRÓ, Lluís; RODRÍGUEZ, Horacio (Mayo 1998). Etiquetado morfosintáctico de
corpus textuales. Proceedings of the Congreso Anual de la Asociación Española de Lingüística Aplicada,
AESLA, Logroño, España, p. 3.
50
Se trata de una gramática de restricciones creada por Karlsson en 1995.
51
Toda la parte dedicada a la etiquetación comp. PLA, Ferran; MOLINA, Antonio (2004). Improving part-of-
speech tagging using lexicalized HMMs). In: Natural Language Ingeneering 10 (2). Cambridge University Press,
p. 169-170.

23
previo como los modelos basados en gramática. La preparación de una gramática supone un
trabajo difícil: «La compilación de reglas gramaticales para desambiguar es un proceso
manual, particularmente largo y costoso, pero da mejores resultados a largo plazo.»52

5 LOS CORPUS DE RAE DESDE EL PUNTO DE VISTA DEL USUARIO

5.1. El ambiente

Los corpus de RAE están disponibles en: http://corpus.rae.es/creanet.html. En primer


lugar queremos apreciar el entorno, que es muy favorable al usuario. Si comparamos el corpus
de RAE con el ČNK checo, debemos admitir que aunque con los dos corpus podemos trabajar
de manera parecida y los dos ofrecen las mismas posibilidades, el manejo del corpus de RAE
no requiere tanto estudio previo.
Antes de iniciar la consulta, el usuario puede escoger entre CREA y CORDE. Si no
escoge ningún corpus, la consulta se ejecutará en los dos. A la vez, ya en el primer paso
podemos establecer ciertos criterios restrictivos: establecer un autor o incluso una obra
concreta que queremos consultar y así de hecho creamos un minicorpus. También existe la
posibilidad de poner el criterio cronológico (elegimos un período o un año del que queremos
hacer la consulta), geográfico (España, Argentina, Bolivia, Chile, Ecuador; pero también
Cuba, Filipinas o Estados Unidos, etc.), de escoger el medio (procedencia de los textos: libros,
periódicos, revistas, misceláneo, oral) o el tema (esta sección ofrece mayor amplitud de
elección. Las posibilidades para la selección del tema están muy bien estructuradas, podemos
elegir por ejemplo el tema «Ciencias y Tecnología» o seleccionar un subtema dentro de éste:
«Ingeniería» o «Estadísticas generales», etc). Si no hacemos ninguna selección de las previas,
la consulta se ejecutará del corpus entero, de CREA y CORDE, de todas las obras incluidas y
de todas las áreas geográficas. Por supuesto, el proceso de selección lo podemos hacer poco a
poco, estrechando el ámbito de la consulta.

52
ABAITUA, J. Ob.cit, p.12.

24
5.2. La consulta, los filtros y otras posibilidades

Existen dos maneras de hacer la consulta: usando las palabras del lenguaje natural o
construyendo expresiones lógicas. Ambas se escriben en la casilla de «consulta». En la
sección «ayuda» podemos encontrar sugerencias para la creación de las expresiones lógicas
(operadores lógicos O, Y, NO, DIST). El programa es también capaz de reconocer los signos
para un carácter («?») o para cualquier número de caracteres («*»). El programa diferencia
las mayúsculas y minúsculas y signos diacríticos. Si el resultado de la consulta excede 1000
ejemplos o 2000 documentos, los ejemplos no se visualizan, así que se recomienda que
filtremos o estructuremos mejor la consulta.
Después de hacer la consulta podemos ver su estadística, podemos filtrar su resultado
y trabajar con los datos obtenidos. Dos filtros básicos con los que podemos reducir el número
de ejemplos son: el filtro de documentos obtenidos y el de casos obtenidos. Los dos se
incorporan de tal manera que no efectúan la representatividad de la muestra (o la efectúan
mínimamente). Si queremos disminuir el número de los documentos a la mitad, elegimos los
documentos y en la casita de «ratio» ponemos el número 2 (no ½ como se dice un poco
ambiguamente en la sección de «ayuda»). Así se seleccionará la mitad de los documentos, los
impares. El filtro de casos es más sofisticado: se reduce un porcentaje de ejemplos de cada
documento. Y si queremos mantener la representatividad, apretaremos el botón «mantener
documentos» cuya función es seleccionar como mínimo un ejemplo de cada documento.
En la parte «obtención de ejemplos» podemos ver las concordancias. Esta parte del
sistema está perfectamente diseñada, porque vemos la concordancia con la palabra KWIC
(key word in context, la palabra que buscamos) en azul y junto a la concordancia aparece el
año de la publicación, el medio, el nombre entero del autor, título de la obra, país del que
proviene y el tema. El hecho de tener el resultado junto con estos datos facilita mucho el
trabajo, porque no tenemos que buscar por otras partes significados de las abreviaturas
(usadas por ejemplo en ČNK para los títulos de las obras o para los autores). Si pulsamos en la
palabra KWIC, se abre una ventana nueva con el contexto ampliado y con datos biográficos
del documento completos.
En la parte de «obtención de ejemplos» se nos ofrecen posibilidades no sólo de ver la
concordancia, sino también de ver la lista de los documentos de los que provienen las
muestras, los párrafos de cada documento y las agrupaciones. Estas nos presentan una lista

25
con KWIC junto a un contexto mínimo, según el número y porcentaje de los ejemplos en cada
documento. En la casilla «clasificación» podemos ordenar los ejemplos según criterios
diversos (autor, título, año de publicación, etc. y también según las palabras que aparecen a la
derecha o a la izquierda de KWIC). Entre otras ventajas del sistema, mencionaremos la
elección manual de los ejemplos o la visualización de la información codificada.

Nómina de autores y obras


Si por ejemplo no sabemos exactamente el título de la obra que queremos consultar,
basta con elegir «nómina de autores y obras» y escribir el nombre del autor, y aparecerán
todas las obras suyas que están incluidas en el corpus. También podemos elegir un año y
observar las obras que fueron publicadas entonces. Por supuesto podemos hacer selecciones,
como por ejemplo buscar los libros publicados en Costa Rica en el año 1991.

Estadísticas generales
Ofrecen una información actualizada sobre el número de las palabras textuales en
CREA y CORDE. Hoy (Abril 2008) CREA tiene 150,778,934 y CORDE 299,156,192
palabras. Otra vez vemos las estadísticas según criterios diversos, pero aquí no tan amplios
como en otros apartados.

Ayuda
Es un apartado indispensable para el usuario ya que ofrece instrucción básica sobre el
manejo del programa, las características de los dos corpus, estadísticas más amplias y (una
cosa que apreciamos) un aviso sobre limitaciones y problemas conocidos dentro del sistema.
Los problemas pueden ser causados por la saturación de la red (el sistema no responde y el
usuario tiene que esperar) o debido a la consulta con expresiones lógicas demasiado
complejas. Aquí se recomienda separar o filtrar la expresión de tal manera que se haga en dos
consultas (o más) en vez de una. Al final del apartado encontramos la dirección electrónica a
la que podemos escribir con sugerencias nuevas para las mejoras del sistema.
Es digno de atención que los autores han puesto aquí la información sobre el desarollo
en curso:
«El sistema de consulta continúa en desarrollo. Las principales novedades que serán incluidas
en sucesivas versiones del programa son las siguientes:
-Nuevos filtros estadísticos.

26
-Recuperación sobre textos anotados con información lingüística (lema, clase de palabra,
género, número, etc).
-Salvaguardia de los perfiles de consulta.»53

5.3. La evaluación del ambiente de CREA y CORDE

Las ventajas indiscutibles incluyen desde el acceso libre a través de la Red, el diseño
inteligible al novato y el manual para el usuario hasta los detalles como la referencia que pone
cómo citar el corpus (que está presente en todas las ventanas). Sin embargo, en algunas de las
ventajas se esconden problemas: el acceso a través de la Red es la causa de una imposible
visualización de los ejemplos de consultas más extensas y que a veces es imposible
estructurar expresiones lógicas complicadas. La conexión a la Red genera que la búsqueda
muchas veces sea muy lenta. Puede ser que exista la posibilidad de trabajar con el corpus de
manera diferente, pero en las páginas de RAE no aparece ninguna guía para el interesado.
Otro problema es que aunque está disponible un manual para el usuario, no encontramos
ninguna información sobre las etiquetas morfológicas de CREA o CORDE.

5.4. Cinco ejemplos prácticos

1. Queremos averiguar cuántas veces aparece el topónimo «Castilla» en la obra Campos


de Castilla de Antonio Machado.
2. Nos interesaría saber los nombres de los autores de Argentina en los años 20 del siglo
XX.
3. Queremos descubrir si Gabriel García Márquez usa en su obra los adverbios que
acaban en –mente y qué proporción hay entre estos adverbios y adjetivos de los que
provienen.
4. Nos gustaría saber cómo se escribía sobre Franco en los periódicos españoles en la
época de su gobierno.
5. Queremos ver cómo se usa el diminutivo de la palabra «todo» en España y en
Hispanoamérica.

53
http://corpus.rae.es/ayuda_c.htm

27
Solución:

1. Elegimos el corpus diacrónico CORDE. En la casilla de consulta ponemos «Castilla»,


en la casilla de autor ponemos «Machado» y en la de la obra «Campos de Castilla». Si
en la casilla de autor ponemos «Antonio Machado», nos sale que «no existen casos
para esta consulta». Tenemos que poner sólo el apellido o la sucesión apellido-nombre.
El resultado es 37 casos en un documento (Campos de Castilla). Si por curiosidad
miramos en la nómina de autores para ver cuántas obras de Machado están incluidas,
nos sale que son sólo 3: Soledades, Campos de Castilla y De un cancionero apócrifo.

2. Seleccionamos la «nómina de autores y obras» y allí el corpus CORDE. En la casilla


de «cronológico» ponemos los años límites 1920 y 1930. De los medios elegimos
libros y de la opción «geográfico» Argentina.
El resultado es: Carlos Bunge, Ricardo Güiraldes, José Ingenieros, Leopoldo Lugones,
Juan Mateos, Roberto Payró y Ernesto Quesada.

3. Elegimos primero el CORDE y después CREA. En la primera consulta ponemos en la


casilla «consulta»: .*mente, y en la casilla de autor: Márquez.
El resultado: 2135 casos en 5 documentos. En la sección «obtención de resultados»
apretamos «recuperar» y nos salen estadísticas de los casos. No podemos ver los
ejemplos, porque hay más de 2000, así que volvemos a la página anterior y ponemos
un filtro introduciendo el número 2 en la casilla «ratio». Sin embargo, después de
filtrar los casos y de la recuperación de las concordancias, teníamos que esperar 30
segundos y el resultado fue: «no se ha encontrado ninguna concordancia válida». El
sistema no responde ni siquiera cuando aumentamos el filtro al 10%. Esta consulta fue
inacertada, probablemente debido a los límites del sistema causados por la conexión a
la red electrónica.

4. Elegimos CORDE y el período 1939 – 1976. En la casilla «consulta» ponemos


«Franco», en el medio «periódicos» y en el área geográfica «España».
Resultado: 106 casos en 44 documentos. El mayor número de ejemplos proviene del
año 1939 (63%) y no hay ni un ejemplo del año 1976. Tenemos que ejecutar la

28
consulta en CREA, poniendo los años 1975 – 1976, para saber más sobre el final del
gobierno de Franco.54 Nos salen 19 casos en 14 documentos para el año 1976.
Recuperamos los párrafos en la obtención de ejemplos y podemos empezar el estudio.
Aquí no podemos dedicarnos a un estudio tan amplio, así que ponemos sólo dos
ejemplos, cada uno del corpus distinto. Por supuesto, el contexto en el corpus es
mucho más amplio.
«Necesitábamos un hombre y Dios nos envió al Generalísimo Franco, que está
demostrando ser un hombre sobrenatural.»(1939)55
«Un régimen de tan implacable rigor doctrinal y práctico como el implantando por el
general Franco, forzosamente ha tenido que dejar honda huella en el espíritu de todos
los que le han servido.»(1976)56

5. Buscamos en los dos corpus. En la casilla de consulta ponemos «todito» y miramos las
estadísticas.
Resultado: En CREA hay 68 casos en 46 documentos. «Todito» se usa más en Perú
(20,58%) , Venezuela (19,11%), México (14,70%), Paraguay (14,70%). España está en
la posición 5 con el 10,29%.
En CORDE encontramos 126 casos en 75 documentos. Aquí, España figura en el
primer lugar con el 44,77%, seguida por Perú (16,93%) y Argentina (12,90%).
Este caso es un excelente ejemplo para demostrar que para un buen trabajo no basta
con la mera extracción de los datos del corpus: necesitan una interpretación. ¿Cómo
puede haber en los resultados una diferencia tan «absurda»? Según nuestra opinión la
causa estriba en el tipo de textos de que provienen los ejemplos concretos. Mientras
que en CREA el medio «oral» está representado por el 33,82%, en CORDE no está
presente del todo. Suponemos que la palabra se usa sobre todo en la lengua hablada,
así que la ausencia de los textos orales en uno de los corpus puede causar deformación
de los resultados.

Cuando ejecutamos una consulta en los corpus, siempre tenemos que ser conscientes
de estos hechos, estar atentos en cuanto a las estadísticas y no olvidar las limitaciones del
54
Aquí vemos que las muestras que ya deberían formar parte de CORDE todavía están en CREA.
55
REAL ACADEMIA ESPAÑOLA: Banco de datos (CORDE) [en línea]. Corpus diacrónico del español.
<http://www.rae.es> [12-04-2008] Todos los resultados que mencionamos son de este mismo día.
56
REAL ACADEMIA ESPAÑOLA: Banco de datos (CREA) [en línea]. Corpus diacrónico del español.
<http://www.rae.es> [12-04-2008]

29
sistema. Confiar en el corpus conlleva también el riesgo de que hagamos consultas que no
tienen sentido, consultas, cuyo resultado deberíamos buscar dentro de la cabeza y no dentro
del corpus. Sin embargo, si no nos olvidamos de pensar de manera lógica durante el trabajo,
los corpus nos proporcionarán una visión nueva y amplia de la lengua, y a veces el trabajo con
el corpus es incluso una aventura y juego interesante.

5.5 Sugerencias

La potencialidad de los corpus de RAE es grande y pueden servir de base para un


trabajo científico. No obstante, existen algunos aspectos de los corpus que entorpecen la
investigación. Según nuestra opinión, estos aspectos no son unos defectos esenciales, pero aun
así pueden afectar a la precisión del estudio. Los aspectos que deberían ser mejor cuidados
son los siguientes:

 la información presentada en la página web oficial de RAE difiere de la realidad. Dado


que los dos corpus cambian su composición y no son «constantes», siempre que se
produce un cambio, debería ser actualizada la estadística, y eso en todas las partes de las
páginas, tanto en la sección «ayuda», como en «estadísticas generales» y en la
información sobre «CREA escrito y oral»57. Como los textos de CREA no pasan a CORDE
diariamente, sino una vez en 4-5 años, no vemos ningún problema en la actualización.
Está claro que con el desplazamiento de los datos cambia ligeramente la composición
percentual de los dos corpus, así que este hecho tampoco debería ser olvidado.
 RAE afirma que la proporción de los textos de Hispanoamérica y España en CREA es del
50% y 50%, lo que según las cifras en «estadísticas generales» no es verdad. Si
calculamos las cifras (véase el apartado 4.2), la proporción sale del 54% y 46% en pro de
España. El problema es que no podemos estar seguros ni de la exactitud de los datos en
«estadísticas generales». La solución de este problema es la misma que en el caso anterior.
 no aparece ninguna información sobre los aspectos técnicos de los corpus, del etiquetado
morfosintáctico ni de los desambiguadores. El usuario no sabe qué tipo de herramientas
57
En esta sección hay datos «actualizados» del 2005:«CREA cuenta hasta ahora (abril de 2005) con unos 160
millones de formas, que se aumentarán hasta conseguir unos 170 millones en los próximos meses, en los que
finalizará la fase que recoge textos generados entre 2000 y 2004.» Estamos en 2008 (april) y en «estadísticas
generales» encontramos la cifra de 150778934 palabras.

30
han sido usadas para el procesamiento de los corpus. Admitimos que el corpus no está
destinado sólo al uso de los especialistas y que un usuario común y corriente no necesita
información de este tipo. Sin embargo, el corpus tampoco está destinado sólo al usuario
común y corriente y debería por lo menos incluir una nota con la información sobre dónde
podemos encontrar estos datos.
 no aparece ninguna nota sobre el uso del etiquetado morfosintáctico: si podemos hacer
búsquedas en CREA y CORDE mediante las etiquetas.

6 CONCLUSIÓN

En este trabajo hemos estudiado los corpus textuales del español CREA y CORDE
dentro del contexto de la lingüística computacional. Hemos tratado el concepto del corpus en
general, enfocándonos sobre todo en su función y características más destacables. Hemos
hablado también sobre la historia de los corpus; ha sido interesante seguir cómo han cambiado
los corpus desde la época de los años 60 y qué cuánto han avanzado algunos proyectos como
por ejemplo TEI: si comparamos lo que Sinclair escribió en 1991 como la propuesta del
proyecto y lo que es TEI hoy, se ve que se cumplieron sus expectativas y que TEI ofrece una
ayuda sustancial en la formalización de los textos.
En cuanto a la historia de los corpus en España, podíamos ver cierto retraso en
comparación con los corpus de inglés; sin embargo, se ha producido un avance enorme en los
últimos años y hoy podemos comparar bien los corpus de RAE con otros corpus nacionales.
Lo que aminora considerablemente el valor de CREA y CORDE en comparación con otros
corpus es la indisponibilidad del etiquetado morfosintáctico.
Hemos tratado sobre las herramientas que se han desarrollado en España para procesar
los corpus lingüísticos. En cuanto a este punto debemos admitir que no hemos encontrado
referencias satisfactorias sobre las herramientas aplicadas concretamente en el caso de CREA
y CORDE. Por otro lado, hemos presentado una información exhaustiva sobre las
posibilidades que ofrecen los dos corpus al usuario ilustrándolo con 5 ejemplos prácticos en
los que podíamos ver claramente las ventajas y desventajas de los corpus de RAE. Hemos
tratado sobre sus deficiencias y en el apartado 5.5 hemos propuesto las posibles mejoras.

31
7 BIBLIOGRAFÍA

CIVIT, Montserrat, MARTÍ, Ma Antonia (2004). Building Cast3LB: A Spanish


Treebank. In: Research on Language and Computation. Volumen 2 (4).

GHADESSY, Mohsen, HENRY, Alex, ROSEBERRY, Robert (2001). Small


Corpus Studies and ELT. Amsterdam/Philadelphia: JBPC.

32
ORTIZ, Antonio Moreno (2000). Diseño e implementación de un lexicón
computacional para lexicografía y traducción automática. In: Estudios de la
Lingüística Española. Volumen 9.

PÉREZ, Chantal Hernández (2002). Explotación de los córpora textuales


informatizados para la creación de bases de datos terminológicas basadas en el
conocimiento. In: Estudios de Lingüística Española. Volumen 18.

PLA, Ferran; MOLINA, Antonio (2004). Improving part-of-speech tagging using


lexicalized HMMs. In: Natural Language Ingeneering. Volumen 10 (2).

PRAŽÁK, Josef (1938). Latinsko – český slovník k potřebě gymnasií a reálných


gymnasií. Praha, Československá grafická unie.

SAIZ-NOEDA, Maximiliano, NAVARRO, Borja, IZQUIERDO RUBÉN (2004).


Semantic-Aided Anaphora Resolution in Large Corpora Development. In: Lecture
Notes in Computer Science. Volumen 3230, p. 314-327.

SÁNCHEZ, Aquilinio (1995). Cumbre. Corpus lingüístico del español


contemporáneo. Madrid: SGEL.

SÁNCHEZ, Aquilinio (2001). Gran Diccionario de uso del español actual.


Madrid, SGEL.

SINCLAIR, J.M. (1991). Corpus, Concordance, Collocation. Oxford: Oxford


University Press.

SINCLAIR, J.M. (2004). Trust the text. Language, Corpus and Discourse.
London: Routledge.

Recursos electrónicos:

ABAITUA, Joseba. Tratamiento de corpora bilingües. Ponencia originalmente


leída en el seminario «La ingeniería lingüística en la sociedad de la información»,
Fundación Duques de Soria. Soria, 17-21 de julio de 2000. Posteriormente

33
publicada en M.A.Martí y J.Llisterri. 2002. Tratamiento del lenguaje natural.
Edicions Universitat de Barcelona: 61-90. Disponible en:
http://paginaspersonales.deusto.es/abaitua/konzeptu/ta/soria00.htm

LAGER, Törbjorn. (1995). A Logical Approach to Computational Corpus


Linguistics. Göteborg University, Sweeden. Disponible en:
http://www.ling.gu.se/~lager/taglog.html

LEECH, Goffrey (2002). The Importance of Reference Corpora. Hizkuntza-


Korpusak. Oraina eta geroa. (2002-10-24/25). Disponible en:
http://www.uzei.com/Modulos/UsuariosFtp/Conexion/archivos59A.pdf

MÀRQUEZ, Lluís; PADRÓ, Lluís; RODRÍGUEZ, Horacio (Mayo 1998).


Etiquetado morfosintáctico de corpus textuales. Proceedings of the Congreso
Anual de la Asociación Española de Lingüística Aplicada, AESLA, Logroño,
España. Disponible en: http://cat.inist.fr/?aModele=afficheN&cpsidt=16335228

PINO, Marta. Ecoding two large Spanish corpora with TEI scheme: design and
technical aspects of textual markup. Computational linguistic department.
Instituto de Lexicografía. RAE. Disponible en:
http://www.cs.vassar.edu/~ide/DL96/pino.txt

REAL ACADEMIA ESPAÑOLA: Banco de datos (CREA/CORDE) [en línea].


Corpus diacrónico del español. <http://www.rae.es>

SÁNCHEZ, Aquilinio, SÁNCHEZ, Moisés Almela (2006). Formalización de las


correspondencias entre acepciones y contextos sintagmáticos en español e inglés.
In: Actas del XXXV Simposio Internacional de la Sociedad Española Lingüística.
León, Universidad de León, Departamento de la Filología Hispánica y Clásica,
p.2. Disponible en: www.3.unileon.es/dp/dfh/SEL/actas/Sanchez_Almela.pdf

http://www.ucm.es/info/cait/Doc/INDICACIONES_SOBRE_LA_PREPARACIO
N_FORMAL_DE_CORPUS.pdf

34

You might also like