Ling Corpus

Introducción a la
Lingüística de Corpus
Emmanuel Rojas Benítez
22 de mayo de 2007
1
Índice
• La Lingüística de Corpus como metodología lingüística

• El concepto de corpus
• Clasificación de los corpus
• Desarrollo de un corpus (I): diseño y constitución
• Desarrollo de un corpus (II): codificación y anotación
• Aplicaciones de la Lingüística de Corpus
• Ejemplos de corpus en español
• Bibliografía
2
La Lingüística de Corpus
como metodología lingüística
La Lingüística de Corpus es una metodología empírica de trabajo

para el estudio y la enseñanza de la lengua
Se basa en el empleo de datos reales, de muestras de uso de la

lengua.
El conjunto de datos es lo que se denomina corpus.
3
Antecedentes de la Lingüística de Corpus
Hasta el siglo XIX existe una tradición de trabajos lingüísticos basados en

corpus. Características:
 Conjunto de datos: textos escritos.
 Finalidad: estudio de lenguas muertas (latín, sánscrito,…).
 Necesidad: estos datos constituían el único acercamiento posible a

lenguas que ya no se hablaban.
Finales del siglo XIX-mediados del siglo XX: trabajo con recopilaciones de gran
cantidad de datos escritos. Finalidad:
 Explicar el proceso de adquisición del lenguaje infantil
(transcripciones).
 Obtener listas de vocabulario para la enseñanza de lenguas.
 Realizar estudios comparativos de lenguas.
 Elaborar gramáticas descriptivas.
4
Inicios de la Lingüística de Corpus
La lingüística estructural americana (primera mitad del s. XX) sentó las bases
de la Lingüística de Corpus como metodología empírica y basada en la
observación de datos.
El corpus era considerado la única herramienta válida para el estudio de las

lenguas, porque podía proporcionar por sí mismo los datos necesarios para
una descripción exhaustiva de las mismas.
5
Inicios de la Lingüística de Corpus
Características de los corpus estructuralistas:
 Conjunto de datos: muestras orales o transcripciones.

 Finalidad: estudio de lenguas vivas pero no documentadas por escrito
(lenguas amerindias)
 Necesidad: sólo se podía acceder al conocimiento de dichas lenguas
mediante la recogida de datos orales.
 Centrados en aspectos fonéticos y (morfo)fonológicos.
 No atendían a criterios de representatividad, porque era imposible
manejar un número elevado de datos.
6
Críticas a la Lingüística de Corpus
La aparición de Chomsky (finales de los años 50) supone un cambio radical

de enfoque en los estudios lingüísticos:
 Se impone el racionalismo como filosofía de guía para las
investigaciones relacionadas con el lenguaje.
 El trabajo basado en corpus será objeto de duras críticas durante
los años 60 y 70.
 Se produce un desprestigio general de la metodología basada en
corpus (empirismo) a favor de un acercamiento basado en las
intuiciones del lingüista (racionalismo).
Empirismo Racionalismo
Actuación Competencia
Corpus Intuiciones
7
Críticas teóricas
Las críticas de Chomsky se basan en dos hechos fundamentales:

 La concepción del recurso a la intuición o la introspección del lingüista como único
criterio válido para el estudio de la lengua.
 El papel central de la sintaxis en las primeras versiones del modelo generativista.
Los corpus no se consideran instrumentos válidos porque, desde la perspectiva del modelo de
Chomsky:
 Los corpus dan cuenta de la actuación del hablante, sujeta a errores y variaciones.
La labor del lingüista es reflejar la competencia del hablante, que le permite distinguir
la secuencias gramaticales de las agramaticales.
 Los corpus son parciales e incompletos, porque no contienen todas las oraciones
de la lengua, y son sesgados, porque la inclusión de un elemento dependerá de la
frecuencia de uso.
 Los corpus son cerrados y finitos, y no pueden explicar la naturaleza no finita de las
lenguas, que tienen una infinita capacidad generativa: con un inventario limitado de
signos se generan infinitas combinaciones.
 Los corpus no son la mejor metodología, porque el recurso a la competencia del
hablante ahorra tiempo frente a la búsqueda en un corpus.
 Sólo la introspección nos permite determinar la gramaticalidad de un enunciado o
resolver ambigüedades.
8
Críticas prácticas
Abercrombie (1965) resumió los problemas prácticos existentes en la primera

Lingüística de Corpus:
 El procesamiento de datos era lento, propenso al error y caro, porque era

realizado por personas.
 Requería habilidades de procesamiento de datos todavía no disponibles.
9
Segunda generación de Lingüística de Corpus
Hacia los años 70, al margen de la corriente lingüística dominante, se empezó a

gestar la segunda generación de trabajos en Lingüística de Corpus, marcada por la
presencia del ordenador.
En Estados Unidos se abordó la compilación del primer corpus informatizado
organizado de manera sistemática. Desde entonces, los corpus electrónicos se han
erigido en recursos imprescindibles para la investigación lingüística.
Características de los corpus de ese periodo:

 Presencia de los ordenadores: en los años 60 los ordenadores alcanzan
suficiente potencia de procesamiento y capacidad de almacenamiento para
alojar grandes cantidades de texto.
 Representatividad de los datos: los proyectos de elaboración de corpus
pretenden recoger textos escritos que expliquen el estado de la lengua en
ese momento.
 Se favorecen los corpus de textos escritos frente a los datos orales, que
suponen dificultades técnicas y de transcripción.
 Tamaño de los corpus: alrededor de un millón de palabras.
10
Corpus destacados de este período
 Survey of English Usage Corpus (SEU)

http://www.ucl.ac.uk/english-usage
1 millón de palabras. Intención de constituirse en una descripción sistemática del
inglés hablado. Textos comprendidos entre 1955 y 1985.
 Brown University Corpus of American English (Brown Corpus)

http://clwww.essex.ac.uk/w3c/corpus_ling/content/corpora/list/private/brown/brown.html
500 muestras de 2000 palabras (=1 millón de palabras) de publicaciones de
Estados Unidos de 1961. Objetivo: dar cuenta del inglés americano escrito.
 Lancaster-Oslo/Bergen Corpus (LOB)

http://khnt.hit.uib.no/icamemanuals/lob/INDEX.HTM
1 millón de palabras. Inglés británico escrito en 1961.
 London-Lund Corpus of Spoken English (LLC)

http://icame.uib.no/london-lund/
500.000 palabras. Inglés británico oral: grabaciones realizadas entre 1953 y 1987.
11
Revisión de las críticas
En la década de los 80, diversos autores rebaten las críticas teóricas y prácticas
formuladas contra la primera lingüística de corpus.
Argumentos a favor de los corpus:
 El corpus está sujeto a verificación, lo que descarta el recurso a

ejemplos inventados por el lingüista de forma interesada. Además, en el
caso de datos cuantitativos, como la frecuencia, la intuición no es un
recurso válido.
 La mayoría de enunciados de un corpus son gramaticales, por lo que
los corpus reflejan la competencia.
 Los corpus son una fuente inigualable para la extracción de datos
cuantitativos (frecuencias). Si el corpus está bien diseñado, los datos
serán representativos de la lengua en su totalidad.
 Los ordenadores pueden procesar gran cantidad de datos a coste
reducido, de forma rápida y sin cometer errores.
12
Revisión de las críticas
Lingüística de Corpus Generativismo
Datos Juicios del hablante

 Externos  Internos
 Públicos  Privados
 Observables  No observables
 Verificables  No verificables
 Naturales  Artificiales
 Noción exacta de frecuencia  Noción vaga de frecuencia
13
El renacer de la Lingüística de Corpus
A partir de los años 80, los corpus electrónicos se convierten en un recurso

indispensable para:
 el estudio del lenguaje
 probar hipótesis lingüísticas
 construir sistemas de procesamiento del lenguaje natural
A partir de 1984 (Aarts-Meijs) se generaliza el término

Lingüística de Corpus .
14
El renacer de la Lingüística de Corpus
Hechos que favorecieron el renacer de la Lingüística de Corpus:
 El auge de las áreas aplicadas de la Lingüística, y en particular de la

Lingüística Computacional: necesidad de contar con datos de uso de la
lengua, procedentes de la actuación, de hablantes nativos y no nativos.
 El eclecticismo: el uso de corpus no es incompatible con el recurso a los
juicios del lingüista.
 La mayor disponibilidad de corpus electrónicos (Internet).
 El desarrollo de nuevas tecnologías para la introducción de textos en

formato electrónico (OCR).
 La utilidad de los datos cuantitativos para el estudio de determinados
aspectos del lenguaje.
 En Lingüística Computacional, el desarrollo de productos comerciales que
requieren vocabularios o diccionarios más extensos y el manejo de
frecuencias, estadísticas y cálculos de probabilidades (casos de
ambigüedad).
15
Los grandes corpus textuales
Características:
 Corpus electrónicos (textos informatizados).

 Tamaño: superan los 100 millones de palabras.
 Corpus monitor (abiertos, en continua actualización).
 Propiedad de consorcios comerciales.
 Desarrollo de corpus para una gran número de lenguas y también

de corpus multilingües.
 Automatización del procesamiento de los textos de un corpus
(asignación de categoría gramatical, desambiguación, extracción de
concordancias,…).
16
Los grandes corpus textuales
 The British National Corpus (BNC)

http://www.natcorp.ox.ac.uk/
100 millones de palabras. Inglés británico contemporáneo escrito y hablado.
 The Bank of English (Proyecto COBUILD)
http://www.titania.bham.ac.uk/
524 millones de palabras. Inglés moderno escrito y oral, de diferentes
procedencias.
 Corpus de Referencia del Español Contemporáneo (CREA)
http://www.rae.es/
160 millones de palabras. Textos escritos y orales del español contemporáneo
(desde 1975 a la actualidad).
 Corpus Diacrónico del Español (CORDE)
http://www.rae.es/
250 millones de palabras. Textos escritos del español desde los orígenes del
idioma hasta 1975.
17
Ventajas del trabajo con corpus electrónicos
 Objetividad.
 Posibilidad de verificar las teorías construidas a partir de ellos.
 Rapidez, precisión y consistencia en el procesamiento de los datos.
 Facilidad de acceso y manipulación de los materiales.
 Permiten el procesamiento automático de textos y la explicitación de diferentes

informaciones (categoría gramatical), que facilitan su explotación.
 El mismo recurso puede tener múltiples usos y aplicaciones.
 Responden a la necesidad de disponer de gran cantidad de datos accesibles como

base para el estudio del lenguaje y el desarrollo de sistemas de PLN.
 Permiten automatizar total o parcialmente tareas que antes se realizaban de forma
manual (análisis gramatical y sintáctico).
 Son un recurso para la exploración de los aspectos cuantitativos del lenguaje.
 Son la única vía posible para los estudios diacrónicos, cuando no es posible
recurrir a hablantes vivos.
 Constituyen una muestra para los estudios de variación.
18
Desventajas del trabajo
con corpus electrónicos
 En determinadas áreas los corpus no son suficientes y es necesario
acudir a los análisis manuales.
 En el caso de corpus de lengua oral, si se trabaja con transcripciones,

existe el peligro de alejarse demasiado del texto original.
 El tamaño no es tan importante como la adecuación del corpus a la

finalidad para la que se ha concebido.
19
El concepto de corpus
Requisitos de los corpus:

 Textos en formato electrónico: permite automatizar tareas como la
búsqueda y recuperación de información, el cálculo de frecuencias y la
clasificación de los datos según diferentes criterios.
 Autenticidad de los datos: los textos deben ser muestras reales de uso
de la lengua de estudio, a partir de los cuales se elaboran teorías o
aplicaciones computacionales.
 Criterios de selección: lingüísticos y/o extralingüísticos, según la
finalidad concreta, relacionada con el análisis lingüístico.
 Representatividad: la selección debe responder a parámetros
estadísticos que garanticen la variedad de la lengua de estudio (muestra
representativa).
 Tamaño: Los corpus suelen tener un tamaño finito en millones de
palabras y predeterminado. En la actualidad, el tamaño del corpus no es
tan importante como su diseño; además, depende de la disponibilidad
de los textos y de la finalidad del corpus.
20
Algunas definiciones de corpus
Un corpus es una muestra de una lengua que, habitualmente, se ha

construido a partir de una selección de textos realizada según
determinados criterios y con un determinado objetivo. (Martí-Castellón
2000)
Un corpus es un conjunto de textos de lenguaje natural e irrestricto,

almacenados en un formato electrónico homogéneo, y seleccionados y
ordenados, de acuerdo con criterios explícitos, para ser utilizados como
modelo de un estado o nivel de lengua determinado, en estudios o
aplicaciones relacionados en mayor o menor medida con el análisis
lingüístico. (Santalla 2005)
The term corpus as used in modern linguistics can best be defined as a

collection of sampled texts, written or spoken, in machine-readable
form which may be annotated with various forms of linguistic information.
(McEnery-Xiao-Tono 2006)
21
Corpus/archivo/biblioteca
 Archivo (o colección) informatizado: conjunto de textos electrónicos sin

estructurar, cuyo único criterio de elaboración es la disponibilidad de los
textos.
 Biblioteca de textos electrónicos: textos electrónicos recogidos sin seguir

criterios lingüísticos, pero guardados en un formato estándar.
 Corpus informatizados: los textos se seleccionan según criterios

lingüísticos y/o extralingüísticos, y se codifican según un estándar, con la
finalidad de proporcionar una imagen real de la lengua a partir de la cual se
pueden extraer generalizaciones para su estudio.
22
Ejemplos de archivos y bibliotecas
de textos electrónicos
 Proyecto Gutenberg
http://www.gutenberg.org/wiki/Main_Page
Pionero en la recopilación de libros o textos electrónicos. Recoge textos
clásicos y obras de referencia anteriores a 1923.
 Google Print
http://books.google.com/
Proyecto para digitalizar y poner a disposición de los usuarios de Internet
los fondos bibliográficos de varias universidades.
 The Oxford Text Archive

http://ota.ahds.ac.uk/
Textos en 25 lenguas de autores individuales y obras de referencia.
23
Clasificación de los corpus
Los criterios de clasificación de los corpus vienen determinados por la

finalidad u objetivo que persigue dicho corpus.
Ejemplos:
 el estudio de la obra de un autor
 el estudio de la producción literaria de una época determinada
 la descripción de una lengua o de una variedad, sublenguaje o

aspecto lingüístico concreto
 la obtención de un producto comercial (diccionarios)
24
Tipos de corpus
según la modalidad de la lengua
 Corpus textuales o escritos
 Corpus orales: muestras de lengua hablada, que pueden ser

 transcripciones ortográficas de grabaciones (Lingüística de
Corpus)
 grabaciones y transcripciones ortográficas y/o fonéticas (Fonética
y tecnologías del Habla)
25
Tipos de corpus
según el número de lenguas
 Corpus monolingües: su objetivo es dar cuenta de una lengua o variedad

lingüística.
 Corpus bilingües o multilingües: muestras de dos o más lenguas, que pueden

ser
 corpus comparables (paired texts): textos similares en cuanto a sus
características y los criterios de selección; se utilizan para comparar
variedades de la lengua (estudios contrastivos)
 corpus paralelos (bi-texts): el mismo texto traducido a una o más lenguas;
se utilizan en traducción automática y en entornos bilingües o multilingües
(ONU, UE,…)
 corpus alineados: corpus paralelos en los que, para facilitar su
explotación, los textos están dispuestos uno al lado de otros en párrafos o
frases, de manera que sea fácil extraer las equivalencias; se utilizan como
entrenamiento en sistemas de traducción automática).
26
Tipos de corpus
según la cantidad y distribución de los textos
 Corpus grandes: no tienen límite de palabras o es muy elevado; no

siguen criterios de representatividad o equilibrio.
 Corpus equilibrados: la misma proporción de diferentes tipos de textos.
 Corpus piramidales: textos distribuidos en estratos o niveles, de manera

que en cada nivel hay más variedad y menos textos.
 Corpus cerrados: constan de un número predeterminado de palabras.
 Corpus abiertos o monitor: en constante crecimiento, gracias a la

introducción periódica de nuevos textos según unas proporciones
previamente definidas; suelen incluir textos completos en lugar de
muestras.
27
Tipos de corpus
según la especificidad de los textos
 Corpus generales: pretenden reflejar la lengua o variedad lingüística de la forma más

equilibrada posible.
 Corpus especializados: textos que pueden aportar datos para la descripción de un tipo
particular de lengua.
 Corpus genéricos: textos pertenecientes a un único género; su objetivo es caracterizar dicho

género.
 Corpus canónicos: obra completa de un autor.
 Corpus periódicos o cronológicos: textos de una época concreta; su objetivo es estudiar la

lengua producida durante ese periodo.
 Corpus diacrónicos o históricos: textos de diferentes etapas temporales; la finalidad es

observar la evolución de la lengua.
 Corpus sincrónicos: su finalidad es estudiar una o más variedades lingüística en un momento

determinado, generalmente para establecer comparaciones entre variedades o dialectos.
28
Tipos de corpus
según la representatividad del corpus
 Corpus textuales: formados por textos enteros.
 Corpus de referencia: formados por fragmentos, porque interesa más el

nivel de lengua que el texto en sí mismo; en estos corpus son muy
importantes el equilibrio y la representatividad, porque su objetivo es
proporcionar la información más completa posible sobre una lengua o
variedad lingüística, y tienen que ser suficientemente amplios para
representar todas las variedades relevantes de una lengua y su
vocabulario.
 Corpus léxicos (sample corpus): formados por fragmentos muy breves

de textos, de una longitud constante.
29
Tipos de corpus
según el proceso al que se someta al corpus
 Corpus simples, de datos brutos, no anotados, no codificados: textos

guardados sin formato alguno y sin añadir ninguna información adicional.
 Corpus verticales: el resultado de disponer en forma de columna las palabras de

un texto ordenadas según criterios alfabéticos o frecuenciales.
 Corpus codificados o anotados: formados por textos a los que se han añadido,
de forma manual o automática, determinadas informaciones referidas a la estructura
de los textos (codificación: partes del texto,…) o a aspectos puramente lingüísticos
(anotación: categoría gramatical, estructura sintáctica,…). Los corpus anotados
pueden ser
 corpus analizados morfológicamente: anotados con información

morfológica (categorías morfosintácticas, con mayor o menor detalle)
 corpus “parentizados”: anotados con información sintáctica superficial,
marcada con paréntesis o corchetes
 corpus analizados o treebanks: el texto está procesado sintácticamente
de manera completa, con un análisis exhaustivo.
30
Desarrollo de un corpus:
criterios para la selección de los textos
 Criterios internos o lingüísticos:

 Tema: dominio o ámbito de conocimiento al que pertenece un
texto.
 Estilo: modelo de lengua del texto.
 Criterios externos o situacionales:

 Cronología: fecha de elaboración del texto.
 Origen: del autor, lugar de edición.
 Objetivo: motivación del texto y finalidades que persigue; tipo de
audiencia o público al que se dirige,…
 Género literario: siguiendo la división tradicional (ensayo,
narrativa, poesía, teatro).
 Medio de publicación.
31
otros criterios
 Finalidad del corpus: puede ser general o concreta; cuanto más amplio
sea el objetivo o finalidad, más complicado es el diseño. También se
considera la posible reutilización del corpus.
 Límites temporales, geográficos y lingüísticos de los textos: vendrán
dictados por la finalidad del corpus.
25% español peninsular

Corpus of Contemporary Spanish 25% español de Argentina
50% español de otras zonas de Sudamérica
60% español peninsular
Corpus Textual Vox-Bibliograf 30% español de Sudamérica
10% español de otras zonas
32
otros criterios
Tamaño y tipo de textos:

 textos generales o específicos
 cantidad de texto que se tomará de cada documento (texto

íntegro; fragmentos: selección,…)
Corpus of Contemporary Spanish Muestras textuales de 70.000 palabras
Brown Corpus of American English Muestras textuales de 2.000 palabras
Bank of English Textos enteros
33
otros criterios
 Proporción de temas y géneros
Corpus Textual Vox-Bibliograf
No ficción 25%
Ficción 35%
Periódicos 25%
Panfletos 2,5%
Cartas 2,5%
Otros 10%
34
otros criterios
 Representatividad del corpus: es necesario aplicar una serie de

principios estadísticos que garanticen que las muestras a partir de las
cuales se va a efectuar una generalización sobre la lengua son
representativas de la población (muestreo aleatorio simple, estratificado,
proporcional).
 Debe haber un equilibrio entre las diferentes categorías o tipologías
textuales (textos escritos, orales, generales, específicos,…).
British National Corpus
90% de textos escritos. - Dominio/ campo

Criterios: - Tiempo/ período
- Medio de publicación
10% de textos orales. - Textos informales: demografía
Criterios: (sexo, edad, clase social)
- Textos formales: contexto
35
codificación
Los corpus crudos (raw corpus) o sin anotar son útiles para
determinados aspectos, pero limitados en cuanto a sus posibilidades.
Los corpus anotados (en los que se explicita información lingüística y no

lingüística, en muchos casos de forma automática) enriquecen y aumentan
el potencial del corpus para investigaciones sobre diversos aspectos del
lenguaje.
El procedimiento de anotación de un corpus consiste en introducir una

serie de códigos o etiquetas que pueden referirse a aspectos
lingüísticos (anotación, tagging, parsing) o no lingüísticos (marcaje,
codificación, mark-up).
36
codificación
 Aspectos extratextuales: información externa al texto
 datos de carácter bibliográfico
 temática o género
 autor(es) de la recopilación
 fecha de la recopilación
 …
 Aspectos textuales: información sobre la estructura interna del texto

 títulos
 capítulos
 párrafos
 oraciones
 …
37
estándares de codificación
Referencia COCOA Clave de las etiquetas

<A Chaucer> A = autor
 Referencias COCOA <T Canterbury Tales> T = título
<P 1> P = párrafo
<L 1> L = línea
<poem><title>The Sick Rose</title>

<stanza>
<line>O Rose thou art sick.</line>
<line>The invisible worm,</line>
 TEI <line>That flies in the night</line>
<line>In the howling storm:</line>
</stanza>
<stanza>
<line>Has found out thy bed>/line>
38
ventajas de los corpus anotados
 Facilidad de explotación
 Reutilización
 Multifuncionalidad
39
anotación categorial o gramatical (PoS tagging)
Consiste en asignar a cada unidad léxica del texto un código (etiqueta,

anotación) que indica su categoría o parte de la oración. También suele
incluir información sobre las características morfológicas (género,
número, caso, persona,…).
Los programas que efectúan este proceso de manera automática reciben el

nombre de taggers.
40
anotación categorial o gramatical (PoS tagging)
Texto etiquetado:
Valor de las etiquetas:
41
lematización
Es un proceso íntimamente ligado al anterior, porque no puede lematizarse sin una
anotación (y su consiguiente desambiguación) previas.
Consiste en la reducción de las palabras de un corpus a sus respectivos lemas

o formas básicas (la palabra tal y como aparece en el diccionario).
Es un tipo de anotación especialmente importante para la lexicografía y los

estudios de vocabulario.
El usuario puede examinar todas las variantes de una palabra y extraer información
sobre su frecuencia y distribución.
Existen programas que realizan el proceso de forma automática. En el caso de

lenguas poco flexivas (inglés) no parece ser muy útil, por lo que existen pocos
corpus lematizados.
42
lematización
Texto lematizado:
43
anotación sintáctica (parsing)
De un corpus analizado sintácticamente se puede extraer información
referida a la estructura interna de las oraciones.
Los corpus analizados sintácticamente también reciben el nombre de

treebanks, cuando tiene la forma de diagramas arbóreos, aunque los
más habitual es que la información se represente mediante corchetes o
paréntesis. De ahí la denominación de corpus parentizados (bracketing).
El parsing puede llevarse a cabo de forma automática, pero debido al

número de errores producidos, requiere la corrección o incluso la
anotación totalmente manual.
44
anotación sintáctica (parsing)
La anotación sintáctica puede presentar diferentes niveles de

profundidad:
 skeleton parsing: análisis superficial en el que sólo se marcan los
grandes constituyentes de la oración, sin tener en cuenta su
estructura interna.
 full parsing: representación lo más detallada posible de toda la
estructura de la oración.
45
anotación sintáctica superficial (skeleton parsing)
46
anotación sintáctica detallada (full parsing)
47
diagrama arbóreo (treebank)
48
diagrama arbóreo (treebank)
49
anotación semántica
Consiste en asignar etiquetas que indican rasgos o campos

semánticos de una palabra.
Existen dos tipos de anotación semántica:
 relaciones semánticas entre los elementos de un texto (agente,
paciente); algunos sistemas de parsing ya lo incluyen, porque está
relacionado con la sintaxis.
 rasgos semánticos de las palabras del texto, que generalmente se
anotan como códigos numéricos (synsets).
50
anotación semántica
51
anotación anafórica (o discursiva)
Consiste en la identificación de los referentes de las expresiones

anafóricas, es decir, en la determinación de qué elementos de un texto
aluden al mismo referente (correferencia).
La anotación anafórica se suele llevar a cabo asignando un mismo índice a
los elementos correferenciales.
52
otros tipos de anotación
 Anotación pragmática: actos de habla que aparecen en los diálogos.

 Anotación estilística: rasgo de estilo de textos literarios.
 Anotación fonética: exclusiva de corpus orales.
 Anotación prosódica: también para corpus orales; rasgos
suprasegmentales del habla (acento, entonación, pausas).
 Anotación de errores: errores presentes en corpus formados por textos
de aprendices de una lengua extranjera.
53
otros tipos de anotación
Texto con anotación de errores:
54
Aplicaciones de la Lingüística de Corpus
 Lexicografía: los corpus constituyen una fuente de información básica para la

constitución de diccionarios de la lengua. El proyecto Cobuild (1987) se planteó por
primera vez la elaboración de un diccionario basado en la información extraída de
corpus lingüísticos, tanto para identificar las distintas acepciones como para obtener
ejemplos.
 Lingüística Computacional: se utilizan los datos cuantitativos extraídos de los corpus
en campos como la desambiguación o la asignación de componentes en el análisis
sintáctico.
 Estudios descriptivos de las lenguas (en los ámbitos de la fonética, la gramática, la
semántica, la pragmática, la psicolingüística, la sociolingüística,…).
 Traducción Automática.
 Enseñanza de lenguas.
 Verificación de teorías lingüísticas.
 …
55
Ejemplos de corpus en español
CREA y CORDE (http://www.rae.es/)

Banco de datos del español dividido en dos secciones, una diacrónica
(CORDE) y otra sincrónica (CREA).
CREA CORDE
Medio Prensa 49% Medio Libros 97%

Libros 49% Prensa 3%
Material no publicado 2%
Origen España 74%
Origen España 50% Hispanoamérica 25%
Hispanoamérica 50% Español sefardí y otros 1%
Ámbitos Ciencias y tecnología Textos Prosa 85%
Ciencias sociales, creencias y pensamiento Verso 15%
Política, economía, comercio y finanzas
Artes Épocas De los orígenes hasta 1491
Ocio y vida cotidiana 1492-1712
Salud 1713-1974
Ficción
Épocas 1975-2005, dividido en períodos de 5 años
56
Arthus (Archivo de textos hispánicos de la Universidad de Santiago de

Compostela)
http://www.bds.usc.es/corpus.html
ARTHUS
Origen España 79%
Hispanoamérica 21%
Tipo de Narrativa 37%
textos Ensayo 18%
Teatro 14%
Prensa 11%
Oral 19%
A partir de este corpus, se ha creado la Base de Datos Sintácticos

del español actual (BDS).
http://www.bds.usc.es/bds.html
57
Corpus del Español (Mark Davies)

http://www.corpusdelespanol.org
CORPUS DEL ESPAÑOL

Épocas 1200-1400 (20 millones de palabras)
1500-1700 (40 millones de palabras)
1800-1900 (40 millones de palabras
Tipo de textos (época 1900) Literatura
Textos orales
Periódicos/Enciclopedias
58
LexEsp (Léxico informatizado del español)

Corpus de español escrito (1978-1995)
LEXESP
Tipo de textos Narrativa 40%

Divulgación científica 10%
Ensayo 10%
Prensa diaria 25%
Semanarios 10%
Prensa deportiva 5%
CLiC-TALP es un subcorpus creado a partir de LexEsp (100.000

palabras), constituido para ser utilizado como base para el aprendizaje
automático para la desambiguación morfosintáctica.
http://clic.fil.ub.es/
59
Bibliografía
 Caravedo, R. (1999). Lingüística del Corpus. Cuestiones teórico-metodológicas aplicadas al español.

Salamanca: Ediciones Universidad de Salamanca.
 Carrera, M., A. Hernán (2006). “Apuntes sobre la elaboración de un cropus electrónico de documentos del
español de América”, en M. Villayandre, ed., Actas del XXXV Simposio Internacional de la Sociedad Española de
Lingüística. León: Universidad de León, Departamento de Filología Hispánica y Clásica.
 De Kock, J., ed. (2001). Lingüística con corpus. Catorce aplicaciones sobre el español. Salamanca: Ediciones
Universidad de Salamanca.
 Martí, M. A. (2000). Lingüística computacional. Barcelona: Edicions Universitat de Barcelona.
 Payrató, L. et al., eds. (1996). Corpus, corpora. Actes del 1r i 2n Col·loquis Lingüístics de la Universitat de
Barcelona (CLUB-1, CLUB-2). Barcelona: PPU.
 Procházkóva, P. (2006) Fundamentos de la lingüística de corpus. Concepción de los corpus y métodos de
investigación con corpus. [http://www.prochazkova.de/fundamentos_de_la_lingüística_de_corpus.pdf].
 Rafel, J., J. Soler (2001), “El processament de corpus. La lingüística empírica”, en M.A. martí 8coord.), Les
tecnologies del llenguatge. Barcelona: Edicions de la UOC.
 Santalla, M.P. (2005), “La elaboración de corpus lingüísticos”, en M. Cal, P. Núñez, I.M. Palacios, eds., Nuevas
tecnologías en Lingüística, Traducción y Enseñanza de lenguas. Santiago de Compostela: Servizo de
Publicacións da Universidade.
 Torruella, J., J. Llisterri (1999). “Diseño de corpus textuales y orales”, en J.M. Blecua et al., eds. Filología e
informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Editorial Milenio-Universitat Autònoma de
Barcelona.
60
Bibliografía
 Aarts, J., W. Meijs, eds. (1990). Theory and practice in corpus linguistics. Amsterdam, Atlanta,
GA: Rodopi.
 Biber, D., S. Conrad, R. Reppen (1998). Corpus Linguistics. Investigating Language Structure
and Use. Cambridge: Cambridge University Press.
 Granger, S, J. Hung, S. Petch-Tyson, eds. (2002). Computer Learner Corpora, Second
Language Acquisition and Foreign Language Teaching. Amsterdam/Philadelphia: John
Benjamins.
 Halliday, M.A.K, et al. (2004). Lexicology and Corpus Linguistics. London-Ney York:
Continuum.
 McEnery, T., A. Wilson (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press.
 Ooi, Vincent B.Y. (1998). Computer Corpus Lexicography. Edinburgh: Edinburgh University
Press.
 Sinclair, J. (1991). Corpus, concordance, collocation. Oxford: Oxford University Press.
Sinclair, J., ed. (1996). How to use Corpora in Language Teaching. Amsterdam/Philadelphia:
John Benjamins.
 Tognini-Bonelli, E. (2001). Corpus Linguistics at Work. Amsterdam/Philadelphia: John
Benjamins.
61

Ling Corpus

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Ling Corpus

Uploaded by

Copyright:

Available Formats

Introducción a la

Emmanuel Rojas Benítez

• La Lingüística de Corpus como metodología lingüística

La Lingüística de Corpus es una metodología empírica de trabajo

Se basa en el empleo de datos reales, de muestras de uso de la

El conjunto de datos es lo que se denomina corpus.

Hasta el siglo XIX existe una tradición de trabajos lingüísticos basados en

 Finalidad: estudio de lenguas muertas (latín, sánscrito,…).

 Necesidad: estos datos constituían el único acercamiento posible a

 Realizar estudios comparativos de lenguas.

 Elaborar gramáticas descriptivas.

El corpus era considerado la única herramienta válida para el estudio de las

Características de los corpus estructuralistas:

 Conjunto de datos: muestras orales o transcripciones.

La aparición de Chomsky (finales de los años 50) supone un cambio radical

Las críticas de Chomsky se basan en dos hechos fundamentales:

Abercrombie (1965) resumió los problemas prácticos existentes en la primera

 El procesamiento de datos era lento, propenso al error y caro, porque era

 Requería habilidades de procesamiento de datos todavía no disponibles.

Hacia los años 70, al margen de la corriente lingüística dominante, se empezó a

Características de los corpus de ese periodo:

 Survey of English Usage Corpus (SEU)

 Brown University Corpus of American English (Brown Corpus)

 Lancaster-Oslo/Bergen Corpus (LOB)

 London-Lund Corpus of Spoken English (LLC)

Argumentos a favor de los corpus:

 El corpus está sujeto a verificación, lo que descarta el recurso a

Lingüística de Corpus Generativismo

Datos Juicios del hablante

A partir de los años 80, los corpus electrónicos se convierten en un recurso

 probar hipótesis lingüísticas

 construir sistemas de procesamiento del lenguaje natural

A partir de 1984 (Aarts-Meijs) se generaliza el término

Hechos que favorecieron el renacer de la Lingüística de Corpus:

 El auge de las áreas aplicadas de la Lingüística, y en particular de la

 El desarrollo de nuevas tecnologías para la introducción de textos en

 Corpus electrónicos (textos informatizados).

 Corpus monitor (abiertos, en continua actualización).

 Propiedad de consorcios comerciales.

 Desarrollo de corpus para una gran número de lenguas y también

 The British National Corpus (BNC)

 Rapidez, precisión y consistencia en el procesamiento de los datos.

 Facilidad de acceso y manipulación de los materiales.

 Permiten el procesamiento automático de textos y la explicitación de diferentes

 Responden a la necesidad de disponer de gran cantidad de datos accesibles como

 En el caso de corpus de lengua oral, si se trabaja con transcripciones,

 El tamaño no es tan importante como la adecuación del corpus a la

Requisitos de los corpus:

Un corpus es una muestra de una lengua que, habitualmente, se ha

Un corpus es un conjunto de textos de lenguaje natural e irrestricto,

The term corpus as used in modern linguistics can best be defined as a

 Archivo (o colección) informatizado: conjunto de textos electrónicos sin

 Biblioteca de textos electrónicos: textos electrónicos recogidos sin seguir

 Corpus informatizados: los textos se seleccionan según criterios

 The Oxford Text Archive

Los criterios de clasificación de los corpus vienen determinados por la

 la descripción de una lengua o de una variedad, sublenguaje o

 Corpus textuales o escritos

 Corpus orales: muestras de lengua hablada, que pueden ser

 Corpus monolingües: su objetivo es dar cuenta de una lengua o variedad

 Corpus bilingües o multilingües: muestras de dos o más lenguas, que pueden

 Corpus grandes: no tienen límite de palabras o es muy elevado; no

 Corpus equilibrados: la misma proporción de diferentes tipos de textos.