Introducción a la Lingüística de Corpus

Emmanuel Rojas Benítez 22 de mayo de 2007
1

Índice

• • • • • • • •

La Lingüística de Corpus como metodología lingüística El concepto de corpus Clasificación de los corpus Desarrollo de un corpus (I): diseño y constitución Desarrollo de un corpus (II): codificación y anotación Aplicaciones de la Lingüística de Corpus Ejemplos de corpus en español Bibliografía
2

La Lingüística de Corpus como metodología lingüística
La Lingüística de Corpus es una metodología empírica de trabajo para el estudio y la enseñanza de la lengua Se basa en el empleo de datos reales, de muestras de uso de la lengua. El conjunto de datos es lo que se denomina corpus.

3

Antecedentes de la Lingüística de Corpus
Hasta el siglo XIX existe una tradición de trabajos lingüísticos basados en corpus. Características:  Conjunto de datos: textos escritos.  Finalidad: estudio de lenguas muertas (latín, sánscrito,…).  Necesidad: estos datos constituían el único acercamiento posible a lenguas que ya no se hablaban. Finales del siglo XIX-mediados del siglo XX: trabajo con recopilaciones de gran cantidad de datos escritos. Finalidad:  Explicar el proceso de adquisición del lenguaje infantil (transcripciones).  Obtener listas de vocabulario para la enseñanza de lenguas.  Realizar estudios comparativos de lenguas.  Elaborar gramáticas descriptivas.
4

Inicios de la Lingüística de Corpus

La lingüística estructural americana (primera mitad del s. XX) sentó las bases de la Lingüística de Corpus como metodología empírica y basada en la observación de datos. El corpus era considerado la única herramienta válida para el estudio de las lenguas, porque podía proporcionar por sí mismo los datos necesarios para una descripción exhaustiva de las mismas.

5

Inicios de la Lingüística de Corpus
Características de los corpus estructuralistas:
 

 

Conjunto de datos: muestras orales o transcripciones. Finalidad: estudio de lenguas vivas pero no documentadas por escrito (lenguas amerindias) Necesidad: sólo se podía acceder al conocimiento de dichas lenguas mediante la recogida de datos orales. Centrados en aspectos fonéticos y (morfo)fonológicos. No atendían a criterios de representatividad, porque era imposible manejar un número elevado de datos.

6

Críticas a la Lingüística de Corpus
La aparición de Chomsky (finales de los años 50) supone un cambio radical de enfoque en los estudios lingüísticos:  Se impone el racionalismo como filosofía de guía para las investigaciones relacionadas con el lenguaje.  El trabajo basado en corpus será objeto de duras críticas durante los años 60 y 70.  Se produce un desprestigio general de la metodología basada en corpus (empirismo) a favor de un acercamiento basado en las intuiciones del lingüista (racionalismo).

Empirismo Actuación Corpus

Racionalismo Competencia Intuiciones
7

Críticas teóricas
Las críticas de Chomsky se basan en dos hechos fundamentales:  La concepción del recurso a la intuición o la introspección del lingüista como único criterio válido para el estudio de la lengua.  El papel central de la sintaxis en las primeras versiones del modelo generativista. Los corpus no se consideran instrumentos válidos porque, desde la perspectiva del modelo de Chomsky:  Los corpus dan cuenta de la actuación del hablante, sujeta a errores y variaciones. La labor del lingüista es reflejar la competencia del hablante, que le permite distinguir la secuencias gramaticales de las agramaticales.  Los corpus son parciales e incompletos, porque no contienen todas las oraciones de la lengua, y son sesgados, porque la inclusión de un elemento dependerá de la frecuencia de uso.  Los corpus son cerrados y finitos, y no pueden explicar la naturaleza no finita de las lenguas, que tienen una infinita capacidad generativa: con un inventario limitado de signos se generan infinitas combinaciones.  Los corpus no son la mejor metodología, porque el recurso a la competencia del hablante ahorra tiempo frente a la búsqueda en un corpus.  Sólo la introspección nos permite determinar la gramaticalidad de un enunciado o resolver ambigüedades.
8

Críticas prácticas
Abercrombie (1965) resumió los problemas prácticos existentes en la primera Lingüística de Corpus:

El procesamiento de datos era lento, propenso al error y caro, porque era realizado por personas. Requería habilidades de procesamiento de datos todavía no disponibles.

9

Segunda generación de Lingüística de Corpus
Hacia los años 70, al margen de la corriente lingüística dominante, se empezó a gestar la segunda generación de trabajos en Lingüística de Corpus, marcada por la presencia del ordenador. En Estados Unidos se abordó la compilación del primer corpus informatizado organizado de manera sistemática. Desde entonces, los corpus electrónicos se han erigido en recursos imprescindibles para la investigación lingüística. Características de los corpus de ese periodo:  Presencia de los ordenadores: en los años 60 los ordenadores alcanzan suficiente potencia de procesamiento y capacidad de almacenamiento para alojar grandes cantidades de texto.  Representatividad de los datos: los proyectos de elaboración de corpus pretenden recoger textos escritos que expliquen el estado de la lengua en ese momento.  Se favorecen los corpus de textos escritos frente a los datos orales, que suponen dificultades técnicas y de transcripción.  Tamaño de los corpus: alrededor de un millón de palabras.

10

Corpus destacados de este período

Survey of English Usage Corpus (SEU) http://www.ucl.ac.uk/english-usage 1 millón de palabras. Intención de constituirse en una descripción sistemática del inglés hablado. Textos comprendidos entre 1955 y 1985. Brown University Corpus of American English (Brown Corpus) http://clwww.essex.ac.uk/w3c/corpus_ling/content/corpora/list/private/brown/brown.html 500 muestras de 2000 palabras (=1 millón de palabras) de publicaciones de Estados Unidos de 1961. Objetivo: dar cuenta del inglés americano escrito. Lancaster-Oslo/Bergen Corpus (LOB) http://khnt.hit.uib.no/icamemanuals/lob/INDEX.HTM 1 millón de palabras. Inglés británico escrito en 1961. London-Lund Corpus of Spoken English (LLC) http://icame.uib.no/london-lund/ 500.000 palabras. Inglés británico oral: grabaciones realizadas entre 1953 y 1987.

11

Revisión de las críticas
En la década de los 80, diversos autores rebaten las críticas teóricas y prácticas formuladas contra la primera lingüística de corpus. Argumentos a favor de los corpus: El corpus está sujeto a verificación, lo que descarta el recurso a ejemplos inventados por el lingüista de forma interesada. Además, en el caso de datos cuantitativos, como la frecuencia, la intuición no es un recurso válido.  La mayoría de enunciados de un corpus son gramaticales, por lo que los corpus reflejan la competencia.  Los corpus son una fuente inigualable para la extracción de datos cuantitativos (frecuencias). Si el corpus está bien diseñado, los datos serán representativos de la lengua en su totalidad.  Los ordenadores pueden procesar gran cantidad de datos a coste reducido, de forma rápida y sin cometer errores.

12

Revisión de las críticas

Lingüística de Corpus Datos
     

Generativismo Juicios del hablante
     

Externos Públicos Observables Verificables Naturales Noción exacta de frecuencia

Internos Privados No observables No verificables Artificiales Noción vaga de frecuencia
13

El renacer de la Lingüística de Corpus
A partir de los años 80, los corpus electrónicos se convierten en un recurso indispensable para:  el estudio del lenguaje  probar hipótesis lingüísticas  construir sistemas de procesamiento del lenguaje natural A partir de 1984 (Aarts-Meijs) se generaliza el término Lingüística de Corpus .

14

El renacer de la Lingüística de Corpus
Hechos que favorecieron el renacer de la Lingüística de Corpus: El auge de las áreas aplicadas de la Lingüística, y en particular de la Lingüística Computacional: necesidad de contar con datos de uso de la lengua, procedentes de la actuación, de hablantes nativos y no nativos.  El eclecticismo: el uso de corpus no es incompatible con el recurso a los juicios del lingüista.  La mayor disponibilidad de corpus electrónicos (Internet).  El desarrollo de nuevas tecnologías para la introducción de textos en formato electrónico (OCR).  La utilidad de los datos cuantitativos para el estudio de determinados aspectos del lenguaje.  En Lingüística Computacional, el desarrollo de productos comerciales que requieren vocabularios o diccionarios más extensos y el manejo de frecuencias, estadísticas y cálculos de probabilidades (casos de ambigüedad).

15

Los grandes corpus textuales
Características: Corpus electrónicos (textos informatizados).  Tamaño: superan los 100 millones de palabras.  Corpus monitor (abiertos, en continua actualización).  Propiedad de consorcios comerciales.  Desarrollo de corpus para una gran número de lenguas y también de corpus multilingües.  Automatización del procesamiento de los textos de un corpus (asignación de categoría gramatical, desambiguación, extracción de concordancias,…).

16

Los grandes corpus textuales
The British National Corpus (BNC) http://www.natcorp.ox.ac.uk/ 100 millones de palabras. Inglés británico contemporáneo escrito y hablado.  The Bank of English (Proyecto COBUILD) http://www.titania.bham.ac.uk/ 524 millones de palabras. Inglés moderno escrito y oral, de diferentes procedencias.  Corpus de Referencia del Español Contemporáneo (CREA) http://www.rae.es/ 160 millones de palabras. Textos escritos y orales del español contemporáneo (desde 1975 a la actualidad).  Corpus Diacrónico del Español (CORDE) http://www.rae.es/ 250 millones de palabras. Textos escritos del español desde los orígenes del idioma hasta 1975.

17

Ventajas del trabajo con corpus electrónicos
Objetividad.  Posibilidad de verificar las teorías construidas a partir de ellos.  Rapidez, precisión y consistencia en el procesamiento de los datos.  Facilidad de acceso y manipulación de los materiales.  Permiten el procesamiento automático de textos y la explicitación de diferentes informaciones (categoría gramatical), que facilitan su explotación.  El mismo recurso puede tener múltiples usos y aplicaciones.  Responden a la necesidad de disponer de gran cantidad de datos accesibles como base para el estudio del lenguaje y el desarrollo de sistemas de PLN.  Permiten automatizar total o parcialmente tareas que antes se realizaban de forma manual (análisis gramatical y sintáctico).  Son un recurso para la exploración de los aspectos cuantitativos del lenguaje.  Son la única vía posible para los estudios diacrónicos, cuando no es posible recurrir a hablantes vivos.  Constituyen una muestra para los estudios de variación.

18

Desventajas del trabajo con corpus electrónicos
En determinadas áreas los corpus no son suficientes y es necesario acudir a los análisis manuales.

En el caso de corpus de lengua oral, si se trabaja con transcripciones, existe el peligro de alejarse demasiado del texto original.

El tamaño no es tan importante como la adecuación del corpus a la finalidad para la que se ha concebido.

19

El concepto de corpus
Requisitos de los corpus:  Textos en formato electrónico: permite automatizar tareas como la búsqueda y recuperación de información, el cálculo de frecuencias y la clasificación de los datos según diferentes criterios.  Autenticidad de los datos: los textos deben ser muestras reales de uso de la lengua de estudio, a partir de los cuales se elaboran teorías o aplicaciones computacionales.  Criterios de selección: lingüísticos y/o extralingüísticos, según la finalidad concreta, relacionada con el análisis lingüístico.  Representatividad: la selección debe responder a parámetros estadísticos que garanticen la variedad de la lengua de estudio (muestra representativa).  Tamaño: Los corpus suelen tener un tamaño finito en millones de palabras y predeterminado. En la actualidad, el tamaño del corpus no es tan importante como su diseño; además, depende de la disponibilidad de los textos y de la finalidad del corpus.
20

Algunas definiciones de corpus
Un

corpus es una muestra de una lengua que, habitualmente, se ha construido a partir de una selección de textos realizada según determinados criterios y con un determinado objetivo. (Martí-Castellón 2000)
Un

corpus es un conjunto de textos de lenguaje natural e irrestricto, almacenados en un formato electrónico homogéneo, y seleccionados y ordenados, de acuerdo con criterios explícitos, para ser utilizados como modelo de un estado o nivel de lengua determinado, en estudios o aplicaciones relacionados en mayor o menor medida con el análisis lingüístico. (Santalla 2005)
The

term corpus as used in modern linguistics can best be defined as a collection of sampled texts, written or spoken, in machine-readable form which may be annotated with various forms of linguistic information. (McEnery-Xiao-Tono 2006)
21

Corpus/archivo/biblioteca
Archivo (o colección) informatizado: conjunto de textos electrónicos sin estructurar, cuyo único criterio de elaboración es la disponibilidad de los textos.

Biblioteca de textos electrónicos: textos electrónicos recogidos sin seguir criterios lingüísticos, pero guardados en un formato estándar.

Corpus informatizados: los textos se seleccionan según criterios lingüísticos y/o extralingüísticos, y se codifican según un estándar, con la finalidad de proporcionar una imagen real de la lengua a partir de la cual se pueden extraer generalizaciones para su estudio.

22

Ejemplos de archivos y bibliotecas de textos electrónicos

Proyecto Gutenberg http://www.gutenberg.org/wiki/Main_Page Pionero en la recopilación de libros o textos electrónicos. Recoge textos clásicos y obras de referencia anteriores a 1923. Google Print http://books.google.com/ Proyecto para digitalizar y poner a disposición de los usuarios de Internet los fondos bibliográficos de varias universidades. The Oxford Text Archive http://ota.ahds.ac.uk/ Textos en 25 lenguas de autores individuales y obras de referencia.
23

Clasificación de los corpus
Los criterios de clasificación de los corpus vienen determinados por la finalidad u objetivo que persigue dicho corpus. Ejemplos: el estudio de la obra de un autor  el estudio de la producción literaria de una época determinada  la descripción de una lengua o de una variedad, sublenguaje o aspecto lingüístico concreto  la obtención de un producto comercial (diccionarios)

24

Tipos de corpus según la modalidad de la lengua

Corpus textuales o escritos Corpus orales: muestras de lengua hablada, que pueden ser  transcripciones ortográficas de grabaciones (Lingüística de Corpus)  grabaciones y transcripciones ortográficas y/o fonéticas (Fonética y tecnologías del Habla)

25

Tipos de corpus según el número de lenguas
Corpus monolingües: su objetivo es dar cuenta de una lengua o variedad lingüística.

Corpus bilingües o multilingües: muestras de dos o más lenguas, que pueden ser  corpus comparables (paired texts): textos similares en cuanto a sus características y los criterios de selección; se utilizan para comparar variedades de la lengua (estudios contrastivos)  corpus paralelos (bi-texts): el mismo texto traducido a una o más lenguas; se utilizan en traducción automática y en entornos bilingües o multilingües (ONU, UE,…)  corpus alineados: corpus paralelos en los que, para facilitar su explotación, los textos están dispuestos uno al lado de otros en párrafos o frases, de manera que sea fácil extraer las equivalencias; se utilizan como entrenamiento en sistemas de traducción automática).

26

Tipos de corpus según la cantidad y distribución de los textos
Corpus grandes: no tienen límite de palabras o es muy elevado; no siguen criterios de representatividad o equilibrio.
 

Corpus equilibrados: la misma proporción de diferentes tipos de textos.

Corpus piramidales: textos distribuidos en estratos o niveles, de manera que en cada nivel hay más variedad y menos textos.
 

Corpus cerrados: constan de un número predeterminado de palabras.

Corpus abiertos o monitor: en constante crecimiento, gracias a la introducción periódica de nuevos textos según unas proporciones previamente definidas; suelen incluir textos completos en lugar de muestras.

27

Tipos de corpus según la especificidad de los textos
Corpus generales: pretenden reflejar la lengua o variedad lingüística de la forma más equilibrada posible.

Corpus especializados: textos que pueden aportar datos para la descripción de un tipo particular de lengua.

Corpus genéricos: textos pertenecientes a un único género; su objetivo es caracterizar dicho género.
  

Corpus canónicos: obra completa de un autor.

Corpus periódicos o cronológicos: textos de una época concreta; su objetivo es estudiar la lengua producida durante ese periodo. Corpus diacrónicos o históricos: textos de diferentes etapas temporales; la finalidad es observar la evolución de la lengua.

Corpus sincrónicos: su finalidad es estudiar una o más variedades lingüística en un momento determinado, generalmente para establecer comparaciones entre variedades o dialectos.

28

Tipos de corpus según la representatividad del corpus

Corpus textuales: formados por textos enteros.

Corpus de referencia: formados por fragmentos, porque interesa más el nivel de lengua que el texto en sí mismo; en estos corpus son muy importantes el equilibrio y la representatividad, porque su objetivo es proporcionar la información más completa posible sobre una lengua o variedad lingüística, y tienen que ser suficientemente amplios para representar todas las variedades relevantes de una lengua y su vocabulario.

Corpus léxicos (sample corpus): formados por fragmentos muy breves de textos, de una longitud constante.

29

Tipos de corpus según el proceso al que se someta al corpus
Corpus simples, de datos brutos, no anotados, no codificados: textos guardados sin formato alguno y sin añadir ninguna información adicional.

Corpus verticales: el resultado de disponer en forma de columna las palabras de un texto ordenadas según criterios alfabéticos o frecuenciales.

Corpus codificados o anotados: formados por textos a los que se han añadido, de forma manual o automática, determinadas informaciones referidas a la estructura de los textos (codificación: partes del texto,…) o a aspectos puramente lingüísticos (anotación: categoría gramatical, estructura sintáctica,…). Los corpus anotados pueden ser

corpus analizados morfológicamente: anotados con información morfológica (categorías morfosintácticas, con mayor o menor detalle)  corpus “parentizados”: anotados con información sintáctica superficial, marcada con paréntesis o corchetes  corpus analizados o treebanks: el texto está procesado sintácticamente de manera completa, con un análisis exhaustivo.

30

Desarrollo de un corpus: criterios para la selección de los textos

Criterios internos o lingüísticos:  Tema: dominio o ámbito de conocimiento al que pertenece un texto.  Estilo: modelo de lengua del texto. Criterios externos o situacionales:  Cronología: fecha de elaboración del texto.  Origen: del autor, lugar de edición.  Objetivo: motivación del texto y finalidades que persigue; tipo de audiencia o público al que se dirige,…  Género literario: siguiendo la división tradicional (ensayo, narrativa, poesía, teatro).  Medio de publicación.

31

Desarrollo de un corpus: otros criterios
Finalidad del corpus: puede ser general o concreta; cuanto más amplio sea el objetivo o finalidad, más complicado es el diseño. También se considera la posible reutilización del corpus.  Límites temporales, geográficos y lingüísticos de los textos: vendrán dictados por la finalidad del corpus.

Corpus of Contemporary Spanish

25% español peninsular 25% español de Argentina 50% español de otras zonas de Sudamérica 60% español peninsular 30% español de Sudamérica 10% español de otras zonas

Corpus Textual Vox-Bibliograf

32

Desarrollo de un corpus: otros criterios
Tamaño

y tipo de textos:  textos generales o específicos  cantidad de texto que se tomará de cada documento (texto íntegro; fragmentos: selección,…)

Corpus of Contemporary Spanish Brown Corpus of American English Bank of English

Muestras textuales de 70.000 palabras Muestras textuales de 2.000 palabras Textos enteros

33

Desarrollo de un corpus: otros criterios

Proporción de temas y géneros

Corpus Textual Vox-Bibliograf No ficción Ficción Periódicos Panfletos Cartas Otros 25% 35% 25% 2,5% 2,5% 10%

34

Desarrollo de un corpus: otros criterios
Representatividad del corpus: es necesario aplicar una serie de principios estadísticos que garanticen que las muestras a partir de las cuales se va a efectuar una generalización sobre la lengua son representativas de la población (muestreo aleatorio simple, estratificado, proporcional).  Debe haber un equilibrio entre las diferentes categorías o tipologías textuales (textos escritos, orales, generales, específicos,…).

British National Corpus 90% de textos escritos. Criterios: 10% de textos orales. Criterios: - Dominio/ campo - Tiempo/ período - Medio de publicación - Textos informales: demografía (sexo, edad, clase social) - Textos formales: contexto
35

Desarrollo de un corpus: codificación
Los corpus crudos (raw corpus) o sin anotar son útiles para determinados aspectos, pero limitados en cuanto a sus posibilidades. Los corpus anotados (en los que se explicita información lingüística y no lingüística, en muchos casos de forma automática) enriquecen y aumentan el potencial del corpus para investigaciones sobre diversos aspectos del lenguaje. El procedimiento de anotación de un corpus consiste en introducir una serie de códigos o etiquetas que pueden referirse a aspectos lingüísticos (anotación, tagging, parsing) o no lingüísticos (marcaje, codificación, mark-up).

36

Desarrollo de un corpus: codificación

Aspectos extratextuales: información externa al texto  datos de carácter bibliográfico  temática o género  autor(es) de la recopilación  fecha de la recopilación  … Aspectos textuales: información sobre la estructura interna del texto  títulos  capítulos  párrafos  oraciones  …
37

Desarrollo de un corpus: estándares de codificación
Referencia COCOA <A Chaucer>

Clave de las etiquetas A = autor T = título P = párrafo L = línea

Referencias COCOA

<T Canterbury Tales> <P 1> <L 1>

<poem><title>The Sick Rose</title> <stanza> <line>O Rose thou art sick.</line>

TEI

<line>The invisible worm,</line> <line>That flies in the night</line> <line>In the howling storm:</line> </stanza> <stanza> <line>Has found out thy bed>/line> 38

Desarrollo de un corpus: ventajas de los corpus anotados

Facilidad de explotación Reutilización Multifuncionalidad

39

Desarrollo de un corpus: anotación categorial o gramatical (PoS tagging)

Consiste en asignar a cada unidad léxica del texto un código (etiqueta, anotación) que indica su categoría o parte de la oración. También suele incluir información sobre las características morfológicas (género, número, caso, persona,…). Los programas que efectúan este proceso de manera automática reciben el nombre de taggers.

40

Desarrollo de un corpus: anotación categorial o gramatical (PoS tagging)
Texto etiquetado:

Valor de las etiquetas:

41

Desarrollo de un corpus: lematización
Es un proceso íntimamente ligado al anterior, porque no puede lematizarse sin una anotación (y su consiguiente desambiguación) previas. Consiste en la reducción de las palabras de un corpus a sus respectivos lemas o formas básicas (la palabra tal y como aparece en el diccionario). Es un tipo de anotación especialmente importante para la lexicografía y los estudios de vocabulario. El usuario puede examinar todas las variantes de una palabra y extraer información sobre su frecuencia y distribución. Existen programas que realizan el proceso de forma automática. En el caso de lenguas poco flexivas (inglés) no parece ser muy útil, por lo que existen pocos corpus lematizados.

42

Desarrollo de un corpus: lematización
Texto lematizado:

43

Desarrollo de un corpus: anotación sintáctica (parsing)
De un corpus analizado sintácticamente se puede extraer información referida a la estructura interna de las oraciones. Los corpus analizados sintácticamente también reciben el nombre de treebanks, cuando tiene la forma de diagramas arbóreos, aunque los más habitual es que la información se represente mediante corchetes o paréntesis. De ahí la denominación de corpus parentizados (bracketing). El parsing puede llevarse a cabo de forma automática, pero debido al número de errores producidos, requiere la corrección o incluso la anotación totalmente manual.

44

Desarrollo de un corpus: anotación sintáctica (parsing)
La anotación sintáctica puede presentar diferentes niveles de profundidad: skeleton parsing: análisis superficial en el que sólo se marcan los grandes constituyentes de la oración, sin tener en cuenta su estructura interna.

full parsing: representación lo más detallada posible de toda la estructura de la oración.

45

Desarrollo de un corpus: anotación sintáctica superficial (skeleton parsing)

46

Desarrollo de un corpus: anotación sintáctica detallada (full parsing)

47

Desarrollo de un corpus: diagrama arbóreo (treebank)

48

Desarrollo de un corpus: diagrama arbóreo (treebank)

49

Desarrollo de un corpus: anotación semántica
Consiste en asignar etiquetas que indican rasgos o campos semánticos de una palabra. Existen dos tipos de anotación semántica: relaciones semánticas entre los elementos de un texto (agente, paciente); algunos sistemas de parsing ya lo incluyen, porque está relacionado con la sintaxis.

rasgos semánticos de las palabras del texto, que generalmente se anotan como códigos numéricos (synsets).

50

Desarrollo de un corpus: anotación semántica

51

Desarrollo de un corpus: anotación anafórica (o discursiva)
Consiste en la identificación de los referentes de las expresiones anafóricas, es decir, en la determinación de qué elementos de un texto aluden al mismo referente (correferencia). La anotación anafórica se suele llevar a cabo asignando un mismo índice a los elementos correferenciales.

52

Desarrollo de un corpus: otros tipos de anotación
   

Anotación pragmática: actos de habla que aparecen en los diálogos. Anotación estilística: rasgo de estilo de textos literarios. Anotación fonética: exclusiva de corpus orales.

Anotación prosódica: también para corpus orales; rasgos suprasegmentales del habla (acento, entonación, pausas). Anotación de errores: errores presentes en corpus formados por textos de aprendices de una lengua extranjera.

53

Desarrollo de un corpus: otros tipos de anotación
Texto con anotación de errores:

54

Aplicaciones de la Lingüística de Corpus
Lexicografía: los corpus constituyen una fuente de información básica para la constitución de diccionarios de la lengua. El proyecto Cobuild (1987) se planteó por primera vez la elaboración de un diccionario basado en la información extraída de corpus lingüísticos, tanto para identificar las distintas acepciones como para obtener ejemplos.

Lingüística Computacional: se utilizan los datos cuantitativos extraídos de los corpus en campos como la desambiguación o la asignación de componentes en el análisis sintáctico.

Estudios descriptivos de las lenguas (en los ámbitos de la fonética, la gramática, la semántica, la pragmática, la psicolingüística, la sociolingüística,…).
    

Traducción Automática. Enseñanza de lenguas. Verificación de teorías lingüísticas. …
55

Ejemplos de corpus en español
CREA y CORDE (http://www.rae.es/) Banco de datos del español dividido en dos secciones, una diacrónica (CORDE) y otra sincrónica (CREA).
CREA
Medio Prensa 49% Libros 49% Material no publicado 2% España 50% Hispanoamérica 50% Ciencias y tecnología Ciencias sociales, creencias y pensamiento Política, economía, comercio y finanzas Artes Ocio y vida cotidiana Salud Ficción 1975-2005, dividido en períodos de 5 años Textos Medio Origen Libros 97% Prensa 3% España 74% Hispanoamérica 25% Español sefardí y otros 1% Prosa 85% Verso 15% De los orígenes hasta 1491 1492-1712 1713-1974

CORDE

Origen Ámbitos

Épocas

Épocas

56

Ejemplos de corpus en español
Arthus (Archivo de textos hispánicos de la Universidad de Santiago de Compostela) http://www.bds.usc.es/corpus.html
ARTHUS
Origen Tipo de textos España 79% Hispanoamérica 21% Narrativa 37% Ensayo 18% Teatro 14% Prensa 11% Oral 19%

A partir de este corpus, se ha creado la Base de Datos Sintácticos del español actual (BDS). http://www.bds.usc.es/bds.html
57

Ejemplos de corpus en español
Corpus del Español (Mark Davies) http://www.corpusdelespanol.org

CORPUS DEL ESPAÑOL
Épocas 1200-1400 (20 millones de palabras) 1500-1700 (40 millones de palabras) 1800-1900 (40 millones de palabras Literatura Textos orales Periódicos/Enciclopedias

Tipo de textos (época 1900)

58

Ejemplos de corpus en español
LexEsp (Léxico informatizado del español) Corpus de español escrito (1978-1995)
LEXESP
Tipo de textos Narrativa 40% Divulgación científica 10% Ensayo 10% Prensa diaria 25% Semanarios 10% Prensa deportiva 5%

CLiC-TALP es un subcorpus creado a partir de LexEsp (100.000 palabras), constituido para ser utilizado como base para el aprendizaje automático para la desambiguación morfosintáctica. http://clic.fil.ub.es/
59

Bibliografía
Caravedo, R. (1999). Lingüística del Corpus. Cuestiones teórico-metodológicas aplicadas al español. Salamanca: Ediciones Universidad de Salamanca.  Carrera, M., A. Hernán (2006). “Apuntes sobre la elaboración de un cropus electrónico de documentos del español de América”, en M. Villayandre, ed., Actas del XXXV Simposio Internacional de la Sociedad Española de Lingüística. León: Universidad de León, Departamento de Filología Hispánica y Clásica.  De Kock, J., ed. (2001). Lingüística con corpus. Catorce aplicaciones sobre el español. Salamanca: Ediciones Universidad de Salamanca.  Martí, M. A. (2000). Lingüística computacional. Barcelona: Edicions Universitat de Barcelona.  Payrató, L. et al., eds. (1996). Corpus, corpora. Actes del 1r i 2n Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2). Barcelona: PPU.  Procházkóva, P. (2006) Fundamentos de la lingüística de corpus. Concepción de los corpus y métodos de investigación con corpus. [http://www.prochazkova.de/fundamentos_de_la_lingüística_de_corpus.pdf].  Rafel, J., J. Soler (2001), “El processament de corpus. La lingüística empírica”, en M.A. martí 8coord.), Les tecnologies del llenguatge. Barcelona: Edicions de la UOC.  Santalla, M.P. (2005), “La elaboración de corpus lingüísticos”, en M. Cal, P. Núñez, I.M. Palacios, eds., Nuevas tecnologías en Lingüística, Traducción y Enseñanza de lenguas. Santiago de Compostela: Servizo de Publicacións da Universidade.  Torruella, J., J. Llisterri (1999). “Diseño de corpus textuales y orales”, en J.M. Blecua et al., eds. Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Editorial Milenio-Universitat Autònoma de Barcelona.

60

Bibliografía
Aarts, J., W. Meijs, eds. (1990). Theory and practice in corpus linguistics. Amsterdam, Atlanta, GA: Rodopi.  Biber, D., S. Conrad, R. Reppen (1998). Corpus Linguistics. Investigating Language Structure and Use. Cambridge: Cambridge University Press.  Granger, S, J. Hung, S. Petch-Tyson, eds. (2002). Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching. Amsterdam/Philadelphia: John Benjamins.  Halliday, M.A.K, et al. (2004). Lexicology and Corpus Linguistics. London-Ney York: Continuum.  McEnery, T., A. Wilson (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press.  Ooi, Vincent B.Y. (1998). Computer Corpus Lexicography. Edinburgh: Edinburgh University Press.  Sinclair, J. (1991). Corpus, concordance, collocation. Oxford: Oxford University Press. Sinclair, J., ed. (1996). How to use Corpora in Language Teaching. Amsterdam/Philadelphia: John Benjamins.  Tognini-Bonelli, E. (2001). Corpus Linguistics at Work. Amsterdam/Philadelphia: John Benjamins.

61