Professional Documents
Culture Documents
Lingüística de Corpus
22 de mayo de 2007
1
Índice
2
La Lingüística de Corpus
como metodología lingüística
3
Antecedentes de la Lingüística de Corpus
Finales del siglo XIX-mediados del siglo XX: trabajo con recopilaciones de gran
cantidad de datos escritos. Finalidad:
Explicar el proceso de adquisición del lenguaje infantil
(transcripciones).
Obtener listas de vocabulario para la enseñanza de lenguas.
4
Inicios de la Lingüística de Corpus
La lingüística estructural americana (primera mitad del s. XX) sentó las bases
de la Lingüística de Corpus como metodología empírica y basada en la
observación de datos.
5
Inicios de la Lingüística de Corpus
6
Críticas a la Lingüística de Corpus
Empirismo Racionalismo
Actuación Competencia
Corpus Intuiciones
7
Críticas teóricas
Los corpus no se consideran instrumentos válidos porque, desde la perspectiva del modelo de
Chomsky:
Los corpus dan cuenta de la actuación del hablante, sujeta a errores y variaciones.
La labor del lingüista es reflejar la competencia del hablante, que le permite distinguir
la secuencias gramaticales de las agramaticales.
Los corpus son parciales e incompletos, porque no contienen todas las oraciones
de la lengua, y son sesgados, porque la inclusión de un elemento dependerá de la
frecuencia de uso.
Los corpus son cerrados y finitos, y no pueden explicar la naturaleza no finita de las
lenguas, que tienen una infinita capacidad generativa: con un inventario limitado de
signos se generan infinitas combinaciones.
Los corpus no son la mejor metodología, porque el recurso a la competencia del
hablante ahorra tiempo frente a la búsqueda en un corpus.
Sólo la introspección nos permite determinar la gramaticalidad de un enunciado o
resolver ambigüedades.
8
Críticas prácticas
9
Segunda generación de Lingüística de Corpus
10
Corpus destacados de este período
11
Revisión de las críticas
En la década de los 80, diversos autores rebaten las críticas teóricas y prácticas
formuladas contra la primera lingüística de corpus.
12
Revisión de las críticas
13
El renacer de la Lingüística de Corpus
14
El renacer de la Lingüística de Corpus
15
Los grandes corpus textuales
Características:
16
Los grandes corpus textuales
http://www.titania.bham.ac.uk/
524 millones de palabras. Inglés moderno escrito y oral, de diferentes
procedencias.
Corpus de Referencia del Español Contemporáneo (CREA)
http://www.rae.es/
160 millones de palabras. Textos escritos y orales del español contemporáneo
(desde 1975 a la actualidad).
Corpus Diacrónico del Español (CORDE)
http://www.rae.es/
250 millones de palabras. Textos escritos del español desde los orígenes del
idioma hasta 1975.
17
Ventajas del trabajo con corpus electrónicos
Objetividad.
Posibilidad de verificar las teorías construidas a partir de ellos.
Son la única vía posible para los estudios diacrónicos, cuando no es posible
recurrir a hablantes vivos.
Constituyen una muestra para los estudios de variación.
18
Desventajas del trabajo
con corpus electrónicos
En determinadas áreas los corpus no son suficientes y es necesario
acudir a los análisis manuales.
19
El concepto de corpus
20
Algunas definiciones de corpus
21
Corpus/archivo/biblioteca
22
Ejemplos de archivos y bibliotecas
de textos electrónicos
Proyecto Gutenberg
http://www.gutenberg.org/wiki/Main_Page
Pionero en la recopilación de libros o textos electrónicos. Recoge textos
clásicos y obras de referencia anteriores a 1923.
Google Print
http://books.google.com/
Proyecto para digitalizar y poner a disposición de los usuarios de Internet
los fondos bibliográficos de varias universidades.
23
Clasificación de los corpus
Ejemplos:
el estudio de la obra de un autor
el estudio de la producción literaria de una época determinada
24
Tipos de corpus
según la modalidad de la lengua
25
Tipos de corpus
según el número de lenguas
26
Tipos de corpus
según la cantidad y distribución de los textos
27
Tipos de corpus
según la especificidad de los textos
Corpus especializados: textos que pueden aportar datos para la descripción de un tipo
particular de lengua.
28
Tipos de corpus
según la representatividad del corpus
29
Tipos de corpus
según el proceso al que se someta al corpus
Corpus codificados o anotados: formados por textos a los que se han añadido,
de forma manual o automática, determinadas informaciones referidas a la estructura
de los textos (codificación: partes del texto,…) o a aspectos puramente lingüísticos
(anotación: categoría gramatical, estructura sintáctica,…). Los corpus anotados
pueden ser
30
Desarrollo de un corpus:
criterios para la selección de los textos
31
Desarrollo de un corpus:
otros criterios
Finalidad del corpus: puede ser general o concreta; cuanto más amplio
sea el objetivo o finalidad, más complicado es el diseño. También se
considera la posible reutilización del corpus.
Límites temporales, geográficos y lingüísticos de los textos: vendrán
dictados por la finalidad del corpus.
32
Desarrollo de un corpus:
otros criterios
33
Desarrollo de un corpus:
otros criterios
No ficción 25%
Ficción 35%
Periódicos 25%
Panfletos 2,5%
Cartas 2,5%
Otros 10%
34
Desarrollo de un corpus:
otros criterios
35
Desarrollo de un corpus:
codificación
Los corpus crudos (raw corpus) o sin anotar son útiles para
determinados aspectos, pero limitados en cuanto a sus posibilidades.
36
Desarrollo de un corpus:
codificación
Aspectos extratextuales: información externa al texto
datos de carácter bibliográfico
temática o género
autor(es) de la recopilación
fecha de la recopilación
…
capítulos
párrafos
oraciones
…
37
Desarrollo de un corpus:
estándares de codificación
38
Desarrollo de un corpus:
ventajas de los corpus anotados
Facilidad de explotación
Reutilización
Multifuncionalidad
39
Desarrollo de un corpus:
anotación categorial o gramatical (PoS tagging)
40
Desarrollo de un corpus:
anotación categorial o gramatical (PoS tagging)
Texto etiquetado:
41
Desarrollo de un corpus:
lematización
Es un proceso íntimamente ligado al anterior, porque no puede lematizarse sin una
anotación (y su consiguiente desambiguación) previas.
El usuario puede examinar todas las variantes de una palabra y extraer información
sobre su frecuencia y distribución.
42
Desarrollo de un corpus:
lematización
Texto lematizado:
43
Desarrollo de un corpus:
anotación sintáctica (parsing)
De un corpus analizado sintácticamente se puede extraer información
referida a la estructura interna de las oraciones.
44
Desarrollo de un corpus:
anotación sintáctica (parsing)
45
Desarrollo de un corpus:
anotación sintáctica superficial (skeleton parsing)
46
Desarrollo de un corpus:
anotación sintáctica detallada (full parsing)
47
Desarrollo de un corpus:
diagrama arbóreo (treebank)
48
Desarrollo de un corpus:
diagrama arbóreo (treebank)
49
Desarrollo de un corpus:
anotación semántica
50
Desarrollo de un corpus:
anotación semántica
51
Desarrollo de un corpus:
anotación anafórica (o discursiva)
52
Desarrollo de un corpus:
otros tipos de anotación
53
Desarrollo de un corpus:
otros tipos de anotación
54
Aplicaciones de la Lingüística de Corpus
55
Ejemplos de corpus en español
56
Ejemplos de corpus en español
ARTHUS
Origen España 79%
Hispanoamérica 21%
Tipo de Narrativa 37%
textos Ensayo 18%
Teatro 14%
Prensa 11%
Oral 19%
58
Ejemplos de corpus en español
LEXESP
Payrató, L. et al., eds. (1996). Corpus, corpora. Actes del 1r i 2n Col·loquis Lingüístics de la Universitat de
Barcelona (CLUB-1, CLUB-2). Barcelona: PPU.
Procházkóva, P. (2006) Fundamentos de la lingüística de corpus. Concepción de los corpus y métodos de
investigación con corpus. [http://www.prochazkova.de/fundamentos_de_la_lingüística_de_corpus.pdf].
Rafel, J., J. Soler (2001), “El processament de corpus. La lingüística empírica”, en M.A. martí 8coord.), Les
tecnologies del llenguatge. Barcelona: Edicions de la UOC.
Santalla, M.P. (2005), “La elaboración de corpus lingüísticos”, en M. Cal, P. Núñez, I.M. Palacios, eds., Nuevas
tecnologías en Lingüística, Traducción y Enseñanza de lenguas. Santiago de Compostela: Servizo de
Publicacións da Universidade.
Torruella, J., J. Llisterri (1999). “Diseño de corpus textuales y orales”, en J.M. Blecua et al., eds. Filología e
informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Editorial Milenio-Universitat Autònoma de
Barcelona.
60
Bibliografía
Aarts, J., W. Meijs, eds. (1990). Theory and practice in corpus linguistics. Amsterdam, Atlanta,
GA: Rodopi.
Biber, D., S. Conrad, R. Reppen (1998). Corpus Linguistics. Investigating Language Structure
and Use. Cambridge: Cambridge University Press.
Granger, S, J. Hung, S. Petch-Tyson, eds. (2002). Computer Learner Corpora, Second
Language Acquisition and Foreign Language Teaching. Amsterdam/Philadelphia: John
Benjamins.
Halliday, M.A.K, et al. (2004). Lexicology and Corpus Linguistics. London-Ney York:
Continuum.
McEnery, T., A. Wilson (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press.
Ooi, Vincent B.Y. (1998). Computer Corpus Lexicography. Edinburgh: Edinburgh University
Press.
Sinclair, J. (1991). Corpus, concordance, collocation. Oxford: Oxford University Press.
Sinclair, J., ed. (1996). How to use Corpora in Language Teaching. Amsterdam/Philadelphia:
John Benjamins.
Tognini-Bonelli, E. (2001). Corpus Linguistics at Work. Amsterdam/Philadelphia: John
Benjamins.
61