You are on page 1of 20

Introducció a la Universitat I

Recursos TIC

Grau en Traducció i Interpretació


Curs 2021-2022

Corpus
Gestors de corpus
Què veurem?
1. Què és un corpus?
2. Aplicacions
3. Tipus de corpus
4. Gestors de corpus
a. Llistes de freqüències de paraules
b. Col·locacions
c. Concordances
5. Alineació
6. Anotacions i marques
Què és un corpus?
Algunes definicions:

[1] “A collection of pieces of language that are selected


and ordered according to explicit linguistic criteria in
order to be used as a sample of the language” (Sinclair)

[2] “A finite collection of machine-readable text,


sampled to be maximally representative of a language
or variety” (McEnery i Wilson)
[3] “Any collection of running texts (as opposed to
examples/sentences), held in electronic form and
analysable automatically or semi-automatically (rather
than manually)” (Baker)

[4] “A body of written text or transcribed speech which


can serve as a basis for linguistic analysis and
description” (Kennedy)
• És finit.
• Està en format electrònic.
• Té uns criteris de disseny definits.
• És representatiu d'una llengua o varietat de llengua.
Aplicacions
• Lexicografia, semàntica, sintaxi, dialectologia,
estilística, lingüística històrica, psicolingüística,
sociolingüística, lingüística computacional, lingüística
forense, ensenyament i adquisició de segones
llengües... traducció:
– TA (entrenament models estadístics)
– TAO (memòria de traducció)
– Extracció d’informació
Avantatges del corpus electrònic (vs. diccionari / corpus en
paper):
1. Es ràpid de construir.
2. Es reutilitzable.
3. Permet la recerca ràpida i sistemàtica d'informació en
molts documents.
4. Ofereix molts exemples i contextos.
5. Permet trobar paraules clau.
6. Facilita la detecció d'informació (p. ex. patrons de
col·locacions).
7. Facilita la detecció de dades de freqüències.
8. Facilita i accelera la recuperació i l'anàlisi de dades
concretes si el corpus està anotat.
Tipus de corpus
a) Modalitat de llengua: escrit, oral i mixt.
b) Percentatge i distribució del tipus de text: gran o
extens, equilibrat, piramidal.
c) Quantitat de text en els documents: textual, de
referència, lèxic.
d) Límits establerts: tancat, obert/monitorització.
e) Període temporal: cronològic, diacrònic o sincrònic.
f) Codificació i l'anotació: anotat, no anotat.
Corpus més rellevants per a la traducció

g) Especificitat dels documents: general, especialitzat,


genèric, canònic.
h) Nombre de llengües:
– Corpus Monolingües:
– Corpus Bilingües / Multilingües
• Corpus Comparables
• Corpus Paral·lels
• Corpus Alineats
Gestors de corpus
• Eines dissenyades per a la gestió de col·leccions de
textos en una o diverses llengües.
• Les utilitzem per assegurar-nos que l'estil i la
terminologia que adoptem en una traducció en un
domini en què no som experts és la correcta.
• Permeten accedir, manipular i mostrar informació del
corpus mitjançant:
– Llistes de freqüència de paraules
– Col·locacions
– Eines de concordança
Llistes de freqüència de paraules

Permeten descobrir la quantitat de paraules diferents


en un corpus i la seva freqüència.
Per exemple, el corpus:
“A collection of pieces of language that are selected
and ordered according to explicit linguistic criteria in
order to be used as a sample of the language”
té 27 paraules, 23 d’elles diferents.
Nota: També poden comptar el nombre de frases i
paràgrafs.
• Algunes eines permeten crear dos tipus de llistes:
– Paraules lematitzades: agrupen paraules amb el
mateix lema; p.ex. traduir: traduiré, tradueix,....
Problemes amb els homògrafs (paraules que
s'escriuen i es pronuncien igual però corresponen a
mots diferents).
– Stop words: termes que volem ignorar - paraules
amb una funció gramatical (articles, conjuncions,
preposicions,...)
Col·locacions

Paraules que apareixen juntes amb una major


probabilitat que si fos a causa de l'atzar.
Per exemple, en la frase
“El deute públic va tancar el 2019 en el 95,5% del PIB.“
deute i públic van juntes perquè són part d’un terme.
En la frase
“Té molts deutes que no sap com pagar“
deutes i que van juntes, però no tenen cap relació.
Informació Mútua (MI): formula per a determinar la
probabilitat que dues paraules siguin col·locacions.
• Si dues paraules estan fortament connectades,
tindran una puntuació MI alta.
• Si apareixen per separat amb més freqüència que
juntes, seva puntuació MI serà baixa.
Concordances

• Eina que recupera totes les ocurrències d'un patró de


cerca en particular en els seus contextos immediats i
els mostra en un format fàcil de llegir. Els patrons de
cerca permeten:
– Distingir entre majúscules i minúscules.
– Utilitzar metacaràcters (* ?)
– Utilitzar operadors booleans (and, or, not)
– Localitzar paraules que es troben a una distancia el patró.
• El format de visualització més comuna es coneix com
a visualització KWIC ("paraula clau en el context").
Key Word in Context (KWIC)
Alineadors de corpus

• Alineació de documents: relacionar els frases


originals amb les seves traduccions corresponents.
• Llegeixen els fitxers que contenen els documents
origen i la traducció, els mostren en paral·lel i
proposen connexions de frases
• S’ha de revisar les correspondències suggerides i, en
acabar, els parells poden importar-se a un corpus
paral·lel o a una memòria de traducció.
Problemes d’alineació

1. Els segments en la llengua meta són més llargs que


en la llengua origen
• EN: The file path is invalid
• ES: El camino de acceso al fichero no es válido
2. Algunes frases o paràgrafs apareixen en un ordre
diferent en el fitxer traduït i en el fitxer origen
3. Algunes frases no han estat traduïdes
Anotacions i marques

• Codificació d’informació addicional en el corpus.


• Anotació no lingüística: marcatge de les diferents
seccions estructurals del text (títol, subtítol, paràgraf
secció, capítol), data de publicació, tipus de text,
camp temàtic, autor de la traducció i altres detalls
relacionats.
• Anotació lingüística: morfosintàctica (categoria
gramatical), sintàctica (constituents i funcions
gramaticals) i semàntica (relacions argumentals,
polaritat, i sentit per distingir paraules homònimes).
Lectura obligatòria

• Corpas Pastor, G. 2001. Compilación de un


corpus ad hoc para la enseñanza de la
traducción inversa especializada. TRANS:
Revista de Traductología 5: 155-184. ISSN:
1137-2311
https://ddd.uab.cat/pub/tradumatica/15787559n7/
15787559n7a3.pdf

You might also like