You are on page 1of 29

Ribalta, nm.

17 27
R
i
b
a
l
t
a
,

n

m
.

1
7
El corpus electrnico: herramienta
para aprender latn
Mercedes Garca Ferrer *
1. Introduccin
En este artculo nos proponemos presentar las especificaciones y el diseo de un
corpus electrnico sobre la obra La guerra de las Galias, de Csar, con el fin de que
sirva como herramienta de enseanza y aprendizaje de latn.
Para ello realizaremos, en el apartado 2, un breve recorrido histrico de la lin-
gstica de corpus. A continuacin, en el 3, explicaremos las razones que nos han
hecho elegir La guerra de las Galias de Csar para la confeccin de un corpus elec-
trnico con finalidad didctica. En el apartado 4, revisaremos algunos de los corpus
electrnicos de esta obra de Csar disponibles en Internet.
En el 5, describiremos las razones pedaggicas por las que hemos preferido crear
un corpus propio y los criterios con los que lo vamos a confeccionar. Seguidamente,
en el apartado 6, detallaremos las fases de planificacin de nuestro corpus electr-
nico. En primer lugar, concretaremos la compilacin de los materiales, es decir, el
proceso de seleccin y etiquetado de los textos. A continuacin, desarrollaremos la
fase de explotacin de nuestros corpus en el aula. Expondremos los objetivos y las
herramientas que vamos a utilizar y, por ltimo, esbozaremos una propuesta inicial
del procedimiento de explotacin didctica de nuestro propio corpus electrnico
para aprender latn.
En resumen, este artculo constituye el diagnstico del potencial de un corpus ad
hoc (aqu La guerra de las Galias de Csar) para mejorar el aprendizaje del latn.
2. La lingstica de corpus
Los estudios de corpus, segn explican Biber et alii entre otros, consisten en an-
lisis empricos de una amplia coleccin de textos reales (los corpus), para los que el
investigador hace uso extensivo de material informtico y aplica tcnicas de anli-
* Licenciada en Filologa Clsica, profesora IES Joan-Baptista Porcar y profesora asociada del
Departmento de Filologa de la Universitat Jaume I.
Ribalta. Quaderns d'aplicaci didctica i investigaci, nm. 17 (juny 2010), ps. 27-55.
IES Francesc Ribalta Castell de la Plana ISSN:
http://www.iesribalta.net/revista
(a Maribel Martnez, magistrarum optima)
Ribalta, nm. 17 28
sis tanto cuantitativas como cualitativas. ste es, por lo tanto, un campo de inves-
tigacin caracterizado por dos aspectos bsicos y fundamentales: el estudio de
forma emprica de una lengua en uso con el fin de describirla y la utilizacin del
ordenador para el almacenamiento y anlisis de los datos.
La lingstica de corpus ha evolucionado desde sus inicios a finales de los aos
setenta hasta nuestros das supeditada a los avances informticos. Al principio, los
estudios de corpus vieron cmo se generaban grandes compilaciones a partir de la
digitalizacin de documentos que antes solo existan en papel. Pareca que ms can-
tidad equivala a ms validez significativa. Entre aquellos corpus, algunos de los cua-
les contienen ms de 100 millones de palabras, podemos destacar los siguientes:
-CREA (Corpus de Referencia del Espaol Actual
[http://www.terminometro.info/ancien/b32/es/crea.htm]). Se trata de un
banco de datos del espaol contemporneo, compuesto por una amplia variedad
de textos escritos y orales, producidos en todos los pases de habla hispana desde
1975 hasta la actualidad.
-The Bank of English (BoE), que se compila gracias al trabajo del profesor J.
Sinclair de la universidad de Birmingham. Se trata de un extenso corpus de ingls
actual ([http://www.collins.co.uk/books.aspx?group=140])
-British Nacional Corpus (BNC) [http://www.natcorp.ox.ac.uk/] es una coleccin
de 100 millones de palabras procedentes del lenguaje escrito y hablado, repre-
sentativo del ingls britnico actual
Tras los grandes corpus, la lingstica y la lexicografa se atrevieron con la crea-
cin de corpus especializados, mucho ms pequeos que los anteriores pero centra-
dos en temas o gneros concretos. Un corpus especializado puede tener, segn
Flowerdew (2004:19), entre 20.000 y 200.000 palabras.
Los primeros corpus especializados fueron construidos con una finalidad didcti-
ca, es decir, se pretenda crear un recurso con el que poder ensear y aprender los
usos especficos que se hacen del lenguaje en un determinado mbito de especiali-
dad. Entre otros por ejemplo, como seala la profesora Calzada (2005:10) citando
el trabajo de Bowker (2003),
- corpus creados por traductores (corpus created by translators, CCBT).
- corpus creados para traductores (corpus created for translators, CCFT) y
- corpus comparables (comparable corpora o CC).
A la luz de estas experiencias consideramos que, igual que el latn se ha servido
en las ltimas dcadas de los avances didcticos de las lenguas de uso, el prximo
paso en la mejora de los recursos didcticos de esta materia debera pasar por la
creacin de corpus especficos para la enseanza del latn. A esta circunstancia se
une el uso creciente de los recursos electrnicos y la familiarizacin del alumnado
con este tipo de herramientas en otros mbitos de su formacin.
Los nuevos instrumentos permiten, por un lado, poner a disposicin del profeso-
rado de latn las herramientas electrnicas que se estn utilizando ya en la didcti-
ca de las lenguas de uso y, por otro, facilitan al alumnado la adquisicin de mayo-
res competencias lingsticas mediante el manejo de los mismos. Pero, por encima
Ribalta, nm. 17 29
de otras ventajas, la incorporacin del corpus electrnico posibilita uno de los obje-
tivos esenciales de la teora constructivista del aprendizaje: que la adquisicin de
conocimientos no debe ser un proceso de copia, sino una dinmica de reelabora-
cin en la que interviene el objeto de conocimiento y el sujeto que aprende.
Por ello, junto a la utilizacin de los diccionarios en papel y en formato electr-
nico, nos parece oportuna la creacin de corpus ad hoc para la enseanza/aprendi-
zaje del latn. Por las razones que expondremos en el siguiente apartado, los corpus
ad hoc que hemos elegido consisten en la recopilacin de los diversos libros de La
guerra de las Galias en latn y en espaol.
3. Por qu La guerra de las Galias de Csar?
La enseanza del latn en las enseanzas medias est sujeta a unos contenidos
conceptuales iguales para todo el territorio espaol, pero los autores y textos con
los que se puede trabajar quedan a eleccin de las autoridades competentes en
materia educativa de cada comunidad autnoma.
La presencia del latn en el bachillerato actual, reducida a tres cursos optativos
en los que el alumnado debe ser capaz de adquirir los conocimientos lingsticos y
las destrezas de traduccin suficientes para superar las pruebas de acceso a la uni-
versidad (PAU), hace que la lista de autores latinos cuyos textos sean idneos para
trabajar estos contenidos en un espacio tan breve de formacin se reduzca drsti-
camente. Por la carga de retoricismo y lenguaje especializado que suponen algunos
gneros como la oratoria, la poesa pica y la lrica, muchascComunidades se decan-
tan por trabajar la prosa en Enseanzas Medias y, en especial, los textos del gnero
epistolar, fabulstico o histrico. En este sentido, de entre la nmina de autores posi-
bles, Cayo Julio Csar sigue siendo el ms recurrente en las diferentes propuestas
programticas para el estudio del latn en las Enseanzas Medias y el ms traducido
en el Estado Espaol. Su obra posee muchas caractersticas que le convierten en un
texto idneo para el aprendizaje del latn en esta etapa educativa:
a) Est escrito en prosa, es decir, no es necesario trabajar las nociones de
mtrica y prosodia que requeriran los textos poticos.
b) Pertenece al siglo I a.C., es decir al registro del llamado latn clsico, que
se ajusta ms a las normas gramaticales estudiadas, frente a las producciones de
latn vulgar o tardo que se apartan de ellas.
c) Relata acontecimientos histricos, por lo que predomina el estilo descrip-
tivo y narrativo que facilita la comprensin.
d) Utiliza un vocabulario claro y concreto propio del gnero historiogrfico,
que es ms accesible para iniciarse en latn que la filosofa, la pica o la orato-
ria, precisamente porque estos otros gneros usan un vocabulario de registro ms
elevado y con propsitos ms retricos.
e) Predomina en ellos una finalidad exegtica. Csar elaboraba informes
sobre sus campaas blicas en Galia para que el senado de Roma estuviera infor-
mado de sus mritos. Su actividad literaria, condicionada por sus aspiraciones
polticas y por su exigua disponibilidad para la escritura, genera una obra en la
Ribalta, nm. 17 30
que los captulos no son excesivamente largos
f) Contiene una gama muy amplia de estructuras narrativas que permite tra-
bajar textos expositivos, en los que se detalla una tctica militar o un asedio a
un lugar; textos argumentativos, en los que se reproducen discursos a la tropa
(en estilo directo o indirecto), o bien informes enviados a terceros por medio de
legados (bien al Senado o a mandos intermedios de las distintas legiones); y tex-
tos instructivos, en los que se hace una descripcin geogrfica o etnogrfica de
los lugares y tribus que habitan la Galia.
Por todas estas razones, consideramos que La guerra de las Galias responde a los
criterios de idoneidad que deben poseer las muestras textuales que han de configu-
rar un corpus electrnico para la enseanza y aprendizaje del latn clsico en las
enseanzas medias.
4. Corpus electrnicos de La guerra de las Galias
En el presente trabajo proponemos la creacin desde cero de dos corpus ad hoc,
en latn y en espaol, de los libros que componen La guerra de las Galias de Csar.
Pero la web contiene ya pginas y recursos que permiten la consulta electrnica de
la obra de Csar seleccionada. Este apartado presenta dichos recursos de consulta y
luego expone las razones por las que preferimos la creacin de un corpus propio
antes que la reutilizacin de estos recursos.
Los corpus electrnicos que se pueden encontrar en red sobre la obra de Csar
son variados. A continuacin, comentaremos los tres que presentan mayor nmero
de aplicaciones y de visitas.
En primer lugar, la pgina web del proyecto Perseus [http://www.perseus.tufts]
del Departamento de Lenguas Clsicas de la Universidad de Tufts en Massachussets,
EE.UU. Este recurso contiene, entre otras, las obras de algunos autores latinos
(entre ellos, De bello Gallico, de Csar) en un formato de XML. Adems, posee una
interfaz bsica que
permite la consul-
ta de la obra de
Csar por libro,
captulo o seccin
(fig. 1).
Otra funcin
que se aloja en el
Perseus es la de un
analizador morfo-
lgico de las unida-
des del texto (fig.
2).
Figura 1
Ribalta, nm. 17 31
Una segunda pgina web en la que se puede consultar la obra de Csar es la de
la Biblioteca Digital Intratext (BDI), que posee una seccin de obras de autores lati-
nos. En esta pgina web podemos encontrar una traduccin completa al ingls, pero
no al espaol, de las obras de los autores latinos compilados, entre ellas la de Csar.
BDI posee tambin una interfaz que permite la obtencin de listas de palabras, esta-
dsticas de frecuencia y concordancias de las obras consultadas (fig. 3).
Figura 2
Figura 3
Ribalta, nm. 17 32
En tercer lugar, encontramos el corpus de autores grecolatinos alojado en la
pgina web de la Universidad de Montclair (fig. 4).
Esta web posee tambin su propia interfaz mediante la que pueden establecer-
se concordancias en latn y tambin en ingls de la obra de Csar, libro por libro o
de toda la obra en general (fig. 5).
Figura 4
Figura 5
Ribalta, nm. 17 33
Pero, aunque estos corpus ofrecen grandes posibilidades y son de libre acceso,
hemos preferido confeccionar el nuestro fundamentalmente porque la creacin de
un corpus propio nos permite utilizarlo de manera ms autnoma. Podremos enton-
ces alternar el estudio monolinge y el paralelo del corpus cuando se considere
oportuno. Asimismo, la creacin de un corpus propio otorga al profesorado una auto-
noma que luego puede transmitir al alumnado, al que puede adiestrar en la compi-
lacin de corpus ad hoc. Esto podra ofrecer ventajas evidentes que van ms all de
la manipulacin de los corpus dados.
Otras razones que parecen avalar la decisin de crear nuestro propio corpus son
las siguientes:
a) No existe una versin en espaol etiquetada en XML de la obra de Csar La
guerra de las Galias.
b) Para alinear un corpus latn-espaol es conveniente que ambos etiqueta-
dos sean lo ms parecidos posible.
c) Nos parece conveniente que el propio profesorado pueda, por s mismo,
compilar y etiquetar cualquier corpus de manera bsica sin depender de lo que
exista en Internet.
d) En el corpus de Perseus, tal como est etiquetado en la actualidad y con
la interfaz que presenta, a veces no funcionan las bsquedas. De manera que la
informacin no siempre es tan buena como puede parecer.
e) En los casos en que la informacin s aparece, tarda mucho en mostrarse
en pantalla.
f) Los corpus que se pueden encontrar en la red ofrecen adems la informa-
cin morfolgica y sintctica del texto y, aunque los analizadores morfosintcti-
cos son aplicaciones tiles, es conveniente que el alumnado descubra por s
mismo estas informaciones de declinacin y conjugacin en las etapas iniciales
de aprendizaje.
g) Mucha de la informacin adicional est en ingls y esto puede confundir al
alumnado.
Por todas estas razones, confeccionaremos en el siguiente apartado nuestros pro-
pios corpus electrnicos de latn y de espaol sobre La guerra de las Galias.
5. Descripcin de los corpus electrnicos propios
Nos parece muy ilustrativo recordar, en primer lugar, las palabras de Johansson
(1998: 259-289):
Si los aprendices dispusieran de un corpus, as como de una gramtica y un
diccionariopodran apreciar ms fcilmente la conexin entre la descripcin del lengua-
je y su usocon el acceso al corpus, el aprendizaje de un idioma se podra convertir en
un proceso de descubrimiento, una forma de investigacin o un atractivo e incluso efecti-
vo modo de aprendizaje
Ribalta, nm. 17 34
As pues, convencidos de la validez de estas ideas de Johansson, y siguiendo la
tendencia metodolgica de aprovechar los avances realizados en las lenguas de uso,
planificaremos nuestro corpus electrnico para la enseanza y aprendizaje del latn
en las enseanzas medias.
Segn Bowker y Pearson (2002: 9), los corpus han de reunir cuatro criterios fun-
damentales:
- Que sean autnticos (authentic), es decir, que no haya sido creados para la oca-
sin.
- Que estn recogidos en formato electrnico (electronic form) para poder ser
procesados por un ordenador.
- Que sean lo suficientemente cuantiosos (large collection) para poder ser real-
mente significativos y cumplir los objetivos deseados.
- Que los criterios de seleccin sean rigurosos (specific set of criteria) y no se
trate de una seleccin aleatoria de textos.
Subrayamos pues que, en el presente trabajo, un corpus se entiende como un
conjunto de textos recogidos segn unos criterios determinados (los que aparecen
arriba) para ser utilizado con unos propsitos especficos y en un formato legible por
el ordenador. Una vez determinado qu entendemos por corpus, conviene detener-
se en su tipologa, para as luego describir, con mayor precisin y rigor, los corpus
propios elegidos.
Los tipos de corpus que se pueden crear son tan variados como los propsitos
para los cuales se compilan. La mayor parte de los especialistas en la materia
Bowker y Pearson (2002:92-93), Granger (2003), Rabadn y Fernndez Nistal (2002),
Olohan (2004) coinciden en establecer distinciones con respecto a las lenguas que
contienen los corpus y, de esta manera, los dividen en comparables y paralelos.
Los corpus comparables ponen en relacin conjuntos de textos que, siendo del
mismo idioma, pertenecen a situaciones diversas pero comparables entre s (de ah
su nombre). Comparable sera, por ejemplo, el contraste de un corpus electrnico
de La guerra de las Galias con una produccin en latn de otro autor latino coet-
neo a Csar. Los corpus paralelos, por su parte, ponen en relacin unos textos origi-
nales y otros traducidos. As los corpus de La guerra de las Galias en latn y en espa-
ol son paralelos o pueden utilizarse de forma paralela.
Pero la taxonoma de corpus que, a nuestro entender, resulta ms completa es
la de Laviosa (2002), que dividi en cuatro niveles todos los tipos de corpus electr-
nicos que existen en los Estudios de Traduccin de Corpus (Corpus-based Translation
Studies, CTS). En el primer nivel Laviosa (2002: 34-5) localiza 6 apartados:
1. En el primero recoge los corpus de textos completos, de extractos, los mixtos
(con mezcla de textos completos y extractos) y los corpus monitorizados o monitor
corpus, tambin llamados corpus abiertos. Atendiendo a la tipologa de Laviosa,
los corpus de La guerra de las Galias que utilizaremos para la enseanza/aprendiza-
je del latn en el aula pueden describirse como corpus de textos completos y, en
principio, cerrados (no abiertos).
Ribalta, nm. 17 35
2. En el segundo Laviosa identifica corpus diacrnicos y sincrnicos. Esta catego-
ra, de momento, no es aplicable a nuestros corpus que constan de una sola obra.
3. En el tercer apartado sita los generales y los terminolgicos. En nuestro caso,
el corpus de Csar no sera ni general ni terminolgico precisamente por el tamao
reducido del mismo.
4. En el cuarto, los monolinges, bilinges y multilinges. Los corpus elegidos
para nuestro experimento pedaggico pueden utilizarse de un modo monolinge o
bilinge.
5. En el quinto se centra en la lengua (o lenguas) del corpus. En este sentido,
nuestros corpus pertenecen a los mbitos de la lengua latina y espaola.
6. En el sexto apartado, distingue entre corpus escritos, orales o mixtos (que son
una mezcla de las dos modalidades). En nuestro caso, los corpus elegidos son escri-
tos.
En el segundo nivel taxonmico, Laviosa (2002: 36) divide los corpus monolinges
en simples (recopilacin de textos en una nica lengua) y comparables. En este sen-
tido, nuestros corpus en latn y en espaol podrn ser explotados como monolinges
simples.
Los corpus bilinges quedan clasificados en paralelos (textos originales en lengua
A y sus traducciones en lengua B) y comparables (textos originales en lengua A y tex-
tos originales en lengua B). En nuestro caso, las posibilidades de explotacin permi-
tirn el tratamiento de ambos corpus como bilinges paralelos.
Los corpus multilinges se agrupan en paralelos (textos originales en lenguas
diversas con sus respectivas traducciones) y comparables.Esta categora no es apli-
cable a nuestro proyecto.
En el tercer nivel de la taxonoma de Laviosa (2002) los corpus simples se bifur-
can en traductores y no traductores, los corpus bilinges paralelos, mono-direccio-
nales y bi-direccionales, los corpus multilinges paralelos se componen de una nica
lengua origen, de dos lenguas origen y de varias lenguas origen.
En nuestro caso, la explotacin de nuestros corpus permitir el tratamiento
como corpus simples traductores y, tambin, como corpus bilinges paralelos bi-
direccionales.
Y finalmente, en el cuarto y ltimo nivel, Laviosa (2002) profundiza en los cor-
pus traductores y tambin encuentra corpus de una, dos o ms lenguas de partida,
que an pueden subdividirse, atendiendo al modo de la traduccin (escrito u oral,
en cuyo caso sera interpretacin), al mtodo de la traduccin (humana, automti-
ca y asistida por ordenador), a la direccin de la traduccin (directa o inversa), al
estatus del traductor (profesional o aprendiz), y al estatus de la traduccin misma
(publicada o no publicada).
As pues, resumiendo los criterios de clasificacin de Laviosa, nuestros corpus
electrnicos de La guerra de las Galias para aprender latn sern sobre textos escri-
tos, con posibilidad de ser explotados de forma monolinge simple o bilinge para-
lela y, respecto a su traduccin, con la particularidad de que sta ser realizada por
aprendices (el alumnado) con una finalidad didctica, es decir para no ser publica-
da.
Ribalta, nm. 17 36
6. Planificacin del corpus electrnico propio
Como afirman estudiosos especializados en la explotacin del corpus como, por
ejemplo, Partington (1998) y, sobre todo MCEnery, Xiao y Tono (2006), en la etapa
de planificacin del corpus se tendrn que definir toda una serie de especificacio-
nes divididas en dos ejes principales: el diseo lingstico del corpus y la planifica-
cin del proyecto en su totalidad. Siguiendo las premisas avanzadas por McEnery,
Xiao y Tono, en nuestro caso las etapas o fases previstas para elaborar corpus elec-
trnicos con vistas a la enseanza del latn son las siguientes:
- Una primera fase de compilacin del material (6.1), en la que distinguiremos
dos tareas: la eleccin y el etiquetado de los textos.
- Una segunda fase que McEnery, Xiao y Tono (2006) denominan de anlisis de los
datos obtenidos pero que para nosotros, dada la finalidad didctica de nuestro
trabajo, se concretar en la explotacin de los corpus en el aula (6.2).
6.1. compilacin de nuestros corpus
El trabajo de recopilacin de textos para su explotacin posterior en formato
electrnico conlleva una serie de dificultades entre las que Rabadn y Fernndez
Nistal (2002: 56) sealan la inversin de tiempo, esfuerzo y recursos humanos, el
hecho de que la disciplina ha evolucionado vertiginosamente a lo largo de los lti-
mos aos y la diversidad de parmetros que determinan el xito de un proyecto
basado en corpus. Por ello, y como advierten Rabadn y Fernndez Nistal (2002: 57),
con el objeto de evitar fracasos innecesarios, antes de iniciar la construccin del
corpus es imprescindible abordar toda una serie de cuestiones.
Para abordar las etapas de compilacin del corpus, Flowerdew (2004: 25-27) se
sirve de una serie de preguntas para orientar a los creadores de corpus especializa-
dos y evitarles, de esta manera, los fracasos innecesarios ante los que nos previe-
nen Rabdn y Nistal. Y as, compilar un corpus supone responder, entre otros, a los
siguientes interrogantes:
1) What is the purpose for building a corpus? Todo trabajo de corpus ha de par-
tir de una idea clara de las expectativas que genera en los investigadores y de las
hiptesis que se va buscando corroborar o refutar.
Los propsitos que persigue la creacin de nuestro propio corpus electrnico son
varios:
a. Utilizar el corpus para confirmar o refutar algunas intuiciones lingsticas por
parte del profesorado.
b. Emplear el corpus para agilizar la transmisin de informacin lingstica al
alumnado.
c. Usar el corpus para facilitar el aprendizaje por descubrimiento.
d. Elaborar un corpus como herramienta de enseanza/aprendizaje de latn com-
plementaria a los recursos lexicogrficos en papel y electrnicos existentes en la
actualidad.
Ribalta, nm. 17 37
2) What genre is to be investigated? El concepto de gnero no es prioritario en
nuestro trabajo. En principio, el tratamiento pedaggico que propondremos, en lo
concerniente al apartado de corpus, girar en torno a la nocin de textos, de los
textos que, por ley, ha de trabajar el alumnado de latn. En este sentido, en nues-
tro caso, los siete libros que componen la obra de La guerra de las Galias de Csar.
La adecuacin textual del corpus a un proyecto concreto, como explica el pro-
fesor Aquilino Snchez (995: 41), implica tener en cuenta que el tipo de textos que
contenga el corpus est bien delimitado. En este sentido, La guerra de las Galias de
Csar es una obra representativa de la historiografa republicana del siglo I a.C.
tanto por el estilo como por el contenido histrico y poltico de los acontecimientos
que describe. El conjunto de textos que proponemos contienen, de esta manera, una
unidad formal y temtica que los hace idneos para abordar lingstica e histrica-
mente el latn clsico.
3) How large is the corpus supposed to be? Respecto al tamao del corpus Bowker
y Pearson (2002: 54) consideran que los corpus comprendidos entre a few thousand
to a few hundred thousand words have proved useful for LSP purposes, y Flowerdew
(2004: 19) explica que los corpus comprendidos entre 20.000 y 200.000 palabras ya
arrojan resultados interesantes sobre la lengua estudiada.
En nuestro caso, los siete libros que componen La guerra de las Galias, compo-
nen un corpus en latn con un total de 44.872 palabras, como se puede apreciar en
la siguiente figura, que recoge un listado estadstico de palabras realizado con el
programa Word Smith Tool 4.0 (WST) de la obra mencionada.
Figura 6
Ribalta, nm. 17 38
En espaol, el corpus traducido de La guerra de las Galias contiene un total de
68.265 palabras, como se puede apreciar en la siguiente figura, que recoge el lista-
do estadstico de palabras realizado tambin con WST 4.0
Ambos corpus estaran claramente comprendidos dentro del margen estipulado
de 20.000 a 200.000 palabras. Parece, por tanto, que los corpus que proponemos son
lo suficientemente amplios para que se acepte su validez pedaggica.
4) How will data be collected? Trabajar con textos en formato electrnico per-
mite menor esfuerzo en la recopilacin de textos que si los estuviramos digitalizan-
do a partir de un formato en papel. Esta metodologa de compilacin facilita una
mayor concentracin en el tratamiento posterior de los mismos.
A continuacin, pasamos a exponer cul ha sido el procedimiento que hemos
empleado para la recopilacin de los textos, en latn y en espaol, de nuestros cor-
pus electrnicos.
El primer paso ha consistido en rastrear las diversas pginas web en las que se
pueden obtener los textos en latn de la obra de Csar La guerra de las Galias en un
formato accesible para casi todos los generadores de concordancias (como WST) y
de concordancias paralelas (como PARACONC), as como tambin los sitios que pro-
porcionan las traducciones en lnea al espaol.
De entre las muchas pginas que se pueden encontrar en la web, hemos elegido
la del Departamento de Filologa Clsica e Indoeuropea de la Universidad de
Salamanca [http://clasicas.usal.es/soft.htm] por ser ste un sitio de acceso gratui-
to, actualizado, avalado por una institucin acadmica de reconocida solvencia y
Figura 7
Ribalta, nm. 17 39
por disponer de un buscador de recursos para el estudio del latn y el griego clsico
muy completo.
En el apartado de autores latinos se ofrece una amplia seleccin de sitios web
en los que, junto al texto, se facilitan otras aplicaciones informatizadas como ana-
lizadores morfolgicos, vocabularios lematizados, ndices de concordancias, comen-
tarios gramaticales, etc.:
De entre todos los sitios de textos latinos que constan en la recopilacin visuali-
zada en la figura anterior, hemos elegido la pgina de textos en latn The Latin
Library (que, en la figura 9, aparece en quinta posicin comenzando desde el final),
cuya direccin electrnica es:
http://www.thelatinlibrary.com/caes.html.
Figura 8
Figura 9
Ribalta, nm. 17 40
En cuanto a los textos en espaol, no hemos encontrado ninguna traduccin com-
pleta de esta obra disponible en la pgina web mencionada. Por ello, tras un rastreo
exhaustivo de la red, hemos descargado en formato TXT la nica traduccin comple-
ta al espaol que hemos encontrado de esta obra desde el sitio web
http://www.imperivm.org/directorio_txt.html#cesar (vase figura 11), aunque
resulta algo elevada y arcaizante.
No obstante, dada la constante actualizacin de los recursos existentes en
Internet y la aparicin de nuevos contenidos en la red, estas fuentes de informacin
textual debern ser revisadas y puestas al da cada vez que la actividad se empren-
da en un nuevo curso escolar.
Figura 10
Figura 11
Ribalta, nm. 17 41
5) How will the (specialized) corpus be tagged / marked up? Existe un consenso
generalizado acerca de las ventajas del etiquetado contextual en SGML (Standard
Generalized Markup Language) y, sobre todo en la actualidad, en XML (eXtensible
Markup Language). Como es bien sabido, el XML es un metalenguaje creado por el
World Wide Web Consortium (W3C) que permite el intercambio de informacin
estructurada entre diversas plataformas. En la prctica, los creadores de corpus lo
utilizan, entre otras cosas, para enriquecer sus textos con informacin metatextual
que permita incrementar la dificultad de las consultas de los corpus.
En nuestro caso, el etiquetado de los textos ha sido ms sencillo que el que apa-
rece en el corpus del proyecto Perseus. En primer lugar, porque lo hemos realizado
de una forma manual y, en segundo lugar, porque, para los objetivos de enseanza
y aprendizaje, preferimos que la sencillez del corpus facilite su manejo al alumna-
do principiante y, al mismo tiempo, no supla la reflexin morfolgica de quienes se
estn iniciando en la lengua latina.
As nuestro corpus se podr consultar por cada uno de los siete libros que com-
ponen la obra, o por los captulos que componen cada libro. La posibilidad que ofre-
ce el corpus de Perseus de consulta tambin por las secciones de cada captulo es
una aplicacin muy til que nos plantearamos incorporar a nuestro corpus para la
tesis.
Una vez seleccionados los textos, los pasos para el etiquetado de los mismos han
sido los siguientes:
i. Hemos seleccionado las etiquetas XML con las que queremos enriquecer nues-
tro texto en TXT. Estas etiquetas se convertirn en parmetros contextuales que per-
mitirn una bsqueda inteligente posterior. En nuestro corpus monolinge de latn
el documento XML comienza por el encabezado junto al cual aparecen los atributos
y un elemento:
El cuerpo de nuestro documento XML est formado por el contenido en s del
documento, el cual se divide en texto y marcado. Nuestro marcado bsico consiste
en las etiquetas que aparecen en las figuras que siguen que, como resulta evidente,
son exactamente iguales para el latn y el espaol.
Tabla 1: Encabezado de documento XML
Ribalta, nm. 17 42
Para que quede an ms claro, las etiquetas utilizadas en el corpus monolinge
de latn son las siguientes:
Para el corpus monolinge de espaol hemos utilizado el etiquetado que sigue:
Figura 12 Figura 13
Tabla 1: Encabezado de documento XML
Tabla 1: Encabezado de documento XML
Ribalta, nm. 17 43
ii. El segundo paso ha consistido en abrir los textos en formato TXT con un edi-
tor de textos (JEdit).
iii. En el tercer paso hemos incorporado nuestras etiquetas de forma manual a
los textos seleccionados.
Ello supone la conversin de los documentos en TXT al formato XML. En la
siguiente figura, se puede apreciar una captura de pantalla de corpus monolinge
en latn abierto con JEdit.
A continuacin, se puede apreciar un ejemplo extrado del mismo fragmento en
espaol tambin abierto con JEdit:
Figura 15
Figura 14
Ribalta, nm. 17 44
iv. El cuarto y ltimo paso del etiquetado de los textos ha consistido en abrir el
programa Exchanger XML Lite 3.2 para comprobar que nuestro XML est bien confor-
mado.
Tras el etiquetado de los textos, Flowerdew (2004: 25-27) plantea una ltima
cuestin para la compilacin del corpus:
6) What kind of reference corpus would be suitable to contrast with the specia-
lized corpus? Confrontar los resultados de nuestros corpus con otros es imprescindi-
ble para valorar la repercusin estadstica de los datos del anlisis del corpus. En la
actualidad no existe un corpus de referencia general del latn, por ello el contras-
te, en nuestro caso, se efectuar con los otros corpus electrnicos de la obra de
Csar descritos anteriormente.
Una vez descritas las etapas de compilacin de nuestros corpus segn los crite-
rios propuestos por Flowerdew, pasamos, en el siguiente apartado, a detallar la
segunda fase de anlisis prevista en el apartado 6 del presente captulo. En nuestro
caso, dada la finalidad didctica del proyecto, esta fase se convertir en la explo-
tacin de nuestros corpus en el aula.
6.2. Explotacin de los corpus en el aula
La segunda fase de planificacin del corpus presupone, en nuestro caso, la explo-
tacin didctica de estas nuevas herramientas lexicogrficas en el aula de latn.
En el presente apartado expondremos los objetivos que perseguimos con la cre-
acin de nuestro propio corpus electrnico (6.2.1), las herramientas que utilizare-
mos para procesar y explotar los datos (6.2.2) y, por ltimo, una primera propuesta
en borrador de sus posibilidades de aplicacin didctica (6.2.3).
6.2.1. Objetivos de la explotacin en clase
Los objetivos que pretendemos alcanzar con esta propuesta de explotacin en
clase de un corpus electrnico propio para aprender latn son:
- Etiquetar nuestros corpus en latn y en espaol con etiquetas contextuales que
permitan una consulta inteligente de nuestros corpus monolinges. En otras
palabras, sin etiquetas de XML, el profesorado investigador tan slo podra estu-
diar comportamientos lingsticos en la totalidad de cada uno de los corpus ele-
gidos. Con etiquetas XML, el profesorado investigador puede afinar su bsqueda,
focalizndola en libros, captulo, versculos, frases, etc.
- Construir un corpus paralelo que tenga como lengua de salida el latn clsico
de La guerra de las Galias y como lengua de llegada su traduccin en espaol.
Para procesar dicho corpus utilizaremos, en principio, Wordsmith Tools 4.0 y
Paraconc (herramientas que se presentan en el apartado 6.2.2). Con su aplica-
cin intentaremos constatar si este corpus paralelo electrnico es eficaz como
herramienta auxiliar para la enseanza y aprendizaje del latn
Ribalta, nm. 17 45
- Instruir al alumnado para que construya su propio corpus electrnico. Esta acti-
vidad se plantea a la vez como reflexin sobre los procesos lingsticos de la len-
gua latina y de las otras lenguas que son objeto de estudio del alumnado
- Conseguir que el alumnado aprenda latn de forma significativa confeccionan-
do una parte de sus herramientas lexicogrficas
- Incitar la reflexin del profesorado sobre la metodologa propia de su materia
mediante la elaboracin de corpus de las obras utilizadas en el aula para ense-
ar latn
6.2.2. Herramientas para la explotacin del corpus
Para la gestin y explotacin de nuestro corpus, utilizaremos las herramientas
que se utilizan para extraer diferentes tipos de trminos e informacin lingstica.
Una de ellas es WordSmith Tools 4.0 (en adelante WST4.0). WST 4.0 es un sistema
informtico que contiene tres aplicaciones: Wordlist, Concord y KeyWords. Algunas
de las tareas de explotacin de nuestro corpus de La guerra de las Galias de Csar
que se pueden realizar con WST 4.0 son las siguientes:
- Crear un listado de palabras por estadstica, por frecuencia o alfabtico.
- Producir lneas de concordancias, denominadas tambin Key Word In Context
(KWIC), tanto para una secuencia o grupo de palabras (clusters), como para una
palabra, parte de sta o una frase. Tambin puede generar listados de frecuencia o
de referencia.O
Figura 16
Ribalta, nm. 17 46
- Obtener datos estadsticos de todo el corpus por tokens, es decir, por la apari-
cin concreta de una palabra en un texto dentro de un contexto determinado, o bien
por types, que es la unidad abstracta que engloba a todas las apariciones de una
misma palabra en un texto. As, por ejemplo, en la secuencia dux in Italia exerci-
tum in hostes misit, tendramos 7 tokens y 6 types.
Otra herramienta eficaz para la explotacin de corpus electrnicos es Paraconc,
un generador de concordancias bilinges (fig. 19). Como se puede observar en la
imagen, mediante esta aplicacin informtica podemos generar concordancias bilin-
ges entre ambos corpus (en latn y en espaol). De manera que la explotacin en
el aula de los corpus propios mediante estas aplicaciones informticas nos permiti-
r muchas de las posibilidades para tratamiento de corpus electrnicos descritos por
Laviosa (2002).
Figura 17
Figura 18
Ribalta, nm. 17 47
Estas son las herramientas informticas con las que, en la actualidad, abordare-
mos la explotacin de nuestros corpus electrnicos para aprender latn.
En el siguiente apartado, pasamos a presentar una primera propuesta en borra-
dor de las posibilidades de aplicacin didctica que plantea la creacin de un cor-
pus propio para ensear y aprender latn.
6.2.3. Propuesta inicial de procedimientos para la explotacin
Una vez que el corpus est seleccionado, etiquetado y procesado con las herra-
mientas informticas descritas, procederemos a la fase de anlisis para explorar sus
posibles aplicaciones didcticas. Para ello, siguiendo a Calzada (2007), utilizaramos
la propuesta de Tognini-Bonelli (2001), quien esboza un mtodo de trabajo ordena-
do que consiste en tres grandes pasos y que se asienta sobre la premisa de que todo
investigador contar con una serie de corpus (monolinges comparables y paralelos)
que contrastar entre s.
El primer paso supone el estudio del corpus monolinge en la lengua de origen
(L1). Aqu el investigador parte de la forma lingstica escogida y desemboca final-
mente en sus matices semnticos y pragmticos. El segundo paso requiere el anli-
sis de un corpus paralelo en el que se identifica la traduccin de la forma estudia-
da en el primer corpus monolinge; sta sera una primera propuesta traductora que
habra que analizar en profundidad durante el tercer paso consistente, a su vez, en
el estudio de un corpus monolinge en la lengua de llegada (L2). Con este ltimo
Figura 18
Ribalta, nm. 17 48
corpus se analizara el xito de la traduccin provisional, recorriendo ahora el tra-
yecto inverso del primer paso; es decir, en el tercer paso, se progresa desde mati-
ces pragmticos y semnticos hasta la identificacin de la forma que se ha de ele-
gir o valorar. La tabla siguiente ilustra el mtodo investigador propuesto por Tognini-
Bonelli (2001: 135):
No obstante, estos tres pasos de Tognini-Bonelli no plantean tareas ms concre-
tas para cada fase. Con el fin de especificarlas, Calzada (2007) recurre a Scott y
Tribble (2006), entre otros, para quienes el anlisis de un corpus se compone de tres
(sub)fases: el escrutinio de datos estadsticos, el estudio de unidades lxicas y, final-
mente, el examen de estructuras lingsticas.
Por ltimo, queremos plantear la cuestin de la aplicabilidad del corpus al con-
texto educativo. Para ello, siguiendo tambin a Calzada (2005: 8), entendemos que
ser de gran utilidad las propuestas de Higgins (1988) quien explica que, en clase,
los corpus pueden emplearse de, al menos, dos formas importantes: lo que denomi-
na corpus as magister y corpus as paedagogue. En el primer caso, la relacin
entre el terico descriptivo y el profesor ha de ser fluida (terico y profesor pueden
ser uno solo) porque ste ltimo ensea en clase el resultado de las investigaciones
de aqul. Aqu no es necesario exponer al alumnado al corpus propiamente dicho
sino a los resultados obtenidos con su estudio. En el segundo caso, ahora la relacin
se produce sobre todo entre profesor y alumno. Es decir, el primero disea ejerci-
cios para cuya resolucin el alumno ha de utilizar los corpus y convertirse l mismo
en investigador de la lengua (ya sea original o traducida).
En resumen, nuestro anlisis se estructurar siguiendo el mtodo propuesto por
Calzada (2007), que ana los pasos diseados por Tognini-Bonelli a las especificacio-
nes de Scott y Tribble para un pormenorizado anlisis de corpus, y que propone las
especificaciones de Higgins para la aplicacin didctica del corpus.
Figura 20
Ribalta, nm. 17 49
En el siguiente apartado, siguiendo a Calzada (2007), pasamos, a exponer las tres
subfases de nuestra propuesta de explotacin didctica de un corpus electrnico
propio: la explotacin del corpus monolinge en latn (6.2.3.1), la explotacin del
corpus paralelo (6.2.3.2) y la explotacin del corpus monolinge en espaol
(6.2.3.3). Como ya hemos anticipado en los apartados anteriores, apuntaremos, a
continuacin, algunas propuestas bsicas de las mltiples posibilidades de aplicacin
de los corpus electrnicos en la clase de latn.
6.2.3.1. Corpus monolinge en latn
El primer paso, como sugiere Tognini-Bonelli (2001) supone el estudio del corpus
monolinge en la lengua de origen. En nuestro caso, la explotacin del corpus mono-
linge en latn de La guerra de las Galias de Csar.
El proceso de adquisicin del latn, como lengua flexiva que es, comienza por el
aprendizaje del concepto de declinacin nominal y de conjugacin verbal. El estu-
dio de la morfologa nominal y verbal ocupa gran parte del proceso formativo y, con
frecuencia, el bajo dominio de los elementos flexivos dificulta el progreso en las
tcnicas de traduccin.
Sera muy til para el profesorado poder conocer de antemano los tiempos ver-
bales ms frecuentes en los textos que se han seleccionado para el trabajo del aula
para, de esta manera, incidir de forma especfica en el aprendizaje y reconocimien-
to de estos tiempos verbales.
sta es una actividad que se podra facilitar mediante la explotacin de un cor-
pus monolinge de latn. Con la ayuda de WST 4.0, podramos generar listados de
palabras sobre los textos seleccionados. Estos listados podran arrojar resultados
bien por ndice de frecuencia o alfabtico que nos permitiran conocer con seguri-
dad los tiempos y modos
verbales que el alumna-
do ha de ser capaz de
reconocer morfolgica-
mente.
En la figura 21 se
puede observar un lista-
do alfabtico de pala-
bras generado con WST
4.0 sobre el captulo I
del libro I de La guerra
de las Galias.
Exceptuando las prepo-
siciones a y ab y la
conjuncin copulativa
ac (elementos invaria-
bles de la oracin), el
resto de formas que
genera el listado por
Figura 21
Ribalta, nm. 17 50
orden alfabtico pertenecen a la categora verbal y muestran los diferentes tiempos
y modos empleados por Csar en el primer captulo del libro I (entre otros: absum,
abduco, accedo, accipio, etc.). Esta informacin ayudara a despejar falsas intuicio-
nes lingsticas del profesorado sobre la frecuencia de tiempos y modos verbales y
ayudara al alumnado a optimizar el estudio de la morfologa verbal.
Una segunda propuesta de explotacin del corpus monolinge de latn sera tra-
bajar la morfologa verbal y nominal en contexto. Para ello podramos generar lista-
dos de concordancias con la aplicacin Concord. Este nuevo listado (KWIC) mostra-
ra los trminos en contexto y tambin las colocaciones, es decir, los sustantivos o
verbos con los que frecuentemente se combina un trmino.
En el caso de la obra de Csar ser de gran utilidad, pues esta prosa historiogr-
fica de contenido mayormente belicista, presenta una serie de colocaciones muy
frecuentes. La posibilidad de identificarlas y relacionarlas por medio de esta aplica-
cin facilitara mucho el trabajo de traduccin para los estudiantes de esta lengua
flexiva. La siguiente figura muestra un ejemplo de actividad sobre el sustantivo
bellum (la guerra) en el primer captulo del libro I de la obra de Csar mencionada:
Como se puede observar, la informacin que proporciona este generador de lis-
tados de concordancias nos facilita el trabajo de la reflexin morfolgica, pues
podemos observar con qu verbos se asocia principalmente este sustantivo. Pero
tambin propicia la reflexin sintctica, pues nos muestra en qu tiempos y modos
aparecen estos verbos y si en su entorno existen nexos subordinantes o coordinan-
tes.
Figura 22
Ribalta, nm. 17 51
stas seran dos de las mltiples actividades que se podran generar para la
explotacin de nuestro corpus monolinge de latn como herramienta de ensean-
za/aprendizaje.
6.2.3.2. corpus paralelo de latn-espaol
En esta segunda fase trabajaremos con los dos corpus en latn y en espaol. No
olvidemos que el Decreto 102/2008 por el que se regula el currculum de bachille-
rato en la Comunidad Valenciana estableca, entre otras, como finalidades funda-
mentales:
- El aumento del dominio del lxico de las lenguas modernas de uso del alumna-
do mediante el estudio de la derivacin del latn.
- La reflexin sobre las relaciones entre las estructuras de la lengua latina y las
de las lenguas romances.
De las distintas herramientas lexicogrficas que se pueden utilizar en el apren-
dizaje del latn, el manejo de corpus electrnicos contribuye enormemente a alcan-
zar estos objetivos previstos por el marco legal por diversas razones:
- Por las posibilidades de interaccin que permite al alumnado en el proceso de
creacin de su herramienta de trabajo.
- Por la variedad de aplicaciones que permite para el estudio del lxico y de la
morfologa latina.
- Por contribuir al papel activo del alumnado en el proceso de enseanza y apren-
dizaje.
- Por incorporar las aplicaciones tecnolgicas informticas al estudio de una len-
gua de corpus, aunando modernidad y clasicismo.
- Por reforzar la metodologa constructivista facilitando el aprendizaje significa-
tivo.
A continuacin exponemos dos actividades que se podran realizar mediante la
explotacin del corpus paralelo de latn-espaol para intentar alcanzar dos de las
finalidades fundamentales que prev el Decreto 102/2008. La primera destinada a
reforzar el dominio del lxico de las lenguas modernas de uso del alumnado
mediante el estudio de la derivacin del latn. Para ello podramos utilizar el lista-
do verbal que presenta la figura 21 para identificar, en las formas verbales estudia-
das por el alumnado en el captulo I del libro I de La guerra de las Galias, los proce-
dimientos de prefijacin verbal y, a partir de ellos, generar listados alfabticos de
frecuencias en el corpus espaol para detectar los derivados verbales que proceden
de las formas latinas estudiadas.
Un segunda actividad posible es la que se muestra en la figura 23. Se trata de un
alineamiento paralelo latn-espaol mediante Paraconc en el que se muestra una
lista de frecuencias en ambas lenguas. Resulta una actividad til para comprobar si
las nociones de sintaxis que se explican, cuando se trabaja esta obra de Csar, son
las ms habituales y, por consiguiente, las ms convenientes para resolver los pro-
blemas de sintaxis que se plantean en ella. En la siguiente figura, como se puede
Ribalta, nm. 17 52
observar, aparecen con mayor frecuencia las particulas cum y ut y el pronom-
bre relativo qui, quae, quod.
Del alineamiento que recoge la figura anterior se desprenden dos lecturas. El lis-
tado de frecuencias del corpus en latn vendra a corroborar algunas de las intuicio-
nes lingsticas del profesorado de esta asignatura que, tradicionalmente, ha priori-
zado la enseanza de los nexos arriba mencionados (ut, cum, quod) en las explica-
ciones de sintaxis latina. En cambio, en el listado de frecuencias en espaol apare-
cen como palabras ms habituales preposiciones (con, a, por) y artculos (el, las). Es
interesante constatar esta circunstancia por el hecho de que el latn carece de art-
culos y las preposiciones, aunque existen, se ven reemplazadas mayoritariamente
por el uso desinencial de los casos latinos.
Con esta actividad se pondra de manifiesto que la explotacin del corpus para-
lelo en la enseanza de latn ayudara al profesorado a verificar la conveniencia o
no de la introduccin de cuestiones morfolgicas y sintcticas en el proceso de
aprendizaje del latn en etapas tempranas y facilitara al alumnado una herramien-
ta eficaz para paliar problemas en el mbito de la traduccin del latn al espaol.
6.2.3.3. Corpus monolinge en espaol
Por ltimo, como aconseja Tognini-Bonelli, utilizaramos el corpus monolinge en
espaol. La enseanza del latn se ha enfocado tradicionalmente hacia la traduccin
priorizando esta faceta lingstica por encima de otras aplicaciones posibles de la
lengua. De manera que la confeccin de este corpus monolinge en espaol de la
obra de Csar seleccionada ser muy til para reflexionar sobre la prctica de la tra-
duccin.
Figura 23
Ribalta, nm. 17 53
El anlisis de este corpus nos permitir trabajar los niveles lxico, morfolgico y
sintctico del lenguaje. Con la aplicacin de las concordancias (vase figura 27)
podremos estudiar las colocaciones de los trminos ms usuales de la prosa de
Csar:
La figura anterior recoge un listado de concordancias en espaol sobre la pala-
bra guerra. En ella se puede apreciar que esta aplicacin informtica nos facilita
el estudio de las colocaciones ms habituales de este trmino para la traduccin al
espaol. En el caso de los verbos, los ms empleados son declarar, emprender,
hacer, en el caso de los adjetivos civil, servil, etc..
Una segunda actividad de explotacin del corpus monolinge espaol consistira
en realizar listas de frecuencias de estas palabras que hemos obtenido en la activi-
dad anterior. A continuacin, contrastaramos estos datos en el conjunto de la tra-
duccin y comprobaramos la variedad del lxico empleado. Asimismo podramos
analizar si la traduccin resulta actual o arcaizante estudiando el lxico, generando
listados de palabras por campos temticos con las aplicaciones de WST 4.0., y el
grado de conocimiento de este lxico por parte del alumnado.
Figura 24
Ribalta, nm. 17 54
7. Conclusiones
En este artculo hemos realizado, en primer lugar, un recorrido histrico de la
lingstica de corpus. Hemos descrito tambin la evolucin que se ha producido
desde la creacin de los grandes corpus que contenan millones de palabras a la apa-
ricin de los corpus especializados. Y, a la luz de los resultados en otros mbitos de
enseanza de lenguas, hemos considerado que el prximo paso en la mejora de los
recursos para la enseanza del latn debera pasar por la creacin de corpus espec-
ficos con fines didcticos.
Seguidamente, en el apartado 3, hemos expuesto las razones pedaggicas que
justificaran nuestra eleccin de la obra La guerra de las Galias de Csar para la ela-
boracin de un corpus electrnico propio para aprender latn.
A continuacin, hemos revisado algunos de los corpus electrnicos que se pue-
den encontrar en Internet de esta obra de Csar y, a pesar de las mltiples ventajas
y aplicaciones que presentan, hemos considerado ms acorde con los postulados del
marco legal confeccionar un corpus propio antes que explotar los que, en la actua-
lidad, se encuentran en la web. Esta iniciativa constructiva confiere ms autonoma
al profesorado, que puede intervenir de manera directa en la mejora de las herra-
mientas de enseanza y, por otro lado, refuerza en el alumnado la percepcin del
aprendizaje participativo y significativo.
En el apartado 5, hemos descrito y clasificado nuestros corpus en latn y en espa-
ol siguiendo los criterios taxonmicos de Laviosa (2002). De acuerdo con ellos,
nuestro corpus ser sobre textos escritos, con posibilidad de ser explotado de forma
monolinge simple o bilinge paralela y, respecto a su traduccin, con la particula-
ridad de que sta ser realizada por aprendices (el alumnado) con una finalidad
didctica, es decir para no ser publicada.
A continuacin, en el apartado 6, hemos expuesto la planificacin de la confec-
cin de nuestros corpus en latn y en espaol. Este proceso se ha realizado en dos
fases. Una primera de recopilacin del material, en la que, siguiendo los postulados
de Flowerdew (2004), hemos especificado nuestro procesamiento y etiquetado los
textos.
La segunda fase ha sido la de la explotacin de los corpus en el aula de latn.
Para ello, hemos seguido la metodologa de Calzada (2007) que integra las propues-
tas de Tognini-Bonelli (2001) y las de Scott y Tribble (2006). Segn ellas, en primer
lugar hemos expuesto los objetivos del proyecto. Seguidamente hemos realizado la
presentacin de las herramientas informticas con las que hemos procesado los
datos. Y, por ltimo, hemos confeccionado una propuesta propia de procedimientos
para la explotacin de nuestros corpus en el aula de latn.
La propuesta se ha desarrollado en tres fases. En la primera, hemos presentado
dos actividades para realizar con el corpus monolinge en latn. En la segunda,
hemos detallado dos ejercicios para explotar nuestro corpus paralelo latn-espaol.
Y, en la tercera, hemos elaborado otras dos actividades de explotacin del corpus
monolinge en espaol.
Nuestro corpus electrnico tiene una finalidad pedaggica y, por ello, siguiendo
Ribalta, nm. 17 55
a Higgins (1988), hemos utilizado los conceptos de corpus as magister y corpus
as paedagogue, es decir, consideramos que el corpus es un instrumento que sirve
al docente y al discente como herramienta de enseanza (corpus as magister) y a la
vez como herramienta de aprendizaje (corpus as paedagogue). Este carcter abier-
to y colaborativo del corpus electrnico contribuye al doble objetivo, previsto en la
LOE, de implicar a todos los sectores del proceso educativo y de propiciar, al mismo
tiempo, un aprendizaje constructivo y significativo. El corpus electrnico se revela,
pues, como un eficaz instrumento para el aprendizaje del latn y se puede incorpo-
rar, junto a los diccionarios en papel y los electrnicos, al catlogo de recursos
didcticos de docentes y discentes de latn.
Bibliografia
Bieber, D. et alii (1998): Corpus Linguistics: Investigating Language Structure and
Use, Cambridge, Cambridge University Press.
Bowker, L. & J. Pearson (2002): Working with Specialized Language. A Practical
Guide to Using Corpora, London, Routledge
Calzada, M. (2005): Corpus electrnicos como herramientas de documentacin y
formacin de traductores, en Sales, D. (eds.) La biblioteca de Babel: documen-
tarse para traducir, Granada, Comares; 163-200.
(2007): Proyecto investigador para la habilitacin de ctedras, Castelln de la
Plana, Indito.
Flowerdew, L. (2004): The argument for using English specialized corpora to
understand academic and professional language en U. Connor, y T. A. Upton
(eds.), Discourse in the Professions. Perspectivas from Corpus Linguistics, ms-
terdam/ Filadelfia, Benjamins; 1136.
Higggins, J. (1988): Language Learners and Computers: Human Intelligence and
Artificial Unitelligence, Londres y Nueva York, Longman.
Johansson, S. (1998): On computer corpora in contrastive linguistics, en W.R.
Cooper (ed.) Compare or Contrast? Current Issues in Cross-Language Research.
Tampere English Studies 6, 259-289. Tampere: University of Tampere.
Laviosa, S. (2002): Corpus-based Translation Studies: Theory, Findings, Applications,
Amsterdam & New York, Rodopi.
Rabadn, R. y P. Fernndez Nistal (2002): La traduccin ingls-espaol: fundamen-
tos, herramientas y aplicaciones, Len, Universidad de Len.
Scott, M. y Ch. Tribble (2006): Textual Patterns: Key Words and Corpus Analysis In
Language Education, Philadelphia, John Benjamins.
Tognini-Bonelli, E. (2001): Corpus Linguistics at Work, Amsterdam & Philadelphia, J.
Benjamins.

You might also like