You are on page 1of 16

1

TEMA 1
LA EVALUACIÓN LINGÜÍSTICA: CONTEXTO, HISTORIA, TEMAS Y
TENDENCIAS

Tabla de contenido

1 INTRODUCCIÓN..........................................................................................................2
2 EL INTERÉS POR LA EVALUACIÓN........................................................................2
2.1 La naturaleza y la calidad de las pruebas................................................................3
2.2 Los efectos de la evaluación en los estudiantes.......................................................4
2.3 La justicia de las pruebas con las minorías..............................................................6
3 BREVE HISTORIA DE LA EVALUACIÓN LINGÜÍSTICA.....................................7
3.1 La tendencia precientífica........................................................................................7
3.2 La tendencia psicométrica-estructuralista...............................................................8
3.3 La tendencia integradora-sociolingüística.............................................................11
3.4 La tendencia comunicativa....................................................................................12
4 LOS AVANCES TECNOLÓGICOS EN LA EVALUACIÓN LINGÜÍSTICA.........13
5 REFERENCIAS BIBLIOGRÁFICAS.........................................................................14
2

1 INTRODUCCIÓN

En este tema introductorio voy a tratar los siguientes aspectos:

1. Las causas del interés creciente en la evaluación educativa en general y en la


evaluación de lenguas extranjeras en particular y tres áreas que han ocasionado
una intensa polémica en la evaluación educativa en general: (1) la naturaleza y la
calidad de las pruebas, (2) los efectos de la evaluación en los estudiantes y (3) la
justicia con las minorías.
2. La historia de la evaluación lingüística.
3. La influencia de las nuevas tecnologías de la información y la comunicación en
la evaluación lingüística.

Los resultados específicos del aprendizaje que el estudiante debe alcanzar al final de
este tema son:

1. El estudiante define, utiliza y relaciona una serie de conceptos generales de la


evaluación educativa.
2. El estudiante define, utiliza y relaciona una serie de conceptos que han ido
apareciendo a lo largo del desarrollo de la evaluación lingüística.
3. El estudiante define, utiliza y relaciona una serie de conceptos relacionados con
la utilización de las nuevas tecnologías de la información y la comunicación en
la evaluación lingüística.

2 EL INTERÉS POR LA EVALUACIÓN

La competencia global, los programas de evaluación autonómicos, nacionales e


internacionales, los nuevos currículos nacionales y autonómicos y la incorporación de
representantes de todos los sectores de la comunidad escolar a los órganos de gestión y
control de los centros educativos han contribuido al aumento de la importancia de la
evaluación educativa, en general, y de la evaluación lingüística, en particular. Sin
embargo, la dependencia de los instrumentos de evaluación también ha dado lugar a
debates acerca de la justicia de los usos y de las interpretaciones de los instrumentos de
evaluación.
La mayoría de las administraciones educativas exigen la realización de pruebas en
determinados cursos, que a veces son instrumentos desarrollados ex profeso por la
propia administración. En España, por ejemplo, la Ley Orgánica 2/2006, de 3 de mayo,
de Educación (L.O.E.) (España, 2006) establece la obligatoriedad de realizar dos
evaluaciones generales de diagnóstico de las competencias básicas alcanzadas por los
alumnos: una evaluación al finalizar el segundo ciclo de la educación primaria (art. 21)
y otra al finalizar el segundo curso de la educación secundaria obligatoria (art. 29). La
L.O.E., además, señala que el Instituto de Evaluación y los organismos
correspondientes de las comunidades autónomas colaborarán en la realización de estas
evaluaciones generales de diagnóstico (art. 144.1). Las pruebas a veces tienen su origen
en la participación en estudios nacionales o internacionales, como las pruebas del
Programa Internacional de Aprovechamiento de los Estudiantes (Programme for
International Student Assessment (PISA) (Organización para la Cooperación y el
Desarrollo Económicos, s.d.) o en evaluaciones de programas educativos, como el
3

Programa andaluz de Adaptación Lingüística (Andalucía, 2005, p. 31). Otro tipo de


prueba educativa que nuestros lectores seguro que han “sufrido” es la prueba para entrar
en una universidad.
Los instrumentos de evaluación lingüística han desempeñado un papel muy
destacado en las discusiones acerca del estado de la enseñanza de lenguas extranjeras en
todo el mundo y en las reformas de los sistemas de enseñanza de las lenguas
extranjeras. Las pruebas lingüísticas han sido el centro de un intenso debate por
multitud de razones: acusaciones de que las pruebas estaban sesgadas contra las
minorías o de que influyen en la enseñanza de un modo indeseable, por prestar
demasiada atención a ciertos tipos de contenidos en detrimento de otros, etc. Teniendo
en cuenta la importancia de la evaluación en la práctica de la enseñanza de lenguas, y
las cuestiones y debates asociados, es esencial que los profesores comprendan el diseño,
los usos y los abusos de los instrumentos de evaluación lingüística.
Las decisiones acerca de la elección de una prueba educativa, acerca de una
convocatoria, o acerca de un uso de una prueba lingüística, o de las pruebas educativas
en general, ya no interesan sólo a los profesores. En la actualidad, la sociedad exige
efectividad en los programas de enseñanza de las lenguas extranjeras. Esta mayor
preocupación por las cuestiones relacionadas con la evaluación lingüística tiene su
origen, en parte, en la concienciación de las consecuencias sociales de la evaluación,
especialmente el peligro que ciertas pruebas constituyen para los derechos y las
oportunidades de determinados individuos y grupos. Esta preocupación ha adoptado la
forma de ataques a las pruebas, a la industria de la evaluación y a las nuevas normas que
regulan la evaluación, o de solicitudes de aplazamiento de la aplicación de los nuevos
instrumentos de evaluación, o de acusaciones de que las pruebas están sesgadas y son
discriminatorias. En realidad, existen muchas razones de peso que justifican la
preocupación por las consecuencias sociales de la evaluación. Sin embargo, es
importante, distinguir entre, por un lado, las consecuencias negativas para los
individuos o grupos que tienen su origen en fallos de los instrumentos de evaluación y,
por otro, los fallos causados por una mala interpretación o un el mal uso de las
puntuaciones de una prueba.
Linn y Gronlund (2000, p. 18) mencionan tres áreas que causan polémica en la
evaluación educativa, y que son perfectamente aplicables a la evaluación lingüística: (1)
la naturaleza y la calidad de las pruebas, (2) los efectos de la evaluación en los
estudiantes y (3) la justicia con las minorías.

2.1 La naturaleza y la calidad de las pruebas

A principios de los años 60, algunos autores, como Hoffman (1962, p. 22), sostuvieron
que los ítems de elecciones múltiples penalizaban a las personas más inteligentes,
originales o “excepcionales”. Hoffman (1962) apoyó sus afirmaciones en una revisión
de ítems de pruebas estandarizadas que mostraba que era probable que algunos
estudiantes muy creativos y con un grado elevado en la capacidad evaluada realizaran
interpretaciones que no habían sido previstas por los diseñadores de las pruebas1.
1
Davies et al. (1999, p. 187) definen una prueba estandarizada como sigue:

Una prueba que idealmente tiene las siguientes características, aunque las pruebas
lingüísticas llamadas estandarizadas no siempre poseen todas estas características:

• Un desarrollo riguroso, un ensayo y un proceso de revisión, que determinan las


propiedades métricas de la prueba…
4

Hoffman (1962, p. 17), por ejemplo, incluyó la siguiente carta, dirigida al director del
Times:

Estimado señor:

Entre las preguntas del tipo “marca el elemento diferente” que mi hijo tuvo que responder
en una prueba para entrar en un colegio estaba: “¿Cuál es el elemento diferente en cricket,
fútbol, billar y hockey?

Yo dije billar porque es el único juego que se realiza dentro de un edificio. Un compañero
dijo fútbol porque es el único en el que la pelota no es golpeada con un instrumento. Un
vecino dijo cricket porque en los demás juegos el objetivo es meter la pelota en una red; y
mi hijo, con la confianza que dan nueve primaveras, se decide por el hockey porque “es el
único juego de niñas”.

Aunque las críticas de Hoffman (1962) tuvieron bastante eco, Hoffman también animó a
que los autores de las pruebas añadieran un análisis lógico y cuidadoso de los ítems al
análisis estadístico de los ítems. Frederiksen (1984, p. 199) observó que los problemas
en las pruebas estandarizadas suelen estar bien estructurados, es decir, “están
expresados con claridad, toda la información necesaria para resolver el problema está
disponible en el problema o -presumiblemente- en la cabeza del estudiante, y existe un
algoritmo que garantiza una solución correcta si se aplica adecuadamente”. Sin
embargo, la mayoría de los problemas importantes a los que uno se enfrenta en la vida
están mal estructurados, es decir, son

complejos, sin criterios definidos para determinar cuándo se ha solucionado el problema,


sin toda la información necesaria para resolver el problema, y sin un ‘generador de
movimientos legales’ para encontrar todas las posibilidades en cada paso durante la
resolución del problema (ibid.).

Estas críticas han conducido a un mayor énfasis en las preguntas abiertas y en el diseño
de pruebas que utilizan simulaciones por ordenador.
Una gran parte de las malas interpretaciones y de los malos usos de las puntuaciones
de las pruebas se evitarían si el usuario de la prueba fuera consciente de la naturaleza
limitada de la información que una prueba proporciona. Un buen usuario de una prueba
tiene en cuenta el error que puede existir en las puntuaciones de la prueba y utiliza otras
informaciones, aparte de la puntuación en la prueba, a la hora de tomar su decisión.
Afirmar que se toman mejores decisiones sin las puntuaciones de las pruebas es afirmar
que se toman mejores decisiones cuando existe menos información. Las puntuaciones
de una prueba son ciertamente falibles, pero probablemente son menos falibles que la
mayoría de los otros tipos de información que se utilizan para tomar las decisiones
educativas.

2.2 Los efectos de la evaluación en los estudiantes

• Procedimientos normalizados para la convocatoria y la puntuación de la prueba.


• El contenido de la prueba está normalizado en todas las versiones. Este contenido está
basado en un conjunto de especificaciones de la prueba que pueden reflejar una teoría de la
competencia lingüística o una concepción de las necesidades previstas de los candidatos. Las
formas alternativas de la prueba son examinadas para comprobar si existe equivalencia en los
contenidos.
5

Los críticos de la evaluación afirman que la evaluación tiene efectos indeseables en los
estudiantes. Algunos de las críticas más mencionadas al uso de las pruebas aparecen a
continuación, seguidas de unos breves comentarios.

Crítica 1: Las pruebas producen ansiedad

No cabe duda de que la ansiedad aumenta durante la realización de una prueba. Para la
mayoría de los estudiantes, la evaluación los obliga a actuar mejor. Para unos pocos, la
ansiedad causada por la prueba puede ser tan elevada que interfiere en la actuación en la
prueba. Estos estudiantes suelen tener una ansiedad elevada y la prueba, simplemente,
aumenta su nivel de ansiedad. Se pueden utilizar diferentes procedimientos para reducir
la ansiedad causada por la prueba, como una preparación concienzuda antes de la
prueba, el ensayo de la prueba, y proporcionar el tiempo suficiente para que el
estudiante pueda realizar la prueba con una cierta tranquilidad. Afortunadamente, en los
últimos años los diseñadores de muchas pruebas también proporcionan versiones para
que el estudiante ensaye y se ha pasado de las pruebas de velocidad a las pruebas de
potencia. Esto debería ayudar, pero, aun así, resulta necesario observar cuidadosamente
a los estudiantes durante la realización de la prueba y reflexionar acerca de las
puntuaciones obtenidas por los estudiantes a los que la prueba les produce un elevado
nivel de ansiedad.

Crítica 2: Las pruebas clasifican a los estudiantes

La clasificación de los individuos puede convertirse en un problema grave,


especialmente si la clasificación en un determinado grupo es una simple excusa para no
dar el tratamiento que el estudiante necesita para conseguir un mayor aprendizaje.
Cuando los estudiantes son, por ejemplo, clasificados como retrasados mentales o como
“inmigrantes”, esto influye en el modo en que los profesores y los compañeros los
consideran, en el que modo en que ellos se ven a sí mismos y en la elección del
programa educativo que se les proporciona. Si los estudiantes son considerados,
erróneamente, competentes en español, como está ocurriendo con algunos miembros de
las minorías étnicas, el problema se agrava.
La división de los estudiantes en diferentes grupos puede aumentar la eficiencia en
la gestión del tiempo en la clase y de los recursos del centro educativo. Sin embargo,
cualquier clasificación debe tener en cuenta que la prueba mide sólo una muestra
limitada de las capacidades de un estudiante y que los estudiantes están cambiando
constantemente. Los usuarios de una prueba deben tener en cuenta que las
clasificaciones basadas en esta prueba son provisionales y flexibles. Cuando las
categorías son consideradas permanentes, entonces la clasificación sí constituye un
problema importante. Pero en este caso, el culpable no es la prueba, sino el usuario de la
prueba.

Crítica 3: Las pruebas dañan el autoconcepto de los estudiantes

Existen profesores que a partir de las puntuaciones en las pruebas atribuyen estereotipos
a los estudiantes, que puede tener un efecto no deseado en el autoconcepto de los
estudiantes. También ocurre que el estudiante desarrolla un sentimiento general de
fracaso a partir de una puntuación baja. Los profesores debemos explicar a los
estudiantes que reciben una puntuación baja que las pruebas son medidas limitadas y
que nuestras competencias (y, por tanto, las puntuaciones) cambian. Además, se puede
6

limitar el desarrollo del sentimiento de fracaso si se mencionan los aspectos positivos


que el estudiante muestra en la prueba. Las pruebas pueden ayudar a que los estudiantes
identifiquen sus puntos fuertes y sus puntos débiles, y, con ello, contribuyen a un mejor
aprendizaje y a una imagen propia positiva.

Crítica 4: Las pruebas influyen en las expectativas de los profesores, que, a su vez,
influyen en las expectativas propias de los estudiantes

Aquéllos que utilizan esta crítica sostienen que cuando un profesor asigna una
puntuación a una prueba se produce el siguiente proceso:

1. Las puntuaciones en las pruebas crean expectativas en los profesores acerca del
aprendizaje de cada estudiante.
2. El profesor enseña a cada estudiante en función de estas expectativas.
3. Los estudiantes responden situándose en el nivel esperado.

Por tanto, aquéllos de quienes se espera que consigan más, consiguen más, y aquéllos de
quienes se espera que consigan menos, consiguen menos. Este efecto, llamado efecto
Pygmalion, fue estudiado por Rosenthal y Jacobsen (1968), aunque el estudio fue luego
cuestionado por otros investigadores (Elashoff y Snow, 1971; West y Anderson, 1976).
Está muy extendida la creencia de que las expectativas del profesor aumentan u
obstaculizan el aprovechamiento de un estudiante.

En resumen, existe algo de razón en las diferentes críticas acerca de los efectos
indeseables de las pruebas en los estudiantes. Pero en la mayoría de los casos estas
críticas deberían ser dirigidas a los usuarios de las pruebas, en lugar de a las pruebas
mismas. Es probable que las mismas personas que utilizan mal los resultados de una
prueba utilicen mal otras informaciones, que probablemente son menos precisas y
objetivas. Por tanto, la solución no es dejar de utilizar las pruebas, sino empezar a
utilizar las pruebas y otros datos con más efectividad. Cuando se utilizan las pruebas de
un modo positivo –es decir, para ayudar a que los estudiantes mejoren su aprendizaje–
es probable que las consecuencias sean beneficiosas.

2.3 La justicia de las pruebas con las minorías

La cuestión de la justicia con las minorías raciales y étnicas es crítica en cualquier


programa de evaluación. La justicia ha recibido una atención creciente en la literatura
sobre la evaluación lingüística a lo largo de los últimos años. El término justicia está
relacionado, según Linn y Gronlund (2000, pp. 21-22), con diferentes conceptos:

1. Ausencia de sesgo: Según Association of Language Testers in Europe Members


(1998, p. 204), “una prueba o ítem está sesgado si un grupo determinado de la
población de candidatos resulta favorecido o perjudicado a causa de una
característica de la prueba o de un ítem que no sea pertinente para lo que se
pretende medir”. El origen del sesgo puede estar vinculado al sexo, la edad, la
cultura, etc.
2. Justicia en el procedimiento, que está relacionada con cuestiones como:
¿tienen los examinandos las mismas oportunidades de demostrar lo que saben en
la prueba? ¿Son las respuestas de redacción puntuadas de un modo consistente
por los correctores, sin tener en cuenta el origen étnico o racial del examinando?
7

3. Oportunidad de aprender: Evidentemente, se considerará que una prueba que


evalúa algo es injusta si sólo algunos examinandos han tenido la oportunidad de
aprender el material que es evaluado.
4. Igualdad en los resultados: desde esta perspectiva, una prueba es justa si las
medias de las puntuaciones de cada grupo (por ejemplo, castellanoparlantes,
catalanoparlantes, chinos, africanos, latinos) son iguales.

Los diferentes conceptos pueden conducir a conclusiones bastante diferentes acerca


de la justicia de cualquier prueba o instrumento de evaluación. El cuarto concepto, la
igualdad de los resultados, es incompatible con otros principios de la evaluación, como
el objetivo de conseguir una medida fiable y válida de lo que los estudiantes saben,
independientemente de su origen o grupo étnico. Si grupos diferentes de estudiantes
difieren en la enseñanza que han recibido, en sus experiencias dentro y fuera del centro
educativo, y en sus intereses y esfuerzo, una prueba o instrumento de evaluación que
proporcione diferentes medias de puntuaciones para los grupos minoritarios y para el
grupo mayoritario puede reflejar las consecuencias de un tratamiento injusto a las
minorías por parte de la sociedad.
Una ausencia de sesgo y la justicia en el procedimiento son esenciales para que una
evaluación tenga un elevado grado de validez.

3 BREVE HISTORIA DE LA EVALUACIÓN LINGÜÍSTICA

Bernard Spolsky (1978, v) distinguió tres tendencias en la evaluación lingüística, que


coexisten en la actualidad:

1. La tendencia precientífica.
2. La tendencia psicométrica-estructuralista.
3. La tendencia integradora-sociolingüística.

3.1 La tendencia precientífica

Para Spolsky (1978, v), la tendencia precientífica, que aún prevalece en muchos lugares
del mundo, se puede caracterizar por una ausencia de preocupación por las cuestiones
estadísticas o por nociones como la objetividad y la fiabilidad:

En su forma más simple, presupone que podemos y debemos basarnos totalmente en el


juicio de un profesor experimentado, que puede decir qué calificación se debe dar después
de una conversación de varios minutos, o después de leer la respuesta a una redacción
(Spolsky, 1978, p. v).

En la tendencia precientífica es difícil encontrar exámenes orales y los exámenes suelen


consistir de preguntas abiertas que deben ser respondidas por escrito. Estos exámenes
suelen incluir:

1. Fragmentos que deben ser traducidos a o desde la lengua extranjera.


2. Redacciones libres en la lengua extranjera.
3. Ítems gramaticales, textuales o culturales.
8

En este movimiento la construcción de las pruebas lingüísticas es una tarea asignada a


los profesores de lengua o, en determinadas situaciones, antiguos profesores de lengua
que han pasado a trabajar como examinadores. Para quienes poseen una concepción de
la evaluación basada en la tendencia precientífica, los profesores no necesitan una
formación especial: “si una persona sabe cómo enseñar, se supone que puede valorar la
competencia de sus estudiantes” (Spolsky, 1978, pp. v-vi).

3.2 La tendencia psicométrica-estructuralista

La tendencia psicométrica-estructuralista se caracteriza por la interacción de dos tipos


de expertos, que están de acuerdo en que la evaluación puede ser “precisa, objetiva,
fiable y científica” (Spolsky, 1978, vi):

1. Los evaluadores, es decir, los psicólogos responsables del desarrollo de las teorías y
las técnicas modernas de la medición en la educación, cuyo objetivo principal es
proporcionar medidas objetivas mediante la utilización de diferentes técnicas
estadísticas, que permiten que las puntuaciones sean fiables y que las
interpretaciones que realizamos a partir de las puntuaciones sean válidas:

La forma de las pruebas… está determinada principalmente por la necesidad de evaluar


la fiabilidad y la validez de las pruebas. Ésta es la razón por la que, por ejemplo, la
técnica de las respuestas de elecciones múltiples es tan común. En la evaluación
lingüística esto quiere decir que normalmente recurrimos a las destrezas de la escritura y
la comprensión oral (Ingram, 1968, p. 74).

Los evaluadores habían advertido la escasa fiabilidad de los exámenes


tradicionales (Pilliner, 1968, p. 27). Starch y Elliott (1912), por ejemplo, observaron
que las puntuaciones que 142 profesores de inglés habían asignado a una prueba
oscilaban entre 64 y 98, mientras que en otra prueba las puntuaciones oscilaban
entre 50 y 98 (Starch, 1913, p. 630). Starch (1913, ibid.) confeccionó la Tabla 1 a
partir de las puntuaciones asignadas por diez profesores a 10 pruebas finales de
inglés del primer curso de la Universidad de Wisconsin, en la que podemos apreciar
la gran disparidad en las puntuaciones que los profesores (instructors) asignan a una
prueba (paper) realizada por el mismo estudiante. El profesor 4, por ejemplo, asigna
una puntuación de 20 a la prueba realizada por el estudiante 4, mientras que el
profesor 8 asigna una puntuación de 68 a esta misma prueba:

Tabla 1 Puntuaciones asignadas por 10 profesores (instructors) a una muestra de 10 pruebas (papers)
finales de inglés del primer curso de la Universidad de Wisconsin (Starch, 1913, p. 630).
9

Los evaluadores educativos han desarrollado diferentes tipos de ítems, como los
ítems de elecciones múltiples, que permiten comprobar con relativa facilidad si las
puntuaciones son fiables, y una serie de técnicas cuyo objetivos son conseguir que
las puntuaciones que los diferentes correctores asignan sean más fiables. En esta
tendencia se considera que la cuantificación de la fiabilidad y de la validez en las
pruebas tiene la máxima importancia.
Spolsky (1978, p. vi) mencionó dos problemas que tienen las pruebas
lingüísticas desarrolladas exclusivamente por los evaluadores:

1. Los nuevos tipos de tareas (como la tarea en la que el examinando contesta


eligiendo una opción de entre varias opciones posibles) exigen una respuesta
escrita, lo cual limita la evaluación lingüística a las actividades de
comprensión escrita y comprensión oral. Agard y Dunkel (1948), por
ejemplo, afirmaban que las únicas pruebas disponibles eran pruebas escritas
de vocabulario, lectura y gramática y que ninguna de estas pruebas
evaluaban las destrezas de producción y comprensión orales (cit. en Spolsky,
1978, p. vi; Fulcher, 1999, p. 391).
2. Una prueba desarrollada exclusivamente por evaluadores no tiene en cuenta
los nuevos conceptos, procedimientos y descubrimientos de la enseñanza y
el aprendizaje de lenguas.

2. Los expertos con formación en evaluación educativa y en lingüística. Ya en los años


50 existieron voces que recomendaban la combinación de conocimientos
procedentes de la evaluación educativa con conocimientos lingüísticos para la
construcción de pruebas lingüísticas. Robert Lado (1950), por ejemplo, aplicó esta
combinación de conocimientos al diseño de pruebas de aprovechamiento de inglés
para estudiantes latinoamericanos y concluía lo siguiente en su tesis doctoral:

Se obtienen varias conclusiones. Estas conclusiones son (1) que existe un gran retraso
en la medición del inglés como lengua extranjera, (2) que el retraso está relacionado
con concepciones acientíficas de la lengua, (3) que la ciencia del lenguaje debería ser
utilizada en la definición de qué enseñar… El estudio proporciona procedimientos
para la aplicación de la lingüística al desarrollo de pruebas de lengua extranjera (Lado,
1950, cit. en Carroll, 1953, p. 195).

Para Carroll (1953, p. 195), el retraso existía, en realidad, en “toda la medición de


las lenguas extranjeras”. A lo largo de los años 50 y 60 Lado refinó sus conceptos de
evaluación lingüística y en 1961 publicó Language Testing, un libro dirigido a los
“profesores de lenguas extranjeras y de inglés como lengua extranjera”, que se basa
en el supuesto de que “el conocimiento lingüístico” es una “contribución principal”
a la evaluación lingüística, es decir, para Lado (1961, p. vii) las pruebas lingüísticas
debían tener en cuenta “el desarrollo de la lingüística lingüística moderna durante
los últimos treinta y cinco años”.

Según Spolsky (1978, p. vii), durante los años 50 y 60 se combinaron la concepción


estructuralista de la lengua, las teorías psicológicas y las necesidades prácticas de los
evaluadores. Por un lado, los diseñadores de pruebas lingüísticas necesitaban extensas
listas de ítems que permitieran la selección de ciertos ítems, que serían incluidos en
pruebas objetivas, mientras que, por otro, los lingüistas estructuralistas estaban
describiendo la lengua como un sistema compuesto de elementos que se combinan entre
sí. En la lingüística estructural americana de los años 50 se postulaban una serie de
10

niveles jerárquicos en el estudio del lenguaje, compuestos de una serie de unidades, de


cuya combinación surgían las unidades del nivel superior. Lado (1961, p. 25), por
ejemplo, afirmaba que “el lenguaje se construye a partir de sonidos, la entonación, el
acento, morfemas, palabras y combinaciones de palabras”. Mediante esta combinación
de la visión estructural de la lengua y los procedimientos de evaluación educativa
objetiva quedaba expedito el camino hacia la construcción de una prueba objetiva con
preguntas de elecciones múltiples basada en la lingüística estructural. Los elementos
lingüísticos pueden ser evaluados, según Lado (1961, p. 204), aisladamente o en
combinación en una “destreza integrada”, como la comprensión oral (listening), la
comprensión oral (reading), la producción oral (speaking), la escritura (writing) o la
traducción (translation). A continuación presento dos ítems que aparecen en Lado
(1961), que evalúan elementos aislados y elementos combinados:

Ejemplo de ítem de elecciones múltiples para evaluar el control de estructuras


gramaticales:

El señor Martin visitó al profesor. John los vio…

(1) El señor Martin sabe quién visitó a John.


(2) John sabe quién visitó al señor Martín.
(3) El profesor sabe a quien visitó John.
(4) John sabe a quien visitó el señor Martín.
(5) John sabe a quien visitó el profesor.

(Lado, 1961, p. 159)

Ejemplo de ítem de elecciones múltiples para evaluar la destreza integrada de la


lectura:

La autopista del cielo por encima de la cima del mundo se ha convertido en la piedra de toque de la
historia del viaje intercontinental, marcando el comienzo de una nueva edad en la aviación comercial
(Mapa de las Rutas de las Líneas Aéreas Escandinavas)

1. “Autopista” en esta oración quiere decir

(A) ‘vía para autómoviles’


(B) ‘ruta para aviones’
(C) ‘grupo de estrellas’
(D) ‘animal con alas’

(Lado, 1961, p. 235)

En 1961 Carroll (1961[1965], p. 370) distinguió en la evaluación lingüística entre el


enfoque de los puntos estructurales discretos (dicrete structure-point approach) y el
enfoque integrador (integrative approach):

1. En el enfoque de los puntos estructurales discretos los diseñadores construyen


pruebas que evalúan

ítems muy específicos de conocimiento lingüístico y de destreza que han sido


sensatamente seleccionados del conjunto generalmente enorme de ítems posibles…
Es el tipo de enfoque que es necesario y recomendado… donde deben ser evaluados
el conocimiento de la estructura y el léxico, la discriminación auditiva y la
11

producción oral de sonidos, y la lectura y la escritura de símbolos y palabras


individuales (Carroll, 1961[1965], p. 369)2.

2. El enfoque integrador de la evaluación lingüística:

Las cuatro destrezas de la comprensión oral (listening), producción oral (speaking),


lectura, y escritura también deben ser consideradas actuaciones integradas que
exigen que el candidato domine la lengua como un todo, es decir, su fonología,
estructura y léxico. Merece la pena especificar el nivel de competencia deseado en
cada una de ellas… porque cada una está relacionada con elementos de velocidad en
la respuesta… No creo… que la evaluación lingüística (o la especificación de la
competencia lingüística) esté completa sin el uso de… un enfoque que exija una
actuación integrada y fluida al examinando… yo recomiendo pruebas en las que se
presta menos atención a determinados puntos estructurales o a determinados
vocabularios que al efecto comunicativo total de un enunciado. Por ejemplo, he
tenido gran éxito en la determinación de niveles de formación audiolingüe mediante
una prueba de comprensión oral en la que oraciones de longitud y velocidad
crecientes presentadas auditivamente deben ser asociadas al dibujo correspondiente,
de los cuatro presentados. El examinando no está interesado en los puntos
estructurales específicos o en el léxico especifico, sino en el significado total de la
oración, independientemente del modo en que pueda comprenderla (Carroll,
1961[1965], pp. 369-370).

Este énfasis en un enfoque integrado convierte a Carroll, según Spolsky (1978, p. ix), en
el primer partidario de la tendencia integradora-sociolingüística, que es el objeto del
siguiente apartado.

3.3 La tendencia integradora-sociolingüística

Según Carroll (1961[1965], p. 370), el enfoque integrador poseía ciertas ventajas que no
tenía la tendencia psicométrica-estructuralista:

1. Los ítems o las tareas que constituyen una prueba diseñada según la tendencia
integradora-sociolingüística se seleccionan a partir de un conjunto que es más
amplio que el conjunto a partir del cual se seleccionan los ítems o las tareas de
una prueba psicométrica-estructuralista. Según Carroll, esto es una ventaja,
puesto que facilita la construcción de una prueba que es independiente de los
currículos que han seguido los examinandos que van a realizar la prueba.
2. Parece que es más sencillo relacionar las tareas de una prueba integradora-
sociolingüística con diferentes niveles de competencia.

2
Oller (1979, p. 37) definió una prueba de puntos discretos como una prueba “que intenta concentrar la
atención en un punto de la gramática cada vez”:

Cada ítem de la prueba tiene como objetivo un único elemento de un determinado


componente de una gramática (o quizás deberíamos decir de una gramática que es
postulada), como la fonología, la sintaxis, o el vocabulario. Además, una prueba de puntos
discretos tiene como fin evaluar sólo una destreza cada vez (por ejemplo, la comprensión
oral, o la producción oral, o la lectura, o la escritura) y sólo un aspecto de una destreza (por
ejemplo, productivo en lugar de receptivo u oral en lugar de visual). Dentro de cada
destreza, aspecto y componente, los ítems discretos supuestamente tienen por objeto
exactamente uno y sólo un fonema, morfema, elemento léxico, regla gramatical, o lo que
quiera que sea el elemento correspondiente (Oller, 1979, p. 37).
12

3. En un enfoque integrador no resulta tan necesario realizar un análisis contrastivo


entre la primera lengua de los examinandos y la segunda evaluada en la prueba.

Según Spolsky (1978, p. ix), la tendencia integradora-sociolingüística se caracteriza,


entre otras cosas, por:

1. La utilización de pruebas clozes, que Association of Language Testers in Europe


Members (1998, p. 198) definen como un “tipo de actividad que consiste en
rellenar huecos en un texto en el cual han sido suprimidas palabras enteras”, y
dictados, un “tipo de actividad de examen en el cual el candidato ha de escuchar
un texto y escribir las palabras escuchadas” (ibid., p. 179). La razón por la cual
se incluyen este tipo de tareas en una prueba integradora-sociolingüística tiene
su origen en el supuesto de que “en el uso normal de la lengua… siempre es
posible predecir parcialmente lo que vendrá a continuación” (Oller, 1979, p. 25).
Por tanto, la inclusión de las pruebas cloze y de los dictados permite que el
examinando utilice esta capacidad de predicción.
2. La importancia concedida a la evaluación de la competencia comunicativa. Con
el transcurso del tiempo el concepto de competencia lingüística fue haciéndose
cada vez más complejo y ha sido sustituido por el concepto de competencia
comunicativa. Los lingüistas se dieron cuenta de que la lengua no está
constituida sólo por “sonidos, la entonación, el acento, morfemas, palabras y
combinaciones de palabras” (Lado, 1961, p. 25). Hymes (1972, p. 281), por
ejemplo, afirmó que existen cuatro tipos diferentes de sistemas de reglas que
subyacen a la conducta lingüística, que se reflejan en los cuatro tipos de juicios
que un hablante comunicativamente competente puede realizar acerca de la
lengua:

1. Si (y en qué grado) algo es formalmente posible;


2. Si (y en qué grado) algo es factible en virtud de los medios disponibles de implementación;
3. Si (y en qué grado) algo es apropiado (adecuado, bien adaptado, tiene éxito) en relación al
contexto en el que es utilizado y evaluado.
4. Si (y en qué grado) se hace algo de hecho, algo es realmente realizado, y qué conlleva esta
acción3.

Posteriormente, Canale and Swain (1980, pp. 28-31) y Canale (1983, 338-342)
desarrollaron su concepto de competencia comunicativa, que ha sido muy
influyente en la evaluación lingüística.

3.4 La tendencia comunicativa

Otros autores han dividido la evolución de la evaluación linguistic de un modo


ligeramente diferente a Spolsky (1978). James Dean Brown (2005, pp. 19-24), por
ejemplo, distingue cuatro movimientos en la evaluación lingüística, que coexisten en la
actualidad: (i) el movimiento precientífico, (ii) el movimiento psicométrico-
estructuralista, (iii) el movimiento integrativo-sociolingüístico, y (iv) el movimiento
comunicativo, mientras que Elana Shohamy (1997, p. 141) distingue tres periodos en la
historia de la evaluación lingüística: el período de los puntos discretos, el período
integrativo y el período comunicativo.

3
En cursiva en el original.
13

La tendencia comunicativa, que comenzó en el Reino Unido y que después se


extendió a los Estados Unidos, se basa en tres principios:

1. El aprendizaje de una lengua debe ser interactivo.


2. Las situaciones en las que se aprende una lengua deben ser muy parecidas a las
situaciones en las que los sujetos van a utilizar la lengua (Shohamy, 1997, p.
142).
3. El uso de las pruebas de actuación lingüística (performance assessment), es
decir, pruebas que obligan a que “los candidatos produzcan una muestra de
lengua, escrita o hablada (por ejemplo, redacciones y entrevistas orales). Estos
procedimientos están diseñados para reproducir la actuación tal como se produce
en contextos reales de comunicación” (Association of Language Testers in
Europe Members, 1998, pp. 198-199).

El trasfondo específico de este movimiento está compuesto de proposiciones tomadas


de diversos campos de la enseñanza de lenguas, como el enfoque nocional-funcional de
la enseñanza de lenguas o la enseñanza de lenguas para fines específicos. El concepto
de competencia comunicativa de Canale y Swain (1981) y Canale (1983) también ha
influido en el diseño de las pruebas diseñadas dentro de la tendencia comunicativa.

4 LOS AVANCES TECNOLÓGICOS EN LA


EVALUACIÓN LINGÜÍSTICA

Con el aumento de la disponibilidad y la potencia de los microordenadores a un precio


relativamente bajo, no es sorprendente que se haya generalizado el uso de programas
informáticos para evaluar la competencia lingüística de los individuos. Hasta puede que
algunos de vosotros ya hayáis realizado, por ejemplo, las pruebas DIALANG
(www.dialang.org).
La utilización de un ordenador para presentar los ítems de una prueba lingüística
puede tener varias ventajas. Por ejemplo, en lugar de tener que realizar la prueba el día
de la convocatoria, los examinandos pueden solicitar realizarla en un momento que se
ajuste mejor a sus necesidades. Además, en lugar de tener que esperar varias semanas
para recibir los resultados de la prueba, las puntuaciones pueden ser obtenidas
inmediatamente. Pearson Driving Assessment (2007) cita las siguientes ventajas de la
evaluación basada en ordenadores:

• La capacidad de realizar las pruebas cuando el candidato lo solicita y cuando es conveniente para
el candidato.
• La posibilidad de crear preguntas que se pueden almacenar en “bancos de preguntas” y de
presentar estas preguntas aleatoriamente, reduciendo la evaluación “en serie”, es decir, la
necesidad de evaluar el mismo día a la misma hora a todos los candidatos.
• La desaparición de complejos problemas logísticos, como la distribución, el almacenamiento y el
seguimiento de los impresos de examen.
• Las pruebas pueden ser realizadas sin una conexión a Internet, por lo que se minimiza el riesgo
de fallos del sistema.
• Reducción del esfuerzo y del tiempo al corregir y presentar los informes de los resultados.
• Resultados instantáneos y retroalimentación diagnóstica inmediata, que indican los puntos
fuertes y las áreas que el candidato debe mejorar.

Aunque estas ventajas son importantes, los cambios más significativos importantes
han tenido lugar como consecuencia del hecho de que el ordenador puede hacer
14

fácilmente cosas que no resultan sencillas con una prueba de lápiz y papel. La
tecnología permite, por ejemplo, introducir grabaciones en vídeo o plantear problemas
que obligan a los estudiantes a utilizar Internet, lo cual añade todas las ventajas que
estas tecnologías pueden aportar durante los procesos de enseñanza y evaluación.
El cambio más ampliamente difundido en la evaluación lingüística ha sido el uso del
ordenador para realizar pruebas adaptativas, es decir, pruebas en las que la elección
del siguiente ítem está basado en las respuestas previas del examinando, como las
pruebas DIALANG. Las pruebas adaptativas pueden aumentar la calidad de la
información disponible y, por tanto, de las decisiones que se adoptan a partir de la
información disponible. Una prueba adaptativa normalmente comienza con la
presentación de un ítem que se cree que tiene una dificultad media para el examinando.
El segundo ítem y los siguientes están determinados por las respuestas previas del
examinando. En general, si un examinando responde un ítem correctamente, el
programa selecciona a continuación un ítem un poco más difícil. Y, al contrario, se
presenta un ítem un poco más fácil después de una respuesta incorrecta. La prueba
finaliza cuando las estimaciones de la actuación del examinando alcanzan un nivel
predeterminado de precisión o cuando se ha presentado un determinado número de
ítems. Se ha demostrado que la evaluación adaptativa puede aumentar la eficiencia y la
precisión de las medidas de ciertos tipos de conceptos, destrezas y habilidades. En
algunos casos, las pruebas adaptativas pueden alcanzar el mismo nivel de fiabilidad que
una prueba convencional de lápiz y papel, pero en la mitad de tiempo.
Sin embargo, no comprenderéis todo el potencial de la utilización de los
ordenadores durante el proceso de evaluación si sólo consideráis que los ordenadores
son herramientas para presentar los ítems más fácilmente: ¡el ordenador puede medir
competencias que no se miden adecuadamente en las pruebas convencionales de lápiz y
papel! Las grabaciones en video permiten presentar problemas que tienen un mayor
realismo que los problemas normalmente planteados en las pruebas de lápiz y papel. La
simulación de problemas presentada a través de un ordenador tienen varias ventajas
respecto a las pruebas de lápiz y papel en la enseñanza del español como segunda
lengua: la simulación puede obligar a que el examinando concentre su atención en el
uso de la información para resolver un problema y puede ayudar a evaluar no sólo el
producto del estudiante sino también el proceso que el estudiante utiliza para realizar la
actividad, incluyendo el modo en que la actividad es abordada, la calidad de la solución
y el número de sugerencias que pueden ser necesarias para resolver la actividad.

5 REFERENCIAS BIBLIOGRÁFICAS

AGARD, F.B.; DUNKEL, H.B. An investigation of second language teaching. Boston,


Massachusetts: Ginn, 1948.
ANDALUCÍA. Acuerdo de 22 de marzo de 2005, del Consejo de Gobierno, por el que se
aprueba el Plan de Fomento del Plurilingüismo en Andalucía. Boletín Oficial de la
Junta de Andalucía, 5 de abril de 2005, n.º 65, pp. 8-39.
ASSOCIATION OF LANGUAGE TESTERS IN EUROPE MEMBERS. Multilingual
glossary of language testing terms. Cambridge: Cambridge University Press, 1998.
BROWN, James Dean. Testing in language programs. New York: McGraw-Hill
ESL/ELT, 2005.
DAVIES, Alan; BROWN, Annie; ELDER, Cathie; HILL, Kathryn; LUMLEY, Tom;
MCNAMARA, Tim F. Dictionary of language testing. Cambridge: Cambridge
University Press, 1999.
15

CANALE, Michael. “On some dimensions of language proficiency”. En: OLLER, John
W. (ed.). Issues in language testing research. Rowley, Massachusetts: Newbury
House, pp. 333-342.
CANALE, Michael; SWAIN, Merrill. “Theoretical bases of communicative approaches
to second language teaching and testing”. Applied Linguistics. 1980, vol. 1, pp. 1-47.
CARROLL, John Bissell. The study of language: A survey of linguistics and related
disciplines in America. Cambridge: Harvard University Press, 1953.
CARROLL, John Bissell. “Fundamental considerations in testing for English language
proficiency of foreign students”. En: Testing the English proficiency of foreign
students. Washington, D.C.: Center for Applied Linguistics, 1961, pp. 30-40.
Reimpr. en: ALLEN, Harold B (ed.). Teaching English as a second language: A
book of readings. New York: McGraw-Hill, 1965, 364-372.
DAVIES, Alan; BROWN, Annie; ELDER, Cathie; HILL, Kathryn; LUMLEY, Tom;
McNamara, Tim F. Dictionary of language testing. Cambridge: Cambridge
University Press, 1999.
ELASHOFF, Janet D.; SNOW, Richard E. Pygmalion reconsidered; a case study in
statistical inference: reconsideration of the Rosenthal-Jacobson data on teacher
expectancy. Worthington, Ohio: Charles A. Jones, 1971.
ESPAÑA. Ley Orgánica 2/2006, de 3 de mayo, de Educación. Boletín Oficial del
Estado, 4 de mayo de 2006, núm. 106, pp. 17158-17207.
FREDERIKSEN, Norman. “The real test bias: Influences of testing on teaching and
learning”. American Psychologist. 1984, vol. 39, n.º 3, pp. 193-202.
FULCHER, Glenn. “Book Review: A history of foreign language testing in the United
States: from its beginnings to the present”. Language Testing. 1999, vol. 16, no. 3,
pp. 389-398.
HOFFMAN, Banesh. The tyranny of testing. New York: Crowell-Collier, 1962.
HYMES, D.H. “On communicative competence”. En: PRIDE, J.B.; HOLMES, Janet
(eds.). Sociolinguistics: selected readings. Hardmondsworth: Penguin, 1972, pp.
269-293.
INGRAM, Elisabeth. “Attainment and diagnostic test”. En: DAVIES, Alan (ed.).
Language testing symposium: a psycholinguistic approach. London: Oxford
University Press, 1968, pp. 70-97.
LADO, Robert. Measurement in English as a foreign language with special reference
to Spanish-speaking adults. Tesis doctoral. Ann Arbor, Michigan: University of
Michigan, 1950.
LINN, Robert L.; GRONLUND, Norman E. Measurement and assessment in teaching.
Saddle River, New Jersey: Prentice-Hall, 2000.
OLLER, John W. Language tests at schools. London: Longman, 1979.
ORGANIZACIÓN PARA LA COOPERACIÓN Y EL DESARROLLO
ECONÓMICOS. Organisation for Economic Co-operation and Development [en
línea]. Paris: Organisation for Economic Co-operation and Development, s.d. [ref.
de 14 de enero de 2007 5:06]. OECD Programme for International Student
Assessment (PISA): PISA en español. Disponible en World Wide Web:
<http://www.pisa.oecd.org/document/25/0,3343,en_32252351_32235731_39733465
_1_1_1_1,00.html>.
PEARSON DRIVING ASSESSMENT. Pearson VUE [en línea]. London: Pearson
VUE, 2007 [ref. de 27 de octubre de 2007 20:37]. Computer-based testing: benefits.
Disponible en World Wide Web:
<http://www.pearsonvue.co.uk/home/cbt/benefits/>.
16

PILLINER, Albert E.G. “Subjective and objective testing”. En: DAVIES, Alan (ed.).
Language testing symposium: a psycholinguistic approach. London: Oxford
University Press, 1968, pp. 19-35.
ROSENTHAL, Robert; JACOBSEN, Lenore. Pygmalion in the classroom: teacher
expectation and pupils’ intellectual development. New York: Holt, Rinehart and
Winston, 1969.
SHOHAMY, Elana. “Second language assessment”. En: TUCKER, G. Richard;
CORSON, David (eds.). Encyclopedia of language and education, vol. 4: second
language education. Dordrecht: Kluwer, 1997, pp. 141-149.
SPOLSKY, Bernard. “Introduction: linguists and language testers”. En: SPOLSKY,
Bernard (ed.). Approaches to language testing. Arlington, Virginia: Center for
Applied Linguistics, 1978, pp. v-x.
STARCH, Daniel. “Reliability and distribution of grades”. Science. 1913, vol. 38, no.
983, pp. 630-636.
STARCH, Daniel; ELLIOTT, Edward C. “Reliability of the grading of high-school
work in English”. The School Review. 1912, vol. 20, no. 7, pp. 442-457.
WEST, Charles K.; ANDERSON, Thomas H. “The question of teacher preponderant
causation in teacher expectancy research”. Review of Educational Research. 1976,
vol. 46, pp. 613-630.

You might also like