You are on page 1of 10

Para comprender las

evaluaciones educativas
Fichas didacticas

Ficha 4

¿cuáles son los principales problemas


comunes a todas las evaluaciones educativas ?

Pedro Ravela
ficha nº 4

¿cuáles son los principales problemas


comunes a todas las evaluaciones educativas?
validez y confiabilidad

Esta ficha tiene como objetivo ayudar al idealmente, “concertadas” con otros
lector a desarrollar su capacidad para leer actores;
críticamente las evaluaciones.
b. los datos y percepciones que poseemos
La formulación de juicios de valor es el acerca de la realidad evaluada son
centro de la evaluación. Pero, como se siempre aproximaciones parciales a la
mostró en las fichas anteriores, ésta no es misma.
una actividad objetiva y aséptica, en la
medida en que: Por lo tanto, todo lector inteligente de
evaluaciones debería, antes de aceptar las
a. intervienen valores y visiones del mundo conclusiones y valoraciones resultantes,
y de la realidad evaluada que son mirar con ojo crítico y particular cuidado el
construidas por los evaluadores e, modo en que la evaluación fue realizada.

Validez y confiabilidad

Se puede agrupar los principales tipos de El concepto de confiabilidad refiere a la


problemas que debe enfrentar cualquier precisión de las medidas y de la evidencia
evaluación en torno a dos conceptos: validez empírica empleada en la evaluación.
y confiabilidad.
Dada la abstracción de estos dos conceptos
El concepto de validez refiere al grado en para quien no pertenece a los campos de la
que los juicios de valor que se formulan en evaluación o la investigación, comenzaremos
la evaluación están adecuadamente por ejemplificarlos, para luego presentar
sustentados en evidencia empírica y están una definición más elaborada.
efectivamente relacionados con el
“referente” definido para la evaluación.

Ejemplos de problemas de validez

1. La prueba no evalúa lo que se supone acontecimientos históricos. Sin embargo,


debe evaluar luego se los examina con una prueba de
ensayo que fundamentalmente requiere de
Éste es un tipo de problema bastante común la memorización de acontecimientos, datos
en diversos tipos de pruebas. y fechas, así como de la capacidad para
organizar un relato escrito de ellos con una
1.1. Un curso de Historia puede tener como prosa adecuada.
propósito lograr que los alumnos desarrollen
su capacidad para analizar críticamente los En este caso, la prueba no recoge evidencia
factores sociales, políticos y económicos que empírica suficiente y apropiada para
incidieron en la generación de ciertos determinar si los estudiantes adquirieron las

para comprender las evaluaciones educativas ficha nº 4


⎣2⎦
¿cuáles son los principales problemas comunes a todas las evaluaciones?

capacidades que fueron definidas como 1.3. En la Figura 1 se puede observar otro
propósito del curso. ejemplo de una actividad de Matemática
que no evalúa lo que dice evaluar.
1.2. Una actividad de Matemática tiene un
alto contenido de consignas verbales. Los Se trata de un ítem que, teóricamente, está
alumnos que tienen menor competencia dirigido a evaluar la capacidad del alumno
para la lectura no comprenden lo que se les para resolver problemas. Sin embargo, si se
está pidiendo, por lo que sus resultados son lo analiza detenidamente se puede constatar
malos no porque no sepan razonar que en realidad no hay ningún “problema” a
matemáticamente, sino porque no resolver. Para llegar a la respuesta correcta
entienden “de qué se trata”. En cambio, los es necesario, en primer lugar, que el alumno
alumnos con mayor habilidad para la lectura haya memorizado la fórmula de cálculo del
tendrán más posibilidades de resolver la volumen de un poliedro. En segundo lugar,
actividad. el alumno necesita ser capaz de multiplicar
números enteros.
En este caso, la actividad no está evaluando
lo que se supone debe evaluar. Evalúa Tal como está planteada, la actividad sólo
lectura antes que capacidades o puede ser considerada un “problema” desde
conocimientos matemáticos. una concepción muy simplista y escolar de lo
que es “resolución de problemas”.

Figura 1
Una actividad de “resolución de problemas”

El volumen de esta caja de zapatos es:

a) 3,6 cm 3
12
b) 300 cm 3 cm
c) 360 cm 3
d) 3.600 cm 3 10
30 cm
cm

Fuente: Administración Nacional de Educación Pública/ Unidad de Medición de Resultados Educativos, 2000.
Evaluaciones Nacionales de Aprendizajes en Educación Primaria en el Uruguay. 1995-1999. UMRE, Montevideo.

Para estos casos, en que no existe referente. Los siguientes son algunos
consistencia entre el instrumento ejemplos.
empleado para recoger evidencia empírica
(la prueba) y el referente de la evaluación 2.1. Una prueba tiene como objetivo
(aquello que ha sido definido como evaluar el dominio del currículo de ciencias
capacidades o aprendizajes esperables en vigente para en determinado grado, pero
los alumnos), se utiliza técnicamente la sus actividades sólo cubren la cuarta parte
expresión “validez de constructo”. de los conocimientos científicos relevantes
que los alumnos deberían dominar e ignora
2. La prueba no abarca adecuadamente los restantes.
lo que los estudiantes deberían haber
aprendido 2.2. Otro ejemplo de este tipo de problema
es la antigua práctica de “sortear” temas
Una prueba puede ser coherente con la para en examen a través de un “bolillero” o
definición de qué se espera que los alumnos “balotario”. En este caso, se sorteaba un
aprendan pero no cubrir adecuadamente los tema de todos los que el alumno debería
diferentes aspectos definidos en el

para comprender las evaluaciones educativas ficha nº 4


⎣3⎦
¿cuáles son los principales problemas comunes a todas las evaluaciones?

dominar y el alumno debía exponer pero, además, porque se han desarrollado


exclusivamente sobre ese tema. procedimientos estadísticos para otorgar a
los alumnos puntajes comparables,
El resultado de un alumno en situaciones de independientemente de qué conjunto de
evaluación como las descritas en los actividades hayan respondido (véase en la
ejemplos está fuertemente determinado por ficha 8 la “teoría de respuesta al ítem”).
el azar.
En el caso de las evaluaciones de
Cuando la prueba no contempla en forma al certificación que realizan los docentes en
menos aproximada los diferentes contenidos los centros educativos, el problema se
del curso, un alumno que estudie y aprende resuelve por la vía de no hacer depender el
la mitad de los temas tiene un 50% de resultado final de un alumno de una sola
probabilidades de obtener un resultado prueba o examen, estableciendo en cambio
excelente -–y la misma probabilidad de ser un sistema de evaluación que incluye varias
reprobado con una pésima calificación--. pruebas y, además, otro tipo de actividades
y productos que el alumno realiza durante el
Para estos casos, en que la prueba no cubre curso.
adecuadamente la diversidad de
conocimientos y competencias definidos Los ejemplos analizados hasta el momento
en el referente, se suele utilizar la (1.1 a 2.2) implican una primera advertencia
expresión “validez de contenido”. para el usuario de evaluaciones: es
necesario analizar el grado de consistencia
Este tipo de problemas son en cierto modo entre lo que la evaluación se propuso
inevitables, dado que toda prueba se realiza evaluar –el referente- y los instrumentos
en un lapso de tiempo limitado, por lo que empleados para ello.
difícilmente puede cubrir la totalidad de los
conocimientos y competencias trabajadas en Realizar directamente este análisis
un curso. normalmente no está al alcance del lector.
Por lo tanto, los reportes de las evaluaciones
Sin embargo, existen procedimientos para deberían incluir información técnica
enfrentar el problema. explícita acerca de los procedimientos
seguidos para minimizar estos problemas.
En el caso de las pruebas estandarizadas, se
busca, en primer término, que las Del mismo modo, los centros educativos
actividades de la prueba sean una buena deberían hacer explícita a alumnos y
muestra de la diversidad de contenidos y familias la manera en que su sistema de
competencias, que se pretende evaluar y se evaluación busca asegurar la coherencia con
prioriza aquellos que son considerados más los objetivos de los cursos y los propósitos
relevantes. educativos de la institución.

En segundo término, cada vez más se utiliza 3. El dispositivo de evaluación no es


simultáneamente varias pruebas diferentes apropiado para predecir el
que se distribuyen aleatoriamente entre los desempeño futuro de los evaluados
alumnos. Estas pruebas contienen algunos
bloques de actividades en común y otros Algunas evaluaciones tienen como propósito
bloques de actividades que son diferentes. principal seleccionar personas para
Este procedimiento técnico permite ampliar desempeñar determinados cargos en la
la muestra de conocimientos y competencias estructura educativa o estudiantes para
que son evaluados, sin perder la posibilidad acceder a determinados programas
de comparar puntuaciones entre los educativos.
estudiantes.
Un caso particularmente importante lo
El hecho de que no todos los alumnos constituyen las evaluaciones que se realiza
realicen la misma prueba no es relevante en en el sistema educativo para seleccionar
este caso, porque el propósito de una directivos o supervisores, normalmente
evaluación de este tipo no es establecer mediante concursos que, además de
comparaciones entre alumnos individuales pruebas, utilizan otras fuentes de evidencia

para comprender las evaluaciones educativas ficha nº 4


⎣4⎦
¿cuáles son los principales problemas comunes a todas las evaluaciones?

empírica tales como los antecedentes qué aspectos son prioritarios para el
académicos y funcionales de los candidatos. desempeño del cargo. Por ejemplo, suele
tener mucho más peso en el puntaje final la
En este caso los resultados de la evaluación antigüedad del individuo en el sistema, su
deben tener la capacidad de anticipar dos desempeño en una prueba teórica sobre
cosas principales: educación o la acumulación de certificados
de participación en seminarios, cursos y
a. qué candidatos tienen las aptitudes talleres, que las habilidades del candidato
imprescindibles para el cargo y cuáles relacionadas con la gestión de una
no; organización compleja o sus capacidades
relacionadas con las relaciones humanas y el
b. qué candidatos tienen más aptitudes y liderazgo.
cuáles menos; es decir, se espera que la
evaluación prediga quiénes serán 3.3. En tercer lugar, dada la cantidad de
mejores en el desempeño de los cargos, candidatos a evaluar, normalmente en estas
a efectos de que tengan prioridad para evaluaciones intervienen varios tribunales o
acceder a los mismos. jurados diferentes, pero no existen
procedimientos explícitos para garantizar
Este tipo de procesos de evaluación suele la máxima consistencia posible entre
estructurarse en torno a un análisis de los estos diversos evaluadores. Por lo tanto,
méritos -–la formación y títulos alcanzados el resultado de un candidato suele depender
por cada candidato, su trayectoria en el del tribunal o jurado que le toque en suerte
sistema educativo, sus publicaciones, etc.-- –éste es también un problema de
y a la realización de varias pruebas, algunas confiabilidad que analizaremos más adelante
de carácter teórico y otras de tipo práctico en esta ficha-.
como, por ejemplo, conducir una reunión de
docentes o analizar una clase dictada por un Como resultado de la acumulación de los
profesor. problemas anteriores, normalmente estas
evaluaciones no consiguen su propósito de
Del conjunto de los elementos anteriores identificar a los candidatos más aptos para
suele derivarse un puntaje final, que es el desempeñar cargos de responsabilidad y
que determina el ordenamiento de los ordenarlos de manera más o menos
candidatos y sus posibilidades de acceder a adecuada a su capacidad para desempeñar
los cargos disponibles. el cargo. A este tipo de problemas se le
denomina técnicamente como de “validez
Este tipo de evaluaciones suele tener tres predictiva”.
debilidades principales:
El ejemplo que acabamos de utilizar pone de
3.1. En primer lugar, no suele existir un manifiesto un problema particularmente
referente explícito para la evaluación, es grave de los sistemas educativos: por lo
decir, una descripción elaborada y general, éstos carecen de mecanismos
apropiada de qué tipo de conocimientos y apropiados para seleccionar válidamente a
competencias se requiere para desempeñar quienes desempeñarán cargos de conducción
el cargo de director de una escuela, cuáles -–así como también a los formadores de
son más importantes que otras, cuáles son docentes--, con lo cual se generan diversas
los niveles básicos e imprescindibles de dinámicas perversas: muchos directores no
competencia y cuáles serían niveles son reconocidos técnicamente por sus
destacados de competencia. Como docentes y muchos supervisores no son los
consecuencia de ello, las pruebas suelen ser docentes más competentes, con lo cual las
elaboradas y evaluadas a partir de la visión cadenas de autoridad, de transmisión de
personal e implícita que los miembros del conocimiento práctico y de aprendizaje
tribunal o jurado encargado de la institucional se debilitan. Simultáneamente,
evaluación tienen acerca de los temas muchos individuos competentes no son
anteriores. seleccionados o desisten de presentarse a
estos procesos de selección, con lo cual el
3.2. En segundo lugar, muchas veces estas sistema desperdicia talento, conocimiento y
evaluaciones no establecen con claridad capacidades.

para comprender las evaluaciones educativas ficha nº 4


⎣5⎦
¿cuáles son los principales problemas comunes a todas las evaluaciones?

4. Los usos o consecuencias de la 5. La situación en que se desarrolla la


evaluación van más allá de lo que los prueba afecta el desempeño de los
resultados permiten individuos

En los últimos años se han incrementado las Un último tipo de amenazas a la validez de
propuestas para establecer incentivos las evaluaciones educativas tiene relación
económicos para las escuelas o los docentes con el grado en que el desempeño de los
individuales, en función de los resultados de individuos en una prueba se ve afectado por
sus alumnos medidos a través de una prueba las condiciones de aplicación de la misma.
nacional estandarizada.
5.1. Ejemplos de este problema son, en
La versión simple de estas propuestas primer lugar, las situaciones de examen
adolece de serios problemas. En particular, tradicional en que el desempeño de los
implica calificar la calidad de los centros individuos se ve fuertemente afectado por
educativos a partir de evidencia empírica nervios o angustia ante la situación de
muy limitada: los resultados de una evaluación.
generación de alumnos en pruebas de
Lenguaje y Matemática, por ejemplo. Como 5.2. En segundo término, las evaluaciones
resulta obvio, lo que las familias y la estandarizadas que no tienen consecuencias
sociedad esperan de los centros educativos para los individuos que las realizan -–es
es mucho más que esto. Al focalizar los decir, por ejemplo, que no formarán parte
incentivos en un tipo limitado de resultados de alguna calificación necesaria para ser
lo que se consigue es propiciar la reducción promovido a otro grado, ciclo o nivel
del abanico de prioridades de las escuelas a educativo o profesional –- conllevan el
mejorar sus resultados en las pruebas riesgo de que los alumnos no realicen todo
estandarizadas. Este es un “efecto perverso” el esfuerzo de que son capaces, por lo que
o no deseado del uso de la evaluación. los resultados casi seguramente serán algo
inferiores a lo que realmente son capaces
Este tipo de casos, en que se pretende hacer de lograr los estudiantes. Este problema es
un uso de los resultados de una evaluación particularmente importante en la educación
que va más allá de lo que la evaluación media, cuando las pruebas son respondidas
permite y de aquello para lo cual fue por adolescentes.
diseñada, constituye lo que técnicamente se
denomina problemas de “validez de uso” o, 5.3. En tercer lugar, es preciso mencionar
también, “validez de consecuencias”. los casos en que los instrumentos de
evaluación tienen “sesgos”, en el sentido de
La validez de consecuencias alerta al lector que favorecen el desempeño de ciertos
sobre la necesidad de analizar la grupos. Por ejemplo, las actividades de una
consistencia entre los propósitos para los prueba pueden resultar más motivadoras
cuales fue diseñada una evaluación y los para las niñas que para los varones o pueden
usos que se hace de sus resultados. Y contener situaciones más familiares para los
también, invirtiendo los términos, llama la niños y niñas de medios urbanos que para
atención de quienes encargan o diseñan un los de medios rurales.
sistema de evaluación hacia la necesidad de
definir clara y explícitamente cuáles son sus En estos casos, se habla técnicamente de
propósitos, qué tipo de decisiones se “validez de las condiciones de
pretende tomar, para luego establecer un aplicación”.
diseño de la evaluación acorde con ellos.

El concepto de validez

El elemento común a todos los ejemplos evaluar o en que el uso de sus resultados va
analizados hasta el momento es que se trata más allá de lo que la evaluación permite.
de situaciones en que la evaluación no
evalúa realmente aquello que se propuso

para comprender las evaluaciones educativas ficha nº 4


⎣6⎦
¿cuáles son los principales problemas comunes a todas las evaluaciones?

Ninguna evaluación está exenta de este tipo En términos de los ejemplos que acabamos
de problemas, pero todas deben dar cuenta de presentar, este giro en el enfoque
de las acciones tomadas para minimizarlos. implica poner la atención en el grado en que
Y los involucrados en un proceso de las interpretaciones y consecuencias de una
evaluación –quienes la encargan, quienes la evaluación son apropiadas, dadas la
llevan adelante, quienes son evaluados, evidencia empírica y la teoría disponibles.
quienes usan los resultados o se informan de
ellos- deben estar alertas a estas “amenazas En el ejemplo del proceso de selección de
a la validez”. directores, el problema no es que las
pruebas y la evaluación de méritos sean
Si bien hasta el momento hemos tratado a la malas en sí mismas. El problema es si la
validez como una propiedad de las decisión de seleccionar a los directores tiene
evaluaciones, las elaboraciones más sustento suficiente en el conjunto de
recientes del concepto tienden a plantearlo evidencia empírica utilizado para ello.
en términos de una propiedad de las
interpretaciones y usos que se hacen de los En el ejemplo de la prueba de ensayo en
resultados de una evaluación. Historia, no es que la prueba en sí misma
sea mala, sino que no es posible
“La validez no es una propiedad intrínseca de interpretarla como evidencia de logro de los
las pruebas o las encuestas, sino una objetivos explícitos del curso.
propiedad de las interpretaciones y los usos
que se propone dar a los datos que se La importancia de este cambio de
obtienen de ellas. Es así que actualmente se
define la validez como el grado en que la
perspectiva radica en que enfatiza la
evidencia empírica y la teoría dan sustento a responsabilidad que los evaluadores y
las interpretaciones de los resultados de una usuarios de las evaluaciones tienen en
medición. Asimismo, la validez se refiere al cuanto al uso apropiado de las mismas, en
ámbito del uso legítimo de esas lugar de limitar el tema de la validez a un
interpretaciones y también al grado en que el problema técnico de los instrumentos.
uso de la prueba no produce un impacto
negativo no deseado sobre el sistema Los docentes, los técnicos, los formuladores
educativo. En otras palabras, la validez se de políticas, los periodistas y los ciudadanos,
refiere a la calidad de las conclusiones que
tomamos a partir de las mediciones y a las
tienen la responsabilidad de analizar y
consecuencias que las mediciones generan en preguntar por el grado en que el uso y
los procesos que se proponen medir” 1 . consecuencias de una evaluación tienen un
sustento adecuado.

Confiabilidad

La confiabilidad de una evaluación refiere a 1.1. Es sabido que el resultado de un


la consistencia y precisión de sus resultados. alumno en una prueba escrita aplicada y
corregida por su maestro puede estar
A continuación se propone algunos ejemplos influido por el momento en que su prueba
de problemas de confiabilidad en es corregida –al inicio, en el medio o al final
evaluaciones. del proceso de corrección-.

1. Los resultados de una prueba Dependiendo del maestro, el cansancio


dependen de la subjetividad de los puede operar en la dirección de tender a
evaluadores asignar calificaciones más bajas al final,
tanto como a tornarse más benevolente y
Éste es un tipo de problema de confiabilidad tender a asignar calificaciones más altas.
muy extendido en las evaluaciones
educativas, dado que en muchas de ellas Independientemente del problema del
inevitablemente debe intervenir el juicio cansancio, como el docente generalmente
subjetivo de individuos que actúan como corrige sin criterios o estándares claros y
evaluadores. detallados, sino más bien de tipo holístico y
subjetivo, a medida en que corrige
producciones de distintas calidades sus

para comprender las evaluaciones educativas ficha nº 4


⎣7⎦
¿cuáles son los principales problemas comunes a todas las evaluaciones?

criterios se van modificando en el proceso – 2.1. En la mayoría de los concursos de


y normalmente no hay tiempo para volver selección -como el ejemplo de los directores
atrás y recalificar todo con criterios anteriormente mencionado-, existen niveles
homogéneos-. de error importantes que no están
controlados. Esto significa que Ana obtuvo
1.2. Otro caso típico está constituido por 85 puntos, pero bien podría haber obtenido
todas aquellas evaluaciones en las que 80, así como también 90, dependiendo de
intervienen diversos evaluadores. Por diversos imponderables. Y Lucía obtuvo 80
ejemplo, cuando varios tribunales se puntos, pero si le hubiese tocado en suerte
conforman para corregir una misma prueba otro tribunal en la prueba teórica podría
en un concurso para directores, o cuando en haber alcanzado los 95 puntos. En este caso,
pruebas estandarizadas con preguntas el componente de azar en la puntuación
abiertas es necesario recurrir a correctores final tiene una consecuencia muy
para codificarlas. importante, porque determina quién va a
ocupar un cargo de director y quién no (Ana
En estos casos, es necesario establecer tendrá prioridad sobre Lucía, pero podría
procedimientos de control de la haber sido al revés).
confiabilidad de las puntuaciones otorgadas
por los diferentes correctores. El ordenamiento final de los candidatos en
general no refleja con precisión un
Por ejemplo, en la prueba internacional PISA ordenamiento en cuanto a sus capacidades
se apartan cien ejemplares de cada para el cargo. Si no hay procedimientos de
cuadernillo de prueba y cada uno de éstos es control de la calidad del proceso de
corregido en forma independiente por determinación de puntajes, ni estimación de
cuatro correctores, sin que ninguno de ellos la magnitud del error posible en los mismos,
conozca los códigos asignados por los demás. es imposible saber con propiedad qué tan
Luego se comparan los códigos y se grave es el problema.
establece un índice de confiabilidad que
mide el grado de consistencia de las Dada la trascendencia que los procesos de
correcciones. Si la consistencia es baja, ello selección de mandos medios tienen para la
puede dar lugar a la invalidación del proceso calidad del sistema educativo, este
de corrección. problema debería ser encarado de algún
modo como, por ejemplo, a través de
Como procedimiento previo a este tipo de mecanismos de control de la comparabilidad
controles de confiabilidad, es imprescindible de los puntajes otorgados por distintos
establecer pautas y criterios detallados y tribunales o mediante márgenes de error
precisos para la corrección, así como un que permitan establecer cuántos puntos
entrenamiento y supervisión de los hacen que una diferencia de puntajes entre
correctores. Esto no siempre ocurre en los dos candidatos sea significativa.
casos de pruebas de concurso.
2.2. La mayor parte de los rankings de
2. Los resultados de una prueba son poco escuelas o de países que suelen tener
precisos en el ordenamiento de los amplia difusión en la prensa se basan en el
sujetos o entidades evaluadas ordenamiento de dichas entidades en
función de una cifra, el promedio de los
Toda calificación numérica de los puntajes alcanzados por sus estudiantes. Sin
conocimientos y capacidades de un embargo, no todas las diferencias de
individuo, así como de la “calidad” de la puntajes tienen un significado relevante.
educación de un centro educativo o de un
país, está sujeta a error de medición. En este tipo de evaluaciones el error posible
Ninguna medida es absolutamente precisa. de la medición puede ser calculado
Esto implica que todo ordenamiento de mediante procesos estadísticos. El error
individuos, instituciones o países, en base a posible suele representarse gráficamente
una calificación numérica, debe ser utilizando una barra para indicar el puntaje
realizada y analizada con sumo cuidado. promedio, y una “caja” (técnicamente
denominada “intervalo de confianza”) que

para comprender las evaluaciones educativas ficha nº 4


⎣8⎦
¿cuáles son los principales problemas comunes a todas las evaluaciones?

marca los límites de precisión de dicho Para que la diferencia sea “estadísticamente
promedio (véase la Figura 2). significativa”, las “cajas” no deben
superponerse. Eso garantiza que, cualquiera
El significado de esta “caja” es el siguiente: sea el puntaje “verdadero” de los dos
el valor real del promedio de cada país se países, está garantizado que uno de ellos
ubica, con un 95% de confianza, en algún está por encima del otro.
lugar dentro de la caja, no estrictamente
en la línea que indica la media. Como ejemplo de lo anterior, en la Figura 2,
correspondiente a la evaluación PISA 2000,
En otras palabras, cada país obtuvo una Finlandia tiene un resultado superior a
media sujeta a error y el valor de esa media Canadá, pero no hay diferencias
puede variar dentro de los límites del significativas entre este último país y Nueva
intervalo de confianza, es decir, el valor Zelanda, Australia e Irlanda.
correspondiente a un país puede ser algo
mayor o algo inferior al que indica la media. En el otro extremo del gráfico, el resultado
de Brasil es inferior al de México y el de
Este hecho tiene consecuencias muy México al de Luxemburgo, pero las
importantes. Si las “cajas” correspondientes diferencias no son significativas entre
a dos países diferentes se superponen, es Letonia, Rusia, Portugal y Grecia.
decir, si tienen en común una parte de la
escala de puntajes, esto significa que no De todos modos debe subrayarse que
puede afirmarse con propiedad que el “estadísticamente significativo” no significa
resultado de uno sea mejor o peor que el que las diferencias entre dos países sean de
resultado del otro. gran magnitud. En realidad normalmente las
diferencias entre países “adyacentes” en un
En términos técnicos se dice en estos casos ranking son pequeñas, aún cuando sean
que la diferencia de puntajes no es “estadísticamente significativas”. Esto
“estadísticamente significativa”, lo cual último solo quiere decir que existe una
implica que, debido al error de medición, no diferencia real, pero la misma puede ser
podemos saber si el país que aparece con un grande, mediana o pequeña. Este tema es
puntaje más bajo en realidad no es mejor abordado con más detalle en las fichas 8 y
que el otro. 10.

Figura 2
Resultados de PISA 2000 en Lectura

Fuente: Ministerio de Educación, Cultura y Deporte de España-Instituto Nacional de Calidad y Evaluación


(INCE)/OCDE, 2001; Conocimientos y destrezas para la vida: Primeros Resultados del Proyecto PISA 2000.
Resumen de Resultados. INCE, Madrid.

para comprender las evaluaciones educativas ficha nº 4


⎣9⎦
¿cuáles son los principales problemas comunes a todas las evaluaciones?

Síntesis final

La confiabilidad y la validez son conceptos relacionados pero diferentes, ambos


estrechamente relacionados con el uso apropiado de los resultados de las evaluaciones.
La validez está referida al grado en que una evaluación realmente evalúa aquello que se
supone evalúa -–el aspecto sustantivo--. Es el concepto principal para analizar una
evaluación, porque está relacionado con el significado de qué es lo que está siendo
evaluado. La confiabilidad, en cambio, puede ser definida como la consistencia y
precisión de los resultados de una prueba o de una evaluación.
La confiabilidad es condición necesaria pero no suficiente para la validez. Una prueba
puede ser confiable pero no válida, es decir, se puede lograr una medida muy precisa
pero de algo que no es lo que en realidad interesaba evaluar.
Por lo tanto, lo primero que debe ser garantizado en cualquier evaluación es la validez.
Lo primero que el usuario de las evaluaciones estandarizadas debe preguntarse es en qué
medida aquello que se evalúa en las pruebas es relevante y deseable como logro
educativo. Lo mismo se aplica a las evaluaciones que realizan los docentes y los centros
educativos.
La confiabilidad es una cuestión de grado: los resultados nunca son perfectamente
precisos, siempre están sujetos a error. Este error puede ser grande o chico y lo
importante es poder estimarlo. Lo grave en una evaluación es que no exista ninguna
estimación de error, porque entonces no hay forma de interpretar adecuadamente los
resultados.
Es por esta razón que puede considerarse que la confiabilidad forma parte de la validez.
Si una prueba es muy apropiada desde el punto de vista de sus contenidos -–validez de
constructo y de contenidos-- pero arroja resultados muy imprecisos- –baja confiabilidad--,
estará seriamente afectada la validez de uso de esos resultados. Es el caso del concurso
de selección de directores anteriormente empleado como ejemplo.
El problema de la confiabilidad es una cuestión de grados en función de los propósitos de
la evaluación 2 . Es decir, según cuál sea el propósito y consecuencias de una evaluación,
se podrá tolerar un mayor o menor nivel de error en la precisión. En una prueba cuyo fin
es realizar un diagnóstico de los aprendizajes en el país, el nivel de error en la estimación
de los puntajes de cada individuo no es cuestión de vida o muerte. Se puede aceptar un
monto de error mayor que en el caso de una evaluación de cuyo resultado dependa la
posibilidad del estudiante de ingresar a una universidad o la posibilidad de un docente de
acceder a un cargo de director. En estos casos, en que las pruebas tienen consecuencias
“fuertes” para las personas, la precisión de los puntajes debería ser mayor.
Los sistemas nacionales de evaluación en América Latina se encuentran realizando
importantes esfuerzos por mejorar la calidad de sus pruebas y la pertinencia de los
conocimientos y competencias que son objeto de evaluación. Al mismo tiempo, es
necesario mejorar los modos de reportar los resultados, incorporando información sobre
los márgenes de error de los mismos y sobre la significancia de las diferencias de
resultados entre escuelas o jurisdicciones, a efectos de que la interpretación de dichas
diferencias sea apropiada.

1
La definición corresponde a Gilbert Valverde (2001); “La interpretación justificada y el uso apropiado de los
resultados de las mediciones”. En Ravela, P. (editor); Los Próximos Pasos: ¿Hacia dónde y cómo avanzar en la
evaluación de aprendizajes en América Latina?. PREAL/GTEE.

2
LINN, R. & GRONLUND, N., 2000; Measurement and Assessment in Teaching (8ª edición), pp. 131-133. Prentice
Hall.

para comprender las evaluaciones educativas ficha nº 4