Aportes de la psicometría a la

evaluación educativa
Mg. Andrés Burga León
UMC – Ministerio de Educación del Perú
Universidad de Lima
Pruebas en el campo educativo
Pruebas de aprovechamiento o rendimiento:
– evaluar el nivel de habilidad o logro de un alumno luego
de un proceso de instrucción.

El propósito fundamental de estos instrumentos
es la evaluación académica, que responde a la
pregunta:
– ¿Qué conocimientos o destrezas ha adquirido el alumno
tras un periodo de instrucción?
Categorías generales de pruebas educativas
Semi formales:
– Elaborada en salón de clase.
– Específica, objetivos de la IE o docente.

Estandarizadas:
– Núcleo de objetivos educativos comunes.
– Evaluación de sistema.
Evaluación de sistema
El rendimiento académico, sin ser el único indicador de la
calidad educativa, es uno de los más importantes.
Podemos esperar que un sistema de calidad promueva
que los estudiantes alcancen niveles de logro suficientes
en las diversas áreas evaluadas.
Colocar la calidad de la educación como tema central y
prioritario de la agenda pública.
En términos de evaluaciones de sistema, se ha puesto
énfasis en el logro en matemáticas, lenguaje y ciencias,
además de los modelos de factores asociados.

Evaluaciones Nacionales e Internacionales
Evaluación Nacional (EN)
Evaluación Censal de Estudiantes (ECE).

PISA (Programme for International Students Assessment)
TIMSS (Trends in International Mathematics and Science
Study)
PIRLS (Progress in Reading Literacy Study)
SERCE (Segundo Estudio Regional Comparativo y
Explicativo)
Aspectos psicométricos
Usos de ítems de opción múltiple y respuesta
abierta.
Las interpretaciones son referidas al criterio en
muchos sistemas de evaluación.
Usan diseño de muestreo de matriz (bloques de
ítems).
En la actualidad de pone gran énfasis en el uso
de modelos TRI y Rasch.

Confiabilidad inter-evaluadores
Introducción
Corrección de preguntas abiertas o productos por
jueces.
Valoraciones de jueces implican siempre algún
grado de subjetividad.
 Trata de reducirse mediante:
– Capacitación
– Manuales con criterios de calificación
– Calificaciones de práctica
Confiabilidad inter-evaluadores
Stemler (2004): grado de acuerdo entre un conjunto
particular de jueces, utilizando un instrumento de evaluación
específico en un momento específico.
Propiedad de la situación de evaluación, no del instrumento
en sí mismo.
Deberá ser analizada cada vez que cambie la situación de
evaluación.
Estrategias de análisis
La confiabilidad inter-evaluadores no es un concepto unitario
pues existen diversas perspectivas respecto a su
conceptualización y análisis.
Diferentes modelos teóricos:
– Teoría Clásica de los Tests
– Teoría de la Generalizabilidad
– Modelo Rasch de Facetas Múltiples.
Clasificación tripartita de los diversos tipos de estimaciones
de la confiabilidad inter-evaluadores (Stemler, 2004)
Consenso
Supuesto: observadores independientes deben llegar a un
acuerdo exacto respecto a como aplicar calificaciones
Datos son de naturaleza nominal, aplicación a cada pregunta
y a cada par de jueces:
– Índice de acuerdos
– Kappa de Cohen
– J de Jaccard
– Índice G
– Índice Delta
Variante del coeficiente Kappa, conocida como Kappa
múltiple, que se puede aplicar cuando hay más de dos
evaluadores
Consenso alto
A B C D
A 20 3 3 0
B 3 30 2 4
C 0 2 40 5
D 0 0 3 50
JUEZ 2
J
U
E
Z

1

Consenso bajo
A B C D
A 5 10 14 20
B 20 5 12 15
C 10 14 4 12
D 16 21 19 10
JUEZ 2
J
U
E
Z

1

Consistencia
Suponen que no es necesario que dos jueces muestren
consenso en el uso de una escala de calificación, siempre y
cuando las diferencias de consenso se apliquen de manera
consistente:
– Juez A le asigne siempre o casi siempre la calificación 1 a cierto tipo de
respuestas, mientras que el juez B les asigna siempre o casi siempre la
calificación 3 a ese mismo tipo de respuestas.
Datos de naturaleza cuantitativa continua, también ordinales,
si se suponen que representan un continuo a lo largo de una
sola dimensión.
Pueden aplicarse estrategias de corrección de las diferencias
en severidad.
Consistencia
Los procedimientos empleados para las estimaciones de
consistencia incluyen
– correlación de Pearson (variables cuantitativas continuas)
– correlación de Spearman (variables ordinales).
– W de Kendall (varios jueces)
– Correlación intraclase
Consistencia
Persona J1 J2 J3 J4 J5
01 12 13 13 14
15
02 7 7 7 5
9
03 16 16 15 12
18
04 5 4 4 7
6
05 2 2 2 2
4
06 14 14 14 17
16
07 15 15 15 12
17
08 3 3 4 3
5
Consistente inconsistente
Medida
Se emplean cuando los diferentes niveles de la escala de
calificación pretenden representar diferentes niveles de una
variable latente unidimensional.
Uso con matrices incompletas:
– una persona o conjunto de personas son calificadas de forma
independiente por diferentes jueces, pero no todas las personas son
calificadas por todos los jueces.
Procedimientos:
– Análisis Rasch de Facetas Múltiples (lLinacre)
– Modelo Jerárquico de Evaluadores (HRM), (Patz, Junker, Johnson y
Mariano, 2002) ; combina TG y TRI
Medida
Calibración de ítems
Un gran cambio en la psicometría
Años 60, descontento con TCT
Trabajos independientes de Lord y Rasch llegan a
conclusiones similares
Aparece la Teoría de respuesta al Ítem y el modelo
Rasch
TCT y TG TRI
TRI: Características generales
Modelo estocástico, la medida de personas e ítems
están en la misma escala de intervalo.
Establecen la probabilidad de respuesta de una
persona ante un ítem en función a parámetros:
– Dificultad
– Discriminación
– Adivinación


Modelo de tres parámetros
) (
) (
1
) 1 ( ) , , , 1 (
i s i
i s i
b Da
b Da
i i i i i s is
e
e
c c c b a X P
÷
÷
+
÷ + = =
u
u
u
Modelo de tres parámetros
Dificultad
(1+c)/2
Dificultad
(1+c)/2
Discriminación
Discriminación
Adivinación
Adivinación
Características generales
INVARIANZA:

– La medida del rasgo es independiente del conjunto
de ítems aplicados.

– La medida del ítem es independiente del grupo de
personas evaluadas.
Clasificación de los modelos
Por el número de parámetros
– Uno
– Dos
– Tres
– Cuatro
Por el tipo de función utilizada
– Normal
– Logística
Clasificación de los modelos
Por el formato de calificación del ítem
– Dicotómicos
– Politómicos

Por el número de dimensiones
– Unidimensionales
– Multidimensionales
TRI vs. RASCH
El modelo de un parámetro muchas veces es
llamado modelo Rasch. Pero el modelo TRI
de un parámetro y el Rasch no son lo mismo:
– Modelos prescriptivos (Rasch)
– Modelos descriptivos (TRI)
Modelos Rasch: supuestos básicos
Unidimensionalidad
– Un único rasgo o atributo latente dominante
– Nunca es absoluta

Independencia Local
– Controlado el nivel de habilidad, la respuesta a cualquier par de itemes
es independiente


Modelo Rasch (Dicotómicas)
i s
i s
e
e
X P
i s is
| u
| u
| u
÷
÷
+
= =
1
) , 1 (
Curva característica del Ítem
Curva característica del ítem: estima la probabilidad de
respuesta de un alumno ante un ítem.
– B>D p(B,D) E [0.5, 1.0]
– B<D p(B,D) E [0.0, 0.5]
– B=D p (B,D) = 0.5
Curva Característica del Ítem
Curva Característica del Ítem
Ajuste al modelo
Outfit: Outlier sensitive mean square residual goodness of fit
statistic
– Es una medida sensible al comportamiento inesperado alejado de la
medida
Infit: Information weighted mean square residual goodness of
fit statistic
– Es una medida sensible al comportamiento inesperado cercano a la
medida
Equiparación de puntuaciones
Introducción:
Supongamos que tenemos dos test X e Y.
– Miden comprensión lectora de la “misma manera”.
Equiparar las puntuaciones del test X con las del test Y.
– Encontrar un sistema o función para convertir la métrica de X en Y.
– Y es el test (forma) de referencia y X el test (forma) nuevo
– Buscamos resolver:


donde, Y* son las puntuaciones de X equiparadas a la métrica de Y.

Y* = f(X)
Ejemplo: dos test de comprensión lectora, X e Y
P
u
n
t
a
j
e
s
,

m
e
d
i
d
a
s

d
e
l

t
e
s
t

X

P
u
n
t
a
j
e
s
,

m
e
d
i
d
a
s

d
e
l

t
e
s
t

Y

Transformar: Y* = f(X)
Forma nueva Forma de referencia
Dos tipos de equiparación
Horizontal:
– Se requieren diversas formas paralelas (contenido y
dificultad) del mismo test.
– Motivos de seguridad: se hace público el contenido.
– Pruebas internacionales del rendimiento, comparaciones
año a año: PISA, TIMSS, PIRLS.
– Pruebas nacionales del rendimiento, comparaciones año a
año: ECE.
– Se asocia a la lógica de la investigación transversal.
– Se puede aplicar al diseño de bloques incompletos.

Diseño de bloques incompletos
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Items del
Bloque 1
Items del
Bloque 2
Items del
Bloque 3
Items del
Bloque 4
Alumnos
que responden
al cuadernillo 1
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
Alumnos
que responden
al cuadernillo 1
Alumnos
que responden
al cuadernillo 2
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
Alumnos
que responden
al cuadernillo 2
Alumnos
que responden
al cuadernillo 3
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
Alumnos
que responden
al cuadernillo 3
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
Alumnos
que responden
al cuadernillo 4
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
P
a
t
r
ó
n

d
e
r
e
s
p
u
e
s
t
a
s
i
n
d
i
v
i
d
u
a
l
e
s
Alumnos
que responden
al cuadernillo 4
Dos tipos de equiparación
Vertical:
– Busca equipar las puntuaciones de dos test que difieren en
dificultad, pero evalúan el mismo contenido o constructo.
– Es más compleja que la horizontal, pues las distribuciones
de habilidad de las personas evaluadas no son las mismas.
– Corresponde a la lógica de los estudios longitudinales.
– Ejemplo: Estudio Longitudinal de Primaria.
– Se puede aplicar con el diseño de bloques incompletos.


Diseños de equiparación
El desarrollo del sistema de equiparación, implica el uso de
diseños, que permiten recoger datos para obtener Y* = f(X).
La selección de un diseño sobre otro obedece más a
consideraciones prácticas, pues cada uno tiene sus ventajas
e inconvenientes.
Haciendo una síntesis de lo señalado por diversos autores
(Ho y Osborn, 2005; Kolen y Brennan, 2004; Livinstone,
2004; Navas, 1996; Zhu, 1998) podemos señalar tres tipos
de diseño de equiparación:
– Un solo grupo
– Grupos equivalentes
– Grupo no equivalentes con ítems comunes

Diseño de un solo grupo
Se administran las dos versiones del test al mismo grupo de
personas.

Test X
G
r
u
p
o

1

Test Y
tiempo
Diseño de grupos equivalentes
Extraer de la población dos muestras aleatorias de personas,
aplicando en cada una de ellas una de las formas de los test
a equiparar.

Test X
G
r
u
p
o

1

Test Y
G
r
u
p
o

2

Diseño de grupos no equivalentes
Se trabaja con dos muestras de personas, que no
necesariamente han sido extraídas de la misma población.
En cada grupo se aplica una única forma del test.

Grupo 1
Grupo 2
T
e
s
t

X

T
e
s
t

Y

Ítems comunes
Métodos de equiparación
El diseño señala la forma como se recogerán los datos y en
parte la manera como se obtendrá Y* = f(X).
El método de equiparación es lo que propiamente nos
permitirá obtener la función de equiparación.
Los métodos se pueden enmarcar en dos modelos teóricos:
– Teoría Clásica de los Tests, denominada también “Equiparación
Tradicional”
– Teoría de Respuesta al Ítem.
Muchas veces se utilizan las mismas funciones matemáticas,
pero con diferentes supuestos según el modelo psicométrico.

Métodos de equiparación
Equiparación por la media:
– Se ajusta por la diferencia de medias.

Equiparación lineal
– Uso de la función lineal para obtener constantes de equiparación.

Equiparación equipercentilar
– Las puntuaciones ubicadas en el mismo percentil se consideran
equivalentes.

Equiparación por la media
P
u
n
t
a
j
e
s
,

m
e
d
i
d
a
s

d
e
l

t
e
s
t

X


Media
Media
P
u
n
t
a
j
e
s
,

m
e
d
i
d
a
s

d
e
l

t
e
s
t

Y


Y* = X - μ(X) + μ(Y)
Equiparación lineal
P
u
n
t
a
j
e
s

d
e
l

t
e
s
t

X


Media
Media
P
u
n
t
a
j
e
s

d
e
l

t
e
s
t

Y


+ 1 d.e.
- 1 d.e.
(
¸
(

¸

÷ + = ) (
) (
) (
) (
) (
) (
* X
X
Y
Y X
X
Y
Y µ
o
o
µ
o
o
+ 1 d.e.
- 1 d.e.
Equiparación equipercentilar
Percentiles de los puntajes de la
forma nueva
Percentiles de los puntajes de la
forma de referencia
Funcionamiento diferencial de los
ítems
Introducción
Un ítem presenta FDI cuando la probabilidad de ser
resuelto correctamente por personas con el mismo nivel
en el rasgo varía en función al grupo de pertenencia.
Desde la perspectiva moderna de validez introducida por
Messik (1988) constituye un serio problema al introducir
varianza irrelevante para el constructo.
Se utilizan diferentes métodos para su análisis, tanto
desde la TCT, como TRI y modelos Rasch.

Delta de Angoff
0
5
10
15
20
25
0 5 10 15 20 25
0
5
10
15
20
25
0 5 10 15 20 25
Mantel Haenzel
Muy utilizado, extensión de los métodos de Chi-Cuadrado
(Scheuneman, Camilli).
Un ítem no presentará FDI si el cociente de quienes lo
aciertan y lo fallan es el mismo para cada una de las
categorías o niveles de puntuaciones en que se ha dividido el
test.
Permite apreciar a qué grupo favorece un ítem.
Método gráfico (Rasch)
Contacto
Andrés Burga León

Universidad de Lima
aburga@ulima.edu.pe

Unidad de Medición de la Calidad Educativa
aburgal@minedu.gob.pe


Muchas gracias