You are on page 1of 92

Cuaderno técnico 3

Establecimiento de estándares
en un examen criterial
Establecimiento de estándares en un examen criterial
Cuaderno técnico 3
Miguel Herrera Ortiz
Daniela Benavides Posadas
Lucía Monroy Cazorla
Revisión técnica:
Rafael S. Vidal Uribe
Antonio Saade Hazin
Establecimiento de estándares en un examen criterial
Cuaderno técnico 3
D.R. © 2009, Centro Nacional de Evaluación
para la Educación Superior, A.C. (Ceneval)
Av. Camino al Desierto de los Leones 19,
Col. San Ángel, Deleg. Álvaro Obregón,
C.P. 01000, México, D.F.
www.ceneval.edu.mx
Diseño y formación: Mónica Cortés Genis
Primera edición, septiembre de 2010
Impreso en México • Printed in México
Dirección General
Rafael Vidal Uribe
Dirección General Adjunta de los EGEL
Jorge Hernández Uralde
Dirección General Adjunta de los EXANI
José O. Medel Bello
Dirección General Adjunta de Programas Especiales
Rocío Llarena de Thierry
Dirección General Adjunta Técnica y de Investigación
Lucía Monroy Cazorla
Dirección General Adjunta de Difusión
Javier Díaz de la Serna Braojos
Dirección General Adjunta de Operación
Francisco Javier Apreza García Méndez
Dirección General Adjunta de Administración
Francisco Javier Anaya Torres
Dirección de Procesos Ópticos y Calificación
Ma. del Socorro Martínez de Luna
Dirección de Tecnologías de la Información
y las Comunicaciones
Francisco Manuel Otero Flores
Directorio
Índice
Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .9
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11
Capítulo I.
Sistema de estándares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15
Capítulo II.
Modelos de calificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19
Capítulo III.
Establecimiento de niveles de logro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .29
Capítulo IV.
Establecimiento de puntos de corte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .37
Capítulo V.
Método bookmark o del marcador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .45
Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .63
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .65
Anexo 1.
Clases de estándares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .69
Anexo 2.
Estándares en el establecimiento de puntos de corte . . . . . . . . . . . . . . . . . . . . . .71
Anexo 3.
Métodos para el establecimiento de puntos de corte . . . . . . . . . . . . . . . . . . . . .73
Anexo 4.
Glosario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .85
Tabla 1.
Categorización de sustentantes en un examen . . . . . . . . . . . . . . . . . . . . . . . . .11
Tabla 2.
Número de niveles de logro y puntos de corte
por modelos de calificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .23
Tabla 3.
Factores asociados a la elección
de modelos de calificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24
Tabla 4.
Ejemplo de etiquetas de niveles de logro . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51
Tabla 5.
Ejemplo de descripción guía
de niveles de logro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32
Tabla 6.
Descripción de niveles de logro
de comprensión de lectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35
Tabla 7.
Estimación de puntos de corte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51
Tabla 8.
Estadísticos descriptivos
de los marcadores del grupo de jueces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .56
Índice de tablas
Figura 1.
Examen conformado por tres áreas de conocimiento y habilidades . . . . . . . . . . . .19
Figura 2.
Modelo compensatorio, en el que se obtiene la puntuación
global a partir de la suma de las puntuaciones de cada área . . . . . . . . . . . . . . .20
Figura 3.
Modelo conjuntivo, en el que es necesario
obtener puntuaciones aprobatorias en cada área . . . . . . . . . . . . . . . . . . . . . . .21
Figura 4.
Modelo combinatorio, en el que se pueden obtener puntuaciones
binarias para tener una calificación global; en el ejemplo, al tener dos áreas
con calificación binaria de 1 se obtiene un dictamen final de aprobado . . . . . . . .24
Figura 5.
Cuadernillo de reactivos. Los reactivos
se presentan en orden de dificultad y se incluye
un marcador en el reactivo que separa dos categorías. . . . . . . . . . . . . . . . . . . .45
Figura 6.
Ejemplo de la presentación de un reactivo dentro del cuadernillo . . . . . . . . . . . . .49
Figura 7.
Ejemplo de preguntas para evaluar la sesión de práctica . . . . . . . . . . . . . . . . . .55
Figura 8.
Formato individual para establecer marcadores . . . . . . . . . . . . . . . . . . . . . . . . .55
Figura 9.
Gráfica que ilustra las puntuaciones seleccionadas por los jueces
como puntos de corte en las primeras dos rondas de trabajo. . . . . . . . . . . . . . . .57
Figura 10.
Formato para evaluar las sesiones del método bookmark . . . . . . . . . . . . . . . . . .59
Índice de figuras
E
l Centro Nacional de Evaluación para la Educación Superior (Ceneval) es
una institución de carácter eminentemente técnico. A lo largo de tres lustros
su actividad esencial ha sido promover la calidad de la educación mediante eva-
luaciones válidas, confiables y pertinentes de los aprendizajes.
Primordialmente, evalúa los conocimientos y habilidades adquiridos por los
individuos en los procesos de enseñanza-aprendizaje, formales o no formales,
de los sistemas educativos. Así contribuye a la toma de decisiones fundamenta-
das. De hecho, con sus servicios de evaluación atiende instituciones de educa-
ción media superior y superior, autoridades educativas, organizaciones profesio-
nales y otras instancias públicas y privadas y, desde luego, al destinatario final –y
el más importante– de sus pruebas: el propio sustentante.
Con la serie Cuadernos técnicos el Centro promueve también el uso de herra-
mientas de análisis en círculos cada vez más amplios. El propósito de estos títu-
los es contribuir a elevar la calidad de la educación mexicana y fomentar una
auténtica cultura de la evaluación.
Los exámenes que aplica el Ceneval tienen diferentes propósitos, pero en un
porcentaje mayoritario están asociados a decisiones que las instituciones educa-
tivas toman con respecto a los estudiantes (certificarlos, permitirles el ingreso a
cierta institución educativa, aceptarlos para una carrera).
Es importante, entonces, contar con un método sólido para el desarrollo de
los exámenes. Como parte de ese método se encuentra el sistema de estándares
asociado a los exámenes criteriales, que define tres aspectos esenciales: 1) las ca-
tegorías o niveles de logro en los que pueden ubicarse los estudiantes, 2) la des-
cripción de lo que implica que un estudiante sea ubicado en una categoría o nivel
de logro y 3) el establecimiento del número necesario de respuestas correctas en
un examen para quedar ubicado en una categoría o nivel determinado.
Las descripciones de las categorías o niveles se denominan puntos de corte
teóricos, mientras que la puntuación necesaria para clasificarse en una categoría
se conoce como puntos de corte empíricos o simplemente puntos de corte. En
Establecimiento de estándares en un examen criterial
Prefacio
9
este cuaderno, el tercero de la serie, se explican los fundamentos y procedimien-
tos que deben considerarse para el desarrollo de un sistema de estándares en un
examen de tipo criterial.
En el campo de la evaluación educativa este ha sido un tema cuyo interés ha
aumentado considerablemente en los últimos años. Aquí se proporcionarán los
referentes indispensables para el establecimiento de estándares que ayude a una
toma de decisiones fundamentada y racional que permita categorizar a los sus-
tentantes de un examen.
10 Cuaderno técnico 3
L
as instituciones educativas toman numerosas decisiones respecto de sus estu-
diantes; por ejemplo, deciden si se certifican o no. Al aplicar un examen de
certificación la intención es tener elementos objetivos, sólidos y fiables para
tomar las decisiones pertinentes del caso. Un examen puede ser considerado,
por consiguiente, como un medio para ubicar a los sustentantes en diversos
niveles de logro o categorías, de acuerdo con sus resultados.
Un examen debe cubrir aspectos técnicos tales como una definición clara de
lo que se quiere medir, contenidos adecuados de acuerdo con la definición
adoptada, y que los reactivos cumplan con los elementos técnicos y conceptua-
les indispensables. Además, se debe establecer un sistema de estándares para
enfrentar la situación descrita en la tabla 1.
Con un examen de tipo criterial se aspira a que los sustentantes que reciban
un resultado aprobatorio sean aquellos que son competentes en una materia o
campo disciplinario. Y a evitar que los sustentantes no competentes reciban un
resultado aprobatorio. De modo similar, se pretende que los sustentantes que
reciben un resultado de no aprobado sean los estudiantes no competentes y evitar
que los estudiantes competentes reciban un dictamen de no aprobados. En la literatu-
ra especializada, a los sustentantes que realmente no merecen aprobar un exa-
men pero reciben una calificación aprobatoria se les denomina falsos-positivos; y
los sustentantes que realmente merecen aprobar pero reciben una calificación
reprobatoria son denominados falsos-negativos.
Establecimiento de estándares en un examen criterial
Introducción
11
Nivel de competencia
Resultado del examen
Competente No competente
Tabla 1. Categorización de sustentantes en un examen
Aprueba Falsos-positivos
No aprueba Falsos-negativos
Al observar la tabla 1 es fácil plantearse varias preguntas: ¿Cómo determinar
el número de categorías o niveles de logro en un examen?, ¿qué significa que un
sustentante esté ubicado en la categoría de competente?, ¿qué es lo que se supo-
ne que un sustentante sabe o puede hacer al estar ubicado en una categoría?
Otras preguntas se relacionan directamente con el examen: ¿Con qué puntua-
ción se debe asignar a los sustentantes a cada categoría?, ¿con qué método se
debe establecer la puntuación (denominada punto de corte) necesaria para ubi-
car a un sustentante en un nivel de logro?
En el campo de la evaluación educativa se han ensayado respuestas a este
tipo de preguntas, con la intención de fundamentar y justificar los procedimien-
tos que se han desarrollado. Todo el proceso de establecimiento de estándares
puede considerarse como un conjunto de reglas que permiten clasificar de una
manera racional y fundamentada a los sustentantes en las diversas categorías o
niveles de logro. Un sistema de establecimiento de estándares involucra tres
aspectos fundamentales: 1) determinación de las categorías o niveles de logro en
que se puede ubicar a un sustentante con base en su desempeño en el examen;
2) descripción de los conocimientos y habilidades de los sustentantes ubicados
en cada nivel de logro, y 3) establecimiento de la puntuación necesaria (puntos
de corte) en el examen para ubicar a los sustentantes en los niveles de logro.
Este cuaderno técnico intenta responder a esos tres aspectos fundamentales,
considerando que en el establecimiento de estándares se conjugan aspectos polí-
ticos, técnicos, sociales y económicos.
En el primer capítulo se exponen las nociones básicas de un sistema de
estándares; en el segundo se describen los modelos de calificación y su relación
con la elaboración de las descripciones de los niveles de logro y con el estable-
cimiento de puntos de corte; en el tercero se muestran los pasos indispensables
para el desarrollo de los niveles de logro; en el cuarto, los pasos que en general
se siguen en los métodos para establecer puntos de corte; en el quinto se descri-
ben los procedimientos asociados a uno de los métodos con mayor vigencia en
el establecimiento de puntos de corte: el procedimiento de bookmark o del reac-
tivo marcador. Finalmente, el cuaderno ofrece algunas reflexiones en torno al
12 Cuaderno técnico 3
área de establecimiento de estándares. Hay además tres anexos. En el primero se
describe la noción de estándar, en el segundo se presentan los estándares asocia-
dos con el establecimiento de puntos de corte propuestos por organismos inter-
nacionales de evaluación y educación, y en el tercero se hace una breve descrip-
ción de algunos de los principales métodos desarrollados para establecer puntos
de corte. Al último se incluye un glosario con los términos técnicos más usuales
en esta área de la evaluación educativa.
13 Establecimiento de estándares en un examen criterial

E
l desarrollo de un sistema de estándares
1
en evaluación recibió un fuerte
impulso con el programa estadounidense No Child Left Behind (2001), cuya
idea principal es que al establecer estándares –y hacerlos claramente medibles–
es posible elevar la calidad de la educación. La creación de estándares fue en
parte la respuesta del sistema educativo a una demanda social: esclarecer si las
escuelas estaban educando a los jóvenes de una manera adecuada.
Al establecer un sistema de estándares se pretende garantizar que todos los
alumnos aprobados o certificados cumplan con un mínimo de competencias,
habilidades y conocimientos (Brown, 2001; Cizek, 2006). Los estándares están
basados en comportamientos y habilidades objetivos, que pueden ser medidos
en los estudiantes y que permiten asignar incentivos a los centros escolares con
base en su cumplimiento o, en su caso, exigir a las escuelas o estados programas
para elevar la calidad académica de los alumnos que no cumplan con los están-
dares demandados.
También se considera que al establecer estándares es más probable que se
incremente la atención a los criterios establecidos y que esto mejore la calidad
educativa. Estos criterios, al difundirse, permiten que la sociedad conozca de
mejor manera qué es lo que se pretende cuando un estudiante egresa (o se cer-
tifica) de un nivel educativo. Al hacer explícitos los criterios de desempeño se
incrementa la atención sobre esos comportamientos, y eso vuelve más probable
su ejecución exitosa (Mehrens y Cizek, 2001).
Linn (1994) señala cuatro ventajas principales del uso de estándares en la
educación:
a) Exhortación: Para motivar a los estudiantes y maestros a obtener mejores
niveles de ejecución.
b) Ejemplificación o demostración: Para proporcionar claridad en las expectativas
académicas.
Establecimiento de estándares en un examen criterial
Capítulo I. Sistema de estándares
15
1
Ver Anexo 1 para una revisión del concepto de estándar.
c) Rendición de cuentas: Para solicitar a los centros escolares que expliquen el
desempeño académico de sus alumnos, con lo que pueden ser recompensa-
dos o sancionados con base en los resultados de los estudiantes.
d) Certificación: Cuando los estándares se encuentran asociados a decisiones
importantes para los estudiantes; por ejemplo, si reciben un diploma o se cer-
tifican en un nivel académico, la sociedad tendrá la garantía de que ese nivel
educativo o profesional se corresponde adecuadamente con los estudiantes
certificados.
Esta forma de concebir la educación tiene importantes repercusiones e impli-
caciones en el campo de la evaluación educativa. Por ejemplo, es posible refle-
xionar sobre los conocimientos y habilidades de un estudiante aprobado, o de
un médico o un maestro certificado. ¿Qué significa que un médico, un estudian-
te o un ingeniero se ubique en una categoría o nivel de logro denominado sobre-
saliente? ¿Cuántas clases de médicos, estudiantes o ingenieros existen o deben
ser evaluadas? ¿Qué son capaces de hacer estos profesionistas o estudiantes? Si
estas preguntas se consideran relevantes, entonces se debe plantear una más:
¿Cómo deben ser evaluados los estudiantes o profesionistas?
Una evaluación basada en estándares define lo que un sustentante puede
hacer en términos de los conocimientos, habilidades, objetivos o contenidos que
debe dominar. Es en este sentido que se busca saber si el sustentante cuenta con
elementos mínimos de competencia,
2
y no determinar qué es lo que puede hacer
en comparación con otros.
Un sistema de estándares de un examen tiene este objetivo: lograr una mejor
toma de decisiones, es decir: que realmente los estudiantes aprobados sean aque-
llos que son competentes. Las decisiones para categorizar a los estudiantes o
sustentantes son prácticamente inevitables, independientemente de si se utilizan
16 Cuaderno técnico 3
2
Como ocurre con los exámenes basados en criterio, contrario a la lógica de los exámenes
basados en la norma, en donde se compara el resultado de un sustentante en relación con los
demás, independientemente de que se cumpla o no con estándares (Cizek, 1993).
o no instrumentos de medición, ya que en cualquier institución educativa algu-
nos estudiantes se gradúan y otros no, y, por lo tanto, se están tomando decisio-
nes con base en algún criterio. Puede considerarse que el sistema de estándares
es un mecanismo que posibilita mejores decisiones al hacer explícitos y objeti-
vos los criterios. Lo anterior es una necesidad apremiante: en muchas áreas es
necesario clasificar a las personas, tanto en las profesiones como en las institu-
ciones educativas.
En evaluación, el establecimiento de estándares consiste en seguir adecuada-
mente un sistema prescrito y racional de reglas o procedimientos que desembo-
can en la asignación de un número de reactivos correctos para diferenciar entre
dos o más niveles de logro (Cizek, 1993). De un modo más general, el estable-
cimiento de estándares atañe a la tarea de establecer niveles de ejecución o logro
en los cuales se clasifican a las personas.
Específicamente, el sistema de estándares en evaluación requiere la elabora-
ción de los niveles de logro y determinar en qué cantidad son necesarios; y asi-
mismo requiere del establecimiento de puntos de corte. El nivel de logro es la
versión conceptual del nivel deseado de competencias, habilidades o conoci-
mientos y el punto de corte es la versión operacional (Cizek, 2007).
El nivel de logro se refiere explícitamente a la definición operacional
3
de los
conocimientos y habilidades que se espera de los sustentantes que quedan ubi-
cados en una categoría o nivel. Los puntos de corte se refieren a las puntuacio-
nes específicas que deben obtener los sustentantes para quedar ubicados en una
categoría o nivel de logro.
Una prueba no siempre se acompaña de un sistema de estándares; por ejem-
plo, en los exámenes referidos a la norma –cuyo objetivo esencial es ordenar a
los sustentantes– el significado del resultado se obtiene al comparar el desempe-
ño de un sustentante con el del resto de la población evaluada (por ejemplo
17 Establecimiento de estándares en un examen criterial
3
Una definición operacional especifica qué actividades u operaciones deben realizarse para
medir una variable.
cuando a un estudiante se le acepta en una institución porque obtiene un pun-
taje más alto que el 75 por ciento de sus compañeros). Así, no conviene emple-
ar un sistema de estándares para los exámenes normativos que se utilizan para
asignar un número determinado de lugares en una institución educativa o nivel
escolar (Wheeler, 1993), dado que carecería de sentido pues no existe una
correspondencia entre la posición que se ocupa y algún estándar.
En virtud del tipo de decisiones que se toman con base en los exámenes, el
rigor de los procedimientos para establecer un sistema de estándares ha ido en
aumento, en parte porque lo que se pretende encontrar detrás de los estándares
es que los estudiantes o profesionistas certificados sean competentes y desarro-
llen prácticas seguras y efectivas, y con ello se proteja a la sociedad y se incre-
mente el bien público.
Así, los aspectos psicométricos involucrados en el sistema de estándares ase-
guran que cualquier decisión o clasificación resulte en este contexto lo más justa
posible y se apegue a reglas objetivas, válidas y fiables; en suma, que se emple-
en criterios explícitos al tomar una decisión, no criterios subjetivos.
Además, la utilización de criterios explícitos para realizar clasificaciones pro-
mueve que tanto las instituciones educativas como los propios sustentantes
incrementen su atención e interés de lograr resultados idóneos en el examen y
por ende un mejor desempeño; a su vez, los centros escolares destinarán una
mayor cantidad de recursos económicos, recursos materiales y tiempo para con-
seguir mejores resultados.
18 Cuaderno técnico 3
U
na prueba puede calificarse de distintos modos y esto tiene un impacto
directo en la cantidad de niveles de logro y puntos de corte necesarios. Los
modelos de calificación se refieren al modo en que se combinan los resultados
de las áreas de un examen para obtener la calificación final de los sustentantes.
En este capítulo se muestran cuatro modelos de calificación y algunos factores
que deben tomarse en cuenta para elegir el más adecuado.
Para ilustrar los diferentes modelos se puede considerar un examen confor-
mado por tres áreas en las que teóricamente el estudiante puede obtener 360
puntos de forma global, y en cada área un máximo de 120 puntos (figura 1). A
partir de ese examen se debe emitir un dictamen para ubicar al sustentante en
alguna de estas tres categorías: no aprobado, aprobado y sobresaliente.
Establecimiento de estándares en un examen criterial
Capítulo II. Modelos de calificación
19
Figura 1. Examen conformado por tres áreas de conocimiento y habilidades
Área 1
Puntuación máxima:
120 puntos
Área 2
Puntuación máxima:
120 puntos
Área 3
Puntuación máxima:
120 puntos
Examen A
Modelo compensatorio
Una forma de calificar a un sustentante es sumar el número de reactivos correc-
tos de cada área para obtener un puntaje global y ubicarlo en su nivel de desem-
peño correspondiente. A esta forma de calificación se le denomina modelo com-

pensatorio. En él, los sustentantes pueden aprobar si logran una puntuación glo-
bal determinada, sin importar cuáles fueron los resultados parciales de cada una
de las áreas que conforman el examen (Mehrens y Phillips, 1989). Por ejemplo, si
se requiere de una calificación global mínima de 180 puntos para aprobar no
tiene relevancia cómo se distribuyan las puntuaciones en cada área. En la figura 2
podemos observar gráficamente la representación de este modelo de calificación.
20 Cuaderno técnico 3
Figura 2. Modelo compensatorio, en que se obtiene la puntuación global
a partir de la suma de las puntuaciones de cada área
Puntuación
del área 1
40 puntos
Puntuación
del área 2
100 puntos
Puntuación
del área 3
70 puntos
Puntuación
global=210
Aprobado
Como se muestra en este ejemplo, con sólo 40 puntos en el área 1 es posible
aprobar globalmente. Al aplicar este modelo se permite que un sustentante
tenga un desempeño diferenciado en cada una de las áreas, por lo que un resul-
tado mínimo o poco satisfactorio en una de ellas podrá compensarse con un
buen resultado en otra área o áreas.
Si se utilizara este modelo, el puntaje global reflejaría un solo constructo o
variable latente; de este modo se establece que todas las áreas del examen tie-
nen elementos en común y, por lo tanto, es lógico aplicar este modelo de cali-
ficación. Lo anterior deberá probarse estadísticamente con un análisis de
dimensionalidad.
4
Una desventaja o limitación de este modelo es que el puntaje global no provee
información diagnóstica que sirva a los sustentantes o a las instituciones educati-
vas para tomar acciones correctivas en áreas en que sus estudiantes presentan un
4
Ver el cuaderno técnico de Análisis Factorial para una explicación más detallada del concep-
to de dimensionalidad.
desempeño bajo. Otro elemento que debe tomarse en cuenta es que teóricamen-
te en este modelo un sustentante puede aprobar sin contestar correctamente nin-
gún reactivo de alguna área, por lo que deberá analizarse si esto se corresponde
con el propósito del examen. Posiblemente lo anterior no es recomendable para
exámenes cuyo objetivo es certificar a los sustentantes (Hambleton, 1995).
Modelo conjuntivo
Otra forma de calificar a un sustentante es con el modelo conjuntivo. Aquí es
necesario que cada área del examen sea aprobada por separado para obtener un
dictamen final favorable. En este modelo es necesario analizar si en cada una de
las áreas el sustentante cuenta con el número de aciertos necesario. Este mode-
lo se refleja en la siguiente figura, en el entendido de que para aprobar se deben
obtener 80 puntos como mínimo en cada área del examen.
Aquí –a diferencia del modelo compensatorio– se requiere establecer un
punto de corte independiente para cada área. Aquí, una consecuencia importan-
te es la cantidad de sustentantes que pueden aprobar un examen, ya que la pro-
babilidad real para aprobar con un modelo conjuntivo se reduce en compara-
ción con la probabilidad asociada a un modelo compensatorio. El impacto de
esta reducción dependerá del número de áreas del examen; mientras más áreas
tenga, más difícil será aprobar; por ejemplo, si se toma el caso descrito en la figu-
ra 3 y si en el modelo compensatorio un sustentante tiene una probabilidad de
.50 de aprobar cada una de las áreas, la probabilidad real de obtener un dictamen
21 Establecimiento de estándares en un examen criterial
Figura 3. Modelo conjuntivo en el que es necesario obtener
puntuaciones aprobatorias en cada una de las áreas
Puntuación
del área 1
100 puntos
Puntuación
del área 2
90 puntos
Puntuación
del área 3
100 puntos
Puntuación
global=290
Aprobado

favorable con este esquema es de .50. En cambio, en un modelo conjuntivo se de-
berá obtener la probabilidad condicional a partir de multiplicar la probabilidad de
cada área por la probabilidad de las otras áreas (en el ejemplo: .50 x .50 x .50 = .12).
Se puede observar que la probabilidad merma considerablemente y por ende
con este modelo se incrementa la cantidad de sustentantes no aprobados en
comparación con el modelo compensatorio.
Claramente, el modelo conjuntivo es más riguroso y demandante para los
sustentantes (Haladyna y Hess, 1999). Existen dos razones fundamentales para
utilizarlo: una es cuando se buscan estándares altos en los sustentantes, lo que
ocurre generalmente en las evaluaciones de certificación u obtención de grado;
otra es considerar que la prueba tiene características multidimensionales, de ahí
que resulte más lógico calificar cada área por separado.
Otro aspecto en el que difieren los métodos es que en el modelo conjuntivo
se necesitan establecer niveles de logro y puntos de corte por cada una de las
áreas, haciendo con ello un trabajo mayor en comparación con el modelo com-
pensatorio en el cual sólo se necesitan niveles de logro y puntos de corte en la
escala global. Tomando en cuenta el ejemplo desarrollado y bajo un modelo
conjuntivo –asumiendo que el examen cuenta con las categorías de no aprobado,
aprobado y sobresaliente–, se tendrían que establecer nueve niveles de logro, tres por
cada área del examen, así como seis puntos de corte (tabla 2).
Por último, en el modelo conjuntivo
5
debe determinarse si –además de las
calificaciones por área– se le va a proporcionar al sustentante una puntuación
final o global.
6
En caso de un puntaje global, este último determinará la catego-
22 Cuaderno técnico 3
5
La calificación en el modelo conjuntivo puede ser de manera secuencial o no secuencial. La
primera opción es cuando un sustentante no aprueba un área y por lo tanto ya no se continúa
calificando las otras áreas; lo anterior no es usual cuando se utiliza un examen, pero puede
ocurrir cuando se evalúa a un sustentante con varios exámenes o instrumentos de medición,
(Haladyna y Hess, 1999).
6
En el modelo conjuntivo ya no se elaborarán niveles de logro para una calificación global, aunque
pueden crearse una serie de descripciones genéricas de cada nivel (Hambleton y Slatter, 1997).
ría a la que pertenece un sustentante; por lo general, al determinar esa puntua-
ción final para calificar el examen, el modelo conjuntivo es menos exigente.
7
Modelo combinatorio o mixto
Cuando se le pide al sustentante que cubra únicamente un mínimo de aciertos
para un área (o para varias pero no para todas), se está utilizando el modelo
combinatorio o mixto. Este modelo de calificación combina el modelo compen-
satorio con el conjuntivo al exigirle al sustentante una puntuación mínima en
una o más áreas consideradas indispensables para su buen desempeño, mientras
que se le permiten rendimientos por debajo del mínimo en otras áreas. Una
posibilidad de alcanzar la calificación final consiste en convertir las puntuaciones
obtenidas en cada una de las áreas a una puntuación binaria, en la que a cada
sustentante con un puntaje aprobatorio por área se le otorgará una puntuación
de 1, mientras que una puntuación no satisfactoria equivaldrá a una puntua-
ción de 0, y entonces –para aprobar o certificarse– el sustentante deberá cumplir
con un porcentaje mínimo de áreas aprobadas. Esto se ilustra con el siguiente
ejemplo: Para acreditar el examen se requiere aprobar dos de las tres áreas que
lo conforman y para aprobar cada área se requiere una puntuación mínima de 80
puntos.
23 Establecimiento de estándares en un examen criterial
Modelo Compensatorio Modelo Conjuntivo
Tabla 2. Número de niveles de logro y puntos de corte por modelos de calificación
Número de niveles de logro Tres Nueve
Número de puntos de corte Dos Seis
7
De forma estricta, en el modelo conjuntivo únicamente se aprobaría si se obtiene el puntaje
mínimo por área.
En este ejemplo se puede observar que se cumplió con los dos criterios suge-
ridos: el sustentante aprobó dos de las tres áreas y en cada área aprobada obtu-
vo una puntuación mayor a los 80 puntos.
Modelo disyuntivo
Otro modelo de calificación es el modelo disyuntivo. Se aplica cuando existen
otras formas de verificar un desempeño satisfactorio del sustentante, o cuando
se cuenta con evaluaciones anteriores sobre los mismos conocimientos y habi-
lidades. También cuando se presenta por segunda ocasión una misma prueba,
teniendo la certeza de que el sustentante deberá presentar sólo el área en la que
no obtuvo un puntaje mínimo satisfactorio. En estos casos se puede exigir un
nivel mínimo de desempeño únicamente en una de las áreas, para considerar
que es satisfactorio el puntaje global del sustentante.
A la luz de lo que ha sido visto hasta aquí, puede decirse que elegir un mode-
lo de calificación resulta complejo, en virtud de los factores involucrados en la
elección. En seguida se detallan algunos de estos factores:
24 Cuaderno técnico 3
Figura 4. Modelo combinatorio, en donde se pueden obtener puntuaciones
binarias para alcanzar una calificación global; en el ejemplo, al tener dos áreas
con calificación binaria de 1 se obtiene un dictamen final de aprobado
Área 1=
85 puntos
Puntuación
binaria= 1
Área 2=
100 puntos
Puntuación
binaria =1
Área 3=
40 puntos
Puntuación
binaria =0
Puntuación
global=185
Aprobado
a) Constructos o variables latentes que se miden
b) Objetivo de la prueba
c) Falsos positivos y falsos negativos
d) Confiabilidad
Tabla 3. Factores asociados a la elección de modelos de calificación
a) Constructos o variables latentes que se miden
Un examen busca evaluar el nivel en que se encuentran los sustentantes en un
constructo o variable latente.
8
El número de variables latentes que mide una
prueba no es sólo una cuestión teórica: es posible verificarlo de manera estadís-
tica, con un análisis factorial que pruebe la dimensionalidad del examen. Convie-
ne –desde la fase de diseño del examen– definir las variables latentes que se
desean medir; idealmente, si todos o la mayoría de los reactivos de la prueba
“ajustan” a una sola variable latente o constructo, entonces se tendrán más bases
para aplicar un modelo de calificación compensatorio. Si se considera que una
prueba evalúa más de una variable latente, el modelo conjuntivo podría ser más
adecuado. Sin embargo, debe considerarse que aun en el caso de que se tenga
más de una variable latente podría utilizarse el modelo compensatorio. Cizek
(2007) da un ejemplo: a candidatos a oftalmólogos se les administra un examen
dividido en 10 áreas de 20 reactivos cada una, para un total de 200 reactivos;
algunas de las áreas son sobre el conocimiento de la retina, la órbita del ojo, etcé-
tera. Podría encontrarse –con un análisis factorial– que las 10 áreas representan
variables latentes diferentes, pero aun así utilizarse una estrategia compensato-
ria, si se demuestra que existe una correlación significativa entre las áreas del
examen, o bien con base en algún criterio práctico, por ejemplo si se tiene evi-
dencia de que los oftalmólogos tienden a especializarse en un área, lo que torna
menos relevante el que dominen todas las áreas del examen.
b) Objetivo de la prueba
El objetivo con que se aplica un examen es importante para elegir el modelo de
calificación. Los exámenes de alto impacto que tienen consecuencias asociadas
a sus resultados (como los procesos de certificación) probablemente requieren
de un modelo conjuntivo para garantizar que los sustentantes cumplan con
25 Establecimiento de estándares en un examen criterial
8
Los términos de constructo o variable latente pueden considerarse como sinónimos, y se refie-
ren a aquellas variables hipotéticas que no pueden ser medidas directamente (Cizek, 1993).
todos los elementos necesarios para luego desempeñarse satisfactoriamente en
el campo profesional. En cambio se pueden utilizar criterios menos exigentes en
pruebas cuyo objetivo sea diagnosticar las fortalezas o debilidades de los susten-
tantes; un modelo compensatorio sería el adecuado en este caso.
c) Falsos positivos y falsos negativos
Las clasificaciones que resultan de la aplicación de un punto de corte son infe-
rencias, y representan la mejor estimación posible basada en la evidencia empí-
rica que se tiene acerca del nivel o habilidad real de un sustentante. Gracias a las
pruebas con alta calidad técnica y un procedimiento adecuado para el estableci-
miento de estándares es posible tener clasificaciones adecuadas de los sustentan-
tes. No obstante, puede incurrirse en errores de clasificación. Si consideramos
que –por definición– las pruebas se basan en una muestra del conocimiento y
no en la totalidad de contenidos de un campo disciplinario, puede incurrirse en
inexactitudes en el proceso de clasificación.
Cuando un sustentante debió aprobar o certificarse pero no fue así, se dice
que se cometió un error de falso negativo. Cuando a un sustentante que no tiene
los conocimientos o habilidades necesarios se le otorga el dictamen de aproba-
do, se dice que se cometió un error de falso positivo. Dependiendo de los factores
establecidos para la prueba, puede resultar más probable la comisión de uno de
estos errores. Por ejemplo: cuando a un sustentante se le permite presentar
varias veces un examen será más probable que se cometa un error de falso positi-
vo (Millman, 1989). Al establecer un punto de corte más alto se reducen los falsos
positivos. Entre más bajo sea el punto de corte los casos de falsos negativos tenderán
a reducirse. El modelo conjuntivo incrementa la probabilidad de cometer el
error de falsos negativos. En el modelo compensatorio se incrementa la probabili-
dad de cometer errores de falsos positivos.
Otro factor que puede determinar qué modelo de calificación se quiere
utilizar (y por lo tanto reducir la posibilidad de incurrir en algún tipo de error)
son las consideraciones de tipo político implícitas en el contexto del examen;
por ejemplo: si un examen sirve para certificar médicos o ingenieros (y dada la
26 Cuaderno técnico 3
relevancia de este tipo de decisiones para la sociedad), sería conveniente ser más
estricto o exigente con el punto de corte, lo cual reduciría el riesgo de incurrir en
los falsos positivos, con lo que se protegería a la sociedad (Hambleton y Slater,
1997). En cambio, en ambientes educativos en los que se considera que un estu-
diante puede tener oportunidades posteriores de aprendizaje, sería recomenda-
ble tratar de evitar los falsos negativos.
d) Confiabilidad
En los modelos de calificación también es importante considerar el concepto
de confiabilidad, que atañe a la consistencia en la medición a través del tiempo de
cierto constructo o variable latente. Uno de los aspectos que más se relacionan
con la confiabilidad es el número de reactivos que conforma el examen: a mayor
número de reactivos, mayor será la confiabilidad del instrumento de evaluación.
Esta característica impacta directamente en la selección del modelo de califica-
ción. En el modelo compensatorio se cuenta con un número mayor de reactivos
que en el modelo conjuntivo, de ahí que sea más probable que la confiabilidad
del examen en el modelo compensatorio sea mayor que la confiabilidad de las
áreas que conforman un examen en el modelo conjuntivo.
27 Establecimiento de estándares en un examen criterial

U
na vez elegido el modelo de calificación, deben desarrollarse los niveles de
logro o desempeño. Son un aspecto sustancial en el establecimiento de
estándares, ya que señalan de manera cualitativa lo que significa que un susten-
tante obtenga un puntaje determinado en un examen. Esta descripción repre-
senta una ventaja muy importante, pues permite comunicar a los alumnos, a las
autoridades educativas y a la sociedad en general lo que significa que un susten-
tante se encuentre ubicado en una categoría específica. Los niveles de logro
deben ser elaborados con un grado de generalidad suficiente como para permi-
tir que las instituciones educativas tengan claro lo que sus estudiantes pueden
hacer y, por lo tanto, puedan tomar decisiones y establecer planes y programas
de estudios de acuerdo con sus características.
Las descripciones de niveles de logro pueden definirse como los comporta-
mientos de que son capaces los sustentantes basándose en los conocimientos y
habilidades asociados a ese nivel. Estas descripciones complementan los resul-
tados expresados en puntajes numéricos, que en frecuentes ocasiones comuni-
can poco a la sociedad y a los alumnos.
La elaboración de los niveles de logro tiene importantes repercusiones téc-
nicas en la construcción de un instrumento de medición, ya que las descripcio-
nes de los niveles constituyen la base sobre la cual se deben elaborar las especi-
ficaciones de reactivos
9
(Jornet y Backhoff, 2008). Las descripciones de los
niveles de logro permiten la elaboración de reactivos que puedan distinguir cla-
ramente entre los niveles y, por lo tanto, permiten una categorización más con-
fiable de los sustentantes. Los niveles de logro constituyen la referencia princi-
pal sobre la cual se deben basar los expertos para establecer los puntos de corte,
de ahí que convenga que las descripciones se elaboren en una fase inicial del exa-
men, usualmente la de diseño.
Establecimiento de estándares en un examen criterial
Capítulo III. Establecimiento de niveles de logro
29
9
El término reactivo hace referencia a las preguntas que conforman un examen.
La cantidad de niveles de logro estará determinada por el modelo de calificación
seleccionado y de su descripción se hará cargo un grupo de expertos que conozca
tanto el contenido de la prueba como las implicaciones políticas, económicas y so-
ciales de sus resultados. Para la determinación de los niveles de logro es necesario
considerar cinco elementos principales (Perie, 2008), que en seguida describiremos:
1) Definir cuántos niveles de logro se establecerán
2) Seleccionar los nombres o etiquetas de cada nivel
3) Realizar las descripciones guía
4) Desarrollar la descripción de cada nivel de logro
5) Evaluar el proceso de establecimiento de los niveles de logro
1. Definir cuántos niveles de logro se establecerán
El primer paso es establecer cuántos niveles o categorías existirán, por ejemplo los
niveles Elemental, Satisfactorio y Sobresaliente, o establecer únicamente los nive-
les de Básico y Avanzado. Estas categorías se aplicarán al examen en su conjunto
o para cada área del examen, según el modelo de calificación que se esté utilizando.
Para establecer el número de categorías debe tomarse en cuenta el objetivo
de la prueba y el impacto de sus resultados en la sociedad; por ejemplo, en un
examen de certificación –en el que es necesario conocer si el sustentante cuen-
ta con ciertas habilidades– se podrían tener únicamente dos categorías: aproba-
do o no aprobado. En otros casos puede necesitarse de más categorías para
poder contar con mayor información sobre los logros alcanzados por los sus-
tentantes y conocer cuáles son las áreas que hay que fortalecer en el aprendizaje.
No conviene que el número de categorías sea muy grande, pues –en términos
psicométricos– es más complejo y exigente el desarrollo de una prueba cuando
existen más categorías o niveles. Mientras más categorías o niveles se establez-
can, menos evidentes se volverán las diferencias entre los niveles de logro. Por
ejemplo: si se establecieran cinco categorías, es posible que la diferencia entre los
sustentantes de categorías consecutivas fuese mínima.
En las pruebas de logro lo usual es que se utilicen de dos a cuatro niveles; un
número mayor supone más trabajo para hacer descripciones que discriminen
30 Cuaderno técnico 3
significativamente el desempeño de los alumnos, y también requeriría de una
prueba con características psicométricas muy exigentes y con una extensión sig-
nificativamente mayor.
2. Seleccionar los nombres o etiquetas de cada nivel
Esta tarea conlleva la elección de las palabras o términos que aluden al nivel de
dominio que un alumno tiene sobre un área de conocimiento. La finalidad de
asignar una etiqueta para definir a los niveles de logro es proporcionar –a los
especialistas encargados de elaborar las descripciones– un marco de referencia
que permita identificar con mayor facilidad los conocimientos y habilidades
involucrados en cada nivel.
Para una selección adecuada de etiquetas se recomienda que éstas tengan un
valor diferencial que haga posible discriminar claramente entre dos categorías, que
sean fácilmente comprensibles para las distintas audiencias relacionadas con el exa-
men y a las que se comunicarán los resultados (alumnos, padres de familia, maes-
tros y sociedad en general). En las etiquetas deberán evitarse palabras ambiguas o
que incluyan tecnicismos de difícil comprensión, tales como términos normativos
y palabras que puedan ser interpretadas de forma negativa por la población. Inclu-
so para evitar etiquetar de manera adversa a un segmento de la población, se han
utilizado números para identificar cada una de las categorías, asegurando así la neu-
tralidad de las etiquetas. En la tabla 4 se muestran algunos ejemplos de etiquetas.
31 Establecimiento de estándares en un examen criterial
Etiquetas
Tabla 4. Ejemplos de etiquetas de niveles de logro
Básico, Competente, Avanzado
Limitado, Básico, Competente, Acelerado, Avanzado
Por debajo del Básico, Básico, Medio, Avanzado
Nivel 1, nivel 2, nivel 3
sin especificar el nombre de las etiquetas
Origen
National Assessment of Educational Progress
Pruebas de rendimiento del Estado de Ohio
Exámenes de Calidad y Logro Educativo (EXCALE)
Proyecto PISA (2000): Lectura
3. Elaborar las descripciones guía
Una vez que se cuenta con el número y el nombre de los niveles, se recomien-
da una descripción guía para cada uno de ellos. Esta descripción refleja, de
manera global, el desempeño (conocimientos y habilidades) de los sustentantes
en cada categoría y no debe estar relacionado con el contenido específico del
examen. En caso de que vaya a calificarse con un modelo conjuntivo, las des-
cripciones guía deberán elaborarse para las diferentes áreas del examen, con el
objetivo de darles homogeneidad.
Las descripciones guía determinan qué tan rigurosos serán los estándares
para describir los niveles de logro y para ello se recomiendan palabras o concep-
tos que marquen una clara diferencia entre las categorías. En la tabla 5 se presen-
tan algunas descripciones guía.
32 Cuaderno técnico 3
Etiqueta
Tabla 5. Ejemplo de descripción guía de niveles de logro
Elemental
Satisfactorio
Sobresaliente
Descripción guía del nivel de logro
Indica el dominio mínimo de conocimientos y habilidades para poder seguir pro-
gresando satisfactoriamente en la materia. El sustentante es capaz de identificar
procedimientos, hechos y conceptos y puede establecer relaciones básicas entre
esos elementos.
Indica un dominio adecuado de conocimientos y habilidades, que pone de mani-
fiesto un buen aprovechamiento de lo previsto en el currículo. El sustentante es
capaz de organizar su conocimiento, estableciendo relaciones causales, de aso-
ciación o jerárquicas entre los procedimientos, hechos y conceptos, a partir de
lo cual puede extraer inferencias o conclusiones.
Indica un dominio óptimo o superior de conocimientos y habilidades que refleja
el aprovechamiento máximo de lo previsto en el currículo. El sustentante es capaz
de generalizar y aplicar los procedimientos y conceptos en distintos contextos. Es
capaz de argumentar o evaluar procedimientos o interpretaciones.

4. Desarrollar la descripción de cada nivel de logro
Una vez que se cuenta con la descripción guía, una descripción completa de cada
uno de los niveles de logro debe basarse en los contenidos específicos de cada
área o del examen, según el modelo de calificación seleccionado. Es necesario un
grupo de especialistas en el área de conocimiento por evaluar para desarrollar
estas descripciones. Los expertos comenzarán por conocer las descripciones guía.
Para la elaboración de las descripciones deben tomarse en cuenta varios
aspectos:
4.1 Descripciones graduales o secuenciales
Las descripciones deben ser sucesivamente más complejas, ya que las habilida-
des comprendidas en un nivel superior necesariamente involucran las tareas o
habilidades de los niveles anteriores. Por ejemplo: los sustentantes que se ubican
en el segundo nivel deben ser capaces de asumir tareas que se encuentran en el
nivel anterior.
4.2 Las descripciones deben ser cualitativamente diferentes
Las diferencias entre las habilidades y los comportamientos de los sustentantes
de diversas categorías deben ser de índole cualitativo, no cuantitativo. Por ende,
no se deben elaborar descripciones en las que únicamente cambie la cantidad de
habilidad o de conocimiento entre cada categoría, de tal modo que las descrip-
ciones no deben señalar que un sustentante tiene más conocimientos que uno
de la categoría anterior, sino que (en la medida de lo posible) se establezcan dife-
rencias de tipo cualitativo entre cada uno de los niveles de logro.
4.3 Las descripciones deben ser positivas
Las descripciones deben señalar de la manera más clara y explícita posible los
comportamientos y habilidades que los sustentantes pueden realizar, y no seña-
lar aquello que no pueden hacer.
33 Establecimiento de estándares en un examen criterial

4.4 Las descripciones deben referirse a comportamientos y habilidades
Las descripciones deben señalar los comportamientos implícitos en los conoci-
mientos y habilidades que se expresan a través de los reactivos de un examen.
Las descripciones no deben referirse a contenidos o temas explícitos de los exá-
menes, sino a lo que los sustentantes pueden realizar con base en éstos.
Las descripciones se pueden complementar con ejemplos de conocimientos
y habilidades que los sustentantes son capaces de desplegar y además se pueden
incluir reactivos que ejemplifiquen cada categoría. Las descripciones de los nive-
les de logro deben ser un importante referente en el diseño y desarrollo de un
examen.
5. Evaluación del proceso de establecimiento de niveles de logro
Una vez desarrollados los niveles de logro del examen, se debe efectuar una
revisión tanto del proceso como de los resultados obtenidos. Se trata de evaluar
si los niveles de logro identificados son representativos del contenido y permi-
ten interpretar las puntuaciones de un modo adecuado para el examen, por lo
que se verificará si el número de categorías fue el apropiado y si el examen dis-
pone de capacidad suficiente para discriminar las categorías previstas, evitando
con ello categorías vacías o artificiales. En síntesis, se verificará si los niveles de
logro propuestos cumplen con sus dos funciones principales: apoyar en el pro-
ceso de toma de decisiones para el desarrollo de estrategias de mejora educati-
va y permitir una comunicación efectiva de los resultados a las instituciones edu-
cativas, a los sustentantes y a la sociedad en general, dando a conocer los logros
alcanzados por los sustentantes y las áreas que éstos necesitan fortalecer, pro-
moviendo así un aprendizaje de mayor calidad.
Los niveles de logro complementan la información tradicionalmente expre-
sada en puntuaciones y permiten conocer los elementos cualitativos relaciona-
dos con el desempeño de los sustentantes.
En la tabla 6 se puede observar la descripción final de tres niveles de logro
para un examen de comprensión de lectura.
34 Cuaderno técnico 3
35 Establecimiento de estándares en un examen criterial
Etiqueta
Tabla 6. Descripción de niveles de logro de comprensión de lectura
Elemental
Satisfactorio
Sobresaliente
Descripción de nivel de desempeño
Los estudiantes con un nivel de desempeño elemental son capaces de compren-
der el sentido general de lo que leen. Cuando leen un texto son capaces de esta-
blecer relaciones relativamente obvias del contenido y ampliar las ideas median-
te inferencias simples.
Por ejemplo, cuando leen un texto literario, los estudiantes de nivel elemental
son capaces de narrar de manera general de lo que trata la historia, proporcio-
nando detalles para apoyar su comprensión.
Los estudiantes con un nivel de desempeño satisfactorio son capaces de demos-
trar una comprensión global del texto, proporcionando tanto información inferen-
cial como literal. Cuando leen un texto deben ser capaces de entender las ideas
ahí plasmadas, haciendo inferencias, obteniendo conclusiones y estableciendo
relaciones con sus propias experiencias. Las relaciones entre el texto y lo que infie-
re el estudiante deben ser claras.
Por ejemplo, cuando leen un texto literario, los estudiantes del nivel satisfactorio
son capaces de resumir la historia, extraer conclusiones acerca de los persona-
jes o de la trama expuesta en el texto, así como de reconocer las relaciones de
causa y efecto.
Los estudiantes con un nivel de desempeño sobresaliente son capaces de genera-
lizar sobre los temas presentados en las lecturas y entienden cómo los autores
escriben y utilizan herramientas literarias. Cuando los estudiantes leen un texto son
capaces de emitir juicios críticos sobre la forma y el contenido del texto, explican-
do claramente sus juicios.
Por ejemplo, cuando leen un texto literario, los estudiantes del nivel sobresalien-
te son capaces de realizar generalizaciones sobre el tema principal y extender su
significado con experiencias personales, así como con otras lecturas. Los estudian-
tes son capaces de identificar las estrategias literarias utilizadas, tales como el len-
guaje figurativo.
E
l siguiente paso en el sistema de estándares es el establecimiento de puntos
de corte, que son la versión operativa o numérica de las descripciones cua-
litativas de los niveles de logro.
El establecimiento de puntos de corte involucra la determinación de puntua-
ciones que permitan decidir con qué calificación se ubicará a un sustentante en
las categorías o niveles de logro. Las puntuaciones establecidas servirán para cla-
sificar a los sustentantes en al menos dos grupos: aprobados y no aprobados, o
bien en las categorías o niveles de logro que se hayan establecido. A estas pun-
tuaciones se les denomina puntos de corte y constituyen una parte fundamen-
tal de las pruebas basadas en criterio, ya que reflejan un estándar de desempeño
(determinado por expertos) y no constituyen una calificación basada únicamen-
te en la comparación de la puntuación de un sustentante con los resultados de
sus pares.
El establecimiento de puntos de corte es un sistema racional de reglas o pro-
cedimientos que resulta de la asignación de un número para diferenciar entre dos
o más categorías. Este sistema de reglas deberá aplicarse de la misma manera a
toda la población que presente un mismo examen (Plake y Hambleton, 2001).
Para el establecimiento de puntos de corte se han desarrollado innumerables
métodos, pero independientemente del método seleccionado se dispone de una
serie de pasos generales para su establecimiento. En este capítulo se describirán
los principales.
El procedimiento general en la mayoría de los métodos es el siguiente:
1) Selección del método
2) Selección de los jueces
3) Definición del sustentante límite
4) Capacitación de los jueces en el método seleccionado
5) Obtención de los puntos de corte establecidos por los grupos de jueces
6) Retroalimentación a los jueces
7) Establecimiento de puntos de corte preliminares
Establecimiento de estándares en un examen criterial
Capítulo IV. Establecimiento de puntos de corte
37
8) Evaluación de las sesiones de trabajo por parte de los jueces
9) Establecimiento de puntos de corte definitivos y documentación
de los resultados
A continuación se detallan y explican los pasos anteriores.
1. Selección del método para establecer puntos de corte
Hay varios métodos para establecer los puntos de corte de un examen. Qué
método se debe elegir –eso depende de factores como el objetivo del examen, el
nivel de complejidad de los conocimientos y habilidades que se evalúan y del
formato del examen, principalmente el tipo de respuesta que se maneja (abier-
ta, cerrada, etc.) y de si el establecimiento de los puntos de corte se realiza antes
o después de la administración del examen. También importa conocer los nive-
les de logro que se tienen en el examen, así como el número de expertos que
participarán en las sesiones para el establecimiento de los puntos de corte (Mor-
gan y Michaelides, 2005).
Otros aspectos que se deben tomar en cuenta para la selección del método es
el tiempo y los recursos necesarios para las sesiones de trabajo, además de saber
qué tan familiarizados están los jueces con el método o, en su defecto, qué tanta
capacitación necesitarán para asumir las tareas y, finalmente, qué tan viable y
válido resulta el método que se pretende aplicar.
Respecto de algunos métodos es menester que los jueces o expertos revisen
los reactivos, mientras que otros requieren de una evaluación previa del trabajo
de los sustentantes. En el primer grupo de métodos se pueden revisar los reacti-
vos de un examen y emitir un juicio sobre si un sustentante podría o no respon-
der de manera adecuada. En contraste, en aquellos métodos basados en los sus-
tentantes se les pide a los expertos que clasifiquen a la población del examen en
las distintas categorías o niveles de logro, sin que conozcan cuál fue el puntaje
que obtuvieron en el examen.
En el Anexo 3 se describen de manera general algunos de los métodos perte-
necientes a estas dos categorías.
38 Cuaderno técnico 3
2. Selección de los jueces
Una vez seleccionado el método de trabajo, se debe elegir al grupo de expertos
capaces de determinar cuáles son los conocimientos y habilidades necesarios
para ubicar a un sustentante en alguna de las categorías del examen.
Los jueces que participan en las sesiones de establecimiento de puntos de
corte deben ser expertos en su área de especialización, tener un amplio conoci-
miento sobre el contenido del examen y también conocer las características de
la población que está siendo evaluada (Impara y Plake, 1997). Adicionalmente
los expertos deben conocer el objetivo del examen, los temas que maneja, cómo
se usarán las puntuaciones y a quiénes se les darán a conocer estos resultados
(Cizek y Bunch, 2007).
El número de jueces deberá ser considerado cuidadosamente, en términos de
su diversidad en cuanto a su ubicación geográfica, género, edad y experiencia
laboral o académica (Jaeger y Mills, 2001). Un requisito indispensable es el cono-
cimiento que deben tener los jueces acerca del examen. Este es un factor pre-
ponderante pues los expertos deben emitir juicios que resultan complejos por la
diversidad de los factores involucrados; por ejemplo, para el caso de pruebas
educativas se pueden encontrar con los siguientes elementos: el currículo esco-
lar, las habilidades y capacidades del grupo de sustentantes, las características de
los reactivos que determinan la dificultad de la prueba y los retos a los cuales se
enfrentarán los sustentantes aprobados o certificados.
3. Definición del sustentante límite
En este paso se define al sustentante límite o borderline. Es un sustentante cuyos
conocimientos y habilidades lo ubican entre dos categorías o niveles de logro
–lo que constituye el aspecto en que se basan varios métodos.
El desempeño límite es el punto en que un desempeño mínimo aún pertene-
ce a un nivel de logro específico y no al nivel que le antecede, por lo que el susten-
tante límite se encuentra prácticamente en la frontera entre dos niveles de logro (Cizek, 2007).
Una expresión que lo puede representar es la del peor estudiante aprobado o
certificado.
39 Establecimiento de estándares en un examen criterial

Debido a que el objetivo principal del establecimiento de puntos de corte es
asignar puntuaciones que distingan entre niveles de logro, la identificación del
sustentante límite se vuelve una tarea determinante.
En varios métodos, la tarea de los jueces o expertos en esta etapa es decidir
cómo contestaría un sustentante límite cada una de las preguntas del examen.
4. Capacitación de los jueces en el método seleccionado
En esta etapa el objetivo principal es proporcionar una visión detallada de las
tareas y procedimientos que deberá desarrollar el experto para emitir su juicio.
Hambleton y Pitoniak (2007) consideran que una capacitación adecuada debe
incluir los siguientes aspectos:
4.1 Orientar a los jueces sobre lo que es un proceso de establecimiento de
estándares, clarificar los objetivos de la sesión y el propósito de la prueba
4.2 Explicar y detallar los pasos que se siguen en el establecimiento de estándares
4.3 Mostrar la forma de calificar el examen
4.4 Explicar cómo deberán completarse las formas para emitir sus juicios res-
pecto a los puntos de corte
4.5 Proporcionar tiempo para que los jueces emitan sus juicios con reactivos
similares a los de la prueba real
4.6 Explicar la información adicional que se les proporcionará para que emitan
sus juicios; por ejemplo: el porcentaje de sustentantes que quedarían ubica-
dos en cada categoría de acuerdo con los puntos de corte establecidos
4.7 Familiarizar a los jueces con el contenido de la prueba, y que conozcan
tanto las descripciones de niveles de logro como los contenidos de la prue-
ba (incluso pueden contestar la prueba si se cuenta con el tiempo suficiente)
4.8 Por último, deberá documentarse todo el proceso de entrenamiento, rela-
tando por escrito las actividades realizadas durante las sesiones de trabajo.
En algunas ocasiones se recomienda utilizar un cuestionario al final de la
capacitación, con el objetivo de verificar si todas las instrucciones y tareas
quedaron claras y si alguno de los expertos necesita más tiempo para fami-
liarizarse con la forma de trabajo, o si existe alguna duda por despejar. En
40 Cuaderno técnico 3
suma, es recomendable que los expertos convocados a participar en el esta-
blecimiento de puntos de corte tengan perfectamente claro el objetivo de
determinar estas puntuaciones y las consecuencias asociadas a ubicar a los
sustentantes en las diversas categorías o niveles de logro de la prueba,
como pueden ser las consecuencias de tipo educativo o de impacto social.
5. Obtención de los puntos de corte establecidos por los grupos de jueces
Una vez esclarecidas las tareas que se desarrollarán en las sesiones de trabajo, los
expertos comienzan a emitir sus juicios –dependiendo del método seleccionado.
Al finalizar se le pide a cada uno de los jueces que llene un formato en el que
escribe su punto de corte; el moderador de las sesiones se encarga de agrupar las
puntuaciones y presentar los resultados a todo el grupo de expertos con el obje-
tivo de que comiencen una discusión acerca de las decisiones emitidas por cada
uno de los jueces.
6. Retroalimentación a los jueces
Generalmente se les solicita a los jueces que revisen de manera individual el
material presentado y que emitan puntos de corte provisionales. En seguida se
les indica que pueden discutir las puntuaciones propuestas y se les proporcionan
elementos para retroalimentar sus juicios. Esto puede variar con cada método,
pero en la mayoría de ellos se incluye información estadística descriptiva acerca
de los juicios de los expertos. Esta retroalimentación se hace con la intención de
que los expertos tengan la oportunidad de reconsiderar sus juicios iniciales y de
que puedan identificar errores en alguna decisión. Otro elemento que se les
puede proporcionar es la información acerca de las consecuencias de establecer
un punto de corte determinado (Cizek, 2007). Por ejemplo, información sobre
el porcentaje de sustentantes que quedarían ubicados en una categoría o que
aprobarían un examen.
Generalmente después de que los jueces indican sus puntos de corte, se les
proporciona la retroalimentación para homologar, en la medida de lo posible,
sus juicios.
41 Establecimiento de estándares en un examen criterial

7. Establecimiento de puntos de corte preliminares
Una vez que los jueces han tenido la oportunidad de reconsiderar sus puntua-
ciones (y cambiarlas si así lo consideran pertinente), se recopilan todos los jui-
cios emitidos y se calcula la media o la mediana de esas puntuaciones, depen-
diendo del método con el que se ha trabajado. Las puntuaciones basadas en la
mediana son recomendables para los grupos pequeños de expertos, o bien cuan-
do se cuenta con distribuciones no simétricas de las puntuaciones. La media se
prefiere para contar con la medición del error estándar, que puede ser utilizado
como una medida de la estabilidad de la puntuación obtenida. Las puntuaciones
finales se dan a conocer a los jueces y en algunas ocasiones tendrán que ser revi-
sadas por un grupo de autoridades asociados al examen.
8. Evaluación de las sesiones de trabajo por parte de los jueces
Es recomendable una evaluación de los expertos que participaron en las sesio-
nes de trabajo. En esta evaluación se pretende contar con la percepción de los
jueces sobre su nivel de satisfacción con la capacitación recibida, el tiempo que
se le dedicó a cada una de las tareas y a la retroalimentación y la discusión. Esta
etapa del proceso forma parte de la evidencia necesaria para validar el proceso
de puntos de corte.
9. Establecimiento de puntos de corte definitivos
y documentación de los resultados
Una vez que los expertos han tomado las decisiones finales sobre las puntuacio-
nes de corte de un examen, es necesario documentar las actividades hechas
durante las sesiones, con la finalidad de aportar evidencias sobre el trabajo rea-
lizado y su calidad. Se han establecido tres tipos de criterios que ayudan a la
documentación y evaluación del proceso (Cizek, 1996a):
9.1 Criterios relacionados con el procedimiento
Esta categoría se relaciona con la claridad con que se procedió a la implementa-
ción del proceso para el establecimiento de puntos de corte en todas sus etapas.
42 Cuaderno técnico 3
Se debe incluir información sobre qué tan sencillos y sistemáticos resultaron los
procedimientos, tanto para los jueces como para quienes moderaron las sesio-
nes. También se debe incluir evidencia suficiente sobre la conformación del
grupo de jueces, la definición de los sustentantes límites, así como las tareas
desarrolladas a lo largo de las sesiones y la retroalimentación proporcionada a
los expertos.
9.2 Criterios relacionados con la consistencia interna
Otro tipo de evidencia es la homogeneidad de los juicios con respecto a las pun-
tuaciones establecidas. También se puede revisar si empleando el mismo méto-
do se obtienen puntos de corte similares o iguales.
9.3 Criterios relacionados con la consistencia externa
Contar con evidencia que sustente el método seleccionado para el estableci-
miento de puntos de corte. La consistencia de los puntos de corte se puede cal-
cular con la aplicación de otros métodos, revisando también si la relación entre
las decisiones basadas en los resultados del examen concuerdan con otros crite-
rios como las calificaciones de los sustentantes.
Finalmente, se puede evaluar la información sobre el impacto social que ten-
drían los puntos de corte seleccionados (Hambleton, 1998).
Una vez completado el acopio de toda la información y la documentación
necesarias, las puntuaciones obtenidas durante las sesiones de trabajo serán con-
sideradas como una propuesta técnica que será revisada por otras autoridades
relacionadas con el examen que finalmente podrán aprobar o sancionar estos
puntos de corte. En el mismo sentido, en algunas ocasiones un comité técnico
sanciona los puntos de corte definitivos a partir de elementos como el propósi-
to de la prueba, la correspondencia con puntuaciones de otros exámenes, las
consecuencias asociadas a los puntos de corte y a los posibles errores de catego-
rización de los sustentantes.
43 Establecimiento de estándares en un examen criterial

22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
D
e los diversos métodos para determinar los puntos de corte, uno de los que
tienen mayor presencia en la actualidad es el método bookmark o del marca-
dor. En esencia, en este método un grupo de expertos (también denominados
jueces) revisan individualmente un conjunto de reactivos ordenados por dificul-
tad –del más fácil al más difícil– y determinan cuáles son los reactivos que un
sustentante límite podría contestar correctamente con una probabilidad mayor
de .67. Si consideran que para un reactivo la probabilidad es menor, entonces
deberán colocar un marcador en el cuadernillo de reactivos que delimita el
punto de corte y que señala la separación entre las categorías o niveles de logro
establecidos en el examen (Cizek, 1996b).
En este capítulo se describen las principales características y procedimientos
de este método.
Establecimiento de estándares en un examen criterial
Capítulo V. Método bookmark o del marcador
45
Figura 5. Cuadernillo de reactivos. Los reactivos se presentan en orden
de dificultad, y se incluye un marcador en el reactivo que separa dos categorías
CUADERNILLO
DE
PREGUNTAS
Marcador
Fácil
Difícil
*
Ventajas del método bookmark
El método bookmark forma parte del grupo de métodos basados en la revisión
de los reactivos del examen. Son varias las razones para que sea uno de los
métodos más utilizados:
1. Aplicable para distintas clases de reactivos
2. Tareas sencillas para los jueces
3. Establecimiento de puntos de corte de un modo más rápido
4. Fácil preparación
5. Ventajas por su relación con la teoría de respuesta al ítem
1. Aplicable para distintas clases de reactivos
Se puede utilizar tanto para reactivos en que el sustentante debe seleccionar una
opción de respuesta (reactivos de opción múltiple) como para reactivos en que el
sustentante debe construir su respuesta, por ejemplo en la elaboración de ensayos.
2. Tareas sencillas para los jueces
En este método, las decisiones y tareas de los jueces o expertos son relativamen-
te sencillas e incluso pueden resultar familiares para los participantes, en contras-
te con otros métodos más complicados para los expertos.
3. Establecimiento de puntos de corte de un modo más rápido
Sin importar el número de reactivos que conforman el examen, sólo se deberán
incluir marcadores para separar las categorías o niveles de logro, y no será nece-
sario realizar juicios sobre la dificultad o probabilidad de respuesta correcta de
cada uno de los reactivos, como puede ocurrir con otros métodos. Por ejemplo,
si se tienen cuatro niveles de logro en el examen, los expertos sólo deberán emi-
tir tres juicios y colocar tres marcadores a lo largo del cuadernillo de reactivos.
Además, para colocar el segundo marcador no será necesario analizar los reac-
tivos ya revisados, pues al establecer un punto de corte se asume que el siguien-
te deberá estar después del que se colocó en primer lugar.
46 Cuaderno técnico 3
4. Fácil preparación
Para los moderadores de las sesiones de trabajo, el material que se utiliza puede
prepararse de forma anticipada, varios días antes de las sesiones de trabajo; así se
logra un mejor control de la información y por lo tanto se evitan errores en la
conducción de las sesiones, algo positivo si se considera que el método contie-
ne algunos aspectos matemáticos complejos.
5. Ventajas por su relación con la teoría de respuesta al ítem
Desde la perspectiva psicométrica, el método bookmark es el único procedimien-
to que se basa en la teoría de respuesta al ítem para establecer los puntos de
corte. Si se considera que las pruebas de mayor impacto y con una gran cantidad
de aplicaciones utilizan modelos de la teoría de respuesta al ítem para la cons-
trucción, diseño del examen y calibración de reactivos, entonces conviene utili-
zar este método. Debido a esta relación con los modelos de teoría de respuesta
al ítem,
10
el método bookmark se deberá aplicar cuando ya se haya administrado
el examen y se cuente con los datos de la calibración de los reactivos.
Cuadernillo de reactivos
Uno de los elementos más representativos del método bookmark es el conjunto
de reactivos ordenados por dificultad, de los más fáciles a los más difíciles. Se
presentan en un cuadernillo, y sólo un reactivo por hoja. El cuadernillo consti-
tuye la herramienta indispensable para que los expertos tomen sus decisiones.
Es necesario aclarar varios aspectos de la conformación del cuadernillo. En
primer lugar puede contener tanto reactivos de opción múltiple como reactivos
de construcción de respuesta.
11
En segundo, puede contener un número mayor
47 Establecimiento de estándares en un examen criterial
10
Independientemente de que se trate el modelo de Rasch o de dos o tres parámetros.
11
Denominados también multirreactivos: se presenta un reactivo “padre” y se plantean varias pre-
guntas en relación con éste (reactivos “hijo”). Para fines del cuadernillo cada reactivo “hijo” es
independiente y se coloca por su nivel de dificultad al igual que los reactivos de opción múltiple.
de reactivos de los que es dable observar en una versión del examen, ya que en
algunos casos pueden incluirse preguntas que no pertenecen a una versión del
examen, pero sí se encuentran en el banco de reactivos (Mitzel et al., 2001). Lo
anterior puede ocurrir debido a que lo idóneo es que el cuadernillo contenga
reactivos que se extiendan a lo largo del continuo de dificultad, por lo que no es
adecuado que existan zonas amplias de dificultad en las cuales no aparezca nin-
gún reactivo, por ejemplo si se tienen dos reactivos de una versión del examen
con un índice de dificultad de 1.05 y 1.25 lógitos y entre estos niveles de dificul-
tad no existe ningún reactivo en esa versión del examen, se podrían incluir reac-
tivos del banco de reactivos con índices de dificultad entre ese rango, por ejem-
plo de 1.10, 1.15 y 1.20 lógitos; eso con la finalidad de que las zonas de dificultad
queden mejor cubiertas y, por lo tanto, el establecimiento de los puntos de corte
se pueda efectuar de una manera más precisa.
12
El ordenamiento de reactivos siempre se realizará con base en la dificultad de
estos, independientemente de que se haya calculado con el modelo de Rasch o
con el modelo de dos o tres parámetros.
13
La forma habitual en que se presenta cada reactivo del cuadernillo se mues-
tra en la figura 6.
En esta figura se puede observar que cada reactivo se imprime en una hoja.
El número de la esquina superior derecha muestra el consecutivo de los reacti-
vos, el 1 para el más fácil y así subsecuentemente, mientras que el número de la
esquina superior izquierda se refiere al lugar que el reactivo ocupa dentro del
examen. El reactivo aparece tal y como se presentó en el examen junto con sus
opciones de respuesta y mediante un asterisco se muestra cuál es la opción de
respuesta correcta. También se puede indicar el nivel de habilidad requerido
para contestarlo correctamente con una probabilidad de .67 (Mitzel et al., 2001).
48 Cuaderno técnico 3
12
El cálculo final del punto de corte debe hacerse con los reactivos que conforman la versión
del examen.
13
La elección del modelo para la calibración de reactivos dependerá de supuestos y considera-
ciones tales como el número de sustentantes y el diseño de la prueba.
Tarea en el método bookmark
La tarea básica en el método de bookmark es que cada juez revise el cuadernillo de
reactivos y, considerando a un sustentante límite, indique si la probabilidad de que
conteste correctamente cada reactivo es mayor a .67
14
Si para un reactivo conside-
ra que la probabilidad es menor, entonces deberá colocar en ese lugar el marcador.
En algunas ocasiones se les ha pedido a los jueces que en lugar de utilizar .67 con-
sideren 2/3 de que el sustentante pueda responder acertadamente un reactivo. Es
evidente que matemáticamente representan lo mismo, pero la literatura psicológi-
ca ha demostrado que resulta más fácil pensar en términos de frecuencias que en
probabilidades, de ahí que se sugiera utilizar 2/3 (Gigerenzer y Hoffrage, 1995).
Al establecer el marcador, los jueces están señalando que a partir de ese reac-
tivo el sustentante límite tiene una probabilidad menor a 2/3 de contestar correc-
tamente los reactivos, lo cual también implica que los contenidos de los reactivos
previos tienen una probabilidad mayor a .67 de ser respondidos adecuadamente.
49 Establecimiento de estándares en un examen criterial
46 24
Nivel de habilidad requerido para tener una
probabilidad de .67 de responder correctamente: -1.363
¿Quién fue el último emperador inca?
a) Huáscar
b) Cajamarca
c) Atahualpa*
d) Capác
Figura 6. Ejemplo de la presentación de un reactivo dentro del cuadernillo
14
Al valor utilizado de .67 se le denomina probabilidad de respuesta. Huynh (2000) sugiere que
se debe utilizar este valor porque con él se maximiza la función de información de una prue-
ba, cuando se utiliza un modelo de dos parámetros.
La tarea de los jueces se realiza individualmente y una vez que han estableci-
do su marcador pueden discutir qué es lo que hace que un reactivo o un grupo
de ellos sean más difíciles que aquellos que los preceden.
Después de realizar ese juicio para el primer nivel de logro establecido, los
expertos deben continuar analizando los ítems o reactivos ubicados por arriba
del marcador con la finalidad de identificar el punto de corte para los niveles de
logro subsecuentes. No es necesario que vuelvan a revisar los reactivos que
anteceden al reactivo marcador.
Estimación de los puntos de corte
Una vez concluida la tarea de colocar los marcadores en el cuadernillo de reac-
tivos, se deberán obtener los puntos de corte. No es correcto considerar que los
marcadores representan de forma directa los puntos de corte del examen. Por
ejemplo: si los jueces colocaron un marcador en el reactivo 39 de 50 reactivos
que conforman el cuadernillo, el reactivo de 39 no es el punto de corte. Lo ante-
rior ocurre debido a que el establecimiento de puntos de corte en el método
bookmark se encuentra estrechamente relacionado con los modelos de IRT.
15
Estos modelos asumen que cada sustentante tiene un nivel de habilidad y que,
dado ese nivel, existe una probabilidad asociada para responder correctamente
cada reactivo. En algunos casos la probabilidad es grande (para reactivos fáciles)
y en otros la probabilidad es pequeña (para reactivos difíciles). De modo que al
establecer un punto de corte es necesario estimar o calcular la habilidad necesa-
ria para poder responder correctamente el reactivo marcador con una probabili-
dad de .67 y posteriormente, con la habilidad obtenida, calcular las probabilida-
des asociadas para cada reactivo del cuadernillo. Finalmente, se deben sumar
estas probabilidades y obtener un estimado del puntaje crudo (raw score). Sirva a
50 Cuaderno técnico 3
15
Para una explicación más detallada de los modelos de IRT, véase el cuadernillo técnico de Pro-
cedimiento básico para el análisis de reactivos.
51 Establecimiento de estándares en un examen criterial
El número
de reactivo
según aparece
en el examen
Tabla 7. Estimación de puntos de corte
ITEM 9
ITEM 2
ITEM 1
ITEM 4
ITEM 7
ITEM 6
ITEM 5
ITEM 3
ITEM 8
ITEM 10
ITEM 11
ITEM 12
ITEM 14
ITEM 13
ITEM 19
ITEM 17
ITEM 16
ITEM 15
ITEM 18
ITEM 20
El consecutivo
de reactivos ordenados
por dificultad,
tal y como se presentan
en el cuadernillo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Nivel
de
dificultad
-1.481
-1.455
-1.254
-0.864
-0.853
-0.641
-0.583
-0.271
-0.015
-0.006
0.085
0.094
0.259
0.511
0.578
0.785
0.795
0.972
1.288
2.055
Nivel
de habilidad
o theta
-0.788
-0.762
-0.561
-0.171
-0.16
0.052
0.11
0.422
0.678
0.687
0.778
0.787
0.952
1.204
1.271
1.478
1.488
1.665
1.981
2.748
Probabilidad estimada
para cada reactivo
de acuerdo con el nivel
de habilidad asociado
al punto de corte
0.87023069
0.86726616
0.842374138
0.783469378
0.781597464
0.743263432
0.732040502
0.666633959
0.607543959
0.605395986
0.583461604
0.581272667
0.540660015
0.477764675
0.4610789
0.410233545
0.407816315
0.365864409
0.2960873
0.163419806
16
Se debe recordar que es recomendable que la cantidad de reactivos sea mayor; aquí se presen-
ta este número únicamente con fines didácticos.
continuación un ejemplo hipotético para ilustrar los cálculos correspondientes,
suponiendo un área o prueba conformada por 20 reactivos.
16
En la primera columna de la tabla se señala el número que hace referencia al
orden en que apareció cada reactivo en el examen. En la segunda se presenta un
consecutivo que indica el orden en que se presentaron los reactivos en el cuader-
nillo. En la tercera se presenta el nivel de dificultad, obtenido con el modelo de
Rasch. En la cuarta se presenta el nivel de habilidad requerido para contestar
correctamente (con un nivel de probabilidad de .67) cada reactivo.
17
A continua-
ción se explica la forma de obtener el nivel de habilidad; en el ejemplo se asume
que la mediana de las habilidades de los reactivos marcadores corresponde a
0.42, después de lo cual se deberá calcular el nivel de habilidad correspondiente
para cada reactivo.
Este nivel de habilidad se obtiene de la siguiente fórmula:
i
=
j
+ .708 (1)
donde: = Habilidad
= Dificultad del reactivo
Si los reactivos estuvieran clasificados por su dificultad pero con un modelo
de dos parámetros, debería utilizarse la siguiente fórmula:
P
j
( ) = 1/{1 + exp[–a
j
( –b
j
)]} (2)
donde: P
j
( ) = Probabilidad de que un examinado con habilidad
responda correctamente el reactivo i
a
j
= Discriminación del reactivo j
b
j
= Dificultad del reactivo j
Una vez obtenido el nivel de habilidad, deberá estimarse la probabilidad de
que conteste correctamente cada uno de los 20 reactivos. Para ello deberá reali-
zarse una estimación del puntaje crudo (raw score).
52 Cuaderno técnico 3
17
Al ordenar los reactivos con base en el nivel de habilidad requerido para contestarlos correc-
tamente, se encuentra que tienen el mismo ordenamiento de los reactivos, cuando estos se
ordenan por dificultad. Lo anterior ocurre únicamente con el modelo de Rasch, pero no en
el modelo de dos parámetros, ya que dados dos reactivos con una dificultad similar, el reacti-
vo con índice de discriminación más baja requerirá de un nivel de habilidad mayor para ser
contestado correctamente. En estas circunstancias, un reactivo de mayor dificultad podría
preceder a un reactivo de menor dificultad en la columna de habilidad.
1
P
i
( ) = ––––––––––– i = 1, 2, ..., n (3)
1 + e
–( –bi)
donde: P
i
( ) = Probabilidad de que un examinado con habilidad
responda correctamente el reactivo i
b
i
= Dificultad del reactivo i
n = Número de reactivos en la prueba
e = Número Neperiano cuyo valor es 2.718
En esta fórmula para el ejemplo presentado, el valor de habilidad correspon-
de a .422.
18
Una vez obtenidas las probabilidades con la fórmula 3, éstas deberán
sumarse y dar un total de 11.78. El anterior es el punto de corte contra el cual
deberán compararse las puntuaciones de los sustentantes (Cizek, 2007).
En muchas ocasiones la suma de las probabilidades no produce un valor
exacto sino que contiene varios decimales, por lo que el número exacto de reac-
tivos que determinan el punto de corte deberá ajustarse hacia el valor superior o
inferior inmediato. Usualmente esto puede provocar un impacto en la cantidad
de sustentantes que queden ubicados en un nivel de logro. Por lo cual es reco-
mendable que de antemano se fije el criterio establecido para estimar el total de
reactivos necesarios para quedar ubicado en una categoría.
Implementación del método bookmark
El entrenamiento o capacitación que reciben los jueces conlleva primeramente una
familiarización con el examen y sus contenidos, así como con los niveles de logro
y sus descripciones. Posteriormente deberá capacitárseles explícitamente en el mé-
53 Establecimiento de estándares en un examen criterial
18
Se calcula la mediana de las habilidades del reactivo anterior al marcador (Cizek 2007). Para lo
cual la instrucción a los jueces debe ser “Coloque el marcador en el primer reactivo que el sus-
tentante de esta categoría o nivel de logro no podría responder adecuadamente”.
todo bookmark. Típicamente un programa para establecer los puntos de corte con
este método puede llevarse tres sesiones de trabajo:
19
durante la primera sesión los
jueces reciben información sobre el objetivo de las tareas que van a realizar, además
de recibir información sobre los contenidos del examen, también se puede incluir la
realización de las descripciones de los niveles de logro, a partir de las descripciones
guía.
20
Si ya se dispone de las descripciones de los niveles de logro, los jueces debe-
rán efectuar una revisión de las mismas. También en esta sesión los jueces comien-
zan a trabajar con el concepto de sustentantes límite, concepto de suma importan-
cia en las sesiones posteriores enfocadas al establecimiento de puntos de corte.
En la segunda sesión los expertos tienen una capacitación sobre el método
bookmark, en la que se efectúa una ronda de práctica que comienza con la tarea
de colocar el marcador en el cuadernillo de reactivos. Una vez que concluye el
entrenamiento en el método, los jueces tienen la oportunidad de discutir sobre
las tareas realizadas y aclarar sus dudas tanto con sus compañeros como con el
moderador de la sesión. Se sugiere que en este punto de las sesiones se les entre-
gue a los jueces un formato de evaluación con la finalidad de verificar que el
método haya quedado lo suficientemente claro, para comenzar sin dudas las
sesiones de establecimiento de los puntos de corte.
Primera ronda de trabajo
Después de una introducción sobre las tareas que se deben realizar, cada juez
recibe un cuadernillo de reactivos y un formato en el que incluirá sus marcadores.
En las rondas 1 y 2, los expertos escriben el número correspondiente a cada
marcador. Durante la primera ronda de trabajo los jueces trabajan usualmente
en grupos pequeños de 3 o 5 personas. Al mismo tiempo que intercambian pun-
tos de vista sobre los reactivos presentados, incluyen los marcadores en el cua-
dernillo y en el formato que se les proporciona.
54 Cuaderno técnico 3
19
Aunque el número de sesiones puede ajustarse por cuestiones económicas y logísticas.
20
Lo recomendable es que los niveles de logro ya hayan sido elaborados, incluso antes de la ela-
boración de reactivos.
55 Establecimiento de estándares en un examen criterial
Formato de evaluación
Experto Núm.
––––––––
Marque una opción de respuesta para cada pregunta:
Sesión de práctica:
Concluí la sesión de práctica y comprendí Ias tareas que se realizarán.
Sí No
Comprendí cómo se deben realizar los juicios
Sí No
Comprendí el impacto social que tiene el establecimiento de puntos de corte
Sí No
Figura 7. Ejemplo de preguntas para evaluar la sesión de práctica
Examen o área:
Nombre del participante:
Establecimiento de puntos de corte (bookmark)
Escriba el número de reactivo seleccionado
como marcador en cada una de las tres rondas de trabajo
Ronda Elemental Satisfactorio
1
2
3
Figura 8. Formato individual para establecer marcadores
Obtención de los puntos de corte preliminares
Al finalizar la ronda 1, el moderador del grupo recoge las formas en donde los
expertos escribieron sus marcadores y se captura la información correspondiente.
Después de que el coordinador verifica la precisión de los resultados, se les
regresan sus formatos a los jueces junto con los resultados del grupo. En la si-
guiente tabla se resume la información presentada a los jueces, la cual les permi-
te observar sus marcadores en relación con los marcadores de los otros jueces.
Esta actividad les permite ver qué tan exigentes o flexibles son con el desempe-
ño de los sustentantes. A continuación se presenta un ejemplo hipotético.
56 Cuaderno técnico 3
Media 22.04 28.73 39.87
Mediana 22.31 28.44 40.32
Mínimo 18.00 25.00 30.00
Máximo 27.00 36.00 42.00
Media menos 1 desviación estándar 19.46 26.51 37.34
Media más 1 desviación estándar 24.83 30.99 42.00
Tabla 8. Estadísticos descriptivos de los marcadores del grupo de jueces
La tabla 8 muestra la media y la mediana asociadas a los puntos de corte, las
desviaciones estándar respectivas, así como también el punto de corte mínimo y
el máximo recomendados para cada uno de los niveles de logro.
A los jueces se les muestra también una gráfica que exponga el número de la
página en que se incluyeron los marcadores de todos los participantes. Esta grá-
fica tiene la misma función que la tabla descriptiva: muestra a cada juez qué tan
estricto está siendo el grupo al determinar los puntos de corte que separan los
niveles de desempeño. Contar con una gráfica es una excelente opción para
orientar las discusiones sobre los marcadores en las rondas posteriores. Sirva
como ejemplo una gráfica con los juicios emitidos durante las primeras dos ron-
das del establecimiento de los puntos de corte.
Una de las características del método bookmark es proporcionarle a los jueces
la mayor cantidad de información posible para fundamentar sus decisiones.
También se les muestra el impacto que tendrían sus puntos de corte en la califi-
cación de los sustentantes. Este tipo de información se muestra a los jueces para
explicar cuál sería el número de sustentantes que quedarían clasificados en cada
una de las categorías si se implementaran los puntos de corte establecidos pro-
visionalmente. Se les puede decir, por ejemplo, que si establecen un punto de
corte en el reactivo 25, entonces aprobaría el 62% de los sustentantes.
Segunda ronda de trabajo
Esta sesión de trabajo comienza con la entrega del cuadernillo de reactivos y el
formato para establecer los puntos de corte, las gráficas y tablas en donde se
resume la información de la primera ronda. La diferencia principal entre la
ronda 1 y 2 es la cantidad de información a la que tienen acceso cada uno de los
57 Establecimiento de estándares en un examen criterial
Figura 9. Gráfica que ilustra las puntuaciones seleccionadas
por los jueces como puntos de corte en las primeras dos rondas de trabajo
expertos. La primera actividad es la discusión (con un solo grupo de trabajo)
propiciada por los facilitadores, que se debe centrar en los resultados obtenidos
en la ronda 1, sobre todo para aquellos juicios que son muy distintos o en reac-
tivos particulares de los que no están seguros que un sustentante límite pueda
contestar correctamente. Aquí es recomendable que los jueces expongan sus
argumentos acerca de la dificultad de los reactivos o del ordenamiento de algún
reactivo en particular dentro del cuadernillo.
Una vez discutidos los resultados de la ronda 1, los expertos vuelven a tra-
bajar en grupos pequeños de 3 o 5 personas para comenzar el trabajo de la
ronda 2. En este punto se pueden crear grupos distintos a los que se formaron
en la ronda previa, o bien mantener el mismo grupo.
El resto de las tareas en la ronda 2 son prácticamente las mismas que en la
ronda 1. Consisten en la reconsideración del lugar donde se incluyeron los mar-
cadores y del contenido de los reactivos que quedaron agrupados en un solo
nivel de logro; y nuevamente una discusión con el equipo de trabajo sobre las
decisiones que se han tomado. Finalmente, ya colocados los marcadores, se hace
el cálculo de los puntos de corte y se prepara la tabla y la gráfica correspondien-
tes para comenzar con la ronda 3. En algunas ocasiones puede arribarse a un
consenso sobre cuáles deben ser los puntos de corte, en cuyo caso será innece-
saria una tercera ronda de trabajo.
Tercera ronda de trabajo
Para comenzar la tercera ronda de trabajo los jueces necesitan nuevamente el
cuadernillo de reactivos y el cálculo de los resultados de la segunda ronda. En
esta ronda es recomendable una tabla con los valores de los puntos de corte
anteriores.
La sesión comienza cuando el moderador abre la discusión sobre el impacto
social que tendría la clasificación de los sustentantes a partir de los valores obte-
nidos en la segunda ronda de trabajo. Al terminar la discusión se pide a los jue-
ces que evalúen sus anteriores puntos de corte, además de la información pro-
porcionada con la finalidad de que la consideren para esta ronda y así evalúen,
58 Cuaderno técnico 3
de forma general, las puntuaciones obtenidas y el impacto que tendrá en la
población, para que el resultado sea lo más preciso posible. La tarea final de la
tercera ronda se hará cuando los jueces completen los formatos y los facilitado-
res revisen las puntuaciones y calculen la media para obtener los puntos de corte
para cada nivel de logro. Por último, se les entregará un formato para evaluar las
sesiones de trabajo.
59 Establecimiento de estándares en un examen criterial
Formato de evaluación
Experto Núm.
––––––––
Ronda 1: Se discutieron los resultados obtenidos por todos los jueces en la ronda 1.
Sí No
Se dio información sobre las tareas que se realizarán en la ronda 2.
Sí No
Ronda 2: Se discutieron los resultados obtenidos por todos los jueces en la ronda 2.
Sí No
Se dio información sobre las tareas que se realizarán en la ronda 3.
Sí No
Ronda 3: Se establecieron los puntos de corte y estos representan el desempeño de los susten-
tantes límite, pertenecientes a los distintos niveles de logro
Sí No
El proceso para el establecimiento de puntos de corte fue justo y careció de sesgos
Sí No
Figura 10. Formato para evaluar las sesiones del método bookmark
Consideraciones finales
Una de las limitaciones del método bookmark es que el punto de corte está rela-
cionado principalmente con la dificultad del examen. Si el examen es sencillo
–en relación con la población de sustentantes–, será imposible establecer un
punto de corte que sea válido por debajo de cierto punto, por ejemplo si los jue-
ces argumentan que aun el último reactivo del cuadernillo no es lo suficiente-
mente difícil para distinguir la última categoría de los niveles de logro.
Obviamente un examen muy fácil o muy difícil no es un problema que se
pueda atribuir al método bookmark, pero la dificultad del examen debe ser con-
siderada desde la construcción de la prueba y el diseño de los reactivos. Ningún
método para establecer puntos de corte puede compensar la falta de contenido
o la debilidad en la construcción de un examen.
Otra de las desventajas a las que se enfrenta el método bookmark son los dis-
tintos niveles de dificultad entre reactivos. Cuando el cuadernillo de reactivos
comprende un número importante de preguntas que forman parte de un banco
de reactivos, esta dificultad se puede evitar. Sin embargo, cuando el ordenamien-
to de los reactivos se realiza a partir de la versión del examen, la dispersión de las
dificultades de los reactivos será desigual, y este problema puede causar dificul-
tades cuando los jueces deben colocar un marcador, sobre todo si lo tienen que
colocar entre dos reactivos con una diferencia muy amplia en cuanto a su difi-
cultad. Por ejemplo, suponiendo que los jueces revisan una serie de reactivos y
deciden que el reactivo 23 es el adecuado para colocar el marcador para el nivel
Satisfactorio, se encuentran sin embargo con el problema de que la dificultad del
reactivo 24 está muy lejos de la habilidad del sustentante límite del nivel Satisfac-
torio. Si los jueces deciden poner el punto de corte en el reactivo 23, estarán
colocándolo por debajo de la dificultad esperada, mientras que si lo colocan en
el reactivo 24 estarían siendo demasiado estrictos con la población evaluada.
60 Cuaderno técnico 3
Por consiguiente, es menester poner especial cuidado en el ordenamiento de
los reactivos –si estos se derivan del examen y no del banco de reactivos– y
tomar en cuenta estas observaciones durante la elaboración de reactivos y el
desarrollo de exámenes.
Al tener el cuadernillo de reactivos ordenados por dificultad a partir de un
examen e identificar entre dos o más reactivos una disparidad en los valores de
dificultad, se recomienda incluir una muestra pequeña de reactivos del banco de
reactivos para aminorar las diferencias en la dificultad de los reactivos que con-
forman el examen.
61 Establecimiento de estándares en un examen criterial

E
l establecimiento de puntos de corte es un tema en revisión constante, dadas
las consecuencias asociadas a la clasificación de los sustentantes de un exa-
men. De ahí que cualquier método seleccionado para implementar puntos de
corte debe tener criterios explícitos, transparentes y fundamentados (Mehrens y
Cizek, 2001). La preocupación por establecer puntos de corte adecuados se ve
en parte reflejada en los estándares que maneja la Asociación Americana de
Investigación Educativa (AERA, por sus siglas en inglés), la Asociación America-
na de Psicología (APA, por sus siglas en inglés) y el Consejo Nacional de Medi-
ción en Educación (NCME, por sus siglas en inglés). En el anexo 2 se enlistan los
estándares relacionados con el establecimiento de puntos de corte.
En este documento se han revisado los procedimientos utilizados para esta-
blecer un sistema de estándares en un examen basado en criterios. Es un tema
fundamental, sobre todo si se considera la cantidad de exámenes que se aplican
nacional e internacionalmente. Es de vital importancia el establecimiento de
niveles de logro, ya que comunican a la sociedad los estándares asociados a un
desempeño en el examen.
El tema del establecimiento de puntos de corte se encuentra en ampliación
constante. Dos de los problemas más recientes son el establecimiento vertical de
puntos de corte –que se refiere a la determinación de niveles de logro y puntos
de corte a los diferentes niveles escolares de un sistema educativo– y la elabora-
ción de métodos para establecer puntos de corte con instrumentos de medición
diferentes a un examen.
Establecimiento de estándares en un examen criterial
Conclusión
63
American Educational Research Association, American Psychological Associat-
tion, National Council on Measurement in Education (1999). Standards for
educational and psychological testing, Washington, DC: American Psychological
Association.
Brown, W.J. (2001). Social, educational, and political complexities of standards
setting. En G.J. Cizek (ed.). Standard setting performance standards: Concept, met-
hods and perspectives (373-386), Mahwah, N.J: Erlbaum.
Cizek, G.J. (1993). Reconsidering standards and criteria, Journal of Educational
Measurement, 30(2), 93-106.
Cizek, G.J. (1996a). Setting pasing scores, Educational Measurement: Issues and
Practice, 15(2), 20-31.
Cizek, G.J. (1996b). Standard-setting guidelines, Educational Measurement: Issues
and Practice, 15(1), 12-21.
Cizek, G.J. (2006). Standard setting. En S.M. Doning y T.M. Haladyna (eds.).
Handbook of Test Development (225-258), New Jersey: Lawrence Erlbaum Asso-
ciates, Inc.
Cizek, G.J. (2007). Setting performance standards: Concepts, methods and perspectives.
New Jersey: Lawrence Erlbaum Associates, Inc.
Cizek, G.J., Bunch, M.B. y Koons, H. (2004). Setting performance standards: contem-
porary methods, Educational Measurement: Issues and Practice, 23 (4), 31-50.
Cizek, G.J. y Bunch, M.B. (2007). Standard Setting, California: Sage Publications.
Gigerenzer, G. y Hoffrage, U. (1995). How to improve Bayesian reasoning wit-
hout instruction: Frequency formats. Psychological Review, 102, 684-704. Reim-
preso en M. Wagman (ed.). (2003). Reasoning processes in humans and
computers: Theory and research in psychology and artificial intelligence.
Westport, CT: Praeger Publishers.
Haladyna, T. y Hess, R. (1999). An evaluation of conjunctive and compensa-
tory standard setting strategies for test decisions, Educational Assessment, 6(2),
129-153.
Establecimiento de estándares en un examen criterial
Bibliografía
65
Hambleton, R.K. (1995, agosto). Setting standards on performance assessment: Promi-
sing new methods and technical issues. Paper presented at the meeting of the Ame-
rican Psychological Association, New York.
Hambleton, R.K. (1998). “Setting performance standards on educational assess-
ments and criteria for evaluating the process”. En G.J. Cizek (ed.), Standard
setting performance standards: Concept, methods and perspectives (89-116), Mahwah,
N.J: Erlbaum.
Hambleton, R.K. y Pitoniak, M.J. (2007). Setting performance standards. En
R.L. Brennan (Ed.), Educational measurement (433-470), Westport, CT: Ameri-
can Council on Education/Praeger.
Hambleton, R.K. y Plake, B.S. (1995). Using an extended Angoff procedure to
set standards on complex performance assessments, Applied Measurement in
Education, 8 (1), 41-55.
Hambleton, R.K. y Slater, S.C. (1997). Reliability of credentialing examinations
and the impact of scoring models and standard-setting policies, Applied Mea-
surement in Education, 10 (1), 19-38.
Huynh, (2000, Abril). On item mappings and statistical rules for selecting binary items for
criterion referenced interpretation and bookmark standards settings, Paper presented at
the annual meeting for the National Council for Measurement in Education,
New Orleans.
Impara, J.C. y Plake, B.S. (1997). “Standard setting: An alternative approach”.
En Journal of Educational Measurement, 34, 353-366.
Jaeger, R.M., y Mills, C.N. (2001). An integrated judgment procedure for setting
standards on complex, large-scale assessments. En G.J. Cizek (ed.), Standard
setting performance standards: Concept, methods and perspectives (313-338), Mahwah,
N.J: Erlbaum.
Jornet, J.M. y Backhoff, E. (2008). Modelos para la determinación de niveles de logro y
puntos de corte de los exámenes de la calidad y el logro educativos (Excale), México: Ins-
tituto Nacional para la Evaluación de la Educación.
66 Cuaderno técnico 3
Linn, R.L. (1994). The likely impact of performance standards as a function of uses: From
rhetoric to sanctions. Paper presented at the National Center for Education Sta-
tistics and National Assessment Governing Board Joint conference on Stan-
dard Setting for Large Scale Assessments, Washington, DC.
Mehrens, W.A. y Cizek, G.J. (2001). Standard setting and the public good: bene-
fits accrued and anticipated. En G.J. Cizek (ed.), Standard setting performance
standards: Concept, methods and perspectives (477-486). Mahwah, N.J: Erlbaum.
Mehrens, W.A. y Phillips, S.E. (1989). Using college GPA and test scores in tea-
cher licensure decisions: Conjunctive versus compensatory models. Applied
Measurement in Education, 2, 277-288.
Milman, J. (1989). If at first you don’t succeed: Setting passing scores when
more than one attempt is permitted. Educational Researcher, 18 (6), 5-19.
Mitzel, H.C., Lewis, D.M., Patz, R.J. y Greesn, D.R. (2001). The bookmark
procedure: Psychological perspectives. En G.J. Cizek (ed.), Standard setting
performance standards: Concept, methods and perspectives (249-281). Mahwah, N.J:
Erlbaum.
Morgan, D.L. y Michaelides, M. P. (2005). Setting cut scores for college placement. New
York: College Board Research Report.
NCLB, (2001). No Child Left Behind: Innovations in Education. Washington, Estados
Unidos.
Perie, M. (2008). A guide to understanding and developing performance-level
descriptors. Educational Measurement: Issues and Practice. 27 (4), 15-29.
Plake, B.S. (2008). Standards Setters: Stand up and take a stand. Educational Mea-
surement Issues and Practice 27 (7), 3-9.
Plake, B.S. y Hambleton, R.K. (2001). The analytic judgment method for setting
standards on complex performance assessments. En G.J. Cizek (Ed.), Stan-
dard setting performance standards: Concept, methods and perspectives (283-312). Mah-
wah, N.J: Erlbaum.
Wheeler, P.H. (1993). Decision making models for using multiple assessment
results. ERAPA Publication series, 93 (8), 3-7.
67 Establecimiento de estándares en un examen criterial

E
l término estándar ha sido utilizado en innumerables contextos relacionados
con la evaluación educativa. Por ejemplo, en los programas de certificación
u obtención de grado frecuentemente se habla de estándares de elección que inclu-
yen características, requerimientos educativos y otros criterios asociados al
desempeño que se espera tenga un sustentante para aprobar un examen.
Al aplicar una prueba en formato electrónico o impreso también se cuenta
con estándares de aplicación relacionados con las condiciones en que se aplican los
exámenes, los procedimientos de seguridad y las especificaciones técnicas para
los equipos de cómputo.
En algunas ocasiones, en la literatura relacionada con las pruebas criteriales
y el establecimiento de los puntos de corte se encuentra el término de estándar,
refiriéndose en forma abreviada al libro de Standards for Educational and Psycholo-
gical Testing, (AERA, APA, NCME, 1999). En este libro se reúnen todas las reglas y
procedimientos necesarios para desarrollar adecuadamente un examen de acuer-
do con estándares de calidad.
Otro tipo de estándares dentro de la educación son conocidos como estánda-
res de contenido y se refieren a los objetivos curriculares, resultados y metas edu-
cativas que pueden ser evaluados con distintos instrumentos de medición.
Finalmente, el concepto de estándares de desempeño en muchas ocasiones se uti-
liza como sinónimo del concepto de puntos de corte o puntuaciones para apro-
bar. También se puede utilizar para referirse a todo el proceso de establecimien-
to de niveles de logro y puntos de corte. Estos son los estándares a que hace
referencia este documento, y se definen genéricamente como establecimiento de
estándares.
Establecimiento de estándares en un examen criterial
Anexo 1. Clases de estándares
69
U
no de los elementos fundamentales para el establecimiento de los puntos de
corte son los estándares, es decir aquellas especificaciones que sirven como guía
en el área de evaluación. Pueden consultarse las reglas y procedimientos contenidos
en el libro Standards for Educational and Psychological Testing, (AERA, APA, NCME, 1999).
En este anexo se presentan los estándares que están relacionados con el esta-
blecimiento de niveles de logro y puntos de corte:
1.7 Cuando una validación se basa en las opiniones o las decisiones de jueces,
expertos, observadores o evaluadores, los procedimientos para seleccio-
nar a tales expertos y realizar juicios o clasificaciones deben ser comple-
tamente descritos. Se deben presentar los grados, títulos y experiencia de
los jueces. La descripción de los procedimientos debe incluir la capacita-
ción que se dará, así como las instrucciones. Deberá demostrarse si los
participantes llegaron a sus decisiones de forma independiente y debe
informarse el grado de acuerdo sobre esa decisión. Si los participantes
interactuaran o compartieran la información, se debe especificar la forma
en que podría haber influido este intercambio de información.
2.14 Debe indicarse cómo interviene el error estándar en la asignación de las
puntuaciones de los sustentantes en relación con los puntos de corte. La
asignación de un punto de corte se ve afectada por la presencia del error
estándar de medida; en estos casos se debe indicar la forma en que se
asume este error y su impacto sobre las calificaciones.
2.15 Cuando un examen o la combinación de sus puntuaciones se utiliza para
tomar decisiones concernientes a categorizar a los sustentantes, se debe
proporcionar un estimado del porcentaje de sustentantes que pueden ser
clasificados de la misma manera en dos aplicaciones, utilizando la misma
prueba o versiones distintas.
4.19 Cuando las interpretaciones propuestas implican uno o varios puntos de
corte, se debe documentar lo más claramente posible el procedimiento
que se utilizó para establecer los puntos de corte.
Establecimiento de estándares en un examen criterial
Anexo 2. Estándares en el establecimiento de puntos de corte
71
En ocasiones los puntos de corte se establecen para seleccionar un núme-
ro específico de sustentantes, por ejemplo cuando una institución tiene un
número limitado de lugares disponibles; en este tipo de casos, contar con
documentación detallada de cómo se establecieron las puntuaciones y qué
procedimiento se llevó a cabo, puede ayudar a solucionar algunos proble-
mas. Por ello es recomendable describir la metodología utilizada en el
proceso para asignar la calificación de los sustentantes.
4.20 Cuando sea posible, tanto los puntos de corte como los niveles de logro
deben establecerse con base en los datos empíricos obtenidos en los exáme-
nes de rendimiento y se deben de tomar en cuenta los criterios pertinentes.
Se debe establecer una relación precisa entre los criterios del examen y sus
objetivos, para establecer de la mejor forma posible el punto de corte
correspondiente.
4.21 Cuando los puntos de corte que definen los grupos de sustentantes que
aprobarán o no aprobarán un examen están basados en los juicios que se
hacen sobre la pertinencia de los reactivos, del desempeño del examen o
los niveles de logro, las sesiones de trabajo en que se establecen los crite-
rios deberán estar diseñadas de tal forma que los jueces o expertos aporten
todos sus conocimientos y experiencia para establecer los puntos de corte.
Cuando se califique la prueba con jueces o expertos, debe proporcionarse
evidencia de la concordancia y estabilidad en las decisiones de aquéllos.
6.5 Deben describirse todos los procesos estadísticos involucrados en la cali-
ficación, especialmente para definir si los resultados requerirán de alguna
transformación o normalización. Se debe incluir toda la información rela-
cionada con la validez y fiabilidad de los niveles de logro y puntos de corte
derivados de las sesiones de trabajo.
14.17 El nivel de logro requerido para aprobar un examen debe depender del
conocimiento y las habilidades necesarios para tener un desempeño acep-
table en el área o profesión que se está evaluando, y no sólo ajustar el
número o proporción de los sustentantes aprobados o seleccionados.
72 Cuaderno técnico 3
L
a principal clasificación de los métodos para establecer puntos de corte se ba-
sa en el tipo de tarea que asumen los jueces; por ejemplo: en algunos métodos
los expertos analizan los reactivos que conforman el examen, mientras que en
otros, se analizan otros elementos asociados al desempeño de los sustentantes.
A continuación se describen algunos de los métodos pertenecientes a estas
dos categorías:
Métodos basados en los sustentantes
Los métodos pertenecientes a esta categoría requieren de clasificar una muestra
de sustentantes antes de la aplicación del examen; por ejemplo, para exámenes
de certificación un grupo de jueces podría clasificar a los sustentantes mediante
un criterio externo, que podría ser con base en su experiencia laboral en dos
categorías: competentes y no competentes.
Una vez que el grupo de expertos ha clasificado a los sustentantes, estos
métodos tratan de relacionar estas evaluaciones con los resultados del examen
para poder establecer los puntos de corte.
Los jueces deben conocer el contenido del examen para poder relacionarlo
con el desempeño laboral o profesional de los sustentantes.
En esta categoría encontramos métodos como:
Método de grupos límite
En este método se considera que el punto de corte debe ser la puntuación que
se pronostica de un grupo de sustentantes con un desempeño límite.
La tarea principal de los jueces es identificar a los sustentantes que pertene-
cen al grupo límite, es decir, aquellos sustentantes cuyos conocimientos y habi-
lidades se encuentren entre las categorías de competentes y no competentes.
Establecimiento de estándares en un examen criterial
Anexo 3. Métodos para el establecimiento de puntos de corte
73
Entonces se obtienen las puntuaciones de este grupo en el examen. Una vez
desarrollada esta tarea se debe establecer el punto de corte, que en este método
corresponde a la mediana de las puntuaciones obtenidas.
El método del grupo límite puede aplicarse mediante la siguiente secuencia:
1. Clasificar los conocimientos y habilidades como adecuados e inadecuados, y
establecer cuál será el desempeño límite.
2. Identificar al grupo de sustentantes límite.
3. Establecer los puntos de corte en la mediana del grupo límite.
Una de las características más importantes de este método es la utilización de
la mediana para establecer los puntos de corte. La razón por la cual se utiliza la
mediana es porque se ve menos afectada por una posible disparidad en las pun-
tuaciones y así permite una mejor clasificación de los sustentantes.
En este método se prevé que la mayoría de los juicios se agrupen en torno a
una puntuación; sin embargo, en algunas ocasiones no ocurre así, lo que puede
significar que el grupo considerado como límite está incluyendo a sustentantes
que realmente no pertenecen a esa categoría; eso refleja un problema de clasifi-
cación de los conocimientos y habilidades.
Este problema de clasificación se puede minimizar a través de una capacita-
ción adecuada a los jueces y estableciendo una definición de conocimientos y
habilidades previa al inicio de las sesiones de trabajo.
Las principales ventajas del método de grupos límite incluyen la simplicidad
de las tareas que se deben asumir, la explicación sencilla que se les debe dar a los
jueces y que los juicios emitidos se basen tanto en las puntuaciones del examen
como en el desempeño real de los sustentantes.
Las principales desventajas del método incluyen que el grupo límite forma
parte de un porcentaje pequeño de la población total a la que se aplica un exa-
men; que sólo se puede obtener un punto de corte (aquel que divide las catego-
rías de competente y no competente) y, finalmente, que los jueces pueden tener
problemas para identificar a los sustentantes pertenecientes a ese grupo.
74 Cuaderno técnico 3
Método de grupos contrastantes
Este método comienza con la clasificación de los sustentantes en dos grupos
contrastantes a partir de la evaluación de sus conocimientos y habilidades: cali-
ficados y no calificados. En este método se espera que la mayoría de los susten-
tantes calificados obtengan calificaciones altas, mientras que se esperaría que el
grupo no calificado obtuviera calificaciones bajas, y en el punto medio de la
escala se esperaría encontrar igual número de sustentantes calificados y no cali-
ficados. Este es el punto que se elige para establecer el punto de corte.
No es necesario que participen todos los sustentantes calificados y no califi-
cados, basta con que se pueda elegir una muestra para cada grupo.
Este método puede aplicarse mediante la siguiente secuencia:
1. Clasificar a los sustentantes en dos categorías: calificados y no calificados.
2. En caso de que no se puedan obtener juicios de todos los sustentantes, se
debe seleccionar una muestra representativa de la población.
3. Obtener las calificaciones de los sustentantes que han sido seleccionados.
4. Sacar el promedio de calificaciones obtenidas para cada categoría.
5. Utilizar los porcentajes suavizados para ajustar las puntuaciones obtenidas.
6. Elegir el punto de corte basándose en el porcentaje suavizado.
Una de las características de este método es la aplicación de porcentajes sua-
vizados. Estos porcentajes se utilizan cuando al calcular los porcentajes de los
sustentantes clasificados en las distintas categorías se encuentra que sus valores
no aumentan uniformemente.
Este tipo de resultado es especialmente probable si no se cuenta con los jui-
cios de todos los sustentantes, o bien, el número de sustentantes es pequeño en
una de las categorías.
Por ello se recurre a una forma de ajustar los porcentajes y acercarlos a lo que
se esperaría encontrar si se hubiera considerado a toda la población para obte-
ner las puntuaciones.
Al procedimiento para hacer ajustes a los porcentajes se le llama suavizado.
Existen varias formas para suavizar los porcentajes observados; por ejemplo,
75 Establecimiento de estándares en un examen criterial

graficar los porcentajes observados y posteriormente dibujar una curva que se
acerque lo más posible a los puntos. Esta técnica se llama “suavizado gráfico” y
en la figura 1 se puede observar cómo se grafica la curva.
76 Cuaderno técnico 3
Figura 1. Suavizado gráfico de datos que permite tener una percepción
global del patrón de movimiento de las puntuaciones obtenidas en el examen
Otra técnica utilizada para suavizar los porcentajes es ponderarlos por el
número de sustentantes ubicados en cada categoría.
Si se aplican distintos métodos para suavizar los datos se pueden obtener
también distintos puntos de corte; sin embargo, se ha visto que las diferencias
tienden a ser pequeñas; en cualquier caso, lo recomendable es determinar antes
de las sesiones de trabajo qué método se aplicará para analizar los datos.
El método de grupos contrastantes tiene una ventaja principal: basar sus
puntos de corte tanto en las calificaciones del examen como en el desempeño
real de los sustentantes. Además, los jueces están familiarizados con las tareas en
las sesiones de trabajo y con las decisiones que se toman. El método es sencillo
de explicar y permite evaluar los efectos que tendría una clasificación errónea de
los sustentantes.
Una de las desventajas principales del método es que sólo se establece un
punto de corte: aquel que separa las categorías de calificado de no calificado;
además de la dificultad para contar con una muestra representativa de sustentan-
tes de acuerdo con el objetivo del examen.
Métodos basados en reactivos
Los métodos que se describen a continuación se basan en los juicios de los
expertos sobre los reactivos que conforman un examen.
En estos métodos se evalúa la pertinencia de los reactivos para determinar
una serie de conocimientos y habilidades asociados a una categoría o nivel de
logro, enfocando la atención de los jueces o expertos en el contenido del exa-
men. Estos métodos son más recomendables cuando se utilizan para establecer
puntos de corte asociados a exámenes que reflejan un estándar de competencia
y pueden aplicarse antes o después de administrar el examen; la tarea principal
en estos métodos es decidir cómo contestaría un sustentante límite cada uno de
los reactivos del examen.
Dada la naturaleza hipotética involucrada en esta tarea, se sugiere –en caso de
ser posible– proporcionar información empírica sobre el rendimiento de los
sustentantes en el examen, para verificar la pertinencia de los puntos de corte.
Un aspecto importante en los métodos basados en los reactivos es la posibi-
lidad de mostrar al grupo de expertos las respuestas correctas del examen. En
ocasiones, proporcionar las respuestas correctas puede hacer que los reactivos
parezcan más fáciles de lo que son y, por lo tanto, propiciar que los jueces deter-
minen un punto de corte más alto.
En esta categoría podemos encontrar métodos como:
77 Establecimiento de estándares en un examen criterial

• Angoff
• Ebel
• Nedelsky
Método Angoff
Este método puede utilizarse con exámenes de opción múltiple o exámenes de
respuesta abierta. Aquí el punto de corte se calcula a partir de las puntuaciones
previstas para cada uno de los reactivos, tomando en cuenta el juicio de los
expertos sobre la probabilidad de que un sustentante límite responda el reacti-
vo correctamente. Esta tarea puede ser difícil para algunos jueces, ya que conlle-
va emitir un juicio en términos de probabilidad, por ello se les puede pedir que
se imaginen a un grupo de 100 sustentantes límite y decidan cuántos de ellos
contestarían el reactivo correctamente (Hambleton y Plake, 1995). Obviamente
entre más fácil sea el reactivo, más alto será ese número de sustentantes.
Este método se puede aplicar con los siguientes pasos:
1. Los jueces o expertos deben emitir juicios preliminares solamente de los pri-
meros reactivos.
2. Se debe realizar una breve discusión de cada uno de los reactivos, utilizando
el siguiente procedimiento:
2.1. Solicitar a cada juez que señale la probabilidad asociada a cada reactivo.
Se sugiere que estas probabilidades estén a la vista de todos los jueces. Si
las probabilidades son similares, se continúa analizando los siguientes
reactivos.
2.2. Si se encuentran diferencias muy amplias entre todas las probabilidades,
se debe solicitar a los jueces que elijan uno de los números más altos y
que expliquen brevemente las razones para asignar esa probabilidad tan
alta; este mismo procedimiento se repite para las probabilidades más
bajas.
2.3. A los jueces se les dice que pueden cambiar sus probabilidades si lo dese-
an. Hay que asegurarse que los expertos comprendan que los juicios que
emitan deben describir el desempeño de los sustentantes límite.
78 Cuaderno técnico 3
3. Después de discutir las primeras preguntas, se debe pedir a los jueces que
señalen las probabilidades asociadas a los reactivos restantes.
4. Se debe decir nuevamente a los jueces que tienen la oportunidad de cambiar
sus probabilidades.
5. Finalmente, se deben recopilar los juicios.
La elección de los puntos de corte se logra al sumar las probabilidades de
cada uno de los reactivos para obtener la puntuación que estima cada juez para
el sustentante límite a lo largo de todo el examen.
79 Establecimiento de estándares en un examen criterial
Pregunta Probabilidad de respuestas correctas
1 .95
2 .80
3 .90
4 .60
5 .75
6 .40
7 .50
8 .25
9 .25
10 .40
Suma=5.80
Tabla 1. Ejemplo del cálculo de probabilidades utilizando el método Angoff
Una vez obtenidos todos los puntos de corte de los jueces, se pueden com-
binar las puntuaciones y obtener la media o la mediana.
El método Angoff es uno de los más utilizados para el establecimiento de
puntos de corte ya que cuenta con uno de los procedimientos mejor estableci-
dos y reconocidos en el área de evaluación; empero, tiene el problema de emitir
juicios suponiendo el desempeño de un sustentante límite; desventaja que com-
parte con otros métodos que se centran en los reactivos, además de que en
muchas ocasiones los expertos no están familiarizados con la asignación de pro-
babilidades y consideran esta tarea un tanto complicada.
Otra de las desventajas del método Angoff es que los resultados empíricos
de la prueba pueden estar muy alejados de los juicios emitidos por los expertos,
de ahí que se sugiera compartir (siempre que sea posible) con los jueces la infor-
mación sobre los resultados del examen.
Método Ebel
Este método, a diferencia del método Angoff, consta de dos etapas. En la pri-
mera cada juez o experto clasifica los reactivos en grupos y emite un juicio
numérico para cada grupo de reactivos.
La clasificación de los reactivos en grupos se hace a partir de dos criterios: un
juicio de la dificultad y un juicio de la relevancia (o importancia). El método
sugiere tres niveles de dificultad: fácil, medio y difícil; y cuatro categorías de
importancia: esencial, importante, aceptable y cuestionable/objetable.
80 Cuaderno técnico 3
Fácil Medio Difícil
Relevancia
Esencial
Importante
Aceptable
Cuestionable
Tabla 2. Tabla para la clasificación de reactivos bajo el método Ebel
En seguida, los jueces clasifican todos los reactivos del examen; si se dispone
de análisis estadísticos que indiquen la dificultad de cada pregunta, es recomen-
dable agregar esta información para ayudar a los expertos a emitir los juicios de
dificultad.
La segunda etapa consiste en determinar el desempeño de un sustentante
límite. El juez debe emitir un juicio sobre el porcentaje de reactivos que contes-
taría correctamente un sustentante límite por cada uno de los 12 bloques de la
tabla de clasificación, es decir, cada juez debe emitir un juicio para los reactivos
clasificados “esenciales, fáciles”, otro para las preguntas clasificadas “esenciales,
medias” y así sucesivamente, hasta llegar a “cuestionable, difícil”.
El procedimiento que se debe seguir durante las sesiones de trabajo con el
método Ebel es el siguiente:
1. Solicitar a los jueces que hagan una clasificación preliminar de los reactivos
del examen en 12 categorías.
2. Sostener una discusión breve de cada reactivo, utilizando los siguientes criterios:
2.1. Se debe señalar cuántos jueces clasificaron la pregunta como “esencial,
importante, aceptable o cuestionable. Si los jueces no son unánimes, se
debe preguntar a cada juez que eligió cada categoría que explique sus
razones.
2.2. Por último, se debe dar a los jueces la posibilidad de cambiar la clasifica-
ción del reactivo si así lo desean.
3. Solicitar a los jueces que señalen el porcentaje de reactivos que contestaría
correctamente un sustentante límite por cada una de las 12 categorías.
4. Es recomendable entablar una breve discusión sobre la clasificación de los
reactivos en cada una de las 12 categorías, solicitando la siguiente informa-
ción:
4.1. Solicitar a cada juez su porcentaje elegido para cada categoría.
4.2. Pedir al juez que haya elegido uno de los porcentajes más altos que expli-
que las razones por las cuáles eligió ese porcentaje. De igual forma se
sugiere repetir esta actividad, con los porcentajes más bajos.
4.3. Se debe informar a los jueces que pueden cambiar sus juicios si lo dese-
an, asegurándose que entiendan que los juicios deben describir el rendi-
miento de un sustentante límite.
5. Recopilar los juicios.
81 Establecimiento de estándares en un examen criterial

Para determinar con este método el punto de corte del examen se debe mul-
tiplicar el porcentaje considerado correcto para la primera categoría
(esencial/fácil) por el número de reactivos de esa categoría y así obtener el
punto de corte.
Este paso se debe repetir con cada una de las 11 categorías restantes.
Los puntos de corte se pueden combinar de la misma manera que en el
método Angoff, calculando la media, la mediana o la media recortada.
Una de las ventajas de este método es que los expertos encuentran mucho
más sencillo pensar en relación con el porcentaje de respuestas correctas dentro
de un grupo de reactivos, que pensar en la probabilidad de responder correcta-
mente a un solo reactivo, como se hace en el método Angoff. Además, la clasi-
ficación sobre la relevancia de las preguntas hace que los jueces consideren la
importancia de los conocimientos y habilidades que están siendo evaluados.
Una desventaja del método Ebel es el tiempo requerido para formular todos
los juicios, y hay que añadir que es un método menos investigado que el méto-
do Angoff.
Método Nedelsky
Este método puede utilizarse únicamente con exámenes de opción múltiple,
ya que requiere de un juicio sobre cada posible respuesta incorrecta. La tarea
principal del juez es analizar el reactivo e identificar las respuestas incorrectas
que podría reconocer un sustentante límite.
Para este método se recomienda seguir los siguientes pasos:
1. Solicitar a cada uno de los jueces que emitan una serie de juicios preliminares
de todos los reactivos del examen, identificando las respuestas incorrectas
que reconoce un sustentante límite.
2. Se debe entablar una breve discusión sobre cada uno de los reactivos emple-
ando la siguiente secuencia de pasos:
2.1 Los jueces deben identificar la primera respuesta que un sustentante
podría reconocer fácilmente como incorrecta.
2.2 Si los jueces no son unánimes, hay que pedirle a cada juez que marcó la
82 Cuaderno técnico 3
respuesta como incorrecta que argumente su decisión. Es importante
comentarles a los jueces que pueden cambiar sus juicios si lo desean y
hay que asegurarse que los expertos comprendan que sus elecciones des-
criben el desempeño de un sustentante límite.
2.3 Continuar con la siguiente respuesta incorrecta.
3. Después de haber discutido cada uno de los reactivos y respuestas del examen,
hay que solicitar a los jueces que analicen sus decisiones y confirmen que han
marcado sólo las respuestas incorrectas que identifica un sustentante límite.
El método Nedelsky se basa en la idea de que el sustentante límite que no
sabe la respuesta correcta responde a un reactivo de opción múltiple eliminando
primero las respuestas que reconoce como incorrectas y luego adivinando entre
las opciones restantes. Con este método es relativamente sencillo determinar la
puntuación que debería recibir ese sustentante, aplicando las siguientes reglas:
1. La puntuación prevista del sustentante en cualquier pregunta es 1 dividido
por el número de respuestas entre las que tuvo que adivinar el sustentante.
2. Para determinar el punto de corte se deben sumar las puntuaciones de todas
las preguntas individuales.
La forma de combinar los resultados de los jueces en el método Nedelsky es
a través del cálculo de la media, la mediana o la media recortada.
El método Nedelsky es uno de los más útiles, sobre todo si se aplica en dis-
ciplinas en las que las respuestas incorrectas pueden tener un impacto social, por
ejemplo en la evaluación de los conocimientos y habilidades de los médicos.
Una limitación de este procedimiento es que –aun cuando se emplee un
método abreviado en el cual se considera cada reactivo como un todo– requie-
re bastante tiempo para analizar cada una de las opciones de respuesta.
Además, este método puede tener la desventaja de que los juicios obtenidos
a partir de él difieran de los resultados empíricos del examen, y, en algunas oca-
siones, los jueces pueden estar poco familiarizados con las tareas que se realizan
en las sesiones de trabajo.
83 Establecimiento de estándares en un examen criterial

Banco de reactivos: Conjunto de reactivos pertenecientes a un área de conocimien-
to particular, con el cual se pueden elaborar distintas versiones de un examen.
Borderline o sustentante límite: Sustentante con un nivel de habilidades y conoci-
mientos que son considerados como mínimos para asignarlos a un nivel de
logro.
Constructo: Variable que no se puede observar o medir directamente, pero que se
puede representar por uno o varios indicadores o variables observables. Por
ejemplo, los ingresos y la educación son factores observables, que se pueden
considerar como indicadores de un constructo: el estatus social. En algunas
ocasiones, constructo y variable latente se utilizan como sinónimos.
Cuadernillo de reactivos: Lista de preguntas de un examen ordenadas por dificultad,
utilizadas en el método bookmark. El mapa de reactivos generalmente incluye
el número de la pregunta de acuerdo con la secuencia presentada en el exa-
men original, el número de la pregunta de acuerdo con la dificultad de cada
reactivo, la respuesta correcta a cada reactivo y el contenido de cada pregunta.
Descripción de niveles de logro: Descripciones sintéticas que reflejan los conocimien-
tos y las habilidades que muestran los sustentantes que pueden ser clasifica-
dos en cada categoría o nivel de logro.
Error de medida: La inexactitud que se acepta como inevitable al comparar una mag-
nitud con su patrón de medida y depende de la escala de medida empleada.
Estándar: Puede dividirse en 1) estándar de desempeño, es decir el nivel de
desempeño necesario para ubicar a un sustentante en una categoría, 2) Serie
de conocimientos y habilidades que deben ser aprendidas por los sustentan-
tes en un grado y área de conocimientos específicos.
Etiquetas de niveles de logro: Grupo jerárquico de palabras o frases cortas que son
utilizadas para distinguir dos o más categorías o niveles de logro.
Examen referido a criterio: Examen diseñado para determinar el nivel de dominio
de contenido que tiene un sustentante, o bien, para establecer el nivel de ren-
dimiento que ha alcanzado en ciertas habilidades o áreas de conocimiento.
Establecimiento de estándares en un examen criterial
Anexo 4. Glosario
85
Examen referido a norma: Examen que permite la comparación de las puntuacio-
nes de un sustentante con uno o más grupos que conforman la norma.
Falso negativo: Error de clasificación cuando se aplica un punto de corte y se cla-
sifica a uno o más sustentantes en la categoría de No aprobado, aun cuando
posean el nivel de conocimientos y habilidades para obtener una calificación
aprobatoria.
Falso positivo: Error de clasificación cuando se aplica un punto de corte y se clasi-
fica a uno o más sustentantes en la categoría de Aprobados, aun cuando no
posean los conocimientos y habilidades necesarios para obtener una califica-
ción aprobatoria.
Modelo compensatorio: Modelo de calificación en el que se permite un bajo desem-
peño en una de las áreas que conforman el examen y que se ve compensado
por un alto desempeño en otra área. Con este modelo de calificación sólo se
necesita un punto de corte para obtener una calificación global y no por cada
área del examen.
Modelo conjuntivo: Modelo de calificación en el que se requiere un nivel de desem-
peño mínimo en cada una de las áreas que conforman el examen. En este
modelo se requiere establecer puntos de corte para cada una de las áreas que
conformen el examen.
Nivel de logro: Es el nivel mínimo de conocimientos y habilidades que deben
demostrar los sustentantes para que su desempeño sea ubicado en una cate-
goría. El nivel de logro representa la conceptualización del punto de corte.
Probabilidad de respuesta: En el método bookmark es la probabilidad de que un sus-
tentante límite responda a una pregunta correctamente.
Punto de corte: Puntuaciones que permiten crear categorías que reflejan un están-
dar de desempeño. El punto de corte es la representación numérica del nivel
de logro.
Teoría de respuesta al ítem: Modelo matemático que relaciona ciertas características,
como la habilidad del sustentante con la dificultad de las preguntas, para pre-
decir el desempeño de los sustentantes ante ciertos reactivos.
86 Cuaderno técnico 3
El Centro Nacional de Evaluación para la Educación Superior es una asociación civil sin fines de
lucro constituida formalmente el 28 de abril de 1994, como consta en la escritura pública número
87036 pasada ante la fe del notario 49 del Distrito Federal. Sus órganos de gobierno son la Asam-
blea General, el Consejo Directivo y la Dirección General. Su máxima autoridad es la Asamblea
General, cuya integración se presenta a continuación, según el sector al que pertenecen los aso-
ciados, así como los porcentajes que les corresponden en la toma de decisiones:
Asociaciones e instituciones educativas (40%): Asociación Nacional de Universidades e Instituciones de
Educación Superior, A.C. (ANUIES); Federación de Instituciones Mexicanas Particulares de
Educación Superior, A.C. (FIMPES); Instituto Politécnico Nacional (IPN); Instituto Tecnológi-
co y de Estudios Superiores de Monterrey (ITESM); Universidad Autónoma del Estado de Méxi-
co (UAEM); Universidad Autónoma de San Luis Potosí (UASLP); Universidad Autónoma de
Yucatán (UADY); Universidad Nacional Autónoma de México (UNAM); Universidad Popular
Autónoma del Estado de Puebla (UPAEP); Universidad Tecnológica de México (UNITEC).
Asociaciones y colegios de profesionales (20%): Barra Mexicana Colegio de Abogados, A.C.; Colegio
Nacional de Actuarios, A.C.; Colegio Nacional de Psicólogos, A.C.; Federación de Colegios y
Asociaciones de Médicos Veterinarios y Zootecnistas de México, A.C.; Instituto Mexicano de
Contadores Públicos, A.C.
Organizaciones productivas y sociales (20%): Academia de Ingeniería, A.C.; Academia Mexicana de
Ciencias, A.C.; Academia Nacional de Medicina, A.C.; Fundación ICA, A.C.
Autoridades educativas gubernamentales (20%): Secretaría de Educación Pública.
• Ceneval, A.C.®, EXANI-I®, EXANI-II® son marcas registradas ante la Secretaría de Comer-
cio y Fomento Industrial con el número 478968 del 29 de julio de 1994. EGEL®, con el núme-
ro 628837 del 1 de julio de 1999, y EXANI-III®, con el número 628839 del 1 de julio de 1999.
• Inscrito en el Registro Nacional de Instituciones Científicas y Tecnológicas del Consejo Nacio-
nal de Ciencia y Tecnología con el número 506 desde el 10 de marzo de 1995.
• Organismo Certificador acreditado por el Consejo de Normalización y Certificación de Com-
petencia Laboral (CONOCER) (1998).
• Miembro de la International Association for Educational Assessment.
• Miembro de la European Association of Institutional Research.
• Miembro del Consortium for North American Higher Education Collaboration.
• Miembro del Institutional Management for Higher Education de la OCDE.

La publicación de esta obra la realizó
el Centro Nacional de Evaluación
para la Educación Superior, A.C.
Se terminó de imprimir el 29 de octubre de 2010
en los talleres de Winkilis, Bugambilias 131,
Col. El Rosario, México, D.F., C.P. 09930,
con un tiraje de 500 ejemplares