You are on page 1of 7

DESARROLLO DE PRUEBAS.

El proceso de elaboración de una prueba contempla cinco etapas:

1) conceptualización de la prueba

2) construcción de la prueba

3) ensayo de la prueba

4) análisis de reactivos

5) revisión de la prueba

Conceptualización de la prueba

Una vez que se ha descubierto un nuevo fenómeno, atrae la atención de los investigadores y
éstos intentarán elaborar pruebas diagnósticas para evaluar su presencia o ausencia así como la
gravedad de sus manifestaciones. La elaboración de una prueba puede surgir como respuesta a
una necesidad de evaluar el dominio en una ocupación o profesión recién creada.

Algunas cuestiones preliminares sin importar cuál sea el estudio de la elaboración de una
prueba, el constructor de pruebas enfrenta de inmediato diversas interrogantes:

 ¿qué es lo que va medir la prueba según su diseño?


 ¿Cuál es el objetivo de la prueba?
 ¿Existe una necesidad para esta prueba?
 ¿Quién usará esta prueba?
 ¿Qué contenido cubrirá la prueba?
 Como se aplicara la prueba?
 ¿Cuál será el pato ideal de la prueba?
 ¿Debería elaborarse más de una forma de la prueba?
 ¿Qué capacitación especial se requerirá de los usuarios de la prueba para aplicarla o
interpretarla?
 ¿Qué clase de respuesta se requerirán de los posibles evaluados?
 ¿Quién se beneficia con la construcción de la prueba?
 ¿Hay algún daño potencial como resultado de una aplicación de esta prueba?
 ¿Cómo se asignara significado a las actuaciones de esta prueba?

Estudio piloto

En el contexto de la elaboración de pruebas, términos como trabajo piloto, estudio piloto e


investigación piloto se refieren en general, a la investigación preliminar en torno a la creación
de un prototipo de la prueba. Los reactivos de esta pueden ser estudiados en el piloto para
valorar si deben ser incluidos en la forma final del procedimiento.

En el estudio piloto generalmente quien elabora la prueba intenta determinar cómo medir mejor
el constructor que tiene como objetivo. El proceso puede implicar la creación, revisión y
eliminación de muchos reactivos de la prueba; al igual que reseñas literarias y experimentación
entre otros.

Construcción de la prueba
Elaboración de escalas. Anteriormente definimos medición como la asignación de números de
acuerdo con reglas. La elaboración de escalas puede ser explicada como el proceso para
establecer reglas y con ello lograr la asignación numérica en la medición realizada con base en
el constructo.

Tipos de escala. En el lenguaje común, las escalas son instrumentos que se usan para medir algo,
como el peso. Es psicometría las escalas también pueden concebirse como instrumentos usados
para medir algo; siendo ese algo generalmente un rasgo, una característica o un atributo
psicológico. Si el principal interés es el desempeño del examinado en función de la edad,
entonces la prueba podría denominarse escala de edad. Si el principal interés es el desempeño
del examinado en función del grado entonces la prueba podría denominarse escala de grado.
Puesto que las escalas pueden clasificarse de muchas maneras, es razonable suponer que
existen muchos métodos distintos para construirlas.

Métodos para elaborar escalas. En general se supone que quien responde una prueba tienen
mayor o menor grado la característica medida por la prueba como una función de la puntuación;
cuando mayor o menor sea la puntuación, tanto menor o mayor será la característica que
supone que el sujeto posee.

La escala MDBS-R es un ejemplo de una escala de estimación, la cual puede definirse como el
agrupamiento de palabras, afirmaciones o símbolos a través de los cuales el evaluado indica la
intensidad de sus juicios relativos a un rasgo, actitud o emoción particular. Las escalas de
estimación pueden ser usadas para registrar juicios personales o de otros individuos, existencias
objetos y pueden adoptar formas diversas. Cuando la puntuación final de una prueba se obtiene
sumando las estimaciones de todo reactivos, esta se denomina escala sumatoria. Un tipo de
escala de estimación sumatoria, la escala Likert se usa en forma extensa dentro de la psicología,
por lo general para escalas de actitud. Cada reactivo ofrece cinco alternativas de respuesta
usualmente en algún tipo de sucesión entre acuerdo y desacuerdo o aprobación y
desaprobación.

La escala Likert suele ser confiable, lo cual puede explicar su amplia popularidad. Las escalas de
estimación de cualquier tipo dan como resultado datos en el nivel ordinal.

Otro método de elaboración de escalas que produce datos originales es el método de


comparación por pares a los examinados se les presentan pares de estímulos y se les pide que
los comparen. Luego deben seleccionar uno de ellos de acuerdo con una regla; por ejemplo, la
regla de que están más de acuerdo con una afirmación que con otra u la regla de que encuentran
un estímulo más atractivo que otro: por ejemplo

Selecciona el comportamiento que considera más justificado:

a) hacer trampa en la declaración de impuestos si tiene la oportunidad

b) aceptar un soborno durante el cumplimiento de nuestros deberes.

Una ventaja del método de comparación por pares, esto obliga a quienes responden la prueba
a hacer una elección de varios reactivos disponibles.

Otra forma de derivar la información ordinal por medio de un sistema de la oración de escalas
implica tareas de clasificación por un método de clasificaciones la elaboración de escalas
comparativas. El cual implica juicios de un estímulo en comparación con todos los demás
estímulos de la escala. Por ejemplo se le pueden presentar a un sujeto 30 reactivos en forma de
tarjeta, y se le solicitará que clasifiquen las tarjetas de la más justificable a la menos justificable.

Otro sistema de elaboración de escalas con base en la clasificación es la elaboración de escalas


categóricas. Los estímulos de colocan en una de dos o más categorías alternas que difieran en
forma cuantitativa respecto a una continuidad. Podría dársele a los examinados 30 tarjetas cada
una con uno de los 30 reactivos impresos. Luego se les pediría que clasificaran las tarjetas en
tres montones aquellos comportamientos que nunca se justifican, aquellos que algunas veces
se justifican y los que siempre se justifican.

Escala Guttman. Es otro método de elaboración de escalas que produce medidas en el nivel
ordinal. Los reactivos en ella varían en forma secuencial, de las expresiones más débiles a las
más fuertes, todas ellas basadas en la actitud, creencia o sentimiento que se mide. Una
característica de este tipo de escalas es que están diseñadas para que quienes están de acuerdo
con las afirmaciones más fuerte de la actitud también estarán de acuerdo con afirmaciones más
moderadas.

Por ejemplo:

Estás de acuerdo o en desacuerdo con cada una de las siguientes:

 todas las personas deberían tener derecho a decidir si desean terminar con su vida
 todas las personas con enfermedades terminales y que sufren dolor deberían tener la
opción de que un médico les ayude a terminar con su vida.
 Las personas deberían tener la opción de rechazar el uso de equipo para mantener la
vida en forma artificial antes de enfermarse más gravemente.
 Las personas tienen derecho a una vida confortable.

Quienes responden que están de acuerdo con a pero están en desacuerdo con b también
estarían de acuerdo con c y d y así en forma sucesiva. Éstas escalas elaboran mediante la
aplicación de diversos reactivos a un grupo objetivo. Luego, los datos resultantes se analizan a
través del análisis del escalograma, un procedimiento de análisis de reactivos y enfoque para la
elaboración de pruebas que implica el mapeo gráfico de la respuesta del examinado

Redacción de reactivos

DeVellis 1991, proporcionó algunos lineamientos sencillos para redactarlos. Aquí se presentan
seis:

 defina claramente lo que desea medir


 genere un banco de reactivos
 evite reactivos demasiado largos
 mantenga el nivel de dificultad de su redacción acorde a la población que contestara la
escala
 evite los reactivos de doble filo en los que se transmiten dos o más ideas
simultáneamente
 considere la mezcla de reactivos redactados positiva y negativamente
Tres preguntas que el futuro productor de pruebas o redactor de reactivos enfrentar inmediatos
son:

¿Qué rango de contenidos debe cubrir los reactivos?

¿Cuál de los muchos tipos diferentes de formatos de reactivo debe emplearse?

¿Cuantos reactivos deben redactarse?

Cuando se diseña una prueba estandarizada usando un formato de opción múltiple, por lo
general es aconsejable que el número de reactivos para el primer borrador contenga
aproximadamente el doble del número que contendrá la versión final de la prueba.

Un muestreo inclusivo proporciona una base para la validez del contenido de la versión final de
la prueba. Debido a que aproximadamente la mitad de estos reactivos serán eliminados en la
versión final de la prueba, el elaborador necesita asegurarse de que la versión final contenga los
reactivos que representen el dominio del contenido a evaluar, de una forma adecuada.

¿Cómo se elabora la reserva de reactivos? Quien elabora la prueba puede redactar una gran
cantidad de reactivos con base en su experiencia personal con el conocimiento académico del
tema. También puede buscar la ayuda de otros, incluyendo expertos

Formato de reactivos. A las variables tales como la forma, plan, estructura, arreglo y disposición
de los reactivos de las pruebas individuales, se les llama en forma colectiva formato de reactivos.
Los dos tipos de formato de reactivos que analizaremos son el formato de respuesta
seleccionada y el formato de construcción de respuesta. El primero requiere que quienes
respondan la prueba elegirán una respuesta entre una serie de alternativas. Los reactivos con el
formato de construcción de respuesta requieren que los examinados no solamente seleccionen
la respuesta correcta, sino que la proporcionen o la creen.

Tres tipos de pruebas con formatos de selección de respuesta son las de opinión múltiple, de
reactivos de corrección y de verdadero falso.

Una prueba estructurada con el formato de opción múltiple tiene tres elementos: un tronco,
una alternativa u opción correcta y varias alternativas u opciones incorrectas a las que se les
denomina distractores.

En el reactivo de relación se le presentan dos columnas de respuesta al examinado, premisas a


la izquierda y respuestas a la derecha. La tarea de quien presente el examen es determinar cuál
respuestas asocia mejor con cual premisa.

El proporcionar más opciones de las necesarias minimiza la posibilidad de que todas sean buenos
distractores. Otra manera de disminuir la probabilidad de respuestas al azar o de adivinación
como un factor en la puntuación de la prueba es incluir en las instrucciones que cada respuesta
puede ser utilizada de forma correcta una o más veces.

Un reactivo de opción múltiple que sólo contiene dos respuestas posibles se le llama reactivo
de selección binaria. Quizá el más común de estos reactivos se ha reactivo falso verdadero. En
este reactivo la selección de respuesta sobre tomar la forma de una oración en donde el
examinado indicará si la afirmación es o no un hecho. Un buen reactivo binario debe contener
una sola idea, no ser largo en exceso y no estar sujeto a debate, es decir la respuesta correcta
deberá ser sin duda una de las dos. A diferencia de los reactivos de opción múltiple los de
selección binaria no necesitan contener una lista de alternativas distractor as. Una desventaja
de los reactivos de selección binaria es que la probabilidad de obtener una respuesta correcta
con base sólo en el azar en cualquier reactivo es de 50%.

Un reactivo de completar requiere que el examinado proporcione una palabra o frase que
complete una oración como en el siguiente ejemplo:

Por lo general la desviación estándar se considera la medida más útil de________________

Un reactivo de completar también puede ser denominado de respuesta breve sería deseable
que los reactivos de completar o de respuesta breve estuvieran redactados con la suficiente
claridad para aquel examinado pueda contestar en forma sucinta, es decir, con una respuesta
breve.

Más allá de una respuesta de un párrafo o dos, el reactivo podría considerarse en forma más
apropiada como un reactivo de ensayo, el cual requiere que el examinado responde escribiendo
una composición, por lo general, una que demuestre que hay rememoración de los hechos,
entendimiento, análisis o interpretación.

Otra clasificación (del otro texto) de los formatos de reactivo podría ser:

 formato dicotómico. En este formato ofrece dos alternativas para cada reactivo por lo
regular a la selección de una de las alternativas. Por ejemplo falso verdadero.
 Formato polivalente. El formato polivalente es similar al dicotómico excepto que cada
reactivo tiene más de dos alternativas. Por lo general se asigna un. Para la selección de
una de las alternativas y no se asigna para cualquier otra selección. Por ejemplo los
formatos de opción múltiple.
 Formato Likert. Requiere que la persona responda o indique el grado de acuerdo
respecto a una pregunta actitudinal. Como por ejemplo me da miedo a las alturas. En
lugar de pedir una respuesta de sí o no se presentan cinco alternativas: totalmente en
desacuerdo, en desacuerdo, neutral, de acuerdo y totalmente de acuerdo.
 Formato por categorías. Es una técnica similar al formato Likert pero que usa un número
incluso mayor de opciones. La mayoría de las personas están familiarizadas con sistemas
de clasificación de 10 puntos porque con frecuencia se hacen preguntas como: en una
escala de uno a 10, donde uno es la clasificación más baja y 10 la más alta ¿cómo
calificaría a su nuevo novio en términos de atractivo?
 Lista de verificación y clasificación Q un formato común en la medición de personalidad
es la lista de verificación de adjetivos. Con este método un sujeto recibe una larga lista
de adjetivos e indica cuál de ellos es característico del mismo. Las listas de adjetivos
pueden usarse para describir ya sea a uno mismo o alguien más. Por ejemplo, en un
estudio realizado en la Universidad de California, los evaluadores marcaron los rasgos
que pensaban que caracterizaban a un grupo de 40 estudiantes. La lista de adjetivos
requiere que los sujetos aprueben tales adjetivos, permitiéndose así únicamente dos
alternativas para cada reactivo. Una técnica similar conocida como clasificación Q
incrementa el número de categorías. Esta clasificación puede ser utilizada para
describirse a uno mismo o para proporcionar calificaciones de otros. Con esta técnica se
presentan afirmaciones al sujeto se le pide que las acomode en nueve grupos por
ejemplo se le puede brindar 100 afirmaciones acerca de características personales las
afirmaciones se acomodaron en grupos que indicaban el grado en que parecían describir
con mayor precisión a una persona. Ver pág. 167.
Redacción de reactivos para ser administrados por computadora

Éstos suelen utilizar dos ventajas: la capacidad de almacenar reactivos en un banco de datos y
la capacidad para individualizar las pruebas a través de una técnica llamada ramificación de
reactivos. Un banco de datos específico para reactivos es un conjunto relativamente grande y
accesible de preguntas de prueba. El término administración de pruebas adaptadas a
computadora se refiere al proceso interactivo de administrar pruebas por computadora donde
los reactivos presentados al examinado tienen como base el desempeño del examinado en los
reactivos anteriores.

La capacidad de una computadora para confeccionar el contenido y el orden de presentación de


los reactivos de la prueba con base en la respuesta de reactivos anteriores se llama ramificación
de reactivos

También puede programarse para presentar los reactivos de acuerdo alguna regla. Por ejemplo
una regla podría ser no presentaron reactivo del siguiente nivel de dificultad hasta que dos
reactivos consecutivos del nivel previo hayan sido contestados correctamente. La presentación
al azar de reactivo reduce la facilidad con la que los examinados pueden memorizar reactivos
para dárselos a otros futuros examinados.

La tecnología para la ramificación de reactivos puede usarse en pruebas de personalidad para


reconocer respuestas imprecisas o inconscientes.

Calificación de reactivos

Se han elaborado muchos modelos diferentes de calificación de pruebas. En las pruebas


psicológicas, el modelo acumulativo es el más común, quizá debido a su lógica y simplicidad.
Generalmente la regla en una prueba calificada en forma acumulativa es que entre mayor sea
la puntuación de la prueba mayores el dominio del examinado en la capacidad, rasgo o alguna
otra característica que pretenda medir la prueba.

En pruebas que emplean una clase o categoría de clasificación, la respuestas del evaluado le
otorgan un crédito para ubicarlo en una clase o categoría particular en relación con otros
examinados cuyos patrones de respuesta se presume son semejantes de alguna manera

Un tercer modelo de clasificación, la clasificación ipsativa, es la comparación de la puntuación


de un examinado en una escala dentro de una prueba con otra escala dentro de esa misma
prueba.

Ensayo de la prueba

Un principio general no formal es que no deberían ser menos de cinco sujetos, de preferencia
hasta 10 para que cada reactivo contemplado en la prueba. La prueba debe ser probada con
personas similares en aspectos críticos a la gente para la que fue diseñada.

La probanza de la prueba deberá llevarse a cabo bajo condiciones lo más idéntica posible a las
condiciones bajo las cuales la prueba estandarizada será administrada.