tema1TyP 4

1
Introduccin a la Psicometra
Teora Clsica de los Tests
y Teora de la Respuesta al tem
(Febrero 2004)
Francisco J. Abad
Carmen Garca
Beatriz Gil
Julio Olea
Vicente Ponsoda
Javier Revuelta
2
INDICE
INTRODUCCIN ........................................................................................................... 4
TEMA I: REDACCIN Y ANLISIS DE TEMS ...........................................................7
1. Introduccin .....7
2. Definicin del constructo ....7
3. Construccin provisional del cuestionario ....8
4. Cuantificacin de las respuestas ....12
5. Anlisis de tems ....13
6. Anlisis de las opciones incorrectas de respuesta ....18
7. Correccin de los efectos del azar ....18
Ejercicios ....21
TEMA II: MODELO CLSICO Y CONCEPTO DE FIABILIDAD ..............................29
1. Supuestos fundamentales ....29
2. Concepto de formas paralelas ....31
3. Significado del coeficiente de fiabilidad ....33
4. Fiabilidad de un test formado por n formas paralelas ....34
Ejercicios ....37
TEMA III: FIABILIDAD DEL TEST ............................................................................42
1. Fiabilidad como estabilidad temporal ....42
2. Fiabilidad como consistencia interna ....44
3. Fiabilidad como correlacin entre formas paralelas ....48
4. El error tpico de medida ....48
5. Factores que afectan a la fiabilidad ....50
Ejercicios ....54
TEMA IV: VALIDEZ DEL TEST ..................................................................................61
1. Concepto de validez ....61
2. Validez de contenido ....61
3. Validez de constructo ....62
4. Validez referida al criterio ....75
5. Algunos ejemplos empricos del proceso seguido para la validacin de tests... 82
Ejercicios ....91
3
TEMA V: BAREMACIN DE UN TEST ................................................................... 104
1 Baremos cronolgicos .... 104
2 Centiles o percentiles .... 105
3 Puntuaciones tpicas .... 107
Ejercicios .... 110
TEMA VI: INTRODUCCIN A LA TEORA DE LA RESPUESTA AL TEM ...........115
1 Introduccin. 115
2 Curva caracterstica del tem. 116
3 Supuestos .... 121
4 Estimacin de parmetros .... 122
5 Funcin de informacin .... 126
6 Aplicaciones .... 129
7 Referencias (de este tema) .... 130
Ejercicios ....132
ANEXOS
Prctica 1:
Anlisis de tems de un test de rendimiento ptimo
Prctica 2:
Construccin de un test de rendimiento tpico: Anlisis de sus
propiedades psicomtricas
4
INTRODUCCIN
La Psicometra se ocupa de los problemas de medicin en Psicologa, utilizando la
Estadstica como pilar bsico para la elaboracin de teoras y para el desarrollo de mtodos y
tcnicas especficas de medicin. Usualmente, suelen diferenciarse varios ncleos temticos
diferentes propios de la Psicometra:
a) Teoras de la medicin. Tienen como objetivo establecer las condiciones y propiedades de
las asignaciones numricas que pueden realizarse. El establecimiento de diferentes escalas de
medida, tal como lo hizo Stevens, es un ejemplo de este primer ncleo de inters.
b) Escalamiento. En el terreno de la Psicofsica, e histricamente desde los trabajos de
Fechner en el siglo XIX, se plantea el problema de la medicin de las sensaciones que
generan diferentes niveles de estimulacin fsica. Thurstone ser el responsable del trnsito
del escalamiento psicofsico al escalamiento psicolgico, donde se proponen modelos y
tcnicas para la medicin de atributos estrictamente psicolgicos.
c) Teoras de los Tests. A principios del siglo XX, Spearman propone una formulacin
matemtica para estudiar las propiedades mtricas de las puntuaciones que se asignan
mediante tests, elaborados en ese tiempo (recurdese los tests de inteligencia de Binet), para
cuantificar el nivel de las personas en funciones psicolgicas superiores. La principal
preocupacin de Spearman es incorporar en la formulacin matemtica los errores de medida
que se cometen en la aplicacin de los tests psicolgicos. Este es el inicio de la Teora Clsica
de los Tests (TCT), que ser descrita en 1950 en el libro de Gulliksen "Theory of Mental
Tests". En la dcada de los 60 aparecen dos libros, uno de Rasch y otro de Lord y Novick,
donde se describen los primeros desarrollos de una nueva perspectiva en el estudio de las
propiedades psicomtricas de los tests, la Teora de la Respuesta al tem (TRI), que pretende
resolver algunos de los problemas que plantea la TCT.
En otras asignaturas del plan de estudios se tratan los temas de Teoras de la medicin
y Escalamiento. En las siguientes pginas proporcionamos una descripcin de la TCT, cuyos
desarrollos siguen emplendose (en nuestro pas casi de forma exclusiva) en la prctica para
analizar la bondad mtrica de los tests psicolgicos, y una introduccin a la TRI, que
pensamos se ir imponiendo progresivamente, tal como ocurre en otros sitios.
La actividad profesional del psiclogo requiere en muchos momentos la utilizacin
y/o construccin de tests que pretenden evaluar determinados constructos psicolgicos no
susceptibles a un proceso de medicin directa. Resulta usual, por ejemplo, en el mbito de la
Psicologa Educativa, la aplicacin de tests de inteligencia, de hbitos de estudio, de
motivacin, de habilidad lectora o de intereses vocacionales. En el terreno de la psicoterapia
individual, un psiclogo aplica determinadas pruebas para diagnosticar los problemas
depresivos de un cliente, su estilo atribucional, la calidad de sus relaciones sexuales o su
nivel de asertividad. Los psiclogos que se ocupan de la seleccin de personal en grandes
organizaciones tambin utilizan tests para determinar, al menos inicialmente, cules son las
personas del grupo de aspirantes que mejor pueden desempear el puesto de trabajo.
5
Cada vez es mayor el nmero de tests disponibles en el mercado para su utilizacin.
Basta con ojear los catlogos de empresas consultoras especializadas (TEA, MEPSA,
COSPA,...) para percatarnos de la gran extensin de atributos psicolgicos que podemos ya
medir mediante tests. El psiclogo necesita conocer las posibilidades de cada uno de estos
tests: la informacin que aporta, cmo se interpretan las puntuaciones que proporciona, en
qu grado podemos fiarnos de estas puntuaciones, para qu tipo de personas resulta apropiada
su aplicacin, etc. El manual de estos tests suele incluir datos empricos sobre todos estos
aspectos, que determinarn en gran parte las garantas que nos ofrece la prueba que vamos a
aplicar.
Sin embargo, y debido fundamentalmente a la relativa juventud de la Psicologa, los
profesionales no se encuentran con todos los tests que pueden necesitar para su actividad
laboral cotidiana. No resulta extrao, por ejemplo, que un psiclogo social tenga que
construir un test concreto para evaluar la actitud que tiene la poblacin de estudiantes
universitarios hacia grupos marginados, que un orientador escolar necesite elaborar un test
para conocer la opinin de los profesores hacia la LOGSE o que un psiclogo clnico precise
de una prueba concreta para evaluar determinados aspectos de las relaciones de los
adolescentes con sus padres.
Parece razonable, por tanto, y as es nuestra opinin, que un psiclogo adquiera las
destrezas necesarias para valorar la informacin psicomtrica que incluyen los tests
comercializados y, adems, que conozca los mtodos y tcnicas fundamentales para disear
una prueba concreta con fines especficos. Trataremos de ayudarle a ello en las siguientes
pginas.
En la exposicin que vamos a realizar en los primeros 5 captulos, tratamos de
describir el proceso natural que se sigue en la construccin de un test, y que bsicamente se
resume en las siguientes fases:
1. Definicin del constructo.
2. Construccin del test provisional.
3. Aplicacin a una muestra.
4. Anlisis de tems.
5. Estudio de la fiabilidad del test.
6. Estudio de la validez del test.
7. Baremacin.
Las cuatro primeras fases se refieren a ciertas estrategias lgicas (algunas con cierto
fundamento estadstico) que nos conducen a seleccionar la forma y contenidos ms
apropiados del test. Las fases 5 y 6 resultan fundamentales, dado que se refieren a la
comprobacin emprica de las garantas psicomtricas que la prueba manifiesta como
instrumento de medicin. Bsicamente, estas garantas se refieren a su precisin (fiabilidad) y
a la comprobacin prctica del contenido autntico que estamos evaluando (validez). La
denominada Teora Clsica de los Tests, cuya descripcin es parte fundamental de estas
pginas, permite abordar estos problemas con cierto rigor. Una vez que disponemos de la
versin definitiva del test, aplicada a una muestra representativa de la poblacin de personas
a la que va dirigido, se procede a la fase de baremacin, que sirve para interpretar una
puntuacin concreta en relacin con las que obtiene la muestra seleccionada.
6
El ltimo de los temas de estos apuntes pretende iniciar al alumno en los fundamentos
de la Teora de la Respuesta al tem, y ser entonces cuando comentemos las diferencias
principales entre ambas aproximaciones.
Estos apuntes contienen una breve descripcin de los principales contenidos tericos
de la asignatura Introduccin a la Psicometra. Dentro de las actividades prcticas de la
asignatura, los estudiantes habrn de analizar un test de rendimiento ptimo y elaborar un test
de rendimiento tpico, para lo que habrn de seguir todos los pasos indicados aqu.
7
TEMA I: REDACCIN Y ANLISIS DE TEMS
1.- INTRODUCCIN
Mientras que la mayora de los atributos fsicos (altura, peso, etc. ...) resultan directamente
medibles, los atributos (constructos o rasgos) psicosociales resultan ser conceptualizaciones
tericas que no son accesibles a la medicin directa y para los que no existen "metros" o
"balanzas" diseados para medirlos de manera precisa. La actitud hacia el aborto, el nivel de
cohesin grupal, el grado de extroversin, el cociente intelectual, la postura hacia el consumo
de drogas, el grado de liderazgo,...., todos ellos son constructos que deben medirse mediante
instrumentos especficamente diseados: los tests, cuestionarios o inventarios. Nadie dudara
de que un metro bien diseado mide longitud y que lo hace de manera precisa, pero la bondad
y la precisin de un cuestionario no se puede presuponer; ms bien son una cuestin de grado
y siempre susceptibles de mejora.
En definitiva, un cuestionario est formado por una serie de elementos o tems (elementos,
reactivos, preguntas, cuestiones, situaciones anlogas,...) a los que cada individuo debe
responder. Despus de cuantificar las respuestas de una persona a los elementos del
cuestionario, se pretende asignar una puntuacin (a veces varias) a esa persona respecto al
constructo o atributo que se pretende medir con el cuestionario, una puntuacin que debera
indicar el grado en que la persona participa del atributo, constructo o rasgo a evaluar.
Nos enfrentamos as a un proceso de medicin indirecta que incluye la misma construccin
del instrumento de medida, proceso que se inicia con la definicin clara del constructo a
evaluar.
2.- DEFINICIN DEL CONSTRUCTO
El primer paso consiste en proporcionar una definicin operacional del constructo o
rasgo que pretendemos medir. Por ejemplo, si hablamos de dogmatismo, debemos establecer
los diversos componentes o manifestaciones del mismo: dogmatismo ante la poltica, ante la
educacin de los hijos, ante la religin, en las relaciones familiares,... Muy relacionada con
esta definicin operativa es la cuestin del establecimiento de los objetivos que se pretenden
conseguir con el cuestionario.
Tambin es necesario especificar el tipo de poblacin al que va a aplicarse la prueba y las
decisiones que se pretenden tomar a partir de las puntuaciones que ofrezca. Resulta muy
diferente, y determinar su contenido, que un test de inteligencia se vaya a aplicar a personas
de la poblacin general o a personas con problemas intelectuales. Un cuestionario de
depresin puede utilizarse con fines cientficos en una investigacin o para decidir el ingreso
en un centro psiquitrico de personas con problemas depresivos.
8
3.- CONSTRUCCIN PROVISIONAL DEL CUESTIONARIO
De la definicin operacional del constructo y de la delimitacin de sus componentes
debemos llegar a establecer un conjunto de elementos o tems (frases, preguntas, situaciones
anlogas, tareas, etc.) que representen estos componentes, o mejor, las conductas mediante
las que se manifiestan los diversos componentes del constructo.
Si, por ejemplo, pretendemos evaluar la tolerancia hacia los grupos marginales, un
tem podra ser el siguiente:
Deberamos facilitar la integracin de los gitanos en nuestro pas
Parece razonable suponer que una persona tolerable estara de acuerdo con esta
afirmacin, mientras que otra intolerable estara en desacuerdo.
En relacin con la construccin de los tems existen dos temas importantes a tener en
cuenta: el formato de respuesta y las normas de redaccin de los tems.
3.1.- FORMATO DE RESPUESTA
En tests de rendimiento ptimo (pruebas de rendimiento y de inteligencia) se
pretende medir el rendimiento mximo al que llega cada persona ante una serie de preguntas
o tareas. Usualmente, el formato de respuesta de estos tems se ajusta a uno de los siguientes
tres formatos:
a) Eleccin binaria: De dos alternativas, se elige la que se considera correcta (S o
No; verdadero-falso).
Por ejemplo, un tem de un test de rendimiento en Historia Moderna puede ser:
"Pi y Margall fue uno de los presidentes de la 1 Repblica Espaola" V F
b) Eleccin mltiple: Entre ms de dos alternativas se elige la que se considera
correcta. Es sin duda el formato de respuesta ms utilizado, entre otras por razones de
objetividad y otras de tipo operativo.
Por ejemplo, un tem de un test de aptitud verbal puede ser:
"Automvil es a volante como bicicleta es a ....
a) Pedal
b) Silln
c) Manillar
d) Parrilla
c) Emparejamiento: Consiste en encontrar las parejas entre dos conjuntos de
conceptos. Por ejemplo, un tem de un cuestionario sobre conocimientos de polticos
espaoles contemporneos puede ser:
9
"Enlace mediante una lnea el nombre del poltico con el partido poltico al que
pertenece"
J. A. Durn i Lleida
Carlos Solchaga
Iaki Anasagasti
Rodrigo Rato
PSOE
CIU
PNV
PP
Mediante las pruebas de rendimiento tpico se quiere reflejar el comportamiento

ordinario de las personas, no teniendo sentido el concepto de rendimiento mximo dado que
el objeto de la evaluacin es algn tipo de opinin, actitud o rasgo de personalidad. El
formato de respuesta de los cuestionarios de rendimiento tpico se ajusta a alguno de los
siguientes:
a) Opcin binaria: La persona debe manifestar si est de acuerdo o en desacuerdo
con una afirmacin. Por ejemplo, un tem de un cuestionario sobre la actitud de los
padres hacia los profesores de sus hijos puede ser:
"En realidad, los profesores en el colegio hacen poco ms que cuidar a nuestros
hijos cuando nosotros trabajamos"
Acuerdo ( ) Desacuerdo ( )
b) Categoras ordenadas: El formato establece un continuo ordinal de ms de dos
categoras, que permite a la persona matizar mejor su respuesta. Normalmente, este
continuo est formado por 5 7 categoras ordenadas, con una categora central para
indicar la valencia neutra y a partir de la cual posicionarse en uno u otro sentido.
Por ejemplo, un tem sobre la actitud de los adolescentes hacia el consumo de
drogas, podra ser el que sigue:
"Las drogas pueden realmente resolver problemas de uno mismo"
( ) Muy en Desacuerdo
( ) Bastante en Desacuerdo
( ) Neutral
( ) Bastante de Acuerdo
( ) Muy de Acuerdo
A veces, se establecen nominalmente los dos extremos del continuo, dejando
sealadas las restantes categoras del mismo:
MD
____
____
____
____
____
o se ordenan numricamente las categoras sucesivas:

1
MA
10
c) Adjetivos bipolares: Este formato es tpico de lo que se denomina "diferencial
semntico", un instrumento formado por pares de adjetivos opuestos, cada uno de los
cuales representa un continuo bipolar con varias categoras, y que permite estudiar el
significado semntico que se atribuye a determinados constructos, personas o
instituciones.
Por ejemplo:
Alegre
________ ________ ________ Triste
________ ________ ________ Tonto
Listo
Simptico ________ ________ ________ Antiptico
Feliz
________ ________ ________ Infeliz
Social ________ ________ ________ Asocial
3.2.- REDACCIN DE TEMS

Algunas de las recomendaciones generales en la redaccin de tems en pruebas de
rendimiento ptimo son las siguientes:
-
La idea principal del tem debe estar en el enunciado.

Simplicidad en el enunciado.
Evitar los conocimientos excesivamente triviales o excesivamente rebuscados.
Evitar dar informacin irrelevante en el enunciado.
Evitar dar indicios sobre la solucin.
Evitar cuestiones sobre opiniones.
No encadenar unos tems con otros.
Anticipar la dificultad e incluir preguntas de todo rango de dificultad (casi siempre
conviene ms preguntas de dificultad media).
La dificultad no debe estar en la comprensin del tem.
Minimizar el tiempo de lectura.
Evitar el uso de negaciones (si se incluyen, subrayarlas), errores gramaticales y
ortogrficos.
En cuanto al nmero de opciones, con dos distractores es suficiente; pero si la prueba

es corta, es necesario un mayor nmero de distractores para evitar los efectos de los aciertos
aleatorios. Todos los distractores deben ser de longitud y lenguaje parecidos y tambin se
deben evitar los solapamientos entre ellos. Por supuesto, se deben evitar los llamados tems
defectuosos que son aquellos tems con ms de una respuesta correcta; aunque parezca
absurdo son errores que se siguen cometiendo con excesiva frecuencia. Por otro lado, se
deben evitar las opciones del tipo no lo s, todas las anteriores son correctas o ninguna
de las anteriores es correcta; as como balancear la posicin de la opcin correcta en las
diferentes preguntas para que no se site siempre en la misma opcin.
11
En las pruebas de rendimiento ptimo es muy importante tener en cuenta la
dificultad existente en crear las alternativas incorrectas, dado que no deben ser posibilidades
absurdas de respuesta que se puedan eliminar con cierto grado de sentido comn. Bien al
contrario, esas alternativas no ciertas deben ser elegidas entre los errores o confusiones que
usualmente tienen las personas que no conocen la respuesta correcta de la pregunta en
cuestin. Deben estar escritas en lenguaje tcnico y ser plausibles para quien no conoce la
respuesta, evitando en todo momento alternativas graciosas u otras que no seran elegidas
por nadie. Otra buena recomendacin en este sentido sera el uso de alternativas de respuesta
que son verdaderas para otras preguntas incluidas en el cuestionario. Desde luego, el
establecimiento de alternativas mltiples exige un claro conocimiento tanto del contenido a
evaluar como de las personas a las que va dirigida la prueba.
Otras recomendaciones a tener presente en las pruebas de rendimiento ptimo son:
-
El nmero de preguntas debe ser proporcional a la importancia dada a cada tema.

Corregir los aciertos obtenidos por azar.
Cuantos ms tems, mejor.
Respecto a la manera de formular las cuestiones en tests de rendimiento tpico

(declaraciones o afirmaciones ante las cuales se debe opinar), se han propuesto algunas
sugerencias que pueden ayudar a su correcta redaccin:
-
Utilizar el tiempo presente.

Deben ser relevantes, en el sentido de que su contenido debe relacionarse
claramente con el rasgo.
Contenido claro, evitando excesiva generalidad. Frases cortas, simples e
inteligibles. Evitar incluir dos contenidos en un tem.
Tener en cuenta que lo que se dice en la declaracin pueda ser asumido por
alguien, y no por todos.
En escalas de actitudes, no plantear la existencia o no de hechos, sino el
posicionamiento personal sobre la afirmacin. Redactar tems que discriminen
entre los de actitud positiva y los de actitud negativa.
Para minimizar la aquiescencia (tendencia a responder afirmativamente,
independientemente del contenido por el que se pregunta) conviene redactar tems
de modo directo e inverso (declaraciones tanto en sentido positivo como en
sentido negativo). A posteriori, se puede comprobar cmo una persona ha
respondido a los tems directos e inversos. Tambin puede comprobarse que la
correlacin entre ambos tipos de tems es alta.
Evitar el uso dobles negaciones (no, ninguno, nunca,...) y de universales (todo,
siempre, nada,...).
En lo posible, aunque no es fcil, se debe minimizar la posibilidad de deseabilidad
social (emitir respuestas socialmente aceptables para transmitir una imagen
positiva). Puede deberse a varias cosas: desajuste psicolgico, insinceridad
consciente,... El grado de deseabilidad social que manifiestan los tems puede
evaluarse mediante jueces, y comparar las respuestas de una persona con estas
valoraciones. En tests de personalidad puede incluirse una escala de sinceridad.
12
El nmero de categoras que se suelen incluir en este tipo de tems es usualmente de
cinco ya que, a partir de ese nmero de categoras no mejoran las propiedades psicomtricas
de los tems. Adems, un nmero muy elevado de categoras (siete u ocho) lleva a
inconsistencias en las respuestas, que es una fuente de error. Un nmero muy reducido (dos
tres) lleva a poca discriminacin (menor variabilidad) y a reducir la fiabilidad, aunque
siempre puede compensarse con un mayor nmero de tems. No obstante, en poblaciones
especiales (nios, discapacitados, mayores) se aconseja el uso de un menor nmero de
categoras.
Tambin se ha planteado en tems de rendimiento tpico (principalmente en escalas de
actitudes o tests de personalidad donde no se pide el grado de frecuencia de un
comportamiento) si es correcto o no la inclusin de una categora central en las opciones de
respuesta (indiferente, neutral, dudo, no s). Podran generar problemas ya que
muchas veces son elegidas por aquellas personas que no se comprometen con lo que se les
est preguntando, que el enunciado les resulta ambigo o simplemente que ignoran el
contenido del enunciado. En realidad, deberan ser seleccionadas por las personas
autnticamente indecisas. La investigacin en este sentido nos dice que los indicadores
psicomtricos de los tems no se alteran mucho con o sin categora central, cuando el nmero
de categoras es mayor de tres. En todo caso, se puede comprobar si las personas con nivel
medio en el total del test tienden a elegir ms frecuentemente las categoras centrales.
4.- CUANTIFICACIN DE LAS RESPUESTAS

Una vez establecido el formato de respuesta que se considera ms apropiado para el
caso, y de cara al estudio psicomtrico de la prueba, es preciso decidir la manera de
cuantificar los posibles resultados a las cuestiones. En general, para los tems de
cuestionarios de rendimiento ptimo se cuantificar con 1 el acierto y con 0 el error, de tal
manera que la puntuacin directa de un sujeto en un cuestionario determinado ser igual al
nmero de tems que ese sujeto acierta.
La cuantificacin de las respuestas a tems de pruebas de rendimiento tpico requiere ciertos
matices. Dado un formato de respuesta determinado (opcin binaria, categoras ordenadas o
adjetivos bipolares) es necesario cuantificar las posibles respuestas a un tem teniendo en
cuenta que la alternativa con mayor valor sea la que indique mayor nivel de rasgo, aptitud y
opinin.
Por ejemplo, para un tem con formato de respuesta de opcin binaria (acuerdo/desacuerdo)
puede cuantificarse el acuerdo como 1 y el desacuerdo como 2, o viceversa. Depende de que
el tem est planteado para medir de manera directa o inversa el constructo de inters. Estos
pueden ser 2 tems de un cuestionario de actitud ante al aborto voluntario:
tem A: "Abortar es matar".
De acuerdo ( ) En desacuerdo( )
tem B: El bienestar de la madre tambin importa.
De acuerdo ( ) En desacuerdo ( )
13
En el tem A, el acuerdo se puntuara con 1 y el desacuerdo con 2, ya que estar en
desacuerdo con esa afirmacin indica una actitud ms positiva hacia el aborto voluntario. En
el tem B, sin embargo, el acuerdo se puntuara con 2 y el desacuerdo con 1, ya que estar de
acuerdo con esa afirmacin indica una actitud ms positiva hacia el aborto.
Si el formato de respuesta es de n categoras ordenadas, las diversas categoras se
cuantificarn normalmente desde 1 hasta n, teniendo en consideracin (como en el caso
anterior) la direccin de la afirmacin o cuestin. Por ejemplo, para 5 categoras, las dos
posibles cuantificaciones sern:
Muy en desacuerdo
Bastante en desacuerdo
1
5
2
4
Neutral Bastante de acuerdo Muy de acuerdo
3
3
4
2
5
1
Tambin se puede asignar el 0 a la categora central, valores negativos a las categoras

que se encuentran a la izquierda y positivos a las que se encuentran ubicada a la derecha.
En estos casos, la puntuacin directa de un sujeto en un test (o subtest) resulta de sumar las
cantidades asignadas por el constructor de la prueba a las diferentes respuestas que el sujeto
ha emitido; segn esto, convendra cuantificar las diversas alternativas con valores entre 1 y n
para evitar una puntuacin directa negativa.
5.- ANLISIS DE TEMS
Los tems o cuestiones se han formulado de manera lgica para que midan (y lo hagan bien)
el constructo, variable, o rasgo que interesa evaluar con el cuestionario. Ahora bien, el grado
en que cada tem es un "buen medidor" del rasgo de inters es algo que se puede comprobar
estadsticamente de manera sencilla si obtenemos tres indicadores para cada tem:
a) El ndice de dificultad.
b) El ndice de homogeneidad.
c) El ndice de validez.
Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos representativa de
la poblacin a la que va dirigida la prueba (se aconseja entre 5 y 10 veces ms sujetos que
tems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datos
de sujetos x tems:
14
tems
1
3................... n
Sujeto n 1
Sujeto n 2
Sujeto n 3
.
.
.
.
.
.
Sujeto n N
Un elemento aij de esta matriz indica el valor asignado a la respuesta que da el sujeto i
al tem j. Sumando por filas podemos obtener las puntuaciones directas (X) de los sujetos en
el total del test.
Veamos cmo se obtienen (y qu sentido tiene su obtencin) los tres ndices citados
anteriormente.
5.1.- NDICE DE DIFICULTAD
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestin,
por lo que slo tiene sentido su clculo para tems de tests de rendimiento ptimo.
El ndice de dificultad de un tem j se define como el cociente entre el n de sujetos que lo
han acertado (Aj) y el n total de sujetos que lo han intentado resolver (Nj)
Dj =
Aj
Nj
Atendiendo a la disposicin de datos en la matriz expuesta ms arriba, el ndice de

dificultad de un tem (columna) j ser el cociente entre el n de unos y el total de unos y ceros
que tiene la columna. Los sujetos que han omitido el tem (no han contestado) no se
contabilizan en Nj.
Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de una muestra de 10
personas a un test formado por 6 tems dicotmicos (1 indica acierto y 0 error):
15
tems
Sujetos
1
2
3
4
5
6
7
8
9
10
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
1
0
0
1
1
0
1
0
0
1
0
0
1
0
1
1
-
1
0
1
1
0
0
0
1
1
1
1
1
1
1
1
1
3
2
2
2
3
2
3
1
2
2
Aj
Nj
10
10
Dj
0.5
0.29
0.75 0.43 1
Con estos resultados podemos comprobar varios aspectos de la interpretacin de Dj:

- El valor mnimo que puede asumir Dj es 0 (ningn sujeto acierta el tem) y el valor
mximo 1 (todos los sujetos que lo intentan lo aciertan).
- A medida que Dj se acerca a 0 indica que el tem ha resultado muy difcil; si se
acerca a 1, que ha resultado muy fcil; y si se acerca a 0,5, que no ha resultado ni fcil
ni difcil.
- Dj est relacionado con la varianza de los tems: Si Dj es 0 1, la varianza es igual a
cero; a medida que Dj se acerca a 0,5, la varianza del tem aumenta. De nada sirve un
tem con Dj = 0 o Dj = 1, ya que no discriminara entre los diferentes sujetos (todos
aciertan o todos fallan).
Al disear un cuestionario de rendimiento ptimo, al inicio se sitan los tems ms fciles
(con mayor Dj); en la parte central, los de dificultad media (entre 0,30 y 0,70); y al final, los
ms difciles (con menor Dj). El nmero de tems de cada categora de dificultad que deben
incluirse en el test depende de los objetivos que quiera conseguir la persona que disea el
cuestionario. En general, la mayor parte de los tems deben ser de dificultad media.
16
5.2.- NDICE DE HOMOGENEIDAD
El ndice de homogeneidad, llamado a veces ndice de discriminacin, de un tem
(Hj) se define como la correlacin de Pearson entre las puntuaciones de los N sujetos en el
tem j y las puntuaciones X en el total del test:
Hj= rjx
Segn la disposicin de la matriz de datos, para obtener los Hj de los tems, debemos
calcular la correlacin entre las columnas j y la columna X de puntuaciones directas en la
prueba.
Ejemplo: Supongamos un test formado por 3 tems con formato de respuesta de categoras
ordenadas, que se valoran entre 0 y 5. Despus de aplicarse a un grupo de 5 sujetos se
obtienen los siguientes datos:
tems
Sujetos
1
2
3
4
5
2
3
5
0
4
3
1
4
1
3
5
0
5
0
0
10
4
14
1
7
Puede comprobarse que los ndices de homogeneidad de los 3 elementos son:

H1= r1x= 0,75
H2= r2x= 0,94
H3= r3x= 0,86
El ndice de homogeneidad de un tem nos va a informar del grado en que dicho tem est
midiendo lo mismo que la prueba globalmente; es decir, del grado en que contribuye a la
homogeneidad o consistencia interna del test. Los tems con bajos ndices de homogeneidad
miden algo diferente a lo que refleja la prueba en su conjunto. Si con el test se pretende
evaluar un rasgo o constructo unitario, deberan eliminarse los que tienen un Hj prximo a
cero.
En ocasiones, un test est formado por diferentes subtests con contenidos distintos. En este
caso, los Hj deben obtenerse con relacin a las puntuaciones directas del subtest concreto.
Cuando un Hj es negativo y alto, debemos cuestionar el sistema de cuantificacin de las
respuestas que se ha seguido en ese tem. Si un tem obtiene una correlacin negativa y alta
con el total de la prueba, seguramente es debido a que se ha cuantificado errneamente el
tem (se ha tomado como directo siendo inverso, o viceversa).
17
Cuando un test tiene un nmero pequeo de tems, resulta ms apropiado obtener el
ndice de homogeneidad corregido (rj,x-j). Consiste en correlacionar las puntuaciones en un
tem con las puntuaciones en el total del test despus de restar de este total las puntuaciones
del tem cuyo ndice queremos obtener. En el ejemplo precedente, el ndice de homogeneidad
corregido para el tem 1 ser 0.49, resultado de correlacionar la 1 columna de la tabla (2, 3,
5, 0, 4) con la columna (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3). Anlogamente, los
ndices de homogeneidad corregidos para los tems 2 y 3 son, respectivamente, 0.89 y 0.54.
Como resulta lgico suponer, el Hj corregido de un tem suele ser inferior a su Hj sin corregir.
5.3.- NDICE DE VALIDEZ
Las puntuaciones de los N sujetos en un tem j pueden correlacionarse tambin con
las que estos sujetos obtienen en un criterio de validacin externo al test (Y); esta correlacin
define el ndice de validez del tem j:
Vj= rjy
El criterio de validacin "Y" es una medida diferente del test para reflejar el mismo
rasgo u otro muy relacionado, de tal manera que si el test mide lo que se pretende, debera
correlacionar de forma elevada con el criterio. Por ejemplo, un criterio para validar un test de
inteligencia verbal puede ser otro test que incluye cuestiones verbales; los supervisores de
unos trabajadores podran valorar el grado de motivacin de cada uno y utilizar estas
valoraciones como el criterio de validacin de un test de motivacin laboral; el total de ventas
en pesetas que realizan los vendedores puede ser un buen criterio para validar un test de
aptitud para la venta.
Supongamos que partimos de los datos del ejemplo precedente, y que conocemos las
puntuaciones directas de las 5 personas en un criterio Y:
Sujeto: 1 2 3 4 5
Y:
5 3 6 0 6
Los ndices de validez de los tres tems sern:

V1= r1Y = 0,87
V2= r2Y = 0,88
V3= r3Y = 0,54
Los elementos que tengan una correlacin con el criterio prxima a cero deberan
eliminarse de la prueba, en la medida que no contribuyen a evaluar el rasgo que se pretende
medir. Si lo que se pretende es seleccionar los tems que ms contribuyen a la validez del
cuestionario, de entre los tems de igual varianza, seran preferibles los que tienen alto Vj y
bajo Hj.
18
6.- ANLISIS DE OPCIONES INCORRECTAS DE RESPUESTA
Muy en relacin con el anlisis de tems se encuentra el tema del estudio de los
patrones de respuesta que se han dado a las diferentes alternativas de cada tem. Para un tem
concreto de una prueba de rendimiento ptimo, lo ideal es que la alternativa seleccionada en
mayor medida sea la correcta; cada una de las alternativas incorrectas del tem debe tambin
ser seleccionada por un nmero de personas que, aun siendo inferior al que selecciona la
alternativa correcta, ratifique como adecuadas (como bien planteadas) dichas alternativas
incorrectas.
Observemos los siguientes porcentajes de respuesta obtenidos en las diferentes opciones de
tres tems de un determinado test:
tem
Opcin correcta
1
2
3
b
c
a
Porcentaje de respuesta
a
16
35
60
40
15
1
15
21
21
14
17
18
15
12
0
El patrn de respuestas obtenido para el tem 1 es adecuado, pues la mayor parte de la

muestra selecciona la alternativa correcta, mientras que las incorrectas son seleccionadas por
un porcentaje parecido de personas. El tem 2 seguramente no es muy adecuado, pues la
muestra selecciona en mayor grado una alternativa incorrecta como la buena; al menos,
habra que reformular esa alternativa incorrecta. Para el tem 3, los problemas se refieren a
dos alternativas incorrectas que apenas si son seleccionadas por la muestra; tambin habra
que reformular esas dos opciones de respuesta.
7.- CORRECCIN DE LOS EFECTOS DEL AZAR
En los tests formados por tems de opcin mltiples de las que slo una es correcta,
podemos sobrestimar la puntuacin directa de una persona dado que alguno de sus aciertos ha
podido producirse por azar. El problema entonces consiste en establecer un procedimiento
para descontar del nmero total de aciertos (A) los que se han producido por azar (Aa).
Si asumimos que, cuando no se conoce la respuesta correcta a un tem, todas las alternativas
de respuesta son equiprobables, la probabilidad de acertar al azar ese tem se puede establecer
como:
P (Aa) = 1/n
siendo n el nmero de alternativas del tem.
19
De la misma forma, la probabilidad de errar el tem ser:
P(E) = 1 - (1/n) = (n-1) / n
Llamemos Ra el n de respuestas aleatorias que proporciona (es decir, el nmero de tems
que ha contestado sin saber la solucin). De las Ra, algunas sern aciertos aleatorios (Aa) y
otras sern errores (E). Nuestro objetivo es estimar los Aa para descontarlos del nmero total
de aciertos que ha tenido en realidad la persona. Lo haremos de la siguiente forma:
El n total de errores se puede establecer como el producto del valor Ra por la probabilidad
de cometer un error:
E = Ra
n 1
n
Si despejamos Ra de esta expresin, podremos estimarla a partir de datos conocidos (E y n):
Ra =
n
E
n 1
Siguiendo el mismo razonamiento, el nmero de aciertos aleatorios se puede estimar

multiplicando el valor Ra por la probabilidad de cometer un acierto por azar (Aa):
Aa = Ra
1
n
Si realizamos las sustituciones oportunas, podemos llegar a estimar Aa:

Aa =
n
1 1
E = E
n 1 n n
Esta va a ser la frmula para estimar Aa, a partir de los errores cometidos y del nmero de
alternativas que tienen los tems. Podemos observar que cada error se pondera por la
expresin 1/(n-1), lo que significa que por cada error hay que descontar el resultado de ese
cociente: en tests de 2 alternativas de respuesta, hay que descontar 1 punto por cada error; en
tests de 3 alternativas, hay que descontar 0.5 por cada error; en tests de 4 alternativas, hay que
descontar 0.33 puntos por cada error; y as sucesivamente.
La puntuacin directa corregida de una persona en el test se obtiene entonces haciendo:
Xc = A - Aa
20
Ejemplo: Un test de conocimientos del idioma ingls est formado por 140 tems con 5
opciones de respuesta cada uno. A continuacin se detallan el n de aciertos (A), errores (E) y
omisiones (O) que obtuvieron 3 personas:
Persona
1
2
3
112
110
109
28
12
0
0
0
18
31
Si atendemos nicamente al nmero de aciertos obtenidos, parece claro que quien ms

ingls sabe es la persona 1, seguida de la 2 y en ltimo lugar la persona 3. Sin embargo,
corrigiendo los efectos del azar, obtenemos las puntuaciones directas corregidas siguientes:
Xc1 = 112
28
= 105
4
Xc 2 = 110
12
= 107
4
Xc3 = 109
0
= 109
4
Podemos comprobar que la correccin afecta sensiblemente al orden que establecemos

respecto al dominio del idioma ingls. Adems, si nos fijamos en la correccin hecha para la
persona 3, vemos que no se le ha descontado nada; esto es debido a que no cometi ningn
error.
21
EJERCICIOS
1.
A continuacin se expone una escala de actitud favorable ante las drogas. Cada
frase se responde con N (nunca), PV (pocas veces), AV (a veces), MV (muchas
veces) o S (siempre).
a) A menudo me influyen ms las opiniones de los dems que las mas propias . . .
b) Evito vivir situaciones lmites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
c) No me importara tomar estimulantes para disminuir la sensacin de fatiga
fsica o mental en el trabajo
........................................
d) Me considero capaz de resolver un problema por mi mismo . . . . . . . . . . . . . . . .
e) Me gustara decir NO, pero no puedo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
______
______
______
______
______
Las respuestas de 4 personas a la escala han sido las siguientes:

tem a
tem b
sujeto 1
PV
sujeto 2
PV
MV
sujeto 3
sujeto 4
MV
tem c
tem d
tem e
MV
AV
MV
AV
MV
AV
MV
PV
A partir de la informacin anterior, complete la siguiente tabla de datos. Para ello

deber obtener las puntuaciones en cada tem y en el total de la escala:
tem a
tem b
tem c
tem d
tem e
TOTAL
sujeto 1
sujeto 2
sujeto 3
sujeto 4
2.
Diga si las siguientes afirmaciones referidas al ndice de dificultad (Dj) son
verdaderas o falsas.
a) Slo tiene sentido su clculo en pruebas de rendimiento ptimo.

b) Se deben seleccionar slo aquellos tems con Dj prximos a 1.
c) Si un tem tiene una alta varianza, su ndice de dificultad ser alto.
d) A un tem de baja varianza le corresponde necesariamente un ndice de dificultad bajo.
22
3.
A continuacin se ofrece una matriz tems por sujetos:
a) Cul es el tem ms fcil?

b) Cul es el ms difcil?
c) Cul es el tem en el que las personas muestran ms variabilidad?
d) Cul es en el que muestran menos variabilidad?
sujeto 1
sujeto 2
sujeto 3
sujeto 4
sujeto 5
sujeto 6
tem 1
1
1
0
1
1
0
tem 2
1
1
1
1
1
1
tem 3
0
1
0
0
0
1
item 4
1
1
0
0
1
0
tem 5
tem 6
1
0
0
0
0
0
0
0
4.
Responda a las siguientes afirmaciones indicando si lo que se dice es verdadero o
falso. Justifique sus respuestas.
a) El ndice de homogeneidad de un tem indica en que grado mide lo mismo que el test.
b) Un tem con un Hj bajo siempre debe ser descartado en un proceso de seleccin.
c) El ndice de homogeneidad permite ver en qu medida un tem permite predecir un
criterio.
d) Cuando construimos un cuestionario que mide varios rasgos debemos rechazar
aquellos tems que correlacionen poco con la puntuacin total en el test.
e) Un tem homogneo, pero con un bajo ndice de validez, no indica necesariamente que
est mal construido, sino que puede deberse a que el criterio seleccionado sea poco
adecuado.
5.
Un test tiene 3 tems dicotmicos y su media es 1.7. Sabemos que no se han
dejado tems sin responder y que
Dj
Sj2
Hj
Vj
tem 1
?
0.25
0.6
0.4
tem 2
?
?
0.4
0.3
tem 3
0.8
?
0.2
0.5
a) Complete la tabla.
b) Atendiendo al ndice de dificultad, cul es el peor tem?
c) Atendiendo al ndice de homogeneidad, cul es el peor tem?
d) Atendiendo exclusivamente al ndice de validez, cul es el peor tem?
23
6.
Se ha construido una pequea prueba de 6 elementos de Verdadero-Falso, para
realizar una primera valoracin de la rapidez visomotora de las personas que desean
obtener el carnet de conducir. Un grupo de 10 personas respondi al test y a una prueba
de agilidad psicomotora, que se consider como un criterio adecuado de validacin. La
siguiente tabla recoge las respuestas del grupo a los elementos del test y sus puntuaciones
en el criterio.
sujeto 1
sujeto 2
sujeto 3
sujeto 4
sujeto 5
sujeto 6
sujeto 7
sujeto 8
sujeto 9
sujeto 10
tem 1
1
1
1
1
0
1
1
0
1
1
tem 2
1
1
0
0
1
1
0
0
1
1
tem 3
0
1
0
1
0
0
1
1
0
1
tem 4
1
0
1
1
0
0
1
1
1
1
tem 5
1
1
0
1
0
1
0
1
1
1
tem 6
1
1
1
0
0
1
0
1
1
1
Y
12
11
7
8
4
10
7
10
11
12
a) Diga cul es el tem con mayor ndice de dificultad.

b) Obtenga un indicador del grado en el que el elemento 2 mide lo mismo que la prueba.
c) Obtenga la puntuacin directa corregida para la persona 8.
d) Obtenga el grado en que el tem 5 mide lo mismo que el criterio Y.
7.
Dj
Hj
Vj
Los indicadores de cuatro tems dicotmicos han sido los siguientes:

tem 1
0,4
0,1
0,2
tem 2
0,8
0,5
0,1
tem 3
0,3
0,8
0,6
tem 4
0,6
0,4
0,3
a) El tem que menos contribuye a que el test de 4 tems mida un solo rasgo es el nmero
____ porque ______________________________________________.
b) El tem que menos contribuye a la validez del test de 4 tems es el nmero ____
porque _____________________________.
c) El tem que menos contribuye a la varianza del test de cuatro tems es el nmero _____
porque ____________________________________.
24
8.
A continuacin se ofrecen ciertos datos de un tem dicotmico: su ndice de
dificultad, varianza, ndice de homogeneidad e ndice de homogeneidad corregido.
Identifquelos.
0.15 es _____________________________
0.24 es _____________________________
0.40 es _____________________________
0.53 es _____________________________
9.
En un test de rendimiento ptimo, un tem tiene 4 posibles respuestas y ha sido
respondido por 350 personas. 100 personas han elegido cada una de las alternativas
incorrectas y 50 personas, la correcta.
a) Es un tem adecuado o debera ser modificado?
b) Cunto vale su ndice de dificultad?
c) Cuanto vale su varianza?
10.
Una persona completa un test de 50 tems. Acierta 30 y falla 4. Su puntuacin
corregida (para eliminar posibles aciertos por azar) ha sido 29 puntos. Cuntas
alternativas tiene cada tem?
11.
Un examen consta de 25 preguntas verdadero-falso, que se han puntuado como
0 o 1. A continuacin se ofrecen las puntuaciones sin corregir (X) y corregidas para
eliminar los posibles aciertos por azar (Xc) de cinco personas en el examen. Diga
razonadamente qu personas han dejado preguntas sin contestar.
Xc
sujeto 1
20
18
sujeto 2
15
sujeto 3
25
25
sujeto 4
17
12
sujeto 5
23
22
12.
Creamos un test para medir conocimientos sobre el cdigo de la
circulacin. Los tems son de opcin mltiple con 3 opciones de las que slo una es
correcta. Las medias de tres tems del test han sido las siguientes: 0.1 (tem 1), 0.6 (tem
2) y 1 (tem 3). Responda razonadamente.
a) Qu tem es ms difcil?
b) Es posible que la mitad de la muestra haya fallado simultneamente los dos primeros
tems?
25
c) Sabiendo que en ninguno de los tems ha habido omisiones, Cunto vale la varianza
del tem de ms varianza de los tres?
d) A Laura le ha correspondido en el test una puntuacin sin corregir de 20 y una
puntuacin tras corregir los aciertos por azar de 16 Cuntos errores ha cometido?
13.
Una muestra de 200 personas responde a un test de rendimiento ptimo de tres
alternativas. La siguiente tabla muestra las personas que eligieron cada alternativa en cada
tem, y cual es en cada uno la alternativa correcta.
tem 1
tem 2
tem 3
tem 4
tem 5
Alternativa
a
30
140
90
70
60
Alternativa
b
80
0
10
80
50
Alternativa
c
90
60
100
50
90
Alternativa
correcta
a
a
c
b
c
a) Sabiendo que no hubo omisiones en ninguno de los tems, calcule la media del tem 1.
b) Cul es el tem ms difcil? Razone su respuesta.
c) A partir del estudio de las alternativas incorrectas algn tem debera ser modificado?
Razone su respuesta
14.
Un test de 12 tems est formado por 2 escalas que miden constructos distintos. La
escala 1 est integrada por los primeros 4 tems y la escala 2 por los ltimos 8 tems. Las
siguientes dos tablas muestran los ndices de homogeneidad (H) y homogeneidad
corregidos (HC) de los tres primeros tems en relacin al test de 12 tems y en relacin a
la escala 1.
Tabla 1
H
HC
tem 1
0.572
0.456
tem 2
0.454
0.281
tem 3
0.575
0.437
Tabla 2
H
HC
tem 1
0.562
0.237
tem 2
0.622
0.205
tem 3
0.611
0.233
Diga razonadamente qu tabla contiene los H y HC de los tres tems en relacin al test
completo.
26
SOLUCIONES
1.
item
b
4
item
c
4
tem
d
5
tem
e
5
TOTAL
sujeto 1
tem
a
5
sujeto 2
12
sujeto 3
sujeto 4
16
23
2.
a) Verdadero
b) Falso
c) Falso
d) Falso
3.
Tal y como se desprende de la tabla siguiente:

a) El tem ms fcil es el nmero 2, ya que todos los sujetos lo aciertan.
b) El tem ms difcil es el nmero 6, ya que nadie lo acierta.
c) El tem en el que hay ms variabilidad es el nmero 4, porque presenta la mayor
varianza.
d) Los tems de menos variabilidad son los nmeros 2 y 6, porque la varianza es
nula en ambos.
Dj
Sj2
4.
tem 1
0,67
0,22
tem 2
1
0
tem 3
0,33
0,22
tem 4 tem 5 tem 6

0,5
0,25
0
0,25
0,19
0
a) Verdadero, dado que es una correlacin entre las puntuaciones en el tem y en el

test.
b) Falso. Siempre que se pretenda medir un nico rasgo con el test, debe ser
descartado; si se pretenden medir varios rasgos, podra ser admitido.
c) Falso, la afirmacin hace referencia al ndice de validez.
d) Falso. Al disear un test que mida varios rasgos, se pretende buscar tems que
correlacionen con los tems que miden el mismo rasgo, y que adems no
correlacionen con otros tems que miden un rasgo diferente. En esta situacin, la
correlacin entre los tems y las puntuaciones del test pueden ser bajas.
e) Verdadero. El tem mide lo mismo que el test, pero no mide lo mismo que el
criterio, que podra ser poco adecuado.
27
5.
a) D1 = 0,5
D2 = 0,4
S22 = 0,24
S32 = 0,16
b) Los 3 son buenos, pero el que menos varianza tiene es el 3 y, en ese sentido, es
algo peor.
c) El tem 3.
d) El tem 2.
6.
a) El tem 1: D1 = 0,8
b) H2 = 0.305
c) La persona nmero 8: Xc = 2
d) V5 = 0.84
7.
a) El tem 1 (menor H).

b) El tem 2 (menor V-H).
c) El tem 2 (D ms distante de 0.5).
8.
Por ser un tem dicotmico, D(1-D) = S2. Por lo tanto, el producto de uno de los
valores dados (ndice de dificultad) por uno menos ese valor ha de dar otro valor (la
varianza). De los valores dados, el nico valor que cumple lo anterior es 0.4, pues
(0.4)(1-0.4) = 0.24, que es otro valor dado. Por lo tanto, D= 0.4, y la varianza es 0.24.
Dado que el ndice de homogeneidad corregido suele ser menor que el ndice de
homogeneidad son corregir, 0.15 y 0.53 sern los ndices de homogeneidad corregidos
y sin corregir, respectivamente.
9.
a) Debera ser modificado. La alternativa ms seleccionada debera ser la correcta.

b) Dj = 50/350 = 0.14
c) Sj2 = (0.14)(0.86) =0.12
10.
n=5
Xc = A E/(n-1). Luego, 29 = 30 4/(n-1)
11.
Sujeto
Preguntas sin contestar
12
a) El tem 1, pues tiene el menor (0.1) ndice de dificultad.

b) No. Pues el tem 2 ha sido acertado por el 60% de la muestra.
c) Var (item 1) = (0.1)(0.9) = 0.09
Var (item 2) = (0.6)(0.4) = 0.24
Var (item 3) = (1)(0) = 0
El tem de ms varianza es el tem 2 (0.24).
d) Xc = X E/2. 16 = 20 E/2. Luego, E = 8.
13.
a) 30/200 = 0.15
b) El 1, pues su ndice de dificultad (0.15) es el ms bajo. En los otros tems sus
ndices de dificultad son: 0.7 (tem 2), 0.5 (tem 3), 0.4 (tem 4) y 0.45 (tem 5)
c) El 1, pues las opciones incorrectas son ms elegidas que la correcta. El 2, pues una
alternativa no es elegida. El 3, pues las alternativas incorrectas no tienes frecuencias
parecidas
14.
HC produce resultados tanto ms diferentes de H cuanto menor sea el nmero de

tems. Si obtenemos la diferencia entre H y HC en cada tabla obtenemos:
Tabla 1:
0.116
0.173
0.138
Tabla 2:
0.325
0.417
0.378
Luego el test largo, de 12 tems, es el que tiene diferencias menores: Tabla 1.

tema1TyP 4

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

tema1TyP 4

Uploaded by

Copyright:

Available Formats

1

Mediante las pruebas de rendimiento tpico se quiere reflejar el comportamiento

o se ordenan numricamente las categoras sucesivas:

3.2.- REDACCIN DE TEMS

La idea principal del tem debe estar en el enunciado.

En cuanto al nmero de opciones, con dos distractores es suficiente; pero si la prueba

El nmero de preguntas debe ser proporcional a la importancia dada a cada tema.

Respecto a la manera de formular las cuestiones en tests de rendimiento tpico

Utilizar el tiempo presente.

4.- CUANTIFICACIN DE LAS RESPUESTAS

Neutral Bastante de acuerdo Muy de acuerdo

Tambin se puede asignar el 0 a la categora central, valores negativos a las categoras

Atendiendo a la disposicin de datos en la matriz expuesta ms arriba, el ndice de

Con estos resultados podemos comprobar varios aspectos de la interpretacin de Dj:

Puede comprobarse que los ndices de homogeneidad de los 3 elementos son:

Los ndices de validez de los tres tems sern:

El patrn de respuestas obtenido para el tem 1 es adecuado, pues la mayor parte de la

Si despejamos Ra de esta expresin, podremos estimarla a partir de datos conocidos (E y n):

Siguiendo el mismo razonamiento, el nmero de aciertos aleatorios se puede estimar

Si realizamos las sustituciones oportunas, podemos llegar a estimar Aa:

Si atendemos nicamente al nmero de aciertos obtenidos, parece claro que quien ms

Podemos comprobar que la correccin afecta sensiblemente al orden que establecemos

Las respuestas de 4 personas a la escala han sido las siguientes:

A partir de la informacin anterior, complete la siguiente tabla de datos. Para ello

a) Slo tiene sentido su clculo en pruebas de rendimiento ptimo.

A continuacin se ofrece una matriz tems por sujetos:

a) Cul es el tem ms fcil?

a) Diga cul es el tem con mayor ndice de dificultad.

Los indicadores de cuatro tems dicotmicos han sido los siguientes:

Tal y como se desprende de la tabla siguiente:

tem 4 tem 5 tem 6

a) Verdadero, dado que es una correlacin entre las puntuaciones en el tem y en el

a) El tem 1 (menor H).

a) Debera ser modificado. La alternativa ms seleccionada debera ser la correcta.

Preguntas sin contestar

a) El tem 1, pues tiene el menor (0.1) ndice de dificultad.

HC produce resultados tanto ms diferentes de H cuanto menor sea el nmero de

You might also like