Cap 2 Resumen - Largo

Técnicas e instrumentos para la recogida de información
CAPÍTULO 2: CARACTERÍSTICAS TÉCNICAS DE LOS

INSTRUMENTOS DE MEDIDA
El proceso de medición opera sobre un objeto, según

unas reglas –que definen el isomorfismo entre el objeto y
la unidad de medida-, y con una unidad de medida. Este
proceso nos lleva a construir unos instrumentos, que se
pasan al objeto en el acto de medición, teniendo como
resultado unos datos con los que se realizará un
tratamiento, generalmente estadístico.
2. TEORÍA CLÁSICA DE LOS TEST (TCT) Para evaluar la

calidad de los ítems los indicadores más utilizados son:
· Dificultad
· Discriminación
· Análisis de los distractores
· Fiabilidad
· Validez
· Dimensionalidad
2.1. Dificultad
Está en función del número de personas que contesten
de forma correcta al mismo.
Donde:
A= número de personas que acierten el ítem
N= número total de personas que responden al ítem.
ID=A∕N
En ítems de elección múltiple:
ID= p- =
Donde:
p= proporción de aciertos (índice de dificultad sin
corregir)
q=proporción de fallos
k=número de alternativas del ítem
A=aciertos
E=errores
N=total
El ID no es una propiedad intrínseca del ítem, su valor
depende de la muestra de sujetos a la que se aplique.
Los valores del índice de dificultad de un ítem se suelen clasificar en cinco categorías:
Muy fáciles ID por encima de 0’75
Fáciles ID comprendido entre 0’55

y 0’75
Normales ID comprendido entre 0’45

y 0’54
Difíciles ID comprendido entre 0’25

y 0’44
Muy difíciles ID por debajo de 0’25
En la construcción de test es aconsejable poner mayor

cantidad de ítems con una dificultad media y una
pequeña cantidad de ítems con dificultad alta y otra con
dificultad baja.
2.2. Discriminación
Determina la selectividad de la pregunta para distinguir o
diferenciar el grupo que tiene mayor cantidad de aciertos
en la misma, frente al de menos aciertos. Un ítem
discrimina cuando existe correlación positiva entre la
puntuación obtenida en el ítem con la puntuación
obtenida en el test, desde este punto de vista el índice de
discriminación da una idea de la homogeneidad del ítem
en relación al test. Va de -1 a +1.
P+ representa la proporción de individuos del extremo
superior que aciertan el ítem
p- representa la proporción de individuos del extremo
inferior que aciertan el ítem
Otra manera de valorar la discriminación de un ítem es

mediante el cálculo de la correlación obtenida entre las
puntuaciones del grupo en el ítem y en el test.
Esta correlación se denomina índice de discriminación o
de homogeneidad al ser un indicador del grado de
relación del ítem con el resto.
Si no se quita el ítem, a la hora de realizar los cálculos, la
fórmula a utilizar es la siguiente:
rix es la correlación ítem-test
Sx es la desviación típica del test
Si es la desviación típica del ítem
La correlación ítem-test se calculará con diferente

coeficiente de correlación en función del tipo de
distribución conjunta de las variables que se
correlacionan:
a) Si son dicotómicas el coeficiente (correlación de
Pearson de dos variables dicotómicas).
b) Si están dicotomizadas y se suponen provienen de
distribuciones normales, la correlación
tetracórica.
c) Una variable continua y otra dicotomizada, correlación
biserial.
d) Una variable continua y otra dicotómica, correlación
biserial puntual (aplicación de la correlación de Pearson
entre una variable dicotómica y una cuantitativa)
e) Dos variables continuas, correlación de Pearson.
Valores a la hora de calificar el grado de homogeneidad:
El ítem discrimina muy bien IH igual o mayor de 0’4

El ítem discrimina bien IH comprendido entre 0’3 y 0’39
El ítem discrimina poco IH comprendido entre 0’2 y 0’29
Ítem límite. Se debe mejorar IH comprendido entre 0’1 y 0’19
El ítem carece de utilidad para IH menor de 0’1

discriminar
Variabilidad y discriminación
La variabilidad en el test está relacionada con el índice de
discriminación
donde:
Sx= desviación típica del test
Sj= desviación típica del ítem
rjx= índice de discriminación del ítem j
2.3. Análisis de distractores

Distractores son las diferentes alternativas falsas o
respuestas incorrectas que tiene un ítem.
Todas las alternativas deberían tener la misma posibilidad
de ser elegidas. Para comprobar que esto es así se puede
plantear una tabla en la que figuren las frecuencias de
elección de cada alternativa. Después utilizaremos el ji-
cuadrado para comprobar la independencia de las
elecciones. Ver ejemplo pag 63.
2.4. Índice de fiabilidad

Supongamos el modelo lineal clásico de medida
Modelo: X= V+e
Supuestos:
1. E(X)=V, la media de las puntuaciones empíricas es igual
a la puntuación verdadera
2. p(v,e)=0, la correlación entre la puntuación verdadera y
el error de medida es 0
3. p(ej,ek)=0, la correlación entre los errores de medida
es 0
donde X es la puntuación empírica, V la puntuación
verdadera y e el error de medida cometido en la
medición.
Un instrumento de medida es fiable si está libre de error
de medida. La fiabilidad es una condición necesaria,
aunque no suficiente de un instrumento de medida de
calidad.
La fiabilidad se cuantifica mediante el coeficiente de
fiabilidad (fiabilidad relativa) y con el error típico de
medida (fiabilidad absoluta).
El coeficiente de fiabilidad pxx´ se define como la
correlación entre las puntuaciones obtenidas por los
sujetos en dos formas paralelas de un test, X y X’.
La fiabilidad es un indicador de la probabilidad de fallo
que tiene nuestro instrumento.
De los supuestos del modelo lineal se deduce:
(1)
Y como var(X)=var(v)+var(e)
(2)
Error típico de medida
Si nos fijamos en el segundo aspecto de la fiabilidad,
tendremos que hablar de fiabilidad absoluta definida en
términos de error típico de la medida.
Si repetimos indefinidamente un test a un alumno, la
media de las puntuaciones nos indicará el verdadero valor
de la puntuación, de la misma forma la desviación típica
de las puntuaciones respecto a la media verdadera es el
error típico.
La estimación de estos parámetros será.-
Operando la fórmula (2) tenemos la expresión del error
típico de medida:
Las aplicaciones del error típico de medida son:

- Estimación de los límites entre los que se encuentra la
verdadera medida.
- Comparar las puntuaciones de varios sujetos en el
mismo instrumento o del mismo sujeto en diferentes
instrumentos.
Estimaciones empíricas del
coeficiente de fiabilidad
*FIABILIDAD COMO EQUIVALENCIA

Un instrumento es equivalente a cualquier otro que mida
el mismo aspecto que pretendemos medir.
Procedimiento de formas paralelas. El procedimiento
para su obtención es el siguiente: se toman dos muestras
de una misma población, es decir dos conjuntos de ítem,
que deben reunir:
1. Deben tener el mismo número de elementos.
2. La redacción y la estructura de cada elemento paralelo
debe ser la misma.
3. El contenido y el objetivo apreciado debe ser el mismo.
4. Los índices de dificultad deben ser iguales.
5. No debe existir diferencia significativa entre medias,
varianzas y covarianzas.
6. Las consignas que se den en la presentación deben ser
las mismas, para que ninguno resulte más atrayente que
el contrario.
7. Presentación idéntica.
En el planteamiento de las pruebas de referencia criterial,
uno de los coeficientes de fiabilidad más utilizado en
formas paralelas es el coeficiente k (kappa):
Donde Fc es la frecuencia para los elementos que
coinciden y Fa es la frecuencia de azar para los elementos
que coinciden y N, número de casos. El coeficiente tendrá
como valor máximo 1 y como mínimo 0
*FIABILIDAD COMO ESTABILIDAD

Nos fijamos en la constancia de las puntuaciones en un
sentido temporal. Dos aplicaciones del mismo
instrumento separadas por un tiempo variable.
Se medie con el llamado coeficiente de estabilidad.
La fórmula utilizada es: (EJ EN PAG 66)
Donde rxx es el coeficiente de correlación de Pearson

entre las mitades.
Existen dos problemas que puedan influir claramente en
los resultados: la memoria de los individuos ante la
repetición de la prueba y la motivación de los mismos.
*FIABILIDAD COMO CONSISTENCIA INTERNA.
Procedimiento de las dos mitades
El índice de fiabilidad (IF) de un ítem es función del índice
de discriminación y de la desviación típica del ítem
IF=Si Di (EJ PAG 69 CON EL ITEM 7)
donde:
Si es la desviación típica en el ítem i
Di índice de discriminación del ítem i
El grado de correlación entre ambas sub-muestras
determina el coeficiente de consistencia interna.
Para calcular la fiabilidad del test completo, como
consistencia interna de la escala, se utiliza el estadístico α
de Cronbach, estimador por defecto del coeficiente de
fiabilidad, es decir pxx’≥α.

Es el cociente entre la suma de las varianzas de los ítems,
dividida por la varianza total, ponderada por el número
de ítems de la prueba.
Como vemos, fiabilidad de un test está relacionada
directamente con el número de ítems, conforme
aumentamos su número aumenta su fiabilidad. Así que
esta fórmula nos sirve como predictor de la fiabilidad
cuando se aumenta la cantidad de ítems.
2.5. Validez
Un instrumento es válido si mide lo que dice medir.
La validez puede ser exigida respecto a:
-La construcción del test; para ellos se han de estudiar si
las cualidades o factores que queremos medir están
valorados en ese test.
-El contenido: las cuestiones que debe abarcar el
contenido de lo que se quiere medir.
-El criterio, que se logra con otras puntuaciones externas
al test, de modo que con ellas y a través de la correlación
con las puntuaciones del test pueda detectarse si éstas
son válidas.
Hay cuatro tipos de validez: contenido, predictiva,
concurrente y de constructo
*Otros autores incluyen la aparente.
VALIDEZ DE CONTENIDO
Es imprescindible sobre todo en pruebas de rendimiento.
La suficiencia es un problema de tamaño, ya que
necesitamos lograr la longitud adecuada de nuestro
instrumento de medida. Debe contener todas las facetas
que queremos medir, pero no debe ser penoso para el
evaluado
VALIDEZ PREDICTIVA
Es la capacidad que tiene la prueba para avanzar
expectativas sobre acontecimientos futuros. Ej.: Hemos
elaborado una prueba de comprensión lectora (x), y la
pasamos a los alumnos partiendo de la hipótesis que una
mayor comprensión lectora, redundará en un mayor
aprovechamiento en el estudio de las materias. Al final
del curso se calcula la correlación entre la prueba de
comprensión lectora (x) y los resultados académicos o
criterio (y).
La predicción es uno de los objetivos de todo trabajo
científico. La forma de obtener un indicador de esta
predicción, es determinar la correlación entre las
puntuaciones obtenidas por los sujetos en la prueba con
alguna otra medida.
Cuando se desea realizar pronósticos sobre una variable
externa (criterio) con el instrumento de medida
construido, se necesita valorar el grado de relación de
cada ítem con dicho criterio, esta relación se valorará con
el llamado índice de validez del ítem que no es otra cosa
que la correlación entre el ítem y el criterio. No implica
validez de contenido
VALIDEZ CONCURRENTE
Es una variante de la predictiva. En la la medida de la
validez predictiva el intervalo de tiempo entre la
aplicación de la prueba y la prueba criterio es más largo
que en el caso de la validez concurrente. Las medidas se
hacen simultáneamente con el fin de tomar decisiones en
un plazo breve. Tampoco implica validez de contenido
VALIDEZ DE ELABORACIÓN O DE CONSTRUCTO

Es llamada por algunos de hipótesis de trabajo. Permite ir
a la raíz del problema: “eso que medimos ¿qué es?”
El método utilizado para conseguir estos fines es el
análisis factorial de las tareas incluidas en la prueba.
Validez y longitud de una prueba
La validez se relaciona con la longitud y con la fiabilidad
de una prueba:
Rxy la nueva validez

rxy valor inicial del coeficiente de validez. Validez
primitiva
rxx la fiabilidad inicial
n cociente entre número de ítems finales y el número de
ítems iniciales (corregido del texto)
2.6. Dimensionalidad
Los test tienen como objetivo medir una variable de
interés. Que se puede concretar en una o más
dimensiones. Uno de los aspectos más importante a
medir es la dimensionalidad del test. Para realizar dicho
estudio la metodología más apropiada es el análisis
factorial de los ítems, con objeto de observar la
agrupación de los ítems en uno o más factores.
El análisis factorial es una técnica estadística de reducción
de dimensión que trabaja con la matriz de correlaciones o
covarianzas como entrada. Si los ítems son dicotómicos la
matriz de correlaciones se construirá con las
correlaciones tetracóricas y si los ítems son categóricos, la
matriz de correlaciones más apropiada será las
correlaciones policóricas.
Las técnicas de factorización más usadas son el método
de componentes principales y el método de ejes
factoriales.
3. TEORIA DE RESPUESTA AL ITEM (TRI)

Descripción de Metodologías
El modelo más desarrollado es la Teoría Clásica iniciada
por Spearman, que es un modelo de regresión lineal con
dos variables cuyo supuesto fundamental es que el
puntaje x de una persona en un test es la suma del
puntaje verdadero de esta persona más un error: X = V +
e.
El segundo modelo, surgido en los años 60 para
complementar el primero, se debe a Cronbach y otros, y
es el llamado de la Generalizabilidad que gracias al uso
específico del análisis de variancia hace posible analizar
las distintas fuentes de error que se presentan en los
puntajes mediante los conceptos de faceta, que es un
término introducido por Cronbach para designar cada una
de las características de la situación de medición que
puede modificarse de una ocasión a otra y por tanto,
hacer variar los resultados obtenidos (por ejemplo los
ítems de un test, las formas de codificar las respuestas, las
situaciones de examen, etc.).
El tercer modelo es la Teoría de Respuesta al Ítem (TRI),
inicialmente conocida como Teoría del Rasgo Latente
(TRL) o también como Teoría de Respuesta al Reactivo
(TRR). Su nombre es debido a que se consideran los ítems
como las unidades básicas de los tests.
De lo anterior se puede rescatar que una ventaja de
considerar otros enfoques es la oportunidad de estimar
mediciones psicológicas adicionales que no pueden ser
proporcionadas por la teoría clásica. Es importante tomar
en cuenta, que el enfoque TRI no contradice ni los
supuestos ni las conclusiones fundamentales de la teoría
clásica. Son solo enfoques que nos dan información
adicional, si es que la metodología empleada y los
requisitos adicionales se cumplen. Por ello el carácter de
estos modelos, es complementario a los de la teoría
clásica.
Teoría de Respuesta al Item
Se puede decir que la Teoría de Respuesta al Ítem (TRI) es
una conceptualización, que, partiendo de ciertos
conceptos básicos de medición y usando las herramientas
de la estadística y la matemática, busca encontrar una
descripción teórica para explicar el comportamiento de
datos empíricos derivados de la aplicación de un
instrumento psicométrico. Los parámetros estimados por
el modelo permiten entonces evaluar la calidad técnica de
cada uno de los ítems por separado y del instrumento
como un todo y a la vez estimar el nivel que cada
examinado presenta en el tema de interés. En un modelo
de TRI se asume que hay una variable latente (θ) (theta),
no observable directamente y que se desea estimar para
cada examinado a partir de las respuestas suministradas
por éste en el instrumento de medición. Además se asume
que para cada ítem o pregunta el comportamiento de las
respuestas dadas por los examinados puede ser modelado
mediante una función matemática que se denomina
Curva Característica del Ítem o CCI. (ver pag 102)
La Teoría de Respuesta al ítem (TRI) intenta brindar una

fundamentación probabilística al problema de medir
constructos latentes (no observables) y considera al ítem
como unidad básica de medición. La puntuación de la TRI
se centra exclusivamente en el ítem.
La puntuación de una prueba en el modelo TCT estima el
nivel del atributo como la sumatoria de respuestas de los
ítems; la TRI se centra exclusivamente en el ítem.
Tanto la teoría clásica de los test (TCT) como la TRI
abordan el mismo problema: tratar de calcular el error
cometido al medir variables de naturaleza psicológica o
pedagógica.
La diferencia fundamental entre la TCT y los diversos

modelos de la TRI o modelos del rasgo latente, es que la
relación entre el valor esperado y el rasgo latente en la
TCT es del tipo lineal X=V+e; mientras que en los diversos
modelos de la TRI las relaciones son del tipo exponencial
(Poisson, curva normal, distribución binomial, o modelos
logísticos de 1,2 o 3 parámetros)
En la TCT las características del test se definen en
términos de un grupo determinado que ha construido el
test, el baremo o las normas de interpretación de las
puntuaciones (GRUPO NORMATIVO) así resulta difícil
comparar los resultados de individuos sometidos a tests
distintos. El instrumento de medida no es independiente
del elemento medido.
Este problema se resuelve en la TRI cuyos resultados son
independientes del grupo examinado.
Para explicar mejor este punto imaginemos la siguiente

situación. Con el fin de medir el rendimiento en un tema
T, el profesor P aplica a sus alumnos dos pruebas, la
prueba I y la prueba II.
Supongamos que la prueba I contiene en su mayoría
preguntas con bajo nivel de complejidad, mientras que la
prueba II contiene preguntas en su mayoría con altos
niveles de complejidad. En otras palabras, la prueba I
resultó fácil y la prueba II resultó difícil para sus alumnos.
Esto arrojo resultados que presentan al alumno A como
de alto dominio del tema (prueba I) y luego como de bajo
dominio del tema (prueba II).
Lo anterior pone en evidencia que el juicio de valor acerca
del dominio del tema del alumno A es dependiente del
instrumento de medición. Si la prueba es fácil, el profesor
P dirá que el alumno A es bueno en el tema T, si la prueba
es difícil, el profesor P dirá que el alumno A es malo en el
tema T.
Uno de los fundamentos de la medición radica en el

hecho que el objeto medido debe ser independiente del
instrumento de medición. Por ejemplo, la longitud de mi
escritorio debe ser la misma si utilizo una regla o una
cinta métrica. La medida de la masa corporal debe ser la
misma si utilizo la balanza de baño, la del gimnasio o la
del médico. Lo mismo podemos decir de la estatura,
temperatura corporal, presión arterial y tantas otras
medidas. El juicio de valor no es el mismo si la presión
arterial es alta y luego baja para una misma persona.
Nosotros esperamos que el instrumento sea fiable y esté
debidamente calibrado para tener una medida más
precisa. De igual manera es deseable que las pruebas de
rendimiento se conviertan en instrumentos fiables y
calibrados que permita obtener una medida más precisa
del nivel de dominio del alumno examinado en un
determinado tema, contenido o área.
Con el modelo de Rasch podemos mejorar la construcción

de nuestras pruebas de rendimiento.
El modelo de Rasch se convierte en un modelo de
comportamiento deseable donde es posible la
construcción de una escala conformada por preguntas
según su nivel de dificultad. De esta forma es posible
obtener medidas más exactas del rendimiento del
alumno examinado.
Si el docente cuenta con un banco de preguntas con
niveles de dificultad conocidos es posible calibrar la
prueba de rendimiento. Con los resultados obtenidos en
la prueba podemos estimar la habilidad de los alumnos
examinados.
Si el docente no cuenta con un banco de preguntas es
posible realizar una estimación conjunta de los niveles de
dificultad de las preguntas y los niveles de habilidad de los
examinado:.
El modelo de Rasch postula que la probabilidad que tiene
un alumno de responder correctamente una pregunta
depende de la diferencia entre el nivel de habilidad de la
persona θ y el nivel de dificultad de la pregunta (b). Esto
supone ubicar θ y b en la misma escala con las mismas
unidades (logitos) lo cual se constituye en una ventaja del
modelo. Usualmente se consideran valores de θ y b
dentro del intervalo de -3 a 3.
Se están tratando como valores normalizados de la curva
normal.
Siguiendo un patrón lógico, un alumno con habilidad
estimada 1.2 debería responder correctamente las
preguntas de la prueba con niveles de dificultad menores
a 1.2 pero no podría responder correctamente aquellas
con niveles de dificultad mayores a 1.2.
Recuerde que el modelo es probabilístico y esto no
siempre ocurre así, sin embargo es lo lógico y por tanto lo
esperado.
En la realidad podemos encontrar respuestas que no
siguen un patrón lógico. Por ejemplo un alumno con
habilidad estimada de -0.7 responde correctamente
preguntas con niveles de dificultad de 1.5 y 2.1, u otro
alumno con habilidad estimada de 2.3 no responde
correctamente una pregunta con nivel de dificultad de -
0.9. En estos casos tanto el patrón de respuesta de los
alumnos junto como el ajuste estadístico correspondiente
proveen de la información necesaria para la estimación
de la habilidad.
3.1. Supuestos
El primer supuesto, unidimensionalidad, exige que la
respuesta al ítem esté determinada exclusivamente por
una variable, denominada rasgo latente.
El segundo supuesto, independencia local, exige que la
probabilidad de responder correctamente a un ítem sea
independiente de la probabilidad de responder a otro
cualquiera.
3.2 Modelos
Los postulados básicos de la TRI son los siguientes:
1. El resultado de un individuo en un ítem puede ser
explicado por un conjunto de factores llamados rasgos
latentes o aptitudes que simbolizan por ϴ.
2. La relación entre la respuesta de un sujeto a un ítem y
el rasgo latente subyacente puede describirse como una
función monótona creciente que se llama función
característica del ítem o curva característica del ítem
(CCI). Se cumple que a medida que la aptitud (ϴ)
aumenta la probabilidad de una respuesta correcta el
ítem también aumenta. Recordemos que en la TCT la
función era lineal X=V+e
3. Las estimaciones de la aptitud o rasgo latente (ϴ)
obtenidas con distintos ítem serían iguales y las
estimaciones de los parámetros de los ítems obtenidos en
distintas muestras de individuos serán iguales.
El modelo más utilizado es el de Rasch
Donde:
Pi(ϴ) representa la probabilidad de acertar el ítem i para
un valor de ϴ
bi expresa el índice de dificultad del ítem i
D es una constante que cuando toma el valor de 1’7 la
función logística se aproxima a la normal acumulada.
El parámetro ϴ es el rasgo latente no observado, es una
variable continua cuyo rango va del –infinito al + infinito.
No obstante se considera estandarizado (puntuaciones Z)
y su recorrido como en la curva normal irá de +3 a+3.
El modelo de dos parámetros toma la expresión:
En este caso hay un nuevo parámetro a, que representa

el índice de discriminación del ítem. A mayor valor de a
mas poder discriminativo tendrá el ítem. Su valor es
proporcional a la pendiente de la CCI en el punto
El modelo de tres parámetros toma la expresión:
El parámetro c representa la probabilidad de acertar el

ítem las personas sin conocimiento alguno del tema.
Desde la TRI resulta complicada la estimación de los
parámetros de los modelos, dicho proceso se denomina
calibración. Para emplear modelos TRI se requieren
muestras grandes (n>300) que hacen posible el ajuste a
cualquier modelo de uno, dos o tres parámetros. Para
muestras más pequeñas el mejor modelo es el de Rasch.
Para realizar el proceso de calibración, en primer lugar se

tendrá que estimar los parámetros y en segundo lugar
valorar la precisión de las estimaciones mediante
distintos procedimientos:
a) Correlación entre los valores simulados de los
parámetros y los estimados.
b) Calcular el índice de ajuste.
c) Calcular la bondad de ajuste de las curvas
características. Si se utiliza este criterio se puede calcular
los residuos estandarizados
nj número de sujetos en la categoría j

P(ϴj) valor de la curva característica del ítem (CCI) para el
nivel ϴj
Pe(ϴj) proporción de sujetos dentro de la categoría j que
superan el ítem
Q (ϴj) = 1- P(ϴj)
A mayor RE peor ajuste en las categorías en las que se
divida ϴ .Para ver el grado de ajuste se fija un nivel alto
de D ej. D=1.96, y se estudia el número de residuos que
supera dicho nivel.
3.3. Curva característica del test
La curva característica del test (CCT) permite transformar
los valores ϴ en puntuaciones verdaderas:
Donde:
PVj representa la puntuación verdadera que corresponde
a individuos con un nivel en el rasgo latente de ϴj
n el número de ítems del test
Pi(ϴj) el valor de cada CCI para ϴ=ϴj
La CCT es la relación entre la puntuación verdadera y la
escala de aptitud, así que si conocemos
automáticamente sabremos calcular el valor de la
puntuación verdadera para ese nivel de aptitud.
En los test de referencia criterial basados en estándares,
se fija la proporción de aciertos para un nivel de aptitud.
Su expresión es la siguiente:
representa la proporción de aciertos con un
determinado valor para ϴ

3.4 Funciones de información
La función de información es un indicador de la precisión
de un test, cuanto mayor sea I (ϴ) menor será el error
típico de medida, luego será mayor la información que las
estimaciones aportan al parámetro ϴ.
Según Fisher, la información es el recíproco de la
precisión en la estimación de un parámetro.
En matemáticas, el inverso multiplicativo,
recíproco o inverso de un número x, es el número,
denotado como 1⁄x ó x−1, que multiplicado por x da 1
como resultado.
En el caso de la TRI (la estimación del parámetro)
será la estimación de ϴ, se cometerá un error de
medida en su estimación que será
En el modelo de un parámetro la función de información
de un ítem tomará la expresión:
Donde
Ii (ϴ) cantidad de información del ítem i en el nivel ϴ
D constante de escala: 1’7
Pi (ϴ) probabilidad de acierto en el ítem i
Qi (ϴ)= 1-Pi(ϴ)
En el modelo de dos parámetros:
a es el índice de discriminación
En los modelos de uno y dos parámetros la información
será máxima paraϴ=b.
En el modelo de tres parámetros:
Donde ci representa el índice de pseudoazar.

En los modelos de tres parámetros el valor de ϴ que
aporta más información es
La función de información de un test será el sumatorio de
las funciones de información de cada ítem del mismo:
Las funciones de información de un test es invariante

ante el cambio de escala de ϴ por tanto se podrá
comparar dos test mediante la llamada eficacia relativa
(ER)
Donde:
IT (ϴx) información del test X para el valor
IT (ϴy) información del test Y para el valor
La función de información es un indicador de la precisión
de un test, cuanto mayor sea I (ϴ) menor será el error
típico de medida, luego será mayor la información que las
estimaciones aportan al parámetro ϴ.
3.4.1. Ponderación óptima de los ítems

Para maximizar la información que suministran los ítems
es aconsejable su ponderación, de tal forma que la
información dada por el test será:
Y el valor de la ponderación que maximiza la información

será:
Para el modelo de un parámetro: wi=ID; para el modelo
de dos parámetros será: wi=Dai y para el modelo de tres
parámetros: wi=[DaiPi(ϴ)-ci]/[Pi(ϴ)(1-ci)].
4. APLICACIONES DE LA TRI
Banco de ítems.
Dos son las facetas para controlar en la conformación del
banco: la construcción de los ítems donde se debe
respetar la unidimensionalidad de los ítems del banco y la
elaboración de los test con unas determinadas
características.
Equiparación de puntuaciones
Consiste en establecer una correspondencia entre las
puntuaciones de los test, que miden la misma variable y
con la misma fiabilidad.
Dentro de la TRI, el establecimiento de equivalencia entre
los test es innecesario, otra cuestión es establecer
relación entre las puntuaciones estimadas de cada test o
entre las empíricas.
Funcionamiento diferencial de los ítems
Se pretende estudiar si existe distinto comportamiento de
los ítems en función de diferentes grupos. Para realizar tal
estudio el procedimiento es utilizar la curva característica
del ítem para los dos (o más) grupos analizados y ver si
existe diferencia entre las mismas. Uno de los métodos
más utilizados es el cálculo de las diferencias de
probabilidades correspondientes a ambas curvas:
Test adaptativos
Un Test Adaptativo Informatizado (TAI) presenta los ítems
y recoge las respuestas de la persona utilizando un
ordenador. Lo más genuino es su capacidad para
adaptarse al rendimiento de la persona que está siendo
medida.

Cap 2 Resumen - Largo

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cap 2 Resumen - Largo

Uploaded by

Copyright:

Available Formats

Técnicas e instrumentos para la recogida de información

CAPÍTULO 2: CARACTERÍSTICAS TÉCNICAS DE LOS

El proceso de medición opera sobre un objeto, según

2. TEORÍA CLÁSICA DE LOS TEST (TCT) Para evaluar la

En ítems de elección múltiple:

Muy fáciles ID por encima de 0’75

Fáciles ID comprendido entre 0’55

Normales ID comprendido entre 0’45

Difíciles ID comprendido entre 0’25

Muy difíciles ID por debajo de 0’25

En la construcción de test es aconsejable poner mayor

Otra manera de valorar la discriminación de un ítem es

La correlación ítem-test se calculará con diferente

Valores a la hora de calificar el grado de homogeneidad:

El ítem discrimina muy bien IH igual o mayor de 0’4

El ítem discrimina poco IH comprendido entre 0’2 y 0’29

Ítem límite. Se debe mejorar IH comprendido entre 0’1 y 0’19

El ítem carece de utilidad para IH menor de 0’1

2.3. Análisis de distractores

2.4. Índice de fiabilidad

Las aplicaciones del error típico de medida son:

*FIABILIDAD COMO EQUIVALENCIA

*FIABILIDAD COMO ESTABILIDAD

Donde rxx es el coeficiente de correlación de Pearson

fiabilidad, es decir pxx’≥α.

VALIDEZ DE ELABORACIÓN O DE CONSTRUCTO

Rxy la nueva validez

3. TEORIA DE RESPUESTA AL ITEM (TRI)

La Teoría de Respuesta al ítem (TRI) intenta brindar una

La diferencia fundamental entre la TCT y los diversos

Para explicar mejor este punto imaginemos la siguiente

Uno de los fundamentos de la medición radica en el

Con el modelo de Rasch podemos mejorar la construcción

El modelo más utilizado es el de Rasch

En este caso hay un nuevo parámetro a, que representa

El modelo de tres parámetros toma la expresión:

El parámetro c representa la probabilidad de acertar el

Para realizar el proceso de calibración, en primer lugar se

los residuos estandarizados

nj número de sujetos en la categoría j

representa la proporción de aciertos con un

determinado valor para ϴ

Donde ci representa el índice de pseudoazar.

Las funciones de información de un test es invariante

3.4.1. Ponderación óptima de los ítems

Y el valor de la ponderación que maximiza la información

You might also like