You are on page 1of 29

TEORÍA DE LOS TEST

David Magnusson

Capítulo I. LA MEDICIÓN EN PSICOLOGÍA DIFERENCIAL

1-1 EL PROBLEMA DE LA MEDICIÓN

Una variable psicológica se define como propiedad o característica que poseen


diferentes individuos en cantidades distintas.

La definición de medida más común es: “medir es asignar números a las


cantidades de las propiedades de los objetos de acuerdo con reglas dadas cuya
validez puede probarse empíricamente.” Los números usados de esta manera
pueden llevar diferentes cantidades de información. Es conveniente distinguir tres
niveles de medida, los cuales difieren en la cantidad de información llevada por los
números que representan las magnitudes de las cualidades. Los números pueden
dar dichas magnitudes sobre una escala ordinal, una escala de intervalo o una
escala de proporción.

A. Escala Ordinal

Los números proporcionan solamente el orden de los objetos con respecto al


rasgo que se mide. Cuando conocemos las posiciones de los objetos en una
escala ordinal, podemos indicar sus relaciones entre sí por medio de los signos >
(más grande qué), = (igual a), o < (menor que)

Cuando medimos variables psicológicas, generalmente no llegamos a un nivel


superior al de la escala ordinal sin que hagamos algunas suposiciones. Cuando la
medición se ha efectuado en el nivel de una escala ordinal, los números no dan
más que el orden de los objetos en la escala. Por ejemplo, suponemos que los
individuos ocupan ciertas posiciones en un continuo que representa el rasgo que
deseamos medir. La posición de cada individuo en el continuo expresa la
magnitud en que posee el rasgo. Todo lo que ahora se sabe acerca de las
propiedades del continuo es su dirección. Este conocimiento nos permite describir
la posición de un individuo solamente como más grande que, igual a, o menor que,
la posición de otro individuo.
B. Escala de Intervalos

En una escala de intervalos, los números también dan información acerca del
tamaño de las diferencias entre los objetos con respecto a la magnitud del rasgo
medido. Las diferencias entre los números pueden compararse entre sí. Para
poder medir al nivel de una escala de intervalo es necesario tener unidades
iguales en la escala. Ahora no solo se conoce la dirección el continuo, sino
también tenemos sus posiciones y donde queremos hacer las mediciones. Por lo
tanto, podemos determinar las diferencias entre las posiciones de los objetos y
compararlas entre sí.

En muchos casos, cuando se desean medir variables psicológicas tales como


memoria, agresividad o capacidad aritmética, nos pueden interesar las diferencias
entre los individuos en el mismo continuo, las cuales reciben el nombre de
diferencias interindividuales,o bien, las posiciones entre las diferencias de un solo
individuo en diferentes continuos, llamadas diferencias intraindividuales. En tales
casos, es necesario medir la magnitud de los rasgos por medio de escalas de
intervalo.

C. Escala de proporción

En el nivel de la escala de proporción los números dan información, no sólo del


orden de rango de los objetos y del tamaño relativo de las diferencias, sino
también de la relación entre las proporciones.

La medición al nivel de la escala de proporción está basada en la suposición


que se conoce el punto cero, y que se tienen unidades iguales a partir de este
punto a todo lo largo de la escala. Ahora conocemos la reacción del continuo,
tenemos intervalos iguales, y podemos relacionar la posición de cada individuo en
el continuo directamente al punto cero.

Cuando una cierta propiedad de un objeto se mide a este nivel, podemos


determinar la magnitud como un valor absoluto. En estas escalas puede
determinarse el puntaje individual sin conocer los puntajes de los otros objetos en
la misma escala.

Antes de pasar de las medidas de intervalo a las medidas de proporciones,


debe conocerse el punto cero en relación a los puntajes en la escala de intervalos.
No podemos concluir que una persona carece por completo de capacidad para
resolver cierto tipo de problema matemáticos por el solo hecho de no haber podido
contestar ninguno de los ítems de un test que contiene este tipo de problemas.
1-2 LA DISTRIBUCIÓN NORMAL

Si arrojamos diez monedas al aire, la combinación más probable de soles y


águilas es cinco cada vez. Ahora es posible calcular, con ayuda del conocido
teorema binominal de Newton, el número esperado más probable de soles, por
ejemplo, cuando lanzamos diez monedas cierto número de veces. Si hacemos un
total de 1 024 lanzamientos, es probable que en 252 veces se presente la
combinación cinco soles y cinco águilas mientras que en 120 volados se obtengan
siete soles y tres águilas y en el mismo número de volados tres soles y siete
águilas. Es probable que solamente en un volado no aparezcan soles, y la
probabilidad es igualmente pequeña de que todas las monedas sean soles.

La distribución es evidentemente simétrica. Existe la misma probabilidad de


obtener tres soles o siete soles, y nueve soles o un sol. Esto puede verse también
en la figura 1-2, donde aparece la distribución binomial. En la distribución
binominal, la distribución tiene forma de campana. La combinación más frecuente
de soles y águilas es cinco y cinco. Cuanto más se desvían de esto las
combinaciones, es decir, cuanto mayor o menor sea el número de soles, tanto
menos frecuentes serán.

Figura 1-2 La distribución binomial en la forma de un histograma

La distribución probable, la cual puede ser calculada con el teorema


binomial, es solamente una distribución teórica de los valores esperados. Cuando
se hace más fina la gradación de una amplitud dada de la distribución, es decir, al
aumentar el número de monedas de cada lanzamiento, así como también cuando
se aumenta el número de volados, la forma del histograma se hace más suave. Su
forma se asemeja más a la curva suave de la figura 1-3.

Figura 1-3. La curva normal o gaussiana

Esta curva simétrica de forma de campana es la llamada curva normal o


gaussiana, que es de gran importancia en la teoría de los test. Las características
de la distribución normal están completamente determinadas, y la frecuencia de
cada puntaje dado puede obtenerse directamente de la ecuación de la curva
normal:

(1-1)

𝑁 2 /2
𝑌= 𝑒 −𝑥 82
𝑠√2𝜋

Donde x es la desviación de la medida de la distribución, Y es la frecuencia


de la posición x, N es la frecuencia total de la distribución, s es la desviación
estándar, 𝜋 espi (3.1416), y e es la base del sistema de logaritmos naturales
(2.718). [A menudo Y, en vez de darse como frecuencia, se da como la ordenada
de la posición x en una distribución de área total 1.0. Esto significa simplemente
que cada frecuencia obtenida en la ecuación (1-1) tiene que dividirse entre N.]

Ciertas características de la curva normal son de particular interés a este respecto:

a) La curva normal, como la distribución binomial, es una distribución teórica.


Los puntajes observados casi nunca se distribuyen exactamente de este
modo. Cuando se hable de distribución normal de los puntajes obtenidos,
solamente se quiere decir que la distribución no se desvía de la distribución
teórica normal más de lo que puede explicarse por el número de puntajes
de la distribución. Cuando conocemos el número de observaciones,
podemos computar la desviación de la curva teórica normal que puede
tolerarse.
b) La distribución teórica normal es completamente simétrica. Exactamente el
50% de todos los puntajes se localizan arriba de la media de la distribución
y exactamente el 50% abajo. Cualquier puntaje que esté a cierta distancia
de la media de la distribución tiene la misma frecuencia que el puntaje que
esté a la misma distancia de la media en el lado opuesto.
c) La curva teórica normal es asintótica, pues se acerca indefinidamente al eje
sin llegar a tocarlo.

Para describir completamente las características de una distribución se


necesita cierto número de medidas, si se trata de una distribución normal dada es
suficiente la media aritmética y una medida de la variación o dispersión de los
datos. La media aritmética se calcula fácilmente con la siguiente fórmula:

(1-2)

𝑀𝑥 = ∑ 𝑋⁄𝑁

Donde ∑ es la letra griega sigma, usada para representar “suma de”, X es


cualquier puntaje individual incluido en la distribución, y N es el número de
puntajes incluido en esta suma.

Una medida común de la variación de los puntajes obtenidos es la


desviación estándar, la cual se representará por s. Se define como la raíz
cuadrada de la media de los cuadrados de las desviaciones respecto de la media
de la distribución. La desviación estándar depende, por lo tanto, de la dispersión
de los puntajes en la distribución.

(1-3)

∑(𝑋 − 𝑀𝑋 )2
𝑧𝑥 = √
𝑁

Por lo tanto, un puntaje estándar es un puntaje expresado como desviación


de la media a medida que tiene por unidad a la desviación estándar.

Es claro que una distribución de puntajes z tendrá una medida de cero y una
desviación estándar igual a 1.0. Debemos señalar que los puntajes de cualquier
distribución pueden transformarse en puntajes z. Una de las propiedades de la
distribución normal es que proporciones precisas de la distribución normal se
encuentran entre las posiciones dadas por puntajes estándar de varias
magnitudes. Para cualquier puntaje estándar en una distribución normal, podemos
calcular qué tan grande es la parte de la distribución que cae arriba de dicho
puntaje y qué tan grande es la parte que cae abajo. La distribución de frecuencias
acumuladas, es la distribución normal total que caen debajo de los puntajes
estándar respectivos. Si se hace una gráfica de las proporciones que quedan
arriba, contra sus respectivos puntajes estándar, se obtiene una distribución de
frecuencias acumuladas.

1-3 LOS DATOS DEL CONTINUO LATENTE

Es importante la distinción que existe entre los datos obtenidos empíricamente


y el continuo latente hipotético en que suponemos que los individuos se
distribuyen de cierta manera. En la mayoría de las mediciones, nos interesa el
rasgo subyacente que determina la ejecución en cierto tipo de ítems. Suponemos
un continuo latente y podemos hacer diferentes suposiciones acerca de cómo se
distribuyen los individuos en éste, y respecto a la relación entre la posición sobre
este continuo y la distribución de los datos observados. Estas suposiciones, así
como la suposición de que hay una relación monotónica entre los puntajes en el
test y su posición en el continuo latente, son razonables cuando las medidas se
refieren a variables de ejecución. Estas suposiciones no siempre son
particularmente satisfactorias en otros casos como, por ejemplo, cuando se miden
actitudes. No siempre podemos presumir una relación monotónica entre los
puntajes y la posición sobre el continuo latente.

1-4 DIMENSIONALIDAD

Al describir la construcción de un instrumento para medir variables psicológicas


sobre una escala de intervalo, se supone que cada ítem diferencia a los individuos
sobre un continuo de dificultad, es decir que: a) los ítems miden exactamente el
mismo rasgo, pero tienen diferentes grados de dificultad, y b) es correcto el
modelo que muestra que la solución de un ítem está completamente determinada
por la relación entre la posición del individuo y la del ítem sobre el continuo latente.
Ninguna de estas suposiciones puede satisfacerse completamente cuando se
miden variables psicológicas. Las medidas estarán llenas de errores, y en la
mayoría de los casos es de importancia decisiva para el empleo de los datos, que
seamos capaces de estimar el tamaño del error.
La homogeneidad es una variable que indica el grado en que son satisfechas
las dos condiciones discutidas acerca de la unidimensionalidad y la independencia
de errores de medida. En situaciones prácticas, se tienen varios grados de
homogeneidad en los instrumentos de medida que ordinariamente construimos y
realizamos.

Capítulo 2. EL ITEM AISLADO Y SU VARIANZA

Los datos empleados en la psicología diferencial pueden recogerse por varios


tipos de métodos básicos tales como tests, cuestionarios, o estimaciones. La
posición de un individuo sobre un continuo dado puede expresarse en una de las
siguientes formas: por la respuesta correcta o incorrecta a un ítem del test, por la
actitud expresada a una aseveración, por la exactitud de la información en
respuesta a pregunta o por una estimación. Este capítulo está basado en la
suposición de que el puntaje individual puede expresarse como 1 o como 0, donde
1 significa una solución correcta, o una estimación al bajo del nivel dado.

La suposición que se hace en este capítulo es que el puntaje individual puede


expresarse como 1 o como 0, donde 1 significa la solución correcta, una respuesta
positiva a una pregunta, o un registro de la persona por encima de algún nivel
específico; en tanto que un puntaje de cero, por supuesto, significará una solución
incorrecta, una respuesta negativa a una pregunta, o una estimación abajo del
nivel dado.

2-1 LA MATRIZ DE PUNTAJES

Para el tratamiento estadístico de los datos, los puntajes crudos se


disponen en una matriz de puntajes. Habrá solamente unos y ceros ocupando las
celdillas puesto que cada respuesta se coloca en una de estas dos categorías.

El puntaje obtenido por el individuo j en el test t se representará por tj. El


valor de tj se obtiene sumando los puntajes crudos de un renglón de la matriz de
puntajes; tal suma para un individuo en un número de ítems se muestra en forma
completa de la siguiente manera:

(2-1)
𝑛

𝑡𝑗 = ∑ 𝑋𝑗𝑖
𝑖=1
Puesto que cada respuesta se registra como 1 ó 0, el puntaje total del
individuo j se obtiene contando el número de ítems resueltos correctamente por él.
La frecuencia de la respuesta correcta al ítem i se obtiene contando el número de
individuos que han resuelto el ítem correctamente.

2-2 VARIANZA

Las variaciones expresadas por las diferencias en los puntajes totales de


los individuos, pueden mostrarse mejor por medio de una distribución de
frecuencias. La variación de una distribución puede expresarse por diferentes
medidas, como el rango, la amplitud semicuartilar y la desviación estándar.

Para las distribuciones de puntajes de un test, comúnmente usamos el cuadrado


de la desviación estándar (s2), la varianza, como expresión de la variación en la
capacidad de los individuos. La ecuación que se obtiene es:

(2-2)

∑(𝑋 − 𝑀𝑥 )2
𝑠2 𝑥 =
𝑁
La desviación de la media de la distribución se computa para cada
individuo, este resultado se eleva al cuadrado y luego se obtiene la suma de los
cuadrados para todos los individuos. La media de estos cuadrados es la varianza,
ésta es una expresión del grado en que los datos diferencian o distinguen entre los
individuos. Si no hay diferencia, todos tienen el mismo puntaje y la varianza es
cero. Lo que es importante es mostrar no una varianza grande, que no es
particularmente deseable per se, sino que la distinción es significativa y confiable.

2-3 LA VARIANZA DE UN SOLO ITEM

Las variaciones de puntajes en un test completo, están basadas en las


variaciones de capacidad para resolver cada ítem. Si la ejecución en cada ítem
sólo puede calificarse como correcta o errónea, entonces la distribución de
frecuencias de respuestas correctas para cada ítem sólo constará de dos
categorías (1-0). Podemos ver, por ejemplo, que en una matriz de puntajes, el
ítem número 5 fue resuelto correctamente por 11 individuos, mientras que 9
fallaron. Por lo tanto, la distribución para el ítem contendrá 9 individuos en la
categoría 0 y 11 en la categoría 1.
Los 11 individuos que resolvieron el ítem 5 son 11/20 ó 55/100 del número
total que intentó resolverlo. Decimos que la proporción 0.55 resolvió el ítem, o que
la frecuencia de la respuesta correcta expresada como proporción es 0.55. El valor
de la proporción de los individuos que han resuelto el ítem es también una
expresión de la ejecución promedio de todos los individuos en el ítem.

Cuando el número de individuos examinados es el mismo en todos los


ítems, el promedio de ejecución de todos los individuos en el test (Mt) será la suma
de las media en los ítems individuales.

La varianza de un ítem cualquiera de un test es el producto de la proporción


de individuos que resolvieron el ítem y de la proporción de quienes no pudieron
resolverlo. La varianza depende de la frecuencia de solución, es decir, del número
de individuos que resolvieron el ítem. Así p = 0 y la varianza es 0 cuando nadie
resuelve el ítem. La varianza aumenta cuando la frecuencia de solución aumenta
hasta que p llega al valor 0.50. Cuando p es 0.50, entonces q también es 0.50, y
pq alcanza su máximo. Por lo tanto, la varianza es máxima para los ítems del test
que fueron resueltos por la mitad de los sujetos examinados. Un ítem es inútil para
los propósitos del test cuando p es igual a 1 ó 0, es decir, cuando todos los
individuos lo resuelven o todos fallan, pues no hay discriminación alguna entre
ellos, y entonces la varianza es 0.

Capítulo 3. VARIANZA TOTAL DE UN TEST; COVARIANZA

3-1 LA VARIANZA DE UNA DISTRIBUCIÓN DE PUNTAJES COMPUESTOS

La distribución de frecuencias de los puntajes de un test compuesto de


varios ítems depende en su forma y tamaño de las propiedades de los ítems
individuales incluidos en el test.

Si deseamos obtener primero una expresión para la varianza de una


distribución de los puntajes crudos, de un test que consista de dos ítems i y k. El
puntaje de cada individuo en cada uno de los ítems, se expresa como una
desviación respecto de la media de la distribución del ítem:

(3-1)

𝑥𝑖 = 𝑋𝑖 − 𝑀𝑖 , 𝑥𝑘 = 𝑋𝑘 − 𝑀𝑘.

La varianza de un test compuesto de dos ítems, está formada por la suma


de las varianzas de los dos ítems y el doble de la covarianza.
En general, la varianza de un test compuesto de n ítems es:

(3-2)

𝑠 2 𝑡 = ∑ 𝑠 2 𝑡 + 2 ∑ 𝑟𝑖𝑘 𝑠𝑖 𝑠𝑘 , 𝑖<𝑘

Donde ∑ 𝑠 2 𝑡 es la suma de las varianzas de los ítems individuales y


2 ∑ 𝑟𝑖𝑘 𝑠𝑖 𝑠𝑘 es la suma de todos los n(n – 1) términos de covarianza.

El tamaño de la distribución total del test está, por consiguiente determinado


por dos factores: a) la frecuencia de respuestas correctas en los ítems individuales
( 𝑠 2 = 𝑝𝑖 𝑞𝑖 ), y b) las correlaciones entre los ítems individuales (𝑟𝑖𝑘 ).

Las conclusiones siguientes, que son importantes para todo trabajo de


construcción de test, pueden obtenerse de la fórmula de la varianza total del test:

1. La varianza del test está determinada totalmente por la varianza de los


ítems individuales y sus intercorrelaciones.
2. La varianza del test será máxima, si lo demás no cambia, cuando la
varianza de los ítems individuales sea máxima, es decir, cuando 𝑝𝑖 = 𝑞𝑖 y
𝑠 2 𝑡 = 0.25.
3. La varianza del test será máxima, si lo demás no cambia, cuando las
intercorrelaciones entre los ítems sean máximas.

3-2 COVARIANZA

La covarianza es la medida de los productos de las desviaciones con


respecto a las medias de las dos distribuciones. El tamaño de la covarianza
dependerá de las propiedades de la escala escogida, y por lo tanto, variará si una
o ambas distribuciones se someten a una transformación lineal.

Capítulo 4. ERROR ESTÁNDAR DE MEDIDA

En este capítulo se discuten los procedimientos para obtener una medida


empírica de la varianza de error alrededor de un solo puntaje verdadero. Hacemos
esto para estimar el tamaño del error que cometemos cuando usamos un puntaje
obtenido como una estimación del puntaje verdadero del individuo.

4-1 ERRORES ESTÁNDAR IGUALES PARA DIFERENTES PUNTAJES


VERDADEROS.
Cuando examinamos a un individuo en determinada ocasión, deseamos
saber cuán exacta es nuestra estimación del puntaje verdadero del individuo. A
partir de las suposiciones clásicas acerca de los errores, podemos derivar una
ecuación para computar el intervalo de la escala dentro del cual podemos hallar el
puntaje verdadero del individuo con algún grado conocido de confianza, cuando
tenemos el puntaje obtenido por el individuo.

Puesto que los puntajes de error han sido definidos como puntajes al azar,
darán una distribución normal con Me igual a cero. Luego el puntaje verdadero del
individuo es igual a la media de los puntajes en un número infinito de test
paralelos.

Por ejemplo, si se tienen los puntajes obtenidos por el individuo j en cierto


número de test paralelos, lo que se necesita ahora, para computar el intervalo de
confianza requerido para este individuo, es la desviación estándar de la
distribución de los componentes de error para j.

El tamaño de la distribución de error es el mismo para test paralelos, y de


acuerdo con la suposición mencionada anteriormente (la cual es discutible y ha
sido muy discutida), el tamaño de esta distribución de error es independiente del
puntaje verdadero del individuo y es el mismo para todos los individuos. Luego, la
distribución del error en el test g para un número infinito de individuos con puntaje
verdadero Tj será la misma distribución de error para el individuo j en un número
infinito de test paralelos.

La desviación estándar de la distribución de los errores que cometemos si


permitimos que el puntaje obtenido por un cierto individuo en cualquiera de los test
de un conjunto infinito de test paralelos represente su puntaje verdadero, es la
misma para todos los individuos que tomaron el test y es independiente de los
puntajes verdaderos. La probabilidad de obtener un error de un tamaño dado en
una medida realizada con un cierto instrumento es la misma para cualquier
individuo sin importar su puntaje verdadero. La desviación estándar puede usarse
para computar los intervalos de confianza y puede interpretarse de la misma
manera como cualquier otro error estándar.
CAPÍTULO 5. LA CONFIABILIDAD DE LAS DIFERENCIAS DE PUNTAJE

5-1 EL ERROR ESTÁNDAR DE LAS DIFERENCIAS ENTRE PUNTAJES

La confiabilidad de las diferencias es de primera importancia para las


comparaciones intra e interindividuales. Cuando trabajamos con diferencias
intraindividuales, deseamos saber si es confiable la diferencia obtenida entre los
puntajes del mismo individuo en diferentes variables. Si es así, puede usarse, por
ejemplo para predecir su éxito en diferentes estudios escolares. En las
comparaciones interindividuales, deseamos saber si las diferencias obtenidas
entre los puntajes de diferentes individuos, en variables diferentes, son
suficientemente confiables para basar en ellas, la elección del mejor candidato a
un puesto.

5-2 LA CONFIABILIDAD DE DIFERENCIAS

La confiabilidad de los puntajes de diferencias intraindividuales se expresa


por un coeficiente de confiabilidad, el cual puede derivarse de ecuaciones ya
conocidas. La confiabilidad del puntaje de una distribución puede obtenerse
cuando se conocen la varianza de los puntajes de error y la varianza de los
puntajes observados. Para computar el coeficiente de confiabilidad de las
diferencias necesitamos, por consiguiente: a) la varianza de la distribución de los
errores de las diferencias, y b) la varianza de la distribución de las diferencias
obtenidas.

La varianza de una distribución de diferencias depende parcialmente de la


escala sobre la que se computan los puntajes de diferencia, y parcialmente de la
correlación entre los puntajes mencionados. Mientras más alta es la correlación
entre los puntajes, menor será la distribución de las diferencias.

El coeficiente de confiabilidad de los puntajes de diferencias se incrementa


como el tamaño de la media de los coeficientes de confiabilidad de los test,
cuando la correlación es constante. Al incrementarse la intercorrelación entre los
test, la confiabilidad de los puntajes de diferencia se reduce, permaneciendo
constante el promedio de confiabilidad de los test. Mientras más alta sea la
intercorrelación entre los test, mayor será el grado en que miden los puntajes
verdaderos. La distribución de las diferencias de error permanece constante
mientras las confiabilidades de los test no cambian. Cuando la proporción de la
varianza verdadera en la distribución de las diferencias se reduzca, la confiabilidad
de los puntajes de diferencia también reducirá.
Capítulo 6. VARIANZA DE ERROR EN LAS ESTIMACIONES DE
CONFIABILIDAD

6-1 INTRODUCCIÓN

Cada puntaje individual ha sido considerado hasta ahora como la suma de


dos componentes, un puntaje verdadero y un puntaje de error. El componente de
error para un cierto individuo puede considerarse ahora como la suma de cierto
número de componentes de error, los cuales son el resultado de cierto número de
fuentes específicas de error. Estos factores son independientes entre sí.

6-2 ERRORES DE MEDIDA

Los errores son errores genuinos de medida. Éstos pueden ser ocasionados
por: a) la aplicación del test, b) la adivinación, c) la calificación.

A. La aplicación del test

El aplicador del test desempeña un papel decisivo en los errores de medida


que pueden producirse durante la aplicación. Otros factores de la aplicación de la
prueba que pueden afectar los puntajes pueden ser el lugar donde se lleva a cabo
el examen, el grado de las perturbaciones exteriores, las instrucciones dadas a los
individuos examinados, etc.

B. Adivinación

En los métodos llamados de opción múltiple, un individuo examinado incapaz


de resolver la pregunta, puede adivinar. La varianza que resulta de la adivinación
es, por consiguiente, una varianza de error.

C. Calificación

La carencia de objetividad en la calificación producirá una varianza de error.


Siempre que un individuo da una respuesta que no había sido prevista o que no
está abarcada por las reglas con que se estandarizó el test, su puntaje depende
de la habilidad y criterio del calificador.

6-3 FALTA DE ACUERDO ENTRE MEDIDAS PARALELAS DE LOS PUNTAJES


VERDADEROS

Podemos considerar que la confiabilidad es un acuerdo entre tests


paralelos, suponiendo que los test paralelos miden exactamente el mismo puntaje
verdadero para cada individuo. Podemos considerar que la confiabilidad es el
acuerdo entre tests paralelos al azar, compuestos por items sacados de la misma
batería de items.

El coeficiente que obtenemos es una expresión de la varianza de error, el


cual toma su valor mínimo cuando todas las condiciones para test paralelos son
satisfechas completamente. Este coeficiente ha sido llamado coeficiente de
precisión

La confiabilidad, como la correlación entre los test paralelos al azar, da el


grado de certeza con que se puede medir con un test compuesto de ítems
sacados al azar de una cierta batería de ítems, el rasgo que es medido por esa
población. Esta medida es una función de: a) el número de items de cada test y b)
la homogeneidad de la batería de items, es decir, el grado en que los items miden
la misma variable. El coeficiente para la relación entre tests paralelos al azar es un
coeficiente de consistencia interna.

El coeficiente que se tiene al estimar la correlación entre test paralelos es


llamado comúnmente coeficiente de equivalencias.

6-4 FLUCTUACIÓN DE LOS PUNTAJES VERDADEROS INDIVIDUALES

La correlación entre test verdaderos como expresión de la confiabilidad de cada


uno de los test, supone que los puntajes verdaderos de cada individuo son los
mismos en ambos test. Uno puede, sin embargo, suponer que el puntaje
verdadero cambia de una ocasión a otra y que la magnitud de cambio depende del
tiempo transcurrido entre las dos ocasiones. Si un test completamente confiable se
aplica en dos ocasiones separadas, la correlación entre los resultados de las dos
aplicaciones para un gran número de individuos, no necesariamente será 1.0, ya
que una sola medida da los puntajes verdaderos de los individuos en una ocasión
específica.

6-5 EFECTOS DE MEMORIA

Los efectos de memoria afectarán el resultado de una segunda aplicación si


se aplica el mismo test en dos ocasiones sucesivas. Los individuos necesitan
solamente recordar la respuesta dada en la primera ocasión y repetirla en la
segunda, para que nosotros obtengamos completo acuerdo entre los resultados
de las dos medidas. Obtendremos un acuerdo que afecta la correlación entre las
medidas repetidas, pero que nos es una expresión de la confiabilidad del método.
Ese componente del puntaje obtenido en la primera ocasión que reaparece en la
segunda, en parte lo hace así, no porque los test midan el puntaje verdadero, sino
a causa de la memoria.

De esto se concluye que, cuando computamos la correlación entre medidas


repetidas de una variable con el mismo test, la varianza de error debida a la
memoria será tratada como varianza verdadera y por consiguiente contribuirá a
sobreestimar la capacidad del test para medir los puntajes verdaderos, y luego a
sobreestimar su confiabilidad.

Capítulo 7. LA PREDICCIÓN Y SU GARANTÍA

7-1 EL ERROR ESTÁNDAR DE ESTIMACIÓN

Podemos hacer una predicción de una variable a otra con ayuda del
coeficiente de correlación. Si conocemos la correlación entre los puntajes de las
variables x y y , necesitamos solamente obtener el puntaje de un individuo en x
para poder predecir el puntaje probable del mismo individuo en y. La exactitud de
la predicción depende directamente de la correlación. La incertidumbre de la
predicción aumenta cuando la correlación entre las variables disminuye.

La magnitud del error estándar de estimación depende parcialmente del


valor numérico de la desviación estándar de la distribución para la cual se hace la
predicción, y parcialmente de la correlación entre los puntajes de esta distribución
y los puntajes predictores. Para una desviación estándar en y dada, el error
estándar depende completamente de la magnitud del coeficiente de validez.
Cuando la correlación es 1.0 el error estándar será 0. En este caso, hay también
un acuerdo perfecto entre los puntajes y obtenidos y los predichos, y no hay
dispersión de los puntajes obtenidos alrededor de la línea de regresión (línea recta
en la que se agrupan alrededor los puntos en el sistema de coordenadas que
representan los puntajes iniciales y los puntajes predichos) . Cuando la correlación
es cero, el error estándar de predicción será igual a la desviación estándar de la
distribución total de los puntajes y; en este caso, la predicción que se haga será
puramente al azar.
Capítulo 8. PREDICCIÓN INDIVIDUAL, CLASIFICACIÓN Y SELECCIÓN

8-1 Combinación de puntajes

Este capítulo trata los problemas de validez que se presentan cuando los
datos de la psicología diferencial se usan como base para el consejo, toma de
decisiones o diagnóstico. Un procedimiento común a todas estas áreas es la
combinación de resultados de más de un instrumento de prueba. El puntaje final
de un individuo se obtiene combinando los puntajes de varios subtest, cada uno
de los cuales es calificado independientemente. El uso de baterías de test
compuestas de test unidimensionales tiene varias ventajas. Tenemos mejor
control sobre lo que mide el test total, y por medio de varios procedimientos para
pesar podemos dar pesos diferentes a ciertos factores con fines diferentes.

Los puntajes del individuo en los subtest pueden combinarse de diferentes


maneras para dar un puntaje total. El procedimiento más común es obtener el
puntaje total para cada individuo como una suma de los puntajes de los subtest
pesados o sin pesar.

Si deseamos que todos los subtest tengan el mismo peso en la adición de


los puntajes, podemos convertir fácilmente los puntajes sobre cada subdistribución
en puntajes estándar antes de hacer la suma. Esto dará a cada subdistribución la
misma desviación estándar. Sabemos que lo subtest contribuyen en diferentes
grados a la validez del test total, de tal manera que los test que predicen la
distribución del criterio más exactamente (los que tienen mayor varianza común
con él) reciban también mayor importancia cuando se determinen las sumas de los
puntajes que los individuos tienen en la distribución total.

El objeto de pesar los subtest es asegurar que la suma de los puntajes de


los subtest dé el mejor acuerdo posible con un criterio dado. El procedimiento para
pesar los subtest con objeto de satisfacer este requisito, es el análisis de regresión
múltiple.

La determinación de los pesos se hace tomando en cuenta: a) la correlación


entre cada uno de los subtest y una medida de criterio, y b) las correlaciones entre
los subtest incluidos en la batería. El mejor peso es el que da la menor varianza
posible en la distribución de las diferencias entre los puntajes predichos y los
obtenidos en la distribución del criterio, es decir, la menor varianza residual
posible.

El peso de los subtest, en la batería de test, puede hacerse con el propósito


de incrementar la exactitud de la predicción; esperamos que el puntaje total
obtenido de los puntajes pesados de los subtest sea más válido que el total
obtenido de los puntajes no pesados. El efecto del peso aumenta: a) cuando el
número de subtest decrece; b) cuando la diferencia entre los pesos de los subtest
se incrementa.

8- 2 Predicción individual de una variable predictoria para un puntaje de


criterio.

La certeza con que podemos usar el puntaje de un criterio test de un


individuo particular como base para predecir la probabilidad de que satisfaga los
requisitos impuestos por un curso de estudios, depende de: a) el nivel mínimo de
los requisitos educacionales, b) la capacidad del individuo, tal como la mide el test,
y c) la relación entre los puntajes del test y los de criterio, es decir, el tamaño del
coeficiente de validez.

Para un nivel de riesgo de fracaso dado, el número, para quienes el riesgo


de fracaso es grande, decrece con el incremento de validez del instrumento de
predicción y con la reducción de los requisitos.

8-3 Clasificación

En el consejo, toma de decisiones o de diagnóstico, el problema


usualmente consiste en escoger entre varias posibilidades diferentes. Puede ser
un problema de diferentes estudios, distintos tipos de ocupación, diferentes tipos
de tratamiento o pertenencia a diferentes grupos de diagnósticos. Deseamos
hacer una colocación lo más efectiva posible dentro de una de esas categorías.

Cada posibilidad tiene propiedades características que pueden expresarse


en un perfil. Se intenta hacer la elección de categoría lo más efectiva posible sobre
la base de una comparación entre: a) los perfiles del individuo para aquellos
factores que hemos juzgado que son pertinentes y mensurables, y b) los perfiles
del rasgo que son característicos de las diferentes categorías en que los
individuos pueden colocarse. Es decir, hacemos una clasificación de los
individuos.

La clasificación es multidimensional. No es seguro basar la elección entre


posibles categorías en el resultado de un test único, a no ser que los requisitos
para las diferentes categorías difieran solamente en nivel en un respecto. La
clasificación se basa, por consiguiente, en una batería de test.

8-4 Selección

Una situación común de su empleo es aquella en que tenemos un cierto


número de solicitantes para un número menor de vacantes en una ocupación
dada. Se halla este problema también, cuando podemos aceptar solamente una
fracción de los solicitantes a algún curso no obligatorio de estudios. En ambos
casos, ciertos individuos deberán aceptarse mientras que otros tendrán que
rechazarse. Se necesita hacer una selección.

El nivel de aceptación en la distribución del test, a menudo llamado límite de


corte, en estas circunstancias está determinado por las calificaciones de los
solicitantes respecto al factor medido por el instrumento de selección, y por el
número de solicitantes en relación al número de plazas. Siendo iguales los otros
factores, cuanto mayor sea el número de los que deban rechazarse, tanto más alto
será el nivel de corte. En esta situación la predicción está determinada por la
relación entre las características del individuo y las características del grupo en el
que está incluido en el momento de la selección.

La efectividad del procedimiento de selección puede expresarse por la


proporción de los aceptados que tuvieron éxito en el curso u ocupación recibida.
Esta proporción es llamada comúnmente proporción de éxito, que será mayor
cuanto menor sea el número de solicitantes para un número dado de plazas. La
proporción de solicitantes que han de ser aceptados es llamada proporción de
selección.

Capítulo 9. Teoría factorial, confiabilidad y validez

9-1 Subtérminos de la varianza verdadera.

Cada puntaje obtenido se considera formado por dos componentes, un


puntaje verdadero T y un puntaje de error e; entonces t = T + e. La varianza total
se compone de la varianza de los puntajes verdaderos y la varianza de los
puntajes de error. La varianza de error se considera a su vez formada por varios
términos de varianza no correlacionados.

La varianza de los puntajes verdaderos puede descomponerse en términos de


subvarianza, de la misma manera que la varianza de error. Por lo tanto, las
diferentes partes de la varianza verdadera se consideran determinadas por
factores que son independientes entre sí. Esto supone que el puntaje verdadero
de cada individuo Tj puede separarse en los componentes (Tja + Tjb + Tjc + …),
donde la magnitud de cada componente para un individuo j está determinada por
un solo factor (A, B, C, etc.), que no está correlacionado con ningún otro. Los
varios componentes verdaderos que se incluyen en cada puntaje obtenido, no
estarán por consiguiente correlacionados entre sí y la varianza verdadera estará
formada por la suma de las varianzas, determinadas por los m factores diferentes.
9-2 Comunalidad, Varianza específica y Varianza de error.

Comunalidad es la proporción de la varianza total que un test tiene en


común con otros test en una matriz de correlación dada, es una varianza que
ocasiona la correlación entre el test dado y a los otros, y se basa enteramente en
los componentes verdaderos. La comunalidad se representa por h2.

La varianza específica de un test es la parte de la varianza verdadera que


no aparece sistemáticamente en los otros test en una matriz de correlación dada
y, por consiguiente, no contribuye a la correlación entre el test dado y los otros test
o criterios incluidos en la matriz. La proporción de la varianza total del test,
compuesta de la varianza específica se representa por v2. Por lo tanto, la
proporción de l varianza total, formada de varianza verdadera, puede expresarse
como la suma de la comunalidad y la varianza específica.

Sus magnitudes dependen de las propiedades de los otros test que se


incluyeron en la matriz de correlación en una ocasión dada. Sin embargo, siempre
constituyen toda la varianza de los componentes verdaderos.

La comunalidad h2 es la única parte de la varianza total del test que puede usarse
para predicciones o diagnósticos significativos, y pone un límite a la validez
máxima que podemos lograr para el test. La varianza específica con respecto a un
criterio dado, aunque es varianza verdadera y contribuye a la confiabilidad, no
contribuye a la validez del test con ese criterio.

9-3 El concepto de las cargas de los factores

Una matriz con coeficientes que dan la correlación entre puntajes del test y
los del factor, se llama matriz factorial y los coeficientes, cargas de los factores.

El tamaño de las cargas de los factores en una matriz de factores se


determina por medio del análisis factorial. Se toma como punto de partida una
matriz de correlaciones que contiene todas las intercorrelaciones de los test en los
que se realiza el análisis factorial. Mediante el análisis factorial determinamos: a)
el menor número de factores que se necesitan para explicar la varianza común de
los test, y b) la correlación entre cada uno de estos factores y cada uno de los test
y, consecuentemente, la proporción de la varianza total del test, que está
determinada en cada uno de los test por cada uno de los factores.

9-4 Estructura factorial y confiabilidad

La confiabilidad se incrementa con la longitud del test. Sin embargo, esto es


cierto solamente si los ítems agregados pueden considerarse paralelos a los
originales. Los ítems agregados deben medir el mismo factor que miden los
originales. ¿Cuál será el efecto sobre la confiabilidad a) si alargamos el test con un
número igual de ítems del mismo tipo, es decir manteniendo la estructura
unifactorail del test, y b) si alargamos el test con un número igual de ítems de tipo
diferente, es decir, con ítems que midan una variable distinta a la medida por los
ítems originales haciendo así un test bifactorial?

Se supone que tanto los ítems como los originales y los agregados tienen la
misma confiabilidad. La confiabilidad de un test bifactorial, en el que se supone
que cada una de las mitades miden un factor diferente, será igual a la confiabilidad
del test mitad original que midió uno de estos factores.

La cofniabilidad de un test unifactorial es mayor que la de un test


multifactorial, cuando los demás elementos son iguales. Si dos test tienen igual
número de ítems teniendo todos la misma confiabilidad, pero difieren con respecto
al número de factores que determinan la varianza de los puntajes de los test,
aquel que tenga el menor número de factores será el más confiable.

9-5 Estructura factorial y validez.

Podemos incrementar la confiabilidad del test. Para esto debemos alargar el


test con ítems que midan el mismo factor. La validez también puede incrementarse
por este método, y su valor máximo será igual a la carga factorial del criterio, con
respecto al factor medido por el test.

9-6 Test multifactoriales; Baterías de test con test unifactoriales

Cuando la varianza del criterio está determinada por más de un factor,


como es frecuente en situaciones prácticas, hay dos métodos diferentes en
principio, para construir un instrumento que sea lo más preciso posible. La
elección del método dependerá, parcialmente, de la situación y del propósito para
el que se construya el instrumento.

Primer método: construir un test cuyos ítems abarquen la misma área que
el criterio. A los diferentes factores pueden asignárseles entonces diferentes
números de ítems, o los ítems pueden pesarse de manera que la relación entre los
diferentes factores sea la misma para el test y el criterio. Un test multifactorial se
construye para predecir el criterio multifactorial. El resultado individual en este test
será solamente un puntaje particular que da la posición del individuo en la
distribución de los puntajes obtenidos en el test. Un test así puede usarse, por
ejemplo, en los procesos de selección simple.
Segundo método: la división del número total de ítems en varios subtest
que juntos forman una batería de tests. Cada subtest debe contener un tipo fijo de
ítems, es decir, medir uno de los factores incluidos en el criterio. Al escoger los
ítems trataremos entonces de obtener: a) altas correlaciones entre los ítems de
cada subtest, para hacer lo más exacta posible la medida del factor que se intenta
medir con el subtest, y b) correlaciones bajas entre los diferentes subtest, de
manera que cada subtest mida hasta donde sea posible algo diferente a lo que
miden los otros subtest. Un test multifactorial es insatisfactorio como base para un
pronóstico o un diagnóstico diferenciador.

Capítulo 10. Análisis de ítems

El puntaje obtenido por un individuo en un test es por regla el número de


ítems que resolvió correctamente. La seguridad del puntaje obtenido por un
individuo, como estimación de su puntaje verdadero, es decir, la confiabilidad de
los datos, y como base del diagnóstico o de la predicción, o sea la validez de los
datos es lo que determina el valor del test. La confiabilidad y la validez de los
datos dependen de las propiedades de los ítems individuales que forman el test. El
test total no tiene propiedades que no puedan derivarse de las que poseen los
ítems individuales o de las relaciones entre ellos.

En todo trabajo de construcción de test, como no tenemos tiempo ilimitado


para el examen y la calificación, deseamos usar eficazmente el tiempo de éste
para hacer una medida tan confiable y válida como sea posible, con el menor
número de ítems. Esto se logra escogiendo ítems que contribuyan lo máximo a la
confiabilidad y validez. La elección debe basarse en un análisis de la probabilidad
de que cada ítem incremente la confiabilidad y la validez.

Cuando analizamos un ítem individual, debemos tomar en cuenta sus


contribuciones a la confiabilidad y a la validez al mismo tiempo. Un ítem contribuye
a la confiabilidad del test cuando mide la misma clase de puntaje verdadero que
los otros ítems del test; es decir, contribuye a la confiabilidad del test si mide la
misma clase de puntaje verdadero que la medida de criterio. Si el ítem contribuye
a la confiabilidad del test, tendrá una correlación positiva con los demás ítems; si
contribuye a la validez del test tendrá una correlación positiva con la medida de
criterio. Los métodos usados para precisar el grado de estas relaciones pueden
dividirse en dos grupos principales: a) métodos de atajo que investigan las
diferencias entre los grupos extremos en las distribuciones del test y del criterio,
respectivamente, con relación a su capacidad para resolver cierto ítem, y b)
métodos que determinan el grado de la relación por un coeficiente de correlación.

10.2 Análisis de ítems; diferencias entre grupos extremos

Si al hacer un análisis de ítems deseamos probar la contribución de un ítem


a la confiabilidad del test, cuanto mayor es la correlación entre las medidas del test
y las medidas hechas con el ítem, tanto mayor es esta contribución.

Podemos obtener una expresión para la correlación del ítem con el test,
comparando las proporciones de individuos con puntajes en las mitades superior e
inferior, respectivamente, de la distribución de puntajes del test quienes han sido
capaces de resolver el ítem. Este es el método a menudo usado en la práctica. La
diferencia pu – p1 donde pu es la proporción de la mitad superior de la distribución
de puntajes de quienes resolvieron el ítem del test, y p1 es la proporción de la
mitad inferior de la distribución de quienes resolvieron dicho ítem, es una medida
del grado de relación entre el ítem y el test. Así pues, es una medida de la
contribución que el ítem hace a la confiabilidad (o a la validez, si el test mide la
variable de criterio).

Capítulo 11. LA CONJETURA

En muchos de los llamados tests de selección múltiple, se dan respuestas


opcionales entre las cuales tiene que elegir el sujeto. Este tipo de tests hace que
la calificación objetiva sea más fácil, pero por otra parte el individuo tiene mayor
posibilidad de contestar correctamente ítems por conjetura, y que de otra forma es
incapaz de resolver. Debido a este tipo de acierto, se modificará el número de
unos de la matriz de puntajes, las frecuencias de respuestas correctos de los
ítems y los puntajes individuales en el test, y por ende, la varianza del total del test
completo. Las frecuencias de respuestas correctas de los ítems y la varianza del
test total afectan su confiabilidad y la elección de los ítems en la construcción del
test.

El efecto de la conjetura sobre los valores de p de los ítems individuales es


obvio, pues cada ítem tendrá cierto número de unos en la matriz de puntaje,
aunque no todos los individuos que obtuvieron los unos conocerán en realidad las
soluciones correctas; gracias a la conjetura, las frecuencias de respuestas
correctas serán mayores que las que se hubieran obtenido de otra manera.

Cuando evaluamos el efecto de la conjetura sobre la confiabilidad debemos


distinguir dos factores diferentes, la conjetura puede añadir una varianza
sistemática y una varianza pura de error a ala varianza del contenido del test.
La tendencia a suponer cuando no se puede resolver un ítem varía de
individuo a individuo. Si se aplica a un test de selección múltiple a varios
individuos que son incapaces de resolver todos los ítems, algunos conjeturarán
más que otros. Este tipo de acierto añadirá a la varianza total del test una varianza
sistemática, que también se obtendría si examinamos a los mismos individuos con
un test paralelo. Esta varianza será una varianza verdadera que contribuirá a la
confiabilidad del test, siendo también una expresión de genuinas diferencias
interindividuales con respecto a correr riesgos. Puede introducirse una corrección
si se considera que esta varianza no viene al caso en una situación dada.

Si las diferencias individuales en la tendencia a conjeturar se mantienen


bajo control, por ejemplo, recomendando a los individuos a que conjeturen sobre
todos los elementos ítems que sean incapaces de resolver, se añadirá una
varianza pura de error a la varianza total, lo que disminuirá la confiabilidad.

Cuando valoramos el efecto de la conjetura sobre la validez de los test,


también es necesario distinguir entre influencias sistemáticas y aleatorias. La
varianza que es sistemática, y se encuentra en los test paralelos, expresa las
diferencias interindividuales en un rasgo de personalidad, por ejemplo, y por
consiguiente, puede usarse como base de la predicción y del diagnóstico.
También puede encontrarse en una distribución de puntajes del criterio y
contribuirá así a incrementar la validez. Si no es éste el caso, disminuirá el
coeficiente de validez. La varianza de error no sistemática, que es resultado de la
conjetura, no puede contribuir a la validez del test y es simplemente un obstáculo
en este respecto.

11-1 Corrección individual

Cuando examinamos con los métodos de selección múltiple, podemos


considerar un puntaje del test tj como la suma de dos puntajes: R, el número de
ítems que el individuo ha respondido correctamente, porque ha sido genuinamente
capaz de determinar las respuestas correctas, y el Rg, el número de ítems que el
individuo respondió correctamente conjeturando.

(11-1)

Tj=R+Rg.

La magnitud de Rg no puede computarse empíricamente, pues somos


incapaces de determinar definitivamente en cuáles ítems el individuo supuso
correctamente, si es que lo hizo. Sin embargo, el valor de Rg puede estimarse de
la manera siguiente. Si cada opción se considera como una elección igualmente
probable para un individuo que no sabe la respuesta correcta, la probabilidad de
que responda correctamente por conjetura un ítem dado será 1/m, donde m es el
número de opciones de respuesta. Si se trata de 2 ítems será 2/m y así
sucesivamente. Si se conoce el número de ítems en los que el individuo supuso,
podríamos estimar Rg como G/m, donde G es el número de ítems que el individuo
ha puesto incorrectas que él dio.

Finalmente se tiene la ecuación:

(11-2)

R=tj – F/(m-1)

Donde tj es el número de ítems contestados correctamente por el individuo


j, R es el número de ítems que j fue capaz de resolver sin conjeturar, F es el
número de ítems contestados incorrectamente por el individuo j, y m es el número
de opciones de respuestas.

El efecto de la conjetura en el número de ítems correctos, y en


consecuencia, el efecto de la corrección, dependen obviamente del número de
opciones de respuesta. Cuanto mayor es el número de alternativas de respuesta,
tanto menor será la probabilidad de dar respuestas correctas por conjetura, y
consecuentemente, tanto menor será el término de corrección.

La ecuación 15-4 nos da una estimación del número de respuestas que el


individuo realmente sabe. El resultado es una estimación cuya validez depende
del grado en que se satisfacen las superposiciones, es decir, que el individuo ha
conjeturado en los ítems que él respondió, sin ser capaz de resolverlos, y que
todas las opciones, tanto las correctas como las incorrectas, son igualmente
atractivas.

Las diferentes tendencias individuales a conjeturar también pueden


controlarse sin corregir por conjetura con la ecuación anterior. Eso se hace
pidiendo a los examinados que respondan todos los ítems y que conjeturen en
aquellos casos en que no sepan la solución correcta. Las diferencias individuales
en la tendencia a conjeturar no tendrán ningún efecto en este caso. Sin embargo,
este método tiene la desventaja de que reduce la confiabilidad al aumentar la
conjetura. Otro método que a menudo se recomienda consiste en informar a los
sujetos de la corrección que se hace por conjetura y tiene el efecto de reducir
normalmente esta tendencia.

Una razón para corregir por conjetura, que en la mayoría de las situaciones
se considera más importante que el posible efecto positivo en la validez del test,
es el efecto psicológico que tiene en los individuos examinados el saber que serán
castigados por conjeturar. Eso supone, desde luego, que se les dijo en las
instrucciones que se haría la corrección. Aun si este conocimiento no tiene el
mismo efecto restrictivo en todos, probablemente provoque una reducción en la
dispersión de la varianza irrelevante obtenida por conjetura.

Capítulo 12. Escalas, transformaciones y normas

En muchas situaciones donde se aplican las medidas obtenidas por los


métodos de la psicología diferencial; necesitamos compara los resultados por
métodos diferentes.

Para que los resultados de los diferentes tests sean comparables, deben
expresarse sobre la misma escala.

La transformación de puntajes originales en puntajes sobre otra distribución


puede hacerse de manera que cada individuo conserve exactamente su posición
relativa sobre la distribución, modificando el tamaño de las unidades de la escala
en diferentes niveles de dificultad, de tal forma que se obtenga una distribución
normal de puntajes después de la transformación. Esta transformación se llama
normalización.

12-1 Transformación lineal

Una transformación lineal implica cambiar la escala de manera que se


modifique la media y /o la desviación estándar, mientras se conserva exactamente
la forma de la distribución y, en consecuencia, las posiciones relativas de los
individuos en dicha distribución. Podemos cambiar la media de la distribución
agregando una constante a cada puntaje en la distribución, lo que significa
simplemente que toda la distribución se mueve a lo largo de la escala en las
cantidades indicada por la constante. También podemos modificar la desviación
estándar de la distribución sin cambiar su forma ni afectar las posiciones relativas
de los individuos, para lo cual cada desviación de la media de distribución original
se multiplica por una constante, la cual da la relación entre la desviación estándar
original y deseada.

12-2 Normalización

Un puntaje de una distribución de puntajes originales o de una distribución


obtenida de otra, por transformación lineal, rara vez tiene un significado estadístico
exacto. Este es un inconveniente tan serio que tales puntajes no pueden usarse
en muchas situaciones prácticas; la posición relativa de un puntaje estándar en
una distribución de puntajes no normalizada depende enteramente de la forma de
la distribución, y mientras más se aproxima ésta a una distribución normal, más
concisamente puede interpretarse un puntaje estándar en la distribución. Los
inconvenientes de los puntajes originales o de sus transformaciones lineales
pueden evitarse cambiando la forma de la distribución, de manera tal que se
obtenga una distribución normal de los puntajes, es decir, mediante una
normalización. Esto se hace casi siempre junto con una transformación lineal.

En una distribución normalizada cada puntaje tiene un significado


estadístico conciso; el porcentaje de individuos que se hallan arriba y debajo de
cada puntaje se conoce exactamente en una escala que tiene una media y una
unidad de medida conocidas. Esto es importante cuando los resultados del test se
presentan para usarse en situaciones de selección y de consejo. Aquí se da
importancia no a la comparación entre diferencias a distintos niveles de puntajes,
sino a la posición relativa de un individuo en una distribución cuyas propiedades
son conocidas.

La normalización puede necesitarse para otros fines también. Cuando


deseamos usar diferencias, inter o intraindividuales, necesitamos los valores de
los individuos en las variables en cuestión como puntajes en una escala de
intervalo.

La normalización es simplemente un caso especial de transformación no


lineal. Cualquier transformación que cambie la forma de la distribución es no lineal,
y puede escogerse cualquier forma de distribución. Sin embargo, en la práctica, la
distribución normal es casi siempre preferida. La única excepción importante a
esta regla es la transformación no lineal en una escala, por ejemplo en una escala
porcentilar, que nos da una distribución rectangular.

12-3 Escala porcentilar

La manera más simple de hacer comparaciones entre los puntajes de


diferentes distribuciones es dar el resultado de un individuo como porcentil. Un
porcentil dado puede definirse como el punto de la escala por debajo del cual cae
un porcentaje fijo de la distribución. El uso de puntajes porcentilares a menudo
exige la interpolación dentro de un intervalo de clase en el que suponemos que los
individuos están distribuidos rectangularmente.

La escala porcentilar permite estimar los valores de los puntajes


individuales en relación a otros puntajes de la misma población. Los puntajes
porcentilares son fácilmente comprensibles y dan una presentación clara y lúcida
de los resultados. La debilidad más importante de la escala porcentilar es que no
toma en cuenta la forma de la distribución de los puntajes; la distribución que
obtenemos al transformar puntajes originales en puntajes porcentilares es
rectangular, sin importar la forma de la distribución de los puntajes originales.
Cuando estimamos diferencias en una escala porcentilar, exageramos las
diferencias en la mitad de la distribución por comparación con las que se
encuentran en los extremos, si la suposición de una distribución normal de los
puntajes verdaderos es correcta. Sin embargo, los puntajes porcentilares pueden
transformarse fácilmente en puntajes estándar para las posiciones
correspondientes en una distribución normal.

12-4 Escalas normalizadas.

Cuando ha sido normalizada una distribución de puntajes originales,


podemos colocarla dondequiera que queramos sobre la escala por medio de una
transformación lineal, y también dar a la distribución la desviación estándar que
deseemos. Algunas de las razones para la normalización son: a) ciertas
expectativas derivadas de la psicología diferencial; B) las propiedades
matemáticas de la función de la distribución normal, la conveniencia de las tablas
estadísticas de que se dispone, etc., y C) probablemente en algún grado la
satisfacción derivada debe ceñirse a una vieja tradición. El procedimiento también
se simplifica si la transformación de la escala normalizada se efectúa en laguna
escala conocida para datos normalizados. Puesto que aún los puntajes estándar
normalizados tienen algunas desventajas, anteriormente mencionadas, rara vez se
usan. En cambio otras escalas se han vuelto más comunes. Los puntajes
obtenidos en escalas normalizadas, suelen llamarse comúnmente puntajes T,
puntajes estaninas, o C. I. equivalentes.

Cuando un puntaje obtenido se expresa como puntaje T, se refiere a un


puntaje sobre una distribución normalizada. Estos términos no deberían usarse
para otros datos. Cuando normalizamos una distribución de puntajes originales en
puntajes T, damos a la distribución de puntajes normalizados una media de 50 y
una desviación estándar de 10; la unidad en este caso es 0.1s sobre la escala T.

La escala T permite una diferenciación más fina entre los individuos que la
escala de estaninas. Mientras la confiabilidad lo suficientemente alta justifica una
diferenciación más estricta, perdemos cierta cantidad de información acerca de los
individuos si damos sus resultados en puntajes estaninas.

12-5 Normas y grupos de referencia

Po9r medio de la transformación y normalización lineal podemos satisfacer


la necesidad de una significación estadística precisa en los datos con los cuales
hacemos comparaciones intra e interindividuales. Si decidimos que A obtuvo un
puntaje estanina de 6 en el test X, sabemos que su trabajo en el test ha sido mejor
que el 60% del grupo aproximadamente y peor que el del 23%; sin embargo en
muchas situaciones prácticas donde los puntajes de los tests se usan como base
para hacer decisiones, consejos o diagnóstico, es insuficiente saber que A obtuvo
un puntaje estanina de 6 en el test, debemos saber también con qué grupo de
individuos ha sido comparado A. ¿Para quién ha sido la distribución transformada
y normalizada en una distribución de estaninas? ¿Qué edad tenían los miembros
del grupo, qué educación, cuál era su ocupación, cuán homogéneo era el grupo
con respecto a otras variables?

En el capítulo primero dijimos que es imposible hacer medidas absolutas de


las variables psicológicas, solamente podemos hacer comparaciones entre
individuos, usando la variación de ellos como unidades de medida; pero cuando
juzgamos una cierta ejecución debemos conocer con qué camparla, es decir, qué
norma es la que queremos usar. Debemos conocer la media y la variación en la
ejecución de un test para el grupo con el cual comparamos un puntaje individual.
Un resultado puede ser bueno cuando se compara con alguna norma, pero no
será tan bueno al compararse con alguna otra.

Cuando usamos el puntaje de un solo test para consejo, para hacer


decisiones o para diagnóstico, evidentemente debemos basar el avalúo de los
puntajes del test en una comparación con un grupo relevante y comparable, es
decir, un grupo de norma o un grupo de referencia.

La mayoría de los tests se usan para varios propósitos y diferentes grupos


de individuo. Si los resultados de un test se usan para hacer comparaciones con
varios grupos, necesitamos normas para cada uno de estos grupos, a menos que
se haya mostrado empíricamente que los diferentes grupos tienen la misma media
y la misma desviación en los resultados del test. A fin de que el aplicador pueda
decidir si un grupo de individuos puede considerarse como grupo de referencia
válido, debería tener acceso a la información e los factores edad, sexo, educación,
etc., que pueden afectar los resultados para la norma de grupo.

Si se compara un individuo con el grupo de referencia correcto, la muestra


de individuos para la cual la norma ha sido computad debe ser una representación
justa de la población relevante. La norma deberá basarse en una muestra
representativa de la población, y no como sucede algunas veces, en datos
obtenidos de individuos que por una u otra razón fueron examinados con el test.
Cuando presentamos datos de norma, debemos hacerlo de manera clara y dando
el método usado para seleccionar la muestra.

La representatividad de la muestra depende no solamente del cuidado puesto en


su elección, sino también del número de individuos puestos en ella. Este número
debería darse al presentar los datos de norma, para ayudar al aplicador a estima
la confiabilidad de las comparaciones que puede hacer entre los puntajes del test
del individuo y los datos de norma.
Cuando los datos de norma se usan para comparaciones en situaciones de
toma de decisiones, debe tenerse gran cuidado si la representatividad de la
muestra es discutible o si el número de individuos de la muestra es pequeño.

Los datos de norma no son siempre necesarios cuando tenemos que


evaluar los puntajes del test en situaciones prácticas y tenemos que usarlos para
la toma de decisiones. Si vamos a hacer una selección simple y a aceptar cierto
número de individuos de un número dado de solicitantes, tomaremos a aquellos
que satisfacen mejor los requisitos, en la medida que estos puedan medirse, por
ejemplo, con los test de rasgos relevantes. Entonces aprobamos a aquellos que
obtengan puntajes más altos y rechazamos a los otros.