Professional Documents
Culture Documents
Escuela de Psicologa
Cuando se estudia una prueba, nunca se la termina de analizar: se la debe seguir examinando despus de haber hecho el anlisis de sus tems individualmente o despus de haber obtenido sus normas. Es importante conocer algunas caractersticas que puedan estar influyendo sobre los resultados que se obtienen de una prueba. Dentro de las caractersticas de las pruebas, hay tres bsicas: Objetividad Confiabilidad Validez
Adems, se tiende a identificar parte de estas caractersticas con otras denominaciones: Adecuacin Comparabilidad Utilidad Economa Hay algunos autores que a stas ltimas las denominan caractersticas secundarias de las pruebas, no obstante, con excepcin de la caracterstica de Economa, ninguna de estas ltimas puede ser considerada en esa categora. Se definen a continuacin en forma general cada uno de estos conceptos, para centrarse posteriormente ms especficamente en los de confiabilidad. El concepto de validez se analizar por separado.
1. Objetividad:
Esta es una caracterstica que refiere al hecho de obtener resultados iguales en la correccin de un instrumento, siendo varios los correctores. La forma habitual para medir la objetividad de un instrumento es correlacionar los puntajes de los correctores (de a dos) con relacin a un mismo grupo de pruebas. Es condicin bsica y necesaria para la Confiabilidad, ya que la Confiabilidad puede verse afectada si hay inconsistencias debidas a la correccin de la prueba. Esto incluye tanto el que un corrector sea inconsistente entre una y otra ocasin en que deba corregir, como tambin el desacuerdo que se produzca entre distintos correctores.
1. Objetividad (2)
Los diferentes correctores pueden estar en desacuerdo con respecto a lo que es la respuesta correcta en una pregunta de una prueba objetiva. Si analizan la pregunta y pueden concretar el desacuerdo, podrn modificar la pregunta o ajustar el criterio de correccin. Si persiste el desacuerdo, la pregunta no es objetiva y tiene que descartarse. En todo caso, la objetividad es tan importante, que puede darse por confiabilidad en muchas ocasiones. Por ejemplo, en todas aquellas situaciones en las cuales no resulta posible volver a aplicar una prueba en un mismo grupo, o cuando por sus caractersticas la prueba no puede ser sometida a ninguna de las otras formas de clculo de la confiabilidad, se da por condicin suficiente de confiabilidad el que sta sea objetiva.
2. Adecuacin:
Se habla de adecuacin de un instrumento cuando se piensa en el grado en que su contenido es una muestra representativa del colectivo de variables que se quiere medir. En la prctica es sinnimo de uno de los tipos de validez que es posible de establecer para las pruebas, de la validez de contenido, que dice relacin con el contenido mismo de la variable que se quiere medir. Esta adecuacin o validez de contenido parte de la tabla de especificaciones de una prueba, y contiene un anlisis lgico de los tpicos implicados en la prueba y su representacin ecunime a travs de los tems del test. Este es un tipo de validez un tanto descuidado en pruebas psicolgicas, y resulta difcil de encontrar en los manuales de las pruebas: ms bien se lo tiene que reconstruir a partir de las definiciones de las variables de la prueba y de los tems mismos.
3. Comparabilidad:
Se considera que un instrumento presenta comparabilidad o es comparable en la medida que exista otro que mida la misma variable con los mismos principios y en la misma o similar forma. La comparabilidad mxima se dara en formas paralelas de una prueba.
4. Utilidad:
Hay una serie de autores que lo usan como sinnimo de validez de una prueba, y significa el que una prueba realmente constituya un aporte para aclarar dudas o resolver un problema, lo que se debe tener en cuenta tanto en la construccin de un instrumento como en la
eleccin de uno ya existente.
5. Economa:
Esta caracterstica, la nica que puede considerarse caracterstica secundaria de las pruebas, es lo que le ha dado justificacin a la existencia de los instrumentos psicolgicos de medicin, ya que un test, independiente de las caractersticas formales de tiempo, material, correccin, facilidad de manejo que presente, debe ser de tal forma que implique economa de esfuerzo frente a otras formas de evaluacin del fenmeno.
6. CONFIABILIDAD
6. Confiabilidad:
Para que los datos obtenidos con diferentes instrumentos de medicin tengan utilidad prctica, las pruebas tienen que dar medidas confiables, o sea, que se obtengan los mismos resultados al volver a medir el rasgo. A esto se le llama que los rasgos sean reproducibles.
Cuando se mide con una determinada prueba en una ocasin especfica y bajo ciertas condiciones, de volver a medir el rasgo con la misma prueba o una prueba paralela, en condiciones idnticas, se obtengan los mismos resultados, o por lo menos, que los sujetos se ordenen igual que en la primera medicin.
6. Confiabilidad (2):
Es importante hacer notar eso s que la confiabilidad se refiere entonces a la precisin de la medicin, independiente de lo que se quiere medir. Es un indicador de calidad global de una prueba.
Coeficiente de Confiabilidad Es el grado de acuerdo entre las mediciones hechas en ocasiones diferentes. El clculo que se hace a travs de un coeficiente de correlacin constituye el valor numrico de la confiabilidad, y pasa a denominarse coeficiente de confiabilidad. Puede tomar valores entre 0 y 1, pero no adopta valores negativos. Tambin clculos hechos con otros procedimientos distintos de correlacin adoptan el nombre de coeficiente de confiabilidad.
Si una prueba no es sensible a factores debidos al azar, o sea, cuando la diferencia de los puntajes entre los sujetos medidos se debe a la variable que se est midiendo y no a otros factores, se est frente a una prueba confiable. Entonces, los puntajes que los sujetos obtuvieran en mediciones sucesivas van a ser idnticos o muy similares, y su posicin o ubicacin en las distribuciones de puntajes que se puedan construir en cada ocasin de medida van a ser las mismas, por lo que la correlacin entre estas distribuciones sera igual a 1. Pero, cuando se miden variables psicolgicas por los mtodos habituales, resulta a menudo difcil estimar la confiabilidad del instrumento. Por ejemplo, el efecto que puede producir en las personas la primera aplicacin del instrumento. Esto afectar el valor con que queda expresada la confiabilidad, y ya no ser posible que sea 1.
De esto se deriva el que resulta importante no hablar de la confiabilidad de una prueba, sino de sus confiabilidades, porque dependiendo de las circunstancias, habra distintas formas de calcularla, y muchos factores que la influyen. De la misma manera, hay que tener cuidado de atribuirle confiabilidad de manera irrestricta a una prueba, porque la confiabilidad depende enormemente de las personas sobre la cual se ha calculado, lo que significa que se podran obtener, para una prueba, tantas confiabilidades diferentes como grupos se evaluaran. Como en la prctica esto es imposible, se le tiende a asignar a un instrumento la confiabilidad calculada sobre el grupo de estandarizacin original.
Aparte de decir que es la condicin de precisin de un instrumento, hay una forma ms cientfica de entender la confiabilidad, y que es la base de lo que hasta hoy en da se denomina la teora clsica de los tests: Spearman plante que el puntaje que se obtiene para una persona en una prueba en un momento determinado se puede considerar formado por dos componentes: un puntaje verdadero o latente (xx) y un puntaje error (xe). Al puntaje que se obtiene cuando se aplica una prueba lo denomin puntaje observado o aparente (xo). xo = xx + xe Algebraicamente, el puntaje error incluido en la frmula puede ser de signo positivo o negativo, y lo constituyen todos los factores que encubren la posibilidad de obtener una medicin perfecta de la variable.
Cuando se habla de puntaje, se est haciendo referencia a una sola persona, pero si la confiabilidad es una caracterstica asignada a la prueba en total y al grupo sobre el que se ha trabajado. La caracterstica que representa la variabilidad de un grupo es la desviacin estndar, aunque, cuando este concepto se usa con relacin a la confiabilidad, se habla del concepto de varianza (S2), porque permite ms manejo matemtico. Siguiendo la definicin dada con relacin al puntaje individual, la varianza total que se observa entre los sujetos frente a un determinado instrumento es igual a la varianza verdadera ms la varianza error. S2total = S2v + S2e
Coeficiente de Confiabilidad (7) Este coeficiente se simboliza rtt rxx. Entonces, rtt rxx = S2v S2t
Despejando en la frmula del coeficiente de confiabilidad, la varianza verdadera: rtt rxx = 1 - S2e S2t
Si se diera el caso que el puntaje de cada individuo en la distribucin total fuera el mismo que su puntaje verdadero, entonces la varianza de la distribucin total sera la misma que la varianza verdadera y la confiabilidad sera 1, porque se estara expresando exactamente el puntaje verdadero de cada sujeto, y la varianza error sera 0 .
Se enumeran a continuacin los principales mtodos empricos para calcular la confiabilidad: con cualquiera de ellos se obtiene un coeficiente de confiabilidad.
Spearman Brown
Equivalencia Racional o particin de la prueba
Rulon y Guttman
A de Cronbach
A un mismo grupo se le aplican dos versiones (o formas paralelas) de una prueba y luego se correlacionan las dos series de resultados o puntajes obtenidos. Lo ms habitual es que se use correlacin de Pearson para este clculo. Aqu se pueden aplicar las dos pruebas como una gran prueba en una sola ocasin. No hay necesidad de esperar las dos semanas. Hay pruebas que se prestan ms que otras para construirles una prueba paralela: en las pruebas manuales esto es casi imposible. Proporciona el coeficiente de confiabilidad numricamente ms bajo de todos, porque pone en juego absolutamente todas las fuentes posibles de error. Por lo mismo, es ms exacto cuando da un valor alto, porque es el que ms seguridad dara.
Tiene ciertas dificultades y desventajas este mtodo: hay que tratar de construir dos pruebas tratando de satisfacer lo mejor posible las condiciones de estricto paralelismo, que son que las pruebas:
Hay un mtodo para obtener evidencias de confiabilidad que combina los dos que se han mencionado, y que es el clculo de la confiabilidad con formas paralelas, mediando un intervalo de tiempo: al coeficiente obtenido se le denomina de estabilidad y equivalencia.
estn pareadas por el mismo grado de dificultad, que presenten varianzas y promedios iguales, tienen que partir de una misma tabla de especificaciones, tienen que tener la misma discriminacin, o sea, tener la misma distribucin de correlaciones tem-test.
Equivalencia Racional o Particin de la Prueba (Biparticin o Split-Half y Multiparticin) Algunas de las dificultades en los mtodos de clculo emprico de la confiabilidad se pueden solucionar tomando alternativamente los tems de una prueba que se aplica en una sola vez. Esto ha dado origen al mtodo de divisin por mitades o biparticin: es dividir la prueba en dos despus de aplicada y obtener as dos puntajes que se relacionan entre s. La concepcin de este mtodo apunta a la verificacin de la homogeneidad interna del instrumento. Ejemplo de esto es la biparticin par impar, en que se asigna los tems pares a una prueba y los impares a la otra.
la
Prueba
La biparticin par impar, funciona bien en pruebas que miden una variable unitaria, pero dependiendo del tipo de prueba y de lo compleja que sea, hay otras posibilidades de particin: la primera mitad versus la segunda, o se hace necesario recurrir a la tabla de especificaciones para apreciar a qu variables apuntan los tems y luego efectuar la particin, tomando en cuenta este criterio, vale decir, se divide cada contenido por la mitad. En trminos del clculo concreto, existen varias posibilidades para obtener la confiabilidad por el clculo a partir de la correlacin de los puntajes en las dos pruebas paralelas artificialmente reducidas.
Para la obtencin de la confiabilidad, se efecta la correlacin entre los puntajes de las dos pruebas artificialmente acortadas a la mitad. El coeficiente obtenido se debe corregir, porque representa un coeficiente tipo formas paralelas, pero reducido, por haberse obtenido a partir de la mitad de la prueba. Para esta correccin se usa el mtodo creado por Spearman- Brown, que tiene una limitacin: parte del supuesto que la varianza de los puntajes de las dos mitades de una prueba es igual. Frmula Genrica: rtt = n rtt 1+(n-1)rtt Frmula Especifica: rtt = 2 rtt 1+rtt
Como no siempre sucede que la varianza de los puntajes de las dos mitades sea la misma, hay otros mtodos para calcular la confiabilidad cuando se ha bipartido una prueba: Rulon y Guttman, que suponen que la varianza de los puntajes de las mitades de las pruebas NO son iguales. Estos mtodos tienen una ventaja frente al de SpearmanBrown: obtienen directamente un coeficiente de confiabilidad, sin necesidad de corregirlo, y sin la complicacin de calcular un coeficiente de correlacin. Frmula Rulon: rtt = S2dif 1 - S 2t
Rulon desarroll su mtodo en 1939 y como se puede apreciar de la frmula, trabaja calculando una varianza de las diferencias entre las dos series de puntajes.
No obstante, el mtodo de Rulon fue superado en 1945 por un colaborador suyo, el socilogo Louis Guttman, quien propuso una frmula totalmente equivalente en resultados a la anterior, en que se relacionaban simplemente las varianzas individuales de las mitades de la prueba con la varianza total, lo que simplific an ms el clculo de la confiabilidad.
El mtodo de Guttman fue adaptado por Cronbach en E.U.A. para ser aplicado a pruebas a las que se les calculaba la confiabilidad no simplemente por biparticin, sino que podan multipartirse, lo que result de utilidad para calcular la confiabilidad en pruebas que tuvieran varias secciones comparables. Frmula de Cronbach: = n [ S2i] n - 1 [1 - S2t]
3.2 Confiabilidad por Consistencia Interna a partir de los datos que proporciona el Anlisis de tems: El anlisis de tems intenta informar sobre la posibilidad de discriminar con cada tem entre los sujetos. La prueba como un todo tambin tender a discriminar, lo que constituye uno de los objetivos de una prueba confiable. Para el clculo de la confiabilidad de la prueba total se usan los datos del anlisis de tems: la proporcin de sujetos que contesta correctamente al tem, el grado de dificultad promedio de la prueba, la varianza de los puntajes de la prueba total. Las frmulas ms conocidas son las de Kuder Richardson (20) y (21)
3.2 Confiabilidad por Consistencia Interna a partir de los datos que proporciona el Anlisis de tems: De las frmulas de Kuder Richardson, la 20 se considera ms precisa que la 21, por trabajar en su clculo con la sumatoria de las varianzas de los tems, en tanto la segunda, por hacerlo con un promedio de las proporciones de respuesta a los tems se considera slo una aproximacin al clculo de la confiabilidad. Frmulas: K-R(20) = n [S2t - pq] n - 1 [ S2t ] K-R(21) = n [S2t - npq] n - 1 [ S2t ]