You are on page 1of 23
CONFIABILIDAI CAPITULO CINCO CONFIABILIDAD Y VALIDEZ La estandarizacién es un paso importante en el diseiio y la evaluaci6n de pruebas psicolégicas y otros instrumentos de evaluacién, pero no es el iltimo paso. Antes de que una prueba pueda uti- lizarse con cierta seguridad, debe obtenerse informacién acerca de su confiabilidad y validez por lo que a sus propésitos especfficos concierne. Ninggn instrumento psicométrico puede considerarse de valor a menos que sea una medida con- sistente, o confiable. En consecuencia, una de las primeras cosas que sera necesario determinar acerca de una prueba de elaboracién reciente es si resulta lo suficientemente confiable como pa- ramedirlo que fue disefiada para medir. Si, en ausencia de cualquier cambio permanente en una persona debido al crecimiento, al aprendizaje, a alguna enfermedad o lesi6n, las puntuaciones en una prueba varfan con la ocasi6n o la situacidn, es probable que la prueba no sea lo suficien- temente confiable como para ser usada en describir y evaluar a la gente y hacer predicciones so- bre su conducta. Hablando en términos estrictos, més que ser una caracteristica de una prueba, Ja confiabilidad es una propiedad de las puntuaciones obtenidas cuando se administra la prueba un grupo particular de personas en una ocasién particular y bajo condiciones especificas (Thompson, 1994). Note que confiabilidad no es lo mismo que estabilidad: al determinar la confiabilidad se asume que la prueba mide una caracteristica relativamente estable. A diferencia de la inestabil dad, la falta de confiabilidad es resultado de errores de medici6n producidos por estados inter- nos temporales, como la baja motivacién o la falta de disposicién, o de condiciones externas como un ambiente de prueba inedmodo o con distracciones. ‘Teoria clasica de la confiabilidad En la teorfa cldsica de los tests se supone que la calificacién observada de una persona en una prueba est compuesta por una puntuacién “real” més algin error no sistemético de medicién, La puntuacién real de una persona en una prueba particular se define como el promedio de las puntuaciones que obtendria si presentara la prueba un ntimero infinito de veces. Es obvio que la puntuacién real de una persona nunca puede medirse de manera exacta; tiene que ser estimada 85 ‘CAPITULO CINCO Contabildad y vader a partir de su puntuacién observada en la prueba. También se asume en la teorfa clisica de los tests que la varianza de las puntuaciones observadas (s%,,) de un grupo de personas es igual a la varianza de sus puntuaciones reales (s,,.) més la varianza debida a los errores no sisteméticos de medici6n (s%,,): Byg= hy + 3 6.1) Entonces la confiabilidad (r,,) de las calificaciones se define como la raz6n de la varianza de la calificaci6n real con la varianza de Ia calificacién observada, o la proporcién de la varianza ob- servada que es explicada por la varianza real £ m= 62) Soe . La proporcién de la varianza observada explicada por la varianza de error 0 que no se explica por Ja varianza real puede determinarse a partir de las fSrmulas 5.1 y 5.2 como: B= 1 ty. 63) La confiabilidad de un conjunto de calificaciones en una prueba se expresa como un né- ‘mero decimal positivo que fluctia entre .00 y 1.00. Una r,, de 1.00 indica una confiabilidad per- fecta, y una r,, de.00 indica una falta absoluta de confiabilidad de la medicién. Como la varianza de las calficaciones reales no puede calcularse de manera directa, la confiabilidad se estima ana- lizando los efectos de variaciones en las condiciones de la administraci6n_y el contenido de la prueba en las calificaciones observadas. Como advertimos antes, la confiabilidad no es influida por cambios sistemticos en las calificaciones que tienen un efecto similar en todos los examina- dos, sino sélo por cambios no sistemticos que tienen efectos diferentes en personas distintas. Di- chos factores no sistemsticos influyen en la varianza de error y, por lo tanto, en la confiabilidad de las calificaciones en la prueba. Cada uno de los diversos métodos para estimar la confiabil dad (test-retest, formas paralelas, consistencia interna) toma en consideraci6n los efectos de cir- cunstancias algo diferentes que pueden producir cambios no sisteméticos en las puntuaciones y, por ende, afectan la varianza de error y el coeficiente de confiabilidad. Coeficiente test-retest Se calcula un coeficiente test-retest para determinar si un instrumento mide de manera consis- tente de una ocasién a otra. Este coeficiente, conocido también como coeficiente de estabilidad, se encuentra correlacionando las calificaciones obtenidas por un grupo de personas en una apli- cacién con sus puntuaciones en la segunda aplicacién de la prueba. El procedimiento test-retest toma en consideraci6n los errores de medicién que resultan de diferencias en las condiciones (ambientales, personales) asociadas con las dos ocasiones en que se administr6 la prueba. Dado que en ambas ocasiones se aplicé la misma prueba, los errores debidos a diferentes muestras de Jos reactivos de la prueba no se reflejan en un coeficiente test-retest. Ademés, es probable que las diferencias entre las condiciones de la aplicacién sean mayores luego de un intervalo largo ‘CONFIABILIDAD. 87 que de uno corto. Como resultado, la magnitud de un coeficiente de confiabilidad test-retest tiende a ser mayor cuando el intervalo entre la prueba inicial y el retest es corto (unos cuantos dias 0 semanas) que cuando es largo (meses 0 afios). Coeficiente de formas paralelas ‘Cuando el intervalo entre la prueba inicial y el retest es corto, los examinados recuerdan, pot lo general, muchas de las preguntas y respuestas de Ia prueba inicial. Como es obvio, esto afecta sus respuestas en la segunda aplicacién, un hecho que por sf mismo no cambia el coeficiente de confiabilidad si todos recuerdan igual cantidad. Sin embargo, por lo regular algunas personas re- ‘cuerdan mas del material de la prueba que otras, ocasionando que la correlacién entre el test y el retest sea menos que perfecta. Lo que parece necesitarse para superar esta fuente de error es una forma paralela del instrumento, esto es, una que conste de reactivos similares pero no de los mis- ‘mos reactivos. Entonces puede calcularse como indice de confiabilidad un coeficiente de formas paralelas, también conocido como coeficiente de equivalencia. En principio, la idea de formas paralelas es razonable: al aplicar una forma paralela luego de un intervalo apropiado que sigue a la aplicacién de la primera forma puede determinarse un coeficiente de confiabilidad que refleje los errores de medicién debidos a los diferentes reacti- vos y los distintos momentos de aplicacién. Para controlar los efectos de confusién de la forma de la prueba con el momento de la aplicacién, la forma A debe administrarse primero a la mitad del grupo y la forma B a la otra mitad; ego, en la segunda aplicacién, el primer grupo presen- ta la forma B y el segundo la forma A. La correlacin resultante entre las calificaciones de las dos formas, conocida como coeficiente de estabilidad y equivalencia, toma en cuenta errores de- bidos a los diferentes momentos de aplicacién o a los distintos reactivos. Coeficientes de consistencia interna Se dispone de formas paralelas para una serie de pruebas, en particular para pruebas de habili- dad (aprovechamiento, inteligencia, aptitudes especiales). Sin embargo, una forma paralela de una prueba a menudo es costosa y dificil de elaborar. Por esta raz6n se elaboré un método me- nos directo de tomar en cuenta los efectos de diferentes muestras de los reactivos de una prueba sobre la confiabilidad. Este es el método de consistencia interna, que incluye el método de divi- sién por mitades de Spearman, las férmulas de Kuder-Richardson y el coeficiente alfa de Cron- bach. Sin embargo, los errores de medicién causados por diferentes condiciones 0 momentos de aplicacién no se reflejan en un coeficiente de consistencia interna. En consecuencia, este tipo de coeficientes no pueden verse como verdaderos equivalentes de los coeficientes test-retest 0 de formas paralelas. Método de divisién por mitades. En este enfoque simplificado de la consistencia interna una sola prueba se considera compuesta por dos partes (formas paralelas) que miden la misma cosa. De este modo, puede aplicarse una prueba y asignar calificaciones separadas a sus dos mitades seleccionadas de manera arbitraria, Por ejemplo, los reactivos con nimeros nones pueden cali- ficarse por separado de los que tienen niimeros pares. Entonces la correlacién (r,.) entre los dos conjuntos de calificaciones obtenidas por un grupo de personas es un coeficiente de contfiabi dad de formas paralelas para una mitad de la prueba tan larga como la prueba original. Suponien- CAPITULO CINCO Confishilda y vatider do que las dos mitades equivalentes tienen medias y varianzas iguales, la confiabilidad de la prueba como un todo puede estimarse mediante la férmula Spearman-Brown: 64) Para demostrar el uso de la formula 5.4, suponga que la correlacién entre las calificaciones totales obtenidas en los reactivos con nimeros nones y en los reactivos con nmeros pares de una prueba es .80. Entonces la confiabilidad estimada de toda la prueba es r,, = 2(.80)/(1 +.80) = 89. Método de Kuder-Richardson. Una prueba puede dividirse de muchas formas diferentes en dos ‘mitades que contengan igual ntimero de reactivos. Como cada forma puede dar por resultado un va- lor algo diferente de r,,, no queda claro qué estrategia de divisién producira el mejor estimado de confiabilidad. Una solucién al problema es calcular el promedio de los coeficientes de confiabilidad obtenidos de todas las divisiones por mitades como el estimado global dacontfiabilidad. Esto puede hacerse, pero el siguiente procedimiento abreviado fue elaborado por Kuder y Richardson (1937). Bajo ciertas condiciones, la media de todos los coeficientes de divisién por mitades pue~ de estimarse mediante una de las siguientes formulas: — KL = 2p = py/s*) k-1 Xk = His k-1 En estas frmulas, k es el ntimero de reactivos en la prueba, X es la media de las calificaciones totales de la prueba, s? es la varianza de las calificaciones totales de la prueba (calculadas con n en lugar de n ~ 1 en el denominador), y p, es la proporcidn de examinados que dan la respuesta de la clave al reactivo i. Las p, se suman a lo largo de todos los reactivos k. Las férmulas 5.5 y 5.6 se conocen como formulas Kuder-Richardson (K-R) 20 y 21, respectivamente, A diferencia de la frmula 5.5, la 5.6 se basa en la suposici6n de que todos los reactivos son de igual dificul- tad; esto también conduce a una estimacién més conservadora de la confiabilidad y es més fécil de calcular que la férmula 5.5, ara demostrar la aplicacién de la formula 5.6, suponga que una prueba que contiene 75 reae- tivos tiene una media de 50 y una varianza de 100. Entonces r,, = [75 —50(75 ~ 50)/100)/74 = 84 nh (5.5) m= 6.6) Coeficiente alfa, Las formulas 5.5 y 5.6 son casos especiales del coeficiente alfa mas general (Cronbach, 1951). El coeficiente alfa se define como Esi/5t)_ k-1 6.7) donde k es el ntimero de reactivos, s?la varianza de las calificaciones en el reactivo i, y s?la va- rianza de las calificaciones totales de la prueba. Las f6rmulas de Kuder-Richardson s6lo son aplicables cuando los reactivos de la prueba se califican con 00 1, pero el coeficiente alfa es una ‘érmula general para estimar la confiabilidad de una prueba que consta de reactivos en los cua- les pueden asignarse calificaciones de distinto peso a respuestas diferentes. Todos los procedimientos de consistencia interna (divisi6n por mitades, Kuder-Richard- son, Coeficiente alfa) sobrestiman la confiabilidad de las pruebas de velocidad. En consecuencia, CONFIABILIDAD 89 eben modificarse para proporcionar estimaciones razonables de confiabilidad cuando la mayo- rfa de los examinados no termina la prueba en el tiempo permitido. Para ello, una posibilidad consiste en aplicar las dos mitades de la prueba en momentos diferentes, pero con limites de tiempo iguales. Se calcula entonces la correlacién entre las calficaciones de las dos mitades cro- nometradas por separado y los coeficientes resufjantes se corrigen con la formula 5.4. También pueden usarse los procedimientos de test-retest y de formas paralelas para estimar las confiabi- lidades de las pruebas de velocidad. idad entre calificadores Salvo por errores administrativos, las calificaciones caleuladas por dos calificadores diferentes de una prueba objetiva presentada por un individuo deben ser idénticas. Sin embargo, la califi- cacién de las pruebas de ensayo y orales, ademas de otros juicios evaluativos (calificaciones de personalidad, calificacién de pruebas proyectivas) es un proceso bastante subjetivo. Al evaluar las calificaciones que implican el juicio subjetivo del calificador, es importante conocer el gra- do en que diferentes calificadores estén de acuerdo en las calificaciones y otros valores numéri- cos dados a las respuestas de diferentes examinados y reactivos. El enfoque més comtin para determinar la confiabilidad entre calificadores es hacet que dos personas califiquen las respues- tas de un ndimero considerable de examinados y calcular luego la correlacién entre.los dos con- juntos de calificaciones. Otro enfoque es hacer que muchas personas califiquen las respuestas de un examinado 0, mejor atin, que muchas personas califiquen las respuestas de varios examina- dos. Esta dltima estrategia arroja un coeficiente intraclase 0 coeficiente de concordancia, el cual es un coeficiente generalizado de confiabilidad entre calificadores. En muchos libros de estadis- tica se describen los procedimientos para calcular estos coeficientes, Las pruebas orales no se distinguen por tener una elevada confiabilidad, pero se dispone de formas especiales que pueden mejorar la objetividad, y por ende la confiabilidad, con la que se juzga el desempefio oral (vea la forma 3.1 en Ja pagina 58). Aunque los exémenes orales tienen, por lo general, una confiabilidad menor que pruebas escritas comparables, la atencién cuidadosa al disefio de las preguntas orales, ala elaboracién de las respuestas modelo a las preguntas antes de aplicar la prueba, y al uso de calificadores miiltiples, puede mejorar la confiabilidad de las ca- lificaciones en las pruebas orales. Dichos procedimientos han dado por resultado coeficientes de confiabilidad entre calificadores de .60 y .70 para las pruebas orales aplicadas en ciertos cursos de licenciatura, posgrado y de escuelas profesionales. Otras sugerencias para mejorar la confiabi- lidad de las evaluaciones del desempeiio oral incluyen alentar a los examinados a demorar la res- puesta hasta que hayan pensado por un momento en la pregunta, y registrar las respuestas de manera electrénica para que més tarde sean reproducidas y reevaluadas por los calificadores. Confial Interpretacién de los coeficientes de confiabilidad Los coeficientes de confiablidad de instrumentos afectivos como las listas de verificacién, escalas de calificacién e inventarios de personalidad, intereses 0 actitudes, por lo general son més bajos que Jos de las pruchas cognitivas de aprovechamiento, inteligencia o habilidades especiales. Sin embar- .g0, los coeficientes de confiabilidad obtenidos con esos instrumentos afectivos pueden ser bastante respetables, y los obtenidos con los instrumentos cognitivos en ocasiones son bastante bajos. {Qué tan alto debe ser un coeficiente de confiabilidad para que una prueba u otro instru- mento psicométrico sean ttiles? La respuesta depende de lo que planeemos hacer con las pun- tuaciones de la prueba, Cuando una prueba va a utilizarse para determinar si las calificaciones promedio de dos grupos de personas son significativamente diferentes, un coeficiente de confia- CAPITULO CINCO Contabiided y vader bilidad de .60 a .70 puede ser satisfactorio, Por otro Jado, cuando se utiliza la prueba para com- parar la calificaci6n de una persona con la de otra, 0 la calificacién de una persona en una prue- ba con su calificaci6n en otro instrumento, se necesita un coeficiente de confiabilidad de al ‘menos .85 para determinar si diferencias pequeitas en las calificaciones son significativas. Variabilidad y extensién de la prueba Como con otras medidas de relacién, los coeficientes de confiabilidad tienden a ser més altos cuando la varianza de las puntuaciones de la prueba, las puntuaciones del reactivo, las califica- ciones u otras variables que son evaluadas, es grande que cuando es pequefia, Como la varianza de la calificacién de la prueba se relaciona con la extensidn de ésta, un método para incrementar Ja confiabilidad es hacer la prueba més larga. Sin embargo, la simple inclusién de mas reactivos en una prueba no necesariamente incrementa su confiabilidad. Los nuevos reactivos deben ser del mismo tipo general y medir la misma cosa que los reactivos que ya contiene la prueba. De hecho, agregar reactivos que miden algo diferente de lo que miden los‘reactivos originales pue- de dar lugar a una reduccién en la confiabilidad. La formula general de Spearman-Brown es una expresién del efecto que tiene sobre la confiabilidad el alargar una prueba incluyendo més reactivos del mismo tipo general. Esta f6r- mula, una generalizacién de la formula 5.4, es: b mry nm Tm — Dra 8) donde m es el factor por el cual se alarga la prueba, r,, la confiabilidad de la prueba original no alargada, y ry la confiabilidad estimada de la prueba alargada. Por ejemplo, si una prueba de 20 reactivos que tiene un coeficiente de confiabilidad de .70 se hace tres veces més larga agregando 40 reactivos més, la confiabilidad estimada de la prueba alargada sera 3(.70)/[1 + 2(.70)] =.875. La figura 5.1 ilustra los efectos que produce sobre la confiabilidad el incrementar el ntimero de reactivos en una prueba por un factor de 1'/,, 2, 3, 4.0 5. Note que el incremento creciente en la confiabilidad es menor cuando la confiabilidad inicial es alta y con incrementos sucesivamente mayores en la extensidn de la prueba. Resolver la formula 5.8 param arroja la siguiente frmula para determinar cuéntas veces més ilidad 7, afin de obtener una confiabilidad deseada (r,): (S.9) Esta f6rmula puede utilizarse para determinar el incremento necesario en la longitud de la prue- ba y, en consecuencia, el nimero de reactivos que deben agregarse para incrementar la confiabi- Tidad de un valor desde r,, hasta Fg. ‘Ademds de depender del nimero de reactivos, la varianza y la confiabilidad de una prue- ba son afectadas por la heterogeneidad de la muestra de personas que la presentan, Entre mayor sea el rango de diferencias individuales en cierta caracterfstica, mayor serd la varianza de las ca- lificaciones en una medida de esa caracteristica. En consecuencia, el coeficiente de confiabili- dad de una prueba u otro instrumento de evaluacién sera mayor en un grupo més heterogéneo con una varianza mds grande en la calificacion de la prueba. El que la confiabilidad de una prue- ba varie con la naturaleza del grupo probado se refleja en la préctica de informar acerca de coe~ ficientes de confiabilidad separados para grupos que difieren en edad, grado, género y posicién CONFIABILIDAD oL Factor de alargamiento 15 2 2 3 4 5 08 06 04 Confiabilidad de la prueba alargada 800 010 020 030 040 050 0.60 070 080 0.90 1.00 Contfiabilidad de la prueba inicial (no alargada) Figura 5.1 Confiabitidad de una prueba alargada como funcién de la confiabitidad inicial y el factor de alargamiento. La confiabilidad se incrementa a medida que se agregan a una prueba més reactivos del mismo tipo general, pero el monto del incremento es mayor cuando la confiabilidad inicial es baja. Ademds, la confiabilidad de Ta prueba alargada se nivela gradualmente conforme la prueba se vuelve cada vez més larga. socioeconémica. La asociaci6n entre la varianza y la confiabilidad de una prueba también se ad- vierte en que las pruebas compuestas, sobre todo por reactivos de dificultad intermedia (valores de alrededor de .50), tienden a ser mas confiables que las pruebas donde la mayoria de los reac- tivos tienen indices més altos o mas bajos de dificultad. Error estandar de medicién Puesto que se desconoce la varianza de las calificaciones reales, no puede calcularse la confi dad de manera directa a partir de la fSrmula 5.2. Sin embargo, dado un estimado de la con- fiabilidad, puede calcularse la varianza de la calificaci6n real a partir de la formula 5.2 0, lo que es de mayor interés, calcular la varianza de error a partir de la formula 5.3. Al resolver la formu- 1a 5.3 para s,,, obtenemos: Serr = Sops\/1 = Tin 6.10) donde ses la desviacién estindar de las calificaciones observadas de la prueba y r,, el coeficien- te de confiabilidad test-retest. Este estadistico, conocido como error estdindar de medicién (s.,), ¢ una estimacién de la desviacién estindar de una distribucién normal de las calificaciones de 92 CAPITULO CINCO CConfabitidad y validez la prueba que se supone serfan obtenidas por una persona que presentara la prueba un niimero infinito de veces. La media de esta distribucién hipotética de calificaciones serfa la calificacién real de la persona en la prueba. Para ilustrar el célculo y el significado del error estindar de medicién, suponga que la des- viacién esténdar de una prueba es 6.63 y el coeficiente de confiabilidad test-retest es 85; entonces Son = 6.63/1 — .85 = 2.57. Si la calificacién de una persona en la prueba es 40, puede con- cluirse, con 68% de confianza, que forma parte de un grupo de personas que tienen calificaciones observadas de 40 cuyas calificaciones reales en la prueba caen entre 40 ~ 2.57 = 37.43 y 40+ 2.57 = 42.57. Para obtener el intervalo de confianza de 95% para una calificacién real, debe multiplicar- 8€ §,, Por 1.96 y el producto resultante agregarse y restarse de la calificacién observada: califica- ci6n observada +1.96 5... La figura 5.2 es un perfil o psicdgrafo de las puntuaciones obtenidas por un estudiante de undécimo grado en las diez pruebas y tres compuestos de la Bater‘a de Aptitudes Vocacionales de las Fuerzas Armadas (ASVAB). La puntuacién del estudiante en una prueba 0 compuesto particular est4 indicada por las Ifneas verticales cortas que se proyectan a partir de la mitad de la barra horizontal correspondiente. La anchura de la barra horizontal es igual a 1.96 veces el error esténdar de medicién de esa prueba o compuesto particular. En consecuencia, podemos decit que hay una probabilidad de .95 de que la calificacién real del estudiante en la prueba caiga den- Prueba o compuesto ASVAB Habllidad académica Habilidad verbal Habilidad matemética Conocimiento del mundo Comprensién de pérrafos Razonamiento aritmético Conocimiento matematico Ciencia general Informacién automotriz y de taller Comprensién mecénica Informacién electrénica Operaciones numéricas Velocidad de codificacion a bb Leveiteiitisitivetiniteiti 0 10 20 30 40 50 60 70 80 Calificacién T estandar Figura $.2 Gréfica de las calificaciones 7 de un estudiante (Kineas verticales cortas que se proyectan desde la mitad de las barras horizontales) y barras que representan los intervalos de confianza del 95% para las calificaciones T reales del estudiante en las 10 pruebas y tres compuestos de la Baterfa de Aptitudes Vocacionales de las Fuerzas Armadas (ASVAB). ‘Ven el texto para detalles. CONFIABILIDAD 93 tro del rango numérico representado por la barra horizontal que se extiende desde la calificacién observada ~1.96s,,,hasta la calificacin observada +1.965,,- Como regla empirica, la diferencia entre las puntuaciones de dos personas en la misma prue- bano debe considerarse significativa salvo que sea por lo menos dos veces el error estndar de me- din dela prs, Porro ldo cifeencia gr ls puntuaciones de la misma persona en dos pruebas debe ser mayor que dos veces el error estndar de medicién més grande para que la dife- rencia se interprete como significativa. Esto es asf porque el error esténdar de la diferencia entre las puntuaciones en las dos pruebas es mayor que el error estindar de medicién de cada prueba. ‘Como vimos en la férmula 5.10, el error esténdar de medicién se relaciona inversamente conel coeficiente de confiabilidad. Cuando r,, = 1.00, no hay error al estimar la calificacién real de una persona a partir de su calificacién observada; cuando r,, =.00, el error de medicién alcan- za su valor méximo (s). Por supuesto, una prueba que tiene un coeficiente de confiabilidad cer- ‘cano a .00 es initil porque la precisién de cualquier decisién tomada sobre la base de las puntuaciones estard al nivel del azar. ‘A diferencia de la teoria clisica de los tests, en la cual el error estindar de medicién se aplica a todas las puntuaciones en una poblacidn particular, en la teorfa de respuesta al ftem (IRT) difiere de una calificacién a otra. En la IRT, el error estandar de medicién de las puntua- ciones correspondientes a un nivel particular de habilidad es igual al recfproco de la cantidad de informacién transmitida por una calificaci6n a ese nivel. La cantidad de informacién proporcio- nada por las respuestas a un reactivo particular es determinada a partir de la funci6n de informa- cin del reactivo, y la informacién proporcionada por la prueba como un todo en un nivel particular de habilidad es la suma de los valores de informacién del reactivo en ese nivel de ha- bilidad (vea Hambleton, Swaminathan y Rogers, 1991). Confiabilidad de las pruebas referidas a criterio El concepio tradicional de confiabilidad corresponde a las pruebas referidas a normas, las cua- les estn disefiadas principalmente para diferenciar entre individuos que poseen varias cantida- des de una caracteristica especifica, Entre mayor sea el rango de diferencias individuales en las puntuaciones de una prueba, mayor ser la confiabilidad de la prueba. Por otro lado, al elaborar Ta mayorfa de las pruebas referidas a criterio la meta es identificar a las personas como pertene- cientes a uno de dos grupos. Un grupo consta de personas cuyas puntuaciones igualan 0 exce- den el nivel de criterio (de dominio) en la habilidad que se esta evaluando; cl otto grupo consta de personas cuyas puntuaciones no alcanzan el nivel de criterio. En esta situaciGn, resultan ina- propiados los procedimientos correlacionales tradicionales para determinar los coeficientes test- retest, de formas paralelas y de consistencia interna. El coeficiente de acuerdo, que es la proporcién de calificaciones que caen por encima 0 por debajo del nivel de criterio en ambas aplicaciones 0 ambas formas, es un indice de la confia- bilidad de una prueba referida a criterio, Otro indice es el coeficiente kappa, que es algo més di- ficil de calcular, pero estadisticamente mas apropiado que el coeficiente de acuerdo (Cohen, 1968; Aiken, 1988). ‘Teoria de la generalizacién Durante muchos afios los psicémetras han enfatizado que una prueba no tiene una sino muchas confiabilidades, dependiendo de las varias fuentes de error de medicién que se toman en consi- deracién al calcular un coeficiente de confiabilidad. La muestra particular de reactivos incluidos 94 CAPITULO CINCO, Confiabitidad y validex enla prueba, las instrucciones de aplicacién, las condiciones ambientales (temperatura, ilumina- cién, ruido) en que se aplica la prueba, y las idiosincracias y estados fisicos o psicolégicos tem- porales de los examinados pueden afectar la confiabilidad estimada de una prueba. Cualquiera de esas condiciones, 0 todas, puede contribuir a la varianza de error, simbolizada en la formula clésica 5.1 de la varianza de la prueba. Los procedimientos matematicos de anélisis factorial (vea el apéndice A) proporcionan una forma de dividir la varianza de la calificacién real en la férmula 5.1 en varianzas comin y de factor especifico, pero la férmula no distingue entre varias, fuentes de error que contribuyen a la varianza de error. Elhecho de que una prueba puede tener muchas confiabilidades, dependiendo de los efec- tos de varias fuentes de varianza de error, o facetas, ha sido incorporado en otros enfoques hacia Ia teorfa de los tests . Uno de esos enfoques, la teoria de la generalizacién, empieza por concep- tualizar una calificacién observada de la prueba como una estimacién de un universo de califi- caciones correspondiente. El grado de precisién con el que la puntuacién de la prueba estima el universo de puntuaciones depende de la naturaleza del universo, es decir, de las facetas particu- lares que lo definen. ’ Una puntuacién de la prueba puede generalizarse a muchos universos diferentes, cada uno definido de acuerdo con cierta combinacién de facetas. Las facetas que caracterizan a un universo dado, como las condiciones de aplicacién de la prueba y la composicién de reactivos 0 formas de ésta, pueden ser muy diferentes de las que definen a otros universos. Algunas de esas facetas pueden no tener efecto sobre la generalizacién de las puntuaciones de la prueba, mien- tras que los efectos de otras facetas pueden ser significativos. Los célculos de la teorfa de la generalizacién implican aplicar las técnicas estadisticas de anélisis de varianza para determinar la generalizacién de las puntuaciones de la prueba como funcién de los cambios en la(s) persona(s) que la presenta(n), diferentes muestras de reactivos que componen la prueba, las situaciones o condiciones en que se presenta ésta, y los métodos personas involucrados en su calificacién, Luego puede calcularse un coeficiente de generaliza- cién, el cual es similar al cocficiente tradicional de confiabilidad, como la razén de la varianza cesperada de las calificaciones en el universo con la varianza de las calificaciones en la muestra, Por titimo, puede estimarse un valor universal de la calificacién, similar a la calificacién real de la teorfa clisica de la confiabilidad (Cronbach, Gleser, Nanda y Rajaratnam, 1972). ‘Alenfatizar la importancia de las condiciones en que se administra una prueba y los pro- pésitos para los que se diseii, la teorfa de la generalizacién ha cambiado el enfoque de los usua- rios de las pruebas més alld de la preocupacién con la prueba misma como un instrumento psicométrico bueno o malo en general a la pregunta de “; Bueno o malo para qué propésito?” La teorfa de la generalizacién, la teorfa de respuesta al ‘tem, el andlisis de las estructuras de covarianza y otros métodos estadisticos modernos ciertamente tienen mayor complejidad téc~ nica que la teorfa clisica de los tests. Sea como sea, el desarrollo y las aplicaciones dle una prue- ba todavia se basan en gran medida en los conceptos tradicionales de confiabilidad y validez y en los procedimientos derivados de ellos. VALIDEZ De manera tradicional, la validez se ha definido como el grado en que una prueba mide lo que esté disefiada para medir. Una desventaja de esta definici6n es la implicacién de que una prueba solo tiene una validez, la cual supuestamente es establecida por un solo estudio para determinar sila prueba mide lo que se supone debe medir. En realidad, una prueba puede tener muchas cla- ‘VALIDEZ 95 ses de validez, dependiendo de los propésitos especificos para los cuales fue disefiada, la pobla- cidn objetivo, las condiciones en que se aplica y el método para determinar la validez. Los métodos por los cuales puede determinarse la validez incluyen (1) analizar el conte- nido de la prueba, (2) calcular la correlacién entre las calificaciones en la prueba y las califica- cones en el criterio de interés y (3) investigar,las caracterfsticas psicol6gicas particulares 0 constructos medidos por la prueba. Todos esos pfocedimientos son itles en la medida que mejo- ran la comprensién de lo que mide una prucba y proporcionan informacién para tomar decisiones sobre la gente. También puede ser de interés evaluar la validez creciente de una prueba, es decir, qué tanto aflade la prueba a la prediccién y comprensién de los criterios que ya son anticipados por otras medidas. A diferencia de la confiabilidad, la cual es influida s6lo por los errores no sisteméticos de ‘mediciGn, la validez de una prueba es afectada tanto por los errores no sistemdticos como por los sistemticos (constantes). Por esta razén, una prueba puede ser confiable sin ser valida, pero no puede ser valida sin ser confiable. La confiabilidad es una condicién necesaria, pero no suficien- te, para la validez. Validez de contenido La apariencia fisica de una prueba con respecto a sus propésitos particulares (validez de facie) es ciertamente una consideracién importante a tener en cuenta al comercializarla. No obstante, el concepto de validez de contenido se refiere a algo més que a la apariencia. La validez de conteni- do atafie a si éste produce un rango de respuestas que son representativas del dominio entero 0 universo de habilidades, entendimientos y otras conductas que supuestamente debe medir la prue- ba. Se supone que las respuestas a la muestra de reactivos de una prueba bien diseffada son indi- cativas de lo que serfan las respuestas al universo entero de conductas de interés. Un andlisis de la validez. de contenido ocurre més menudo en conexién con las pruebas de aprovechamiento, para las cuales por lo general no existe un criterio externo especificado. La validez de contenido también es de interés en las medidas de aptitud, interés y personalidad, aun- que quiz4 menos que la validez de constructo o Ja relacionada con un criterio. En una prueba de aprovechamiento se evaliia la validez de contenido analizando la composicién de la prueba para determinar el grado en que representa los objetivos de la ensefianza. Una forma de lograt esto es ‘comparar el contenido de la prueba con un bosquejo o tabla de especificaciones concernientes a Ja materia que va a ser cubierta por la prueba. Si expertos en la materia coinciden en que una prue- ba parece y acta como un instrumento disefiado para medir lo que se supone debe medir, enton- ces se dice que pose validez de contenido. Dichos juicios involucran no s6lo la apariencia de los. reactivos de la prueba, sino también los procesos cognitivos implicados al responderlos. Es obvio que el proceso de evaluar la validez de contenido no deberfa esperar hasta que se haya elaborado la prueba. El juicio de los expertos en Jo que se refiere a qué reactivos incluir es necesario desde el principio del proceso de elaboracién de la prucha. Al definir el universo del contenido de la prueba y la muestra de ese universo que se va a incluir, los diseitadores establecen las condicio- nes indispensables para lograr construir un instrumento con validez de contenido. Validez con relaci6n a criterio La validacién de cualquier prueba de habilidad consiste en relacionar las calificaciones en la prueba con el desempefio en medidas o estndares de criterio con los cuales pueden compararse Jas calificaciones. Sin embargo, de manera tradicional, el término validez con relacién a criterio CAPITULO CINCO Confiabiidad y vaidez hace referencia a procedimientos en los cuales las calificaciones en la prueba de un grupo de per- sonas se comparan con las puntuaciones, clasificaciones u otras medidas de desempeiio. Algu- nos ejemplos de criterios contra los cuales se validan las pruebas son las notas escolares, calificaciones de un supervisor y ndimero o cantidad de dlares en ventas. Siempre que se dispo- ne de una medida de criterio en el momento de la prueba puede determinarse la validez concu- rrente del instrumento, Cuando las calificaciones en el criterio no estén disponibles sino hasta cierto tiempo después de que se aplicé la prueba, se enfatiza la validez predictiva de la prueba, YValidez concurrente. Los procedimientos de validacién concurrente se emplean siempre que tuna prueba se aplica a personas clasificadas en varias categorfas, como grupos de diagndstico cl- nico o niveles socioeconémicos, con el propésito de determinar si las puntuaciones en la prueba de las personas ubicadas en una categoria son significativamente diferentes de las de los indivi- duos que se hallan en otras categorias. Sila calificacién promedio varfa de modo sustancial de una categoria a otra, entonces la prueba puede usarse como otra forma, qujz4 més eficiente, de asig- nar a la gente a esas categorias. Por ejemplo, las puntuaciones en el Inventario Multifasico de Personalidad de Minnesota (MMPI) han sido titiles en la identificacién de trastornos mentales especificos, porque se ha encontrado que los pacientes a quienes los psiquiatras diagnostican trastornos particulares tienden a diferir del resto de la poblacién en las puntuaciones que obtie~ nen en ciertos grupos de reactivos (escalas). ‘Validez predictiva, La validez predictiva atafiea la precisién con que las puntuaciones de una prueba predicen puntuaciones de criterio, segtin lo indica la correlacién entre la prueba (predic- tor) y un criterio del desempeio futuro. La validez, predictiva es de interés sobre todo para las pruebas de aptitud o de inteligencia, ya que las puntuaciones en esos tipos de instrumentos a me- nudo se correlacionan con las puntuaciones, notas de cursos, calificaciones de pruebas de apro- vechamiento y otros criterios de desempeio. La magnitud de un coeficiente de validez predictiva esté limitada por la confiabilidad de las. variables de predicciGn y de criterio; no puede ser mayor que la rafz cuadrada del producto de esas os confiabilidades. Por ésta y por otras razones, lacorrelacién entre un predictor y una variable de criterio, calculada mediante procedimientos descritos en el apéndice A, varia con el criterio espe: fico, pero rara vez es mayor a 60. Como la proporcién de la varianza en la variable de criterio que puede ser explicada por la variacion en la variable predictora es igual al cuadrado de la correlacién entre las variables predictora y de criterio, por lo general no puede predecirse mas de 36% de la va- riacién en las puntuaciones de criterio a partir de las puntuaciones obtenidas en una prueba u otro instrumento psicométrico, Esto deja sin explicar 0 predecir 64% de la varianza de criterio. Consi- ‘derando que la validez predictiva de la mayoria de las pruebas es menor de .60, es comprensible por qué deben hacerse con cuidado las afirmaciones concernientes a la posibilidad de predecir los cri- terios de desempeiio a partir de las puntuaciones obtenidas en las pruebas psicol6gicas. Error estiindar de estimacién, La secci6n sobre regresiGn y prediccién en el apéndice A des- cribe el procedimiento a seguir para determinar una ecuacién de regresién (ecuacién de predic~ cin) y pronosticar las calificaciones de criterio de un grupo de personas a partir de sus puntuaciones en pruebas o en otras variables. Sin embargo, ingresar la puntuacién de una per- sona en una prueba a una ecuacién de regresién sdlo produce un estimado de la calificacién que Ja persona obtendré en realidad en Ja variable de criterio. Si la calificacién de criterio que se pre- dice para una persona se considera como la media de una distribucién normal de las calificacio- ‘VALIDEZ, 7 nes de criterio obtenidas por un grupo de individuos que obtuvieron la misma calificacién que la persona en la variable predictora, entonces la desviacién estndar de esta distribucién es un in- dice del error promedio en esas predicciones. Este estadistico, conocido como error estdndar de estimacién (s,.), eS aproximadamente igual a: t en = SNIP 6.1) s, donde s es la desviacién esténdar de la calificaci6n de critetio y res la correlacién produeto-mo- mento entre el predictor (prueba) y el eriterio. Por ejemplo, suponga que la desviacién estindar de cierta medida de criterio es 15 y la comrela- cién entre las puntuaciones de la prueba y de criterio es .50; entonces S.x¢ V1 ~ S0°= 13. Si lacalificacién de criterio que se predice de un sujeto es 50, hay una posibilidad de 68 entre 100 de que la persona obtendré una calificacién de criterio entre 37 y 63 (Yay Sgq) ¥ aproximadamente 95 de 100 de que obiendré una calificacién de criterio entre 25 y 75 (Ying * 1.96 5,,).De manera ‘ms precisa, las posibilidades son de 68 entre 100 de que la persona forme parte de un grupo de in- dividuos que tienen una calificaci6n de criterio pronosticada de 50 cuyas calificaciones de criterio obtenidas cayeron entre 37 y 63. De manera similar, hay una posibilidad aproximada de 95 entre 100 de que el individuo forme parte de un grupo de personas con una calificacién pgomedio anti- cipada de 50 cuyas calificaciones de criterio obtenidas cayeron entre 25 y 75. Como lo ilustra es- te ejemplo, cuando la correlacién entre las calificaciones de la prueba y de criterio es baja, la calificaciGn de criterio obtenida por una persona puede ser muy diferente de la pronosticada. Por estaraz6n, debe tenerse cautela al interpretar las calificaciones predichas cuando la correlacién en- tre la prueba y la medida de criterio es modesta. Entre menor sea el coeficiente de correlacién, mas grande es el error estdndar de estimacién y menos precisa es la prediccién de la prueba al criterio, Factores que afectan la validez con relacién a criterios La validez con relacién a criterios de una prueba puede ser influida por una serie de factores, in- luyendo las diferencias de grupo, la extensi6n de la prueba, la contaminacin del criterio y la {asa base. La validez creciente de una prueba, es decir, la contribucién de la prueba que excede alas contribuciones de otras variables, también deberia ser considerada al d lizar la prueba con propésitos de seleccién y ubicacién, Diferencias de grupo. Las caracterfsticas de un grupo de personas en quienes se valida una prueba incluyen variables como sexo, edad y rasgos de personalidad. sos factores, que en este ccontexto se conocen como variables moderadoras, pueden afectar la correlaci6n entre una prue- ba y una medida de criterio. La magnitud de un coeficiente de validez, como la de un coeficien- te de confiabilidad, también esté influida por el grado de heterogeneidad del grupo de validacién en lo que mide la prueba. Los coeficientes de validez tienden a ser mas pequefios en los grupos més homogéneos, es decir, los grupos que tienen un rango més estrecho de calificaciones. Bl ta- majio de un coeficiente de correlacién es una funcién de las variables de prediccién y de crite- rio, por lo que estrechar el rango de calificaciones en cualquier variable tiende a disminuir ef coeficiente de validez predictiva Como la magnitud de un coeficiente de validez varfa con la naturaleza del grupo probado, una prueba recién elaborada que resulte ser un predictor vélido de una variable de criterio particu Jar en un grupo de gente debe tener una validacién cruzada en un segundo grupo. En la valida- 98 CAPITULO CINCO CConfiabilidad y valider cidn cruzada se aplica una prueba a una segunda muestra de personas para determinar si conser- vva su validez entre muestras diferentes, Debido a la operacion de los factores del azar, la magni- tud de un coeficiente de validez por lo general se reduce en alguna medida en la validacin cruzada, En consecuencia, en la mayor parte de los casos se considera que la correlacién entre las calificaciones de prediccién y de criterio en la validacién cruzada es un mejor indicador de la validez predictiva que la correlaci6n original prueba-criterio. La validacién cruzada, que es ‘una manera de determinar la generalizacién de la validez de una prueba, es decir, sila prucba si ‘gue siendo vilida en situaciones diferentes, también puede involucrar una muestra diferente (pa- ralela) de reactivos. Con diferentes muestras de examinados, diferentes muestras de reactivos de Ja prueba, 0 en ambos casos, suele darse alguna reduccién del coeficiente de validez en la vali-

You might also like