LA FIABILIDAD DE LOS TEST Y ESCALAS Recordemos que la validez se refería al significado que podemos atribuir.

Es decir, estar seguro de que se mide lo que se dice medir, pero NO hay que entenderlo como una característica del instrumento. Con una validez alta podemos garantizar el significado de las puntuaciones de los sujetos. Por tanto si cambio de muestra puede cambiar mi fiabilidad y mi validez, porque cambio de sujetos. Hay que intentar que las muestras sean heterogéneas. CONCEPTOS PRELIMINARES DE FIABILIDAD. La fiabilidad es una característica de los resultados, de unas puntuaciones obtenidas en una muestra determinada. Un mismo instrumento puede medir bien a los sujetos de una muestra, con mucha precisión y mal, con un margen de error grande, a los sujetos de otra muestra. En principio la fiabilidad expresa el grado de precisión en la medida. Con una fiabilidad alta los sujetos en ocasiones sucesivas quedaran ordenados de manera semejante. Ej. Si tiene una actitud favorable hacia la homosexualidad no puede a veces ser desfavorable. Otro concepto es el de consistencia o predictibilidad. Un test es fiable si sabemos de antemano como va a contestar un sujeto, y lo sabemos porque lo hemos comprobado en muchas ocasiones. Errores sistemáticos: son los que siempre ocurren. Ej. A cada sujeto se le dan dos puntos mas Están relacionados con la validez. Errores aleatorios: los que ocurren al azar. Relacionados con la fiabilidad. ENFOQUES DE LA FIABILIDAD. 1. Como formas paralelas. Son dos versiones del mismo test: los ítems son distintos pero se pretende medir lo mismo. Se espera que un sujeto saque en ambos test las mismas puntuaciones verdaderas. La puntuación empírica se divide en la puntuación verdadera y en los errores (modelo lineal de Spearman). • Condiciones para que sean formas paralelas: 1ª Las puntuación empíricas pueden ser diferentes pero las verdaderas son siempre iguales. 2ª La dispersión de los errores o la varianza error debe ser la misma en ambos test. • Indicador de equivalencia. Puede ser un indicador de equivalencia entre los dos test: si la correlación es alta, las dos formas del mismo test dan resultados parecidos, es decir, ambas son intercambiables. Si la correlación es baja, miden cosas distintas. • Confirmación adicional.

1

Una confirmación adicional para ver que son formas paralelas es comprobar si la correlación media Inter − ítem dentro de cada forma es de magnitud similar y también la correlación de los ítems de una forma con los de la otra versión. 2. Estabilidad Temporal (Test − Retest) Los sujetos responden dos veces al mismo test dejando un intervalo de tiempo entre ambas. Se refiere a que si el test se aplica hoy o dentro de un tiempo, siga siendo valido y fiable, es decir, que se encuentre una relación entre lo que se obtiene hoy y lo que se obtiene mas adelante. • Indicador de estabilidad. Es un indicador de estabilidad o de no ambigüedad en la medida en que en ambas ocasiones los resultados son parecidos. 3. Consistencia Interna. Expresa hasta que punto las respuestas son suficientemente coherentes y relacionadas para concluir que todos los ítems miden lo mismo y son sumables en una puntuación única que representa o mide un rasgo (recordemos que estamos en la escala tipo Lickert y que para sumar ítems deben medir lo mismo). Podemos hallarla de dos maneras: • Procedimiento de las dos mitades: mediante a) la formula de Spearman Brown, b) Flanagan, c) de Cronbach. Es habitual dividir el test en ítems pares e impares, pero puede dividirse en dos mitades cualesquiera, teniendo ambas el mismo numero de ítems. Si emparejamos los ítems según contenido de manera que cada mitad del test conste de ítems muy parecidos, obtendremos una estimación más alta de la fiabilidad. Cuando la mitad de los ítems son positivos y la otra negativos es útil que las dos mitades estén compuestas una por ítems positivos y otra por los negativos. Una correlación entre los dos subtest en torno a 0,50 o mayor indica suficiente coherencia entre los dos tipos de ítems y no se manifiesta aquiescencia. Se parte el test en dos mitades, y para decir que son formas paralelas tienen que tener: a) la misma media, b) la misma varianza. Y si los correlaciono me dara la fiabilidad de una parte o de otra (son la misma) y con el coeficiente de Spearman − Brown hallamos la fiabilidad del conjunto. R12 = correlación entre las dos mitades del test Esta formula calcula la fiabilidad de todo el test. Supone que las dos mitades tienen medias y varianzas idénticas, por lo que sobreestima la fiabilidad. • Procedimiento informativo de cada ítem: cuando parto el test en tantas partes como ítems hay. Podemos usar el de Cronbach (para ítems continuos) y la Kuder−Richardson (para ítems dicotómicos). Son preferibles a los métodos de las dos mitades porque equivalen a la fiabilidad media que obtendríamos 2

dividiendo un test en todas sus posibles dos mitades. SUPUESTOS DE LA TEORIA CLASICA 1º La media empírica es igual a la media verdadera mas los errores. X = V + E 2º La media de los errores tiene que ser 0, es decir aleatorios. 3º No tiene que haber relación entre la puntuación verdadera y los errores, porque sino serian sistemáticos. 4º La correlación entre los errores de dos test paralelos tiene que ser 0 porque sino serian sistemáticos. COEFICIENTES DE CONSISTENCIA INTERNA La varianza de las puntuaciones totales de un test es:

= Varianza total: expresa todo lo que hay de diferente en las puntuaciones totales. La varianza será mayor si los sujetos difieren mucho entre si y estará asociada a mayor fiabilidad.

= Varianza verdadera: expresa lo que hay de diferente debido a que los sujetos son distintos en lo que pretendemos medir, es decir, lo que hay de diferente debido a lo que los ítems tienen en común.

= Varianza debida a errores de medición: debida a que los ítems miden en parte cosas distintas. Puede haber más fuentes de error pero controlamos la debida a falta de homogeneidad. La fiabilidad es la proporción de varianza verdadera, es decir la fiabilidad es igual a la varianza debida a lo que hay de coherente en las respuestas entre la varianza debida tanto a lo que hay de coherente como de no coherente en las respuestas y su formula básica es: REQUISITOS PARA UNA FIABILIDAD ALTA. 1º Tendremos una fiabilidad alta cuando haya diferencias en las respuestas a los ítems, es decir, cuando los ítems discriminan. Si un ítem no esta relacionado con los demás puede ser que no este midiendo lo mismo y que no sea discriminante. 2º Y también cuando las respuestas de los ítems estén relacionadas entre si, entonces habrá consistencia interna. Esto es que los sujetos tienden a puntuar alto en todos o bajo en todos. Con respuestas diferentes y además coherentes, los sujetos quedan más diversificados, mejor clasificados por sus puntuaciones totales y esto se refleja en una mayor varianza. La fiabilidad viene a expresar la capacidad del instrumento para discriminar, para diferenciar a los sujetos a través de sus respuestas en todos los ítems. FORMULAS DE KUDER RICHARDSON 20 Y DE CRONBACH Se trata de la misma formula, una expresada para ítems dicotómicos y otra para ítems continuos.

3

El denominador es la varianza de las puntuaciones totales del test. El numerador es la varianza verdadera, o la suma de covarianzas de los ítems. Si los ítems no discriminan sus desviaciones típicas serán pequeñas, bajara el numerador y bajara la fiabilidad. Si las desviaciones típicas son grandes pero los ítems no están relacionados bajara la fiabilidad, porque esa no relación entre los ítems hace que las puntuaciones totales estén menos diferenciadas. Coeficiente de Cronbach. K = numero de ítems

= suma de las varianzas de los ítems

= varianza de los totales. Formula Kuder Richardson. FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD. Los coeficientes de fiabilidad tienden a aumentar cuando: • La muestra es heterogenea: es más fácil clasificar a los sujetos cuando son distintos. • La muestra es grande: es más probable que haya sujetos muy distintos. • Las respuestas a los ítems son más de dos: mayor probabilidad de que las respuestas difieran mas, de que se manifiesten las diferencias que de hecho existen. • Cuando los ítems son muchos: hay más oportunidad de que los sujetos queden más diferenciados en la puntuación total. Si queremos aumentar la fiabilidad del test podemos aumentar el numero de ítems siempre que sean buenos y relacionados. Pero la relación longitud − fiabilidad no es lineal (porque sino seria infinita), la relación que hay entre ambas muestra un efecto techo. En test cortos no muy fiables si aumentamos el numero de ítems aumentara mucho la fiabilidad, sin embargo en test largos pasa lo contrario, la fiabilidad aumenta poco por el efecto techo. Para aumentar los ítems existen unas formulas (Pág. 9) • La formulación de los ítems es muy semejante: si hay diferencias entre los sujetos, aparecerán en todos los ítems y subirán sus intercorrelaciones. INTERPRETACION DE LOS COEFICIENTES DE CONSISTENCIA INTERNA. • Expresa la proporción de varianza debida a lo que los ítems tienen de relacionado. Un coeficiente de 0,70 indica el 70% de la varianza se debe a lo que los ítems tienen en común, y un 30% se debe a errores de medición. 4

Los valores del coeficiente de fiabilidad oscilan entre 0 y 1. Una fiabilidad de 0. con otra muestra de ítems de la misma población de ítems obtendríamos unos resultados semejantes. con ítems de contenido casi idéntico.86 (= ). 3º Puede deberse también a una concepción del rasgo muy limitada.• Son indicadores de homogeneidad de los ítems. de la complejidad o simplicidad de la definición del rasgo que queremos medir y además influyen en la fiabilidad características de la muestra. entendiendo por ello la que tendríamos si pasásemos varios test. • Son una estimación del coeficiente de correlación que podemos esperar con un test similar. Una fiabilidad alta se puede conseguir con muchos ítems con relaciones bajas entre si y también con dos bloques de ítems con claras correlaciones entre los ítems dentro de cada bloque. Los coeficientes no dependen exclusivamente de la redacción de los ítems. 1º En principio confirman que todos los ítems miden lo mismo y se utilizan como un control de calidad. entre que valores se encontrara nuestra puntuación verdadera. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD. 2º Una fiabilidad alta puede deberse a un numero grande de ítems que en ocasiones no se prestan a una interpretación clara. De un universo de posibles ítems hemos escogido una muestra de ítems. entre los ítems pero no supone necesariamente una coherencia conceptual. A mayor fiabilidad bajara la magnitud del error probable. • La raíz cuadrada de un coeficiente de fiabilidad equivale al coeficiente de correlación entre las puntuaciones obtenidas y las puntuaciones verdaderas. 1º La consistencia interna expresa una relación de hecho. • El error típico es la oscilación probable de las puntuaciones si los sujetos hubieran respondido a una serie de test paralelos. es decir.75 indicaría una correlación de 0. con el mismo número y tipo de ítems. • La fiabilidad nos dice si un test discrimina adecuadamente. Tabla 3 Cuando baja la fiabilidad sube el error típico. si detecta bien las diferencias en aquello que es común a todos lo ítems. de que todos midan lo mismo. La homogeneidad conceptual se interpreta como descriptor del rasgo que suponemos presente en todos los ítems. 3º Permiten estimar los coeficientes de correlación que hubiéramos obtenido entre dos variables si su fiabilidad fuera perfecta (se denominan corregidos por atenuación). CUANDO UN COEFICIENTE DE FIABILIAD ES SUFICIENTEMENTE ALTO. estadística. 2º Permiten calcular el error típico de las puntuaciones individuales. si clasifica bien a los sujetos. Por que un coeficiente alto no expresa necesariamente que los ítems son suficientemente homogéneos. a estos e le llama índice de precisión. Este índice expresa el valor máximo que puede alcanzar el coeficiente de fiabilidad. 5 . que con una forma paralela del mismo test podría ser distinta. pero con poca o nula relación con los ítems del otro bloque. Si la fiabilidad es alta.

1º Puede ser debido a una inadecuada formulación de los ítems. Esta correlación corregida por atenuación es la que hubiéramos obtenido si hubiésemos podido suprimir los errores de medición en las dos variables. El error típico se interpreta como cualquier desviación típica e indica la variabilidad probable de las puntuaciones obtenidas.Error típico de la medida. e indica el margen de error o variación de las puntuaciones individuales. Conociendo la fiabilidad de las dos variables podemos estimar la verdadera relación: rxx y ryy son coeficientes de fiabilidad. y si no entienden el significado previsto habrá que eliminarlos. Y si no hay diferencias tampoco habrá relación clara y verificada entre las respuestas. A veces la causa es que apenas hay diferencias entre los sujetos. La puntuación verdadera exacta no la sabemos pero podemos estimar entre que limites se encuentra. 3º Definición compleja del rasgo medido. 2º Homogeneidad de la muestra. Las puntuaciones verdaderas tienden a ser menores que las obtenidas cuando estas son superiores a la media y mayores cuando son inferiores a la media. El mejor uso del coeficiente de fiabilidad es utilizarlo para calcular el error típico cuando interese situar a casa uno en su banda de posibles probables resultados. La correlación calculada entre dos variables queda siempre disminuida por los errores de medición. Puede que los sujetos entiendan los ítems de una manera distinta a como lo pretende el autor del instrumento. Una fiabilidad baja con una muestra heterogenea puede significar una concepción del rasgo excesivamente compleja. por su no perfecta fiabilidad. Es la media más probable que un sujeto hubiera obtenido si le hubiéramos medido repetidas veces en el mismo rasgo. Viene a ser la desviación típica de las puntuaciones verdaderas. La coherencia conceptual prevista la comprobamos con la coherencia que de hecho encontramos en las respuestas. Correlación corregida por atenuación. CUANDO TENEMOS COEFICIENTES DE FIABILIDAD BAJOS. Es de utilidad en interpretaciones individuales. 6 . observadas • Las puntuaciones verdaderas.

20 ítems − rxx´ = 0. ¡OJO!: no confundirnos al poner n = 3. que ya hemos dicho que no existe entre longitud del test y fiabilidad.86 formas paralelas Y el resultado seria 115 ítems que vamos a añadir. n = 2. El test inicial de 20 ítems tiene 1 forma paralela. ¿en cuantos ítems tendríamos que alargar el test? rnn es la fiabilidad deseada. sustituiríamos en la formula y nos daría n = 3.90. Con coeficientes bajos siempre es conveniente utilizar el error típico. r11 es la fiabilidad obtenida con el número original de ítems. pues sino aumentaría hasta el infinito. porque hay que 7 . n es el numero de formas paralelas que alargo en el test inicial. Ejemplo: tenemos un test inicial de 20 ítems con una fiabilidad de 0. FORMULAS QUE RELACIONAN FIABILIDAD CON NÚMERO DE ITEMS • Si queremos saber en cuanto aumentara la fiabilidad si aumentamos el numero de ítems multiplicando el numero de ítems inicial.42 40 ítems − rxy NO podríamos hacer una regla de tres porque eso supondría una relación lineal.86 que ha sido lo que nos ha dado en la formula. 4º Utilidad del error típico cuando la fiabilidad es baja. tenemos la formula de Spearman − Brown : rxx es el coeficiente de fiabilidad conocido. 40 ítems − 1 forma paralela X ítems − n − 1 = 2. 86 formas paralelas. Cuando ya tenemos 40 ítems y 2 formas paralelas se le llama forma alargada del test. Ejemplo del ejercicio 7: Si tenemos una fiabilidad de 0. así que si ahora añado otros 20 ítems añado otra forma paralela.42. y le vamos a añadir otros 20 ítems. Ahora en este caso si se podría utilizar la regla de tres. sobre todo cuando se trata de tomar decisiones sobre sujetos.70 y queremos llegar a una fiabilidad de 0. Rxx´ es el nuevo coeficiente de fiabilidad estimado. • Si tenemos una fiabilidad conocida y queremos llegar a otra más alta.Los rasgos definidos de manera compleja pueden tener ítems poco relacionados entre si.. En este ejemplo n (numero de formas paralelas) no es 20 porque eso supondría que tendríamos 400 ítems en vez de 40.

Cuando disponemos de una unidad podemos hacer los operaciones aritméticas habituales. Podemos ordenar los sujetos u objetos de más a menos. no los que hemos añadido (115). TEMA V. que hay una unidad propiamente dicha aunque el punto cero sea arbitrario. Se han hecho especialmente populares como alternativa los métodos paramétricos cuando los datos no se ajustan a los supuestos teóricos de dichos métodos. Si se da una correspondencia suficiente entre los modelos matemáticos y los datos observados se denomina isomorfismo. En principio. • Justificación de la suposición de una unidad en los datos de que disponemos: 8 . Los números pueden significar orden: En este caso tenemos escalas ordinales. El investigador Stevens planteó el problema de la utilización de métodos paramétricos con medidas que. I.− INTRODUCCION A LOS METODOS NO PARAMÉTRICOS: Los métodos no paramétricos no suponen condiciones previas en la población.restarle la forma paralela que ya teníamos en el test inicial. Se trata de las denominadas escalas nominales. solo son ordinales y no disponen de una unidad. El problema de la unidad esta relacionado con las escalas de medida.− LOS SUPUESTOS DE LOS METODOS PARAMÉTRICOS: • EN RELACION AL TIPO DE ESCALA O NIVEL DE MEDIDA: Lo que supone es que la escala utilizada es de intervalo. En estos casos podemos contar cuantos elementos hay en cada categoría de clasificación.66 (sale de una regla de tres) Final 25 ítems n = 1. pero los números con los que designamos los grupos no expresan necesariamente ni orden ni cantidad. pero no hay una unidad en sentido propio.66 forma paralela. Si no la restamos nos saldrían 154 ítems que son el total. Son relativamente sencillos y especialmente aptos para muestras pequeñas. en cualquier caso el procedimiento seria el mismo: Inicial 15 ítems 1 forma paralela Añado 10 ítems n − 1 = 0. el nivel de medida condiciona las operaciones matemáticas permisibles. Los números pueden significar cantidad o distancia: Aquí disponemos de una unidad en sentido propio (4 es el doble que 2) se trata de las escalas de intervalo (y que si tienen un punto cero absoluto se denominan escalas de razón). Los números pueden significar un criterio de clasificación: En este caso no son números en sentido propio. en sentido estricto. es decir. Los casos que hemos visto siempre nos salen números redondos pero puede suceder que no lo sean.

Las razones aducidas para actuar de este modo son de dos tipos: • Unas consideraciones son de corte más teórico: Suponemos que las escalas que utilizamos son de intervalo aunque imperfectas. Estas y parecidas razones hacen que el punto de vista dominante hoy día es que la distinción entre escalas ordinales y de intervalo es irrelevante para determinar cual es el método de análisis apropiado para comprobar hipótesis estadísticas. por ejemplo. Aun así. Podemos suponer en la practica que. No se trata de escalas literalmente de intervalo pero se aproximan lo suficiente como para tratar los datos como si lo fueran. las pruebas paramétricas se consideran legitimas con medidas ordinales. Independientemente de los problemas de los métodos paramétricos. • Homogeneidad de varianzas. II. si los métodos alternativos paramétricos se pueden utilizar son en principio preferibles porque en ellos se utiliza toda la información disponible (no solamente el orden). esta bien demostrada la calidad de los métodos no paramétricos. por lo que podemos asignar a esas respuestas números consecutivos.− CUANDO ES PREFERIBLE UTILIZAR LOS METODOS NO PARAMETRICOS: Los métodos no paramétricos son una alternativa preferible cuando se dan estas dos circunstancias: • Cuando no se pueda presumir la normalidad en la población: cuando muestras pequeñas tienen una distribución obviamente muy alejada de la distribución normal. III. Esta suficientemente probado que en la mayoría de las situaciones la violación de estos supuestos no afecta al poder (de rechazar la hipótesis nula cuando es falsa) de las pruebas paramétricas. entre poco y algo hay la misma distancia que entre algo y bastante como si hubiera una unidad. Lo que ocurre es que a veces la calidad del instrumento no es modificable o simplemente se trata de estudios improvisados en los que no se puede o no interesa invertir tiempo en el instrumento. • EN RELACION A LAS CARACTERISTICAS DE LAS POBLACIONES: Se supone: • Una distribución normal. • Otras razones son de tipo puramente experimental: Los datos teóricamente ordinales funcionan bien como si se tratara de escalas de intervalo. las variables subyacentes o rasgos los conceptualizamos como continuos y con distribución normal. Así.− METODOS NO PARAMÉTRICOS MAS UTILIZADOS: Los métodos no paramétricos podemos dividirlos en dos grandes grupos según se trate de datos nominales 9 . • Con muestras pequeñas de tamaño claramente desigual y con varianzas obviamente muy desiguales. La perdida de información es mayor en la medida en que aumenta el numero de sujetos. El supuesto de normalidad en la población se puede asegurar mejor cuidando la calidad del instrumento.

• Para muestras muy pequeñas divididas solo en dos categorías (equivale al contraste entre proporciones) es muy útil la aplicación directa de la distribución binomial (solo requiere consultar tablas). es muy útil la prueba de McNemar para detectar cambios: los sujetos se clasifican según sus respuestas. tenemos la prueba exacta de Fhiser. antes y después. que se pueden disponer en cuadros de 2x2.etc) Con frecuencia métodos que requieren métodos ordinales desembocan en la distribución de ji cuadrado (sobre todo al aumentar el tamaño de la muestra) o simplemente se utiliza el orden para dicotomizar las puntuaciones y aplicar después el ji cuadrado convencional (como en la prueba de la mediana). como la prueba de los signos para verificar cambios. − METODOS APROPIADOS PARA DATOS NOMINALES: Clasificaciones: • En esta categoría entran todas las variantes del ji cuadrado.. Otros métodos no paramétricos de interés suponen variables al menos ordinales y continuas aunque no se utilicen los rangos.. como sucede en: 10 . 1 ó 0. Para comprobar cambios (muestras relacionadas) es también popular la prueba de los signos. Se utiliza para detectar cambios o en diseños de sujetos igualados. − Cuando Tenemos Solamente Dos Muestras: • La U de Mann−Whitney para comparar dos muestras independientes: Es la alternativa más utilizada a la t de Student para muestras independientes. el coeficiente de contingencia. Estos métodos deben utilizarse junto con los coeficientes de asociación correspondientes (como el coeficiente . 1. • Algunos métodos que requieren datos ordinales terminan en la distribución nominal. 2. numero de sujetos con cambio positivo y numero de sujetos con cambio negativo.(sujetos u observaciones clasificados en categorías) u ordinales (lo que conocemos y utilizamos de cada observación es su rango o numero de orden). que solo requiere datos ordinales y no utilizan los rangos. • La T de Wilcoxon para dos muestras relacionadas: Es también la alternativa . y es que no se ven afectados por sujetos con puntuaciones muy extremas y atípicas. • Para dos muestras relacionadas. • Para muestras independientes y muy pequeñas. − METODOS ORDINALES EN LOS QUE SE UTILIZAN RANGOS: En estos métodos se sustituye la puntuación directa por su rango o numero de orden y se opera con estos rangos. Lo que se compara es la proporción de unos antes y después. pero en este caso la distribución pasa a ser normal y estamos en el caso habitual de diferencias entre proporciones.. La distribución binomial es también aplicable a muestras grandes.1. Comprueba si dos distribuciones son distintas.más utilizada a la t de Student para muestras relacionadas. y en las que por el bajo numero de sujetos el ji cuadrado convencional no es aplicable. Aunque es cierto que existen algunos de ellos en los que no se utilizan sino que se supone que la variable es ordinal y continua. 2. también dispuestas en cuadros de 2x2. Los métodos en los que se utilizan los rangos tienen en principio una ventaja obvia.

. se utiliza para comprobar si en una serie de puntuaciones se da una tendencia a aumentar o disminuir. Este tipo de cálculos son de interés precisamente para verificar el grado de concordancia. unanimidad. como complemento de la prueba de Friedman se puede utilizar el coeficiente W de Kendall. que nos dice si las diferencias en las condiciones (columnas) tiene un efecto significativo en las respuestas de los sujetos (filas). e independientes o relacionadas. como calculo complementario. 2. IV. para verificar si la distribución observada se aparta de una distribución hipotética que suele ser la distribución normal. semejante a la prueba de Kolmogorov−Smirnov.. etc. Si hay rangos repetidos es más difícil rechazar la hipótesis nula pero el mismo procedimiento incluye los ajustes necesarios. esta prueba es especialmente útil. al menos. Para mas de dos muestras relacionadas: • La prueba de Friedman: Es también una alternativa no paramétrica del análisis de varianza convencional de varias muestras relacionadas: Anova A−EF−MR. Cuando se trata de dos muestras lo que se detecta con estas pruebas es si las muestras tienen distribuciones distintas. • Para mas de dos muestras relacionadas y cuando la variable dependiente es dicotómica contamos con la prueba Q de Conchran (una extensión de la prueba de McNemar). Aplicada a una sola muestra. Cuando el supuesto de homogeneidad de varianzas no es sostenible. entre varias muestras independientes.. A partir del valor de W se puede calcular rápidamente el valor medio de la correlación entre las columnas y la fiabilidad de las filas (sujetos) al ordenar a las columnas. nos permite determinar si las dos muestras pertenecen a poblaciones distintas en tendencia central o dispersión. Para mas de dos muestras independientes: • La H de Kruskal−Wallis: es una alternativa al análisis de varianza más sencillo: Anova A−EF−CA. • La prueba de Jonckheere comprueba si se da una tendencia significativa a aumentar de menos a mas.− LOS METODOS NO PARAMETRICOS MÁS COMUNES: Si categorizamos las muestras según sean dos o más de dos. los métodos no paramétricos posiblemente mas utilizados son: 11 . pero se supone. que puede considerarse como una extensión de la prueba de Friedman. como prueba de bondad de ajuste.2 Cuando Tenemos Mas De Dos Muestras: Cuando tenemos mas de dos muestras. estamos ante las alternativas no paramétricas al análisis de varianza. De manera análoga. porque suele utilizarse para comprobar el grado de coincidencia entre varios evaluadores que ordenan a los mismos sujetos u objetos. • La prueba de tendencia L de Page. En este análisis de varianza parametrico disponemos. denominado coeficiente de concordancia.• La prueba de Kolmogorov−Smirnov para una muestra o para dos muestras independientes: no se utilizan rangos sino frecuencias acumuladas. una escala ordinal. • La prueba de las rachas de Wald−Wolfowitz. permite poner a prueba la hipótesis de que varias medias proceden de la misma población. de los coeficientes de fiabilidad.

• Por otra parte todos estos análisis son fácilmente programables. hay que tener en cuenta todo el contexto...− ANALISIS ESTADISTICOS CONVENCIONALES: 1.− ANALISIS REFERIDOS A TODA LA PRUEBA: • EL COEFICIENTE DE FIABILIDAD: Este coeficiente indica en que medida en pruebas semejantes los sujetos habrían quedado ordenados de manera parecida.etc. 2.. Las pruebas objetivos (tipo−test) pueden ser muy cómodas fundamentalmente porque: • Las pruebas objetivas se pueden corregir con lectura óptica.− EL CONTEXTO: LAS PRUEBAS OBJETIVAS: Al estudiar el análisis de ítems de las pruebas objetivas.. Su frecuente mala calidad se debe sobre todo a: • No es tan fácil redactar buenas preguntas objetivas. Este tipo de pruebas se prestan a hacer una serie de análisis de interés que pueden referirse: • A toda la muestra. 12 ...etc.. • Esta información que puede ser muy especifica puede ayudar a caer en la cuenta de errores generalizados. En las pruebas objetivas la corrección sí es objetiva.. la tarea es mecánica. • Con las pruebas objetivas es mas sencillo establecer criterios de clasifican y también pueden justificarse mejor estos criterios. • A cada pregunta en particular. a entender puntos difíciles.− UTILIDAD DEL ANALISIS DE LOS ITEMS: Analizar las pruebas objetivas puede ser de interés porque: • Sirve para ir mejorando su calidad: la información que nos dan este tipo de análisis nos permite ir mejorando las pruebas sucesivas que vallamos haciendo.etc.. y si utilizamos una hoja de respuestas de lectura óptica y un programa adecuado de ordenador casi sin darnos cuenta podemos acumular una información muy útil. Una manera de mejorar la calidad de estas preguntas objetivas es analizarlas. pero tanto la formulación de las preguntas como donde se pone el mínimo para el apto son decisiones subjetivas del autor.PSICOMETRIA: I. • También nos aportan datos que pueden influir indirectamente en nuestros criterios de calificación: podemos descubrir preguntas ambiguas. • No es frecuente planificar estas pruebas aunque sea de manera muy elemental.− ANALISIS DE ITEMS EN LAS PRUEBAS OBJETIVAS: 1. 1. con dos respuestas correctas o con la clave de corrección equivocada.. simple. Dos factores influyen en la magnitud de este coeficiente. puede por lo tanto haber mas preguntas de lo que es fácil preguntar y no tanto de lo mas importante... a condicionar un estudio posterior de mas calidad.

Un coeficiente de fiabilidad alto es claramente deseable cuando las diferencias entre los sujetos son legitimas y esperadas. Lo que expresa esta correlación es en que medida el responder correctamente a un ítem está relacionado con puntuar alto en todo el test. diferencia a los que saben mas de los que saben menos. • Una correlación próxima a 0: quiere decir que responder bien a eso pregunta no tiene que ver con estar bien en el conjunto del test. y esto es lo que suele suceder en los test psicológicos. Puede servir para relativizar los resultados individuales. es decir. • Homogeneidad de la muestra o diferencias entre los sujetos: Si los sujetos tienen resultados muy parecidos la fiabilidad tenderá a bajar. No hay que olvidar que una fiabilidad alta no es sinónimo sin mas de calidad porque puede faltar lo que es mas importante.− ANALISIS DE CADA PREGUNTA O DE CADA ALTERNATIVA: • LA CORRELACION ITEM−TOTAL O INDICE DE HOMOGENEIDAD CORREGIDO: Se trata de un dato de cada e indica en que medida cada uno de ellos discrimina. Lo que podemos esperar es que el escoger una alternativa falsa correlacione negativamente con el total. con preguntas muy distintas y poco relacionadas la fiabilidad será menor. se limita a la mera tabulación de las respuestas. si todos saben todo o casi todo o casi nada. • EL ERROR TIPICO DE LAS PUNTUACIONES INDIVIDUALES: El error típico se deriva del coeficiente de fiabilidad y viene a indicar el margen probable de oscilación de las puntuaciones de unas ocasiones a otras en exámenes hipotéticamente semejantes. • Una correlación negativa: quiere decir que responder bien a esa pregunta esta relacionado con estar mas bien mal en el conjunto de la prueba. • LA CORRELACION DE CADA ALTERNATIVA CON EL TOTAL: Es la correlación entre escoger cada una de las alternativas ( tanto la verdadera como las falsas) y el total del test. la validez.• La homogeneidad de los ítems: En la medida en que los ítems midan lo mismo la fiabilidad será mayor. Se trata de la correlación de cada pregunta con la suma de todas las demás. 2.− ANALISIS DE LAS DIVERSAS ALTERNATIVAS: TABULACION DE LAS RESPUESTAS: Este análisis. • Una correlación positiva: quiere decir que puntuar bien en esa pregunta esta relacionado con puntuar bien en el conjunto de la prueba. Se trata de organizar las respuestas de manera que permitan una reflexión rápida. Fundamentalmente la fiabilidad depende de las diferencias entre los sujetos por lo que se puede cuestionar la fiabilidad de un test o de una prueba objetiva como indicador necesario de su calidad. El proceso es el siguiente: • Se ordenan los sujetos de mas a menos según su puntuación total en la prueba y se seleccionan el 25% con 13 . Equivale a una desviación típica y se interpreta de manera semejante. no se puede clasificar u ordenar bien a sujetos muy semejantes. 2.

han escogido cada opción. AI = 0) • INDICES DE DISCRIMINACION: Los índices de discriminación expresan en que medida cada pregunta o ítem diferencia a los que mas saben de los que menos saben • Indice de discriminación 1: Depende del grado de dificultad del ítem. N + N: Numero total de sujetos analizados. • Las preguntas que discriminan mucho tienden a ser de dificultad media (responden bien la mitad de los sujetos analizados). Es la media de éste 50% de sujetos analizados. y debajo el numero de alumnos del grupo inferior que ha escogido esa misma opción. de manera que se pueda ver cuantos de cada grupo. SIMBOLOS UTILIZADOS: N: Numero de sujetos en uno de los dos grupos (los dos grupos tienen idéntico numero de sujetos). contribuye a situar a un sujeto en el grupo superior e inferior.− INDICES DE DIFICULTAD Y DISCRIMINACION: 1. Cuadro 1 En el supuesto numerador tenemos el numero de alumnos del grupo superior que ha escogido cada opción. 14 AS: Numero de acertantes en el grupo superior AI: Numero de acertantes en el grupo inferior. superior e inferior. la respuesta correcta esta señalada con un asterisco. el ítem es mas discriminante. . • A mayor diferencia. • INDICE DE DIFICULTAD: Indica la proporción de aciertos en la muestra de alumnos que estamos utilizando.− PARA CADA ITEM: Estos índices no se calculan para toda la muestra sino para el 25% con una puntuación total mas alta en todo el test y para el 25% con una puntuación total mas baja. El término de dificultad se presta a equívocos: in índice mayor indica un pregunta mas fácil. en numero de acertantes entre los grupos superior e inferior. Es la diferencia entre dos proporciones. Df = 0. Expresa hasta que punto la pregunta discrimina. El numero de sujetos entre ambos grupos es por lo tanto el mismo. • Se tabulan las respuestas de estos dos grupos en cada ítem.50 (AS = N. los acertantes del grupo superior menos los acertantes del grupo inferior. 3. Este tipo de análisis es análogo al que se hace cuando se construye una escala de actitudes. establece diferencias. contribuye mas a situar a un sujeto entre los primeros o entre los últimos. solo se analiza el 50% de la muestra.puntuación total mas alta (grupo superior) y el 25% con puntuación total mas baja (grupo inferior). Es el índice probablemente mas utilizado.

etc. no establecen diferencias. 15 . (AS = 0. • Este indice es independiente del grado de dificultad de la pregunta. • Puede ocurrir que discriminen bien pero que sean fáciles y las acierten algunos del grupo inferior.50: mas de la mitad de los acertantes pertenecen al grupo que sabe mas.. • Indice de discriminación 2. (AS = N. Estas preguntas no contribuyen a la fiabilidad del test. nos dicen que todos saben o no saben una pregunta. tendremos que: Dc1=1. AI = N) Las preguntas con discriminación negativa favorecen al grupo inferior y en principio deberían ser revisadas (mal formuladas. ambiguas. • El indice maximo de dificultad cuando aciertan mas de la mitad es el que hubiera habido manteniendo el mismo numero de aciertos y que ninguno del grupo superior hubiera fallado. • Si todos y solos los del grupo superior responden correctamente. • Puede haber preguntas que discriminen bien pero que sean difíciles y fallen algunos del grupo superior. AI = 0) • Si todos y solos los del grupo inferior responden correctamente. tendremos que: Dc1=0. (AS = AI = 0) Es decir. (AS = AI = N) • Si todos se equivocan (pregunta muy difícil) tendremos que: Dc1=0. El valor maximo de discriminación manteniendo los 12 aciertos es que el hubieramos obtenido si AS = 10 (todos los del grupo superior aciertan) y los dos aciertos restantes se los dejamos al grupo inferior. las preguntas muy fáciles y muy difíciles no discriminan.. • Si todos responden correctamente (pregunta muy fácil).. Llega a 1 si todos los acertantes. pertenecen al grupo superior. • Una limitación de este índice es que el valor máximo de 1 solo se alcanza cuando aciertan todos los del grupo superior y se equivocan todos los del inferior.. Por estas razones algunos refieren al otro índice de discriminación. • Los valores extremos que puede alcanzar son 0 y ± 1. El indice maximo de discriminación cuando han acertado menos de la mitad es el que hubieramos obtenido si todos los acertantes pertenecieran al grupo superior. error en la clave de corrección. Indica la proporcion de aciertos en el grupo superior con respecto al numero total de acertantes. Es satisfactorio si es superior a o.• Equivale a una estimación de la correlación item−total y puede interpretarse de la misma manera. pero eso no quiere decir necesariamente que sean malas preguntas. pero no quien sabe mas y quien menos. aunque sean pocos.). tendremos que: Dc1= −1.

entendiendo por medir. • El Dc2 dice que la discriminación es perfecta. prescindiendo de lo muy facil y de lo muy difícil. tanto si es facil como si es muy difícil. sin embargo los indices obtenidos con grupos pequeños. que es muy facil. con N =10 en casa grupo. Valoración de estos indices. Las preguntas muy discriminantes (nunca seran las mas difíciles) son utiles en examenes de segunda convocatoria. Para extrapolar los resultados harian falta muestras grandes. El numero de ítems es la diferencia maxima posible. sugerir que se puede revisar pero malas preguntas pueden tener indicen que podrian considerarse optimos. 2º Una pregunta muy difícil. Este indice es util para comparar la dificultad de varios test. El analisis de las diversas alternativas. si se mantiene constante el tipo de muestra. la que habria entre un sujeto que hubiera respondido bien a todos y el que no hubiera respondido a ninguno. Es peligroso interpretar estos indices como indicadores automaticos de la calidad de una pregunta. • El Dc1 dice que discrimina muy poco porque es muy difícil. de fallar alguien esta pregunta pertenece al grupo de los que menos saben. N=400. Describen como ha funcionado una pregunta en una situación dada. comprobando cuantos eligen cada una. 1º Una pregunta muy facil. PSICOMETRIA: I.Nos dice cuanto discrimina el item. el apreciar 16 . que de saberla alguien. este perteneceria al grupo superior. Estos indices describen como han funcionado los ítems. es util para ir mejorando las preguntas.− GUIA PARA CONSTRUIR ESCALAS DE ACTITUDES: ¿POR QUE CONSTRUIMOS UNA ESCALA EN VEZ DE LIMITARNOS A UNA SOLA PREGUNTA?: Construimos escalas de actitudes para medir determinados rasgos. En examenes amplios la no discriminación puede indicar que no se detectan diferencias que de hecho existen. sobre todo si tienen un numero distinto de ítems. En el conjunto del examen y para poder calificar con cierto matiz debe haber preguntas de dificultad media que discriminen bien. Las preguntas muy discriminantes nos indican donde falla los que tienen malos resultados sobre todo. • El Dc1 diria que apenas discrimina. La discriminación supoen diferencias y el que haya diferencias no es necesariamente un buen resultado. pero no hacen juicios sobre la calidad de la pregunta. dan lo que se puede esperar en grupos similares. y son utiles para evaluar las preguntas. La aciertan 10 del superior y 9 del inferior. • El Dc2 diria que aunque es muy facil.

una definición o explicación previa da coherencia al resto del proceso. o ver donde se sitúa un sujeto en un continuo de menos a mas.− DEFINICION DE LA ACTITUD QUE SE DESEA MEDIR: El primer paso es siempre clarificar el rasgo que se desea medir. si disponemos de una serie de ítems podemos calcular el coeficiente de fiabilidad. va a aumentar la varianza. No hay que olvidar que las actitudes. o ser mal entendida por muchos sujetos. De los diversos tipos de escalas nos limitaremos aquí a tratar las denominadas escalas tipo Likert en las que la suma de una serie de respuestas a ítems supuestamente homogéneos sitúa al sujeto en la variable medida. • Una razón de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos van a quedar mas nítidas. pero básicamente se puede concretar en los pasos siguientes: 1. no solamente porque describen mejor un constructo complejo.− PROCESO DE CONSTRUCCION DE UNA ESCALA DE ACTITUDES: El proceso se puede describir de varias maneras. Diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables. merecen mas confianza varias preguntas que una sola. y pueden ser muy genéricos o muy específicos. Tenemos varias razones para construir escalas o disponer de varios indicadores del mismo rasgo: • Con una serie de ítems describimos y medimos mejor constructos relativamente complejos. 1.− REDACCION DE LOS ITEMS: Pueden redactarse de diversas maneras pero. Puede ayudar también revisar otros instrumentos ya hechos. suelen formularse en forma de opiniones con las que se puede estar o no estar de acuerdo. en general. En un sentido mas psicometrico. Una única pregunta simplifica frecuentemente en exceso el concepto que vamos a medir. • Aumenta la fiabilidad de la medida y se minimizan las limitaciones de cada ítem en particular. va a ser mas fácil clasificarlos y. • En conjunto una medida formada por varios ítems es mas valida. 17 . 2. Puede ayudar el hacer previamente una descripción de la persona que supuestamente tenga de manera clara la actitud que se desea medir. Sin embargo. sino porque una única pregunta puede ser de hecho poco afortunada. puede ser conveniente el disponer de varios indicadores de una misma actitud que van a ser sumados después como indicador de esta actitud o variable. como cualquier otro rasgo que queramos medir. se pueden concebir en diversos grados de abstracción. A veces el medir actitudes con una sola pregunta es muy útil como medida complementaria de instrumentos mas complejos. Una muestra relativamente amplia de preguntas constituye una mejor base para formarnos un juicio mas preciso y fundado sobre como cómo está una persona en un rasgo concreto. en definitiva. y tratándose de escalas de actitudes. Este tipo de razones tiene mas peso cuando se van a tomar decisiones sobre los sujetos o interesa un buen diagnostico individual.cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestión.

pero puede haber otras mas apropiadas como grado de interés. que unas veces el estar de acuerdo manifiesta una actitud favorable y otras manifieste una actitud desfavorable. Sobre el numero inicial de ítems que deben redactarse: no hay un numero optimo. o no tanto. 3. Cuando se de esta aquiescencia suele deberse a la ambigüedad en la redacción o falta de claridad de los ítems. la misma idea dicha de diversas maneras. que pueden crear confusión en la respuesta. La irrelevancia o ambigüedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los ítems no discriminan. • Deben contener una única idea. etc. • Requiere una atención mayor por parte del que responde. 18 . el constructo queda expresado de una manera muy simple.• Los ítems deben tener las siguientes características: • Deben ser relevantes: claramente relacionados con la actitud que se desea medir.. Esta correlación debe alcanzar un valor de 0. • Si hay un numero aproximado de ítems positivos y negativos.− REDACCION Y NUMERO DE RESPUESTAS: • Redacción de las respuestas: Las respuestas mas habituales en las escalas de actitudes suelen expresar el grado de acuerdo con el contenido del item. Esta redacción bipolar tiene varias ventajas: • Obliga a una definición previa mas matizada del rasgo o constructo. incluso con afirmaciones que se contradicen. • Comprobar la coherencia es prácticamente lo mismo que comprobar que no se da la aquiescencia o tendencia a mostrar acuerdo casi con cualquier afirmación. y sumamos a cada sujeto sus puntuaciones a los dos tipos de ítems. de importancia. • Deben redactarse con claridad. nunca.etc. aunque con ítems muy similares se consiguen fácilmente coeficientes de fiabilidad altos. Si un ítem discrimina en sentido contrario puede haber un error en la clave de corrección. • Es preferible redactar los ítems en las dos direcciones positiva y negativa. Una misma idea se puede formular de mas de una manera para comprobar después que formulación es mas eficaz. y mostrará en este caso una coherencia global en las respuestas. No obstante. La no discriminación puede indicar también que un ítem no mide lo mismo que los demás o que los sujetos lo entienden de otra manera. eso si. tenemos mas garantía de que los ítems miden lo mismo si simultáneamente diferencian a los mismos sujetos. Para medir debemos encontrar diferencias. • Deben ser opiniones con las que se pueda estar o no estar de acuerdo. de manera que todos los entiendan de la misma manera. se deben redactar de tal manera que previsiblemente unos sujetos estarán de acuerdo y otros no. pero a mayor numero inicial de ítems... verificando si hay contradicciones sistemáticas.. sin introducir palabras negativas como no o nunca que se prestan a confusiones al responder. A mayor numero de ítems buenos también será mayor la fiabilidad. mayor probabilidad de encontrar en el análisis un conjunto de ítems definitivos con una fiabilidad suficiente. • Deben ser discriminantes. • Cabe formular ítems repetitivos. es decir. Por esta razón: • Hay que tener cuidado con expresiones como no.50 o mas. podemos calcular la correlación entre los dos totales parciales como si se tratara de dos subescalas. • Permite comprobar la coherencia de las respuestas. es decir. pues cuando hay mas de una idea se puede estar de acuerdo con una o con otra.

Cuadro 2 • Numero de respuestas: El numero habitual de repuestas es de cinco. • Numero par o impar de respuestas: Lo mas claro es que son preferibles tres respuestas a dos.. con tal de que el numero de respuestas no supere la capacidad de discriminación de los que responden: el numero máximo se suele situar entre seis y siete respuestas y el mínimo en tres. a mayor numero de respuestas en los ítems.. en el sentido de que nos pueden sugerir ideas validas como criterio en la misma selección de los ítems. La clave en números debe hacerse de acuerdo con el sentido del ítem.− PREPARAR LA CLAVE DE CORRECCION: Las respuestas se codifican siempre con números íntegros sucesivos. en la búsqueda de muestras determinadas. El incluir un numero par de categorías tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos categorías. al menos si se juzga que los números pueden condicionar la respuesta.. En general.etc. • Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al proceso de construcción del instrumento. Las repuestas en términos de frecuencia están muy avaladas por la investigación científica. suele haber en toda la escala una mayor fiabilidad. O con letras. de acuerdo y en desacuerdo. • Recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra supone un considerable ahorro de tiempo y esfuerzo. Cuadro 3 5. y se elimina además la posibilidad de que los sujetos se evadan escogiendo la respuesta central. ya que la fiabilidad es casi siempre mayor. 19 . o incluso otras escalas o instrumentos que puedan estar ya hechos. 4.Cuadro 1 Caben otros formatos en las respuestas como utilizar números especificando con palabras el significado de los extremos (muy de acuerdo o muy en desacuerdo).. • El pensar en otros datos tiene que ver con la comprobación de la validez de nuestro instrumento y de los datos que con él recojamos. para recoger datos adicionales. de manera que la respuesta mas favorable a la actitud tenga el numero mayor. y que los sujetos responderán al mismo tiempo. Estos nuevos datos o preguntas tienen que ver con la verificación de la validez del instrumento. En general parece preferible el empleo de letras o palabras.− PREPARAR PREGUNTAS O INSTRUMENTOS ADICIONALES: Además de la escala que se esta construyendo se deben preparar otras preguntas. • El obtener datos adicionales de interés es importante por varias razones: • Buscar mas datos hipotéticamente relacionados con lo que queremos medir contribuye a que nos hagamos una idea mas clara del rasgo o actitud que nos interesa medir. aunque no sucede siempre. En principio es preferible evitar el 0 y comenzar a partir de 1.

y por tanto es sumable en una puntuación total que supuestamente mide el rasgo y que es la que después interpretamos y utilizamos.. Lo que deseamos comprobar es en que medida el puntuar alto en un ítem supone el hecho de obtener un total alto en el resto de la escala.− ANALISIS DE ITEMS Y COMPROBACION DE LA FIABILIDAD: En primer lugar y una vez obtenidos los datos calculamos: • La media y la desviación típica de los totales: cada sujeto tiene un total que es la suma de todas sus respuestas a los ítems. estado civil. se recogen las respuestas de una muestra para poder hacer los análisis correspondientes. es decir. sobre todo el análisis de ítems y el calculo de la fiabilidad. sexo. estos análisis nos van a permitir dar forma al instrumento definitivo.− OBTENER DATOS DE UNA MUESTRA: Una vez preparada la versión inicial del instrumento. ocupación o curso. si los sujetos tienden a responder de manera que podamos deducir que todos los ítems expresan el mismo rasgo.. y también de su utilidad. 7. Correlación ítem−total Se trata de la correlación de cada ítem con la suma de todos los demás o correlación de cada ítem con el total menos el ítem. sino también con que otros rasgos puede estar relacionado ese rasgo. A mayor heterogeneidad en la muestra obtendremos con mayor facilidad una fiabilidad alta.etc. a que grupos puede diferenciar. • La media y la desviación de cada ítem. en cualquier caso no deben ser menos de 200. • Sobre el numero de sujetos necesario. A continuación llevaremos a cabo el análisis de ítems y calcularemos la fiabilidad. etc. u otros test o escalas que pueden estar relacionados con la variable que estamos midiendo. Si se piensa hacer después una análisis factorial debe haber unos 10 sujetos por ítem. Lo que queremos comprobar es si las respuestas tienden a covariar. para que los análisis tengan suficiente consistencia y sean extrapolables a muestras semejantes. Los procedimientos que podemos utilizar son dos: 1. • −análisis de ítems Tenemos que comprobar si cada ítem mide lo mismo que los demás. • Datos de otro tipo: Como pueden ser preguntas relacionadas con lo que se pretende medir. En definitiva comprobamos si los ítems tienden a diferenciar a los sujetos. Es importante tener desde el principio una idea clara no solamente del rasgo que queremos medir. conviene que haya al menos 5 sujetos por ítem inicial. si discriminan adecuadamente. Estos datos servirán para describir la muestra y para hacer análisis adicionales.. 20 . Estos datos adicionales son básicamente de dos tipos: • Datos cesales o sociológicos: Como edad. • El tipo de muestra elegido debe ser semejante al tipo de población con el que se va a utilizar después..Comprobar la validez de un instrumento tiene que ver con la comprobación o confirmación del significado de lo que medimos. 6.

• Esos programas nos dan la fiabilidad si suprimimos ítems de uno en uno. de este procedimiento: En este ejemplo: • El ítem nº 1 discrimina bien. pero hay que tener presentes otras consideraciones: • Es cuestionable seguir mecánicamente procedimientos automáticos.Estos coeficientes deben ser al menos estadísticamente significativos o distintos de cero. los del grupo inferior superan a los del grupo superior. El procedimiento anterior es muy laborioso si no se hace con ordenador. Lo que esperamos es que el grupo superior tenga una media significativamente mas alta en cada ítem que el grupo inferior. el constructor del instrumento debe intervenir con sus propios criterios sobre lo que quiere medir y sobre las características del instrumento. • El ítem nº 2 discrimina poco. por lo que habrá que acudir a otros criterios en la selección definitiva de los ítems. sino en bloques escogidos con algún criterio. superior e inferior. es muy superior a lo puramente aleatorio. Ej. Con cualquiera de los dos procedimientos obtenemos un dato sobre la calidad del ítem. El 50% central no entra en este análisis. Cuando se calcula la correlación con el total. • Calculamos la media y la desviación típica en cada ítem de cada uno de los dos grupos. Prescindiremos de los ítems que no discriminan y nos quedaremos con los mas discriminantes. Siempre hay ítems mejores que otros en términos relativos. y que aporta una información semejante. En la elección definitiva de los ítems pueden intervenir además otros criterios. y grupo inferior ! el 25% con puntuación total mas bajo. este ítem habría que retenerlo. Para esto: • Ordenamos a los sujetos de mas a menos. 2. y seleccionamos dos subgrupos: grupo superior ! el 25% con total mas alto. el valor de t nos muestra que la diferencia entre los grupos superior e inferior. • Contrastamos las medias de estos dos grupos mediante la T de student. • El ítem nº 3 tiene discriminación negativa. un procedimiento mas sencillo. • Es normal que varios subconjuntos de ítems tengan una fiabilidad idéntica o similar. Hay programas de ordenador que dan rutinariamente para cada ítem la correlación ítem−total. ambos tipos de información nos dicen si podemos considerar que el ítem discrimina adecuadamente y consecuentemente si 21 . que es la que nos interesa. es comparar en cada ítem el 25% con una puntuación total mas alta con el 25% con puntuación total mas baja. Contraste de medias en cada ítem de los dos grupos con puntuaciones mayores y menores en el total de la escala. Los ítems con una mayor correlación con el total son los que tienen mas en común y por tanto podemos pensar que miden lo mismo que los demás. según el total obtenido en toda la escala. claramente este ítem no es sumable con los demás. En este caso también puede suceder que este mal la clave de corrección. Podremos concluir que los ítems que simultáneamente diferencian a los mismos sujetos están midiendo lo mismo. hay una formula que convierte esta correlación ítem−total en la correlación ítem−total menos ítem. la diferencia no es significativa y habrá que eliminarlo de la escala definitiva. y normalmente no interesa ir eliminando ítems así. Los ítems con correlaciones no significativas o muy bajas los eliminaremos de nuestra escala. no mide lo mismo y hay que rechazarlo.

22 . − volvemos a calcular la fiabilidad de la nueva versión de la escala mas reducida • Vamos repitiendo el proceso del paso anterior. a cada sujeto hay que recontarle su nueva puntuación según se van eliminando ítems. Se estos nuevos totales se calcula la varianza. k ! numero de ítems 2i ! suma de las varianzas de todos los ítems 2t ! varianza de las puntuaciones totales Lo que vamos a hacer es calcular la fiabilidad con distintos subconjuntos de ítems para quedarnos finalmente con la selección de ítems que mas nos convenza como versión definitiva de nuestro instrumento. pero conviene ponerla como dato descriptivo de interés) El rigor metodológico no tiene que ser siempre el mismo. que ira variando cada vez según vamos eliminando algunos. *Los ítems los vamos suprimiendo de uno en uno. En la tabla vamos colocando los datos que intervienen en la formula (la media de los totales no es necesaria para calcular la fiabilidad. La formula mas apropiada es el coefiente de Cronbach. El proceso es el siguiente: • En primer lugar calculamos la fiabilidad de la escala inicial con todos los ítems. • Nos quedamos en principio con la versión de la escala que tiene una fiabilidad optima. con tal de garantizar siempre un rigor suficiente. • en segundo lugar: − eliminamos los ítems que con mas claridad no son discriminativos. o en pequeños bloques. − recontamos a los sujetos su nueva puntuación total. • La varianza de cada ítem en toda la muestra. hasta que la fiabilidad empieza a bajar. calculando la fiabilidad cada vez con menos ítems. es suman las varianzas de los ítems que componen cada versión de la escala pues la suma de las varianzas de los ítems entra en la formula del coeficiente de fiabilidad. Para calcular estos coeficientes de fiabilidad necesitamos estos datos: • En numero de ítems. • Comprobación de la fiabilidad y selección de los ítems definitivos Después del análisis de ítems calculamos la fiabilidad (consistencia interna). ¿Cuál de los dos análisis es preferible? Los dos aportan información semejante. Una manera de ir controlando el proceso es preparar un cuadro en el que se van viendo las sucesivas versiones de la escala según se va calculando la fiabilidad con unos ítems y otros.podemos considerar que mide lo mismo que los demás. que debe estar calculada previamente. prácticamente con los dos se llega a la misma selección de items. • La varianza de los totales.

Como estamos tratando el análisis de ítems y de la fiabilidad como criterio de calidad. es útil calcular a cada sujeto dos puntuaciones parciales sumando por separado ambos tipos de ítems. Si tenemos un numero de ítems aproximadamente idéntico en ambas direcciones. los más discriminantes de los que nos quedan y volvemos a calcular la fiabilidad. Pero en principio. • Damos la tarea por terminada cuando la fiabilidad empieza a bajar. que al eliminar dos ítems que discriminan poco. En principio deben eliminarse aquellos ítems que hacen que la fiabilidad sea menor. puede tener poco sentido porque desequilibra el significado. Con este procedimiento nos quedara una escala más breve. una vez eliminados otros previamente. El valor de t tiene que ser significativo y alto. es preferible utilizar las formulas del coeficiente . • Cuidar mas la representatividad del contenido de las formulaciones de los ítems El la selección definitiva de los ítems podemos buscar una homogeneidad conceptual mas nítida.. Se hace siguiendo estos pasos: • Calculamos la fiabilidad con el subconjunto de ítems que más discriminan. También tienen su lugar nuestras propias ideas sobre lo que queremos medir. • Equilibrio entre ítems positivos y negativos Podemos incorporar un numero mas o menos igual de ítems positivos y negativos. Quizás veamos.50 tenemos una garantía razonable de que ambos tipos de ítems miden lo mismo y que no esta operando la aquiescencia. y además el constructo suele quedar mejor expresado. También puede suceder que con menos ítems obtengamos una fiabilidad igual o semejante que con un numero mayor de ítems. por ejemplo. y a veces es preferible.Si pretendemos construir un instrumento de una calidad superior. si esta correlación es del orden de . y que con mas respuestas en los ítems también aumenta la fiabilidad. • Añadimos unos pocos ítems. nos sobra un tercer ítem que si 23 . Otras veces entre los ítems que contribuyen a una mejor fiabilidad hay alguno que. no debemos olvidar que en general a mayor numero de ítems tendremos una mayor fiabilidad. Una alternativa mas sencilla al calculo del coeficiente es utilizar alguna de las formulas basadas en la partición del test o la escala en dos mitades. pero además hay que tener en cuenta otros criterios en la elección de los ítems. el proceso no tiene que ser automático. y puede ser mejor eliminarlo también. • − OTRAS CONSIDERACIONES EN TORNO A LA ELECCIÓN DE LOS ITEMS DEFINITIVOS Las soluciones automáticas que nos puede dar un programa de ordenador no son necesariamente las mejores.. y calcular después la correlación entre estas dos subescalas o totales parciales. También se puede hacer el procedimiento inverso. Porque con ítems en las dos direcciones se controlan mejor las respuestas aquiescentes. pero a veces eliminando un ítem apenas baja la fiabilidad y si no lo eliminamos la escala puede quedar menos coherente con otros criterios. El que la fiabilidad varíe en el tercer decimal importa poco.

que en principio nos convencen porque expresan bien lo que deseamos medir. En ocasiones un instrumento además de medir un rasgo general. que debe ser definido con unos limites mas ajustados. • Preparación de dos versiones. • − COMPROBACIÓN DE LA VALIDEZ Y OTROS ANÁLISIS POSTERIORES Una vez que tenemos ya la versión definitiva de la escala. de la misma escala Con frecuencia podemos observar que un numero reducido de ítems nos da una fiabilidad aceptable. pero el conjunto de la escala puede quedar muy desequilibrado en cuanto al significado global. • Se pueden comprobar diferencias entre grupos. podemos acudir a las formulas que nos dicen cuantos ítems del mismo estilo deberíamos añadir para alcanzar una fiabilidad determinada. deben tener una fiabilidad aceptable.discrimina y que incluye la misma idea que los dos eliminados. correlaciones con otras variables. quizás con una fiabilidad menor. se puede subdividir en subescalas para medir por separado aspectos distintos. Puede ser interesante hacer dos versiones. • Explicación o redefinición del rasgo medido por nuestro instrumento A veces. una larga o normal y la otra breve. • Podemos construir baremos o normas de interpretación. • Podemos comprobar de manera mas especifica y planificada la validez del nuevo instrumento con los datos obtenidos simultáneamente. Los términos para designar los rasgos suelen ser muy genéricos.. • Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general También nos puede interesar que estén representadas con idéntico numero de ítems ideas que reflejan matices distintos dentro de un rasgo general. simplemente estén mal formulados y haya que hacer una redacción nueva. • Se pueden calcular datos descriptivos de las diversas submuestras si las hay. según los datos que hayamos obtenido simultáneamente. se hacen los demás análisis según los datos de que dispongamos. La confirmación de la validez mas que un calculo es un proceso. En este caso tanto las subescalas como la escala formada por todos los ítems. o podemos pasar la escala a muestras nuevas obteniendo a la vez otros datos que nos permitan hacer mas análisis. no alcanzamos una fiabilidad adecuada. y a al vista de los ítems de la escala definitiva. habrá que redefinir lo que pretendemos medir o al menos explicarlo adecuadamente aunque se mantenga el nombre del instrumento. • Incorporación de nuevos ítems Cuando con pocos ítems. Este es un resumen de lo que entendemos por validez y los modos de comprobarla: 24 . Todo esto puede depender de apreciaciones personales. y de hecho instrumentos con el mismo nombre pueden no coincidir en lo que miden. pero apta para muchos de los usos de estos instrumentos. siempre hay que tener claro que es importante la interpretabilidad de los datos en función de un rasgo o actitud bien definida. Este tipo de escalas suelen denominarse escalas factoriales. corta y larga. También puede suceder que algunos de los ítems eliminados en el análisis..

1.Con los estudios de validación pretendemos dos finalidades: • Confirmar el significado previsto de la variable (de la actitud o rasgo) que pretendemos medir. 2º. con un instrumento que mide el mismo rasgo pero construido con una técnica distinta ♦ Otra escala o test de otro autor y que supuestamente compruebe lo mismo. La no relación no hay que entenderla de manera literal. desde otra perspectiva 2. Comprobar que no existe relación donde no esperamos que la haya Esta no relación nos ayuda a distinguir unos rasgos de otros.. se puede comprobar la relación entre autoevaluacion y heteroevaluacion. pero menores que con otros rasgos. Estos nuevos instrumentos tienen un valor complementario. sobre todo cuando pertenecen al mismo ámbito conceptual y es fácil confundirlos. También se pueden sumar adjetivos que reflejen mas o menos el mismo rasgo. • comprobar la utilidad practica del instrumento • confirmación del significado pretendido (validez de constructo) Los análisis pueden tener dos enfoques básicos. ♦ Otro mini test de pocos ítems que mas o menos mida lo mismo. 1º. ♦ Test de personalidad ♦ Preguntas sueltas sobre diversos temas. ♦ Si es posible. Otros modos de medir lo mismo pueden ser: ♦ Una pregunta amplia y sigue una descripción del modelo que supuestamente tiene el rasgo en grado alto. que como hipótesis puedan tener relación con la actitud medida. pueden ser muy breves y también pueden ser simples preguntas. incluso estadísticamente significativas. 25 . otras actitudes. y de acuerdo con un razonamiento plausible. como son: 1º los estudios correlacionales y 2º las comparaciones entre grupos. preferencias. por Ej. relación con otros modos de medir el mismo rango Comprobamos la relación entre nuestro instrumento y otros modos de medir el mismo rasgo. Análisis correlacionales Podemos distinguir tres estrategias basadas en estudios correlacionales. Puede tratarse de relaciones. Comprobación de relaciones esperadas (positivas o negativas) con otros rasgos podemos comprobar también la relación entre lo que mide nuestro instrumento y otros rasgos o características distintas con las que esperamos que haya relación: ♦ Una lista de adjetivos o rasgos autodescriptivos que podrían equivaler a una serie de test de personalidad. 3º..

o ver donde se sitúa un sujeto en un continuo de menos a mas. no solamente porque describen mejor un constructo complejo. que preguntarnos si el sexo esta relacionado o tiene que ver con la actitud A. y otras en términos de diferencias. sino que mediante las formulas oportunas podemos transformar un valor de la t se Student en un coeficiente de correlacion. o análisis de varianza si las muestras son mas de dos. preguntarnos si los niños superan a las niñas en la actitud A. Sin embargo. Ambos enfoques nos ayudan a formular hipótesis que podemos intentar confirmar. debemos pensar que preguntas podemos hacer que identifiquen a los sujetos según grupos de pertenencia o según características personales de interés que permitan subdividir la muestra en subgrupos. Estos son los coeficientes que suelen denominarse coeficientes de validez. Una única pregunta simplifica frecuentemente en exceso el concepto que vamos a medir. • Todas las comparaciones entre grupos equivalen a análisis correlacionales: nos da lo mismo por ejemplo. No solo hay una obvia relación conceptual entre las dos preguntas. Se trata de calcular coeficientes de correlación entre el instrumento y determinados criterios. sino porque una única pregunta puede ser de hecho poco afortunada. Esta comprobación de la utilidad también aporta datos a la comprobación del significado. Una muestra relativamente amplia de preguntas constituye una mejor base para formarnos un juicio mas preciso y fundado sobre como cómo está una persona en un rasgo concreto. por ejemplo si existen correlaciones apreciables con determinados criterios. • Al preparar nuestro instrumento de recogida de datos.− GUIA PARA CONSTRUIR ESCALAS DE ACTITUDES: ¿POR QUE CONSTRUIMOS UNA ESCALA EN VEZ DE LIMITARNOS A UNA SOLA PREGUNTA?: Construimos escalas de actitudes para medir determinados rasgos. o ser mal entendida por muchos sujetos. puede ser conveniente el disponer de varios indicadores de una misma actitud que van a ser sumados después como indicador de esta actitud o variable. 26 . • Aun así nuestras preguntas espontáneas son unas veces en términos de relación. A veces el medir actitudes con una sola pregunta es muy útil como medida complementaria de instrumentos mas complejos. • Confirmación de la utilidad del instrumento (validez predictiva) En este caso verificamos. PSICOMETRIA: I. • El análisis estadístico será un contraste de medias. el apreciar cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestión. y además los procedimientos de análisis son en principio distintos aunque en ultima instancia aporten la misma información. entendiendo por medir.Comparaciones entre grupos Consiste en comparar grupos supuestamente distintos en aquello que estamos midiendo. • En conjunto una medida formada por varios ítems es mas valida. se trata de validez predictiva en sentido amplio. Tenemos varias razones para construir escalas o disponer de varios indicadores del mismo rasgo: • Con una serie de ítems describimos y medimos mejor constructos relativamente complejos.

que pueden crear confusión en la respuesta.− PROCESO DE CONSTRUCCION DE UNA ESCALA DE ACTITUDES: El proceso se puede describir de varias maneras. etc. • Deben ser opiniones con las que se pueda estar o no estar de acuerdo. • Deben ser discriminantes. • Deben contener una única idea. Puede ayudar el hacer previamente una descripción de la persona que supuestamente tenga de manera clara la actitud que se desea medir. suelen formularse en forma de opiniones con las que se puede estar o no estar de acuerdo. 27 . Para medir debemos encontrar diferencias. va a aumentar la varianza. Puede ayudar también revisar otros instrumentos ya hechos. De los diversos tipos de escalas nos limitaremos aquí a tratar las denominadas escalas tipo Likert en las que la suma de una serie de respuestas a ítems supuestamente homogéneos sitúa al sujeto en la variable medida. en definitiva. Diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables.− DEFINICION DE LA ACTITUD QUE SE DESEA MEDIR: El primer paso es siempre clarificar el rasgo que se desea medir. Por esta razón: • Hay que tener cuidado con expresiones como no. nunca. si disponemos de una serie de ítems podemos calcular el coeficiente de fiabilidad. No hay que olvidar que las actitudes. se pueden concebir en diversos grados de abstracción. 1. es decir. merecen mas confianza varias preguntas que una sola. en general. de manera que todos los entiendan de la misma manera. como cualquier otro rasgo que queramos medir. y pueden ser muy genéricos o muy específicos. se deben redactar de tal manera que previsiblemente unos sujetos estarán de acuerdo y otros no. • Aumenta la fiabilidad de la medida y se minimizan las limitaciones de cada ítem en particular. tenemos mas garantía de que los ítems miden lo mismo si simultáneamente diferencian a los mismos sujetos. En un sentido mas psicometrico. Una misma idea se puede formular de mas de una manera para comprobar después que formulación es mas eficaz.Este tipo de razones tiene mas peso cuando se vana tomar decisiones sobre los sujetos o interesa un buen diagnostico individual. • Los ítems deben tener las siguientes características: • Deben ser relevantes: claramente relacionados con la actitud que se desea medir. y tratándose de escalas de actitudes. va a ser mas fácil clasificarlos y. 2. una definición o explicación previa da coherencia al resto del proceso. pero básicamente se puede concretar en los pasos siguientes: 1. • Una razón de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos van a quedar mas nítidas.− REDACCION DE LOS ITEMS: Pueden redactarse de diversas maneras pero. o no tanto. • Deben redactarse con claridad. pues cuando hay mas de una idea se puede estar de acuerdo con una o con otra.

• Requiere una atención mayor por parte del que responde.etc. O con letras. Cuando se de esta aquiescencia suele deberse a la ambigüedad en la redacción o falta de claridad de los ítems. • Es preferible redactar los ítems en las dos direcciones positiva y negativa. La irrelevancia o ambigüedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los ítems no discriminan.• Cabe formular ítems repetitivos. con tal de que el numero de 28 . En genreral parece preferible el empleo de letras o palabras. • Comprobar la coherencia es prácticamente lo mismo que comprobar que no se da la aquiescencia o tendencia a mostrar acuerdo casi con cualquier afirmación. A mayor numero de ítems buenos también será mayor la fiabilidad. Sobre el numero inicial de ítems que deben redactarse: no hay un numero optimo. al menos si se juzga que los numeros pueden condicionar la respuesta. la misma idea dicha de diversas maneras. aunque no sucede siempre. podemos calcular la correlación entre los dos totales parciales como si se tratara de dos subescalas. Cuadro 2 • Numero de respuestas: El numero habitual de repuestas es de cinco. incluso con afirmaciones que se contradicen. Si un ítem discrimina en sentido contrario puede haber un error en la clave de corrección. mayor probabilidad de encontrar en el análisis un conjunto de ítems definitivos con una fiabilidad suficiente. La no discriminación puede indicar también que un ítem no mide lo mismo que los demás o que los sujetos lo entienden de otra manera. y mostrará en este caso una coherencia global en las respuestas. pero a mayor numero inicial de ítems.. es decir. suele haber en toda la escala una mayor fiabilidad. • Permite comprobar la coherencia de las respuestas. a mayor numero de respuestas en los items. verificando si hay contradicciones sistemáticas. sin introducir palabras negativas como no o nunca que se prestan a confusiones al responder.. No obstante. En general. y sumamos a cada sujeto sus puntuaciones a los dos tipos de ítems. • Si hay un numero aproximado de ítems positivos y negativos. que unas veces el estar de acuerdo manifiesta una actitud favorable y otras manifieste una actitud desfavorable. Cuadro 1 Caben otros fomatos en las respuestas como utilizar numeros especificando con palabras el significado de los extremos (muy de acuerdo o muy en desacuerdo).. 3. Esta correlación debe alcanzar un valor de 0. eso si.50 o mas. aunque con ítems muy similares se consiguen fácilmente coeficientes de fiabilidad altos. pero puede haber otras mas apropiadas como grado de interes. Esta redacción bipolar tiene varias ventajas: • Obliga a una definición previa mas matizada del rasgo o constructo.− REDACCION Y NUMERO DE RESPUESTAS: • Redaccion de las respuestas: Las respuestas mas habituales en las escalas de actitudes suelen expresar el grado de acuerdo con el contenido del item. el constructo queda expresado de una manera muy simple. Las repuestas en terminos de fracuencia estan muy avaladas por la investigacion cientifica. de imprtancia..

• Recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra supone un considerable ahorro de tiempo y esfuerzo. etc. ya que la fiabilidad es casi siempre mayor. y se elimina ademas la posibilidad de que los sujetos se evadan escogiendo la respuesta central. • Datos de otro tipo: Como pueden ser preguntas relacionadas con lo que se pretende medir.. Estos datos adicionales son basicamente de dos tipos: • Datos cesales o sociologicos: Como edad. estado civil. en el sentido de que nos pueden sugerir ideas validas como criterio en la misma selección de los items..− PREPARAR PREGUNTAS O INSTRUMENTOS ADICIONALES: Ademas de la escala que se esta construyendo se deben preparar otras preguntas. a que grupos pùede diferenciar. u otros test o escalas que pueden estar relacionados con la variable que estamos midiendo. Estos nuevos datos o preguntas tienen que ver con la verificacion de la validez del instrumento. en la busqueda de muestras determinadas. sino tambien con que otros rasgos puede estar relacionado ese rasgo. para recoger datos adicionales.. Es importante tener desde el principio una idea clara no solamente del rasgo que queremos medir. o incluso otras escalas o instrumentos que puedan estar ya hechos. • Numero par o impar de rspuestas: Lo mas claro es que son preferibles tres respuestas a dos.. • Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al proceso de construccion del instrumento. 29 .. y tambien de su utilidad. El incluir un numero par de categorias tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos categorias.. La clave en numeros debe hacerse de acuerdo con el snetido del item... En principio es preferible evitar el 0 y comnezar a partir de 1.etc.respuestas no supere la capacidad de discriminacion de los que responden: el numero maximo se suele situar entre seis y siete respuestas y el minimo en tres. de acuerdo y en desacuerdo. ocupacion o curso. Cuadro 3 5. • El pensar en otros datos tiene que ver con la comprobacion de la validez de nuestro instrumento y de los datos que con él recogamos. sexo. • El obtener datos adicionales de interes es importante por varias razones: • Buscar mas datos hipoteticamente relacionados con lo que queremos medir contribuye a que nos hagamos una idea mas clara del rasgo o actitud que nos interesa medir. de manera que la respuesta mas favorable a la actitud tenga el numero mayor.− PREPARAR LA CLAVE DE CORRECCION: Las respuestas se codifican siempre con numeros integros sucesivos. Comprobar la validez de un instrumento tiene que ver con la comprobacion o confirmacion del significado de lo que medimos.etc. 4. y quie los sujetos responderan al mismo tiempo. Estos datos serviran para describir la muestra y para hacer analisis adicionales.

Y la desviación típica entre 0 y 0.14 −0.42 0.09 0. Si se piensa hacer despues una analisis factorial debe haber unos 10 sujetos por item. Si fuese una prueba de rendimiento óptimo tendríamos que decir que es el índice de dificultad. sobre todo el analisis de items y el calculo de la fiabilidad. • ¿En que ítem los sujetos contestan de manera mas parecida? El de la desviación típica más pequeña: ítem 2.13 Ítem 2 0.74 1. conviene que haya al menos 5 sujetos por item inicial. EJERCICIO DE FIABILIDAD (tipo examen) Ítem 1 2.18 0. Ítem 1 0.18 0.22 −0.25 1.6.84 0.32 Ítem 4 2.49 Ítem 3 2. estos analisis nos van a permitir dar forma al instrumento definitivo.20 Ítem 2 2. para que los analisis tengan suficiente consistencia y sean extrapolables a muestras semejantes.52 0.71 0. • El tipo de muestra elegido debe ser semejante al tipo de poblacion con el que se va a utilizar despues. A continuacion llevaremos a cabo el analisis de items y calcularemos la fiabilidad. • Interpreta la media del ítem 3.5.− ANALISIS DE ITEMS Y COMPROBACION DE LA FIABILIDAD: En primer lugar y una vez obtenidos los datos calculamos: • La media y la desviacion tipica de los totales: cada sujeto tiene un total que es la suma de todas sus respuestas a los items. se recogen las respuestas de una muestra para poder hacer los analisis correspondientes.− OBTENER DATOS DE UNA MUESTRA: Una vez preparada la version inicial del instrumento. • La media y la desviacion de cada item. en cualquier caso no deben ser menos de 200. 30 .38 0.99 − 0.97 −0.28 Media Desviación Hc Covarianzas entre ítems. • Sobre el numero de sujetos necesario. 7.40 • ¿Se trata de una prueba de rendimiento óptimo? No es una prueba de rendimiento óptimo porque las medias exceden a la unidad y en estas pruebas el rango es entre 0 y 1.18 1. A mayor heterogeneidad en la muestra obtendremos con mayor facilidad una fiabilidad alta.48 Ítem 3 Ítem 4 Ítem 1 Ítem 2 Ítem 3 Ítem 4 1.

y luego también lo comprobamos en las covarianzas. = k es el número de ítems. 0. • Eliminar el menos discriminativo y hallar la media del nuevo test. La varianza seria: S2 = • Eliminar el ítem que menos contribuye a la consistencia interna y luego calcular el índice de consistencia interna.71 = Covarianza del 2−3 = 0. voy sacando la de la media del ítem 1. • ¿Hay algún ítem mal cuantificado? Para esto miramos el Hc. Para tener la media total. se suman las varianzas del ítem 2. con lo cual esta mal cuantificado. • ¿Cuál es el ítem que menos relaciona? El ítem 1 (no por ser negativo sino por el numero) por ser el mas bajo. 3. y la suma de ambas es la total. del ítem 3 y la del 4. Eliminamos el ítem 1. este puntúa bajo.20 del ítem 1 quiere decir que cuando todos puntúan alto.Pero como es una prueba de rendimiento típico solo decimos que es la media mayor.52 ++ 31 . Quitamos el ítem 2. 4 (los que NO quitamos). por ser el Hc mas bajo. que es el que relaciona el ítem con todos los demás. Y como nos piden consistencia hallaríamos el de Cronbach. El −0.

O bien. Interpretación: el 78% de las diferencias encontradas se explican por el verdadero nivel de rasgo. 11. 3.. 6. 86 formas paralelas.51 es moderadamente significativa. rnn es la fiabilidad deseada.18 = Covarianza del 2−4 = 0. que en este caso es 6. 4) de ahí se halla la varianza. 40 ítems − 1 forma paralela X ítems − n − 1 = 2..40 = Covarianza del 3−4 = 0. 8.48 ++ 1. Ahora en este caso si se podría utilizar la regla de tres. 5. r11 es la fiabilidad obtenida con el número original de ítems. el 78% de las diferencias encontradas se explican por lo que los sujetos tienen de común y además distinguen las diferencias.86 formas paralelas Y el resultado seria 115 ítems que vamos a añadir. Una correlación de 0.90. sustituiríamos en la formula y nos daría n = 3. El 51% de las diferencias encontradas quedan explicadas por el verdadero nivel de rasgo. EJERCICIO 7 Si tenemos una fiabilidad de 0.25 EJERCICIO 3 Rxx´= es la fiabilidad por el procedimiento de las dos mitades para los 6 ítems.70 y queremos llegar a una fiabilidad de 0. 3.1. la coherencia entre ambas partes es moderada. 32 . 4 (X = X2 + X3 + X4 = 4. 7. EJERCICIO 4 se halla sumando el ítem 2.

D: criminalidad operativizada en numero actos delictivos.484 2. EJERCICIO 9 N = 4 quiere decir que he añadido 3 formas paralelas a la inicial. Cuando duplico el número de ítems incremento un 0. • Ho: no existen diferencias estadísticamente significativas en los promedios de criminalidad en función del tipo de ciudad.25 A1 A2 A3 meter todas las medias y hallar la desviación.¡OJO!: no confundirnos al poner n = 3.5 Varianza 1. Políticos. Media 6. V.5 1.I: Tipos de ciudad. porque la fiabilidad aumenta pero por el efecto techo no puede ser mayor que la fiabilidad anterior. Cálculos previos. porque hay que restarle la forma paralela que ya teníamos en el test inicial. La próxima vez (de n=3 a n=4) incremento un 0.10. C.5 3. operativizada en 3 niveles: Centros Industriales.5 Desviación 1. C. Esto nos indica que es incorrecto.25 2.218 1. Si no la restamos nos saldrían 154 ítems que son el total. La siguiente vez (de n =2 a n=3) incremento un 0. meter todos los datos y hallar la desviación. Comerciales.12.625 5. no los que hemos añadido (115). Anova A − EF − CA F 33 .73.17 de fiabilidad. A − EF − CA • V.6. con una fiabilidad de 0.86 que ha sido lo que nos ha dado en la formula. El incremento debería ser 0.

06 Media 0. Existen diferencias estadísticamente significativas en los promedios de criminalidad en función del tipo de ciudad. 2.279 CM entre CM dentro (numerador de la (denominador de varianza) la varianza) ENTRE DENTRO TOTAL.47 Si nuestra F > F tablas R Ho p < F2.01 Rechazo Hipótesis Nula.05= 3. CONTRASTE DE TUKEY. 21 0.58 DHS = q 0.872 87.08 47.01 = 34 .Origen de la Variación Suma de cuadrados Grados de libertad Cuadrados medios (Varianza) SC/GL 20.01 = 5.78 • DECISION Con una F2.793 0.64 DHS0.936 2 21 23 8. 0.01 = 4.05 = DHS0.04 2. 0. p < 0. Tiene una relevancia grande. 21 = 8.14 Grande 3. SCentre − (K −1) · SCdentro = 0.793. 40.001 Baja 0. • CONCLUSION.05 = 3. INDICE DE ASOCIACION.39 SCtotal + SCdentro El 39 % de la variabilidad encontrada en la criminalidad es atribuible al tipo de ciudad.

5) no difieren.I: privacion social.125 P< 0.01 vemos que existen diferencias estadísticamente significativas en los promedios de criminalidad en función del tipo de centro.05 NO SI SI Rechazo si (M1−M2) > DHS Existen diferencias estadísticamente significativas entre todos los promedios de los diferentes niveles de la variable dependiente. CONCLUSION. 20.5 10 varianza 2.687 varianza 0. Ho Factor A: no existen diferencias estadisticamente significativas en los promedios en la conducta motora infantil en funcion de la magnitud del reforzador. Mas en concreto esas diferencias se localizan entre los centros industrial y político (M1− M3 = 3.25 Refuerzo desviación 1.625) y centros industriales (M = 5.A1 − A2 A1 − A3 A2 − A3 M1 − M2 1. 21 =8. 40 y 60 minutos. Con una F 2. Además un 39% de la variabilidad encontrada en la criminalidad es atribuible al tipo de ciudad.D: conducta motora infantil. operativizada en muero de bolas metidas en una caja en 4 minutos. Ho Factor B: no existen diferencias estadísticamente significativas en los promedios en la conducta motora infantil en funcion del tiempo de privación social.793.01 P<0.25 35 . operativizada en 4 niveles: 10. Con media 3.05 P<0. ANOVA AB − EF − CA • V. P< 0.5 Refuerzo desviación 0. 4.639 Sin media 1. Ho Interaccion: no existen diferencias estadísticamente significativas en los promedios en la conducta motora infantil en funcion de las distintas combinaciones entre privación social y magnitud del refuerzo. menos en el del grupo A1 − A2. teniendo una relevancia grande. V. Calculos Previos.125 3. Magnitud del reforzador. a pesar de tener un índice de criminalidad mas altamente significativo que el político.125 2 P P>0. operativizada en 2 niveles: con o sin esfuerzo.01) Centros industriales (M = 6. dándose las diferencias mas pronunciadas en función de pertenecer al grupo A1 − A3.

7662 meter todas las puntuaciones y hallar la desviacion.5 3 5.707 1.3125 meter todas las puntuaciones individuales y hallar la media.228 Ma2= 4.707 0.6523 elevar al cuadrado la desviacion de los totales.25 Sb3 = 0.93 S = 3.433 0. M factor B: 5. La Mb1 se halla metiendo las medias de la 1ª fila.5 0.1715 Ej. S factor B: 2.min 20 min 40 min 60 min 4. S2 factor A: 0. Mtotal: 5. 36 .75 Sb2 = 0. se suman y se halla su media La Ma2 se halla metiendo las medias de la 1ª columna y hallando su media. S factor A: 0. se halla la desviación y se eleva.2055 Mb3 = 6.687 S= 2. S2factor B: 6. 1432 se meten las 2 medias de A.5 7 8 1. se halla la desviacion y se eleva. M factor A: 5.137 Ma1= 5.25 1 0.5 9.25 Mb4= 8.25 0.16 Se meten las 4 medias de B. 3785 se meten las 2 medias de A y se halla la desviacion. La Sa1 se halla metiendo las puntuaciones individuales (enunciado del ejercicio) de la 1ª columna (con refuerzo) y hallando la desviación.481 Se meten las 4 medias de B y se halla la desviación.75 0.375 Sb1 = 0. 3085 se meten las 2 medias de A y se halla la media. La Sb1 se halla metiendo las desviaciones de la 1ª fila y hallando su desviación.1875 Mb1=2.3125 Se meten las 4 medias y se halla la media.5 0.118 1 0. S2total: 7.569 Mb2= 3.875 Sb4 = 0. Stotal: 2.

87 3 1 3 24 31 0. 8.2128 244.555 0.05 A <0.01 Sin embargo no existen diferencias estadísticamente significativas en la conducta motora infantil en funcion del tiempo de privación social.01 = 4. 3.7986 SCtotal + CMerror El 79.82 0. 9.86 0.5824 197. Se halla de los factores que hemos rechazado la Hipótesis Nula. F3. 24 = 59.01 R <0.86% de la variabilidad encontrada en la conducta motora infantil esta asociada a la privacion social.99 F CM entre P (probabilidad) >0.8694 CM dentro 4. A: numero de niveles del factor A.05 = 4. SCAB − (A −1) (B−1)· CMerror = 0. B: numero de niveles del factor B. 24 0. 5. Meter la desviación de las celdas y luego hallar el sumatorio al cuadrado. 24 F3.01 F1.52 4.087 59. 4. n = numero de puntuaciones en cada celda.12 16.5.25. 52 p < 0. 7.72 Existen diferencias estadísticamente significativas en la conducta motora infantil en funcion de la privación social.057 SCtotal + CMerror 37 . 5. 1.05 • INDICE DE ASOCIACION.75) y se halla la varianza.12 5.S2AxB: 6. F1.824 se meten las 8 medias de cada celda (3.527 197. 24 = 4.01 R (numerador de la (denominador de varianza) la varianza) 4. Anova AB − EF − CA Suma de cuadrados Origen de la Variación Factor A Factor B Interacción Error TOTAL Grados de libertad Cuadrados medios (Varianza) SC/GL 1.05 = 3.665 25.5.01 = 7.087 p > 0. SCB − (B −1) · CMerror = 0.

5 2.El 5. Se meten las medias de las celdillas. pero llegado a 40 − 60 minutos los que tienen refuerzo disminuyen y los otros aumentan.10 grande • CONTRASTE DE TUKEY. • GRAFICO DE LAS MEDIAS.05 = 3.01 = 1−2 1−3 1−4 2−3 2−4 3−4 M1 − M2 1.05 pequeña y < que 0.01 p<0.05 = DHS0.05 P<0.01 NO SI SI Si Si Si Rechazo si (M1−M2) > DHS Se encuentran diferencias estadisticamente significativas en todos menos en el de 10 y 20 minutos. 38 .125 2. Hallamos el de factor B porque hemos rechazado Hipótesis Nula y tenemos varios niveles.41 El 4 de la q se refiere a que hay 4 niveles en el factor B.875 6. mas si tiene refuerzo. 0. Si son líneas paralelas no hay interacción.5 5. DHS0.7% de la variabilidad encontrada viene explicada por las diferentes combinaciones de reforzador y privación social.625 P P>0.01 = 4. 0. 0.001 es bajo.90 DHS = q 4.01 P<0.05 P<0. En los primeros momentos (10 − 20 min) la conducta motora aumenta.14 alta Y el coeficiente eta es < 0.06 media 0. En el factor A no hace falta porque solo tenemos 2 niveles.01 P<0. 24 0.375 3.

52 p < 0.087 p > 0. Ho Factor A: no existen diferencias estadisticamente significativas en los promedios en la conducta motora infantil en funcion de la magnitud del reforzador.01 Como se observa en los datos hemos rechazado la hipótesis nula relacionada con la privacion social. lo que indica que no existen diferencias estadísticamente significativas en la conducta motora infantil en funcion del tiempo de privación social. Tras hallar la diferencia honestamente significativa podemos afirmar que esas diferencias estadísticamente significativas se dan entre todos los grupos. F3. Ho Interaccion: no existen diferencias estadísticamente significativas en los promedios en la conducta motora infantil en funcion de las distintas combinaciones entre privación social y magnitud del refuerzo.05 Sin embargo hemos aceptado la hipótesis nula relacionada con la magnitud del refuerzo. Cuando las líneas se cruzan la interacción es NO ordinal− Y cuando las líneas no paralelas no las veo cruzarse la interacción es ordinal. excepto en el de 10 − 20 minutos. Ho Columnas: no existen diferencias estadísticamente significativas en los promedios en la manera de evaluar de los profesores. F3. 24 = 4.7% de dicha variabilidad por la interaccion entre la privación social y la magnitud del refuerzo. lo que significa que existen diferencias estadísticamente significativas en la conducta motora infantil en funcion del tiempo de privación social. ANOVA A− EF− MR Ho Filas: no existen diferencias estadísticamente significativas en los promedios de los alumnos. 24 = 59.05 De igual manera hemos rechazado la hipótesis nula de la interaccion. F1. porque excede al 14%.087 p > 0. Ho Factor B: no existen diferencias estadísticamente significativas en los promedios en la conducta motora infantil en funcion del tiempo de privación social.7986). que en este caso es la conducta motora. • INTERPRETACION Y CONCLUSION. Ademas al estar operativizada en dos niveles (con reforzador. lo que quiere decir que existen diferencias estadísticamente significativas en la conducta motora en funcion de las distintas combinaciones entre magnitud del esfuerzo y privación social. Y un 5.Si no son paralelas hay interacción. viene explicada por el tiempo de privación social en que se mantiene al niño (0. sin reforzador) no ha sido necesario realizar contrastes posteriores. 24 = 4. siendo un porcentaje alto. Decisiones. Mas concretamente podemos afirmar que el 79% de la variabilidad encontrada en la variable dependiente. Cálculos previos: 39 .

S2 M filas: 3.343 1.83 5. S2total:4.127 meter todos los datos y hallar la desviación.641 2.404 S total: 2.572 1. El total de las filas es la suma de las puntuaciones de cada sujeto.11 2.958 1.294 1. Media 2.20 3.816 1.526 meter todos los datos y hallar la varianza.472 1.281 se eleva al cuadrado la desviación.472 0.693 5.472 0.71 4.66 Desviacion 0. Filas. hallo la media y lo elevo al cuadradp.213 0.805 2.1817 hallar la desviación tipica de todas las medias y luego al cuadrado.83 6.918 A B C D E F M columnas: 5.714 5.666 1.811 se meten todas las medias y se halla la desviación.857 5.426 se meten todas las medias y se halla la desviación. S2 M columnas: 0. M total: 5.857 5. Anova A − EF − MR meto las medias de las columns al cuadrado y hallo el sumatorio.265 3.499 S m columnas: 0.833 5. meto las varianzas y hallo el sumatorio meto las medias de las columnas.888 1 2 3 4 5 6 7 M filas: 5.Columnas. media 5.49 4. 40 .916 0.402 S m filas: 1.05 1.687 0.979 varianza 4.957 0.5 7 2.836 2.166 7.142 5.714 desviación 2.94 Varianza 0.

7.88 < 0.01 = 3. n−1.53 0. 7. 30 = 15. 4. Columnas (Profesores) Interacción Variabilidad TOTAL.6314 44.08.31) F 6.428 p < 0.05 = 2.01 = 3. 30= 1.70 0.aplico la formula meto los totales de las filas y hallo la varianza meto las medias de las columnas y hallo la varianza.42 F5. Interpretación. F5.802 (alumnos).428 0. incluso con los grados de libertad mas conservadores (1.05 A Grados de libertad Cuadrados medios (Varianza) SC/GL CM dentro F CM entre P (probabilidad) (numerador de la (denominador de varianza) la varianza) 0. Calcula el coeficiente de fiabilidad que tenga mas sentido calcular de acuerdo con los resultados obtenidos. Y cuando se rechaza la Ho de las filas hay que hallar el coeficiente de fiabilidad de las columnas para ver en que grado las columnas son consistentes.4886 15.5263 1. 41 .47 A la vista de los datos concluimos que no existen diferencias estadísticamente significativas entre los profesores a la hora de clasificar a los candidatos. Hemos aceptado la hipótesis nula de las columnas.6586 190.01 2. SCT = Suma de cuadrados Origen de la Variación Filas 137. Es decir existen diferencias estadísticamente significativas entre los candidatos.01 R > 0. Cuando se rechaza la Ho de las Columnas es conveniente hallar el coeficiente de fiabilidad de las filas.967 1. 30 F 6.092 6 5 30 41 22.05 = 2. 30 0. Hemos rechazado la Ho de las filas.05 Son los sujetos los que son diferentes entre si.025 p > 0.

Como hemos podido comprobar mediante el análisis de varianza no existen diferencias estadísticamente significativas entre los profesores a la hora de clasificar a los candidatos. podemos afirmar que tienen un grado de consistencia de en torno al 14% Fiabilidad en los test y escalas. A través del coeficiente fiabilidad y una vez cuantificado su grado de unanimidad. 54 X=V+E r11= r11= = Índice de precisión = XV = Rxx´= 42 .

AS − AI Dc1= N AS + AI Df= N +N AS + AI Df= N +N Dc2= Indice dificultad para todo el test = Indice discriminacion para todo el test = K 2i = 1− k −1 2t 43 .

Sign up to vote on this title
UsefulNot useful