You are on page 1of 22

GUA PARA CONSTRUIR

ESCALAS DE ACTITUDES
Universidad Pontificia Comillas Madrid Facultad de Ciencias Humanas y Sociales Pedro Morales Vallejo (ltima revisin, 13, Dic. 2006)1

INDICE
1. Por qu construimos una escala (o un test) en vez de limitarnos a una sola pregunta .................... 2. Proceso de construccin de una escala de actitudes................................................................... 3. Definicin de la actitud que se desea medir .............................................................................. 4. Redaccin de los tems........................................................................................................... 5. Redaccin y nmero de respuestas .......................................................................................... a) Redaccin de las respuestas .............................................................................................. b) Nmero de respuestas ....................................................................................................... c) Nmero par o impar de respuestas .................................................................................... 6. Preparar la clave de correccin ............................................................................................... 7. Preparar preguntas o instrumentos adicionales .......................................................................... 8. Obtener datos de una muestra................................................................................................. 9. Anlisis de tems y comprobacin de la fiabilidad...................................................................... 9.1. Anlisis de tems ............................................................................................................ 9.1.1. Correlacin tem-total .......................................................................................... 9.1.2. Contraste de medias en cada tem de los dos grupos con puntuaciones mayores y menores en el total de la escala .................................. 9.2. Comprobacin de la fiabilidad y seleccin de los tems definitivos.................................... 10. Otras consideraciones en torno a la eleccin de los tems definitivos ........................................... 1 Equilibrio entre tems positivos y negativos ......................................................................... 2 Cuidar ms la representatividad del contenido de las formulaciones de los tems.................... 3 Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general............. 4 Incorporacin de nuevos tems........................................................................................... 5 Preparacin de dos versiones, corta y larga, de la misma escala ............................................ 6 Explicacin o redefinicin del rasgo medido por nuestro instrumento .................................... 11. Comprobacin de la validez y otros anlisis posteriores.............................................................. 12. Sugerencias para obtener datos adicionales que faciliten la validacin de la escala......................... 12.1. Confirmacin del significado pretendido (validez de constructo)...................................... 12.1.1. Anlisis correlacionales .................................................................................. 1 Relacin con otros modos de medir el mismo rasgo......................................... 2 Comprobacin de relaciones esperadas (positivas o negativas) con otros rasgos distintos.............................................................................. 3 Comprobar que no existe relacin donde no esperamos que la haya ................. 1.2.1.2. Comparaciones entre grupos ........................................................................... 12.2. Confirmacin de la utilidad del instrumento (validez predictiva)...................................... 13. Bibliografa............................................................................................................................ 13.1. Referencias bibliogrficas citadas ................................................................................... 13.2. Bibliografa sobre construccin de instrumentos .............................................................. 13.3. Bibliografa sobre colecciones de instrumentos ................................................................ 2 3 3 4 5 5 6 6 6 7 8 8 9 9 10 12 15 15 15 15 16 16 16 16 18 18 18 18 19 19 19 20 21 21 21 22

1 Una gua ms extensa sobre construccin de escalas y que incluye cmo utilizar el programa SPSS puede verse en Morales, Urosa y Blanco (2003) (referencia completa en la bibliografa).

1. Por qu construimos una escala (o un test) en vez de limitarnos a una sola pregunta.
Construimos escalas de actitudes (o tests de personalidad e instrumentos semejantes) para medir determinados rasgos. Aqu entendemos por medir, de una manera muy genrica, el apreciar cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestin, el ver dnde se sita un sujeto en un continuo de menos a ms. Podemos preguntarnos por qu tenemos que construir una escala compuesta de varios tems en vez de hacer una sola pregunta, clara y bien pensada, con un nmero de respuestas adecuado. Lo primero que hay que decir es que tambin se pueden medir actitudes con una sola pregunta, y esto es comn en muchos cuestionarios sociolgicos. A un sujeto se le puede preguntar que se site en una escala de 1 a 6 (poco o muy en cualquier rasgo: conservador, extravertido, amigo de los animales). As se miden actitudes con frecuencia, tenemos numerosos ejemplos y est bien hecho. Con frecuencia es lo ms conveniente o al menos suficiente, sobre todo cuando no se pretende obtener una informacin muy precisa sobre cada sujeto (no es lo mismo describir grupos que hacer un diagnstico individual). A veces el medir actitudes (u otros rasgos psicolgicos) con una sola pregunta es muy til como medida complementaria de instrumentos ms complejos2. Sin embargo aun en el caso de los cuestionarios sociolgicos, que no son escalas en sentido propio, puede ser til y conveniente el disponer de varios indicadores de una misma actitud (o de una misma variable, como nivel socioeconmico) que van a ser sumados despus como indicador de esa actitud o variable. Tenemos varias razones para construir escalas, o simplemente para disponer de varios indicadores del mismo rasgo. 1 Con una serie de tems describimos y medimos mejor constructos relativamente complejos. De hecho en la vida cotidiana juzgamos sobre cmo es una persona (si tiene ms o menos de una determinada variable, como gusto por el deporte, religiosidad, conservadurismo, asertividad) en funcin de varios indicadores (como pueden ser diversas conductas o diversas opiniones sobre aspectos distintos referidos a la misma actitud). Una nica pregunta frecuentemente simplifica en exceso el concepto que vamos a medir. De manera anloga en la consulta de un mdico nos hacen muchas preguntas, y no una solamente, que pueden ser indicadores o sntomas de una determinada patologa. 2 En conjunto una medida compuesta por varios tems es ms vlida, no solamente porque describe mejor un constructo complejo, sino porque una nica pregunta puede de hecho ser poco afortunada, o equvoca o ser mal entendida por muchos sujetos. Cuando hay varios indicadores de la misma actitud (o rasgo en general) se obvian mejor las limitaciones de cada tem en particular. Adems una nica pregunta puede distorsionar la informacin que el sujeto aporta de s mismo; por ejemplo uno puede definirse como muy liberal en una nica pregunta, porque esa es la imagen que tiene de s mismo, pero puede no aparecer tan liberal ante cuestiones ms especficas. De manera anloga podemos pensar en la medida del rendimiento acadmico que quizs es un ejemplo ms claro: si queremos saber si un alumno sabe qumica, no le hacemos una sola pregunta porque puede saber esa pregunta pero no otras muchas posibles preguntas, o esa pregunta puede ser de hecho ambigua o muy difcil, etc.; una serie de preguntas sobre el mismo tema o asignatura nos da una idea ms certera sobre si sabe ms o menos. Despus de todo nuestra conclusin y nuestro juicio no va a ser sobre si sabe o no sabe unas preguntas concretas, sino sobre si sabe o no sabe en general de unas pocas preguntas extrapolamos nuestras conclusiones a otras muchas preguntas semejantes. Algo anlogo hacemos con las escalas de actitudes, tests de inteligencia, etc.; una muestra relativamente amplia de preguntas (tems) constituye una mejor base para formarnos un juicio ms preciso y fundado sobre cmo est una persona en un rasgo concreto.

2 Tambin hay investigaciones que muestran que utilizar un solo tem puede ser til (Gardner, Cummings; Dunham and Pierce (1998). Gua para construir escalas de actitudes

Este tipo de razones tiene ms peso cuando se van a tomar decisiones sobre los sujetos o interesa un buen diagnstico individual. 3 Aumenta la fiabilidad de la medida y por las razones dichas: se minimizan las limitaciones de cada tem en particular; merecen ms confianza varias preguntas que una sola. Un solo tem est ms sujeto a los errores de medicin, que tienden a cancelarse mutuamente si sumamos varios tems. En un sentido ms psicomtrico, si disponemos de una serie de tems podemos calcular el coeficiente de fiabilidad como veremos ms adelante. La fiabilidad puede ser alta o baja, pero eso es algo que podemos verificar, de la misma manera que podemos analizar la calidad de cada tem. 4 Una razn de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos van a quedar ms ntidas; va ser ms fcil clasificarlos; en definitiva va a aumentar la varianza. El detectar diferencias es de inters en cualquier estudio o investigacin porque sin diferencias claras es muy difcil encontrar relaciones entre variables. De nuevo esto es importante incluso en cuestionarios ms de corte sociolgico: diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables. De los diversos tipos de escalas nos limitamos aqu al denominado escalas tipo-Likert. Son las ms conocidas y se denominan as por el autor que sistematiz el proceso de construccin (en 1932). En conjunto es el sistema ms sencillo y de caractersticas no inferiores a los otros tipos de escalas (o son incluso mejores) por lo que es posiblemente el ms utilizado. Lo que hizo Likert fue extender a la medicin de las actitudes lo que ya era comn en la medicin de los rasgos de personalidad: la suma de una serie de respuestas a tems supuestamente homogneos (que expresan el mismo rasgo) sita al sujeto en la variable medida.

2. Proceso de construccin de una escala de actitudes


Es conveniente tener desde el principio una ida general de los pasos que integran el proceso de construccin de una escala de actitudes (o en general de cualquier tipo de test, aunque aqu tratamos de manera ms explcita de las escalas de actitudes que de los tests de personalidad o de otro tipo)3. El proceso se puede describir de varias maneras, pero bsicamente se puede concretar en los pasos enunciados a continuacin (en un orden lgico ms que estrictamente cronolgico). 1. Definir la actitud que se desea medir 2. Redactar los tems 3. Determinar el modo de respuesta y el nmero de respuestas 4. Preparar la clave de correccin 5. Preparar preguntas o instrumentos adicionales 6. Obtener datos de una muestra 7. Analizar los tems: ver si discriminan y se pueden considerar indicadores del mismo rasgo 8. Comprobar la fiabilidad 9. Seleccionar los tems definitivos en funcin de los anlisis anteriores 10. Comprobar de la validez y otros anlisis posteriores La validez y la fiabilidad van a ser dos consideraciones importantes en todo el proceso, por esta razn son conceptos que debemos tener suficientemente claros desde el principio.

3. Definicin de la actitud que se desea medir


El primer paso es siempre clarificar el rasgo que se desea medir; una definicin o explicacin previa da coherencia al resto del proceso. Puede ayudar el hacer previamente una descripcin de la persona que supuestamente tenga de manera clara la actitud que se desea medir; la descripcin puede ser tanto del que
3 Una exposicin ms detallada de este proceso puede verse en Morales (2006), sobre todo en el captulo II, y en Morales, Urosa y Blanco (2003). En la bibliografa indicamos otras publicaciones que orientan sobre la construccin de escalas de actitudes y de tests en general, y tambin se enumeran una serie de obras en las que se reproducen muchas escalas e instrumentos semejantes. Gua para construir escalas de actitudes

tenga una actitud positiva como negativa. Si, por ejemplo, se desea construir una escala para medir actitud hacia el estudio, uno puede preguntarse qu caracteriza al que tiene una actitud muy favorable o muy desfavorable tal como conceptualizamos nosotros esa actitud: le gusta estudiar, tiene un nivel alto de aspiraciones, no confa en la suerte, etc. No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden concebir en diversos grados de abstraccin, y pueden ser muy genricos (como actitud general hacia el estudio) o muy especficos (como nivel de aspiraciones o actitud hacia el estudio de un determinado tipo de materias, etc.). Este retrato robot ayudar a redactar los tems en torno a un plan coherente; interesa desde el principio asegurar la validez conceptual y poder justificarla. Este retrato robot se puede pensar en funcin de supuestas caractersticas personales, de opiniones con las que estara de acuerdo, de actividades que le gustara hacer, etc. Puede ayudar tambin el revisar otros instrumentos ya hechos. Si se utiliza una escala ya hecha (o varias) como fuente de inspiracin, o se toman determinadas ideas de un autor, etc., esto se debe hacer constar.

4. Redaccin de los tems


Pueden redactarse de diversas maneras, pero en general y tratndose de escalas de actitudes, suelen formularse en forma de opiniones con las que se puede estar o no de acuerdo. Una opinin es una actitud verbalizada, y a travs de las opiniones podemos inferir la actitud subyacente. Los tems deben tener estas caractersticas: a) Deben ser relevantes, claramente relacionados con la actitud que se desea medir. b) Deben ser opiniones (o rasgos y conductas personales, segn lo que se desee medir) con las que se pueda estar o no estar de acuerdo, no hechos o datos que se pueden saber o no saber, pues no se trata de medir ciencia. c) Deben redactarse con claridad, de manera que todos los entiendan de la misma manera (en la medida de lo posible). Por esta razn: 1 Hay que tener cuidado con expresiones como no, nunca, etc. que pueden crear confusin en la respuesta; 2 Deben contener una nica idea, pues cuando hay ms de una idea se puede estar de acuerdo con una y no con la otra. Es conveniente que la redaccin provisional la revise ms de una persona. Una misma idea se puede formular de ms de una manera para comprobar despus qu formulacin es ms eficaz. d) Deben ser discriminantes, es decir, se deben redactar los tems de tal manera que previsiblemente unos sujetos estarn de acuerdo y otros no, o no tanto. Para medir debemos encontrar diferencias; los tems que todos o casi todos acepten o rechacen no van a contribuir a la fiabilidad de la escala y sern eliminados en el anlisis de tems. Adems tenemos ms garanta de que los tems miden lo mismo (expresan el mismo rasgo) si simultneamente diferencian a los mismos sujetos. Naturalmente verificaremos despus, en el anlisis de tems, si discriminan o no discriminan, pero ya en al redactarlos debemos procurar que sean discriminantes. e) Cabe formular tems repetitivos, la misma idea dicha de diversas maneras: frecuentemente una manera de decir las cosas resulta de hecho ms discriminante que otra. Luego nos quedaremos con la formulacin que ms nos convenza si no queremos que haya varios tems excesivamente semejantes. Con tems muy similares se consiguen fcilmente coeficientes de fiabilidad altos, pero el constructo queda expresado de una manera muy simple (a veces eso es lo que interesa, por lo que no hay que sostener por principio que los tems deben ser muy variados). f) Es preferible redactar los tems en las dos direcciones positiva y negativa, es decir, que unas veces el estar de acuerdo manifieste una actitud favorable (estudiar es divertido) y otras manifieste una actitud

Gua para construir escalas de actitudes

desfavorable (estudiar es aburrido) pero sin introducir palabras negativas, como no o nunca, que se prestan a confusiones al responder. Esta redaccin bipolar tiene estas ventajas4: 1. Obliga a una definicin previa ms matizada del rasgo o constructo. 2. Requiere una atencin mayor por parte del que responde; 3. Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones sistemticas. Si hay un nmero aproximado de tems positivos y negativos, y sumamos a cada sujeto sus respuestas a los dos tipos de tems, podemos calcular la correlacin entre los dos totales parciales como si se tratara de dos subescalas. Esta correlacin debe alcanzar un valor de .50 o ms, y mostrar en este caso una coherencia global en las respuestas. 4. Comprobar la coherencia es prcticamente lo mismo que comprobar que no se da la aquiescencia o tendencia a mostrar acuerdo casi con cualquier afirmacin, incluso con afirmaciones que se contradicen (cuando se da esta aquiescencia suele deberse a ambigedad en la redaccin, falta de claridad; se da ms en niveles educacionales bajos)5. Los errores y ambigedades en la formulacin de los tems suelen manifestarse en el anlisis. La irrelevancia o ambigedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los tems no discriminan; tambin la no discriminacin puede indicar que un tem no mide lo mismo que los dems o que los sujetos lo entienden de hecho de otra manera. Si un tem discrimina en sentido contrario (puntan ms alto en ese tem los que en el conjunto de la escala puntan ms bajo) puede haber un error en la clave de correccin. Sobre el nmero inicial de tems que deben redactarse: no hay un nmero ptimo, pero a mayor nmero inicial de tems, mayor probabilidad de encontrar en el anlisis un conjunto de tems definitivos con una fiabilidad suficiente. A mayor nmero de tems buenos (que no tienen que ser muchos) tambin ser mayor la fiabilidad.

5. Redaccin y nmero de respuestas


a) Redaccin de las respuestas Las respuestas ms habituales en las escalas de actitudes suelen expresar grado de acuerdo con el contenido del tem, pero puede haber otro tipo de respuestas ms adecuadas a la formulacin del tem (como grado de inters, de importancia, etc.). Respuestas tpicas, segn el nmero de respuestas que se empleen, son, por ejemplo, las puestas en el cuadro 1.
de acuerdo de acuerdo de acuerdo muy de acuerdo muy de acuerdo de acuerdo ms bien de acuerdo en desacuerdo en desacuerdo en desacuerdo muy en desacuerdo muy en desacuerdo ms bien en desacuerdo

indiferente

ms bien de acuerdo ms bien de acuerdo

indiferente ms bien en desacuerdo

ms bien en desacuerdo en desacuerdo

Cuadro 1 Caben otros formatos en las respuestas, como utilizar nmeros especificando con palabras el significado de los extremos (muy de acuerdo y muy en desacuerdo o expresiones equivalentes), o se pueden redactar las respuestas en trminos de una mayor o menor importancia, frecuencia, etc. Es til ver modelos antes de hacer nuestra redaccin y presentacin definitiva de la escala 6.
4 Las ventajas de una formulacin de los tems pero en ambas direcciones y eliminando expresiones negativas est muy investigada, por ejemplo Barnette (2000). 5 Un tratamiento amplio de la aquiescencia y otros problemas metodolgicos puede verse en Morales (2006) 6 En general las diversas maneras de expresar las respuestas (todas con expresiones verbales, o describiendo solamente las dos respuestas extremas, o utilizando nmeros, etc.) dan resultados semejantes por lo que respecta Gua para construir escalas de actitudes

Las respuestas en trminos de frecuencia estn especialmente avaladas por la investigacin experimental y en concreto se han propuesto las posibles respuestas indicadas en el cuadro 27.
casi nunca casi nunca casi nunca a veces normalmente casi siempre siempre siempre siempre

ocasionalmente

ordinariament con frecuencia muchsimas veces e normalmente muy a menudo

de vez en cuando

a veces

muchsimas veces

Cuadro 2 Las respuestas pueden indicarse tambin con nmeros (1= en desacuerdo, 2 = indiferente, 3= de acuerdo, etc. ) o con palabras y con nmeros, o con letras, pero siempre debe estar muy claro para el que responde el significado de sus respuestas. En general parece preferible el empleo de letras o de palabras (al menos cuando se juzgue que los nmeros pueden condicionar la respuesta). Cuando se ponen nmeros, todos deben ir en la misma direccin (muy de acuerdo siempre tiene el valor mximo), aunque despus se cambien estos valores en la clave de correccin como indicamos ms adelante. b) Nmero de respuestas El nmero habitual de respuestas es de cinco, pero pueden ser ms o pueden ser menos. En general, y aunque esto no sucede siempre, a mayor nmero de respuestas en los tems, suele haber en toda la escala una mayor fiabilidad, con tal de que el nmero de respuestas no supere la capacidad de discriminacin de los que responden; en torno a seis o siete respuestas puede ponerse el nmero mximo, y en tres el mnimo (en cualquier caso con tres respuestas suele subir la fiabilidad con respecto a dos nada ms). c) Nmero par o impar de respuestas Una cuestin distinta es si se debe incluir un nmero par o impar de respuestas (con o sin una respuesta central de indecisin). No hay normas claras sobre este punto; lo ms claro es que son preferibles tres respuestas a dos (la fiabilidad es casi siempre mayor con tres respuestas que con dos, y adems con slo dos respuestas los que responden pueden sentirse incmodos). El incluir un nmero par de respuestas (4 6) tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos categoras (se hace fcilmente con ordenador), de acuerdo y en desacuerdo, y esto puede ser til para determinados anlisis. Adems se elimina la posibilidad de que los sujetos se evadan escogiendo la respuesta central (casi nunca hay verdadera indecisin si la actitud medida y los tems son relevantes para que los que responden porque realmente expresan esa actitud).

6. Preparar la clave de correccin


Las respuestas se codifican siempre con nmeros ntegros sucesivos. Si por ejemplo las respuestas son cuatro, se pueden codificar de 0 a 3 o de 1 a 4. En principio es preferible evitar el 0 y comenzar a partir de 1 (aunque cuando slo hay dos respuestas suelen codificarse como 0 1). La clave en nmeros debe hacerse de acuerdo con el sentido del tem, de manera que la respuesta ms favorable a la actitud tenga el nmero mayor, tal como puede verse en el ejemplo del cuadro 3.

a la validez y fiabilidad (por ejemplo Chang, (1997). La fiabilidad test-retest suele ser mayor cuando todas las categoras de respuesta estn expresadas verbalmente (Weng, 2004, con una muestra de 1247 estudiantes universitarios). 7 La justificacin de estas categoras de respuesta, y un listado mayor, puede verse en Caadas y Snchez Bruno, (1998). Gua para construir escalas de actitudes

respuestas y clave de codificacin tems:


Me gusta estudiar Estudiar es aburrido de acuerdo 4 1 ms bien de acuerdo 3 2 ms bien en desacuerdo 2 3 en desacuerdo 1 4

Cuadro 3

7. Preparar preguntas o instrumentos adicionales


Cuando se construye una escala de actitudes, la atencin se centra en la redaccin de los tems, pero esto no es suficiente. Adems de la escala que se est construyendo se deben preparar otras preguntas, o incluso otras escalas o i nstrumentos que pueden estar ya hechos, y que los sujetos respondern al mismo tiempo, para recoger datos adicionales8. Esto se suele hacer despus de haber redactado los tems de la escala. Estos nuevos datos o preguntas tienen que ver con la verificacin de la validez del instrumento9 y adems nos permitirn hacer otras investigaciones sin limitarnos a la mera construccin del instrumento. El obtener datos adicionales de inters es importante por varias razones: 1 El buscar ms datos hipotticamente relacionados con lo que queremos medir contribuye a que nos hagamos una idea ms clara del rasgo o actitud que nos interesa medir; como dijimos antes adems de pensar en un rasgo hay que pensar simultneamente en una teora o red de relaciones de la que forma parte el rasgo que vamos a medir. Es adems mucho ms interesante. 2 La experiencia nos dice que el recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra, supone un considerable ahorro de tiempo y esfuerzo, en vez de construir primero el instrumento, y luego, con la versin definitiva, volver a buscar otros datos en otros sujetos. 3 Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al proceso de construccin del instrumento, en el sentido de que nos pueden sugerir ideas vlidas como criterio en la misma seleccin de los tems, en la bsqueda de muestras determinadas, etc. 4 Sobre todo el pensar en otros datos tiene que ver con la comprobacin de la validez de nuestro instrumento y de los datos que con l recojamos. Cuando se va a construir un instrumento, como una escala de actitudes, conviene repasar los temas referidos a la validez y su comprobacin. Comprobar la validez de un instrumento tiene que ver con la comprobacin o confirmacin del significado de lo que medimos, y tambin con su utilidad. El primer control de la validez est en la misma redaccin de los tems. El tener previsto desde el comienzo qu vamos a hacer para confirmar la validez de nuestro instrumento (o al menos cmo vamos a apoyar el significado previsto o la utilidad del instrumento) nos sugerir qu otros datos conviene recoger, y por qu. Es til tener desde el principio una idea clara no solamente del rasgo que queremos medir, sino tambin con qu otros rasgos puede estar relacionado ese rasgo, a qu grupos puede diferenciar, etc. Ms que pensar en un rasgo, conviene pensar desde el comienzo en toda una teora, aunque sea muy modesta, en torno a ese rasgo. El recoger este tipo de datos al mismo tiempo que los sujetos responden a la escala en construccin, ahorra tiempo y obliga a matizar y explicar mejor lo que queremos medir con nuestro instrumento.
8 En Morales (2006, en los anexos) pueden verse numerosos ejemplos de escalas junto con preguntas adicionales para hacer estudios de validacin y otros anlisis; tambin hay ejemplos de estas preguntas en Morales, Urosa y Blanco (2003). 9 Hablando con propiedad la validez no es una propiedad del instrumento, sino de las inferencias e interpretaciones que hagamos con los datos obtenidos. Gua para construir escalas de actitudes

La conveniencia de obtener ms o menos informacin adicional variar segn la situacin y la finalidad. Podemos limitarnos a construir una escala y en un momento posterior obtener nuevos datos, pero siempre es til obtener informacin adicional de los sujetos (adems de los datos que podemos denominar censales o muy obvios: sexo, curso o profesin, etc.). Ms adelante presentamos sugerencias sobre cmo recoger datos adicionales, pero bsicamente estos datos son de dos tipos: 1. Datos censales o sociolgicos, como edad, sexo, ocupacin o curso, estado civil, etc. Estos datos servirn para describir la muestra y para hacer anlisis adicionales (como exponer datos descriptivos por sexos, comparar subgrupos, preparar normas de interpretacin individual como los percentiles, para los distintos subgrupos, etc.). 2. Datos de otro tipo, como pueden ser preguntas relacionadas con lo que se pretende medir, u otros tests o escalas que pueden estar relacionados con la variable que estamos midiendo, etc.; el objetivo de estos datos adicionales es facilitar la comprobacin de la validez de nuestra escala.

8. Obtener datos de una muestra


Una vez preparada la versin inicial del instrumento, se recogen las respuestas de una muestra para poder hacer los anlisis correspondientes, sobre todo el anlisis de tems y el clculo de la fiabilidad. Estos anlisis nos van a permitir dar forma al instrumento definitivo; la primera redaccin de los tems tiene un carcter en principio hipottico (suponemos que todos los tems redactados en primer lugar describen bien un determinado rasgo o actitud, pero esta hiptesis hay que verificarla analizando las respuestas de los sujetos). 1. El tipo de muestra elegido debe ser semejante al tipo de poblacin con el que se va a utilizar despus. A mayor heterogeneidad en la muestra obtendremos son mayor facilidad una fiabilidad alta, pero no es legtimo forzar la heterogeneidad de la muestra en esta primera prueba. 2. Sobre el nmero de sujetos necesario: para que los anlisis tengan suficiente consistencia y sean extrapolables a muestras semejantes, conviene que haya al menos cinco sujetos por tem inicial (si partimos de 40 tems nos harn falta 5x40 = 200 sujetos aproximadamente)10. Si se piensa hacer despus un anlisis factorial debe haber unos 10 sujetos por tem y en cualquier caso no deben ser menos de 200. Con muestras ms reducidas los anlisis pueden presentarse como tentativos que se pueden confirmar (o no) en otras muestras. En cualquier caso siempre es preferible un nmero grande de sujetos. Los instrumento hechos con muestras pequeas, lo mismo que los anlisis de tems, fiabilidad, etc., que hagamos, pueden tambin ser informativos y tiles con la muestra que nos ha servido para construir el instrumento. El problema est en utilizar este instrumento en otras muestras. Aun as un instrumento construido con una muestra pequea puede convertirse en un buen estudio piloto, y adems tambin se pueden ir acumulando datos y anlisis de muestras pequeas (y semejantes) hasta llegar a un nmero de sujetos apropiado. Un problema que puede surgir es cuando los sujetos omiten sus respuesta a algunos tems. Hay varios procedimientos para sustituir los valores que faltan que ms o menos dan los mismos resultados; el ms recomendable parece ser el sustituir los valores que faltan por el valor de la respuesta media del sujeto11.

9. Anlisis de tems y comprobacin de la fiabilidad


En primer lugar y una vez obtenidos los datos calculamos: 1 la media y la desviacin de los totales (cada sujeto tiene una puntuacin total, que es la suma de todas sus respuestas a los tems) y 2 la media y la desviacin de cada tem. A continuacin llevaremos a cabo el anlisis de tems y calcularemos la fiabilidad.

10 Esta recomendacin es de Nunnally (1978).


11 Puede

verse tratado este tema en Dodeen (2003). Gua para construir escalas de actitudes

9.1. Anlisis de tems


Los tems, tal como los hemos redactado, constituyen una definicin operativa, provisional e hipottica, del rasgo que vamos a medir. Ahora tenemos que comprobar si cada tem mide lo mismo que los dems, y por lo tanto es sumable en una puntuacin total que supuestamente mide el rasgo y que es la que despus interpretamos y utilizamos. Esta comprobacin la hacemos mediante el anlisis de tems. Lo que queremos comprobar es si las respuestas tienden a covariar, es decir, si los sujetos tienden a responder de manera coherente, de manera que podamos deducir que todos los tems expresan el mismo rasgo. En definitiva comprobamos si los tems tienden a diferenciar a los sujetos, si discriminan adecuadamente. Los procedimientos que podemos utilizar son dos, la correlacin tem-total y el contraste de medias de los grupos extremos. Con ambos mtodos llegaremos a resultados muy parecidos.

9.1.1. Correlacin tem-total


Propiamente no se trata de la correlacin de cada tem con el total, sino de la correlacin de cada tem con la suma de todos los dems (o correlacin de cada tem con el total menos el tem). Lo que deseamos comprobar es en qu medida el puntuar alto en un tem supone de hecho obtener un total alto en el resto de la escala (en todos los dems tems). Estos coeficientes de correlacin deben ser al menos estadsticamente significativos (o distintos de cero en la poblacin). Los tems con una mayor correlacin con el total (o suma de todos los dems) son los que tienen ms en comn y por lo tanto podemos pensar que miden lo mismo que los dems. Los tems con correlaciones no significativas o muy bajas con respecto a las de los otros tems, los eliminaremos de nuestra escala. Cuando se calcula la correlacin con el total (y no con el total menos el tem), que es lo ms sencillo con un programa de ordenador o con una hoja de clculo, hay una frmula que convierte esta correlacin tem-total en la correlacin tem-total menos el tem, que es la que nos interesa. Hay programas de ordenador (como el SPSS) que dan rutinariamente para cada tem la correlacin tem-total (menos el tem) y la fiabilidad de todo el test o escala si suprimimos ese tem y se puede apreciar rpidamente qu tems se pueden eliminar para que suba la fiabilidad. Esta informacin es til y acelera el proceso, pero hay que tener presentes otras consideraciones: En el cuadro 4 tenemos un ejemplo de la informacin que nos da el SPSS12. RELIABILITY ANALYSIS - SCALE (ALPHA) Item-total Statistics Scale Mean if Item Deleted V1 V2 V3 V4 Reliability Coefficients N of Cases = 694 Alpha = ,6450
Cuadro 4

Scale Variance if Item Deleted 11,4695 9,5754 9,3022 10,0684 N of Items = 4

Corrected Item Total Correlation 3618 ,5028 ,5548 ,3131

Alpha if Item Deleted ,6177 ,5207 ,4835 ,6695

11,8156 11,9798 12,5663 12,9524

12

Una explicacin detallada sobre cmo utilizar el SPSS en la construccin de escalas en Morales, Urosa y Blanco (2003). Este programa nos hecho el anlisis de tems (correlacin tem-total), la fiabilidad de toda la escala y la fiabilidad si suprimimos un tem. Gua para construir escalas de actitudes

10

En este ejemplo metodolgico tenemos el anlisis de una breve escala de slo cuatro tems. Las columnas que nos interesa examinar son las dos ltimas: la correlacin tem-total (menos el tem) y la fiabilidad de todo el test o escala si suprimimos ese tem. En este ejemplo la fiabilidad obtenida es de .645, pero si suprimimos el tem 4 (es el que tiene una menor correlacin con el total), sube a casi .67; si suprimimos cualquier otro tem, baja la fiabilidad; habra que suprimir por la tanto el tem 4. Estos programas facilitan notablemente el proceso, pero conviene hacer algunas observaciones (aplicables tambin si utilizamos el contraste de los grupos extremos que veremos a continuacin). a) Es cuestionable seguir cuasi mecnicamente procedimientos automticos; el constructor del instrumento debe intervenir con sus propios criterios sobre lo que quiere medir y sobre las caractersticas del instrumento (por ejemplo, incluir un nmero idntico de tems positivos y negativos)13. b) Por otra parte estos programas nos dan la fiabilidad si suprimimos tems de uno en uno, pero no si suprimimos ms de uno a la vez, y normalmente no interesa ir eliminando tems uno a uno sino en bloques escogidos con algn criterio (como el tener una casi idntica correlacin tem-total, o buscando que haya un nmero idntico de tems positivos y negativos). c) Adems es normal que varios subconjuntos de tems tengan un fiabilidad idntica o similar, por lo que habr que acudir a otros criterios en la seleccin definitiva de los tems (como consideraciones conceptuales y resultados del anlisis factorial). La correlacin tem-total que podemos encontrar ya programada es sumamente til, pero en principio no debe ser la nica consideracin en la seleccin de los tems definitivos. Por esta razn en un apartado posterior aadimos algunas consideraciones sobre la eleccin definitiva de los tems.

9.1.2. Contraste de medias en cada tem de los dos grupos con puntuaciones mayores y menores en el total de la escala.
El procedimiento anterior es muy laborioso si no se hace con un programa de ordenador; un procedimiento ms sencillo, y que aporta una informacin semejante, es comparar en cada tem el 25% con puntuacin total ms alta con el 25% con puntuacin total ms baja14. Para esto: 1 Ordenamos a los sujetos de ms a menos, segn el total obtenido en toda la escala, y seleccionamos dos subgrupos: grupo superior, el 25% con total ms alto, y grupo inferior, el 25% con puntuacin total ms bajo; el 50% central no entra en este anlisis. 2 Calculamos la media y la desviacin tpica en cada tem de cada uno de los dos grupos, superior e inferior; 3 Contrastamos las medias de estos dos grupos mediante la t de Student. Lo que esperamos es que el 25% con una puntuacin total superior tenga una media significativamente ms alta en cada tem que el 25% inferior. Podremos en este caso concluir que los tems que simultneamente diferencian a los mismos sujetos estn midiendo lo mismo. Prescindiremos de los tems que no discriminan (valores de t no significativos), y si son muchos o demasiados los que discriminan (y esto sucede con frecuencia), podemos quedarnos con los ms discriminantes; siempre hay tems mejores que otros en trminos relativos. En la eleccin definitiva de los tems pueden intervenir adems otros criterios, como ya hemos indicado y explicamos despus con ms detenimiento, pero en cualquier caso debe estar claro su poder discriminatorio que a su vez nos confirma que los tems miden bsicamente lo mismo. Para hacer estos anlisis conviene disponer los datos de manera clara y tener a al vista algn modelo (no hay un modo nico de presentar los datos). Aunque hagamos todo el proceso con ordenador es

13 Ya hemos indicado que es til calcular la correlacin entre los dos subtotales (sumando por separado las respuestas a los tems positivos y negativos); si la correlacin est en torno a .50 podemos excluir el influjo de la aquiescencia en las respuestas. 14 Este anlisis se hace muy fcilmente con una hoja de clculo tipo EXCEL. Gua para construir escalas de actitudes

11

importante saber qu estamos haciendo, y adems, tal como nos vienen los resultados del ordenador, no es siempre la mejor manera de presentarlos. En este ejemplo (ficticio y con resultados muy exagerados, cuadro 5) de un total de 40 sujetos (nmero muy bajo si se tratara de un caso real) comparamos las respuestas de los 10 sujetos (25%) con totales ms altos y ms bajos. Tambin es til calcular la media y la desviacin tpica de cada tem en toda la muestra; las desviaciones tpicas de los tems en toda la muestra nos harn falta despus para calcular la fiabilidad. Tambin se podran poner como ejemplos correlaciones tem-total, pero el contraste de medias de los grupos extremos resulta ms grfico y es muy fcilmente comprensible.
tem n 1 en toda la muestra: X = = n 2 en toda la muestra: X = = n 3 en toda la muestra: X = = 25% Superior 25% Inferior 25% Superior 25% Inferior 25% Superior 25% Inferior
||| (4) |||| (4) ||| (3) |||||| (6) ||||| (5) || (2) || (2) || (2) ||||| (5) ||| (3) || (2) | (1) | (1) || (2) 5 4 ||||| (5) ||| (3) | (1) || (2) ||||||| (7) 3 2 1 diferencia

X s =3.9 = .70 X i = 1.4 = .66 X s = 4.4 = .49 X i = 4.1 = .70 X s = 2.8 = .49 X i = 3.9 = 1.04

X s - X i= 2.50

t = 7.79 p < .001


X s - X i= .3 t = 1.05 p > .05 X s - X i= - 1.1

t= p

Cuadro 5 En este ejemplo ficticio (cuadro 4; con datos exagerados, de fcil interpretacin): El tem n 1 discrimina bien, el valor de t nos muestra que la diferencia entre los grupos superior e inferior es muy superior a lo puramente aleatorio; este tem habra que retenerlo. El tem n 2 discrimina poco, la diferencia no es significativa y habr que eliminarlo en la escala definitiva. El tem n 3 tiene discriminacin negativa, los del grupo inferior superan a los del grupo superior; claramente este tem no es sumable con los dems, no mide lo mismo y hay que rechazarlo. En este caso tambin puede suceder que est mal la clave de correccin. Con cualquiera de los dos procedimientos (correlacin tem-total y contraste de medias entre los dos grupos extremos) obtenemos un dato (r t) sobre la calidad del tem; ambos tipos de informacin nos dicen si podemos considerar que el tem discrimina adecuadamente y consecuentemente si podemos considerar que mide lo mismo que los dems. Cul de los dos anlisis es preferible? Los dos anlisis aportan informacin semejante; un tem que diferencia adecuadamente a los grupos con total mayor y menor est claramente relacionado con el total de la escala; prcticamente con los dos procedimientos se llega a la misma seleccin de tems, sobre todo si nos vamos a quedar con los mejores tems. En la prctica el escoger un mtodo u otro es cuestin de conveniencia. Si disponemos de un programa de ordenador como el SPSS, con la correlacin tem-total y la fiabilidad ya programados, es el procedimiento ms cmodo y el que hoy da suele seguirse. En procesos de aprendizaje sobre cmo construir escalas quizs el contraste de medias entre los grupos extremos es intuitivamente ms claro15.
15 El autor del procedimiento (Likert) recomienda y utiliza el contaste de medias, pero en su poca no se dispona de los programas de ordenador con los que contamos hoy da. Gua para construir escalas de actitudes

12

9.2. Comprobacin de la fiabilidad y seleccin de los tems definitivos


Despus del anlisis de tems calculamos la fiabilidad (consistencia interna). Las frmulas ms apropiadas son el coeficiente de Cronbach (o Kuder-Richardson 20 si se trata de tems dicotmicos; los resultados son los mismos):

2 i 1 = k 1 2 t
k

k = nmero de tems i2 = suma de las varianzas de todos los tems 2 t = varianza de las puntuaciones totales

Aunque llevemos a cabo todo el proceso con un programa de ordenador, debemos tener muy claro qu es lo que estamos haciendo. Lo que vamos a hacer es calcular la fiabilidad con distintos subconjuntos de tems para quedarnos finalmente con la seleccin de tems que ms nos convenza como versin definitiva de nuestro instrumento. El proceso es el siguiente: 1 En primer lugar calculamos la fiabilidad de la escala inicial con todos los tems, 2 En un segundo lugar: a) Eliminamos los tems que con ms claridad no son discriminantes (no diferencian bien a los dos grupos extremos, o tienen las correlaciones tem-total ms bajas); b) De nuevo recontamos a los sujetos su nueva puntuacin total (pues hemos eliminado algunos tems) c) Volvemos a calcular la fiabilidad de la nueva versin de la escala ms reducida. 3 Vamos repitiendo el proceso del paso anterior, calculando la fiabilidad cada vez con menos tems, hasta que la fiabilidad empieza a bajar. 4 Nos quedamos en principio con la versin de la escala que tiene una fiabilidad ptima. Los tems los vamos suprimiendo de uno en uno, o en pequeos bloques. No se trata de un proceso totalmente mecnico, pues como comentaremos despus, pueden entrar otras consideraciones en la eleccin de los tems, pero los tems que vamos reteniendo deben ser tems que correlacionan bien con el total (o que diferencian bien a los sujetos en los grupos extremos). En cualquier caso la norma de retener el subconjunto de tems que nos de una mxima fiabilidad es vlida en principio, aunque siguiendo este criterio de manera literal no obtendremos necesariamente el mejor instrumento posible. Para calcular estos coeficientes de fiabilidad necesitamos estos datos que son los que entran en las frmulas: 1. El nmero de tems, que ir variando cada vez segn vamos eliminando algunos. 2. La varianza de cada tem en toda la muestra, que debe estar calculada previamente; se suman las varianzas de los tems que componen cada versin de la escala pues la suma de las varianzas de los tems entra en la frmula el coeficiente de fiabilidad ( de Cronbach). 3. La varianza de los totales. sta es la parte ms laboriosa si no se hace con un programa de ordenador, pues a cada sujeto hay que recontarle su nueva puntuacin segn se van eliminando tems. De estos nuevos totales se calcula la varianza (y la media, que siempre ser un dato descriptivo importante aunque no sea necesaria en el clculo de la fiabilidad). Aunque no dispongamos de un programa de ordenador, estos clculos resultan ms sencillos si tenemos los datos bien organizados, y siempre es til tener algn modelo a la vista. Una manera de ir controlando el proceso es preparar un cuadro en el que se van viendo las sucesivas versiones de la escala
Gua para construir escalas de actitudes

13

segn se va calculando la fiabilidad con unos tems y otros (como figura en el cuadro 6). Aunque utilicemos un programa de ordenador es conveniente entender lo que realmente estamos haciendo, y adems un cuadro como ste es una buena manera de presentar el proceso.
tems en las versiones sucesivas todos los tems eliminamos tems n eliminamos tems n eliminamos tems n nmero de tems de cada versin k media de los totales desviacin tpica Suma de las de los totales varianzas de los 2 tems i coeficiente de fiabilidad

Cuadro 6 En la tabla vamos colocando los datos que intervienen en la frmula. La media de los totales (de cada nueva versin) no es necesaria para calcular la fiabilidad, pero conviene ponerla como dato descriptivo de inters. Si utilizamos este cuadro para presentar el proceso seguido, podra sobrar la columna de la suma de las varianzas de los tems, porque este dato no es especialmente informativo aunque entra en la frmula de la fiabilidad. El proceso, como vamos viendo, es ste: 1 Calculamos el coeficiente de fiabilidad con todos los tems iniciales; 2 Eliminamos los peores tems y volvemos a calcular la fiabilidad y as sucesivamente hasta que nos quedamos con el conjunto de tems que nos da la mayor fiabilidad. Los datos de la frmula del de Cronbach van variando segn vamos eliminando tems. Cada vez que eliminamos algn tem hay que contar a cada sujeto su nueva puntuacin total, pues necesitamos conocer la varianza de los nuevos totales. 3 Cuando al eliminar tems vemos que baja la fiabilidad, damos por terminado el trabajo. Al final nos quedamos con el subconjunto de tems que forme una escala con una fiabilidad ptima. Este proceso, seguido de manera casi automtica, nos lleva a construir instrumentos (escalas de actitudes en nuestro caso) de una calidad adecuada: la validez, al menos conceptual, la hemos ya procurado al redactar los tems, y con un anlisis de tems que nos permite a desechar los peores, podemos garantizar una fiabilidad aceptable (al menos la mayor posible en nuestro caso). Sin embargo en estos procesos caben niveles de perfeccionismo, y a partir del mismo conjunto inicial de tems cabe llegar a instrumentos mejores o peores. La inversin en tiempo, anlisis, confeccin y comparacin de versiones distintas del mismo instrumento, etc., puede depender del uso pretendido del mismo; no es lo mismo preparar una escala para una evaluacin sencilla de actitudes sin muchas pretensiones, que para hacer una investigacin ms seria en torno a la actitud medida por nuestro instrumento (no es lo mismo construir un instrumento como un simple ejercicio acadmico, o para una experiencia didctica o para aportar un feedback a unos sujetos en una determinada situacin, que construir una escala para medir un rasgo que va ser central en una tesis doctoral o en una investigacin ms seria o que pensamos publicar). El rigor metodolgico no tiene que ser siempre el mismo, con tal de garantizar siempre un rigor suficiente. Si pretendemos construir un instrumento de una calidad superior, o simplemente deseamos hacerlo lo mejor posible, ya hemos repetido que este proceso no tiene por qu ser automtico. Tambin tienen su lugar nuestras propias ideas sobre lo que queremos medir, nuestra propia concepcin del rasgo. En la eleccin definitiva del conjunto de tems que van a formar la escala deben entrar tambin otros criterios ms

Gua para construir escalas de actitudes

14

conceptuales que modulen esta seleccin; con frecuencia tendremos versiones con distinto nmero de tems que apenas difieren en fiabilidad. En principio deben eliminarse aquellos tems que hacen que la fiabilidad sea menor, pero a veces eliminando un tem apenas baja la fiabilidad y si no lo eliminamos la escala puede quedar menos coherente con otros criterios (una idea o aspecto del constructo puede quedar mal representada o de manera muy incompleta). Otras veces entre los tems que contribuyen a una mejor fiabilidad hay alguno que, una vez eliminados otros previamente, puede tener poco sentido porque desequilibra el significado, etc., y puede ser mejor eliminarlo tambin. El que la fiabilidad vare en el tercer decimal importa poco. Tambin puede suceder que con menos tems obtengamos una fiabilidad igual o semejante que con un nmero mayor de tems. Frecuentemente tendremos ms tems de los que necesitamos para llegar a una escala con una fiabilidad ms que aceptable. Adems, y a la vista de lo que va sucediendo, podremos probar qu sucede si incluimos o excluimos algunos tems en particular, o podemos ir comprobando la estructura factorial de las distintas versiones. Es normal que de un conjunto de tems amplio nos pueda quedar ms de una escala, sobre todo si el constructo medido tiene cierta complejidad. En estos casos la escala prevista puede quedar dividida en subescalas, o podemos tener un instrumento largo que mide el rasgo ms general y que a la vez se puede dividir en subescalas que dan puntuaciones de los componentes. Para este proceso (que aqu no tratamos de manera especfica) suele utilizarse el anlisis factorial, que adems puede ser un buen mtodo complementario para seleccionar los tems16. Como estamos tratando del anlisis de tems y de la fiabilidad como criterios (no nicos) de calidad, no debemos olvidar que aunque es verdad que en general a mayor nmero de tems tendremos una mayor fiabilidad, tambin es verdad que con ms respuestas en los tems tambin aumenta la fiabilidad. Procedimiento inverso, recomendado por algunos autores, y que puede ser preferible. En vez de calcular la fiabilidad primero con todos los tems y de nuevo eliminando progresivamente los que menos discriminan, podemos seguir el proceso inverso: 1 Calculamos la fiabilidad con el subconjunto de tems que ms discriminan (mayor correlacin con el total o mayor diferencia entre los grupos extremos). 2 Aadimos unos pocos tems, los ms discriminantes de los que nos quedan y volvemos a calcular la fiabilidad. 3 Damos la tarea por terminada cuando la fiabilidad empieza a bajar. Con este procedimiento nos quedar normalmente una escala ms breve, sobre todo si partimos de muchos tems. Los tems se pueden ir aadiendo de uno o en uno, o de cinco en cinco, o en pequeos bloques de tems de discriminacin parecida. Como antes, se pueden tener tambin criterios ms conceptuales, para que nos quede un instrumento equilibrado y a nuestro gusto.
(que en principio es el preferible) es utilizar alguna de las frmulas basadas en la particin del test o escala

Una alternativa ms sencilla (no siempre, depende de los medios disponibles) al clculo del coeficiente

en dos mitades. Para esto: 1 Al corregir la escala a cada sujeto se le calculan dos puntuaciones totales, una en los tems pares y otra en los tems impares (y la suma de los dos subtotales ser el total de cada sujeto); 2 Despus se calcula la correlacin entre las dos mitades pues esta correlacin entra en estas frmulas de la fiabilidad basadas en la particin del test en dos mitades17. Conviene repasar en otro lugar todo lo referente a estas frmulas; en principio es preferible utilizar las frmulas del coeficiente de Cronbach o Kuder-Richardson 20.
16 Ejemplos de anlisis factoriales de diversas escalas e instrumentos en Morales (2005). 17 Hay varias frmulas de la fiabilidad basadas en la particin del test en dos mitades y conviene revisarlas antes de escoger una, pero en cualquier caso siempre es preferible calcular el coeficiente de Cronbach.

Gua para construir escalas de actitudes

15

10. Otras consideraciones en torno a la eleccin de los tems definitivos


Ya hemos indicado que todo el proceso (calcular la fiabilidad con diversos conjuntos de tems) puede hacerse tambin con programas de ordenador, pero la decisin sobre qu tems hay que ir excluyendo (o incluyendo) supone tambin valoraciones racionales; las soluciones automticas que nos puede dar un programa de ordenador no son necesariamente las mejores. Por eso concretamos aqu algunas orientaciones ms especficas. En la eleccin de los tems de la versin definitiva de la escala, el valor de t ( o de rit) es importante (indica discriminacin y sin discriminacin no hay medida), pero supuesto un valor significativo y alto (alto en trminos relativos), pueden entrar otros criterios en la eleccin de los tems (incluso aunque baje algo la fiabilidad de toda la escala), como los que exponemos a continuacin. 1 Equilibrio entre tems positivos y negativos Podemos incorporar un nmero ms o menos igual de tems positivos y negativos (con la clave de correccin controlamos que todas las respuestas se puedan sumar: el mximo acuerdo en unos tems ser equivalente al mximo desacuerdo en otros tems). Esta es una buena prctica como ya indicamos al principio al tratar de la redaccin de los tems, porque con tems en las dos direcciones se controlan mejor las respuestas aquiescentes, y adems el constructo suele quedar mejor expresado. Lo que no es tan fcil ni frecuente es que en la edicin final haya un nmero de tems idntico en cada direccin (tampoco es especialmente necesario). Si tenemos un nmero de tems aproximadamente idntico en ambas direcciones (favorables y desfavorables a la actitud medida) es til calcular a cada sujeto dos puntuaciones parciales sumando por separado ambos tipos de tems, y calcular despus la correlacin entre estas dos subescalas o totales parciales; si esta correlacin es del orden de .50 tenemos una garanta razonable que ambos tipos de tems miden lo mismo y que no est operando la aquiescencia (tendencia a responder preferentemente de acuerdo a cualquier tem). 2 Cuidar ms la representatividad del contenido de las formulaciones de los tems En le seleccin definitiva de los tems que van a conformar nuestra escala, podemos buscar una homogeneidad conceptual ms ntida. Quizs veamos, por ejemplo, que al eliminar dos tems que discriminan poco, nos sobra un tercer tem que s discrimina y que incluye la misma idea que los dos eliminados, pero el conjunto de la escala puede quedar muy desequilibrado en cuanto al significado global. Todo esto puede depender de apreciaciones personales; siempre hay que tener claro que es importante la interpretabilidad de los datos en funcin de un rasgo o actitud bien definida (aunque un rasgo se puede definir bien de manera muy genrica o compleja y tambin de manera muy especfica). Un ejemplo posible: en una escala de actitud hacia el estudio incluimos cuatro tems en torno a la idea de competitividad. Si dos o tres de estos tems no discriminan en el conjunto de la escala, puede ser preferible no incluir en la escala la idea de competitividad (aunque baje algo la fiabilidad) y medirla de otra manera si nos interesa, con otro instrumento o con unas preguntas adicionales. Nos quedar un concepto de actitud hacia el estudio con un significado ms restringido que el que buscbamos en primer lugar. 3 Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general Tambin nos puede interesar que estn representados con idntico nmero de tems (o en nmero suficiente) ideas que reflejan matices distintos (subrasgos) dentro del rasgo general. En ocasiones un instrumento, adems de medir un rasgo general, se puede subdividir en subescalas para medir por separado aspectos distintos. Un instrumento que mida, por ejemplo, autoestima o asertividad, etc., se puede dividir en subescalas que midan por separado aspectos distintos de la autoestima o de la asertividad. En este caso tanto las subescalas como la escala formada por todos los tems, deben tener una fiabilidad aceptable. Si se pretende construir un instrumento de este estilo, es til estudiar las posibilidades del anlisis factorial como ya se ha indicado; este tipo de escalas suelen denominarse escalas factoriales.

Gua para construir escalas de actitudes

16

4 Incorporacin de nuevos tems Cuando con pocos tems que en principio nos convencen porque expresan bien lo que deseamos medir, no alcanzamos una fiabilidad adecuada, podemos acudir a las frmulas que nos dicen cuntos tems del mismo estilo (de formulaciones parecidas) deberamos aadir para alcanzar una fiabilidad determinada18. Tambin puede suceder que algunos de los tems eliminados en el anlisis, y que conceptualmente nos parezcan adecuados, simplemente estn mal formulados y haya que hacer una redaccin nueva. 5 Preparacin de dos versiones, corta y larga, de la misma escala Con frecuencia podremos observar que un nmero reducido de tems nos da una fiabilidad aceptable. Puede ser interesante hacer dos versiones, una la versin normal o larga, y otra breve, quizs con una fiabilidad menor, pero apta para muchos de los usos de estos instrumento. Podemos verificar qu fiabilidad obtenemos seleccionando solamente los mejores tems, que pueden ser muy pocos (cinco o seis, por ejemplo). Estas versiones breves suelen ser tiles como instrumentos complementarios en investigaciones en las que el nfasis o el inters del investigador est en otro rasgo distinto, pero le interesa adems medir otras variables con suficiente precisin pero utilizando instrumentos breves y econmicos. 6 Explicacin o redefinicin del rasgo medido por nuestro instrumento En esta observacin no nos referimos a la seleccin definitiva de los tems, sino a las consecuencias de esta seleccin. A veces, y a la vista de los tems que han sido retenidos en la escala definitiva, habr que redefinir lo que pretendemos medir o al menos explicarlo adecuadamente aunque se mantenga el nombre del instrumento. Los trminos para designar los rasgos suelen ser muy genricos, y de hecho instrumentos con el mismo nombre (como actitud hacia el estudio, autoestima, etc.) pueden no coincidir en lo que de hecho miden, que puede ser definido con unos lmites ms ajustados. Podemos comenzar, por ejemplo, construyendo una escala de actitud hacia el estudio, pero al eliminar una serie de tems y fijarnos en los que nos quedan, puede ser preferible hablar de nivel de aspiraciones, o de constancia en el estudio, etc. (lo que de hecho estemos midiendo). Al menos debe quedar explicado de alguna manera.

11. Comprobacin de la validez y otros anlisis posteriores


Una vez que tenemos ya la versin definitiva de la escala, se hacen los dems anlisis segn los datos de que dispongamos. a) Se pueden calcular datos descriptivos (medias y desviaciones) de las diversas submuestras si las hay, b) Podemos construir baremos o normas de interpretacin (como los percentiles, estaninos, u otro tipo de puntuaciones). c) Se pueden comprobar diferencias entre grupos, correlaciones con otras variables, etc.; segn los datos que hayamos obtenido simultneamente; o podemos pasar la escala a muestras nuevas obteniendo a la vez otros datos que nos permitan hacer ms anlisis. d) Sobre todo podemos comprobar de manera ms especfica y planificada la validez del nuevo instrumento con los datos obtenidos simultneamente (o ya en estudios posteriores y con otras muestras, pero esto es ms laborioso). La confirmacin de la validez ms que un clculo es un proceso (los llamados coeficientes de validez son simples correlaciones con un determinado criterio que no confirman necesariamente la validez de un instrumento, sino una interpretacin especfica de los datos obtenidos con ese instrumento)

18 Estas frmulas que relacionan la longitud de un test y su fiabilidad suelen encontrarse en textos en los que se trata de la fiabilidad de manera ms especfica y en la obra citada de Morales, Urosa y Blanco (2003). Gua para construir escalas de actitudes

17

No tratamos aqu de manera especfica sobre la validez, pero es til recordar ahora algunas ideas bsicas sobre la validez y cmo probarla. No hay una prueba de validez en sentido estricto, pero s podemos tener datos que apoyen una determinada interpretacin, avalen la utilidad del instrumento, etc.19 Una visin de conjunto de lo que entendemos por validez y de los modos de comprobarla est resumida en el cuadro 7.
Cmo comprobamos el significado y la utilidad Las interpretaciones se pueden reducir a dos grandes tipos: analizando el contenido Necesario pero no siempre suficiente Ms fcil en pruebas de rendimiento escolar (nos ajustamos a un plan, a una tabla de especificaciones); Ms difcil o ms limitado: a) Cuando tratamos de medir rasgos ms abstractos (como son los rasgos de personalidad); b) Cuando queremos ampliar el significado, o generalizarlo a otras situaciones; c) Cuando en las respuestas es ms probable que influyan otras variables (aquiescencia, deseo de quedar bien, etc.) No es una estrategia vlida o al menos es insuficiente; pero el anlisis del contenido ayuda a formular hiptesis predictivas con mtodos experimentales Estrategias: comprobar hiptesis sobre el significado de la variable que medimos; dos estrategias bsicas: Validacin convergente; Validacin divergente

a) Interpretaciones sobre el significado de lo que medimos (validez de constructo) A pesar de la validez aparente de los tems, podemos medir, al menos parcialmente, algo distinto de lo que pretendemos, como capacidad lectora, deseo de presentar una buena imagen, etc.; adems los que responden pueden entender otra cosa distinta o no entender lo que se les pregunta, etc. b) Interpretaciones sobre la utilidad del instrumento ( validez predictiva, en sentido amplio)

Necesario siempre; Mtodos correlacionales; Problemas posibles: validez y fiabilidad del criterio que se pretende predecir

Cuadro 7 Con los estudios de validacin pretendemos, sobre todo, dos finalidades (que se apoyan mutuamente): 1 Confirmar el significado previsto de la variable (de la actitud o rasgo) que pretendemos medir. Se trata de verificar que la interpretacin es correcta (si, por ejemplo, decimos que estamos midiendo actitud hacia el estudio, verificamos que es eso, y no otra cosa, como inteligencia, lo que de hecho medimos). Este tipo de validez suele denominarse validez de constructo (constructo = rasgo). Confirmamos el significado comprobando hiptesis basadas en el mismo significado; podemos utilizar dos tipos de estrategias que se complementan: 1. Validez convergente: por ejemplo comprobando relaciones esperadas y plausibles (positivas o negativas) con otras medidas: a) unas pueden ser otros instrumentos que pretendidamente miden lo mismo (si hacemos una escala de autoconcepto esperaremos una correlacin significativa con otras escalas de autoconcepto); b) otras pueden medir otras cosas pero con l as que esperamos que haya relacin (como entre actitud hacia el estudio y calificaciones escolares).

19 Sobre la validez las normas de la American Educational Research Association (A.P.A.) dicen que la validez se refiere al grado en el que la evidencia y la teora apoyan (support) las interpretaciones de los tests de acuerdo con el uso que se va a hacer de estos tests. Gua para construir escalas de actitudes

18

2. Validez divergente: comprobando que el rasgo no tiene relacin con otros con los que no esperamos que la tenga o que se diferencia de otros del mismo mbito (la asertividad de la agresividad, puede haber relacin pero no tan alta que nos permita concluir que ambos instrumentos miden lo mismo); podemos tambin comprobar si la escala diferencia grupos que ya sabemos que son diferentes en esa variable. Hay otros mtodos para confirmar, matizar, describir mejor o explorar el significado de lo que medimos, como es el anlisis factorial y otros tipos de anlisis. 2 Comprobar la utilidad prctica del instrumento En este caso verificamos, por ejemplo si existen correlaciones apreciables con determinados criterios (como rendimiento acadmico, xito en una tarea, etc.; se trata de validez predictiva en sentido amplio). Esta comprobacin de la utilidad tambin aporta datos a la comprobacin del significado.

12. Sugerencias para obtener datos adicionales que faciliten la validacin de la escala
Las sugerencias puestas a continuacin estn estructuradas pensando en los posibles anlisis sobre la validez, pero en cualquier caso siempre es til e informativo hacer algn estudio de tipo correlacional o de comparacin de grupos. 12.1. Confirmacin del significado pretendido (validez de constructo) Los anlisis pueden tener dos enfoques bsicos (hay ms), como son 1 los estudios correlacionales y 2 las comparaciones entre grupos. Por lo que respecta a los anlisis correlacionales, y para tener una visin de conjunto, vamos a pensar en tres tipos de relaciones (o en su caso, de no relaciones): 1 con instrumentos que miden el mismo rasgo (ms o menos) 2 con instrumentos que no miden el mismo rasgo, pero s otros rasgos que estn relacionados (al menos como hiptesis razonable) con el que medimos nosotros 3 con instrumentos que miden otros rasgos con los que esperamos que no haya relacin (o menor que si midieran el mismo rasgo). 12.1.1. Anlisis correlacionales Podemos distinguir tres estrategias basadas en estudios correlacionales. 1 Relacin con otros modos de medir el mismo rasgo Comprobamos la relacin entre nuestro instrumento y otros modos de medir el mismo rasgo. Otros modos de medir lo mismo pueden ser: a) Una pregunta amplia (hasta qu punto crees que eres as: etc.?) y sigue una descripcin de un par de lneas del que supuestamente tiene el rasgo en un grado alto. b) Otro mini-test de pocos tems que ms o menos mida lo mismo, por ejemplo: 1. Desde otra perspectiva (por ejemplo conductas probables en vez de opiniones), 2. Con un instrumento que mide el mismo rasgo pero construido con una tcnica distinta (por ejemplo eleccin entre alternativas o un Semntico Diferencial) c) Otra escala o test (o factor, o subescala, o seleccin de tems, etc.) de otro autor y que supuestamente comprueba lo mismo (o muy parecido) d) Si es posible, se puede comprobar la relacin entre autoevaluacin (si se trata de la medicin de un rasgo propio ms que la actitud hacia otra cosa) y hteroevaluacion.

Gua para construir escalas de actitudes

19

Estos nuevos instrumentos tienen un valor complementario, pueden ser muy breves y tambin pueden ser simples preguntas. 2 Comprobacin de relaciones esperadas (positivas o negativas) con otros rasgos Podemos comprobar tambin la relacin entre lo que mide nuestro instrumento y otros rasgos o caractersticas distintas con las que esperamos que haya relacin (positiva o negativa): a) Una lista de adjetivos o rasgos autodescriptivos que podran equivaler a una serie de tests de personalidad; tambin se pueden sumar adjetivos que reflejen ms o menos el mismo rasgo (mediante el anlisis factorial se pueden encontrar grupos de adjetivos relacionados entre s y que reflejan un mismo rasgo subyacente a todos ellos). b) Tests de personalidad (completos o en parte, subtests, etc. ), c) Preguntas sueltas sobre diversos temas, otras actitudes, preferencias, etc. que, como hiptesis, puedan tener relacin con la actitud medida; (por ejemplo preguntas de este estilo: de estas profesiones cual te hubiera gustado ms para ti? Se escoge una entre varias, o se escoge una de cada par, o se valoran todas independientemente, etc.). 3 Comprobar que no existe relacin donde no esperamos que la haya Esta no relacin nos ayuda a distinguir unos rasgos de otros, sobre todo cuando pertenecen al misma mbito conceptual y es fcil confundirlos. La no relacin no hay que entenderla de manera literal; puede tratarse de relaciones, incluso estadsticamente significativas, pero menores que con otros rasgos, y de acuerdo con un razonamiento plausible. 1.2.1.2. Comparaciones entre grupos El otro enfoque mencionado al principio de este apartado consiste en comparar grupos supuestamente distintos en aquello que estamos midiendo. a) Todas las comparaciones entre grupos equivalen a anlisis correlacionales (como en definitiva todos los anlisis estadsticos): nos da lo mismo, por ejemplo, preguntarnos si los nios superan a las nias en el rasgo o actitud A (y haremos un contraste de medias), que preguntarnos si el sexo est relacionado o tiene que ver con la actitud A (y calcularemos un coeficiente de correlacin entre el gnero, 1 0, y la actitud medida). Es ms, no slo hay una obvia relacin conceptual entre las dos preguntas (diferencia entre medias o relacin), sino que mediante las frmulas oportunas podemos transformar un valor de la t de Student en un coeficiente de correlacin. b) Aun as nuestras preguntas espontneas son unas veces en trminos de relacin, y otras en trminos de diferencias; ambos enfoques nos ayudan a formular hiptesis que podemos intentar confirmar, y adems los procedimientos de anlisis son en principio distintos aunque en ltima instancia aporten la misma informacin. c) Al preparar nuestro instrumento de recogida de datos, debemos pensar qu preguntas podemos hacer que identifiquen a los sujetos segn grupos de pertenencia (segn profesiones, edades, sexos, etc.) o segn caractersticas personales de inters que permitan subdividir la muestra en subgrupos (preferencias por A B, preguntas en relacin con el estilo de vida, valores, etc.) d) El anlisis estadstico obvio ser un contraste de medias, o anlisis de varianza si las muestras son ms de dos. Resumiendo Los anlisis sugeridos (correlaciones y comparaciones de grupos) no agotan todos los anlisis posibles en relacin con la validez, pero s son los ms obvios y con frecuencia suficientes. Como ya hemos indicado antes se trata en todos los casos de obtener datos para poder verificar hiptesis (y tambin para explorar):

Gua para construir escalas de actitudes

20

a) El instrumento mide algo relacionado (positiva o negativamente) con otras cosas con las que lgicamente esperamos que haya relacin (validacin convergente). Unas veces comprobamos relacin con el mismo rasgo medido de otra manera (o por otras personas, por ejemplo auto y htero-evaluacion); Otras veces comprobamos relacin con rasgos distintos pero lgicamente relacionados. b) El instrumento mide algo que no est relacionado con lo que no se espera que lo est (validacin divergente). La no relacin tambin es til para ver que no confundimos unas cosas con otras, y porque tambin son datos informativos. 12.2 Confirmacin de la utilidad del instrumento (validez predictiva) Bsicamente se trata de calcular coeficientes de correlacin entre el instrumento (lo que mide el test o escala) y determinados criterios (como rendimiento acadmico, determinadas habilidades, etc.). Estos son los coeficientes que suelen denominarse coeficientes de validez. Tambin cabe hacer estudios meramente exploratorios o que respondan a hiptesis no directamente relacionadas con la validez. El complemento de la construccin de un instrumento pueden ser adems unas normas de interpretacin (baremos), para los sujetos individuales que respondan: percentiles, estaninos, etc.

Gua para construir escalas de actitudes

21

13. Bibliografa
13.1. Referencias bibliogrficas citadas
AMERICAN EDUCATIONAL RESEARCH ASSOCIATION, AMERICAN P SYCHOLOGICAL ASSOCIATION and NATIONAL COUNCIL ON MEASUREMENT IN EDUCATION (1999). Standards for Educational and Psychological Testing. Washington DC: American Educational Research Association BARNETTE, JACKSON J. (2000). Effects of stem and Likert response option reversals on survey internal consistency: if you feel the need, there is a better alternative to using those negatively worded stems. Educational and Psychological Measurement, 60 (3), 361-370. CAADAS OSINSKI, ISABEL y SNCHEZ BRUNO, ALFONSO (1998), Categoras de respuesta en escalas tipo Likert. Psicothema, vol. 10, n 3, 623-631. CHANG, LEI (1997). Dependability of Anchoring Labels of Likert-Type Scales. Educational and Psychological Measurement, 57 (5), 800-807. DODEEN, HAMZEH M. (2003). Effectiveness of Valid Mean Substitution in Treating Missing Data in Attitude Assessment. Assessment & Evaluation in Higher Education. Vol. 28, n 5, 505-513. GARDNER, DONALD G.; CUMMINGS, L.L.; DUNHAM, RANDALL B. and P IERCE, JON L. (1998). Singleitem versus multiple item measurement: an empirical comparison. Educational and Psychological Measurement, 58 (6), 898-915. MORALES VALLEJO, P EDRO (2005). Anlisis factorial en la construccin e interpretacin de tests, escalas y cuestionarios. http://www.upcomillas.es/personal/peter/ MORALES VALLEJO, P EDRO (2006). Medicin de actitudes en Psicologa y Educacin, construccin de escalas y problemas metodolgicos, tercera edicin revisada. Madrid: Universidad Comillas. MORALES VALLEJO, P EDRO; UROSA SANZ, BELN y BLANCO BLANCO, NGELES (2003). Construccin de escalas de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla. NUNNALLY, JUM C. (1978). Psychometric Theory. Second Edit. New York: McGraw-Hill. WENG, LI-JEN (2004). Impact of the Number of Response Categories and Anchor Labels on Coefficient Alpha and Test-Retest Reliability. Educational and Psychological Measurement, 64, 6, 956-972.

13.2. Sobre construccin de instrumentos


DEVELLIS, ROBERT (1991). Scale Development, Theory and Applications. Newbury Park: Sage.

EDWARDS, A.L., (1957a). Techniques of Attitude Scale Construction. New York: Appleton-CenturyCrofts. GABLE, ROBERT K. AND WOLF, MARIAN B. (1986). Instrument Development in the Affective Domain. Boston/Dordrecht/Lancaster: Kluwer-Nijhoff Publishing. HENERSON, M.E., MORRIS, L.L. AND FIZT-GIBBON, C.T . (1978). How to Measure Attitudes, Beverly Hills: Sage. KING, M. AND ZIEGLER, M. (1975). Research Projects in Social Psychology. Monterrey: Brooks-Cole. KLINE, P. (1986). A Handbook of Test Construction. New York: Methuen.

Gua para construir escalas de actitudes

22

LIKERT, R. (1932). A Technique for the Measurement of Attitudes, Archives of Psychology, 140, 44-53 [en espaol en WAINERMAN, C.H. (Ed.), (1976). Escalas de medicin en las ciencias sociales. Buenos Aires: Nueva Visin, 199-260 y en SUMMERS, GENE F. (Ed.) (1976). Medicin de actitudes. Mxico: Trillas, 182-193]. MORALES VALLEJO, P EDRO (2006). Medicin de actitudes en Psicologa y Educacin, construccin de escalas y problemas metodolgicos, tercera edicin revisada. Madrid: Universidad Comillas. MORALES, PEDRO (2005). Anlisis factorial en la construccin e interpretacin de tests, escalas y cuestionarios. http://www.upcomillas.es/personal/peter/ MORALES VALLEJO, P EDRO; UROSA SANZ, BELN y BLANCO BLANCO, NGELES (2003). Construccin de escalas de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla. MORRIS, LYNN LYONS, FIZT-GIBBON, CAROL T AYLOR, AND LINDHEIM, ELAINE (1987). How to measure attitudes. Newbury Park & London: Sage. NUNNALLY, JUM C. (1978). Psychometric Theory. New York: McGraw-Hill. SPECTOR, P AUL E. (1992). Summating Ratings Scale Construction: An Introduction. Newbury Park & London: Sage. WAINER, HOWARD AND MESSICK, SAMUEL (Eds.) (1983). Principals of Psychological Measurement. Hillsdale, N. J.: Lawrence Erlbraun.

13.3. Colecciones de instrumentos


BEARDEN, WILLIAM O.; NETEMEYER, RICHARD G. AND MOBLEY, MARY E. (1993). Handbook of Marketing Scales. Newbury Park: Sage. BORICH, G.D., AND MADDEN, S.K. (1977). Evaluating Classroom Instruction, A Sourcebook of Instruments. Reading, Mass.: Addison-Wesley. COHEN, L. (1976). Educational Research in Classrooms and Schools. London: Harper & Row. FISHER, JOEL AND CORCORAN, KEVIN J. (1994). Measures for Clinical Practice: A Sourcebook; Couples, Families and Children. Portland: Portland State University, Oregon. LAKE, D.G., MILES, M.B. AND EARLE JR., R.B. (1973). Measuring Human Behavior. New York: Teachers College, Columbia University MILLER, D.C. (1977). Handbook of Research Design. New York: David McKay. NEWMARK, CHARLES S. (Ed.) (1996). Major Psychological Assessment Instruments. Second Edition. Boston: Allyn & Bacon. ROBINSON, JOHN P. AND SHAVER, P HILLIP R. (1980). Measures of Social Psychological Attitudes. Ann Arbor, Mich.: Institute of Social Research, the University of Michigan. ROBINSON, JOHN P.; SHAVER, P HILLIP R. AND WRIGHTSMAN, LAWRENCE S. (Eds.) (1991). Measures of Personality and Social Psychological Attitudes. New York: Academic Press. ROBINSON, JOHN P.; SHAVER, P HILLIP R. AND WRIGHTSMAN, LAWRENCE S. (Eds.) (1999). Measures of Political Attitudes. New York: Academic Press. SCHUESSLER, K.F. (1982). Measuring Social Life Feelings. San Francisco: Jossey-Bass SHAW, M.E. AND WRIGHT, J.M. (1967). Scales for the Measurement of Attitudes. New York: McGrawHill. STRAUSS, M.A. AND BROWN, B.W. (1978). Family Measurement Techniques, Abstracts of Published Instruments, 1935-1974. Minneapolis: University of Minnesota Press.

Gua para construir escalas de actitudes