You are on page 1of 33
36. 37, 3.8. 39, CapiTuLo 3 CONSTRUCCION DE ITEMS. Gerardo Prieto y Ana R. Delgado Universidad de Salantanca Introduceién Enfoques en la construccién de tests Identificacién del propésito del test Planificacion del test 3.4.1. Factores contextuales externos 3.4.2. Atributos internos del test. Aportaciones de la psicologia cognitiva a la construccién de items 3.5.1, Elaboracién y contraste de modelos de procesamiento de items Identificacién y manipulacién de las fuentes de dificultad de los items 35.3, Anélisis e identificacion de estrategias de resolti- cin de ftems paradigmaticos Conclusién Ejercicios Soluciones a los ejercicios Referencias bibliogréficas RESUMEN La constucsn dels items de un testes la trea prove a fo que se considera més propo el rabeo psicamétco: es relinados ands cuantitaivos que indican qué items son aceptabes y cuales han de ser elminados 0 majrados, cémo atectan al conunto de testy cdr se eleionan con otras mediiones de interés, La comiceén de que la redaccion de los tems era mas un ate que una ciencia, mantenida por la mayor parte de los autores, habia cejaco el tera ala especula: |. cién, aunque en ios Utimos afos, deco al énfasis en ia vaidacion de constructo asi como a presiones legales en los tibunalesnorteamericanos, han comenzado a sistomatizarse los procedimiento de contruciin de lems que hasta entonces se habian dejado en manos ce i intuicén e inventva cel autor. En este captuo so vratan, en primer lugar, algunas evestonestadrcasrelordas a las aproximmaciones funeionalita(cutivada por los educadores)y de los rages (mae cercana ia pscologia)y sus repercusiones en la consiuccién de los ems. Tiatand de st Ear as veriajas de lor dos enfoques, e reala la rnporancia de ionicar con precisén el propesto de test ~y, en sv e230, el rasgo macide~- antes de como Earla planfeacien bal del mismo. Los espectos a tener on cuenta al paniicer sl | Sonterto de construcisn de los ems pueden ser clsticados en thes qresien | Categories de factors: extemos (pobiacin, tipo de aaieacion ele) 8 nonce wis | prueba (dominio, soporte, formato de fos items, etc) En este ultimo apartado so |. Gterencian los formatos de fos toms de ejacucién maxima y de eecuctn tinea y fe indcan los procedimienos generals mds adacuados a la luz do los tenors | Ot oe ade carina hz do aban | fe dela psicologta cogiva ala constucién dems y se concive dee any on sugerencias sobre algunos temas de interés, tales como la reve ieee ioe itm y la formulacon de las instucciones de test, que ~-Sepenclonde cet proceso segue potrianafectar de forma més o menos drecia as consracee fs tera, 107 - En los manuales ms clisicos de Teori i eoria de los Tests suelen encontrarse espacios dedicados a In exposicién de la metodoloss, apropiada para Ia constniccién de los items ¢ trata de una carencia greec, Puesto que el uso de los refinados Procedimientos empiticos para angie paeeclonar los tems no permitiré constrain test de ria Prima es deficiente, La raiz del proble, calidad si la materia nes mantenidas por los clasicos de qu cere Psicometria y "ma podria encontrarse en | te Ta redaccién de los items folucién de problemas en los tests de aptitudes, son ejemplos ce teméticas nu relevantes en la construccién de tests psicoldgicos que no se cena Tan en tos manuales més al uso sobre la construccién de tems, Neos, Droposito ha sido incluir en este capitulo de forma somera la problemas general que afecta a la construccién de tems de los tests psicolvicns 3.2. ENFOOU! 'S EN LA CONSTRUCCION DE TESTS A diferencia de lo que ocuive en el ambito de l ediciones fisieas, la forma de medir en psicologia y educacién es atin objeto de controversia, El 108 =. 7 Jplema se resume en el hecho de que no medimos magnitudes fisicas, Fhe constructs, entidades hipotéticas, de modo que la medicién de cues- ones tales como la inteligencia, la agresividad o la depresién esté indisolu- Hemente asociada a la definicién de su significado, y a pocos convencerd ‘quello de que inteligencia es lo que miden los test de inteligencia, Como Rust y Golombok (1989) argumentan, los tests de inteligencia deben de es- tar midiendo algo més de lo que manifiesta el contenido de sus items; de lo Sontrario, no serfa posible transcender el nivel estrictamente praamatico de pronosticar o clasificar a partir de tareas tedricamente irrelevantes. Y ese Figo més tiene que ver, segtin estos autores, con el objeto de la psi sicometria ha dado lugar a y si nos referimos a flo es porque la aliiacion au n Tepercusiones en la ‘construccién de los items de un test. Viceversa, ciertas practicas psicométri- ‘cas definen la pertenencia a uno de estos enfoques sin que, a veces, seamos conscientes de ello. Estrictamente hablando, el entiende la psico- metria como una tecnologia aplidads a Ta construccion de tests titiles para pronosticar criterios socialmente relevantes, evaluar los conocimientos aca- démicos de los sujetos o clasificar a las personas en categorias diagnésticas, de modo que la construccién de un test viene determinada totalmente por el uso pragmitico que de éste deseemos hacer. Desde esta perspectiva, el dise- fo de un test sigue un modelo simple que, salvo pequefas diferencias, es el adoptado por la préctica totalidad de los manuales al uso y que expondre- ‘mos més detalladamente en los siguientes apartados; basicamente, consiste en identificar la utilidad que se desea lograr con el test, especificar las areas de contenido relevantes para dicho propésito y desarrollar un esquema boceto detallado que nos guie en la construcci6n de los items. El enfoque funcionalista es, red) ver - jen este contexto se diluye la distincion entre aptitud y rendimiento, dado que, como en el conductismo, lo impor- tante de los rasgos o de las variables intervinientes es la conducta a la que llevan y es ésta la que se define v la que se mide directamente, por lo que referirse a un rasgo latente resultarfa redundante El enfoque de los rasgos surgié del intento de situar la psicometria en el campo de la ciencia, de la cual las derivaciones tecnol6gicas constituyen sélo un apéndice. Este enfoque tuvo su origen en el acercamiento cientifico ‘a nociones ingenuas o de sentido comtin sobre la personalidad. Partiendo de la idea de que la personalidad no se trataba de una cuestién de todo o nada, sino de grado, Sir Francis Galton intent6 desentrafar la esencia del genio (1869), Las teorfas factorialistas de Ia inteligencia constituyen otra de las Corrientes importantes del enfoque de los rasgos. Desde esta perspectiva, Cuyos pilares filosdficos son el determinismo y el reduccionismo, los tests Psicométricos se disefian para medir rasgos quie son manifestaciones 42 la 109 saltimas 1 las dos ie en | aa Jlogia de la persor 3), Ia consistencia 1 Jos rasios, Con varianza biol6gica en aptitudes o personalidad. Aund! decades este modelo habia sido desdenado en la psicol Sea eae enes ivacionisas (Misch, 196 del modelo pentafactoral ha hecho resurgi el interés POY Nor Tots de onsecaenclas précticas inmediatas, como Ia reconsideraciGn €6 9) personalidad en contextos bores Golders, 1993) Igual de as Pisfones de las neurociencias y de la psicologia cognitiva al este © verte parece dotar de nuevo sentido al enfoque de los rasgos, Puce, Co yo indica Kline (1991), no importa lo consensuada que esté una dete tt da definicién de inteligencia: si no capta Jo que ésta es en el mundo Bea Ser inutil, De modo que, si la inteligencia, la agresividad o la depres SXisten més alld de las definiciones que nos empefiemos en acufiar, el hom- bre de la calle no permitiré que los académicos lo olvidemos. ‘Que la perspectiva dominante sea hoy la funcionalista no se debe a mot! tos teéricos, sino a consideraciones puramente pragmaticas y al hecho de gue, en el Ambito judicial norteamericano, las denuncias sobre la parciali- dad o injusticia de los tests crecieron considerablemente desde comienz0s de los afios setenta, como puede leerse en Linn (1989), de modo que el propésito prioritario de la construccién de los tests es hoy la medicién de coritenidos muy claramente especificades. Pero, como indican Rust y Go- Jombok (1989), esta especificidad del enfoque funcionalista es también su ‘mayor debilidad, dado que no nos est permitido suponer que un test cons- truido con un propésito en mente sea de utilidad para cualquier otro fin. Si por cualquier razén necesitamos generalizar —por ejemplo, si nos interesan mds las aptitudes que el rendimiento— entonces tendremos que recurrir a algtin rasgo o a un constructo. El debate no est cerrado y no suele mencionarse en este contexto, pues- to que tiene raices politicas (¥ socioeconémicas) més que cientificas, y ape- nas afecta al tépico favorito de la mayoria de los psicdmetras, el de la fiabi dad. Sin iente al estudio. de ta valic define el i ; validez de constructo afecta a todos los rasos de la construccién del test, énfasis en 1a validez de contenido o en la predictiva reduce su importancia a las fases de definicién del dominio y/o a la del contraste de la eficienci predictiva de los ftems! Si entendemos con Messick (1989) que la valider ec tun concepto unificado, aun cuando conste de miiltiples facetas, y que la validacién es un proceso de busqueda cientifica, estaremos us que s Opto de este enfoque hi " dia I construc Ho de este enfoque ha mejorado en gran medida la construccién de tos tessa hacer bligado un plan de trabajo muy espcifico yal reconocer onsecuencias de la aplicacién de tests 1 0 ajeno al gue scons fs © son algo ajeno al trabajo De modo que, aun cuando el funcionalismo haya sido la base filoséfica 110 i ela educaciéa y lento erga spt nel mb que he BO oe va la construcei6n auch gta resuliarcomplementarios ct oe tecnolos- ian on eras cineca mae ea ‘ iciado por el funcionalismo, 5 Conde ome ppropiciada por el enfoque de los rasgos El en Be x ‘este capitulo sigue los pasos dictados por Ja tecnologia rae 2 a Stillada en el Ambito educativo, pero incluye otros aspectos relevant es pi Ja construccién de items en funcién de la validez de constructo. 3.3. IDENTIFICACION DEL PROPOSITO DEL TEST En general, se considera que la identificacién de los usos o la naturaleza de las inferencias que se pretende hacer de las puntuaciones de un test es el paso previo a cualquier tipo de decisién en la construccién de items (Croc- kery Algina, 1986; Millman y Greene, 1989). Supongamos que se administra a todos los estudiantes que acuden por vez primera a la Facultad de Psico- logia un test de aptitud aritmética. Se podria pensar que los resultados podrian ser utilizados para disehar précticas de estadistica de diferentes niveles y distribuir a los estudiantes segin sus puntuaciones, para diagnosti- car posibles dificultades de aprendizaje en algin alumno, e incluso para restringir la entrada a un seminario avanzado. Pues bien, es dudoso que un mismo test retina los requisitos para cubrir simulténeamente (y con la mis- ma precisién) todos esos objetivos. Por ejemplo, considerando el nivel de dificultad, un test construido para discriminar entre sujetos con distintos niveles de aptitud deberia estar compuesto por items de dificultad interme- dia, mientras que el disefio de un test dirigido al diagnéstico de los mas limitados para el aprendizaje habria de hacerse contando principalmente con items sencillos; y lo contrario puede decirse de los tests utilizados para Seleccionar sujetos con un alto nivel de competencia. Es posible, ademé Que el objetivo sea profundizar en el conocimiento de la aptitud aritmética, Sstudiando, por ejemplo, cui es su distribucién en la poblacién de universi- farios v en algunas subpoblaciones de interés (y ver si corresponde a lo hipotetizado por las teorias cientificas del momento), en cuyo caso quizé se persiga contar con tn instrumento que mida lo més adecuadamente posible Ias diferentes facetas de la aptitud, De cualquier modo, ie Uiidads explistar la interpretacién ion de ser absolutamente exhaustivos, considerames que fe desea cubrir con los tests psicométricos ¥ ms podrian clasifi- ‘Sin la pretens los objetives prioritarios que s r \ que tienen una repercusion en Ja construccién de los iten carse en cuatro grandes categories: nt 5 se trata de obtener un test gue mida ‘mas relevantes. La nar las condiciones é= tructo, sino a evitar ac: que faciliten la influencia en las res. puestas de otros co: #7 este contexto en el que se han de considerar, por ejemp!o. 'es acerca de la ascciacién entre deter. minados formatos de | ¥ -& presencia de estlos de respuesta ajenos al construct medido. Evaluacién académics 0 cz, emplean en la evaluacién dal destrezas ha adquirido evaluacién conductual (zqué ce: al: es Ia finalidad de los tests que se “—tiento académico (¢qué ‘conocimientos 0 35 un periodo de instruccién?) y en la s-objetivo manifiesta el sujeto antes y después de la terapia?), Aung: ‘a empleado para cubrir este objetivo la metodologia de los tests refer: la norma, son més apropiados en este contexto los tests referidos al <=:erio, sobre todo si se atiende a considera, ciones éticas (equivalencia de ‘luaciones de distintas promociones, cursos, ete) ya la identifi carencias de cara a la intervencién, Como es sabido, los tests refesics 3 la norma basan la interpretacion de ley puntuaciones en la comparacién con un grupo de referencia, denominade grupo normativo, que se selecs:>n2 ce la poblacién de suetos la queel test va ditigido, Por el contrario, los vests referidos al riteric comparan la ejee cién de un sujeto con un dominio de conductas muy definido (Popham, 1978), Es decir, con los tests rsferidos wbetisenioemetambinrtetr sala, on educativa no se busca determinar si un sujeto es delos que mas sabe de ; proerama domina: En ambos enfoques los ftems que componeiiTbs tests ola escala se mues- twean de un dominio cuyos limites y estructura estén determinados por los objetivos de la instruccidn o el repertorio de conductas relevantes. Seleccién de personal: en este caso los tests se diseftan para identificar a los sujetos que tienen las caracteristicas psicol6gicas apropiadas para ser contratados en una empresa, acceder a una beca, ingresar en una institu, cién educativa con un niimero restringido de plazas, ce. Eldiseno de los items esta influido en este caso por dos consideraciones. En primer ligar, por el rango del atributo en el que se sitiia el punto de care empleado en Ia seleccion, Si se desea seleccionar a los sujetos con conacimientos y destre- zas de alto nivel, seré necesario que el test muestree en ase rango especifico de conductas excluyendo los indicadores de menores riveles de compete cia, En segundo lugar, por la potencial vaidea predictva de los indicadores conductuales. Es evidente que las decisiones de seleccién se fundamentan en la eficiencia del test para pronosticar el rendimiento de los sujetos en un trabajo espectfico, un programa de formacién, etc. Los items debea reflejar aquellos aspectos que permitan diferenciar a los sujetos con distinto nivel en 2 ibis satus ‘ , Por ejemplo, los sujetos seleccioaados han de procesar info , ag rp forma répida y precisa para ejecutar en el hnure to tarea, los items de los tests selectores debersr; facilitar la evaluacion de Ip rapidez yla precisién. Este aspecto obligaria probablemente a teat tn tipo fe tecnologia (los tests informatizados) y a disenar tin tipo de tema nnn diferente al adecuado para otros propésitos. Clasificacién diagnéstica: se persigue construir tests ities para asignar a los sujetos a distintas eategorias diagndsticas (ipos de discapacidad mental trastornos de la condueta alimenticia, trastornos afectivos, etc) 0 alas coun paciones o tipos de instruecién mas adecuados a sus caracteristicas o perf- les psicol6gicos. Como en el caso de los tests de seleccién, la construction de los tems se gufa por la potencial validez de criterio seleccionando aque- las conductas eriticas que son més relevantes para diferenciar entre las categorias de clasificacién. En suma, la eleccién del propésito prioritario o la finalidad del test obli- a defini iio espectfico de indicacores conductuales que sirven. la La definicién no sdlo se atiene a la delimi- tacidn de los contenidos sustantivos (aspecto muy relevante en las pruebas para la evaluacién académica o conductual) sino a otros aspectos potencial- ‘mente relacionados con el propésito especificn del test como el tipo de suje- tos al que va destinado, el tiempo de ejecucién, el formato del item, las ‘opciones de respuesta y las condiciones de administracidn. Esta fase de la “construccién, denominada planificacién general del test, sera tratada en el siguiente apartado. 3.4. ELANIFICACION DEL TEST Los aspectos a tener en cuenta en la construcci6n de los items pueden ‘en dos grandes categorias: el contexto en el que el test va a 0 (poblacién, tipo de aplicacién, etc.) y las caracteristicas inter a (contenido, formato de los items, etc.) A cada uno de los -mos un apartado, wie 2 wh ayaa, ct eras > fa. gysba.. tanto en la definicién del contenido, como en el estilo 0 las caracteristicas formales de los items. En lo que respecta al primero, la evaluacién educativa ‘sporta los ejemplos mas abvios: esta claro que un test de rendimiento en ratemiéticas, dirigido al ltimo curso de la educaci6n primaria, habré de inclu los contenidos incluidos en los programas oficiales. Sin embargo, €” ‘otros contextos menos obvios, las restriectones del contenido impuestas por las caracteristicas de la poblacién no son menos importantes. Por ejemplo, \atias investigaciones han puesto de relieve que los estfmulos elicitadores de los calos varfan entre culturas, por ello el contenido de un test de celotisia deberd variar sila prueba va dirigida a anglosajones, latinos o gitanos (Lel- gado y Prieto, 1994), Varias de las précticas inadecuadas en que se incure son seleccionar ls tests por el rasgo que miden sin tener en cuenta la potl cidn para la que fleron construidos, traducir literalmente tests generados en otras culturas, administrar la misma prueba en poblaciones en las que existen minorias diferenciadas culturalmente etc. Es en este punto donde cobran sentido las recomendaciones para evitar el sesgo de las pruebas. Como es sabido, un item o un test estén sesgados si obtienen distintas pun- tuaciones en ellos los grupos de sujetos que tienen el mismo nivel en el consiructo medido (Holland y Wainer, 1993; Martinez, 1995; Musiiz, 1992). Este impacto adverso para un grupo social puede deberse a una inadecueda delimitacién del contenido o a aspectos formales (terminologia, formato, exc), Se habrn de construir los tests evitando penalizar o favorecer @ un grupo social determinado. Se trata de medir adecuadamente el constructo, evitando aquellas condiciones instrumentales que impiden a determinados ‘grupos manifestar su auténtico nivel. Fl reconocimiento de la importan:ia de las caracteristicas especificas de la poblacién surgi por las sentencias dictadas en los tribunales de los Estados Unidos en las que los ciudadanos de ascendencia hispana y otras minorias, con el inglés como segunda len- gua, hicieron valer su derecho a la educacién superior a pesar de su dificul- tad para superar las pruebas de aptitud necesarias para el ingreso. Una interesante aportaciOn sobre este tema, que nos afecta especialmente como hispano-parlantes ¥ como profesionales, ha sido el volumen Psychological Testing of Hispanics, editado por Geisinger (1992), con varios capitulos s0- bre cuestiones téenicas, algunos sobre asuntos sociales y legales y con una referencia constante: la Validez. Otras caractersticas de la poblacién, como el nivel cultural 0 la generacion, han de ser muy tenidas en cuenta en el informatizados parma spats aden aguas polacions? Estas pregunas concreae ‘son ejemplos de las que mularse para evitarfallos en la planifi- SN deaths willie sk cosets de sien hace referencia a las restriccionds rales en la aplicacion. En ocasiones, este Aspecto temporal forma parte del constructo —por ejemplo en fos tests cue generalimente vend impuesto ‘por le ere no mantienen 1a atencion por fla poblacion —los nfo a aencin de i emente por las condiciones de alincion “las ce oa re Ue ftnte sree an nest con an nme eer oe Gque la fiabilidad sea aveptable y Tas presiones a en puede eee 7 f 2 J graecion de Tos stems como, POF EI, Reisiones importantes sobre la cons se cme seine el naimero de opciones de TesPuest ee incl una ote orton o una faceta. Una solucién @ este proble- na puede venir dela mano de los tests alaptados al sujeto o tests @ medida aan verve necesarioadimnistrar un msimero Cleves, de {tems para estimar fiablemente la puntuacién de ur. sujeto (Wainer, 1990). . El interés por obtener medidas de rapidez y precision influye particular- nes ek trucién de los items. Los tests de papel y lapiz relegan el problema a las instrucciones del test (por ejemplo, «Trabaja deprisa pero procura no equivocarte») y, aunque no permiten ‘obtener medidas directas Ee rapider, evaldan ésta a través del ntiriero de aciertos en un tiempo breve de ejecucidn, Esta estrategia de medida no ¢s muy satisfactoria —como ha puesto de relieve Kyllonen (1991), localzar y marcar la respuesta supone la nayor parte de tiempo en los tests de rapidez de papel y lapiz— y ademas puede ser una fuente de sesgo (Delgado y Prieto, en prensa). El soporte Piformatizado, por el contrario, permite disefiar items en los que se registra el tiempo que tarda un sujeto en responder y evitar estilos de respuesta homogeneizando el balance ‘rapideziprecisin mediante feedback (Colom, 1996). ‘Una tercera cuestién es la relativa a si la aplicacién seré individual o “olocziva, Puesto que Ia mayor parte ce los tests psicométricos se aplican Silcctivamente (0, en los tests informatizados, individualmente pero sin Contacto personal con el aplicador), las instrucciones juegan un papel rele- Sante, Con ellas se pretende, no sélo que el sujeto comprenda la tarea, sino {ur responda estandarizadamente alas demandas dela misma. En los tests Ge papel y lapiz y en aquellos tests iaformatizados que no son sino una replica de éstos, el sujeto queda abardonado a su suerte una vez que ha Somenzado la prueba. Esta situaci6n no parece deseable. El sujeto com- prendera mejor Io que ha de hacer si st le informa de las caracteristicas de Eh ejecucion tras responder a cada ster (precisi6n, rapide, etc.) Si ademés see presenta cudl es la respuesta correcta e incluso cémo legar a ella, las pruebas de rendimiento podran ejercer la doble funcién de evaluar eins. eeu La retroalimentacién parece haber adquirido carta de naturaleza ent la nueva linea de los tests informatizados de aptitudes y rendimiento (Felto- Nich, Spiro y Coulson, 1993; Glaser, Lesgold y Lajoie, 1987; Kyllonen, 1991), aniden roracin mentale; DE mas coracteristicas 4 internos del test la secuenciacion o ef procedimiento este capitulo, atributo que se pretenda evaluar. Un test se eo indicadores, que se concretan en items 0 dominio, Sin embargo, no parece ser éste un término adecuadon gn Ia prictica no existe un universo de items identificads de] (rar, Lo ue procede, por el contrari, es definir de manera preciee hes cone mats, ds los indicadores adecwados, de manera que se puedan soc pana ges vidos, La situacin ideal seri establecer unas melas prec Jos para Senerar los items, una especie de uramética que permits comma los ftems, incluso de forma automatizada, Un ejemple de core Froceder ha sido propuesto recientemente por Bejar (1993) Reser au en la construccién de un test la decision cricial es la ‘elerida ala seleccién de los indicadores relevantes para cuantihens nivel Ge Jos sujetos en un constructo, muchos mantales metodoldsiane han abor- SRR ema de forma superficial, Eisten algunas excepciones eq at campo uesto que que mues- serie de conductas, que en su opinién son rey Se pretende medir, va inventar ftems sobr de muestreo puede terminar concedes iertas facetas del constr vantes. Este problema se lejos como el de competencia minima pare wae ‘wna aproximacién estictamente funcionalista (eon resentativas del cons:ructo que re ellas, Esta particular «técnica 5 que podrian ser rele medi construstos com. determinada profesign iductista) nos llevaria a 16 na. ejecuc que pocimientos aislados igncrando las interelacio- P to complejo (Haladyna, 1994). La omision de ‘ola excasa representacin de as mismas es el error que mas se ha de eden test importante der armen ol or de a estructura del construct medi, precsando qué faetas es mad Qaluar y cud es la importanciareativa de cada una. Obviamente, fe ints imporantes habrén de estar representadas por un mayor nimero hs Tums (salvo en el caso de que se construya un subtest para cada una de fas facetas). ‘En los uiltimos afios ha crecido la conciencia de la necesidad de una taxonomia enraizada cientificamente que nos permite distinguir entre tipos Te Contenidos, tipos de procesos, ¢ incluso entre prepésitos (zcémo distin- fuir hoy claramente entre un test de aptitud, un test de competenc Sima, un examen tipo test?). Entretanto, algunos autores han ofrecido Tecomendaciones, con el fin de reducir al mimo los ervores en Ja defini- Gian del dominio, Por ejemplo, Cracker y Algina (189) consideran conve- Siente recurrir a alguna —y si es posible a varias— de las siguientes fuentes para definir ngsominionde-conducta: (ARSISBIOMndes Fste método permite estudiar las respuestas abier- ‘as de un conjunto de sujetos con el-objeto de identificar las eategorins Conductuales ms representativas de un constructo. Revision bibliogréfica: Las conductas que han sido més utiizadas por otros cienificos para defini el dominio pueden servir para generar items representatig, {HGMeMeSEMMIEW!: -Cudles serian las conductas tipicas de un profesor muy expertoy didéctico? ¢Cusles las caacteristicas de un novato poco com petente y capacitado para la ensefanza superior? Este procedimiento, que Fue atribuirse a Flanagan (1954), consist en analizar los patrones carsc- tersticos de los extremos del continus GUE SE desea Ted, y PUR resular de gran ayuda en la redaccién de Stems que permiten graduar Tos suetos enunaizibuto-determinado, Sq Observacién natural: Las situaciones cotidianas en las que aparecen las JE conducias relacionadas éon el constructo pueden servr para identifier in- "D | icadores con los que no se habia contado previamente, Un periodo de ob- (B ) semacion, especialmente cuando se rate de medir conducts de importans © | cia en la vida cotidiana, podria servir para afadir validez ecolégica a las (pinign de profesionales: Mediamte entevstas 0 cuestionarios aplica-_ periencia se puede acceder a informacién de primera 17 idos y de los Ficursr a revisiones de los contenidos de los programas impartidos ¥ objetivos de la instruccién, esen Puede comprobarse que estas fuentes se solapan y que la lista ie de lo absoluro exhaustiva, tan sélo se trata de sistematizar en la ene posible las formas més usuales de inspiracién de los constructores de re Es precisamente el deseo de una mayor sistematizacién en este ee iE gue ha Tlevado a algunos psicémetras de orientacién cognitiva a at A atencién sobre a necesidad de disenar los tests desde la dptica de la validez de constructo, En el tiltimo apartado de este capitulo se describe esta co- miente que enfatiza la importancia de la investigacién empirica para deter- minar las condiciones del dominio, Por otra parte, suele utilizarse una taxonomia de Procesos u operaciones Te 3S ate, cruzada con los bloques de contenido delimitados en el and- tis anterior, dei lo ge sonace como eaqueia, hoseto 0 epsciien. ion del test, es decir un cuadro similar a los utilizados en las ‘programacio- hes académicas (de ahi su origen), que sirve para planificar la proporcién y naturaleza de los items que se han de construir. La taxonomfa mas popular en el émbito educativo es la de Bloom (1956), aunque, desafortunadamente, done. 199g) mene fundamento cientfico para su uso (Seddon, 1978; Hala- dyna, 1994), elusode este sopo Sint cere mpacto de ls cs eens de vein gra enslecer meat Oe as tecnologias en la medicién psicolégica (factor e mi se eat honbresméqaina,aniedad ate cerrado, glen jad através de distintos i, cia de las mediciones de un constructo a tra\ a tact a detrminadas pblaions, et). A pesar de estos problemas, la importancia creciente del ordenador para gestionar tests psicol6gicos exp! ca la publicacién por la A.P.A, (1986) de unas normas para la a cin de este tipo de pruebas que son de obligada consulta, asi como las sugerencias y recomendaciones de Kyllonen (1996) en un excelente articulo ene que se se preentan, entre otros avances, recursos aptos para sujtos no familiarizados con el ordenador como pantallas sensibles al tacto para cemitir la respuesta. 3423. Tipo de formato Como ya hemos indicado, la decisién acerca del formato del item suele ser facilitada por la revision de los instrumentos similares construidos por otros autores. También es conveniente analizar los informes de investigacio- nes para decidir qué formato es el mas apropiado para el tipo de constructo a medic las caracteristias de los sujetos en estudio (nivel cultural, edad, etc.) vel procedimiento de recogida y andlisis de datos (administracién indi. vidual 0 colectiva, informatizacién, ete éxpertos s evar a cabo una pequefia prueba con pocos items antes de prow ceder ala redacci6n masiva de ls mismos, Dicha prueba puetle consists og administrar los stems inicicles una pequeta muestra de suetos de la por Bacon a que va dado el test para deteminar sicomprenden la tarea y éscuchar sus sugerencias sobre el contenido, sl formato, la forma de recmoc, cs 0, la forma de respor Los formatos més habituales di solictadas por los items: jucios vs pruebas psicométricas como de| ). Es muy conveniente consultar a lifferen en funci6n del tipo de respuestas entimientos. Cronbach (1985) clasificd las de ejecucién tipicg 19 i sidad, pero no pueden ser calificad: tipos de tests plantean problemas e: cién y suelen incluir items con disti as de equivocadas o acertadas, Ambos Specfficamente diversos en su construc. into formato, 34.2.3. Para los tests de ejecucién méximal vtec 105 tts de ejecucién maxima se emplean dos formatos generales de ans. El formato de item abierto ~el examinado tiene Necro para formu- {ev una respuesta cuya longitud puede ser variable~ yr elige, ftem cerrado, en claue el sujeto selecciona una o més respuestas de lag que se le proponen. Suelen preferitse los items cervados por vatias ravones et primer lugar, Porgue Ia valoracion de los items abiertos es menos objets wr indo lugat, porque su tratamiento es mis sencilla (codificacion almacenamien- Gi andlisis de datos, etc) Por altimo, porque aun cuando has side ney crtlcados siguen ofreciendo la mejor ratio coste-beneficio, al menos euand, apidez y de establecer ctiterios precisos de correc. rizacién de la estandarizacién y la economia en los truccién de ftems no esta exenta de eritcas, sobre todo en el campo de la evaluacién del rendimiento académico (en muches areas de la medicién psicologica tiene escaso interés esta problemitica), Se arguye, no sin razén, que la simple eleccidn de una respuesta permite inda gar sélo superficialmente en la competencia de las personas y 10 permite evaluat la capacidad para generar respuesta pertinentes y creatine (Muni 1992). En cualquier caso, ningiin experto en este ambito negaré que todoy los sistemas tienen lancos fuertes y débiles, y han de ser empleados de forma complementaria. Quien estéinteresado en esta polémica yon el avers ce de nuevos modelos de medida basados en respuestas abierts deberis consultar el excelente volumen Consiruction versus Choice in Cognitive Men, surement recientemente editado por Bennet y Ward (1993), donde se disea, ten aspectos teéricos ¥ técnicos, sin descuidar los politice-sociales, de este acercamiento que se considera particularmente indicado en la evaluacisn Jas habilidades y/o las ejecuciones que requieren procesos superiores, Nose, {tos nos ocuparemos exclusivamente de los formatos para items cerrados, de los cuales los més empleados son los siguientes clon, No obstante, la prio procedimientos de const a) Eleccién miltiple: Se proponen como respuestas posibles una op- cidn correcta y varias que son incorrectas by Eleccin alternativa: Se proponen dos tnicas opciones de respuesta (verdaderoffalso, sino). ©) Emparejamiento: El ftem esta compuesto por una lista de estimtilos ¥ una lista de respuesias. El sujeto debe emmparejar cada estimula con la respuesta apropiada. Un ejemplo de este tipo de item puede ve gura 3.1 en la Fie 120 | operaciones, Resuitacos I 1 342-8 A 8 —_— 2 280), 5 —— a. (62P c einen ere ene enone sane tesemeetersanenoens ‘igu 3.. Ejemplo deem con formato de empateamiento, cualquiera que sea el formato elegido, si el propésito del test esté clara- snente dfinido y su especificacién ha seguido los pasos indicados, una serie de principios generales deberfan ser suficientes para construir items de una calidad téenica adecuada, Osterlind (1989) recomienda desatender listados especificos de reglas que podrian ser slo aplicables acirtos tipos de ftems srde tests, En la misma linea, Haladyna y Downing (1389a), tras revisar las ‘eglasincluidas en 46 manuales y otras fuentes sobre medicién en el campo feducativo,llegaron a la conclusién de que era difil extraer conclusiones absolutamente generalizables probablemente debido ala diversidad de obje- tives, poblaciones, etc. De modo que intentaremos exzoner sélo los princl- pios en los que existe un mayor consenso, asf como algunas conclusiones extraldas de la investigacién empirica que afortunadamente es extensa en este &mbit. : En primer lugar, atin a riesgo de ser redundantes, recordaremos que el primer criterio dede ser que cada uno de los fiems sia representativo del dominio y, por afiadidura, que su contibucién al errarsistematico del test sea minima. Esto se habré logrado, en la medida de lo posible, si se ha trabajado adecuadamente en la planificacin previ Un segundo crterio se refiere ala clardad y precisién en la construccién del tem, Puesto que en general la construccién se reduce a redaccién —con Is excepcién de los ftems de tests libres de cultura, aptitud viso-espacial, musical, mecdnica..— indicaremos algunos de los usos establecidos al res. ecto Calidad del estilo téenico de escritura, Los conocimientos requeridos pa- 8 redactar correctamente los ftems de un test sor, por una parte, es- becificos del dominio, pero, por otra, son los comunes a los buenos conoce- ddores de una lengua (gramética, ortografia, puntuacién..) asi como a las Perionas educadas (ausencia de prejuicios que puedan ter la formulacién ‘el ftem con ian tono-ofensive contra las minorfas, terminologias sexistas, ‘Jorosidades fuera de tono, etc). La redaccién de textos téenicos exige ade- més una de palabras que no se da en la escritura creativa: cada denotar ite aquello que se vocas 0 alternativas. De tuna pregunta con rampa, dado 121 ue sélo aquéllos que capten la sutileza que la pregunta pretende tresmmitr tendran la posibilidad de resolver el ftem (Roberts, 1993; Thorndike, Cu ningham, Thorndike y Hagen, 1991). Esta préctica de complicar innecesa- Tiamente un ftem, que atin en ciettos contextos educativos se considera un mérito —sinénimo de agudeza mental del examinador—, crea serios pro- blemas de validez (no sabemos qué se mide, aparte de un cierto estado de alerta 0 la acomodacién de los alumnos a ciertos esquemas del profesor). Evitese, pues, la polisemia v, desde luego, déjese de lado la mala intencién Pues tan sélo sirve para dificultar espaireamente la tarea y de ninguna ma- era contribuye a mejorar la calidad de los items. El enunciado. Suele constar de una sola frase y debe escribirse en conso- nancia formal y de contenido con todas las opciones de respuesta, de modo ue no exista ningtin indicador gramatical o semantico de la respuesta co- ‘recta que permita acertar el ftem a cualquier sujeto sin conocimientos so- bre el tema de que se trate, Por ejemplo, i en un examen de Psicopatolog Se pregunta por un rasgo de personalidad (en singular), no deberia aparecer una opciGn de respuesta sobre un rasgo fisico o sobre un conjunto de ras- 80s. Tampoco parece indicada la préctica de redactar enunciados incomple- tos del tipo «El trastomo por deficit de atencién se caracteriza por...» cuan do se puede completar ¥ construir una frase declarativa (eIndique qué Sintoma caracteriza el trastorno por déficit de atencién») o interrogativa (Qué sintoma caracteriza el trastorno por déficit de atencidn?») . Se stele recomendar que el enunciado se exprese, si ello es posible, en forma afirma. tiva, puesto que las frases negativas tienden a presentar una dificultad mayor de lectura, o “mismo, es conveniente incluiren el enunciado los sérminos que sean necesarios para evtarreiteraciones en la alternativag ac respuesta (observe un ejemplo de formulacin incorrecta: «Para que sine la sefial denominada top?» (a) Sirve para indiar que han de detererse Ice enas efectos sobre la 124 aiseriminaciOn, aunque aumenta ligeramente la dificultad (Crehan, Halady- fay Brewer, 1993). Sin embargo, no se cuenta en este caso con argumentos 3 favor para utilizar este tipo de opcién; por el contrario, nos sentimes fentados a pensar que la opcién inclusiva se utiliza tinicamente por Ia nece- ‘dad de completar el ntimero de opciones, de modo que resulta innecesaria tise construyen ftems de s6lo tres opciones. Atin mds innecesarias resultan |as opciones inclusivas del tipo «Todas las anteriores, Este tipo de opciones permite acertar a los sujetos con conocimiento parcial suficiente como para saber que dos de las opciones son correctas y crea problemés légicos en los items en los que varias opciones son parcialmente correctas, Una dltima consideracién es le referente al orden de las opciones: aun- | que en general deben aleatorizarse, de modo que la respuesta correcta apa- | rezca més 0 menos el mismo ntimero de veces en cada puesto, cuando las opciones de respuesta son nimeros deberfan respetar un orden creciente y cuando se trate de fechas deberian aparecer en orden cronolégico (Oster- lind, 1989). 34232. Para los tests de ejecucién tipica En los tests de personalidad y actitudes se emplean fundamentalmente tres tipos de formato: respuestas dicotémicas (acuerdoldesacuerdo), res puestas tipo Likerry listas de adjetivos bipolares. La tradicién del formato dicotémico se remonta al trabajo de Churstones (1928) en el que se sentaron los fundamentos de la medicién cientifica de las actitudes. Los enunciados de los items que componen este tipo de escala tienen un valor indicativo de su posicién en el continuo representativo de la sci meaning), de mado que las respuesta de un sujeto permiten clasificarlo en dicho continuo. Otro tipo de escala con for- mato dicotmico es la clésica escala de Guttman (1950) en la que todos los enunciados representan un mismo contenido aunque con distintos grados de intensidad. El sujeto, en ambos tipos de escala, se limita a seftalar con qué ftems esté de acuerdo y con cufles en desacuerdo, En ocasiones, cuando se trata de medir rasgos, el enunciado puede consistir en un adjetivo en lugar de una frase y el sujeto entonces indica si es aplicable o no a la perso- naa la que se evalia. El segundo formato toma su nombre de Likert (1932). Es el mas sencillo desde el punto de vista de la construccién de ftems y, a juzgar por las inves- tigaciones que aparecen en las principales revistas de psicologta social y personalidad, también el mas empleado en la actualidad. Los enunciados de los items de estas escalas consisten en frases que reflejan un valor supuesta- mente homogéneo con respecto a la actitud o al rasgo y, en este iiltimo caso, “eS frecuente que el enunciado sea un adjetivo. Son los sujetos los que han de “asignar un valor a cada enunciado (generalmente de 1 a 5 puntos) qute indi- Si esta de acuerdo o en desacuerdo con el {tem y en qué medida. O2t0 formato muy empleado en la construccién de inventatios de perso- nalidad es el uso de pares de aditivas bipalares. El origen de este formato £5 fi metodo denominado diferenscial semantico (Osgood, Suci y Tannen. baum, 1957). Cada item consia de un enunciado seguilo de cinco 0 siete Categorias graduadas en un continuo cuyos extremos estan representados Por Jos dos adjetivos opuestes (por ejemplo répidolento, dominante-sumi- $0) Se instruye al sujeto para que ella la categoria que mejor refleje sus SEmtimientos acerca de la afirmacion reflejada en el item. Este formato no es tan empleado como los otros dos anteriormente expuestos, debido @ su Tener complejidad al llevar a cabo la puntuacién e interpretacién de los ‘tems En los dos Ulkimos formatos cabe la posibilidad de expresar la gradacién de las respuestas mediante nimeros, letras o palabras; cuando se emplean Palabras, pueden definirse todos los gtados, solo los extremos, o bien los extremos més una o dos categorias centrales. No parece haber gran diferen- cia entre el empleo de unos u otros siempre y cuando exista simetria entre el tramo negativo y el positivo del continuo, aunque la investigacién empirica ¢s desgraciadamente muy escasa. Con respecto al nimero de opciones de Tespuesta, la polémica es paralela a la existente en el contexto de los tests de éjecucién maxima: se pensé en principio que aumentar las opciones llevaria un incremento de la varianza de los items y de sus intercorrelaciones v por tanto de la fiabilidad de la escala; sin embargo, la capacidad humana de discriminacién es limitada y no parece que incluir més de siete opciones tenga ningtin efecto positivo sobre la fiabilidad. Lo que no esté tan claro es si disminuir el nimero de opciones a cuatro, tres incluso a dos —con Io que este formato de respuesta no se distinguiria del dicotémico— tendria efectos perjudiciales (Aiken, 1983). Tampoco existen datos coherentes sobre el empleo de una respuesta central que permita a los indecisos contestar el stem, pues aunque la interpretaci6n te6rica de la misma —acuerdo modera- do o cantidad moderada del atributo— deje mucho que desear, la influencia sobre las puntuaciones parece ser despreciable. Si parece recomendable evi. tar que los polos del continuo sean respuestas extremas, al menos en domi niios en los que no se tienda a la polarizacién, dado que los sujetos tienden a comportarse como sila escala tuviera dos categorias menos lo que hace que la variabilidad disminuya (Wyatt y Meyers, 1987). De cualquier forma, no deberia olvidarse que el érea de los tests de eject cién tipica es muy heterogénea y parece haber recibido menos atencién de os metodélogos que los tests de ejecucién maxima. Sia esto se afiade Ia falta de claridad conceptual de muchas de las teorfas que los sustentan, ¥ en las que se supone ha de basarse la definicion del dominio, se comprenderd lo aventurado de ofrecer una lista de recomendaciones. Los dos principios generales enunciados en el apartado anterior con respecto a los tests de tjecucion mixima, son de aplicacion a ls tests de eecucin tice, sangre evidentemente no lo sean los aspectos especificos (precisamente la diferen. cia fundamental entre ambos tipos de tests es que en estos tiltimos no puede 126 sta correcta).-Adieionalmente, existe una Py’ larse de una respues i rasa caracteriticos de los tests de ejecueténffplea, dado que son espe- Fialmente sensibles alos estilos o tendencias de respuesta de algunos sujetos ue tienden a restar fiabilidad y validez a sus puntuaciones. incluye, en esta acepcion del término, el constructo denominado deseabili- dad socis! (tendencia a emitir las respuestas de acuerdo con una imagen percibida como socialmente aceptable), el cual es presentado en ocasiones como una tendencia de respuesta y que, sin embargo, no esta asociada al formato especifico del item. Dos de los estilos de respuesta més influyentes en la puntuaciones de los cuestionarios son la aquiescencia (tendencia a estar de acuerdo con el enunciado de un item, independientemente de su contenido) y las diferencias individuales en la interpretacién de expresiones indefinicias como alguna vez, frecuentemente, etc. Para evitar en lo posible estos estilos de respuesta y otras fuentes de error en las puntuaciones se aconseja poner un especial cuidado en la redaccién de los items. Hemos recopilado algunas indicaciones a este respecto, la mayor parte provinientes de las recomendaciones de Edwards (1957), que no son sino expres.ones concretas de lo ya indicado en anteriores apartados: 1) Evite los enunciados que puedan ser interpretados de varias formas. 2)_ La frase debe expresar una sola idea. Por ejemplo, el siguiente item serfa inadecuado: «Se deberfan suprimir las leyes que.regulan el aborto v la objecién de conciencia al servicio militar», Compruebe el lector que la res. puesta en do podria reflejar varias opiniones. 3) Las frases deben expresar sentimientos, preferencias, actitudes 0 creencias, nunca aseveraciones de hechos. No seria adecuado, por ejemplo, para una escala de actitudes hacia la igualdad de los sexos el item: «El xiimero de mujeres que acceder a la Universidad ha crecido notablemente», 4) Evite las frases que puedan ser aceptadas o rechazadas por la gran mayorfa de las personas ya que no resultan discriminativas. 5) Las frases deberan ser muy cortas y de estructura gramatical simple (evite las dobles negaciones, las frases condicionales, et 6) lcluyanse ants enuncados negativos como positives, cone finde controlar | de la aquiescencia. 7) Se ha de evitar el uso de ificado universal (todos, siempre, nadie, nunca, etc.) o de si ido (solamente, apenas, s de sis in implemente, en ocasiones). Dichos vocal n ser ambiguos _ Senses al esto de eee hee 8) ser ido facilmente por ios le. que vaya, el invent \ 9) Evitese la terminologia sexista y, en general, que” pueda resultar excluyente u ofensivo, RT ALA CONSTRUCCION DE ITEMS En las tiltimas décadas se han llevado a cabo investigaciones y propues- tas tedricas y metodolégicas que tienen el objeto de vincuilar el enfoque de la Psicologia cognitiva con la teorfa y la construccion de tests. Esta cortiente, gue se inserta en el ambito de la medici6n de las aptitudes y de la evaluacion educativa, puede ser considerada como un t6pico fundamental en los nue- vos enfoques de la medicién psicolégica. Una excelente revisién de este en. foque puede encontrarse en Snow y Lohman (1989). El origen de esta via se sina en las criticas provinientes del enfoque cognitivo-experimental a la medicién psicométrica tradicional. Desde la perspectiva cognitiva, este enfo- que ha sido considerado inadecuado para describir los constructos psicolé. gicos porque se basa en el andlisis de los productos (los resultados de un test) y no del proceso de ejecucién (las operaciones mentales que llevan a cabo los sujetos para resolver las tareas). Aunque este argumento puede ser facilmente refutado (todas las teorizaciones sobre los procesos mentales definitorios de un constructo se basan en productos), han de ser tomadas en consideracién las criticas que apuntan directamente a los procedimientos de validacién de coitstructo basados en andlisis correlacionales de los resultados de la ejecu- cién del test (andlisis factorial, matrices multirrasgo-multimétodo). Una elevada correlacién entre las puntuaciones de dos tests suele inter- pretarse, desde la perspectiva de la validacion psicométrica clésica, como tuna evidencia de que los sujetos emplean las mismas funciones o procesos mentales para resolvér las pruebas. La naturaleza de los procesos mentales Que caracterizan un constructo se infieren'de un andlisis racional de las tareas que componen los tests. Este planteamiento de la psicometria tradi- cional se fundamenta en algunas asunciones inadecuadas. Se supone, por ejemplo, que los {tems de un test son réplicas unos de otros. Es decir, que todos ellos son resueltos mediante el mismo mecanismo mental, sin tenez en cuenta que los sujetos aprenden a lo largo de la tarea, modifican su estrate- gia de resolucién en funcién de las demandas de cada item, cambian su estilo de respuesta (balance entre precisién yrapidez, ete.). Ademés, se asu- me que el modo de procesamiento es el mismo en todos los sujetos. Sin embargo, el andlisis de las estrategias de solucién de problemas ha encon- trado diferencias individuales sistemAticas en la forma de procesar el mis- mo material estimular. Es decir, una misma tarea puede resolverse de mas distintas: jun mismo test puede medir diferentes constructos en distintos sujetos! De ahi que lo que mide un test no pueda ser inferido sim- plemente del andlisis racional de Ja tarea, sino de la verificacion emp\- rica de cémo las personas se enfrentan a la misma, d iva cognitiva, se enfoce el problema de Ia validez de -analizan los resultados globales (puntuaciones en it e ntemente el método trastar los cambios en los mo- interacciones ent caracteristicas de Sy de las tareas, Se trata pues de determinar cémo resuelve cada ‘cada tipo de tareas, Esta informacién permite disefiar tests spo resentan el constrcto y posiblitan dotar de significaion teri a gue Nnruaciones que reflejan el nivel de los sujetos. En definitiva, el prozé- Tes pi dso detsts dese Ia Psicologia Cogitiva es vineulat los modelos si tecnologia psicométrica con Ia ciencia psicol6gica sustantiva. fl termino metodologia cognitiva es un amplio paraguas en el que se cobjan distntos procedimientos analiticos. Sternberg (1984) present6 una de las lineas de investigacién que ha sido muy citada. Describire- Jgunos de los enfoques mas relevantes para guiar la construccion taxonomia ‘mos aqut al de los items. |gists"“Elaboractn y contraste de modelos de procesamiento de items ‘Los items de los tests son considerados como tareas susceptibles de ser analizadas en el laboratorio para formular racionalmente modelos alternati- vos de los procesos que median entre su presentacién y la emisién de la Tespuesta. Los procesos son operaciones mentales tales como codificacién, almacenamiento, comparacién de rasgos, induccién y aplicacién de reglas, fepresentacién mental de cambios en Ia orientacién de un estimulo figurati- 10, etc ‘Los modelos, que pueden variar er. simplicidad (nimero de procesos, tipos de secuenciamiento, etc.), han sido formulados en multiples ambitos sustantivos. Ejemplos notables son los trabajos de Frederiksen en Compren- sién Verbal (1981, 1982), Sternberg en Razonamiento (1977), y Embretson (1993), Mumaw, Pellegrino y Glaser (1980) y Pellegrino y Kail (1982) en Aptitud Espacial. Los investigadores més fieles al enfoque evitan relegar las diferencias individuales al término de error, analizando el ajuste de los pa- rametros de cada sujeto al modelo ¥ considerando los desajustes de patro- nes individuales como fuentes de informacién para formular modelos alter- natives, La formulacién y contrastacién de modelos aporta algunas informacio- nes de sumo interés para la construccién de stems. Las més destacables sonla determinacién de los procesos mas influyentes en la ejecucién de los items y la identificacién de las caracteristicas 0 condiciones de los fteras que suscitan el funcionamiento de un proceso mental. El primer aspecto permite dotar de significacién tedrica a las puntuaciones de los items. Es decir, fundamenta la validacién de constructo. El segundo permite estable- cer las reglas para generar los items que son apropiados para medir el cors- tuto Un ejemplo muy nftido de este enfoque es Ia clisica investigacién de 129 lo de procesamicn- ‘be decidir si dos rentes, La (area ir la Cooper y Shepard (1973) en la que propusieron un model: to de una tarea visoespacial en la que el observador del figuras que aparecen en distinta posicién son iguales o dife es similar a la empleada en uno de los tests mas empleado para medi Aptitud Espacial (Vanderberg y Kuse, 1978). Se observé que los datos s¢ ajustaban a un modelo de procesamiento compuesto por {res procesos: CO- ificacién, rotacién y comparacién mentales y que las condiciones expeti- mentales de las figuras (complejidad, disparidad angular e identidad) in- flufan en el funcionamiento de los procesos (rapidez y precision). Los datos el trabajo de Cooper y Shepard han sido replicados hasta la saciedad y han contribuido a la definicién del constructo de Relaciones Espaciales (una de las aptitudes espaciales sdlidamente establecidas) recurriendo a un modelo ce procesamiento verificado empiticamente y ala determinaci6n de las ca racteristicas que han de tener los items de los tests que pretendan medir el constructo (manipulacién de la disparidad angular entre las figuras) 3.5.2. Identificacién y manipulacién de las fuentes de dificultad de los items En este enfoque no se recurre a formular modelos seriales de procesa- miento de la tarea, sino gue se analizan las fuentes de dificultad de los ftems. Las caracteristicas de la tarea asociadas consistentemente con la difi- cultad permiten postular los procesos implicados en la resolucién de los items, manipular las condiciones elicitadoras de determinados procesos y obtener medidas con una significaci6n més inequivoca. Por ejemplo, Carroll (1987) analizé la dificultad de los jtems del test Block Counting en el que se pide al sujeto que indique el niimero de bloques existentes en una pila com- puesta por bloques de la misma forma y tamafo. Encontré que, aunque la dificultad crecia en funcién del nimero de bloques de la pila, esta condicién interaccionaba con la simetria de la pila de bloques. Una elevada simetria favorecia el uso de operaciones aritméticas sencillas para obtener la solu. cién (razonamientos como: cuatro coluumnas de bloques por tres bloques en cada columna... Por el contrario, una baja simetria, correspondiente a los items de mayor dificultad, inducia la representacién mental de las par- tes invisibles de la pila. Para medir la aptitud de Visualizacién por tan. to, es necesario disefar items con elevada asimetria, variando el mimero de bloques para incrementar la dificultad y evaluar los distintos niveles de aptitud, Una aplicacién importante de este enfoque se denomina tests multifacét- cos (faceted tests) que consisten en subtests compuestos por items que dif ren, ortogonalmente o no, en sus condiciones experimentales. Cada tacers es una medida diferencial de uno o més procesos relevantes asociades of constructo, Se ha mostrado suficientemente que os tests multifaceticos vo Flan consistentemente sus correlaciones con tests de referencia, lo cual mar 130 se varaions en fos procesosasoeados @ [8 cosas coe wifes ae? Jo de cémo se ha de definir el con- ses multifacéticos son un ejemplo de c6mo s con sos mdi a eabajo de Carroll que hemos cita- ido para obtener medidas, como © das de los constrtsctos. ultifacéticos con los modelos Embreison (1993) ha vinculado los tests ™! io General de los componentes del Rasgo Latente 1erasgo latente. Su Model (GLEN) relaciona el impacto de las caacterfstices del estimulo con la difi- cory ealuada mediante el modelo de Rasch, EL modelo eat manipu- cae condiciones de los stems para producie efectos ene) parametro de lat Jad en la probsbilided de acertar el tem. La aplicacién del modelo permite 1) Contrastar modelos altermatvos del procesamiento cognitivo de up test, analizando el ajuste entre los pardmetros b empiricos y los predichos @ partir de distintas combinaciones de las caractersticas de los items 2) Determinar la condicion de la tarea y el proceso més asociado al construct. 3). Seleccionar los items en funcin de los pardmetros estimados a par- tir de una carga especifica de procesamiento 44) Equiparar los tests en funcién de su complejidad cognitiva (Ios pro- cesos mentales que suscitan). '3) Generar items en funcién de una complejidad cognitiva especificada ten do, menos contamina’ 13, Anilisis e identificacién de estrategias de resolucién de items paradigmticos Cuando se incrementa la complejidad de las tareas de los tests, los mo- dos de resolverlas se diversifican. Las propuestas iniciales de modelos de procesamiento de indole general toparon pronto con las variaciones inter € Prraaujeros en las estratepias de resolucién de items. Las estrategias se sittan en un nivel superior al de los procesos componentes, Reflejan proce- os de monitorizacion que son el conjunto de instrucciones, reglas y guias que el sujeto emplea para realizar Ia tarea. Diferentes estrategias pueden MShuir diferentes procesos o combinaciones de procesos. La significacién de lina puntuacin o de una respuesta a un (tem depende del tipo de estrategia. Utilzada por el sujeto, Se han empleado diversos procedimientos para de- wretar las estrategias (protocolos verbales, andlisis de tiempos, registros de fijaciones oculares). 7 En el dmbito de la aptitud espacial, por ejemplo, Shepard y Cooper (1982) encontraron al analizar tareas de comparacin de figuras ‘que algu thos sujetos se basaban en la identificacin de rasgos o caractersticas distin~ teas de las figuras, mientras que otros comparaban representaciones com- pleas estructuradas en Ia memoria ¥ n0 rasgos, Se denominé avaliiea ala BI estrategia empleada por el primer tipo de sujetos y holistica a la utilizada por el segundo tipo. Esta clasificacién ha sido replicada por otros autores. Eluso de una estrategia determinada depende del nivel de los sujetos, pero puede ser inducido por las condiciones de la tarea (instrucciones, estructi, racién del material estimular, etc.) y mediante entrenamiento, Un estudio de especial interés es el anslisis de la condiciones para indu. cir estrategias (Kyllonen, Lohman y Woltz, 1984). Para la construccién de items este objetivo tiene una especial importancia, puesto que permite dise far la tarea minimizando las variaciones estratégicas y maximizando la vali- dez de constructo. Mislevy y Verhelst (1987) formularon un modelo TRI para sujetos que difieren en la estrategia de procesamiento, Su modelo per- mite estimar los parametros de los items asociados con cada estrategia, el niimero de sujetos que emplean cada una de ellas, la distribucién de los niveles de habilidad correspondientes a cada tipo de estrategia y la probabi- lidad de que sea empleada una estrategia determinada, ‘Aunque la corriente interdisciplinar entre la psicologia cognitiva y la psi- cometria no esté exenta de limitaciones (inadecuacién de muchas tareas experimentales, dificultad para generalizar los modelos, asunciones muy simples en ocasiones, falta de clarificacin en el balance precisin-rapide2, etcétera), los tests del futuro no podran prescindir de este enfoque si se desea que sean algo mas que eficientes métodos estandarizados para clasifi- car sujetos y pronosticar criterios de relevancia social ‘Las aportaciones mas importantes para la construccién de stems de tests de aptitudes y rendimientos son: 1) Definir las condiciones de los items vinculadas con el empleo de los. procesos mentales que definen el constructo, 2). Definir las condiciones de la tarea que inducen el uso de una estrate- sia especifica de solucién de problemas. Ambos aspectos inciden en la definicion precisa del contenido o en la explicitacion de reglas para el disefio y la generacion de ftems, delimitando el repertorio de condiciones de la tarea que se asocian a los modos de proce- samiento caracteristico de constructo que se desea medir. 3.6. CONCLUSION En las paginas anteriores hemos descrito las fases iniciales de la cons- truccién de un test (definicién del propésito, formulacién de un plan para desarrollar la prueba, reglas para la construccién de los items). ¢Qué se hace después? Las siguientes etapas persiguen la revisién y selecciGn de los ftems rs adecuados. No es el objeto de este capitulo describir estos aspectos. Sin embargo, comentaremos su sentido general y algunas cuestiones particu es que pueden afectar al diseno de los items, puesto que, aunque el proceso de construccién de un testes lineal, el constructor puede volver sobre sus pasos en esa senda para perfeccionar la prueba, 132 La revisién de los items debe ser llevada a cabo desde dos perspectivas En primer lugar, es conveniente consultar a expertos para que juzauen los items en aspectos tales como la precisién del enunciado, la adecuacién del xocabulario empleado, la pertinencia respecto al dominio o contenido pre- siamente definido, la inexistencia de sesgos aparentes, ete. Cuanto mayor pueda ser la repercusién social del test, mayor deberd ser la cantidad y Celidad de los expertos consultados. En estos casos suelen emplearse proce- dimientos estandarizados para la consulta. Una excelente sintesis de estos procedimientos puede encontrarse en Crocker y Algina (1986). En segundo lugar, se considera conveniente realizar una aplicacién piloto a una peque- ‘ha muestra (30 sujetos) de la poblacién en estudio para verificar silos ttems ylla forma de responder a los mismos son bien comprendidos, calcular el tiempo de administracién més adecuado, precisar las instrucciones de la prueba, etc. Las instrucciones de le prueba son especialmente importantes, Deben ga- rantizar no sélo que cada sujeto entienda claramente lo que ha de hacer, sino que todo el mundo entienda lo mismo, Asimismo deben motivar al sueto para que haga un esfuerzo para conseguir su maximo nivel de ejecu- cidn o conteste con sinceridad a las cuestiones. La frecuente formulacidn de denuncias en los tribunales americanos («Cuando las barbas de tu vecino veas pelar....) ha hecho matizar en los tltimes afios las recomendaciones a seguir por los redactores de las instrucciones. En la actualidad se recomien- da dejar bien claras las reglas del juego (Kyllonen, 1991): informar en la medida de lo posible sobre lo que él test mide, qué repercusiones tendré para el sujeto, cual es la estrategia mas adecuada para obtener una elevada puntuacién, la formula de puntuacién, penalizacién por los errores (Budes- cu y Bar-Hillel, 1993), etc. Las instrucciones deben ir acompafiadas de unos ejemplos o items de prueba. Es importante que los ejemplos sean una mues- tra representativa de los ftems con los que el sujeto se va a encontrar (ino sélo los ftems féciles!), Es conveniente proporcionar al sujeto retroalimenta- cién de sus respuestas a los items. Este aspecto se puede lograr de forma mds completa en los tests informatizados (explicacién de cudl es la solucién correcta mediante animacién, etc.) La formulzcién de las instrucciones y los ejemplos ha de ser muy cuidadosa y ha de adaptarse espectficamente al tipo de soporte de la prueba (Kyllonen, 1991). Ha de tenerse en cuenta que dife- rentes instrucciones pueden determinar diferentes formas de responder a Jos mismos items y que, en consecuencia, este aspecto tiene fuertes repercu- siones en la validez de constructo. A pesar de su obviedad, queremos destacar, como comentario final, que el principio rector de la construccién de items han de ser las conelusiones generadas por la investigacién empirica, en lugar de intuiciones poco con. ‘eastadas. Han sido mucho mayores los esfuerzos invertidos en el dea de Jos tests de aptitudes y rendimientos que en los inventarios de personalidad. Creemos que este ttimo campo puede ser particularmente fértil para la igacién metodolégica en los proximos ato. examen tipo-test de Historia de Espaita BUP. Indique cuales son las deficiencias de las opciones, El descubrimiento de América, a) Se ) Se produjo durante el reinado de Carin g) $f Produlo durante el reinado de los Reyes Catios, Se produjo durante el reinado de Felipe I Produjo durante el reinado de Wamba. tem 2. No se di sustancias opidceas, 4) Totalmente de acuerdo, b) Bastante de acuerdo, ©) Ligeramente de acuerdo, 4) Bastante en desacuerdo, ©) Totalmente en desacuerdo. Tuattt 3 be sido construido para un test de rapidez de céleulo, Thdlique cuéles son las deficiencias de las opciones, Tem 3. ¢Cusntas pesetas son sesenta y tres duros y medio? a) 325, b) 317 ©) 3173. 4) Todas las anteriores son incorrectas, El tem 4 corresponde al test del ejercicio anter som las deficiencias del enunciado y de las opcion Item 4. El kilo de manzanas vale 50 pueden comprarse con la cantidad mencion ior. Indique cusles nes. esetas. ¢Cuéntos kilos ada en el fem anterior? a) Cinco v medio, b) Seis. ©) Menos de seis. d) Mas de seis, em 5 pertenece a un test de personalidad, ndique deficiencia del enunciado Them 5. Aveces me enfado, V. Verdadero, F. Falso. cual es la cala de actitudes hacia la libe: 2d ja del enunciado. ir expresar piblicamente las auna es Jes la deficienci ado el no pode 6, Elitem 6 corresponde expresi6n. Indique cual item 6. Noes adecu propias opiniones, V. Verdadero. F. Falso. - / 7. Elitem 7 corresponde a un test de competenctase® aritmética.

You might also like