Teoria y Construccion de Pruebas Psicológicas

UNIVERSIDAD DE BUENOS AIRES
FACULTAD DE PSICOLOGA
CONSTRUCCION Y ADAPTACION
DE PRUEBAS PSICOLOGICAS
Dra. Isabel M. Mikulic

Prof. Titular Regular
T. y T. de Exploracin y Diagnstico
Mdulo I, Ctedra I
FICHA DE CATEDRA: N 2
INDICE
1. INTRODUCCIN
2. PRIMERA PARTE: LOS TESTS Y LA EVALUACIN PSICOLGICA
2.1.TESTS, PRUEBAS, DIAGNSTICO Y EVALUACIN PSICOLGICA
2.2. SUPUESTOS BSICOS
SUPUESTO 1. LOS RASGOS Y ESTADOS PSICOLGICOS EXISTEN
SUPUESTO 2. LOS RASGOS Y ESTADOS PSICOLGICOS PUEDEN CUANTIFICARSE
Y MEDIRSE.
SUPUESTO 3. PUEDEN SER TILES DIVERSOS ENFOQUES PARA MEDIR ASPECTOS
DEL MISMO OBJETO DE ESTUDIO
SUPUESTO 4 LA EVALUACIN PUEDE SEALAR FENMENOS QUE REQUIEREN UNA
MAYOR ATENCIN
SUPUESTO 5 DIVERSAS FUENTES DE INFORMACIN ENRIQUECEN Y SON PARTE
DEL PROCESO DE EVALUACIN.
SUPUESTO 6 DIVERSAS FUENTES DE ERROR SON PARTE DEL PROCESO DE
EVALUACIN
SUPUESTO 7 LAS PRUEBAS Y OTRAS TCNICAS DE MEDICIN TIENEN VENTAJAS Y
DESVENTAJAS
3. QUIN, QU Y POR QU EVALUAR?

3.1.QUINES SON LAS PARTES?
1.EL QUE CONSTRUYE LA PRUEBA
2.EL QUE USA LA PRUEBA
3.EL QUE RESPONDE LA PRUEBA
3.2.EN QU TIPO DE CONTEXTOS SE REALIZAN LAS EVALUACIONES?
1. CONTEXTO CLNICO
2. CONTEXTO EDUCATIVO
3. CONTEXTO JURDICO
4. CONTEXTO ORGANIZACIONAL
5. OTROS CONTEXTO
4. EVALUACIN DE LA CALIDAD DE LAS PRUEBAS: VALIDEZ, CONFIABILIDAD Y UTILIDAD.
4.1.CONFIABILIDAD
4.1.1 FACTORES QUE DETERMINAN LA FALTA DE CONFIABILIDAD
a) AL CONSTRUIR O ADAPTAR UN TEST
b) AL ADMINISTRAR UN TEST
c) AL EVALUAR UN TEST
4.1.2
TCNICAS PARA MEDIR LA CONFIABILIDAD
4.2. VALIDEZ
4.2.1.VALIDEZ DE CONTENIDO
4.2. 2.VALIDEZ EN RELACIN A UN CRITERIO
4.2.3. VALIDEZ DE CONSTRUCTO
4.2.4 COEFICIENTE DE VALIDEZ
4.2.5.VALIDEZ DE LA PRUEBA Y TEORA DE LA DECISIN
4.2.6.COMBINACIN DE INFORMACIN A PARTIR DE DIFERENTES PRUEBAS
4.3. VALIDEZ Y UTILIDAD PRCTICA DE LOS TESTS PARA DECISIONES DE
CLASIFICACIN
SEGUNDA PARTE: CONSTRUCCIN Y ADAPTACIN DE LOS TESTS
1. DISEO Y ELABORACIN DE LOS TESTS

1.1.
TEORAS DE LOS TESTS:

A) TEORA CLSICA DE LOS TESTS
B) TEORA DE LA GENERALIZABILIDAD
C) TEORA DE RESPUESTA AL ITEM
1.2.
DEFINICIN DEL DOMINIO DEL TEST
1.3.
SELECCIN Y ELABORACIN DE LAS ESCALAS
1.4.
REDACCIN DE TEMS
1.5.
REVISIN DEL TEST POR EXPERTOS
1.6.
ANLISIS Y SELECCIN DE TEMS
2.
ADAPTACIN DE LOS TESTS
2.1.
MTODOS DE ADAPTACIN DE TESTS
2.2.
TCNICAS DE TRADUCCIN
2.3.
MTODOS PARA ESTABLECER LA EQUIVALENCIA ENTRE TESTS
2.4.
FUENTES DE SESGO
i. SESGO DE CONSTRUCTO
ii. SESGO METODOLGICO: EN LAS MUESTRAS, EN EL
INSTRUMENTO Y EN LA ADMINISTRACIN.
iii. SESGO DE ITEM
TERCERA PARTE: ADAPTACIN DE TESTS DE UNA CULTURA A OTRA
1. PAUTAS DE LA COMISIN INTERNACIONAL DE TESTS

1. CONTEXTO
2. ADAPTACIN DE LOS TESTS
3. APLICACIN
4. INTERPRETACIN DE LAS PUNTUACIONES
2. CONCLUSION
3. REFERENCIA BIBLIOGRAFICA
4. ANEXO
1. INTRODUCCION
El avance en la difcil tarea de comprender la conducta de las personas de manera
integrada se nutre del esfuerzo que realiza la psicologa por articular los diferentes
fundamentos tericos con la diversidad de mbitos de aplicacin, a travs de la
evaluacin psicolgica. Para que el progreso cientfico de la Psicologa sea cada vez
ms una realidad, hemos de esforzarnos por armonizar la explicacin terica y los
procesos de observacin emprica, hasta lograr en muchos casos compatibilizarlos. El
proceso cientfico depende conjuntamente del modelo explicativo y del metodolgico, y
por ende del perfeccionamiento de los instrumentos que permiten la objetivizacin de
los fenmenos, y del perfeccionamiento de la interpretacin terica de dichos
fenmenos, a travs del contraste entre teora y observacin.
La Psicologa reconoce en la Psicometra esa rama que se ocupa de las cuestiones
relacionadas con la medicin, y si bien es cierto que las ciencias atraviesan una poca
de crisis de paradigmas y en especial las ciencias sociales y conductuales, an as
podemos encontrar contenidos tradicionales en la Psicometra que son punto de
acuerdo entre la mayora de los autores e investigadores de la Psicologa. Se podran
sintetizar en tres ejes:
a) Los procesos operacionales de medicin en Psicologa asociados a las escalas
de medida: el objetivo de la Psicometra ser hallar la mejor manera de
observar,
clasificar
transformar
categoras
manifiestas
en
escalas
cuantitativas partiendo de la aceptacin del isomorfismo entre propiedades

atribuidas a las categoras psicolgicas y las propiedades atribuidas a los
nmeros que las representan (Stevens, 1951)
b) Confiabilidad o precisin de los instrumentos de medida en Psicologa: es uno
de los tres problemas de medida asociados a las escalas de medida que
merecen atencin ya que si una prueba psicomtrica no es confiable en su
medicin, su inconsistencia repercutir negativamente no solo en la validez del
instrumento sino en todos los procesos relacionales que se incluyan.
c) Validez de una prueba: es la propiedad fundamental en tanto permite decir de
una prueba que mide lo que pretende medir y es un valor social sobresaliente
que asume una funcin tanto cientfica como poltica (Messick, 1995)
En la primer parte hemos de sentar pues las bases para una definicin de la
Psicologa como aquella disciplina que estudia la conducta de las personas en
interaccin con su contexto, a fin de poder con esta base construir el edificio del
diagnstico y la evaluacin psicolgica.
Postularemos a la evaluacin psicolgica
como un proceso de toma de decisiones cuyo objetivo es apuntar, con precisin y

validez, a la tarea de psicologa aplicada para solucionar problemas individuales,
sociales y ambientales. Luego, explicitaremos un recorte que implica definirla como un
proceso para verificar la medida o grado en que se logran metas u objetivos
propuestos a travs de la categorizacin, comparacin, anlisis y contrastacin de
datos cuanti-cualitativos por medio de tcnicas objetivas y proyectivas. En este sentido
su mxima expresin es el Psicodiagnstico que utiliza el diseo del caso nico.
Distintas reas y campos de aplicacin de la Psicologa se ven beneficiados por los
avances constantes que produce la evaluacin y el diagnstico psicolgico, sin
embargo, existen an mltiples problemas metodolgicos y tericos como el que
refleja el tema que nos ocupa, que preocupan a los investigadores y especialistas en
el rea de la Psicometra.
En la segunda parte nos detendremos a considerar qu motiva la elaboracin de
pruebas nuevas? No hay un listado exhaustivo de motivaciones que lleven a la
construccin de nuevos tests, sin embargo, si analizamos las tcnicas existentes
encontraremos tres fuentes principales de trabajo de desarrollo de pruebas. La primera
seala que muchas de las pruebas de uso ms generalizado se originaron en
respuesta a cierta necesidad prctica. La prueba de inteligencia Binet se cre para
identificar a los nios de las escuelas de Pars que podan necesitar lo que hoy se
conoce como educacin especial. La Stanford Binet Intelligence Scale (Escala de
Inteligencia Stanford Binet) se origin en la idea de proporcionar una escala tipo Binet
que pudiera utilizarse con los estadounidenses, aunque las revisiones llegaron ms
all de la simple traduccin del francs al ingls. La Wechsler-Bellevue Intelligence
Scale (Escala Wechsler-Bellevue de Inteligencia) que dio origen a la coleccin de
escalas Wechsler, apareci con la intencin de ofrecer una prueba de inteligencia ms
adecuada que la Stanford-Binet. Las pruebas Otis construidas para evaluar la enorme
cantidad de reclutas durante la Primera Guerra Mundial al igual que la Woodworth
Personal Data Sheet (Hoja de Datos Personales Woodworth), prototipo de muchas
pruebas de personalidad posteriores. El Inventario Multifactico de Personalidad de
Minnesota (MMPI) se elabor para ayudar en la clasificacin de los pacientes
mentales en la prctica clnica de los hospitales de la Universidad de Minnesota.
Tambin la enorme cantidad de pruebas de aprovechamiento para su uso en las
escuelas y la industria tiene una orientacin altamente prctica. Estos son solo
algunos ejemplos del hecho de que muchos tests se originan en respuesta a una
necesidad muy prctica.
Algunos tests se construyen a partir de un fundamento terico importante como las

Matrices Progresivas (Test de Raven) que se elaboraron basadas en la teora de
Spearman sobre inteligencia. Por ejemplo, la Primary Mental Habilities Test (prueba de
Capacidades Mentales Primarias) de Thurstone, prototipo de muchas evaluaciones de
inteligencia multifactoriales posteriores, se dise con la intencin de sustentar la
teora de Thurstone sobre las inteligencias mltiples. Estos son slo algunos ejemplos
de cmo las teoras pueden generar nuevas pruebas, que primero se utilizarn tan
solo para fines de investigacin, pero que despus se emplean en contextos
aplicados.
Finalmente, y este el caso que nos convoca, una gran de trabajo de elaboracin de
tests se dedica a adaptar o revisar los instrumentos ya existentes. Por ejemplo, poco
despus de que Alfred Binet introdujera las pruebas de inteligencia en Francia, el
Servicio de Salud Pblica de Estados Unidos comenz a usar dichas pruebas para
medir la inteligencia de personas que buscaban inmigrar a Estados Unidos. Henry
Goddard (1913) el investigador en jefe asignado al proyecta y un especialista en
retraso mental pronto plante lo significativas que son dichas pruebas cuando se usan
con personas de diversos antecedentes culturales y lingsticos. Goddard us
intrpretes en la administracin de las pruebas, emple a un psiclogo bilinge y
administr pruebas mentales a inmigrantes seleccionados que les parecan retardados
mentales a los observadores entrenados (Goddard, 1917). Por tanto, el impacto del
lenguaje y la cultura en los resultados de las calificaciones de las pruebas de
capacidad mental fue reconocido por los psiclogos ya desde principios del Siglo XX.
Una forma para que los primeros elaboradores de pruebas abordaran este hecho
psicomtrico de la vida fue elaborar pruebas especficas para una cultura. Es decir, la
prueba sera diseada para ser usada con personas de una cultura pero no de otra.
Las primeras versiones de algunas de las pruebas de inteligencia ms conocidas son
representativas de este enfoque de la elaboracin de pruebas. Por ejemplo, la versin
de 1937 de la Escala de Inteligencia Stanford-Binet, que disfrut de un uso extendido
hasta que fue revisada en 1960, no inclua nios de minoras en su muestra de
estandarizacin. Del mismo modo, la Escala de Inteligencia Wechsler-Bellevue no
contena a miembros de minoras en sus muestras de estandarizacin. Ya David
Wechsler en 1944 sealaba que una gran cantidad de negros haban sido
examinados durante los ensayos de estandarizacin pero esos datos los omitimos
debido a que no sentamos que las normas derivadas de mezclar las poblaciones
podran interpretarse sin salvedades especiales. De esta manera Wechsler sostuvo
que los baremos de sus pruebas cuando no incluan adultos o nios de minoras en las
muestras de estandarizacin, no podan usarse para las poblaciones de color de

Estados Unidos. Aun cuando muchas pruebas publicadas eran especficas para una
cultura, pronto se hizo evidente que se administraban de manera inapropiada, a
personas de culturas diferentes. No era sorprendente encontrar que quienes,
perteneciendo a culturas diferentes, respondan a esas pruebas; obtenan puntajes
inferiores como grupo que las personas del grupo para el cual se elabor y estandariz
el test.
Histricamente estos esfuerzos por revisar las pruebas existentes y adaptarlas;
conservando la estructura fundamental del instrumento, han logrado extender su uso a
poblaciones especiales. Ya sea por la diferencia de idioma o por la existencia de una
discapacidad auditiva, visual o motriz, la elaboracin o adaptacin de las nuevas
versiones de las ediciones existentes constituye una tercera fuente importante de
esfuerzos en la construccin de tests.
Primera Parte
2. LOS TESTS Y LA EVALUACION PSICOLOGICA
2.1 Tests, pruebas, diagnstico y evaluacin psicolgica

Las races de las pruebas y la evaluacin psicolgica contempornea pueden
encontrarse en Francia a principios del Siglo XX. En 1905 Alfred Binet y un colega
haban publicado una prueba que fue diseada para ayudar a colocar a los nios
parisienses en edad escolar en clases apropiadas.
La prueba de Binet tuvo
consecuencias que superaron los lmites de Pars, en poco tiempo se prepar una
versin en ingls para usar en escuelas de Estados Unidos. En ese pas se estaba
estudiando el uso de pruebas psicolgicas por primera vez en el ejrcito. Tanto en la
primera como en la segunda guerra mundial, las pruebas cumplieron con el objetivo de
examinar con rapidez a grandes cantidades de reclutas en busca de problemas
intelectuales y emocionales. El apogeo de las pruebas psicolgicas se dio en la
dcada de 1950 y principios de la de 1960. Se administraban pruebas en escuelas, en
instituciones de salud mental, en dependencias gubernamentales, etc.
Prueba era el trmino usado para referirse a todo, desde la administracin de una
prueba hasta la interpretacin de la evaluacin de la misma.
Es en esta etapa
histrica en que la palabra prueba adquiere una posicin tan poderosa como la que
sustenta. Sin embargo, para la poca de la Segunda Guerra Mundial comenz a
surgir una distincin semntica entre prueba y otro trmino ms incluyente
evaluacin. Si bien es cierto que subsiste an hoy da la ambigedad en el uso de
dichos trminos, para nuestros objetivos definiremos evaluacin psicolgica como la
recopilacin e integracin de datos relacionados con la psicologa con el propsito de
hacer una valoracin psicolgica, lograda con el uso de herramientas como pruebas,
entrevistas, estudios de caso, observacin conductual y aparatos y procedimientos de
medicin diseados en forma especial (Cohen y Swerdlik, 2001). Definiremos prueba
psicolgica como el proceso de medir variables relacionadas con la psicologa por
medio de dispositivos o procedimientos diseados para obtener una muestra de
comportamiento (Cohen y Swerdlik, 2001).
Por su parte entendemos que definir lo que entendemos por tests requerira un
extenso apartado, ya que histricamente se registran polmicas en torno a su
conceptualizacin. Sin embargo, siguiendo a Anastasi & Urbina (1998) entendemos
que un test es un instrumento de evaluacin cuantitativa de los atributos psicolgicos
de un individuo. La Asociacin de Psiclogos Americanos (1999), propone una
conceptualizacin abarcativa y exhaustiva al definir a un Test como un
procedimiento evaluativo por medio del cual una muestra de comportamiento de un

dominio especificado es obtenida y posteriormente evaluada y puntuada empleando
un proceso estandarizado.
Definiremos las situaciones de diagnstico como aquellas en las que se produce el
conocimiento mediato, no directo, sino a travs de indicadores que son observables
comportamentales y / o clnicos, de personas concretas, no de grupos ni de
colectividades (Pelechano Barber, 1988)
2.2. Siete supuestos en las pruebas y la evaluacin psicolgica

Existen una serie de suposiciones bsicas rescatadas por Cohen & Swerdlik (2001)
que resultan particularmente tiles para comprender una serie de controversias y
polarizaciones que se harn presentes al avanzar en el estudio de los tests y la
evaluacin psicolgica. A continuacin las detallamos sintticamente.
1. Los rasgos y estados psicolgicos existen: Un rasgo se ha definido como
cualquier forma distinguible, relativamente perdurable, en la que un individuo
vara de otro (Guilford, 1959). Los estados tambin distinguen a una persona
de otra pero son relativamente menos perdurables (Chaplin et al., 1988) Aqu
la situacin es importante puesto que un comportamiento puede tomarse de
una manera en un contexto (una persona que habla con Dios en la iglesia) y de
otra manera (desviado) si realiza el mismo comportamiento en un contexto
inadecuado (bao pblico). Tambin la forma exacta en que se manifiesta un
rasgo particular depende de la situacin por ejemplo un delincuente puede
comportarse de manera sumisa ante un oficial y ms violenta ante un familiar.
2. Los rasgos y estados psicolgicos pueden cuantificarse y medirse: La
ponderacin del valor comparativo de los reactivos de una prueba ocurre como
resultado de una interaccin compleja entre muchos factores: consideraciones
tcnicas, en forma en que se ha definido un constructo para los propsitos de
la prueba y el valor que le da la sociedad a los comportamientos que se estn
evaluando.
3. Pueden ser tiles diversos enfoques para medir aspectos del mismo objeto de
estudio: Pueden existir varias pruebas y tcnicas de medicin diferentes para
medir el mismo constructo. Algunas pruebas son mejores que otras, en
general, deber demostrarse la utilidad de las pruebas para los escenarios en
los que debern ser aplicadas segn su diseo original y luego demostrarse de
nuevo para otros escenarios adicionales en los que no se contemple su uso.
10
4. La evaluacin puede sealar fenmenos que requieren una mayor atencin o

estudio: una suposicin en la medicin es que las herramientas de evaluacin
pueden usarse con propsitos de diagnstico. Puede definirse diagnstico en
forma amplia como una conclusin alcanzada con base en la evidencia y
opinin por medio de un proceso de distincin de la naturaleza de algo y
descartar conclusiones alternativas. Diagnstico se usa en un sentido amplio
con la identificacin de fenmenos psicolgicos o conductuales para un mayor
estudio.
5. Diversas fuentes de informacin enriquecen y son parte del proceso de
evaluacin: Los datos de una prueba de inteligencia pueden ser tiles para
entender a un estudiante, un preso, un empleado o un paciente en terapia o
cualquier persona que demande una evaluacin pero para el proceso de toma
de decisiones se requerir informacin adicional como por ejemplo sobre su
historia familiar.
6. Diversas fuentes de error son parte del proceso de evaluacin: Error en el
contexto de las pruebas y la evaluacin se refiere a algo que se considera un
componente del proceso de medicin. En este contexto error se refiere a la
suposicin de que factores distintos al que pretende medir la prueba influirn
en el desempeo de sta. Debido a que el error es una variable en cualquier
proceso de evaluacin psicolgica, a menudo hablamos de varianza de error.
Por ejemplo, el puntaje que obtiene una persona en una prueba de inteligencia
puede estar sujeto a debate respecto al grado en que la puntuacin obtenida
refleja en verdad el CI del evaluado y el grado en que refleja la varianza de
error. Las fuentes potenciales de error son muy variadas, como por ejemplo
que el evaluado tenga gripe cuando responde la prueba. Tanto el evaluado
como el evaluador son fuentes de varianza de error si tenemos en cuenta por
ejemplo el grado de experticia que demuestran en la administracin de una
prueba. Tambin las pruebas mismas son fuentes de varianza de error por ser
unas mejores que otras para medir lo que pretenden medir.
7. Las pruebas y otras tcnicas de medicin tienen ventajas y desventajas: Si se
quieren usar pruebas adecuadas se deber tener en cuenta: cmo se elabor
la prueba, las condiciones para su aplicacin, cmo y a quin se debe
administrar, cmo deberan interpretarse los resultados de la prueba y a
quienes, y cul es el significado de la puntuacin. Ello implica conocer las
limitaciones de las pruebas y compensarlas con datos de otras fuentes.
11
3.Quin, qu y por qu evaluar?

3.1.Quines son las partes?
1. El que construye la prueba
Quienes se dedican a elaborar pruebas, brindan una amplia variedad de
antecedentes y detalles respecto del proceso de elaboracin. Sin embargo, la APA
(American Psychological Association) estima que ms de 20.000 pruebas nuevas
se elaboran cada ao y abarcan pruebas elaboradas para un estudio de
investigacin especfico, revisiones de anteriores publicadas , etc. Reconociendo
que las pruebas y las decisiones tomadas como resultado de su administracin
pueden tener un impacto significativo en las vidas de las personas que responden
las pruebas, varias organizaciones publicaron normas de comportamiento tico
referidas a la elaboracin y uso responsable de pruebas. Las ms conocidas son
las Normas o Standards for Educational and Psychological Testing elaboradas por
la
Asociacin
Estadounidense
de
Investigacin
Educativa, la Asociacin
Psicolgica Estadounidense y el Consejo Nacional sobre Medicin en Educacin.

2. El que usa la prueba
Si bien las pruebas son usadas por una variedad de profesionales, todos debern
cumplir los principios ticos correspondientes. La prueba debe guardarse para que
su contenido especfico no sea dado a conocer con anticipacin. Descripciones
previas a la administracin de la prueba, de los materiales que contiene la misma,
en el caso de pruebas de
inteligencia, no son aconsejables pues podran
comprometer los resultados. El que administra la prueba debe estar familiarizado

con los materiales y procedimientos de la prueba y tener todos los materiales
necesarios para administrarla en forma apropiada. Tambin debe asegurarse de
que el saln en el que se realice la prueba sea el adecuado, evitando condiciones
distractoras como ruido excesivo, calor, fro, interrupciones, luz solar deslumbrante,
hacinamiento, ventilacin inadecuada, etc. Es fundamental la empata entre el
evaluador y el evaluado. En el contexto de situacin de prueba, la empata puede
definirse como una relacin de trabajo entre evaluador-evaluado. Lograr la empata
con el evaluado no debe alterar las condiciones de administracin de la prueba.
Existen otros factores que pueden influir en el desempeo en pruebas de
inteligencia como por ejemplo que el evaluador sea familiar o no, que est
presente o ausente, y sus modales en general. Otro factor importante ha sido el
gnero.
3. El que responde la prueba:
12
Las personas evaluadas enfocan una situacin de evaluacin de diferentes formas

y los administradores deben ser sensibles a la diversidad de respuestas posibles
ante una situacin de prueba. El evaluado en situacin de diagnstico o evaluacin
puede
variar
en:
a) ansiedad experimentada y grado en que sta podra afectar los resultados

b) capacidad y disposicin para cooperar con el evaluador o comprender las
instrucciones escritas.
c) el dolor fsico o la angustia emocional que est sufriendo el evaluado.
d) malestar e incomodidad derivado de no haber comido suficiente o por otras
condiciones fsicas.
e) grado en que est alerta y despierto y no somnoliento
f) grado en que estn predispuestos a estar de acuerdo o en desacuerdo cuando
se les presenten los reactivos
g) grado en que han recibido preparacin previa.
h) importancia que atribuyan a describirse a s mismos en forma buena o mala
i) grado de suerte que tiene el evaluado al responder sin conocer de lo que
responde.
Tambin el evaluado tiene derechos en situaciones de evaluacin como por
ejemplo a dar su consentimiento para ser evaluado, a que los resultados sean
confidenciales y a ser informado de los resultados.
3.2.En qu tipo de contextos se realizan evaluaciones?

1. Contexto clnico
Las pruebas y otros mtodos de evaluacin se usan en forma amplia en
escenarios clnicos como los hospitales pblicos, consultorios privados, clnicas
privadas y el sello de las pruebas en este contexto es que solo se usa con un
individuo a la vez, las pruebas colectivas solo se usan en el screening o rastrillaje
de casos que requieren una mayor evaluacin psicolgica.
2. Contexto educativo
A menudo se usan pruebas en escenarios educativos para diagnosticar problemas
de aprendizaje. Las medidas de inteligencia y logro aplicadas en forma individual
se usan con ms frecuencia con propsitos de diagnstico y por lo general son
administradas por profesionales con capacitacin. Existen otras pruebas que se
administran a los aspirantes a un nuevo ingreso, por ejemplo a las Universidades o
13
Posgrados. Tambin se usan las pruebas en un contexto de orientacin vocacional

o de counseling.
3. Contexto jurdico
Los tribunales se basan en datos de pruebas psicolgicas y testimonios de
expertos relacionados como una fuente de informacin para ayudar a responder si
la persona es competente para ser enjuiciada o para saber si un acusado
distingua el bien del mal en el momento de cometer el delito.
4. Contexto organizacional
En el mundo de los negocios, las pruebas se usan en particular en el rea de
recursos humanos. Los psiclogos usan pruebas y procedimientos de medicin
para evaluar cualquier conocimiento o habilidades en las que necesite ser
evaluado un empleado, un candidato a ser empleado, para tomar decisiones de
ascensos, transferencias, y elegibilidad para una mayor capacitacin.
5. Otros contextos
En el rea de psicologa del consumidor tambin se usan pruebas, al igual que
para evaluar a personas con discapacidad o con deficiencias neuropsicolgicas.
4. Evaluacin de la Calidad de las pruebas: Confiabilidad y Validez

Sabemos cules son las pruebas ms usadas pero adems necesitamos saber
cules son las mejores pruebas qu implica una buena prueba? Ms all de la
simple lgica existen criterios tcnicos que usan los profesionales al evaluar para
estimar la solidez psicomtrica de los instrumentos. La Psicometra como ciencia
de la medicin psicolgica estudia la confiabilidad y la validez de las pruebas.
4.1. Confiabilidad
Una buena prueba es confiable, es decir es consistente y es precisa. Las pruebas
psicolgicas son confiables en grados diversos. En el dominio de las mediciones
comportamentales, la variabilidad es mucho mayor dada las caractersticas del
objeto epistmico y de los instrumentos de medicin utilizados. Las diferencias en
el desempeo de un sujeto en sucesivas ocasiones pueden estar causadas por
diversas razones: distinta motivacin en las diversas situaciones en que fue
evaluado, distintos niveles de cansancio o de ansiedad, estar ms o menos
familiarizado con el contenido del test, etc. Por todo ello, los puntajes de una
persona no sern perfectamente consistentes de una ocasin a la siguiente y
decimos que la medicin contiene cierta cantidad de error. Es decir que el puntaje
que obtiene una persona en una prueba incluye el puntaje real de la persona y un
14
margen de error que puede aumentar o disminuir dicha puntuacin verdadera. Este
error de medicin, aleatorio e impredecible, se distingue de los errores sistemticos
que tambin afectan el desempeo de los evaluados por un test, pero de una
manera ms consistente que aleatoria.
Los errores sistemticos pueden a) afectar a todas las observaciones por igual y
ser un error constante, o b) afectar a cierto tipo de observaciones de manera
diferente que a otras y ser un sesgo. El error aleatorio, por su parte, es muy difcil
de predecir y controlar pues est relacionado con factores casuales que pueden
provenir tanto de aspectos tcnicos de la medicin psicolgica como de la
variacin natural de la conducta humana (Cortada de Kohan, 1999)
4.1.1
Factores que determinan la falta de confiabilidad
Si bien son mltiples las causas por las cuales los puntajes obtenidos por un
evaluado pueden no ser confiables, sintetizaremos solamente algunas fuentes de
error cuyo conocimiento ser til para comprender el proceso de adaptacin de los
tests.
a) Al construir o adaptar un test: se debe prestar atencin a la seleccin de los
tems y a la formulacin de las consignas, pero principalmente se debe cuidar el
muestreo del contenido para evitar que sea tendencioso o insuficiente. Otra fuente
importante de error son los efectos de la adivinacin, es decir, los tests son ms
confiables a medida que aumenta el nmero de respuestas alternativas (Cortada
de Kohan, 1999).
b) Al administrar un test: se debe evaluar a todos los sujetos en las mismas
condiciones, tratando de controlar posibles interferencias ambientales como el
ruido, la iluminacin o el confort del lugar. Las consignas deberan ser
estandarizadas desde la construccin del test hasta en su administracin,
especialmente en lo referido al control de los tiempos para la realizacin del
mismo. Otro punto a considerar son las influencias fortuitas que pueden afectar la
motivacin o la atencin del evaluado como por ejemplo preocupaciones
personales, afecciones fsicas transitorias, etc.
d) Al evaluar un test: se deben sostener los criterios de evaluacin, no es
posible cambiar los criterios de correccin por ejemplo luego de haber
calificado a una serie de evaluados, en funcin de un criterio subjetivo del
evaluador.
15
4.1.2. Tcnicas para medir la confiabilidad

Existen diversos tipos de procedimientos para evaluar la confiabilidad de un
instrumento que solamente sern mencionados, en este caso: test-retest o
examen-reexamen, formas alternas, paralelas o equivalentes, divisin por mitades,
consistencia interna (Kuder-Richardson y coeficiente alfa) y entre evaluadores
4. 2. Validez
Se refiere a lo que mide una prueba y no puede expresarse en general sino que
debe consignarse el uso particular para el que se planea utilizar el instrumento.
Todos los procedimientos utilizados para determinar la validez se interesan en las
relaciones entre ejecucin en las pruebas y otros factores observados
independientemente de las caractersticas de la conducta considerada.
Histricamente, uno de los primeros usos de las pruebas fue la evaluacin de lo
que los individuos haban aprendido en determinadas reas de contenido y por ello
se comparaba el contenido de esas categoras de pruebas con el del rea que
pretendan probar. Luego, el nfasis recay en la prediccin y actualmente existen
dos tendencias una hacia el fortalecimiento de la orientacin terica y la otra hacia
una estrecha vinculacin entre la teora y la verificacin psicolgicas mediante la
comprobacin emprica y experimental de las hiptesis.
4.21. Validez de Contenido

Los procedimientos de validacin por la descripcin del contenido comprenden el
examen sistemtico del contenido de la prueba para determinar si cubre una
muestra representativa del rea de conducta que debe medirse. El rea de
conducta por examinar debe analizarse sistemticamente para garantizar que los
reactivos cubran todos los aspectos importantes y en la proporcin correcta. Se
debe tener en cuenta no sobregeneralizar ni incluir factores irrelevantes en los
resultados. Bsicamente se deben contestar dos preguntas: a)cubre la prueba
una muestra representativa de las habilidades y conocimientos especificados? b)
el desempeo en la prueba est razonablemente libre de la influencia de
variables irrelevantes?
Validez de facie: la validez de contenido no debe confundirse con la validez
aparente que no es validez en el sentido tcnico porque no se refiere a lo que la
prueba verdaderamente mide sino a lo que parece medir. Aunque usar el trmino
validez puede resultar confuso, la validez de facie es en s misma un rasgo
deseable de los instrumentos, porque a lude a que la prueba parece vlida para
16
quien la administra, quien la responde y para otros observadores. Esta validez

puede mejorarse replanteando los reactivos para que parezcan relevantes y
plausibles en medio particular en que sern usados por ejemplo es posible
elaborar una prueba de aritmtica para personal naval en la terminologa nutica
sin alterar con ello las funciones medidas.
4.2.2.Validez en Relacin a un Criterio:

Los procedimientos de validacin de criterio-prediccin indican la efectividad de la
prueba para predecir el desempeo del individuo en actividades especficas. La
medida de criterio contra la que se validan los resultados del instrumento puede
obtenerse aproximadamente al mismo tiempo que los resultados de la prueba o
despus de un intervalo establecido. Las relaciones temporales entre el criterio y la
prueba permiten diferenciar la validacin concurrente y la predictiva. La validez
predictiva permite anticiparse sobre un intervalo y la informacin que proporciona
es muy pertinente para las pruebas usadas en seleccin y clasificacin de
personal, diagnstico de reincidencia en el rea forense, ingreso al secundario o a
la universidad de estudiantes. Otros ejemplos son el uso de las pruebas para
descartar sujetos que pueden desarrollar trastornos emocionales en ambientes de
tensin o extraos o para identificar personal militar para determinados programas
de capacitacin ocupacional.
Con la validacin concurrente, en cambio, la prueba se aplica a personas que ya
cuentan con datos de criterio, por ejemplo comparando los resultados obtenidos en
la prueba por aspirantes universitarios con los promedios acadmicos al momento
del examen. La distincin lgica entre la validez concurrente y la predictiva se
basa en los objetivos ms que en el tiempo. La validacin concurrente es
adecuada para las pruebas que se emplean para diagnosticar el estado actual
ms que para predecir los resultados futuros.
Se debe tener en cuenta la contaminacin del criterio como fuente de error en la
validacin de la prueba, es decir, una precaucin esencial es asegurar que los
propios resultados no influyan en la condicin del criterio de cualquier individuo. Es
por ello que los resultados deben mantenerse estrictamente confidenciales.
Medidas de criterio: Una prueba puede validarse si se la compara con tantos
criterios como usos especficos existan para ella, sin embargo, los criterios
empleados para encontrar las distintas clases de validez que se informan en los
manuales caen en determinadas categoras. Para las pruebas de inteligencia, por
ejemplo, el ndice de aprovechamiento acadmico, razn por la cual se describen
17
como medidas de aptitud acadmica. Los ndices especficos utilizados como

medidas de criterio son: las calificaciones escolares, los resultados de pruebas de
aprovechamiento, los registros de promocin y de graduacin, los honores y
reconocimientos especiales y las valoraciones de docentes e instructores sobre la
inteligencia de los individuos. Para los jvenes el promedio del primer ao d
estudio, para adultos los aos de escolaridad completa, como variante del criterio
de aprovechamiento acadmico ya que se espera que los individuos ms
inteligentes prolonguen su educacin por ms tiempo y que los otros abandonen
antes la educacin. Para muchos propsitos la medida de criterio ms satisfactoria
es la que se basa en registros de seguimiento del desempeo laboral real, criterio
empleado en la validacin de tests de inteligencia general. Es comn que se citen
las correlaciones entre una prueba nueva y pruebas validadas previamente como
evidencia de validez. Existen otros procedimientos de validacin que no
desarrollaremos como el mtodo de grupos contrastados o las valoraciones de
expertos como psiquiatras, maestros, supervisores laborales, etc.
Generalizacin de la validez: cuando en los estudios de validacin industrial se
correlacionaron las pruebas estandarizadas de aptitud con el desempeo en los
puestos supuestamente similares, se encontr una gran variabilidad de los
coeficientes de validez, esto gener pesimismo respecto de la posibilidad de
generalizar la validez de la prueba a situaciones distintas. Hasta mediados de los
setenta la especificidad situacional de los requisitos psicolgicos era considerada
una seria limitacin de la utilidad de las pruebas estandarizadas para la seleccin
de personal. Luego se demostr que el tamao pequeo de la muestra, la poca
confiabilidad del criterio y la restriccin del rango en las muestras seleccionadas
producan cierto engao estadstico. Al aplicar sus tcnicas de reciente desarrollo a
los datos de muchas muestras extradas de un gran nmero de especialidades
ocupacionales, Schmidt, Hunter y sus colaboradores pudieron demostrar que la
validez de las pruebas de aptitud verbal, numrica y de razonamiento pueden
generalizarse entre ocupaciones mucho ms de lo que se haba reconocido. Las
pruebas incluidas en esos estudios cubran principalmente la clase de contenido y
habilidades muestreadas en las pruebas tradicionales de inteligencia. El metaanlisis como procedimiento que permite integrar los resultados de investigaciones
realizadas en momentos o lugares diferentes y sopesarlos sobre la base de las
caractersticas sustantivas y metodolgicas relevantes de cada estudio. Este
procedimiento permite calcular los efectos del tamao, la magnitud o la medida.
18
4.2.3. Validez de Constructo:

Esta expresin se introduce por primera vez en 1954 en las Recomendaciones
tcnicas para las pruebas psicolgicas y las tcnicas de diagnstico (APA, 1954)
La validez de constructo ha centrado la atencin en la funcin que cumple la teora
psicolgica en la elaboracin de la prueba y en la necesidad de formular hiptesis
que puedan ser comprobadas o refutadas en el proceso de validacin. La validez
de constructo de un instrumento es el grado en el que puede afirmarse que mide
un constructo o rasgo terico. Requiere de la acumulacin gradual de diversas
fuentes de informacin.
Cambios en el desarrollo: la diferenciacin por edad es un importante criterio
utilizado en la validacin de una serie de pruebas tradicionales de inteligencia. Un
ejemplo es el Stanford-Binet
en donde se espera que durante la niez las
habilidades aumenten con la edad, por lo tanto si la prueba es vlida sus

resultados deberan mostrar dicho incrementos pues se basa en el supuesto de
que la inteligencia aumenta con la edad al menos hasta la madurez. Una prueba
validada con el criterio evolutivo mide caractersticas conductuales que se
incrementan con la edad en las condiciones existente en el entorno en el que se
estandariz el instrumento. Como diferentes culturas pueden estimular y fomentar
el desarrollo de caractersticas conductuales dismiles, no puede suponerse que el
criterio de diferenciacin por edad sea universal. Como cualquier otro criterio est
circunscrito por el contexto cultural particular del que fue derivado.
Correlaciones con otras pruebas: se citan las correlaciones entre una prueba
nueva y otros instrumentos similares como evidencia de que la nueva mide
aproximadamente la misma rea de conducta que otras que llevan el mismo
nombre como pruebas de inteligencia.
Anlisis factorial: desarrollado como medio para identificar rasgos psicolgicos, es
relevante para los procedimientos de validacin de constructo. Es una refinada
tcnica estadstica para analizar las interrelaciones de los datos conductuales y
reducir el nmero de variables o categoras en cuyos trminos puede describirse el
desempeo de cada individuo a un nmero relativamente pequeo de factores o
rasgos comunes. Una vez que los factores se han identificado, sirven para
describir la composicin factorial de las pruebas. Cada instrumento puede
entonces caracterizarse en funcin de los factores principales que determinan sus
calificaciones, junto con el peso o carga de cada uno y la correlacin de la prueba
con cada factor, que suele expresarse como validez factorial de la prueba.
19
Consistencia interna: la caracterstica esencial de este mtodo es que el criterio no

es otro que la calificacin total del propio instrumento. En cada reactivo se
compara la ejecucin del grupo criterio superior con el desempeo del grupo
inferior. Los reactivos que no logran mostrar una proporcin significativamente
mayor de aciertos en el grupo superior que en el inferior se consideran invlidos y
se revisan o eliminan. Tambin se utilizan procedimientos de correlacin, como la
correlacin de las calificaciones de los subtests con el resultado total. Por ejemplo
muchas pruebas de inteligencia constan de subpruebas que se aplican por
separado (vocabulario, aritmtica, completamiento de figuras, etc.) y cuyos
resultados se combinan para encontrar el resultado total. En la elaboracin de
estas pruebas, a menudo se correlacionan las calificaciones de cada subtest con la
calificacin total y se elimina cualquier subtest cuya correlacin con sta sea
demasiado baja. El grado de homogeneidad de la prueba tiene relevancia para la
validez de constructo porque contribuye a caracterizar el rea de conducta o rasgo
que muestra.
Validez convergente y discriminante: En un minucioso anlisis de la validacin de
constructo, D. Campbell (1960) seal que para demostrar la validez de constructo
no basta con demostrar que una prueba tiene una correlacin elevada con otras
variables con las que en teora debe hacerlo, sino tambin que no tiene una
correlacin significativa con variables de las que se supone debe diferir. Estas son
la validez convergente y discriminante; ejemplo de la primera la correlacin de una
prueba de razonamiento cuantitativo con las calificaciones obtenidas luego en un
curso de matemticas; y de la segunda si la correlacin es baja e insignificante con
los resultados de una prueba de comprensin de lectura.
Intervenciones experimentales: experimentos sobre el efecto de variables
seleccionadas en los resultados de la prueba constituyen otra fuente de datos para
la validacin de constructo.
Modelamiento de ecuaciones estructurales: investigar cmo es que un constructo o
rasgo personal identificado conduce a un buen o mal desempeo contribuye
sustancialmente a la comprensin de por qu una prueba tiene una elevada o baja
validez en una situacin dada. Facilita dicho anlisis un procedimiento estadstico
conocido como modelamiento de ecuaciones estructurales que est relacionado
con el anlisis de paths. Este modelamiento utiliza ecuaciones de regresin para
predecir las variables dependientes a partir de las independientes en los diseos
de series de tiempos u otros modelos causales. Este procedimiento usa
correlaciones parciales para encontrar los coeficientes de regresin, lo que le
20
permite incorporar todas las correlaciones entre las variables y considera los
errores de medicin y de muestreo e incluye las previsiones para reconocer al
menos la posibilidad de otras variables causales no medidas. Se disea un modelo
de relaciones causales hipotticas que quieren probarse, tericamente racionales,
y el modelo calcula relaciones causales entre constructor ms que entre variables
aisladas. El uso de constructos proporciona estimaciones ms estables y
confiables que cancelan los errores y las varianzas especficas de los indicadores
separados.
Contribuciones de la Psicologa Cognitiva: la dcada del setenta plante un
acercamiento entre la Psicologa experimental y la Psicometra que as empieza a
hacer aportaciones importantes a la comprensin de los constructos evaluados por
las pruebas de inteligencia. Ya en los cincuenta los psiclogos cognitivos
empezaron a aplicar los conceptos del procesamiento de informacin al estudio de
la solucin de problemas en el ser humano. Entre las tareas investigadas con esos
mtodos se incluyen rompecabezas, problemas de lgica, lgebra y fsica. Las
variables identificadas por estas investigaciones abarcan procesos. Los modelos
cognitivos especifican los procesos intelectuales empleados para realizar la tarea,
la forma de organizacin de los procesos, el almacenamiento del conocimiento
relevante y la forma en que se representa en la memoria y se recupera cuando se
necesita. Tambin se est dando importancia a la metacognicin que se refiere al
control que el individuo ejerce sobre su eleccin de procesos, representaciones y
estrategias para realizar tareas. Ya en los setenta, psiclogos cognitivos
empezaron a aplicar ese anlisis de tareas y tcnicas de simulacin por
computadora a la exploracin de lo que miden las pruebas de inteligencia. La
investigacin ayuda al avance en la elaboracin y uso de las pruebas. El anlisis
de las tareas cognitivas incluidas en los reactivos de una prueba puede realizarse
por el anlisis del protocolo que pide a los individuos que piensen en voz alta
mientras realizan una tarea o resuelven un problema. Este procedimiento puede
llevar a encontrar que el mismo reactivo puede evocar procesos cognitivos
diferentes en examinados con experiencia y antecedentes distintos. El aporte
principal es haber focalizado la atencin en los procesos de respuesta en vez de
concentrarse en los productos finales del pensamiento. El anlisis de la ejecucin
en la prueba en trminos de los procesos cognitivos especficos, sin duda,
mejorar nuestra comprensin de lo que miden las pruebas. El analizar el
desempeo individual a nivel de los procesos elementales permitir identificar los
21
puntos fuertes y dbiles de cada persona y por ende aumentar el uso diagnstico
de las pruebas (Sternberg y Weil, 1980).
En resumen, la relacin entre psicometra y P. Cognitiva es complementaria desde
el punto de vista de la investigacin y prctica aplicada; y recproca desde el punto
de vista de la teora y la investigacin
bsica. Cada una puede aclarar y
enriquecer a la otra y ambas aumentan la comprensin de la conducta inteligente.
4.2.4. Coeficiente de validez

El coeficiente de validez es la correlacin entre la puntuacin de la prueba y la
medida de criterio. Los datos empleados al calcular cualquier coeficiente de validez
tambin pueden expresarse como tablas o grficos de espectancias que muestran
la probabilidad de que un individuo que obtiene cierta puntuacin en la prueba
obtenga un nivel especificado de desempeo en el de criterio.
Condiciones que afectan a los coeficientes de validez: resulta esencial especificar
la naturaleza del grupo en el que se calcul el coeficiente de validez. La misma
prueba puede medir diferentes funciones cuando se aplica a individuos que
difieren en caractersticas importantes (edad, gnero, nivel educativo, ocupacin,
etc.). Las pruebas diseadas para emplearse con diversas poblaciones deben citar
en los manuales tcnicos los datos apropiados sobre la posibilidad de generalizar.
Ms an en una poblacin en la que haya grandes diferencias en las puntuaciones
de la prueba, el coeficiente de validez puede diferir de manera considerable en
diversas partes del rango de calificacin y debe supervisarse en los subgrupos
apropiados (Lee & Foley, 1986). Existen otros puntos a tener en cuenta tales
como: la heterogeneidad de la muestra, la preseleccin o intencionalidad de la
muestra, la diferente forma de relacin entre la prueba y el criterio, etc.
4.2.5.Validez de la prueba y teora de la decisin

Algunos de los conceptos bsicos de la teora de la decisin han demostrado su
utilidad para replantear y aclarar algunos interrogantes sobre las pruebas. Una
caracterstica de la teora de la decisin es que las pruebas se evalan en trminos
de su eficacia en una situacin particular. La evaluacin no solo toma en
consideracin la validez de la prueba para predecir un criterio particular, sino
tambin otros parmetros como la tasa base y la razn de seleccin. Otro
parmetro importante es la relativa utilidad de los resultados esperados. Por
ejemplo en las decisiones educativas se deben tener en cuenta las metas
institucionales, los valores sociales y otros factores relativamente intangibles. Las
22
decisiones individuales deben considerar las preferencias y el sistema de valores

del individuo. La
teora de la decisin no introduce al proceso de decisin el
problema de los valores, solamente lo hace explcito. Los sistemas de valores

siempre han estado presentes en las decisiones.
La teora de la decisin ha
permitido centrar la atencin en la complejidad de los factores que determinan la

contribucin de determinado instrumento a una situacin particular. El coeficiente
de validez por s mismo no puede indicar si se debe usar o no una prueba, ya que
es slo uno de los factores por ser considerados al evaluar el impacto de la prueba
sobre la eficacia del proceso total de la toma de decisiones.
Variables moderadoras: La validez de una prueba para determinado criterio puede
variar entre subgrupos que difieren en caractersticas personales. El modelo
psicomtrico clsico supone que los errores de prediccin son caractersticos de la
prueba ms que de la persona, que esos errores se distribuyen al azar entre los
individuos. La flexibilidad de la aproximacin introducida por la teora de la decisin
estimul la exploracin de los modelos predictivos que incluan la interaccin entre
personas y pruebas y que implica que la misma prueba puede ser un mejor
predictor para ciertas clases o subconjuntos de personas que para otras; por
ejemplo, cierta prueba puede ser un mejor predictor de criterio de desempeo de
hombres que de mujeres o bien un mejor predictor para personas de nivel
socioeconmico bajo que del nivel alto. En esos ejemplos, gnero y nivel
socioeconmico se conocen como variables moderadoras ya que moderan la
validez de la prueba (Saunders, 1956).Los intereses y la motivacin pueden
funcionar como variables moderadoras de modo que si una persona tiene poco
inters en un trabajo, su desempeo ser malo cualquiera sea la puntuacin que
haya obtenido en las pruebas de aptitudes. Un descubrimiento constante fue una
diferencia de gnero en la prediccin de grados acadmicos. Tanto en educacin
inicial como media y mucho ms en nivel universitario, existen correlaciones
mayores para las mujeres que para los hombres entre las puntuaciones de las
pruebas y el rendimiento acadmico.
4.2.6. Combinacin de informacin a partir de diferentes pruebas

Para la prediccin de criterios prcticos, a menudo se requieren varias pruebas.
Los criterios son, en su mayora, complejos y la medida de criterio depende de
varios rasgos diferentes. Si se diseara una prueba para medir este criterio tendra
que ser muy heterognea, pero es ms conveniente una prueba relativamente
homognea porque produce puntuaciones menos ambiguas. Por ende, a menudo
23
es preferible usar una combinacin de pruebas relativamente homogneas, cada

una de las cuales cubra un aspecto diferente del criterio, en lugar de aplicar una
sola con reactivos muy mezclados. A las pruebas que se emplean en una serie
especialmente seleccionadas para predecir un solo criterio se las conoce como
bateras de pruebas. El problema principal del uso de tales bateras tiene que ver
con la forma en que se combinan las puntuaciones de estos distintos instrumentos
para llegar a una decisin con respecto a cada individuo.
4.3.Validez y utilidad prctica de los Tests para decisiones de clasificacin

Las pruebas psicolgicas pueden usarse con propsitos de seleccin, colocacin
o clasificacin. En la seleccin cada individuo es aceptado o rechazado, en cambio
en la colocacin o clasificacin nadie es rechazado, todos los sujetos son
asignados. El diagnstico clnico es un problema de clasificacin ya que el
propsito principal consiste en tomar una decisin por ejemplo sobre la clase de
terapia ms apropiada.
Validez diferencial: En la evaluacin de una batera de clasificacin, la principal
consideracin es su validez diferencial comparada con criterios separados. El
objeto de la batera es predecir la diferencia en la ejecucin de cada persona en
dos o ms empleos, programas de capacitacin u otras situaciones de criterio. Las
pruebas que se eligen para integrar la batera producen coeficientes de validez
muy diferentes para los criterios separados, por ejemplo en un problema de
clasificacin de dos criterios la prueba ideal tendra una correlacin elevada con un
criterio y una correlacin cero o negativa con el otro. Las pruebas de inteligencia
general son relativamente pobres para los propsitos de clasificacin porque su
prediccin del xito en la mayor parte de las reas es ms o menos igual de
buena, por lo tanto sus correlaciones con los criterios que deben ser diferenciados
son demasiado similares. Un individuo que califique alto en una prueba de
inteligencia sera clasificado como exitoso en cualquier tarea, lo que vuelve
imposible predecir en cul hara mejor papel
24
Segunda Parte
CONSTRUCCIN Y ADAPTACIN DE LOS TESTS
1. Diseo y Elaboracin de los Tests

La elaboracin de las pruebas es un tema complejo que implica la aplicacin de
principios establecidos; la obtencin de una buena prueba no es una cuestin fortuita
sino la respuesta a diversos interrogantes como los que se describen a continuacin:
Qu es lo que la prueba medir segn su diseo?
Cul es el objetivo de la prueba?
Existe necesidad de esta prueba?
Quin usar esta prueba?
Qu contenido abarcar esta prueba?
Cmo se aplicar la prueba?
Cul es el formato ideal de la prueba?
Debera elaborarse ms de una forma de la prueba?
Qu capacitacin especial se requerir de los administradores de la prueba para

aplicarla o interpretarla?
Qu clases de respuestas se requerirn de quienes respondan la prueba?
Cmo se interpretarn los resultados de la prueba?
1.1.Teoras de los Tests

Existen diversos paradigmas o modelos que permiten explicar el significado de las
puntuaciones obtenidas con los Tests. El anlisis o modelado de las matrices de datos
obtenidas da como resultado:
la estimacin del nivel en que poseen los sujetos la(s) caracterstica(s) que
mide el test (valores escalares de los sujetos)
la estimacin de los parmetros de los items (valores escalares de los items).
El problema central de la teora de los tests es la relacin que existe entre:
el nivel del sujeto en la variable inobservable que se desea estudiar y
su puntuacin observada en el test.
25
Es decir que el objetivo de cualquier teora de tests es realizar inferencias sobre el

nivel en que los sujetos poseen la caracterstica o rasgo inobservable que mide el test,
a partir de las respuestas que stos han dado a los elementos que forman el mismo.
As para medir o estimar las caractersticas latentes de los sujetos es necesario
relacionar stas con la actuacin observable en una prueba y esta relacin debe de
ser adecuadamente descrita por una funcin matemtica. Las distintas teoras de tests
difieren justamente en la funcin que utilizan para relacionar la actuacin observable
en el test con el nivel del sujeto en la variable inobservable. Y sirven para dar cuenta
del error de medida inherente a toda medicin psicolgica o estimacin del error; y
proporcionar una estimacin del rasgo o caracterstica evaluada (estimacin del rasgo)
a)Teora Clsica de los Tests
La Teora Clsica de los Tests, iniciada por Spearman, sostiene que la puntuacin
observable de una persona en un test es una funcin de dos componentes: su puntaje
verdadero (inobservable) y el error de medicin implcito en la prueba. El TCT (modelo
lineal de la teora clsica) es un modelo de puntuacin verdadera como valor
esperado, esperado como concepto matemtico, probabilstico. Es decir, el puntaje
verdadero de un sujeto en un test sera el promedio aritmtico de las puntuaciones
empricas obtenidas en infinitas aplicaciones (Muiz, 2001).
La Teora Clsica de los Tests (TCT) es, en sntesis, el conjunto de principios tericos
y mtodos cuantitativos derivados de ellos, que fundamentan la construccin,
aplicacin, validacin e interpretacin de distintos tipos de tests y que permiten derivar
escalas estandarizadas aplicables a una poblacin (Hambleton, 1994). Los principios
en que se basa son relativamente simples y se aplican tanto a las pruebas de
desempeo, como a las de aptitud. Durante sus diferentes fases de desarrollo, se han
elaborado procedimientos de anlisis cuantitativo que han sido de gran utilidad,
destacndose en lo general, tres grandes etapas que se identifican por su objeto de
inters primordial, as como por los mtodos cuantitativos y tipos de anlisis tericos
que utilizan.
La primera etapa que Cattell (1986) denomina itemetra, se caracteriza principalmente
por la construccin de pruebas conformadas por reactivos cuyas propiedades
estadsticas eran el centro de atencin principal. Los tests se consideraban como el
producto de la integracin de un conjunto de reactivos cuyas propiedades estadsticas
tenan que ser determinadas antes de que se les incluyera en esa prueba particular.
Esto propici que el concepto de confiabilidad adquiriera prominencia como la principal
virtud de la escala y se meda a partir de la correlacin entre los reactivos individuales
y el instrumento en su conjunto. Si la correlacin era alta, se deca que los reactivos
26
eran los adecuados. Sin embargo, con frecuencia resultaba que la correlacin no era
tan buena, y el resultando era que se obtenan reactivos deficientes y la prueba en su
conjunto era de escaso valor. El concepto mismo de confiabilidad implicaba al de error
de la medida y tuvieron que desarrollarse procedimientos distintos para determinar la
confiabilidad del test de una manera ms precisa. Tal fue el caso de los
procedimientos de pruebas paralelas y de divisin por mitades.
La itemetra hizo contribuciones valiosas a la psicologa debido al nfasis que puso en
el anlisis del error. Entre sus contribuciones se encuentran varios conceptos sobre
precisin de la medida, las tcnicas para el tratamiento del error y el uso generalizado
del error estndar de la medida como la medida bsica del error. Adems, dio lugar a
contribuciones tales como las frmulas de Spearman-Brown (Spearman, 1904), KuderRichardson (Kuder & Richardson, 1937), Alfa de Cronbach (Cronbach, 1951) y a varios
principios bsicos de escalamiento, as como al uso generalizado de la curva normal,
el
uso
de
las
correlaciones
mltiples
la
frmula
de
atenuacin,
etc.
La siguiente etapa es la que Cattell (1986) denomina psicometra estructural y se

caracteriza por el uso de las nuevas herramientas estadsticas tales como el anlisis
factorial con sus diversas variantes tcnicas, como un medio para encontrar la
"estructura natural" de las habilidades en el contexto de los factores culturales, la
dotacin gentica, la personalidad, los rasgos, los motivos dinmicos y las
dimensiones que dan lugar a la accin y al comportamiento. Su objetivo primordial no
era como tal, aplicar pruebas, sino determinar la relacin que hay entre los conceptos
clnicos sobre personalidad, y los fundamentos de la investigacin experimental
multivariada (cuantitativa por naturaleza), as como analizar las interacciones
dinmicas entre los rasgos y los estados de la personalidad. Los tests se
consideraban significativos en la medida que armonizaban con los constructos tericos
formulados conceptualmente.
La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las
aplicaciones inmediatas y simplistas que identificaban a las estadsticas con factores
conductuales, y profundiza en las leyes y formulaciones conceptuales del
comportamiento: que relaciona rasgos, procesos y estados psicolgicos con las
mediciones y estrategias estructurales" (Cattell, 1986). Ese tipo de leyes, segn
Cattell, se refieren a las relaciones sistemticas y consistentes obtenidas de los
estudios empricos sobre el desarrollo, en el conocimiento acerca de los rasgos
determinados en forma hereditaria, de los rasgos modificables por las experiencias y el
aprendizaje y de la modulacin de los estados psicolgicos producidos por las
relaciones psicofisiolgicas.
27
En resumen, el desarrollo de la teora clsica de los tests ha procedido de etapas

orientadas en forma pragmtica para desarrollar tests y validar reactivos, (donde los
constructos psicolgicos tericos se definan operacionalmente como "aqullo que
mide la prueba x"); hacia etapas conceptualmente ms elaboradas en que los tests se
derivan de teoras del comportamiento ms articuladas y donde cada reactivo tiene un
significado conceptual definido en un contexto terico particular.
Limitaciones de la Teora Clsica de los Tests: De acuerdo a la Teora Clsica de los
Tests (TCT), la elaboracin de pruebas de desempeo mximo involucra la seleccin
de reactivos de acuerdo a su contenido, nivel de dificultad y poder de discriminacin.
Los reactivos ms deseables son los que poseen un nivel mayor de discriminacin. El
nivel de dificultad por su parte, se ajusta de acuerdo a: 1. El propsito de la prueba, y;
2. El criterio preestablecido para el grupo al cual se aplicar la prueba.
Los ndices estadsticos empleados por la TCT no se mantienen constantes cuando se
aplican a poblaciones que difieren en habilidad respecto de la poblacin empleada
para obtener las normas del test. Por lo tanto, el xito de las tcnicas clsicas de
seleccin de reactivos depende de qu tan parecida es la poblacin con la cual se
obtuvieron los ndices respecto de la poblacin a la que se pretenden aplicar. Si la
diferencia es grande, los ndices obtenidos de los tems no sern apropiados para la
poblacin objetivo. En otros trminos, la teora clsica de los tests no puede predecir
cmo responder un individuo a los tems a menos que esos tems hayan sido
previamente administrados a personas similares (Lord, 1980) Durante el trabajo
prctico de elaboracin de tests, normalmente el grupo a partir del cual se obtienen los
ndices y el grupo al cual el test va dirigido, difieren considerablemente.
Un caso especial en el cual los ndices clsicos de los reactivos se obtienen a partir de
grupos que difieren de la poblacin a la que van dirigidos, puede verse al estructurar
bancos de reactivos. Al elaborar un banco de reactivos, las caractersticas de los tems
que van a ser incluidos en el banco, deben ser determinadas. Los tems con
frecuencia denominados "experimentales", se incluyen en un test que es administrado
a un grupo de personas de tal manera que se obtienen como resultado, los ndices de
esos reactivos. Por supuesto, no todos los reactivos experimentales sern incluidos en
un test particular. Por lo tanto, se crean mltiples formas del test, cada uno de los
cuales contiene diferentes reactivos experimentales y las diferentes formas se aplican
a grupos distintos de examinados. Dado que generalmente no es posible asegurar que
las diferentes formas del examen sean administradas a grupos equivalentes, los
ndices de los reactivos experimentales que se aplicaron a grupos distintos no pueden
ser equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto, si los reactivos
28
fueron incluidos en el examen bajo el supuesto de que sus ndices eran comparables,
entonces cualquier test construdo a partir de ese banco de reactivos no podr ser
apropiado para ninguna de las poblaciones que pudieran ser seleccionadas en un
momento dado. Por otra parte, an cuando un banco de reactivos se encuentre bien
conformado, otro problema de la TCT es la precisin de la medicin. Y es que en la
teora clsica de los Tests, la contribucin de un tem a la confiabilidad de la prueba no
depende de las caractersticas del reactivo slamente, sino que tambin depende de la
relacin que hay entre el reactivo en cuestin y los otros reactivos del test. Por lo
tanto, no es posible aislar la contribucin de un tem a la confiabilidad de la prueba y
por lo consiguiente, tampoco su participacin al error estndar de la medida
(Hambleton, Swaminathan, & Rogers, 1991).
Finalmente, no obstante que el desarrollo de la teora clsica de los tests lleg, con la
etapa funcional de los tests, a un punto en que la conceptualizacin de los resultados
de los tests, y consecuentemente su proceso de desarrollo, permitan mediante
sofisticados procedimientos estadsticos, sacar a los reactivos de los lmites impuestos
por la prueba en su conjunto, la limitacin terica an permaneca y se haca
necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para la
conceptualizacin de los reactivos como unidades independientes del test y del grupo
utilizado para normarlo, se obtuvo con la Teora de Respuesta al tem.
b) Teora de la Generalizabilidad
Cronbach y Glaser (1972) postularon la Teora de la Generalizabilidad (TG) que es
una extensin del modelo clsico en el que diversas mediciones del mismo individuo
pueden variar tanto por efecto de una variacin en lo que se mide como por el error de
medicin (Nunnally y Bernstein, 1995). En esta teora las decisiones sobre la bondad
de un instrumento se basan en estudiar las fuentes y tipos de error, utilizando el
anlisis de varianza. Cuando se mide una variable se trata de generalizar los
resultados a un dominio o universo confiable de observaciones. El puntaje del universo
es semejante al puntaje verdadero en el modelo clsico. La diferencia es que en la
TCT se considera que la varianza de error es de una sola clase y, en cambio, la TG
reconoce que existen otros universos de generalizacin y por lo tanto muchos puntajes
de universo posibles. Solo cuando el universo se ha definido podemos afirmar cules
son las fuentes de variacin que producen error. Las diferentes fuentes de error en
esta teora se denominan facetas, trmino que introdujo Cronbach para designar cada
29
una de las caractersticas de la situacin de medicin que pueden cambiar de un

momento a otro y, por tanto, hacer variar los resultados obtenidos.
Segn esta teora los puntajes observados solo poseen inters si son representativos
de todos los puntajes posibles de un mismo universo. Poblacin es el conjunto de
personas de las que se extrae una muestra; y Universo es el conjunto de todos los
tems posibles de un constructo; y Universo de Condiciones de Medicin al conjunto
de todas las facetas estudiadas. Las distintas fuentes de variaciones asociadas a las
facetas y a sus interacciones se estima que contribuyen a la varianza de error y
disminuyen la generalizabilidad de los puntajes observados en las personas
evaluadas.
c)Teora de Respuesta al tem

La literatura sobre tests registra en los ltimos 30 aos un desplazamiento progresivo
del esquema proporcionado por la Teora Clsica de los Tests, hacia el contexto y los
procedimientos delineados por la Teora de Respuestas al tem (TRI) [Del ingls: tem
Response Theory - IRT]. Esta teora, fue desarrollada para resolver varios de los
problemas que presentaba la TCT (Hambleton & Swaminathan, 1985) y que no haban
sido resueltos de una manera satisfactoria. Algnos de esos problemas son:
(1) El uso de ndices de los reactivos cuyos valores dependen de la poblacin
particular de la cul fueron obtenidos, y
(2) La estimacin de la habilidad del examinado depende del conjunto especfico de
reactivos incluidos en la prueba.
Es decir, las caractersticas del examinado y las caractersticas de la prueba no
pueden separarse en un instrumento elaborado conforme a los principios de la Teora
Clsica de los Tests; y por el contrario, cada uno slo puede ser interpretado en
trminos del otro. Las caractersticas del examinado en las cuales la teora TRI est
interesada, son la "habilidad" que mide el test. Para la TCT, la nocin de habilidad se
expresa por medio del llamado puntaje verdadero que se define como "el valor
esperado a partir de la destreza observada en la prueba en cuestin" (Hambleton,
Swaminathan, y Rogers, 1991).La habilidad del examinado se define slo en trminos
de una prueba especfica. Si el test es "difcil", el examinado parecer tener un nivel
bajo de habilidad. Si el test es "fcil", el examinado parecer tener un mayor nivel de
habilidad. Y el nivel de dificultad de la prueba se define como "la proporcin de
examinados en el grupo de inters, que contest el reactivo correctamente"
(Hambleton, Swaminathan y Rogers, 1991) Por lo tanto, el que un tem sea difcil o
fcil depende de la habilidad de los examinados a quienes se aplic la prueba y a su
30
vez, la habilidad de los examinados depende del nivel de dificultad de la prueba.

De la misma forma, el nivel de discriminacin de los reactivos y los coeficientes de
validez y confiabilidad de la prueba se definen tambin en base a las caractersticas
del grupo particular de examinados. As, las caractersticas del test y de los reactivos
cambian a medida que cambia el contexto de la prueba. Por lo tanto, es muy difcil
comparar examinados a quienes se aplican diferentes tests; o an, comparar tems
cuyas caractersticas se obtuvieron utilizando diferentes grupos de examinados.
Esto significa que los coeficientes de los reactivos son dependientes del grupo al
mismo tiempo que son dependientes del test. Esta clase de dependencia es la que se
trata de eliminar mediante la TRI. Otro problema de la TCT es que es centrada-en-eltest, ms que centrada-en-el-reactivo. No se toma en consideracin cmo responde el
examinado a un reactivo dado, y por lo tanto, no se tienen bases para determinar qu
tan bien podra desempearse un examinado particular ante un reactivo individual. Es
decir, la TCT no permite hacer predicciones acerca de cmo se comportar un
individuo o grupo particular ante un reactivo dado. Esta posibilidad de prediccin es
importante en una gran variedad de situaciones como por ejemplo, cuando se intenta
predecir el comportamiento de un profesional ante diferentes tipos de situaciones
prcticas.
De
acuerdo
Hambleton,
Swaminathan
Rogers
(1991),
las
principales
caractersticas de la TRI como una alternativa a la teora clsica de los tests son:
1. Las caractersticas de los reactivos no dependen del grupo del cul fueron
obtenidos;
2. Los puntajes que describen la habilidad del examinado no dependen del test en su
conjunto;
3. El modelo se expresa a nivel del reactivo ms que a nivel del test;
4. El modelo no requiere de pruebas paralelas para determinar el ndice de
confiabilidad; y
5.
Provee
una
medida
de
la
precisin
de
cada
ndice
de
habilidad.
Los postulados bsicos de la TRI son:

1) El resultado de un evaluado en un tem puede ser explicado por un conjunto de
factores llamados rasgos latentes o aptitudes
2) La relacin entre la respuesta de un sujeto a un tem y el rasgo latente que subyace
puede describirse como una funcin monotnica creciente que se llama funcin
caracterstica del tem o curva caracterstica del tem (CCI) Esta funcin especfica que
a medida que la aptitud aumenta la probabilidad de una respuesta correcta al tem
tambin aumenta.
31
3) Las estimaciones de la aptitud obtenidas con distintos tems seran iguales y las
estimaciones de los parmetros de los tems obtenidos en distintas muestras de
examinados sern iguales. Es decir que en la TRI los parmetros de aptitud y de los
tem son invariantes.
La ejecucin de un examinado en una prueba puede ser predichos por un conjunto de
rasgos, rasgos latentes y habilidades; y (2) la relacin entre las respuestas de los
examinados a los reactivos y el conjunto de rasgos que subyacen a la respuesta ante
el reactivo, pueden describirse por una funcin monotnicamente incrementada
llamada funcin caracterstica del reactivo o curva caracterstica del tem (CCI). Esta
funcin especifica que a medida que el nivel del rasgo incrementa, tambin incrementa
la
probabilidad
de
una
respuesta
correcta
ante
ese
reactivo."
(p.7)
Son supuestos de la TRI:

1. La unidimensionalidad del rasgo latente: que las respuestas del examinado estn
determinadas por una nica variable denominada Rasgo. Ej.: Un tem de un test
espacial medir solo habilidad espacial y no ninguna otra cosa (Ferreres Traver, 2005)
2. La independencia local: Las respuestas de un evaluado a cualquier par de tem son
independientes y la probabilidad de responder correctamente a un tem es
independiente de la probabilidad de responder correctamente cualquier otro tem
(Ferreres Traver, 2005).
Existen muchos modelos de la TRI, pero los bsicos son:
-
Modelo Logstico de un parmetro o Modelo de Rasch que est medido

en la misma escala que el parmetro zeta que representa el nivel de
habilidad, el parmetro b representa la dificultad del tem. Cuanto mayor
sea el valor de b, ms difcil ser el tem ya que mayor ser el nivel de
habilidad necesario para tener una probabilidad de acertar de 0.5
Modelo Logstico de dos parmetros o Modelo de Birnbaum que indica

en qu medida el tem diferencia entre examinados con un nivel alto y
bajo de habilidad. Cuanto
mayor sea el valor de a, mayor poder
discriminativo del tem, parmetro a que representa la discriminacin

del tem.
-
Modelo Logstico de tres parmetros incorpora junto con el a y el b al c

que representa la probabilidad de acertar el tem que tienen las
personas con un nivel de habilidad muy bajo; o parmetro del pseudo
azar.
Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir
un banco de reactivos con parmetros estimados para cada tem, de acuerdo al
32
modelo seleccionado. El procedimiento recomendado por Lord (1977) consiste en los

siguientes cuatro pasos:
1. Decidir acerca de la forma deseada de la funcin de informacin de la prueba o
curva de informacin deseada (target information curve).
2. Seleccionar los reactivos del banco cuya curva de informacin deseada cae bajo el
rea de la curva de informacin de la prueba, de tal manera que saturen el rea bajo la
curva de la funcin deseada de la prueba.
3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de informacin
de la prueba con los reactivos seleccionados hasta ese momento.
4. Continuar la seleccin de los reactivos hasta que la funcin de informacin de la
prueba se aproxime a la funcin de informacin deseada con un grado satisfactorio."
(p. 23)
Sin embargo, la TRI no se encuentra libre de problemas y su aplicacin contiene
ciertos puntos riesgosos debido a que el uso de criterios estadsticos para la seleccin
de los reactivos no asegura una prueba con contenidos completamente vlidos.
Deficiencias en los procedimientos de seleccin de los contenidos pueden generar una
prueba con un bajo nivel de validez de contenido (Hambleton, Swaminathan y
Rogers;1991).
Otro problema de la TRI es que cuando se utilizan funciones de informacin de los
reactivos durante el desarrollo de una prueba, es probable que los valores sean
sobrevalorados y por lo tanto, la funcin de informacin podra sesgarse. Una prueba
construida con tems de valores elevados puede ser que no corresponda a los de la
prueba esperada. Como consecuencia, la funcin de informacin de la prueba ser
sobrevalorada y por lo tanto, habr que aadir varios reactivos adicionales para
compensar esta sobrevaloracin.
Sin embargo, una de las ventajas de la construccin de los tests de acuerdo a los
modelos de la TRI es que se pueden elaborar tests individualizados, es decir, a la
medida de los sujetos que permiten inferir en cada uno de los evaluados un verdadero
valor del rasgo de la manera ms precisa.
1.2. Definicin del Dominio del Test

Siguiendo a Tornimbeni et al. (2004) la construccin de una escala de medicin de
algn aspecto del comportamiento humano requiere previamente un exhaustivo
anlisis conceptual del dominio o rasgo a medir. Para estos autores se debe obtener
definiciones conceptuales ajustadas del rasgo en cuestin y decidir cul tipo de
33
indicadores operacionales son adecuados para describirlo. Todas las dimensiones

importantes del rasgo estudiado deben incluirse. Si se trata de una prueba para medir
rendimiento, la definicin del dominio puede realizarse delimitando el universo de
situaciones a ser evaluadas. As por ejemplo, en el caso de un examen de Estadstica,
el universo abarcara los objetivos y contenidos del programa de la asignatura. En la
medicin del rendimiento se pueden utilizar pruebas referidas a criterios o referidas a
normas. Los procedimientos de construccin de las pruebas referidas a criterios
difieren de aquellos usados tradicionalmente en las pruebas de rendimiento. Para la
elaboracin de pruebas por normas, se parte de la construccin de una tabla de
especificaciones que es una tabla de doble entrada por medio de la cual se relacionan
los objetivos cuyo logro se desea evaluar con los contenidos especficos
correspondientes. A partir de esta tabla se determina la cantidad de tems que
conformar la prueba y se lleva a cabo su redaccin.
En la construccin de una prueba con referencia a criterios, en cambio, no se realiza
una tabla de especificaciones, sino que se define y delimita el dominio de conductas
correspondientes a cada objetivo. Siguiendo dicha definicin se elaboran los tems que
evaluarn ese dominio de conductas y
todos los desempeos individuales sern
referidos a ese dominio. Tal como lo establece Pophan (1975) citado por Tornimbeni
et al.(2004) por dominio debe entenderse el conjunto de conductas que debera
exhibir el alumno en relacin con un objetivo dado, si ste ha sido alcanzado. Es
decir, todas aquellas tareas que el alumno debera poder realizar si el objetivo ha sido
logrado. Para Hambleton y Rogers (1991) citados por los mismos autores, el dominio
puede ser de conductas, objetivos, destrezas y competencias y la amplitud del dominio
vara en funcin de la finalidad del test. Si el dominio comprende ms de un objetivo
pueden construirse subtests para cada objetivo, y se evala el rendimiento de los
sujetos en cada uno de ellos. Para la especificacin del dominio de conductas o clase
de tareas que el individuo debe realizar, seguiremos el esquema propuesto por
Tornimbeni et al (2004) que proponen:
i. Definicin del objetivo: Se establece cul o cules sern los
objetivos que se evaluarn a travs de la prueba, por ejemplo, la
habilidad de comprensin, que incluye aquellas conductas o
respuestas que se refieren nicamente a una comprensin de
los mensajes literales contenidos en la comunicacin.
ii. Descripcin del objetivo: Se define en trminos de conductas
observables el o los objetivos a ser evaluados. En el ejemplo
anterior se especificara un objetivo de la habilidad de
34
comprensin tal como ser capaz de analizar el propsito del

autor y su punto de vista examinando una comunicacin escrita.
iii. Especificacin de las caractersticas de la situacin de
evaluacin: se especifican todos aquellos aspectos a tener en
cuenta en la situacin de evaluacin, por ejemplo, en un texto de
divulgacin cientfica, seleccionar el prrafo e identificar la
oracin donde se expresa la intencin del autor.
iv. Caractersticas de la respuesta: Se especifica cul es la
respuesta que se espera del sujeto, en este caso, que
seleccione de manera correcta el prrafo y la oracin
correspondiente.
1.3.
Seleccin y elaboracin de las Escalas
La medicin es la asignacin numrica de acuerdo con reglas y las escalas son las
reglas de medicin. La elaboracin de escalas puede definirse como el proceso de
establecimiento de reglas para la asignacin numrica en la medicin. O sea es el
proceso por el cual se disea y calibra un dispositivo de medicin y la forma en que se
asignan nmeros, valores de escala, a diferentes cantidades del rasgo o atributo que
se est midiendo. Al prolfico L. Thurstone se le acredita la adaptacin de los mtodos
de elaboracin de escalas psicofsicas al estudio de variables psicolgicas. Las
escalas son instrumentos usados para medir algo, ese algo en psicometra es un
rasgo o atributo psicolgico. Las escalas pueden clasificarse a lo largo de un
continuo del nivel de medicin y denominarse por su naturaleza como nominales,
ordinales, de intervalo o de razn.
Quienes elaboran las pruebas disean un mtodo de medicin, es decir, hacen la
escala de una prueba, en la forma que creen que se adapta mejor a la manera en que
han conceptualizado la medicin del rasgo o rasgos que son su objetivo. No hay un
nico mtodo para la elaboracin de escalas, el que una escala sea de naturaleza
nominal, ordinal, de intervalo o de razn depender en parte de los objetivos de la
escala y de la legitimidad matemtica de las manipulaciones y transformaciones de los
datos resultantes.
Existen escalas de estimacin que son agrupamientos de palabras, afirmaciones o
smbolos en los que juicios relativos a la intensidad de un rasgo, actitud o emocin
particular es indicada por quien responde la prueba. Un tipo de escala de estimacin
sumatoria, la escala Likert se usa en forma extensa dentro de la psicologa, por lo
general en escala de actitudes. Las escalas Likert son relativamente fciles de
35
elaborar, cada reactivo presenta cinco respuestas alternativas, por lo general, en un

tipo de continuo entre acuerdo y desacuerdo o aprobacin y desaprobacin. Las
escalas Likert son confiables, lo cual puede explicar su popularidad. Otro mtodo de
elaboracin de escalas que produce datos ordinales es el mtodo de comparaciones
apareadas. A quienes responden la prueba se les presentan pares de estmulos y se
les pide que los comparen y seleccionen uno por medio de alguna regla. Otra forma de
derivar informacin ordinal por medio de un sistema de elaboracin de escalas implica
tareas de clasificacin. En estos enfoques se presentan tarjetas impresas, dibujos,
fotografas, u otros estmulos y se les pide a los evaluados que los clasifiquen desde
las ms hasta las menos justificables o que los jerarquicen. Todos los mtodos
anteriores producen datos ordinales, el mtodo de intervalos aparentemente iguales
descripto por Thurstone es un mtodo de elaboracin de escalas para obtener datos
que se supone son de intervalo.
El mtodo de elaboracin de escalas particular empleado en la elaboracin de un test
depender de las variables que se van a medir, el grupo para el que se pretende la
prueba (por ejemplo los nios pueden requerir un mtodo de elaboracin de escalas
menos complicado que los adultos) y las preferencias del elaborador de la prueba.
1.4.
Redaccin de tems
Segn lo afirman Tornimbeni et al. (2004) existen pautas convencionales para la

redaccin de tems de prueba. Estas incluyen recomendaciones tales como: redactar
tems congruentes con el objetivo de medicin y evitar los tems demasiado largos (de
ms de 20 vocablos), las oraciones complejas con ambigedades de sentido, las
frases con dobles negaciones, el uso de expresiones extremas (nunca, siempre,
todos) y utilizar el lenguaje ms apropiado al nivel de maduracin y educativo de la
poblacin (Osterlind, 1990). Para Nunnally (1991) los dos errores ms comunes en la
redaccin de tems son: a) ambigedad (preguntas difusas que admiten varias
respuestas) y b) trivialidad (centrarse en aspectos poco importantes del rasgo o
dominio en cuestin)
Existen formatos de seleccin de respuesta y de construccin de respuesta, los
primeros facilitan la calificacin automatizada y pueden aplicarse con facilidad a gran
cantidad de evaluados. El formato de seleccin de respuesta en presentar una
eleccin de respuestas y requerir la seleccin de una alternativa. Existen tres tipos: los
tem de opcin mltiple, los tem de relacin y los tem de verdadero/falso. Un reactivo
de opcin mltiple consta de tres elementos un enunciado o base del tem, una
36
alternativa u opcin correcta o clave y varias alternativas u opciones incorrectas

llamadas distractores.
1.5.
Revisin del Test por Expertos
Tal como lo explican Tornimbeni et al. (2004), la mayora de los autores recomiendan
que los items preliminares de un test sean revisados por expertos en construccin de
pruebas, en el dominio o rasgo a medir y en el nivel de comprensin de la poblacin a
la cual se apunta con la prueba.
Las tres caractersticas que los expertos deben evaluar en cada tem son:
a) claridad semntica y correccin gramatical
b)adecuacin de su dificultad al nivel educativo y evolutivo de las personas
c) congruencia con el rasgo o dominio medido
Este ltimo tem es el principal parmetro y se refiere al grado de consistencia que
debe existir entre un tem particular y las metas esenciales de la prueba dado que esto
ser un factor posterior de confiabilidad y validez (Oesterlind, 1990). A los jueces se
les pide que evalen la calidad y consistencia de los items y se descartan aquellos con
puntuaciones medias ms bajas y con escaso grado de acuerdo, respectivamente. Se
recomienda que los tem seleccionados sean aquellos en que, al menos, un 60% de
los jueces coinciden (Herrera Rojas, 1993) Es til tambin incluir preguntas que
demanden informacin cualitativa sobre los tems lo que puede facilitar un
mejoramiento en el fracaso de algunos de ellos.
1.6.
Anlisis y Seleccin de tems
Siguiendo a Tornimbeni et al. (2004) podemos afirmar que existen varios

procedimientos de anlisis de los tems de una prueba preliminar. Todos ellos se
ocupan esencialmente de: a) la distribucin de los puntajes de cada tem y b) la
relacin estadstica entre el tem y la prueba total. Tal como lo plantean los autores
mencionados, el primer paso para obtener informacin psicomtrica sobre los items de
pruebas homogneas consiste en administrar los elementos preliminares a una
muestra amplia (superior a 300 sujetos) que sea representativa de la poblacin que se
quiere evaluar en la prueba final. Para descartar los tems que no funcionan bien debe
contarse con una cantidad de sujetos por lo menos cinco veces superior al nmero
inicial de reactivos y aproximadamente el doble de tem de los que aparecern en la
versin definitiva de la medida. La determinacin del numero muestral necesario para
realizar anlisis de tem y los estudios de validez y confiabilidad de un test es un punto
conflictivo debido a las dificultades existentes para seleccionar participantes en
37
determinados contextos de aplicacin de la psicologa o con determinadas

poblaciones. El ideal, coincidiendo con los autores mencionados, ronda entre los 300 a
400 sujetos para estudios correlacionales pero este nmero no es condicin suficiente
de buenos ndices psicomtricos (por ejemplo un alfa superior a .80). Existen otros
factores intervinientes como el entrenamiento de los evaluadores o la heterogeneidad
de la muestra que pueden incrementar los valores de confiabilidad y validez y
compensar tamaos maestrales inferiores al estndar mencionado (Pajares, Hartley y
Valiente, 2001).
El procedimiento ms empleado en el anlisis inicial de reactivos es la correlacin de
cada uno de ellos con el puntaje total de la prueba. Si el test consta de diversas
subescalas, cada tem debe correlacionarse con el puntaje total de esa parte, no con
el puntaje total de la prueba. El estadstico usual es el producto momento de Pearson (
r ) o correlacin punto biserial si se trata de tem dicotmicos (si/no, verdadero/falso).
Los tem con correlaciones no significativas o bajas (inferiores a .30) se eliminan o se
revisan y se conservan los menos ambiguos, ni fciles ni dificultosos y ms
relacionados con el constructo (Nunnally y Bernstein, 1995). Cuando hay items con
varias alternativas de respuesta es aconsejable obtener las correlaciones de cada una
de las alternativas con el puntaje de la prueba total, sobre todo en aquellos de
correlacin baja o negativa. Los mejores distractores sern aquellos que obtengan
correlaciones negativas con los puntajes de la prueba, es decir, que sean
seleccionados por quienes tienen puntajes bajos en la prueba (Herrera Rojas, 1993).
En las pruebas de habilidades (tems dicotmicos) es importante conocer el ndice de
dificultad de cada tem, o sea el porcentaje de personas que responden
acertadamente al reactivo analizado. El ndice de dificultad de los reactivos tiene un
rango de 0 a 1 y se simboliza como p. Un reactivo cuyo p es 0 est indicando que
ningn sujeto contest correctamente y un reactivo con p igual a 1 es aquel que todos
los sujetos respondieron correctamente. El valor ptimo de p para un reactivo depende
de varios factores, tales como los objetivos de la prueba y la cantidad de alternativas
de respuesta. Si el propsito del test es identificar slo un porcentaje reducido de los
mejores postulantes para un empleo, por ejemplo, entonces los items de la prueba
deberan ser lo suficientemente difciles y tener un valor medio-bajo de p. Para
pruebas convencionales de habilidades se recomiendan valores p entre .20 y .80
(Aiken, 2003)
La proporcin de acierto de un tem es un estimador adecuado de la dificultad de un
tem. Sin embargo, esta informacin hay que complementarla con la distribucin de
frecuencias en todas las opciones de respuesta (en elecciones mltiples) y las
38
estimaciones de proporcin para diferentes rangos de puntuacin en la prueba total.

En escalas con formatos tipo Likert, los reactivos donde la mayora de los evaluados
responde con las mximas o mnimas categoras (p.ej. 1 o 10) indican que tales items
carecen de suficiente dificultad (atractivo) o son excesivamente difciles para los
evaluados. Con la misma lgica deben eliminarse los reactivos donde la mayora de
los sujetos de la muestra obtiene el mismo puntaje puesto que tales elementos de
prueba no discriminan entre los evaluados (Bandura, 2001)
Las pruebas referidas a criterios, como explica Martnez Arias (1995) se evalan y
seleccionan los items de una forma particular, diferente a las pruebas referidas a
normas. El anlisis se realiza comparando los resultados de un grupo antes de aplicar
un programa de aprendizaje y despus del mismo, o comparando dos grupos
similares, uno de ellos, que recibi capacitacin y el otro no. Al calcular el ndice de
dificultad los resultados esperados son, items con alta dificultad para los grupos que
no han pasado por el proceso de aprendizaje, y baja dificultad para los que han sido
sometidos al proceso de instruccin. En cuanto al ndice de discriminacin, obtenido
por la comparacin entre grupos, se espera mxima discriminacin entre los grupos y
mnima entre los individuos de un mismo grupo.
Una vez realizada la aplicacin de la prueba piloto y habiendo obtenido resultados
estadsticos sobre el comportamiento de cada tem se podrn tomar decisiones sobre
cules de ellos deben integrar la forma final del test y hacer estimaciones de su
confiabilidad y validez mediante algunos de los procedimientos ya conocidos.
La lgica de este proceso de anlisis es obtener pruebas lo ms homogneas
posibles, es decir, donde todos los reactivos se relacionen con un ncleo comn de
medicin que es el constructo o dominio, informacin que se obtiene aplicando a los
reactivos de una escala el coeficiente alfa de Cronbach, por ejemplo. El conjunto de
tems seleccionados despus de examinar la correlacin tem-total de cada uno, es
analizado con este procedimiento de homogeneidad (alfa o KR-20) y debemos
asegurarnos valores de.80 o superiores. Los tems con correlaciones bajas con el
puntaje total se pueden remover para incrementar el valor del alfa. Si bien un
coeficiente alfa elevado es una condicin necesaria de unidimensionalidad esta
propiedad solo es garantizada por el anlisis factorial (Goldberg, 1999)
El paso decisivo para asegurar la unidimensionalidad de cualquier escala homognea
y el primer paso en un conjunto inicial de tem heterogneos (sin un explcito marco
terico previo) es el anlisis factorial (Martnez Arias, 1995). El anlisis factorial es
esencialmente un mtodo para agrupar las variables que se correlacionan fuertemente
entre s y cuyas correlaciones con las variables de otros agrupamientos es menor
39
(Airen, 2003). Segn Klline (2000) el anlisis factorial es un mtodo estadstico en el

cual las variaciones en los puntajes de un nmero de variables son explicadas por un
nmero ms reducido de dimensiones o constructor (factores). El anlisis factorial es
una tcnica analtica que permite reducir un nmero extenso de variables
interrelacionadas a una cantidad pequea de dimensiones latentes. (Glutting et al.
2002)
Una distincin inicial importante es la que debe realizarse entre anlisis factorial
exploratorio y confirmatorio. En el primero se extraen factores sin una estructura
terica previa conjeturada de modo explcito. En cambio el enfoque confirmatorio, los
factores son definidos a priori en base a un modelo terico y en este caso, el anlisis
intenta verificar qu tan bien se adaptan los datos observables a ese modelo.
Antes de realizar un anlisis factorial debe determinarse si los items estn
suficientemente interrelacionados. Existen algunas pruebas estadsticas que pueden
emplearse con esa finalidad. Unas de las ms empleadas son el test de esfericidad de
Bartlett y la medida de adecuacin del muestreo de Kaiser-Mayer-Olikin que se
interpreta de manera semejante al coeficiente de confiabilidad, es decir, con un rango
de 0 a 1 y considerando los valores superiores a .80 como muy adecuados. Si es as,
se puede aplicar el anlisis factorial en sus diferentes variantes.
Los principales mtodos exploratorios para extraer factores son: Anlisis de
Componentes Principales, Ejes Principales y el de Mxima Probabilidad. Este ltimo
muy usado por representar un enfoque estadstico inferencial en psicometra. El
mtodo PC explica la mayor cantidad de varianza posible en los datos observados y
es por consiguiente un mtodo ms descriptivo que inferencial. El mtodo de ejes
principales es anlogo al anterior para los mismos fines.
El anlisis factorial debe realizarse sobre muestras extensas no inferiores a 300
sujetos para obtener datos tiles. Adems se debe contar idealmente con 10 veces el
nmero de sujetos por variable o al menos 5 veces ese nmero (Nunnally, 1991). La
seleccin del nmero correcto de factores es una de las decisiones ms dificultosas
del anlisis factorial. Luego de extraer los factores iniciales, se realiza un
procedimiento de rotacin que permite eliminar los pesos negativos importantes y
reducir el nmero de cargas factoriales de cada variable en los diversos factores
(Anastasi, 1998). Las rotaciones colocan a las variables ms cerca de los factores
diseados para explicarlas, concentran la varianza de las variables en menos factores
y, en general, proporcionan un medio para facilitar la interpretacin de la solucin
factorial obtenida. Los factores rotados explican la misma varianza que el conjunto de
los factores (no rotados) pero la estructura de las cargas factoriales se modifica y son
40
ms simples de interpretar, debido al aumento de las cargas positivas extremas (bajas

y altas).
La tarea final del anlisis factorial es interpretar y nominar los factores. Esto se logra
inspeccionando el patrn de cargas factoriales bajas y altas de cada variable sobre los
distintos factores
y mediante el conocimiento que se posea de las variables
implicadas. Cuando los factores obtenidos estn correlacionados es posible someter

sus correlaciones al mismo anlisis estadstico que utilizamos con las correlaciones
entre tems. Podemos realizar un anlisis factorial de los factores obtenidos por
rotacin oblicua y derivar factores de segundo orden o superior, es el caso del 16 PF
donde los factores iniciales son 16 pero un nuevo anlisis reduce el modelo a 5
factores de segundo orden asimilables al modelo de cinco grandes factores del
Inventario NEO-PIR.
En el enfoque psicomtrico actual, el anlisis factorial se utiliza ms como estrategia
confirmatoria de un modelo terico previo, en especial, dentro del marco metodolgico
del Modelo de Ecuaciones Estructurales. De modo contrario se corre el riesgo de
obtener estructuras puramente empricas dependientes de la muestra escogida y no
replicables con facilidad.
Estas estrategias analizadas son congruentes con la Teora Clsica de los Tests. El
anlisis desde el enfoque de la Teora de Respuesta al tem emplea estrategias tales
como: discriminar distintos niveles del rasgo medido, asegurar la homogeneidad
mediante los ndices de discriminacin o minimizar el funcionamiento diferencial de los
tems de prueba (Goldberg, 1999). En este momento se pueden complementar ambos
criterios los de la TCT y los de la TRI como etapa de transicin ante los nuevos
desarrollos de esta ltima.
2.
2.1.
ADAPTACIN DE LOS TESTS

Mtodos de Adaptacin de los Tests
Actualmente se reconoce que la adaptacin de un Test es un proceso mucho ms

complejo que la mera traduccin de ese test en un idioma diferente. Una adaptacin
implica considerar no slo las palabras utilizadas al traducir la prueba sino tambin las
variables culturales involucradas. La traduccin del ingls al espaol del siguiente tem
del NEO PIR I wouldnt enjoy vacationing in Las Vegas por No disfrutara tomando
vacaciones en Las Vegas es correcta. Sin embargo, este tem probablemente tenga
un
significado
distinto
ara
muchas
personas
en
Argentina
que
para
los
estadounidenses y, probablemente, el significado sea mucho ms diferente en culturas

no occidentales. As una correcta traduccin no asegura un significado unvoco. Van
41
de Vijver y Leung (1997) establecieron tres niveles de adaptacin de las pruebas

psicolgicas. El primero corresponde al de la aplicacin, este es, la simple y llana
traduccin de un test de un idioma a otro Este mtodo asume la equivalencia de
constructo. Desafortunadamente, es el mtodo ms comn y ms utilizado en todo el
mundo. Como se indicara anteriormente la sola traduccin de una prueba no nos
indica ningn nivel de equivalencia entre ambas versiones de la misma.
La segunda alternativa es la adaptacin. En este caso a la traduccin se agrega la
transformacin, adicin o substraccin de algunos tems de la escala original. Como se
explic, algunos tems pueden cambiar su significado a travs de las culturas y, por lo
tanto, necesitan modificaciones o ser eliminados. As mismo tems que no existen en
la versin original del test pueden representar mejor al constructo en la poblacin en la
cual se administrar la nueva versin. Baldo (2000) al realizar una baremizacin del
WISC III en Crdoba encontr que el nivel de dificultad original de los tems
pertenecientes a los subtests Comprensin, Vocabulario e Informacin no eran
aplicables a la poblacin Argentina, por lo que propuso un nuevo ordenamiento de los
tems. Este es un ejemplo de adaptacin sin adicin o substraccin de tems.
Finalmente, la opcin ensamble puede emerger al momento de adaptar un instrumento
de evaluacin psicolgica. En este caso el instrumento original ha sido modificado tan
profundamente que prcticamente se ha transformado en un nuevo instrumento
original con los nuevos elementos. Esto ocurre cuando muchos de los tems del test
original son evidentemente inadecuados para representar el constructo a medir. Esto
sucede en tests de denominacin confrontacional, utilizados en neuropsicologa,
donde se utilizan lminas con dibujos de objetos que el evaluado debe nombrar. Estos
objetos tienen distinta frecuencia de observacin en la vida diaria de un sujeto y por
ello van a variar considerablemente de una cultura a otra. Es el caso de la adaptacin
Argentina del Test de Denominacin de Boston (Allegri et. Al 1997). En la versin
original la figura de una bellota est ubicada en el lugar nmero 32 mientras que en la
versin Argentina tal lmina se encuentra sobre el final en el nmero 50. El ensamble
tambin se da cuando el constructo no est representado de forma adecuada por la
versin original en la cultura a la que se quiere adaptar la prueba. Los abordajes
indigenistas de la medicin de la personalidad, por ejemplo, han promovido el diseo
de tests distintos para abarcar aspectos de la personalidad no contemplados en las
teoras occidentales. Tal es el caso del Inventario Chino de Evaluacin de la
Personalidad, que contiene dimensiones indigenistas de la personalidad tales como
armona.
42
2.2.
Tcnicas de Traduccin
El proceso de traduccin es complejo e implica mas que la traduccin lineal de las

palabras escritas a un nuevo lenguaje. Existen dos mtodos comunes: la traduccin
directa o forward translation y la traduccin inversa o backward translation. En el
mtodo de traduccin directa un traductor, o preferentemente, un grupo de
traductores, traducen el test desde el idioma original al nuevo idioma. Luego, otro
grupo de traductores, juzga la equivalencia entre las dos versiones. De este modo
pueden realizarse las correcciones pertinentes en las dificultades o errores
identificados por los traductores. En el caso de la traduccin inversa, l mas utilizado
de los mtodos, un grupo de traductores realiza una traduccin desde el idioma
original al nuevo idioma; luego un segundo grupo de traductores toma el test traducido
( en el nuevo idioma) y vuelve a traducirlo al idioma original. Seguidamente se realizan
las comparaciones entre la versin original y la versin retraducida al idioma original
para determinar su equivalencia. Ambos mtodos poseen diversas ventajas y
desventajas, se ejemplifica la metodologa utilizada para la traduccin de instrumentos
con el caso de la prueba CPI- 434 que actualmente se encuentra en desarrollo.
2.3.
Mtodos para establecer la Equivalencia entre Tests
Una vez que se ha traducido convenientemente una prueba es necesario realizar un

estudio para establecer si esta traduccin en la prueba es equivalente a la original.
Para ello habr de implementarse un diseo experimental y un anlisis de datos
obtenidos a travs de ese diseo. Hambleton ( 200) seala que existen bsicamente 3
mtodos.
1)Administracin de la prueba en el idioma original y de la prueba traducida a sujetos
bilinges: En este caso se le administrara ambas versiones de la prueba ( la original y
su traduccin al nuevo idioma) a sujetos que hablan ambos idiomas. Si por ejemplo,
deseamos traducir el test de Inteligencia de Wechsler para Adultos, Versin III desde
el ingles al Espaol, administraremos la versin en Ingles y la versin en Espaol a los
evaluados que hablen ambos idiomas. Este mtodo segn Hambleton, posee ventajas
y desventajas. Entre las primeras se pueden mencionar que pueden controlarse las
diferencias de las caractersticas de los participantes en el test ( por ejemplo su
habilidad) ya que ambas pruebas son administradas a la misma persona. Entre las
desventajas, este autor que este diseo esta basado en la premisa de que los sujetos
son igualmente competentes en ambos idiomas, lo cual es difcil de sostener. Es
probable, entonces, que puedan observarse diferencias entre ambas versiones debido
a una menor capacidad de algunas personas para entender los tems en alguno de los
43
dos idiomas. La segunda gran desventaja de este diseo es que no puede asegurarse
que los bilinges posean el mismo nivel de competencia que la poblacin general. Por
el hecho de conocer otro idioma es probable que se trate de personas con una mayor
capacidad intelectual o mejor educacin. Hambleton, tambin seala una variacin de
este mtodo que conserva las misma ventajas y desventajas pero que es ms fcil de
implementar. La misma consiste en administrar al azar una ( no ambas) de las
versiones del test ( en espaol o en ingles) a los participantes bilinges.
2)Administracin de la versin original y su traduccin inversa a monolinges en el
idioma original: Siguiendo nuestro ejemplo anterior, planteado por las autoras
Tornimbeni et. Al. 2004) se le administrara la versin original del WAIS III y la
versin obtenida de la traduccin inversa a sujetos cuyo idioma natal es el ingles. La
equivalencia de los tems se determina comparando el desempeo de cada sujeto en
cada tem de ambas versiones. Nuevamente, la ventaja esta en el control de las
diferencias en las caractersticas de los participantes. La primer gran desventaja esta
en que este diseo no permite obtener datos con la versin en el idioma meta ( target)
del test ( espaol en el ejemplo). De esta manera no es posible obtener puntajes de
sujetos que hablen el idioma al que se intenta traducir el test. La segunda gran
desventaja de este diseo reside en el hecho de la posible falta de independencia
entre los puntajes obtenidos ya que es probable que exista un efecto de aprendizaje
luego de la administracin de la primer versin de la prueba, especialmente si la
primera es la original. La administracin al azar de una de las versiones en el primer
lugar puede reducir la importancia del efecto de aprendizaje.
3)Administracin de la versin original a monolinges que hablan el idioma original y
de la versin traducida a monolinges que hablan el idioma al que ha sido traducida la
prueba: Siguiendo con el ejemplo enunciado por Tornimbeni et. Al (2004), se
administrara la versin en ingles del WAIS III a evaluados cuyo idioma natal es el
Espaol. Una posible dificultad reside en asumir que los sujetos de ambas muestras
poseen una habilidad comparable. sin embargo, Hambleton sugiere que tal obstculo
puede superarse si los anlisis son desarrollados con la Teora De Respuesta al tem,
en la cual se asume que utilizando distintos conjuntos de tem pueden obtenerse las
mismas estimaciones de aptitud . Igualmente, administrando esos tem a distintas
muestras de examinados las estimaciones de parmetros obtenidas sern iguales.
Una vez obtenidos los datos por medio de los diseos revisados
existen varias
posibilidades estadsticas para su anlisis. Bsicamente el anlisis estar destinado a

identificar la existencia de Funcionamiento Diferencial de items ( FDI) es decir, tem
que se comportan en forma diferente a travs de las diversas muestras transculturales.
44
Por ejemplo, en las investigaciones citada de Tanzer ( 1995) en donde el investigador

le administro dos cuestionarios sobre autoconcepto acadmico de lectura y
matemticas. En los resultados pudo observarse
mostraba
que a pesar de que la prueba
la misma estructura factorial para ambos grupos culturales, cuando las
escalas de los tems de competencia/ facilidad se trabajaban
en forma individual
podan observarse grandes diferencias entre ambos grupos culturales.
El autor
especulo con que tal diferencia s deba a un factor cultural de modestia, la cual es
una virtud deseable dentro de la cultura de Singapur, fuertemente influenciada por la
cultura china. As, los singaporeanos eran ms renuentes
a mostrar una actitud
autoelogio o jactancia. Esta investigacin adems, de ser un ejemplo de FDI, muestra

tambin la insuficiencia de comparar las estructuras factoriales de las pruebas cuando
son aplicadas transculturalmente. Como puede observarse en estos resultados, es
necesario siempre realizar un anlisis de (FDI) ya que a pesar de conservar una
misma estructura factorial un grupo puede mostrar valores mucho ms bajos que otro
en determinados tem.
Existen diversos mtodos en los que se puede analizar el comportamiento de los
tems. Algunos mtodos dentro de la TCT tales como los mtodos de suma de chicuadrado o el de Mantel y Haenzel que fuera adaptado para el FDI por Holland y
Thayer ( 1988) y que es en la actualidad l mas utilizado a estos fines. El anlisis
puede desarrollarse dentro de la TRI en donde el mismo se centrara en las
probabilidades que tiene una persona con un determinado nivel de habilidad de
contestar un tem en forma correcta. El modelo de Rasch, de un solo parmetro es l
ms popular.
2.4 Fuentes de Sesgo

Si deseamos usar las pruebas para predecir resultados en alguna situacin futura
como por ejemplo en el desempeo de un aspirante a la universidad, necesitamos
instrumentos con alta validez predictiva del criterio particular. Este requisito suele
descuidarse en el desarrollo de las llamadas pruebas libres de influencia cultural. En
un esfuerzo por incluir en esas pruebas solo las funciones comunes a diferentes
culturas o subculturas, puede elegirse un contenido que tenga poca relevancia para el
criterio que se pretenda predecir. Una mejor solucin es elegir un contenido relevante
para el criterio e investigar luego las posibles diferencias poblacionales de la
efectividad de la prueba para el propsito pretendido.
Desde mediados de la dcada de los setenta se ha observado
una rpida
acumulacin de investigaciones sobre problemas de sesgo de la prueba. En este
45
contexto, el termino sesgo se emplea en su bien establecido sentido estadstico,

para desganar un error constante o sistemtico en contraste con uno que se debe al
azar. Las principales preguntas que se han planteado con respecto al sesgo de la
prueba tiene que ver con el coeficiente de validez ( sesgo de la pendiente) y la relacin
entre las medias del grupo en la prueba y en el criterio ( sesgo de interseccin). Si una
prueba produce un coeficiente de validez significativamente diferente en dos grupos, la
diferencia se describe como sesgo de la pendiente y esta clase de diferencia entre
grupos se conoce como validez diferencial. Una prueba exhibe sesgo de
interseccin si sistemticamente subpredice o sobrepredice una ejecucin del criterio
para un grupo particular.
El problema del sesgo de la interseccin se relaciona mas con lo que ha sido llamado
equidad de la prueba. Aunque los trminos equidad y sesgo de la prueba a veces
se usan indistintamente para cubrir todos los aspectos del uso del instrumento con
minoras culturales.
Modelos de decisin para el uso justo de las pruebas:
Gradualmente empez a cambiar el inters de la investigacin en la evaluacin del
sesgo de las pruebas al diseo de estrategias de seleccin para su uso justo con
minoras culturales. Entre las metas por reconciliar estn las de proporcionar iguales
oportunidades a todos los individuos , elevar al mximo la tasa del xito y la
productividad, incrementar la mezcla demogrfica y la representatividad y extender el
tratamiento preferencial a grupos desfavorecidos por inequidades anteriores.
Van de Vijver y Tanzer ( 1997) identificaron diferentes fuentes de sesgo , que a
continuacin se explicitan:
a) Sesgo de constructo:
Este tipo de sesgo se da cuando el constructo medido no es idntico a travs de los
grupos culturales... ( p.p. 264, Van de Vijver y Tanzer, 1997). La importancia que cada
cultura otorga a ciertas conductas se encuentra en esta categora. Conductas de tica
y civismo que en algunas sociedades pueden ser normales en otras pueden constituir
un verdadero rasgo de rigidez y asemejarse a una conducta obsesivo compulsivo.
b) Sesgo metodolgico:
Este sesgo reconoce tres formas.
El sesgo de muestra: que se da cuando las muestras son incomparables entre si. La
cantidad de aos de escolaridad que poseen los sujetos de una muestra es una
variable determinante en el desempeo
del mismo en un test determinado,
especialmente si se trata de un test de habilidad. El nivel sociocultural, la motivacin,

la composicin por genero y edad de los sujetos son otras variables que pueden hacer
46
incomparables a dos muestras que pueden mostrar resultados muy diferentes en un

test determinado.
El sesgo en el instrumento: que puede provenir de las caractersticas del instrumento.
La familiaridad que los sujetos tienen con los estmulos presentados tiene una gran
importancia. Algunos estmulos tales como objetos, dibujos, figuras u otros elementos
utilizados en algunas culturas no existen en otras o son irrelevantes. El tem de
ejemplo en el Sub. Test de Ordenamiento de lamina WISC III que muestra a una mujer
frente a una maquina expendedora de latas de gaseosa tiene muy poco valor en
culturas rabes, por ejemplo, o en zonas rurales de nuestro pas. El idioma es otra
fuente de sesgo de instrumento. La traduccin de un idioma a otro frecuentemente
subestimada, es un problema importante que requiere una metodologa especifica a
seguir. Los problemas son mayores cuanto mas diferencias hay entre idiomas como
entre el ingles y el chino o el rabe, idiomas cuya lectura se realiza de izquierda a
derecha a diferencia del de derecha a izquierda. Tambin la disposicin del texto tiene
importancia en el completamiento de frases o de interpretacin de textos, mayor es el
problema cuando implican conectar letras y nmeros siguiendo un orden alfabtico o
numrico y los caracteres de idiomas como el espaol, ruso, griego. rabe, hebreo o
chino son tan diferentes. Tambin entre los idiomas occidentales existen diferencias
como que en ingles no existe la que el alfabeto sueco contiene mas vocales, y en
portugus existen distintos tipo de a. Los mtodos de respuesta constituyen
otra
fuente de sesgo del instrumento. Las laminas de respuestas del Test de Matrices
Progresivas de Raven que implica completar una secuencia lgica con una figura
opcional, incluyen la figura faltante al final de la segunda fila, con lo que asume una
lectura de izquierda a derecha. Este hecho fue demostrado por Carpenter, Just y Shell
( 1990) en un muy preciso estudio que implica una serie de desventajas para los
sujetos de las culturas rabes quienes involuntariamente van a intentar resolver la
prueba de derecha a izquierda, forma en que se lee su idioma.
El sesgo de administracin: incluye problemas tales como dificultades en la
comunicacin, es decir, dificultades para que el entrevistado entienda las instrucciones
del entrevistador
ya sea por la dificultad de las palabras utilizadas, el modo de
explicacin de las instrucciones o un inadecuado manejo del idioma de alguna de las

partes. Tambin se incluyen las alteraciones en la manera de administrar las pruebas.
Normalmente los manuales incluyen instrucciones de administracin que en muchos
casos no son adecuadas para la poblacin a aplicar. Los administradores del Test
entonces adaptan esas instrucciones segn su criterio personal. Otro punto importante
es el uso de cronmetros que produce serias alteraciones en los resultados.
47
Sesgo de tem: Se produce cuando el mismo tiene diferentes significados en distintas

culturas. Ciertos grupos culturales pueden obtener puntajes significativamente
distintos en un tem determinado a pesar de obtener un puntaje total similar. La
deseabilidad social o la relevancia cultural, entre otros factores, pueden producir el
sesgo de tem. Tanzer ( 1995) demostr que aunque la estructura factorial de un Test
de autoconcepto acadmico era similar cuando se lo aplico a estudiantes australianos
y singaporeanos, existan diferencias sustanciales entre estas muestras cuando se
compararon algunos tem especficamente. Este tipo de sesgos tambin acta en test
neuropiscologicos.
48
Tercera Parte
ADAPTACIN DE TESTS DE UNA CULTURA A OTRA
Directrices para la traduccin Adaptacin de los Test
Adaptadas de la International Test Comisin (ITC)
1 .Contexto
C1. Los efectos de las diferencias culturales que no sean relevantes para los objetivos
centrales del estudio deberan minimizarse en la medida de lo posible.
C2. Debera de evaluarse la cuanta del solapamiento de los constructos en las
poblaciones de inters.
2. Adaptacin de los tests

D1. Los constructores/ editores de tests deberan de asegurarse que el proceso de
adaptacin tiene en cuenta las diferencias lingsticas y culturales entre las
poblaciones a las que se dirigen las versiones adaptadas de los tests.
D. 2. Los constructores / editores de los tests deberan de proporcionar datos que
garanticen que el lenguaje utilizado en las instrucciones, en los propios tem y en el
manual del tests, son apropiados para todas la poblaciones culturales e idiomticas a
las que va dirigido el tests.
D. 3. Los constructores / editores de tests deberan de aportar evidencia de que las
tcnicas de evaluacin elegidas, los formatos de los tems, las reglas de los tests y los
procedimientos son familiares a todas las poblaciones a las que van dirigidos.
D. 4. Los constructores / editores de tests deberan
de facilitar evidencia de que el
contenido de los tems y los materiales de los estmulos son familiares a todas las
poblaciones a las que van dirigidos.
de aportar una justificacin
racional sistemtica, tanto lingstica como psicolgica, para mejorar la precisin del
proceso de adaptacin, as como reunir datos acerca de la equivalencia de todas las
versiones en los distintos idiomas.
D.6. Los constructores / editores de tests deberan
de asegurarse que el diseo de
recogida de datos permite el uso de tcnicas estadsticas apropiadas para establecer

la equivalencia entre los tems correspondientes a las diferentes versiones idiomticas
del test.
aplicar tcnicas estadsticas
apropiadas para 1) establecer la equivalencia entre las diferentes versiones de un test,
49
y 2) identificar componentes problemticos o aspectos del test que puedan ser

inadecuados para alguna de las poblaciones a las que va destinado el test.
D. 8. Los constructores / editores de tests deberan de proporcional informacin sobre
la evaluacin de la validez en todas las poblaciones objetivo a las que va dirigido el
test adaptado.
de aportar datos estadsticos
sobre la equivalencia de los tests para todas las poblaciones a las que van dirigidos.
D. 10. No deben utilizarse preguntas no equivalentes en todas las versiones dirigidas
a diferentes poblaciones cuando se prepara una escala comn, o cuando se comparan
estas poblaciones. Sin embargo, pueden ser tiles para reforzar la validez de
contenido de las puntuaciones de cada poblacin por separado.
3. Aplicacin
A.1 Los constructores y los aplicadores de los tests deberan tratar de prever los tipos
de problemas que cabe esperar, y tomar las medidas oportunas para evitarlos
mediante la preparacin de materiales e instrucciones adecuados.
A.2 Quienes aplican los tests deberan de ser sensibles a cierto numero de Editores
relacionados con los materiales utilizados para los estmulos, los procedimientos de
aplicacin, y las formas de respuesta, que pueden reducir la validez de las inferencias
extradas de las puntuaciones.
A.3 Aquellos aspectos del entorno que influyen en la paliacin del test deberan de
mantenerse lo mas parecidos posibles para todas las poblaciones
a las que va
dirigido el test.
A.4 Las instrucciones para la aplicacin del test en el idioma fuente y en el objetivo
deben minimizar la influencia de variacin no deseada.
A.5 El manual del test debera de especificar todos los aspectos del test y de su
aplicacin que han de revisarse al utilizarlo en un nuevo contexto cultural.
A.6 El aplicador no debe de interferir, debiendo minimizarse su influencia sobre los
examinados. Deben de seguirse al pie de la letra las reglas explicitas descritas en el
manual del test.
4. Interpretacin de las puntuaciones
1. 1 Cuando se adapta un test para utilizarlo en otra poblacin, debe de facilitarse la
documentacin sobre los cambios , as como los datos acerca de la equivalencia entre
las versiones.
50
1. 2 . Las diferencias entre las puntuaciones obtenidas por las muestras a las que se
aplico el test no deben de tomarse sin mas directamente. El investigador tiene la
responsabilidad de sustanciar las diferencias con otros datos empricos.
1. 3 . Las comparaciones entre poblaciones solo pueden hacerse al nivel de la
invarianza que se haya establecido para la escala en la que se expresan las
puntuaciones.
1. 4. El constructor del test debera de proporcionar informacin especifica acerca de
las distintas formas en las que los contextos socioculturales y ecolgicos de las
poblaciones pueden afectar al rendimiento en el test , y debera sugerir procedimientos
para tener en cuenta estos efectos en la interpretacin de los resultados.
2. CONCLUSIONES
La utilizacin de los tests psicolgicos construidos en otros contextos culturales es
una practica frecuente no solo en nuestro medio sino en todo el mundo . El uso de un
test en un contexto cultural diferente, donde se usa un lenguaje distinto y se esta
familiarizado con estmulos muy diversos, produce dificultades traducibles como
fuentes de sesgo. La existencia de sesgo puede tener consecuencias iatrognicas al
aplicar los tests y al obtener resultados totalmente errneos. En un mbito clnico
podemos asumir la existencia de un rasgo de personalidad patolgico, cuando este
rasgo puede ser normal s esta dentro de un rango correctamente medido.
Adems de ser muy necesario contar con instrumentos adecuados para la practica
psicolgica y para la investigacin, la adaptacin de instrumentos responde a razones
de ndole cientfico y practico. Es importante reconocer que la mayora de las teoras
psicolgicas actuales se han desarrollado en contextos de cultura occidental y que la
validacin emprica de las mismas se ha realizado con muestras de jvenes
universitarios de raza blanca.
Ahora enfrentamos el desafi de demostrar la Universalidad de esas teoras si es que
es posible. Es por ello que para poder evaluar si un determinado rasgo psicolgico
existe en culturas diferentes es necesario contar con instrumentos equivalentes a
travs de diferentes culturas, es decir que midan lo mismo en ambas culturas en
donde va a ser aplicado. Para ello proponemos comenzar por desarrollar mayor
cantidad de instrumentos que cumplan con los requisitos necesarios para ser
aplicados segn las teoras de los tests que ltimamente han cobrado vigor y
siguiendo parmetros internacionales como los que se detallan a continuacin.
51
Calidad de la documentacin aportada

* ( ) Inadecuada
** ( ) Adecuada pero con algunas carencias
*** ( ) Adecuada
**** ( ) Buena
***** ( ) Excelente (Descripcin muy clara y completa de las
caractersticas tcnicas, fundamentada en abundantes datos y
referencias).
-
Fundamentacin terica:
( ) No se aporta informacin en la documentacin

* ( ) Inadecuada
** ( ) Adecuada pero con algunas carencias
*** ( ) Adecuada
**** ( ) Buena
***** ( ) Excelente (Descripcin muy clara y documentada del constructo
que se pretende medir y del procedimiento de medicin).
-
Adaptacin del test (si el test ha sido traducido y adaptado para su

aplicacin): Descripcin precisa del procedimiento de traduccin,
de la adaptacin de los tems a la cultura espaola, de los estudios
de equivalencia con la versin original, utilizacin de la normativa
de la International Test Commission, etc.
Calidad de las instrucciones: Claras y precisas. Muy adecuadas

para las poblaciones a las que va dirigido el test.
Facilidad para comprender la tarea :Los sujetos de las poblaciones

a las que va dirigido el test pueden comprender fcilmente la tarea
a realizar.
52
Facilidad para registrar las respuestas : El procedimiento para

emitir o registrar las respuestas es muy simple por lo que se evitan
los errores en la anotacin.
Calidad de los tems (aspectos formales): La redaccin y el diseo

son muy apropiados.
Anlisis de los tems
Datos sobre el anlisis de los tems: Informacin detallada sobre

diversos estudios acerca de las caractersticas psicomtricas de los
tems: dificultad o variabilidad, discriminacin, validez, distractores, etc.
-
Validez
Validez de contenido:
1. Calidad de la representacin del contenido o dominio: En la
documentacin se presenta una precisa definicin del contenido. Los
tems muestran adecuadamente todas las facetas del contenido.
2. Consultas a expertos:
* ( ) No se ha consultado a expertos sobre la representacin del
contenido
** ( ) Se ha consultado de manera informal a un pequeo nmero de
expertos
*** ( ) Se ha consultado a un pequeo nmero de expertos mediante un
procedimiento sistematizado (N<10).
**** ( ) Se ha consultado a un nmero moderado de expertos mediante
un procedimiento sistematizado (10 N 30).
***** ( ) Se ha consultado a un amplio nmero de expertos mediante un
un procedimiento sistematizado (N>30).
2. Validez de constructo:
2.1. Diseos empleados:
53

( ) Correlaciones con otros tests
( ) Diferencias entre grupos
( ) Matriz multirasgo-multimtodo
( ) Anlisis factorial exploratorio
( ) Anlisis factorial confirmatorio
( ) Diseos experimentales
( ) Otros
2.2. Tamao de las muestras en la validacin de constructo:
* ( ) Un estudio con una muestra pequea (N<200)
** ( ) Un estudio con una muestra moderada (200 N<500)
*** ( ) Un estudio con una muestra grande (N 500)
**** ( ) Varios estudios con muestras de tamao moderado
***** ( ) Varios estudios con muestras grandes
2.3. Procedimiento de seleccin de las muestras:
( ) Incidental
( ) Aleatorio
2.4. Mediana de las correlaciones del test con otros tests similares:
* ( ) Inadecuada (r<0.25)
** ( ) Adecuada pero con algunas carencias (0.25 r<0.40)
*** ( ) Adecuada (0.40 r<0.50)
54
**** ( ) Buena (0.50 r<0.60)

***** ( ) Excelente (r 0.60)
2.5. Calidad de los tests empleados como criterio o marcador:
2.6. Datos sobre el sesgo de los tems: Informacin detallada sobre
diversos estudios acerca del sesgo de los tems relacionado con el
sexo, la lengua materna, etc. Empleo de la metodologa apropiada.
3. Validez predictiva
3.1. Describa los criterios empleados y las caractersticas de las
poblaciones:
3.1. Diseo de seleccin del criterio:
( ) Concurrente
( ) Predictivo
( ) Retrospectvo
3.2. Tamao de las muestras en la validacin predictiva:
** ( ) Un estudio con una muestra moderada (100N<200)
*** ( ) Un estudio con una muestra grande y representativa (N=200)
**** ( ) Varios estudios con muestras representativas de tamao
moderado
***** ( ) Varios estudios con muestras grandes y representativas
3.3. Procedimiento de seleccin de las muestras*:
3.4. Mediana de las correlaciones del test con los criterios:
55
** ( ) Suficiente (0.20 r<0.35)

*** ( ) Buena (0.35 r<0.45)
**** ( ) Muy buena (0.45 r<0.55)
***** ( ) Excelente (r 0.55)
2.10.4. Comentarios sobre la validez en general:
-
Fiabilidad
1. Datos aportados sobre la fiabilidad:

( ) Un nico coeficiente de fiabilidad
( ) Un nico error tpico de medida
( ) Coeficientes de fiabilidad para diferentes grupos de sujetos
( ) Error tpico de medida para diferentes grupos de sujetos
2. Equivalencia (Formas paralelas):
2.1. Tamao de las muestras en los estudios de equivalencia:
2.2. Mediana de los coeficientes de equivalencia:
*** ( ) Adecuada (0.60 r<0.70)
56
**** ( ) Buena (0.70 r<0.80)

***** ( ) Excelente (r 0.80)
3. Consistencia interna
3.1. Tamao de las muestras en los estudios de consistencia:
3.2. Mediana de los coeficientes de consistencia:
*** ( ) Adecuada (0.70 r<0.80)
**** ( ) Buena (0.80 r<0.85)
***** ( ) Excelente (r 0.85)
4. Estabilidad (Test-Retest)
4.1. Tamao de las muestras en los estudios de estabilidad:
57

4.2. Mediana de los coeficientes de estabilidad:
** ( ) Adecuada pero con algunas carencias (0.55r<0.65)
*** ( ) Adecuada (0.65 r<0.75)
**** ( ) Buena (0.75 r<0.80)
***** ( ) Excelente (r 0.80)
-
Normas
1. Calidad de las normas:

* ( ) Un baremo que no es aplicable a la poblacin objetivo
** ( ) Un baremo aplicable a la poblacin objetivo con cierta precaucin
*** ( ) Un baremo adecuado para la poblacin objetivo
**** ( ) Varios baremos dirigidos a diversos estratos poblacionales
***** ( ) Amplio rango de baremos en funcin de la edad, el sexo, el
nivel cultural y otras caractersticas relevantes.
2. Tamao de las muestras:
* ( ) Pequeo (N<150)
** ( ) Suficiente (150 N<300)
*** ( ) Moderado (300 N<600)
**** ( ) Grande (600 N<1000)
***** ( ) Muy grande (N 1000)
58
3. Procedimiento de seleccin de las muestras*:

( ) Incidental
( ) Aleatorio
3. REFERENCIAS BIBLIOGRFICAS
AIKEN, L.R. (1996) Rating Scales and Checklists: Evaluating Behavior, Personality
and Attitude. John Wiley & Sons.USA
(1997)Questionnaires and inventories: Surveing opinions and assessing
personality. John Wiley & Sons. USA
(2003)Tests psicolgicos y evaluacin. Prentice Hall.Mxico. Undcima
Edicin
AMERICAN
PSYCHOLOGICAL
ASSOCIATION
(APA)
(1999).
Standards
for
psychological and educational tests. Washington, D.C.

AMERICAN
EDUCATIONAL
RESEARCH
ASSOCIATION.
AMERICAN
PSYCHOLOGICAL ASSOCIATION. National Council on Measurement in Education

(1996) Standards for Educational and Psychological Testing. APA Washington. USA.
ANASTASI, A. & URBINA, S. (1998) Tests Psicolgicos. Prentice Hall.Mexico. Sptima
Edicin.
BANDURA, A. (2001) Gua para la construccin de escalas de Autoeficacia. Evaluar 2,
7-38
Campbell, D. (1960) Recommendations for APA test standards, regarding construct,
trait and discriminant validity. American Psychologist, 15, 546-553.
CATTELL, R. B. (1986). Scales and the Meaning of Standardized Scores. In R. B.
Cattell, and R. C. Johnson, (Eds). Functional Psychological Testing: Principles and
Instruments. New York: Brunner/Mazel, Publishers.
CHAPLIN, W., JOHN, O. & GOLDBERG, L. (1988) Conceptions of state and
traits:Dimensional attributes with ideals as prototypes. Journal of Personality and
Social Psychology, 54, pp. 541-557.
COHEN, R.J. & SWERDLIK, M.E. (2000) Pruebas y evaluacin psicolgicas.
Introduccin a las pruebas y a la medicin. McGraw Hill. Mxico.
59
CORTADA DE KOHAN, N. (1999) Teoras Psicomtricas y Construccin de Tests.

Lugar Editorial. Buenos Aires.
(2004) Teora y Mtodos para la Construccin de
Escalas
de Actitudes. Lugar Editorial Buenos Aires.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests.

Psychometryca, 16, 297-334.
CRONBACH, L. Y GLASER, G. (1972) The dependability of behavioral measurements.
Theory of generalizability for scores and profiles. New York; Willey.
FERRERES TRAVER. D. (2005) Funcionamiento diferencial de los tems: Un
adecuado empleo de cuestionarios en situaciones bilinges. Curso de Doctorado.
Facultad de Psicologa. UBA
FORNS I SANTACANA, M. (1993) Evaluacin psicolgica infantil. Barcanova.
Barcelona, Espaa.
Guilford, J. (1959) Personality McGraw Hill. NYork
GHISELLI, E., CAMPBELL, J. Y ZEDEK, S. (1981) Measurement theory for the
behavioral sciences. Freeman. S. Francisco
HAMBLETON, R. K., & SWAMINATHAN, H. (1985). Item response theory: Principles
and applications. Boston, MA: Kluwer-Nijhoff Publishing.
HAMBLETON, R. K., SWAMINATHAN, H., & ROGERS, H. J. (1991). Fundamentals of
Item Response Theory. (Vol-2). Newbury Park, CA: Sage.
Herrera Rojas, A. (1993) La medicin en Psicologa. Universidad de Bogot. Indito.
HOGAN, T. (2004) Pruebas Psicolgicas: Una introduccin prctica. Ed. Manual
Moderno: Mjico.
KUDER, G. F. & RICHARDSON, M. W. (1937). The theory of the estimation of
reliability. Psychometryca, 2, 151-160
Lee, R. & Foley, P. (1986) Is the validity of a test constant throughout the score range?
Journal of Applied Psychology, 71, 641-644.
LPEZ FEAL, R. (1986) Construccin de instrumentos de medida en Ciencias
conductuales y sociales. Col I. Alamex. Espaa.
LORD, F. M. (1980). Application of Item Response Theory to practical testing
problems. Hillsdale, N.J: Lawrence Erlbaum Associates.
MARTORELL, M.C. (1992) Tcnicas de evaluacin psicolgica. Introduccin. Vol
I.Anlogos, Observacin, Autoobservacin, Autoinformes, N = 1 e introduccin a la
Evaluacin de Programas. Vol. II. Socializacin, Hiperactividad, Autoconcepto y
Retraso Mental en Nios y Adolescentes Vol.III. Pomolibro. Valencia, Espaa
60
MESSSICK, S. (1995) Validity of psychological assessment. American Psychologist,

50, pp.741-749.
NUNNALLY, J. Y BERNSTEIN, I. (1995) Teora Psicomtrica. Mxico. McGraw Hill.
OESTERLIND, S. (1990) Establishing criteria for meritorius test tems. Educational
Resarch Quality. 14, 3, 26-30.
PAJARES, F.; HARTLEY, J. Y VALIANTE, G. (2001) Response Format in writing SelfEfficacy Scales. Greater discrimination increases prediction. Measurement and
evaluation in counseling and development. 33, 4, 214-221.
PELECHANO
BARBER,
V.(1988)
Del
Psicodiagnstico
clsico
al
Anlisis
Ecopsicolgico Vol. I Conceptos Bsicos. Edit. Alfaplus. Valencia, Espaa.

SANTISTEBAN REQUENA, C. (1990) Psicometra. Teora y Prctica en la
construccin de Tests. Ediciones Norma. Madrid. Espaa
SILVA MORENO, F. (1995) Evaluacin Psicolgica en Nios y
Adolescentes. Ed. Sntesis. Madrid,
Espaa.
(1999) Avances en evaluacin psicolgica.
Promolibro. Valencia, Espaa.
SPEARMAN, C. E. (1904). The proof and measurement of association between two
things. American Journal of Psychology, 15, 201,-293.
STENBERG, R. (1986) Incide Intelligence. American Scientist. Vol.74 (2), 137-143
STERNBERG, R. & WEIL, E. (1980) An aptitude x strategy interaction in linear
syllogistic reasoning. Journal of Educational Psychology, 72, 226-239.
STEVENS, S.(1951) Handbook of experimental psychology Wiley. N. York.
TORNIMBENI, S., PREZ, E; OLAZ, F.Y FERNNDEZ, A. (2004) Introduccin a los
Tests Psicolgicos. 3 Edicin revisada y aumentada.Ed. Brujas Crdoba, Argentina.
VAN DE VIJVER, F. & HAMBLETON, R. (1996) Translating Tests: Some practical
Guidelines European Psychologist Vol.1 N 2 pp.89-99.
WECHSLER, D. (1958) The measurement of adult intelligence. Williams & Witkins.
Baltimore.
61
4 .ANEXO
Academic Therapy : www.atpub.com
American Guidance Service: www.agsnet.com
Consulting Psychologists Press: www.cpp.db.com
CTB McGraw Hill: www.ctb.com
Educators Publishing Service: www.epsbooks.com
Harcourt Brace Educational Measurement: www.hbem.com
Institute for Personality and Ability Testing: www.ipat.com
James Stanfield Company: www.stanfield.com
Lafayette Instruments: www.licmef.com
Meritech Inc.: www.meritech.com
Multi-Health Systems : www.mhs.com
National Computer Assessments: www.ncs.com
Psychological Assessment Resources: www.parinc.com
Pro-Ed: www.proedinc.com
Riverside Publishing: www.riverpub.com
Scholastic Testing Service: www.ststesting.com
Sigma Assessment Systems: www.mgl.ca/-sigma
Slosson Educational Publications: www.slosson.com
Sopris West: www.sopriswest.com
Stoelting: www.stoelting.com
The Psychological Corporation: www.psychocorp.com
Techmicro Inc.: www.tech-micro.com
Vort: www.vort.com
62

Teoria y Construccion de Pruebas Psicológicas

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Teoria y Construccion de Pruebas Psicológicas

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD DE BUENOS AIRES

Dra. Isabel M. Mikulic

3. QUIN, QU Y POR QU EVALUAR?

TCNICAS PARA MEDIR LA CONFIABILIDAD

SEGUNDA PARTE: CONSTRUCCIN Y ADAPTACIN DE LOS TESTS

1. DISEO Y ELABORACIN DE LOS TESTS

TEORAS DE LOS TESTS:

C) TEORA DE RESPUESTA AL ITEM

DEFINICIN DEL DOMINIO DEL TEST

SELECCIN Y ELABORACIN DE LAS ESCALAS

REVISIN DEL TEST POR EXPERTOS

ANLISIS Y SELECCIN DE TEMS

ADAPTACIN DE LOS TESTS

MTODOS DE ADAPTACIN DE TESTS

MTODOS PARA ESTABLECER LA EQUIVALENCIA ENTRE TESTS

iii. SESGO DE ITEM

TERCERA PARTE: ADAPTACIN DE TESTS DE UNA CULTURA A OTRA

1. PAUTAS DE LA COMISIN INTERNACIONAL DE TESTS

cuantitativas partiendo de la aceptacin del isomorfismo entre propiedades

diagnstico y la evaluacin psicolgica.

Postularemos a la evaluacin psicolgica

como un proceso de toma de decisiones cuyo objetivo es apuntar, con precisin y

Algunos tests se construyen a partir de un fundamento terico importante como las

muestras de estandarizacin, no podan usarse para las poblaciones de color de

2.1 Tests, pruebas, diagnstico y evaluacin psicolgica

La prueba de Binet tuvo

procedimiento evaluativo por medio del cual una muestra de comportamiento de un

2.2. Siete supuestos en las pruebas y la evaluacin psicolgica

4. La evaluacin puede sealar fenmenos que requieren una mayor atencin o

3.Quin, qu y por qu evaluar?

Psicolgica Estadounidense y el Consejo Nacional sobre Medicin en Educacin.

inteligencia, no son aconsejables pues podran

comprometer los resultados. El que administra la prueba debe estar familiarizado

Las personas evaluadas enfocan una situacin de evaluacin de diferentes formas

a) ansiedad experimentada y grado en que sta podra afectar los resultados

3.2.En qu tipo de contextos se realizan evaluaciones?

Posgrados. Tambin se usan las pruebas en un contexto de orientacin vocacional

4. Evaluacin de la Calidad de las pruebas: Confiabilidad y Validez

Factores que determinan la falta de confiabilidad

4.1.2. Tcnicas para medir la confiabilidad

4.21. Validez de Contenido

quien la administra, quien la responde y para otros observadores. Esta validez

4.2.2.Validez en Relacin a un Criterio:

como medidas de aptitud acadmica. Los ndices especficos utilizados como

4.2.3. Validez de Constructo:

en donde se espera que durante la niez las

habilidades aumenten con la edad, por lo tanto si la prueba es vlida sus

Consistencia interna: la caracterstica esencial de este mtodo es que el criterio no

bsica. Cada una puede aclarar y

enriquecer a la otra y ambas aumentan la comprensin de la conducta inteligente.

4.2.4. Coeficiente de validez

4.2.5.Validez de la prueba y teora de la decisin

decisiones individuales deben considerar las preferencias y el sistema de valores

teora de la decisin no introduce al proceso de decisin el

problema de los valores, solamente lo hace explcito. Los sistemas de valores

permitido centrar la atencin en la complejidad de los factores que determinan la

4.2.6. Combinacin de informacin a partir de diferentes pruebas

es preferible usar una combinacin de pruebas relativamente homogneas, cada

4.3.Validez y utilidad prctica de los Tests para decisiones de clasificacin

1. Diseo y Elaboracin de los Tests

Qu es lo que la prueba medir segn su diseo?

Cul es el objetivo de la prueba?

Existe necesidad de esta prueba?

Quin usar esta prueba?