You are on page 1of 126

UNIVERSIDAD PERUANA LOS ANDES

VICERRECTORADO DE INVESTIGACIÓN

UNIDAD DE INVESTIGACIÓN DE LA
FACULTAD DE CIENCIAS DE LA SALUD
ESCUELA PROFESIONAL DE PSICOLOGIA

Informe Final de elaboración de Texto:


CONSTRUCCIÓN DE TESTS PSICOLÓGICOS

Ejecutor : Mercedes Merryl Jesús Peña


Resolución de aprobación: Resolución 0270-2021-R
Fecha de inicio: 1 Junio 2021
Fecha de finalización: 31 Julio 20221

Directora de la Unidad
Ph.D. Mohamed Mehdi
de Investigación de la
Facultadde Ciencias de la Mohamed
Salud
Vicerrector de Investigación

Huancayo, 31 de Julio del 2022

1
Aprobado por Vicerrectorado de Investigación OFICIO N.º 0091-VRINV.UPLA-2022
1
2
 Al gran Yo Soy, fuente de
sabiduría, conocimiento e
inteligencia.

 A mi amada familia.

3
AGRADECIMIENTOS

 A las autoridades de la Universidad Peruana Los Andes, por el fomento a la


investigación científica entre sus docentes.

 A los Maestros en Psicometría que tuvieron a bien orientar los contenidos del
presente Texto.

4
CONTENIDO

Caratula 2
Dedicatoria 3
Agradecimientos 4
Contenido 5
Introducción 8

Desarrollo temático

Capítulo I: TEORIA DE LA MEDICION Y LOS TESTS PSICOLÓGICOS 10

 Objetivos 10
 Contenidos 10
 Indagando saberes previos 11

 Desarrollo temático

1.1. Medición psicológica 12


1.1.1. Antecedentes 12
1.1.2. Definición 13
1.1.3. Principios 15
1.1.4. Ventajas 17
1.1.5. Escalas de medición 19
1.1.6. Importancia 23

1.2. Tests psicológicos: 24


1.2.1. Definición. 24
1.2.2. Características. 24
1.2.3. Supuestos. 26
1.2.4. Procedimientos en el uso del test psicológico 26
1.2.5. Clasificación 29

1.3.Teorías de los Tests psicológicos 33


1.3.1. Teoría Clásica de los Tests (TCT) 34
1.3.2. Teoría de respuesta al ítem. (TRI) 38
1.4 Adaptación o Construcción de Tests psicológicos 42

 Autoevaluación 45
 Actividades para el estudio independiente 46
 Bibliografía complementaria 46

5
Capitulo II: PROCESO DE CONSTRUCCION DEL TEST PSICOLÓGICO 47

 Objetivos 47
 Contenido 47
 Indagando saberes previos 48

 Desarrollo temático:

 2.1. Definición. 49
 2.2. El método científico y la construcción del test psicológico 49
 2.3. Etapas de la construcción del test psicológico: 51
 2.4. Fuentes de sesgo en la construcción del test 60

 Autoevaluación 61
 Actividades para el estudio independiente 62
 Bibliografía complementaria 62

Capitulo III: PROPIEDADES PSICOMÉTRICAS DEL TEST CONSTRUIDO 63

 Objetivos 63
 Contenido 63
 Indagando saberes previos 64

 Desarrollo temático:

 3.1. Confiabilidad 65
 3.1.1. Definición. El concepto de confiabilidad en la TCT 65
 3.1.2. Factores que afectan la fiabilidad. 66
 3.1.3. Dimensiones de la confiabilidad 67
 3.1.4. Métodos para verificar la confiabilidad 68
o a. Test retest. 69
o b. Formas equivalentes 69
o c. División en mitades 69
o d. De covarianza de ítems: 71
– d.1.Kuder-Richardson 71
– d.2Coeficiente Alfa 72
o e. Confiabilidad entre examinadores 73

 3.2. Validez 75
 3.2.1. Definición 75
 3.2.2. Factores que afectan la validez. 76
 3.2.3. Métodos para evidenciar la validez 77
o a. Evidencias de validez basadas en el contenido 78
o b. Evidencias de validez basadas en el proceso de respuesta 79
o c. Evidencias de validez basadas en la estructura del test 80
o d. Evidencias de validez basadas en la relación con otras variables 81
o e. Evidencias de validez basadas en las consecuencias de la aplicación 83

3.3. Normas de tipificación 84

6
3.3.1. Definición 84
3.3.2. Tipos de normas 85

3.4. Softwares para procesar propiedades psicométricas de los tests 88

 Autoevaluación 90
 Actividades para el estudio independiente 91
 Bibliografía complementaria 91

Capitulo IV: PUBLICACION DEL TEST PSICOLÓGICO CONSTRUIDO 92

 Objetivos 92
 Contenido 92
 Indagando saberes previos 93

 Desarrollo temático:

4.1. El manual técnico del test psicológico 94


4.2. Evaluación de la calidad del test psicológico 104
4.3. Publicación científica del test psicológico 106
4.4. Ética en el uso de los tests 116

 Autoevaluación 120
 Actividades para el estudio independiente 121
 Bibliografía complementaria 121

Referencias 122
Anexos

7
INTRODUCCIÓN

Los Tests psicológicos son las herramientas que contribuyen a la eficacia de las

competencias profesionales de los psicólogos, especialmente en las referidas al

diagnóstico, intervención, prevención incluso en las investigaciones científicas.

Según el Instituto Nacional de Salud Mental Honorio Delgado Hideyo Noguchi

(2008), solo el 23% de los tests psicológicos para la evaluación de la salud mental que

usamos en el Perú han pasado por un proceso de adaptación psicométrica, lo que es

preocupante en la medida que 77% de estas pruebas que provienen del extranjero están

siendo usadas mermando la objetividad de las evaluaciones. Por otro lado, Livia y Ortiz

(2014) expresaron que el psicólogo con mucha frecuencia suele aplicar pruebas

psicológicas sin analizar su procedencia, haciendo uso de normas o baremos que no

corresponden a nuestra realidad. Son enfáticos al señalar que “Como balance del

proceso histórico se puede decir que el desarrollo de la medición psicológica en el Perú

se encuentra en un grave problema, no se dispone de pruebas estandarizadas a nuestra

realidad, además de carecer de una política de control que norme su uso adecuado y

garantice la fiabilidad de los resultados “(p.25)

Considerando que somos un país multicultural, y por respeto a los personas y

pacientes es necesario que las evaluaciones psicológicas se hagan usando instrumentos

coherentes con nuestra realidad sociocultural, la adaptación es una buena opción, pero

mucho mejor es que en el Perú aprendamos a construir nuestros propios tests.

8
En ese sentido el Texto propuesto es un aporte para la comprensión de los

fundamentos teóricos y metodológicos que requiere la construcción de Tests

psicológicos, reúne la información clásica y actualizada sobre este proceso, con una

metodología que facilite el aprendizaje independiente de los estudiantes permitiéndoles

completar, ampliar o profundizar saberes recibidos en la asignatura relacionadas a la

Psicometría en general y Construcción de pruebas en particular.

El texto universitario está organizado en cuatro capítulos en el Primero

desarrollamos contenidos acerca de la teoría de la medición y los tests

psicológicos, el segundo da cuenta del proceso de construcción de los tests

psicológicos. Sobre las propiedades psicométricas del test construido se

desarrollan en el Capítulo tercero en tanto en el último capítulo damos cuentas

de las pautas para la publicación científica del test construido. Las que se

desarrollan a continuación.

9
CAPITULO I
TEORIA DE LA MEDICION Y LOS TESTS PSICOLÓGICOS

Objetivo :

Analizar los fundamentos teóricos conceptuales recientes de la teoría


de la medición y los tests psicológicos para comprender el proceso de
su diseño y construcción.

Contenidos:

1.1. Medición Psicológica

TEORIA DE LA 1.2. Tests Psicológicos


MEDICION Y
TESTS
PSICOLOGICOS
1.3. Teorías de los tests psicológicos

1.4. Adaptación o construcción de tests


psicológicos.

10
Indagando saberes previos:

A continuación, te pedimos resuelvas las siguientes preguntas.

1. Escriba aquellas situaciones en las que el psicólogo hace mediciones:


_________________________________________________
_________________________________________________
_________________________________________________

2. Los Test psicológicos deben cumplir con ciertos requisitos, elija estos
requisitos:
( ) Validez ( ) Confiabilidad ( ) Originalidad ( ) Estandarización

3. ¿Qué tests psicológicos conoce?. Mencione tres de ellos:


a.
b.
c.

4. Las Teorías para construir tests psicológicos son:


( ) Teoría Clásica de los Tests
( ) Teoría de Respuesta a los Items.
( ) Teoría del aprendizaje
( ) Teorías psicométricas

5. En su opinión, ¿es mejor adaptar o construir un test psicológico?


_________________________________________________
_________________________________________________
_________________________________________________

11
Desarrollo temático:

1.1.Medición psicológica.

1.1.1. Antecedentes.-

Desde la antigüedad se ha manifestado el interés por reconocer las características de los


individuos, pero, no es hasta finales del siglo XIX, en Europa, que se inicia la exploración de
las características particulares de los individuos de manera científica (Ramos, 2018) dando
lugar a la Psicometría como rama de la psicología y que se estructura alrededor de las siguientes
preguntas: ¿Qué es lo que se debe medir?, ¿Cómo medirlo? y ¿Con qué medirlo?, el afán por
responder a estas preguntas paradójicamente impulsó su auge

Para Ramos (2018) muchos fueron los proyectos psicométricos que se desarrollaron en
respuestas a estas preguntas contribuyendo así al desarrollo de la Psicología como ciencia y
como práctica. Desde el interés por identificar las diferencias individuales; el estudio de los
procesos psíquicos en el laboratorio como lo hacía Wundt (1879); el establecimiento de
tipologías antropométricas, la introducción del concepto de test mental de Cattell (1890), la
evaluación de las funciones psíquicas superiores a través de la escala Binet-Simon y los aportes
matemáticos de Pearson y Spearman hasta el desarrollo de las técnicas proyectivas para el
estudio de la personalidad, inspiradas por las teorías freudianas. Estas y otras investigaciones
marcaron el auge y el desarrollo de los dos modelos de evaluación psicológica, el modelo
proyectivo y el modelo psicométrico. El modelo psicométrico toma su más fuerte impulso con
el precedente de la prueba de inteligencia de A. Binet, y ante los requerimientos para clasificar
y seleccionar a los soldados con las mejores habilidades para el contexto de la Primera Guerra
Mundial (1914-1918), encuentra sentido la pregunta: ¿qué es lo que se debe medir?, si bien los
soldados ya se estaban seleccionando desde criterios de resistencia y salud física, pero esto no
era suficiente para garantizar su óptimo desempeño. Una vez aclarado el qué medir, se hizo
necesario formular procedimientos de cómo medir, y por supuesto con qué ejecutar este
procedimiento.

¿Qué se mide?, según Muñiz (2018) se mide constructos teóricos, entendido como
“sistema de proposiciones que se relacionan entre si formalmente y se relacionan con los
fenómenos observables por medio de reglas de correspondencia entre la teoría y la conducta”
12
Ejemplos de ellos son: ansiedad, aptitud matemática, inteligencia, personalidad, Etc .En
adelante, los constructos teóricos serían el objeto de estudio de la psicometría y se abordarían
desde las teorías de la medición: la Teoría Clásica, la Teoría Operacional y la Teoría
Representacional

¿Cómo medir?, ¿Cómo evidenciar la existencia y el estado de las variables psicológicas


de carácter abstracto en una realidad tangible?, ¿Cómo medir variables psicológicas que no son
iguales en las personas? ¿Qué desventajas tiene la medición psicológica frente a las mediciones
físicas? Al inicio de la Psicología como ciencia fueron los diseños experimentales, los únicos
procedimientos rigurosos de como ponderar las variables psicológicas, las mediciones en
laboratorio se caracterizaban por ser sistemáticos y rigurosos, pero por su alto costo y recursos
y por su restringido niveles de alcance se optó por otros procedimientos que también serían
sistemáticos, rigurosos, objetivos y estandarizados, que auxilien en la medición de las
características psicológica, estos procedimientos fueron los tests psicológicos y se puso énfasis
para que los criterios de construcción se alineen a las exigencias del método científico sin obviar
las demandas sociales para el buen uso de los productos que generaban

¿Con qué medir?. Puntualmente se orienta hacia el instrumento de medida, el test o


prueba, herramienta que explora los atributos psicológicos de manera equiparable a un
experimento, de hecho, se considera que una prueba es un arreglo experimental condensado en
sus ítems, ya que tanto su construcción, como su aplicación y resultados cuentan con
procedimientos sistemáticos y estandarizados.

1.1.2. Definición de medición

Para muchos psicometristas una definición clásica de medición es la que proporcionó


Stevens (1951): "medición en un amplio sentido, es asignar numerales a objetos o eventos de
acuerdo a reglas". Más adelante, Novick (1968) citado por (Tornimbeni, 2014) la definió como
“un procedimiento para la asignación de números a propiedades específicas de unidades
experimentales, de modo que las características preserven las relaciones específicas en el
dominio comportamental”. En tanto Magnunsson (1990) citado por Fuentes (2001) definió a la
medición como la asignación de números a las cantidades de las propiedades de los objetos de
acuerdo con reglas y cuya validez pueden probarse empíricamente. Finalmente, para (Cohen y

13
Swerdlik, 2001) la medición es el acto de asignar números o símbolos a características de los
objetos (personas, eventos, u otro) de acuerdo con reglas. Las reglas usadas al asignar números
son lineamientos para representar la magnitud (o alguna otra característica ) del objeto que se
está midiendo.

Estas definiciones nos permiten enunciar algunas características acerca de la medición


en general y de la medición psicológica en particular. En general, podría ayudarnos a entender
que la medición es una característica del conocimiento científico, del método científico y ella
es la que va a favorecer la contrastación de hipótesis. Asimismo se tiene que entender que la
medición es un proceso por el cual se asigna valores numéricos (cuantitativos o cualitativos) no
a las personas u objetos sino a sus características o atributos, según reglas. Las reglas pueden
entenderse como procedimientos incluso estandarizados y validas por la comunidad científica,
de modo que el producto de la medición sea objetivo y replicable. Los números son los que
van a permitir las operaciones matemáticas y sus posteriores conclusiones, por eso la reiteración
de que las asignaciones de los mismos deben ser lo más sigilosos posibles.

1.1.2.1.Naturaleza de la medición psicológica

Las mediciones no son uniformes, algunas conllevan procesos simples otras suelen ser
complejas, pues van a depender de la naturaleza de los hechos, si consideramos que cada ciencia
tiene su propia clase de objetos, se hace evidente las diferencias en las mediciones, no es lo
mismo medir el peso de un niño de 6 años que su capacidad para la lectura y aprendizaje, por
eso es que se suele hablar de mediciones directas e indirectas. En el caso de la Psicología, la
mayoría de nuestras mediciones suelen ser indirectas, sabemos que el atributo o característica
psicológica existe pero la única forma de medirla es infiriendo a través de sus efectos ante
estímulos diversos.(Alarcón, 1991, Fuentes 2001)

Las peculiaridades de las mediciones psicológicas, a diferencia de algunas mediciones


físicas va a significar un mayor grado de dificultad o complejidad. Según Tornimbeni (2014)
“el problema de la medición es debido a la complejidad del comportamiento y a las limitaciones
de los instrumentos que se utilizan “. Efectivamente, vemos que muchos rasgos a atributos
psicológicos no son uniformes en cuanto a la enunciación de sus indicadores, la

14
operacionalización de estos atributos es un tema sensible para la medición psicológica, por citar
un caso; nos hemos encontrado con múltiples definiciones acerca de la inteligencia, no existe
indicadores estandarizados para este rasgo pues en cada espacio o contexto en el que se mida,
vemos que los indicadores suelen variar, algunas otorgan más peso a un indicador o incluso
obvian algunos otros. (Alarcón, 1991). Por parte de los instrumentos, pues si no podemos
minimizar el hecho de que algunos de ellos reúnen serias deficiencias en cuanto a sus procesos
de construcción. Sin embargo, hay que rescatar los esfuerzos que los científicos de la psicología
y los psicometristas en particular vienen haciendo por minimizar los sesgos de la medición
psicológica, aun cuando no serán perfectas y exactas se han ido generando técnicas que
otorguen a nuestras mediciones la validez y consistencia necesaria.

1.1.3. Principios de la Medición Psicológica

Considerando la naturaleza de las mediciones psicológicas, es pertinente que los


psicólogos tengamos en cuenta los siguientes principios enunciados por Brown (1980)

a. Se basan en las diferencias individuales. – los estudios científicos han dado


cuenta de que no existe dos personas iguales, cada uno de nosotros tenemos nuestra
peculiar manera de pensar, sentir y actuar; es más somos diferencialmente afectado por
las influencias biológicas, familiares, educativas y sociales. Significa entonces que, en
nuestras mediciones psicológicas, debemos cuidar el tipo de instrumento de medición;
ninguno de ellos podría ser considerado de carácter universal, salvo reportes previos de
adaptación cultural. Por otro lado, por más similitud que tuvieran los factores
ambientales, tenemos que ser sensibles a las manifestaciones de conducta de cada
persona en las mediciones sobre todo aquellas con fines de selección, clasificación o
diagnóstico clínico. Brown (1980)

b. Son siempre indirectas. - Se habló en el acápite anterior sobre esta


característica, pero al tomarlo como principio de medición implica que todos los
involucrados en realizar mediciones psicológicas, tendrían que tener en cuenta los
sesgos que implica medir variables o atributos que no tienen evidencias tangibles o
concretas, que no son directas como sí lo son algunas variables de las ciencias naturales.
Tomar conciencia que nuestros procedimientos de medición están amparados en la
15
inferencia del evaluador, que aun cuando haga uso de técnicas de medición es inevitable
los sesgos que pueden proceder del examinado, del instrumento de medición, del
ambiente e incluso del mismo examinador. Este principio abona en favor de las
exigencias a que los instrumentos de medición y el entrenamiento de los evaluadores
tengan los más altos indicadores de calidad, sabiendo que estas mediciones inferidas
aterrizan en la toma de decisiones. Brown(1980)

c. Son más bien relativas que absolutas.- Según Brown (1980) este principio asume dos
acepciones.
En primer lugar, es oportuno precisar que la psicología de la personalidad ayudó
mucho al señalar que los rasgos psicológicos del ser humano tienden a ser algunos
estables en el tiempo y otras son de carácter temporal, estacionario u ocasional. Que
algunos rasgos van acompañar al ser humano desde el nacimiento hasta su vejez, en
tanto otros son de vigencia temporal y que las personas lo presentarán debido a la
influencia de situaciones biológicas o ambientales no previstas, que estos rasgos suelen
estar presentes por un tiempo limitado (Engler, 1996). Es por eso que es común escuchar
decir a algunos psicólogos, que una adolescente está atravesando por un estado de
ansiedad no siendo esto un rasgo de su personalidad, y que este estado se debe a una
experiencia de un asalto en el bus y que en cuanto termine su proceso terapéutico, la
adolescente mostrará bajos niveles de ansiedad. Por todo lo dicho, se puede concluir que
nuestras mediciones psicológicas no tendrían el carácter de ser eternos. Muchos
atributos psicológicos pueden aparecer, mejorar o deteriorarse durante el proceso
evolutivo o por la influencia de factores ambientales. Esto nos compromete a que las
mediciones psicológicas individuales o grupales deben ser actualizadas siempre que se
puedan. Brown (1980).

El hecho de que los resultados de las personas evaluadas deben ser comparadas
con el desempeño de otras personas (propio de la Teoría clásica de los tests), nos lleva
a la segunda acepción de este principio. Que debemos ser muy cautelosos en este
proceso de comparación, el principio de las diferencias individuales permite entender
que no existe un estándar único de desempeño esperado, que cada grupo a partir de cual
se genera las normas estadísticas de comparación son únicos y no podrían ser
considerados de carácter universal. Aun cuando las mediciones físicas tienen
16
instrumentos y unidades de media universal, suelen tener excepciones, por ejemplo,
medir la gravedad no es lo mismo medirlo cerca de la línea del ecuador que medirlo en
el polo norte. Esto significa que hay que contextualizar los procedimientos de
comparación y la clasificación. Para una madre que vive en contextos de pobreza no es
agradable que diagnostiquemos el nivel intelectual de su hijo comparándolo con los
niveles intelectuales de niños de una Escuela de Canadá, donde por cierto los niños no
vienen de hogares con limitaciones económicas alimentarias. Brown (1980).

Estos principios están asociados al respeto pleno que se merecen quienes son
expuestos por muchas razones a procesos de medición psicológica. Esto significa que
es inevitable pensar que cada vez que medimos conociendo la naturaleza de nuestras
mediciones nos permitamos en todo sentido preservar por sobre todas las cosas el
bienestar emocional de los evaluados y estos principios nos ayudarán a esforzarnos
porque estas mediciones sean los más exigentes, exactos y objetivos posibles, pero
también lo más respetuosos.

1.1.4. Ventajas de la medición psicológica

La Psicología asume ser una ciencia cuando empieza a medir atributos


psicológicos, es por eso que la experiencia de W. Wundt en 1879 marca un antes y
después en la definición de la Psicología. Al respecto, es interesante compartir la
reflexión de Nunnally (1987) cuando alude a qué sucedería con la ciencia si no efectuara
mediciones, dice él que se estariá hablando de juicios personales, de apreciaciones
subjetivas e intuitivas que pues no condicen con el rigor científico y esto definitivamente
nos retaría el espacio en el mundo de las ciencias.

Por lo que, en la línea de lo expresado por Nunnally (1987) detallamos las


ventajas de la medición y algunas de ellas tienen relación con las características de las
ciencias fácticas enunciadas por Bunge (1972)

17
La primera ventaja, es la objetividad entendida como la capacidad de efectuar
mediciones libres de los intereses, prejuicios, supuestos o meras opiniones personales.
La objetividad nos va a permitir medir y respetar los resultados tales cuan son, va a
minimizar cualquier intención de favorecimientos individuales o grupales, asimismo va
a permitir que los resultados sean contrastados por otros evaluadores y sin lugar a dudas
contribuye a que el método inductivo pueda reunir las evidencias para emitir
conclusiones de carácter general.

La segunda ventaja, se refiere a la cuantificación, nosotros preferimos


nominarlo precisión. Al respecto, sabemos que el conocimiento científico debe ser claro
y preciso. (Bunge, 1972) y para ello debemos procurar usar instrumentos que garanticen
la precisión en las mediciones, de modo tal que no podremos emitir juicios de valoración
con los términos mucho, poco, bastante, escaso, lejos, cerca, pesado, liviano, si es que
no se acompaña de información numérica precisa, No es lo mismo decir “usted está
gordo a decir usted pesa 110 Kg” . Una medida precisa nos compromete a minimizar o
controlar los errores de medición, no olvidemos que en psicología es más exigente estas
mediciones por la naturaleza de los atributos psicológicos. La cuantificación o precisión
permiten emplear métodos precisos de análisis matemático y estadístico (Nunnally,
1987). Cuanta más precisión tengamos de las variables o atributos medidos más sencillo
se hace describirlo, comprenderlo e incluso mejorarlo.

Según Bunge (1972), la comunicación es obligatorio para que los hallazgos


científicos puedan ser replicados, contrastados y aceptados en la comunidad científica,
por lo que esto se constituye en la tercera ventaja. Todo acto de medición es
comunicable sea en un espacio de práctica profesional (consultorio) o los espacios de
investigación científica, como los congresos, las publicaciones científicas. En el primer
espacio, el psicólogo informará a su cliente o paciente el estado de sus características
psicológicas, por ejemplo, las que fueron medidos previamente a través de los tests
psicológicos y debe comunicar aspectos positivos como negativos. En el segundo
espacio, se comunica mediciones de variables psicológicas efectuadas en distintos
grupos, niveles y contextos producto de investigaciones científicas. Pues estas
mediciones son las que permiten a la ciencia psicológica sistematizar el estado de los
conocimientos científicos.
18
La cuarta ventaja de la medición , según Nunnaly (1987) es la economía,
entendida desde la perspectiva de que cuanto tiempo nos llevaría determinar el tipo de
personalidad o nivel intelectual de cualquier persona cuando está postulando a un
trabajo por ejemplo. Entonces como la medición se acompaña de instrumentos válidos
y confiables, definitivamente optimizan el tiempo y no solo eso, pues al tener
instrumento ya construidos significa ahorrar recursos humanos y económicos.

1.1.5. Escalas de Medición

Para comprender la naturaleza y procedimientos de la medición psicológica se hace


necesario precisar su relación con las escalas de medición

Para Cohen y Swerdlik (2001) una escala es un conjunto de números (u otros


símbolos) cuyas propiedades modelan propiedades empíricas de los objetos a los que se
asignan los números. De manera sencilla las escalas de medición se refieren a los
diferentes usos que se hace de los números. (Nunnally, 1983). Existen varios tipos de
escalas.

Una forma de clasificar una escala es denominarla con referencia a la naturaleza


de la variable que se está midiendo, cuando se mida variables continua se las nomina
“escala continua” por ejemplo el sexo de las personas y si la variable es discreta la
nominan Escala discreta, por ejemplo el peso de las personas. La medición usando
escalas continuas siempre implica algún error, la mayor parte de las escalas usadas en
las pruebas psicológicas son de naturaleza continua y por consiguiente pueden esperarse
que contengan error, por lo que la medición debería considerarse como una
aproximación al número real. Por ejemplo, una puntuación de 21 en una prueba de
empatía no debería considerarse como una medida precisa de la empatía sino más bien
como una aproximación a la puntuación de empatía real que se habría obtenido si el
instrumento de medición se hubiera calibrado para producir dicha puntuación . Por lo
que, tal vez la puntuación de 21 es una aproximación a una puntuación real de 20.8 o
21.35. En contraste, los números o puntuaciones usados en las escalas discretas se

19
supone que son exactos. La medición puede clasificarse además con respecto a la
cantidad y tipo de información cuantitativa que posee el numero asignado Se distinguen
cuatro niveles de medida. Las escalas de medición son el resultado de la aplicación de
un modelo a un proceso de medida. Fuentes, J. (2001)

Stevens (1946) citado por Fuentes (2001) según las propiedades comunes dentro
de la escala numérica, distinguió cuatro tipos de escalas de medición: nominal, ordinal,
intervalo y razón. La clasificación se basa en las diferentes reglas usadas para asignar
numerales a los objetos. Para Alarcón (1991) cada escala corresponde a un nivel de
medida diferente; asimismo, a las mediciones realizadas con cada tipo de escala son
aplicables determinadas operaciones estadísticas.

a). Escala Nominal:

Nivel más elemental, es la forma más simple de medición. Es la mera atribución


de números a los distintos objetos con el fin de establecer una relación de equivalencias
(igualdad-desigualdad), en esta escala los números se usan con frecuencia con el objeto
de distinguir cosas. Fuentes (2001) expresa que siempre ha habido discusiones sobre si
esto es cuantificar o no, pues la única finalidad es clasificar datos cualitativos. En
Psicología clínica solemos usar la nomenclatura asignada por la OMS a cada uno de los
transtornos de salud mental, pero estos números se usan de manera exclusiva con
propósitos de clasificación y no pueden sumarse, restarse, jerarquizarse o promediarse
de manera significativa. Los números son solo etiquetas, que permiten distribuir los
objetos diferentes de sus iguales. Nunnally (1987) la denomina escala de rótulos y
precisa que no hay la intención de desarrollar análisis matemáticos con los números y
no se considera que estos representen cantidades de atributos. Esta escala es muy débil,
precisamente por su pobre significación.es la más limitada a todos los niveles. Los
estadísticos que suelen utilizarse son Frecuencia, Moda, Coeficiente de contingencia,
Chi cuadrado y Prueba de Fisher

b). Escala ordinal

En términos de Nunnally (1983) una escala ordinal es aquella en la que: Se

20
ordena un conjunto de objetos o personas de mayor a menor con respecto a un
atributo. No hay indicación en sentido absoluto de cuánto de ese atributo posee
cualquiera de los objetos. No hay indicación de cuán alejados están los objetos del
atributo.
Permiten la clasificación, pero también un ordenamiento en rangos de alguna
característica, estas escalas permiten expresiones de tipo “mayor que” o “menor que”,
además de la relación de equivalencia, se pueden clasificar los objetos en función de
posición respecto de los demás. Los datos obtenidos mediante la aplicación de las
características de esta escala no aportan nada sobre el cuanto del atributo que posee cada
objeto, ni tampoco sobre la diferencia que existe entre ellos. (fuente, 2001). Los
estadísticos que pueden utilizarse son Mediana, Percentiles, Correlación de Spearman,
Correlación de Kendall.

c). Escala de Intervalos

Reúne las características de las escalas nominales y ordinales, Según Nunnally


(1983) una escala de intervalo es aquella en la cual se conoce el ordenamiento por rango
de los objetos con respecto a un atributo y cuán alejados están entre sí con respecto a
dicho atributo, pero no se dispone de información sobre la magnitud absoluta del
atributo para ningún objeto. Las escalas de intervalos contienen intervalos iguales entre
números; cada unidad en la escala es exactamente igual a cualquier otra unidad en la
escala, pero no contienen un punto cero absolutos.

Los datos obtenidos mediante la aplicación de las características de esta escala,


además de la relación de orden , dan información de la medida en que están alejados
unos objetos de otros en cuanto al atributo medido, aunque no proporcionan datos sobre
la magnitud absoluta del atributo medido . En definitiva, no tienen cero absolutos es más
bien arbitrario. Un claro ejemplo de esta escala es la temperatura y en el campo de la
Psicología, Cohen y Swerdlick (2001) grafican de manera sencilla un ejemplo de esta
escala, “Las puntuaciones en las escalas de inteligencia a menudo son obtenidas en un
nivel de medición de intervalos. La diferencia en la capacidad intelectual representada
por unos CI de 80 y 100, por ejemplo, se considera parecida a la existente entre los CI
de 100 y 120. Sin embargo, si un individuo obtuviera un CI de 0 (algo que ni siquiera
21
es posible en muchas escalas de inteligencia), esto no significaría una ausencia de
inteligencia. Los estadísticos que pueden utilizarse son Media aritmética, Desviación
estándar, Correlación de Pearson, Test T de Student y Análisis de varianza y, por
supuesto, los que se podían utilizar con las dos escalas anteriores.

d). Escala de razón

Nunnally (1983) Se obtiene una escala de razón cuando se conocen: El orden de


los rangos de los sujetos con respecto a un atributo. Los intervalos entre las personas y
la distancia a partir de cero de por lo menos una persona.
En otras palabras, una escala de razón es un tipo particular de escala de intervalo,
en la cual se establecen las distancias con respecto a cero, en lugar de hacerlo con
respecto a la altura del muchacho más alto, la del más bajo o la del muchacho de altura
promedio. Obviamente, si se dispone de una escala de intervalo de altura y además se
conoce la altura absoluta (la distancia a partir del cero) de algún muchacho del grupo,
pueden calcularse las alturas absolutas de todos los integrantes.

Además de las características de las tres escalas anteriores, en ésta existe el 0


absoluto, es decir, las distancias se establecen respecto de 0. En este tipo de escalas si
se puede afirmar que el objeto que tenga 4 de atributo posee el doble que el que tiene 2.
Esta escala admite la utilización de los estadísticos que admitían las anteriores,
pero, además, los datos obtenidos, mediante una escala de razón permite el cálculo de
todas las operaciones matemáticas como de la media geométrica.

En la psicología, la medición en el nivel de razón se usa en algunos reactivos


que evalúan el funcionamiento del sistema nervioso, algunos reactivos de pruebas de
inteligencia la usan en el tiempo requerido para completar el diseño de cubos en 60
segundos. Aquí uno puede hablar de manera significativa respecto a un punto cero en
teoría, aunque en la realidad ningún sujeto completaría el rompecabezas tan rápido.

22
Figura 1
Resumen de las características de las escalas de medición

1.1.6. Importancia de la medición psicológica

Para comprender la importancia de la medición psicológica creo que es crucial


preguntarse ¿qué pasaría si no tuviéramos las mediciones psicológicas?. Por lo que
creemos que El rol de la medición psicológica es sumamente importante para procesos
como el diagnóstico psicológico que permite valorar el estado de salud psicológica de
las personas y la posterior toma de decisiones. Una buena medición psicológica
contribuye a un ejercicio profesional eficaz.

Las mediciones también son cruciales en los procesos de investigaciones


científicas, para la prueba de hipótesis sobre todos. Desde mediciones simples a
complejas, cualitativas y cuantitativas han estado acompañando el crecimiento
científico de la psicología como ciencia.

23
1.2. Los Tests Psicológicos:

1.2.1. Definición.
Los tests psicológicos son una de las herramientas que junto a la entrevista y
observación, los psicólogos disponen para acompañar sus procesos de evaluación con
distintos propósitos. (Gonzáles, 2007 y Aragón, 2011)

El término Test fue introducido por el psicólogo inglés McKeen Catell en 1980;
significa prueba, reactivo, ensayo, comprobación (Aragón 2011), desde entonces se han
propuesto una variedad de definiciones como la de Yela, 1980, Brown, 1980, Cohen y
Swerdlick (1996); Anastasi, y Urbina, 1998; Gregory, 2001; Hogan, 2004, Fernández et
al, 2016; pero todas ellas tienden a coincidir en que un test psicológico es un
procedimiento sistemático que permite medir de manera objetiva una muestra de
conducta para compararla con un grupo normativo.

Los tests psicológicos son resultados de procesos de construcción rigurosos y su


uso corresponde a seguir procedimientos estandarizados previamente de forma
meticulosa a cargo de personas debidamente entrenadas. Los tests, a través de los ítems
son estímulos que siempre va a medir una muestra de conducta, esto significa que no
vamos a encontrar un tests que mida todo el espectro de una variable psicológica, símil
a una investigación científica, se evalúa la muestra de conducta para que luego pueda
generalizarse los resultados al funcionamiento de la persona como tal, de ahí que la
evaluación de la muestra exige que se hagan en situaciones similares a un laboratorio
experimental, con capacidad de controlar o minimizar la influencia de variables extrañas
que puedan sesgar dicha medición. El propósito de un tests culmina cuando esta muestra
de conducta es comparada estadísticamente con el desempeño de una muestra de
personas, medidas en la misma conducta, y así poder emitir un juicio de valoración que
apoye toma de decisiones.

1.2.2. Características.
Según Anastasi y Urbina (1998) los tests psicológicos deben cumplir éstas
24
característica: estandarización, objetividad, validez y confiabilidad, pues en ellas dan
evidencias de su rigor científico garantizando su calidad. Estas características son
tomadas en cuenta por quien construye la prueba, por los editores, por las empresas que
los comercializan y por la comunidad psicológica.

La estandarización, significa que el test ha sido diseñado, ensayado para un


determinado grupo poblacional cumpliendo las exigencias científicas, metodológicas y
psicométricas, de tal modo que se cuenta con un instrumento que sintoniza con las
características de un grupo humano y que ha dado lugar a que se determinen las reglas
de administración, calificación y clasificación. Utilizar un test que no dé evidencias de
estandarización afectaría la validez de muestras evaluaciones, como también aun cuando
esté estandarizada utilizarla sin un previo proceso de adaptación para el grupo humano
que estamos pensando aplicarla.

La objetividad, se refiere a que un buen test será para el evaluador un


procedimiento que regulará la intromisión de factores personales como prejuicios, por
ejemplo. Y permitiendo que se respete los resultados tal cual, claro siempre que los
procedimientos de administración, calificación y clasificación se hagan por persona
cualificado, los resultados de un test minimizan la influencia de la subjetividad en la
medición psicológica.

La validez, es una característica ineludible que debe evidenciar cualquier test


psicológico y se refiere al grado en que el test mide lo que pretende medir (Anastasi y
Urbina, 1998), Los constructores de tests así como los usuarios profesionales, no
deberían administrar un test sin antes contar con las garantías de su validez, y no es
suficiente con que se señale que el test es válido sino debe proporcionarse información
acerca de las técnicas que se dispusieron para comprobarla así como sus resultados

La confiabilidad, es otra característica muy importante que debe cumplir todo


test psicológico, está referida a la capacidad de consistencia de los puntajes de los
examinados en el test (Anastasi y Urbina, 1998). Esta característica no permite tener un
grado de confianza aceptable en el desempeño de las personas evaluadas y de que los

25
errores de medición aun cuando no es posible controlarlos en su total magnitud, al
menos son mínimos.

1.2.3. Supuestos acerca de los tests y evaluación psicológica


Figura 2
Supuestos para el uso de tests psicológicos

Fuente: Cohen y Swerdlik (2001)

Para Cohen y Swerdlik (2001), estos supuestos ayudan a entender que los tests
y evaluación psicológica son conceptos dinámicos que van a estar susceptibles a
constantes discusiones, abiertos a nuevas explicaciones, por lo que no son temas
cerrados. Pero que resultan valiosos en la medida en que, así como pueden ser referentes
en el uso de los tests y en los procesos de evaluación psicológica también son temas que
interesan a la comunidad psicométrica en particular y son motivos de investigaciones
psicométricas.

1.2.4. Procedimientos en el uso de los tests psicológicos:


26
Arias-Barahona y Jesús (1996), considerando que la medición psicológica es un
proceso, con fines didácticos generaron un flujograma que sirviera como guía a los
futuros psicólogos para obtener resultados o valoraciones con los mínimos influencias
de sesgos durante el proceso de medición con los tests psicológicos. Por lo que creemos
importante detallar estos procedimientos para que el futuro constructor de pruebas pueda
anticipar el contexto y las demandas que deberá tener en cuenta cuando inicie su
proyecto.
En la siguiente figura se presente este proceso con sus respectivos
procedimientos:

Figura 3
Flujograma del proceso de medición con los tests psicológicos

Fuente: Arias-Barahona y Jesús (1996)

En esta figura, se aprecia algunos requisitos mínimos que debe cumplir quienes harán
uso de cualquier test psicológico. Así, conocer el test psicológico en lo referente a sus
antecedentes, finalidad, características, bases teóricas-conceptuales, tipos e índices de validez,
confiabilidad, así como los materiales. Asimismo, se debe conocer las características
27
psicosocioculturales y variables del examinado que puedan afectar sus resultados. También,
anticipar las condiciones físico-ambientales donde se recogerá la muestra de conducta.
Obviamente, el examinado debe demostrar competencias para la observación, análisis y
síntesis; relaciones interpersonales, demostrando actitud objetiva comprensiva y de respeto
absoluto, por las personas a evaluar. (Arias-Barahona y Jesús, 1996)
Usar un test psicológico implica tres momentos claves: administración, calificación y
clasificación e interpretación de los resultados, cada una de estos momentos, comprenden
procedimientos que podemos apreciar en la Figura y las que a continuación los describimos:

I fase: La administración u obtención de la muestra de conducta.


No se podría administrar un test si antes no hemos consolidado un buen rapport,
entendida esta como “el esfuerzo que hace el examinador para despertar el interés del
examinado, lograr su cooperación y animarlo a responder de manera apropiada a los objetivos
del instrumento” .(Arias-Barahona y Jesús, 1996). Seguidamente debemos saber distribuir los
materiales del test, algunas serán sencillas como los de papel y lápiz en tanto otros pueden ser
más complejas, pues consisten en estímulos gráficos o de manipulación motora, incluso algunos
materiales son de carácter virtual. La consigna o instrucciones debe ser leída o enunciada
acorde a lo establecido por el creador del test, no puede ampliarse ni recortarse, salvo que sea
un test adaptado, durante la ejecución del test, el examinado debe estar atento a conductas que
más adelante podrían ayudar en la interpretación de los resultados, por ejemplo; el uso
exagerado del borrador, las constantes preguntas de aclaración, el trabajo rápido o demorado,
actitudes de colaboración, reacciones frente al fracaso, etc. (Arias-Barahona y Jesús, 1996)

II Fase: La calificación o cuantificación de la conducta.


La calificación es el procedimiento en la que se asigna valores numéricos a las
respuestas del examinado al test, puede ser manual con ayuda de plantillas en algunos casos o
computarizado. Esta fase de por sí suele resultar sencilla si se ajusta a las reglas de calificación
eso implica que el examinador conozca bien estas reglas y muestre actitud objetiva y libre de
prejuicios. La calificación concluye cuando obtenemos un puntaje directo (PD) o puntaje bruto
que por ser un número, carece de significado psicológico, siendo importante entonces transitar
a la fase de clasificación. (Arias-Barahona y Jesús, 1996)

III Fase: La clasificación e interpretación de resultados.


28
Para clasificar al examinado se compara su puntaje directo (PD) con la norma del grupo
de referencia, más conocido como baremo, ubicándolo en un nivel de desempeño o categoría
de rasgo, dependiendo del atributo que el test mida. Esta clasificación. Debe ser interpretada
cuantitativa y cualitativamente, señalando fortalezas, debilidades y oportunidades de mejora.
Al respecto Anastasi (1998) nos dice que “ la interpretación adecuada de los resultados requiere
una comprensión cabal de la prueba, del sujeto que la presenta y de las condiciones en que fue
aplicada. Asimismo, es considerar la influencia que pudo haber tenido el examinador en estos
resultados” La interpretación, es un acto de mucha responsabilidad para el examinador
considerando las expectativas de los examinados y el impacto que los resultados puedan tener
en él y en sus familiares o amigos, sin olvidar que a partir de estos resultados se toman
decisiones incluso cruciales.

1.2.5. Clasificación

En la literatura psicométrica encontramos diversas taxonomías que utilizan criterios


disímiles para clasificar los tests psicológicos Cerda (1994), Fuentes (2001) y Meneses
et al (2013), aun así, presentamos una clasificación en función de sus características más
importantes

a. Según el propósito:

- Usos Teóricos vs. Aplicados: Los tests psicológicos pueden usarse para desarrollar
teorías psicológicas. Pues son las herramientas más objetivas que permite a los
investigadores recabar datos para la contratación de hipótesis científicas. Sabemos que
la construcción de una teoría se sostiene en constantes mediciones sensibles a la
verificación, y efectivamente los tests contribuyen a estas exigencias y es reconocido su
uso con fines de actualizar, corregir o profundizar algunos conocimientos teóricos.
Brown (1980)

Por otro lado, los tests psicológicos son reconocidos por su apoyo permanente a la toma
de decisiones de carácter individual o grupal, en distintos contextos: llámese educativo,

29
clínico, empresarial, social, judicial, deportivo, etc. Su uso aplicativo se evidencia más
en el uso que los psicólogos hacen de ellos en su práctica profesional, los van a requerir
para apoyar sus diagnósticos, para medir efectos de sus terapias o efectos de programas
preventivos por ejemplo. Nada más que es importante señalar que los tests por si solos
nunca serán suficientes para entender la complejidad del comportamiento humano,
desde esa perspectiva sólo son un buen medio auxiliar y de apoyo para situaciones
aplicativas. Brown (1980)

- Usos Predictivos vs. Descriptivos: En algunas situaciones, se utilizan las pruebas para
proporcionar descripciones de un individuo o grupo humanos. Por ejemplo, suelen
usarse para describir rasgos de personalidad, capacidades o habilidades cognitivas,
interés vocacionales y profesionales, perfil de desarrollo motor, etc. Estas descripciones
pueden ser a modo de tamizaje como a modo de análisis de varios rasgos, permiten tener
la caracterización de los atributos a nivel individual o grupal para poder conocer y
comprender su dinámica, teniendo como dice Brown (1980) una utilidad limitada. Sin
embargo, los tests pueden ayudar a anticipar la ocurrencia de un atributo psicológico,
por ejemplo predecir las aptitudes para ciertos aprendizajes o el riesgo de desarrollar
adicciones, por lo que ayudaría a ejecutar acciones de fortalecimiento o de prevención.

- Ejecución Máxima vs. Típica: Brown (1980) los tests de ejecución máxima, tienen el
propósito de medir la capacidad de rendimiento máximo posible de una persona, todas
las pruebas de rendimiento, aptitudes y habilidades pertenecen a este grupo. En
contraste, las medidas de ejecución típica suelen evaluar las reacciones y conductas
habituales de una persona, en este grupo se encuentran las pruebas de personalidad,
intereses y actitudes, una distinción común que suele ocurrir desde esta perspectiva
son las pruebas de inteligencia y las pruebas de personalidad.

b. Según el contenido
Referido al área de la psicología a la que pertenecen los fenómenos psicológicos que se
pretende medir. En términos generales pueden agruparse en tests orientados a la
evaluación de las habilidades cognitivas, la personalidad y las actitudes. (Anastasi y
Urbina, 1998; Meneses et al, 2013)

30
c. Según el formato
Teniendo en cuenta los materiales utilizados es frecuente distinguir los tests de lápiz y
papel, cuando se presentan los ítems en papel y se requiere que la persona dé su
respuesta escrita. Los tests computarizados, a pesar de que no usan el papel podrían ser
incluidos en esta categoría en cuanto que exigen respuesta escrita, pero por medio
electrónicos, los tests de manipulación, aquellos que presentan una serie de objetos,
imágenes o rompecabezas que las personas los resuelven para demostrar su habilidad y
los tests de medidas fisiológicas, en las que se utilizan sensores de distinto tipo para
registrar las reacciones de las personas ante los estímulos físicos presentados. (Anastasi
y Urbina, 1998; Meneses et al, 2013)

d. Según el tipo de administración


Los tests pueden ser de aplicación individual o colectivos.
Los individuales son aquellos test que ameritan un contacto más personal por la
naturaleza de los ítems y el registro de respuestas, sus instrucciones son más complejas
y por lo general tienen tiempo limitados de ejecución. Los tests colectivos en tanto son
de instrucciones breves y sencillas, no suelen tener límite de tiempo, se usan con fines
de screning, clasificación o selección y de investigación también. (Meneses et al, 2013,
Tornimbeni et al, 2014)

e. Según el tipo de respuestas


Aquellos tests de elección de respuesta, donde las personas evaluadas eligen la
respuesta de varias opciones, sin embargo, tienen la desventaja de la influencia del azar
en la respuesta elegida. Los tests de invención de respuesta o respuesta libre o abierta,
si bien es cierto se restringe la influencia del azar, pero la subjetividad en la calificación
puede ser un factor de sesgo. Los tests pueden ser de formato dicotómico, escala Likert,
diferencial semántico, opción múltiples, de resolución de tareas específicas, de
valoración de éxito o error, etc (Cohen y Swerdlick, 2001)

f. Según las propiedades teóricas


Tenemos a los tests homogéneos, llamados también unidimensionales, por ejemplo el
31
Test de matrices progresivas de Raven, que tiene como base teórica a la Teoría del
Factor G de la inteligencia de Spearman. Y los tests heterogéneos, llamados también
multidimensionales o factoriales. Por ejemplo, la teoría de Guilford que sirve de base a
las Escalas de inteligencia de Wechsler. (Fuentes, 2001)

g. Según el tratamiento de las respuestas


Los tests que evalúan el acierto en las respuestas para determinar la competencia, la
aptitud o los conocimientos de los individuos, o si se tratan de evaluar motivaciones,
preferencias, opiniones o actitudes. Se les conoce también como tests de ejecución
máxima y tests de ejecución típica. (Meneses et al, 2013)

h. Según la interpretación de las puntuaciones


Los tests normativos, que permiten comparar la puntuación del individuo con la
ejecución observada en un grupo de referencia que previamente ha respondido al mismo
test. Los tests referidos a criterio toman como referencia la definición de un dominio de
conocimientos o habilidades específicas y permiten medir la ejecución de la persona no
ya en comparación con un grupo de referencia, sino en función de su grado de
adecuación o consecución de este criterio. (Cohen y Swerdlick, 2001; Meneses et al,
2013)

i. Según el estatus comercial


Los tests se pueden clasificar en función de si son propietarios o no. Los tests
propietarios o comerciales son tests que requieren el pago para su uso e incluyen el
manual, los protocolos, las hojas de corrección y los baremos, están protegidos por las
leyes de propiedad intelectual. En tanto, los tests abiertos, de uso libre o no comerciales,
generalmente se obtienen contactando con el autor, por lo general se accede a ellos
desde las publicaciones que el autor hace a través de artículos científicos. (Meneses et
al, 2013)

j. Según el sector que explore el test:


Podemos hablar de los Tests de eficiencia, que evalúan los aspectos intelectivos y
cognoscitivos de la persona, por ejemplo, los test de inteligencia, escalas o pruebas de
32
desarrollo mental, tests de aptitudes y tests de conocimiento y aprovechamiento. Los
tests de inteligencia y los de aptitudes se distinguen de los tests de conocimientos y de
aprovechamiento en que aquellos miden aspectos del funcionamiento del intelecto en su
mayor parte independientes, aunque no totalmente de sus adquisiciones culturales
(Nunnally, 1991). Por otro lado, Tests de personalidad que permiten obtener
información sobre rasgos de personalidad, intereses y actitudes, a diferencia de los test
de inteligencia no hay respuestas correctas o incorrectas, de hecho, cada persona es
única en sus funcionamientos psicológicos. En términos de Cronbach (1998) podrían
nominarse tests de ejecución máxima y ejecución típica, (Fuentes, 2001; Tornimbemi,
2014)

1.3. Teorías de los Tests Psicológicos

Para contextualizar las teorías, es oportuno empezar precisando que la


psicometría según Muñiz (2018) “es el conjunto de métodos, técnicas y teorías
implicadas en la medición de las variables psicológicas”. Y que la temática psicométrica
se organiza en torno a cinco grandes bloques: Teoría de la medición, Teoría de los tests,
Escalamiento psicológico, Escalamiento psicofísico y Técnicas multivariadas.
La caracterización de cada bloque lo podemos apreciar en la siguiente presentación.

Figura 4
Áreas de acción de la Psicometría

33
A continuación, se desarrolla los lineamientos más significativos de la Teoría de
los tests, toda vez que está referido a la construcción de los mismos y es importante
conocer los Modelos que históricamente subyacen a esta área de la Psicometría, nos
referimos a la Teoría Clásica de los Tests (TCT) y a la Teoría de respuesta a los ítems
(TRI)

1.3.1. Teoría Clásica de los Tests (TCT).

Es el enfoque clásico y predominante en la construcción y análisis de los tests,


se reconoce a Spearman (1904) como su iniciador, a Gulliksen (1950) quien realizó la
síntesis canónica de este enfoque y a Lord y Novick (1968) quienes la reformularon para
dar inicio al nuevo enfoque de la TRI, de hecho en el camino hubo otros estudiosos,
pero lo más significativos son los mencionado. (Muñiz, 1996,2018. Meneses et al,
2013.).

a. Modelo Lineal Clásico

Puede ser de ayuda precisar que en este Modelo se definen tres conceptos
fundamentales: puntuación verdadera, puntuación empírica y el error de medida
(Meneses et al, 2013). El objetivo central de este modelo es “la estimación de los
posibles errores cometidos cuando se utilizan los tests para medir variables
psicológicas” (Muñiz,1996, 2018). Esto alude al hecho de que cada vez que
34
medimos variables o atributos psicológicos haciendo uso de los tests no tenemos la
certeza de si el puntaje obtenido por la persona evaluada se corresponde con su
puntuación real y cuanto de ese puntaje ha sido influenciado por variables extrañas,
a las que se les nomina errores de medición. Considerando que todo puntaje o valor
empírico suele mezclarse con los errores de medición, se necesita un modelo para
estimar los errores de medida tanto en la Psicología como en las otras ciencias,
teniendo claro que los errores no son observables directamente cuando se utiliza un
instrumento de medida.

Tabla 1
Formulación del modelo lineal clásico
Modelo X=V+e
Supuestos V = E(X).
p (v,e) = 0
p (ej, ek) = 0
Definición Dos tests, j y k, se denominan
paralelos so la varianza de errores es
la misma en ambos y también lo son
las puntuaciones verdaderas de los
sujetos.
Fuente. Muñiz (1996,2018)

El modelo establece que la puntuación que una persona obtiene en un test, que
denominamos su puntuación empírica, y que suele designarse con la letra X, es igual a
la suma de dos componentes, por un lado, la puntuación verdadera de esa persona en
ese test (V) y el error de medida(e) cometido en la medición (Muñiz, 1996,2018). Esta
situación ya se había explicado, primero porque las mediciones en psicología son
indirectas y por ello se hacen susceptibles de estas variaciones (Meneses et al, 2013) y
luego, porque ninguna medición psicológica es perfecta y libre de sesgos, señalamos
también que estos sesgos provienen de distintas fuentes de error, por lo que es
importante asegurar las puntuaciones tanto de la medición empírica como de los errores.

35
Supuesto 1.

La puntuación verdadera (V) es la esperanza matemática de la puntuación


empírica: V = E(X). Donde X es la variable aleatoria “puntuación empírica de la
persona”. Este primer supuesto constituye en realidad una definición de la puntuación
verdades. Muñiz (1996, 2018)

En la práctica, este supuesto significa que la puntuación verdadera de una


persona en un test sería la media (promedio) de infinitas aplicaciones del mismo tests a
la misma persona. Lo que en realidad no se daría, pues quien podría estar a disposición
de infinitas aplicaciones, es por eso que se nomina a la puntuación verdadera, como un
concepto matemático. Muñiz (1996, 2018) precisa que “la puntuación empírica en un
test e una muestra de conducta que, si reúne ciertos requisitos de medida, y bajo ciertos
supuestos, permite hacer inferencias probabilísticas fundadas”. Después de todo, de esto
se trata la teoría de los tests.

Supuesto 2

Spearman asume que no existe relación entre la cuantía de las puntuaciones


verdaderas de las personas en un test y sus respectivos errores que afectan a esas
puntuaciones p (v,e) = 0. (Muñiz, 1996, 2018)
En otras palabras, que el valor de la puntuación verdadera de una persona no
tiene nada que ver con el error que afecta esa puntuación, es decir, puede haber
puntuaciones verdaderas altas con errores bajos, o altos, no hay conexión entre el
tamaño de la puntuación verdadera y el tamaño de los errores. De nuevo se trata de un
supuesto en principio razonable,

Supuesto 3

Los errores de medida de las personas en un test no correlacionan con los errores
de medida en otro test distinto: p (ej, ek) = 0. (Muñiz, 1996, 2018). Significaría que, si
aplicamos correctamente dos tests a la misma persona, los errores de medición para cada
aplicación serán aleatorios y no tendrían por qué estar relacionados.
36
Estas asunciones parecen razonables y sensatas, pero no se pueden comprobar
empíricamente de forma directa, serán las deducciones que luego se hagan a partir de
ellas las que permitan confirmarlas o falsearlas (Muñiz, 1996, 2018).

Tabla 2
Deducciones inmediatas del Modelo lineal clásico

Fuente Muñiz, 2018

Tras cien años formuladas y con muchos resultados empíricos detrás, bien

37
podemos decir hoy que las ideas de Spearman han sido de gran utilidad para la
psicología. Además del modelo y de estos tres supuestos, se formula una definición de
lo que son Tests Paralelos, entendiendo por ello aquellos tests que miden lo mismo
exactamente, pero con distintos ítems. Las puntuaciones verdaderas de las personas en
los tests paralelos serían las mismas, y también serían iguales las varianzas de los errores
de medida. Pues bien, el modelo lineal, junto con los tres supuestos enunciados, y la
definición de tests paralelos propuesta, constituyen el cogollo central de la Teoría
Clásica de los Tests. Se han generado procedimientos que permiten estimar el grado de
error que contienen las puntuaciones de los tests, y se denomina fiabilidad de los Tests.

a. Limitaciones del enfoque clásico

Si bien la gran mayoría de tests psicológicos han sido creados y analizados desde
la TCT y se constituyen en una buena alternativa para estimar el valor de las
puntuaciones verdaderas a partir de las puntuaciones empíricas, presentan limitaciones
que no las ha podido resolver desde el modelo lineal clásico,

Una limitación es que, las mediciones no resultan invariantes con respecto al


instrumento utilizado. Si se midiera la creatividad de tres estudiantes con un test de
creatividad diferentes para cada uno de ellos, los resultados no podrían ser comparables,
en la medida que cada test tiene su propia escala de valoración, y no sería fácil señalar
quien de los tres es más creativo. Aun cuando se pretenda uniformizarlos con las normas
de los baremos, resultaría de riesgo, toda vez que los baremos de cada test son peculiares
para cada grupo humano. Con respecto a la ausencia de invarianza de las propiedades
de los tests respecto de muestra evaluada, se refiere a que la dificultad de los ítems, o la
fiabilidad del test por ejemplo va a depender del tipo de personas evaluadas, suponiendo
entonces que los que gozan de mejor educación por hacer que la mayoría de ítems sean
fáciles en tanto si los participantes fueran personas con desventajas económicas harán
que la mayoría de ítems resulten difíciles, en buena hora la TRI permite superar estas
limitaciones. Muñiz (2010)

Otra limitación, pero más técnico es referido al coeficiente de fiabilidad de un


test, como el coeficiente alfa de Cronbach (1951), la TCT proporciona un coeficiente
38
para toda la prueba en función de todos los participantes, cuando los tests en realidad
no miden con la misma precisión a todas las personas (Tornimbeni, et al, 2014)

1.3.2. Teoría de Respuesta a los Ítems (TRI)

Como se acaba de señalar en el apartado anterior, la TRI va a resolver algunos


graves problemas de la medición psicológica que no encontraban una solución adecuada
dentro del modelo lineal clásico. El nombre Teoría de respuesta a los ítems, significa
que este enfoque se basa en las propiedades de los ítems más que en las del test global
(Muñiz, 1990, 2018) he ahí la diferencia sustancial con la TCT.

La TRI tuvo sus inicios en el trabajo pionero de Richardson (1936), a partir de


él se fueron sumando otros investigadores como Lord (1952), Rasch (1960), Birnbaum
(1968), que sumados a la creación de software para el tratamiento del Modelo,
impulsaron su difusión y mayor publicaciones como el de Lord (1980), Van der Linden
y Hambleton (1997), destacando el enciclopédico de Van der Linden (1916) y los
escritos en español por parte de Muñiz (1990,1996, 2010, 2018)

La TRI, aparte de ser un referente para la construcción y análisis de tests


psicológicos su objetivo central es “obtener mediciones invariantes respecto de los
instrumentos utilizados y de las personas implicadas” (Muñiz, 1996,2018), donde las
mediciones no dependan ni del instrumento ni de la muestra.

“ El aporte de la TRI a la evaluación psicológica y educativa es con técnicas que


permiten conocer las funciones de información de los ítems y del test, errores típicos de
medida distintos para cada nivel de la variable medida o el establecimiento de banco de
ítems con parámetros estrictamente definidos, haciendo posible el uso de test adaptados
al nivel de la persona evaluada, permitiendo exploraciones más exhaustivas y rigurosas
en función de las características de las personas” (Muñiz, 2018)

Veamos a continuación los supuestos y los modelos de TRI.

39
a. Curva característica de los ítems

Los modelos TRI asumen que “existe una relación funcional entre los valores de
la variable que miden los ítems y la probabilidad de acertar éstos, denominando a dicha
función curva característica de los ítems” (Muñiz, 1990). Esto significa que la
probabilidad de acertar un ítem sólo va a depender de los valores de la variable medida
por el ítem, por tanto, las personas con distinta puntuación en la variable medida tendrán
distintas probabilidades para superar determinado ítem.

Un ejemplo de lo dicho puede verse en el gráfico 1, nótese que, al aumentar los


valores de la variable medida por el ítem , denominada θ, aumenta la probabilidad de
acertar el ítem p(θ). Los valores de la variable medida, sea la que sea, se encuentran
entre menos infinito y más infinito, mientras que en la teoría clásica los valores
dependían de la escala de cada test, yendo desde el valor mínimo obtenible en el test
hasta el máximo.
Figura 5
Curva de característica del ítem

La forma concreta de la CCI viene determinada por el valor que tomen tres
parámetros: a, b y c. Siendo a el índice de discriminación del ítem, b la dificultad del
ítem y c la probabilidad que hay de acertar el ítem al azar. (Muñiz, 2018). Según los
parámetros tomen unos valores u otros se generan distintas formas de curvas, como se
puede ver en siguiente gráfico (Muñiz, 1990)

Figura 6
Parámetros de la curva característica del ítem

40
b. Unidimensionalidad e independencia local
Desde la TRI se postula que “si el modelo es correcto, la probabilidad de
acertar un ítem únicamente dependerá de un factor (de θ), en otras palabras, la TRI asume
implícitamente en su formulación que los ítems destinados a medir la variable θ constituyen
una sola dimensión, son unidimensionales” (Muñiz, 2018)

Modelos

Con los supuestos señalados, según se elija para la Curva Característica de los
Items (CCI) una función matemática u otra y según se tengan en cuenta, uno, dos o tres
de los parámetros de los ítems descritos, se generarán diferentes modelos. (Muñiz,
1990), las funciones matemáticas mayormente elegidas han sido la función logística y
la curva normal acumulada, los que han dado lugar a numerosos modelos, pero se
describirán los que han recibido mayor atención.

a. Modelo logístico de un parámetro (Modelo de Rasch)


Modelo más popular de la TRI, postula que “la respuesta a un ítem solo
depende de la competencia de la persona y de la dificultad del ítem, es decir de θ y
de b, lo cual se constituye la esencia de la medición” (Muñiz, 2018). Según este Modelo, la
CCI viene dada por la función logística y el único parámetro de los ítems a tener en cuenta
es b, el índice de dificultad (Muñiz, 1990)

b. Modelo logístico de dos parámetros


Originalmente fue desarrollado por Birnbaum (1957), postula que “la CCI

41
viene dada por la función logística y contempla dos parámetros de los ítems, el
índice de dificultad b y el índice de discriminación a” (Muñiz, 2018).

c. Modelo logístico de tres parámetros


Con sus orígenes en los trabajos de Birnbaum (1957), junto al Modelo de
Rasch son los que más atención han recibido en las publicaciones psicométricas.
Este modelo asume que “la CCI viene dada por la función logística y añade a los
dos parámetros a y b ya citados un tercero, c, relativo a la probabilidad de acertar el
ítem al azar cuando no se conoce la respuesta” (Muñiz, 2018).
d. Modelo de ojiva normal
Asumen que la CCI viene dada por la función de la curva normal acumulada. A decir de Muñiz
(1990) su utilización actual es escasa.

Comparación de la Teoría Clásica (TCT) con la Teoría de Respuesta al Item (TRI)

En la siguiente Tabla se sintetizan las diferencias y similitudes entre las dos teorías de
los tests, es de apoyo para precisar sus peculiaridades así como las ventajas o desventajas
de cada uno de ellos. La idea es no verlos como Teorías opuestas, después de todo el
constructor de test es el que decide con cuál de los modelos orientara su trabajo,
independientemente de la Teoría creemos que el test es válido, siempre que cumpla con
los otros criterios que demanda este proceso riguroso.

Tabla 3
Diferencias entre la TCT y la TRI

42
Fuente: Muñiz (1997a

1.4. Adaptación o Construcción de Tests psicológicos.

Los investigadores en psicometría tienen opiniones divididas respecto a qué es lo mejor


o adaptamos tests psicológicos de otros contextos para nuestros países o es mejor construirlos.
La gran mayoría de tests psicológicos que usamos en nuestro país son pruebas
provenientes del extranjero, que se construyeron para una realidad psicosocial peculiar, algunas
de ellas han sido adaptadas pero la gran mayoría no cumplen con los principios internacionales
de traducción y adaptación (Muñiz et al, 2013), lo que merma su capacidad para el uso
profesional e incluso con fines investigativos.

Fernández et al (2010) señala que “los que promueven la construcción de tests lo hacen
debido a que se está adaptando estos sin tener en cuenta las numerosas diferencias culturales
existentes entre ambas culturas, siendo la más importante el sesgo de constructo”. Si
asumimos que un test se construye y estandariza para un espacio social con sus peculiares
idiosincrasias y tenemos en cuenta que los rasgos psicológicos tienden a diferenciarnos de una
cultura a otra, pues la adaptación significaría que en mi espacio social un atributo psicológico
se define tal como se define en la cultura de origen del test. Lo que no siempre es real, sino

43
previamente no hay evidencias de que esto puede ser así. Por ejemplo, la asertividad no tiene
la misma concepción en un país democrático que en otro de régimen autoritario.

Los investigadores que señalan las ventajas de la adaptación sobre la construcción,


expresan que el principal argumento es la escasez de desarrollo teórico en nuestra cultura,
nuestro país por ejemplo no se cuenta con teorías psicológicas acerca de muchas variables,
somos un país que importa hace muchos años las teorías que sustenta la práctica profesional e
investigativa. Y si queremos construir un test, pues vamos a requerir de esa teoría, por cierto
validada por la comunidad científica y que no la tenemos puesto que la producción científica
en este rubro es escasa ya a su vez demandan muchos recurso. Sin embargo, Fernández et al
(2010) precisa que a través de esta posición se corre el riesgo de caer en un relativismo cultural.
Dentro del marco del relativismo cultural no habría valores culturales universales y, por lo tanto,
es necesario estudiar cada cultura como si fuese única. La práctica de importar teorías e
instrumentos es considerada errónea”. Por lo que, no es recomendable caer en el extremismo
del relativismo cultural, pues muchos constructos son equivalentes entre distintas culturas,
incluido las teorías psicológicas vigentes, psicoanálisis, guestalt, cognitivismo, teoría sistémica,
estas teorías han venido fundamentando muchos trabajos científicos realizados en todo el
mundo.

No se trata de optar por la adaptación o construcción de tests sólo atendiendo a las


limitaciones de ambas propuestas, sino de señalar las condiciones que una puede priorizar sobre
las otras, de hecho, si queremos adaptar tests psicológicos es una buena opción, hemos visto el
esfuerzo de investigadores en esta línea y cuando estas adaptaciones se ajustan a los
lineamientos internacionales, pues el tests adaptado va a ser de valía, pero siempre señalando
sus potenciales limitaciones. Sin embargo, si se tiene la oportunidad de construir el test, aun
cuando no tengo una propuesta teórica en mi país, nada impide que se tome como fundamento
teórico el modelo de otros contextos, pero si cuidando de que la teoría sea en absoluto inefable.
Construir una prueba de por si en mi opinión tiene más ventajas porque recogerá la idiosincrasia
nuestra, se ensayará en muestras locales todos sus procedimientos, estandarizándola conforme
el estilo de vida de los mismo.
.
La Comisión Internacional de Tests (International Test Commission) ha elaborado una
serie de pautas para adaptar tests de una cultura a otra (Hambleton, 2005). Dichas pautas han
44
sido puestas a prueba con éxito, lo cual demuestra que esta es una opción válida en el
controvertido tema de la adaptación de pruebas psicológicas.

Autoevaluación:

1. La siguiente definición: “proceso sistemático, que, respetando reglas, asigna números a


los atributos psicológicos” corresponde al concepto:
( ) Medición científica
( ) Medición psicológica
( ) Medición indirecta
( ) Psicometría

2. Relacione los siguientes principios de la medición psicológica con sus respectivos


ejemplos

(a)Se basa en las diferencias ( ) La depresión alta de Aníbal se debe al


individuales despido intempestivo de su trabajo.
45
(b)Son relativas que absolutas ( ) La empatía de los estudiantes se medirán
con el TECA.
(c)Son siempre indirectas ( ) Las habilidades motoras de los niños del
campo son prevalentes frente a las habilidades
verbales de los niños de la ciudad

3. Mencione las ventajas de la medición psicológica:


a.- ______________ b.- _________________ c.- _______________d.- _____________

4. Sobre la teoría de los tests complete a que teoría se refiere los siguientes enunciados:

Trabaja con un modelo no lineal, que se caracteriza por la invarianza de las mediciones así
como de las propiedades de las puntuaciones (_____________________________ ).

Esta teoría se caracteriza por poner énfasis en el test en general y no en los ítems, se centra en
calcular los índices de dificultad y discriminación, trabaja con el modelo lineal, la escala de
puntuación es entre cero y la puntuación máxima (_______________)

5. Argumente por qué es mejor construir un tests psicológico antes que adaptarlo.
____________________________________________________________________
_____________________________________________________________________
___________________________________________________________________

Actividades para el estudio independiente:

 Lea el artículo de investigación: Análisis psicométrico del Cuestionario de Honey y


Alonso de Estilos de Aprendizaje (CHAEA) de Luis Escurra (2011) con los modelos de
la Teoría Clásica de los Tests y de Rasch.
https://www.redalyc.org/pdf/1471/147122650003.pdf
Después de leer dicho documento, escriba los hallazgos desde cada Teoría

..............................................................................................................

.............................................................................................................

..............................................................................................................
46
.............................................................................................................

..............................................................................................................

.............................................................................................................

..............................................................................................................

.............................................................................................................

..............................................................................................................

.............................................................................................................

Bibliografía Complementaria.

Cohen, R., Swerdlik, M. (2001). Pruebas y evaluación psicológicas: Introducción a las pruebas
y a la medición (4ª ed.). México.

Tornimbeni, S., Pérez, E. y Olaz, F. (2014). Introducción a la Psicometría. Buenos Aires.

Para conocer el aporte de la psicometría puede visualizar el siguiente video:


https://www youtube com/watch?v=r60IicHuxXE&in-dex=5&list=PLjjVfXgqEfhgEnQ2-
KnTH-E8J3HcAj-pP

CAPITULO II
PROCESO DE CONSTRUCCIÓN DEL TEST PSICOLÓGICO

Objetivo:

47
Comprende los procedimientos metodológicos establecidos
para el proceso deconstrucción de un test psicológico.

Contenidos:

2.1. Definición

2.2 El método científico y la construcción


CONSTRUCCIÓN del test psicológico
DEL
TESTS
PSICOLÓGICO 2.3 Etapas de la construcción deL Test

2.4 Sesgos en la construcción deL Test

Indagando saberes previos:

A continuación, te pedimos resuelvas las siguientes preguntas:

1. Las teorías para construir tests psicológicos son:


( ) Teoría clásica de los tests
48
( ) Teoría de respuesta al ítem
( ) Teoría del aprendizaje
( ) Teoría psicométrica

2. ¿Desde su opinión por qué se debe construir los tests psicológicos?

3. Ordene las fases de construcción de un test psicológico:


( ) Revisión ( ) Ensayo de la prueba ( ) Conceptualización de
laprueba ( ) Análisis ( ) Construcción de la prueba

4. La propiedad psicométrica de una prueba construida hace


alusióna:
( ) Validez y confiabilidad
( ) Validez, confiabilidad y
baremos( ) Validez y
baremos
( ) Confiabilidad, baremos

5. ¿Conoce usted Tests psicológicos construido para


población peruana?. Mencionarlos.
a.
b.

Desarrollo temático:

2.1. Definición.
El capítulo precedente seguramente nos ha permitido comprender la
responsabilidad de los psicólogos cuando usamos los tests para una evaluación, pues
es indiscutible que los resultados del test llevan a tomar decisiones. Ello nos lleva a
pensar, que en todo lo posible debemos seleccionar tests de calidad y un tests será
de calidad desde el momento en que se planifica, se construye y se estandariza para
su uso profesional. (Muñiz y Fonseca, 2019).

49
Cohen y Swerdlick (2001) advierten que “no todas las pruebas se crean igual.
La creación de une buena prueba no es una cuestión fortuita; es el producto de una
aplicación meditada y sólida de principios establecidos de elaboración de pruebas”.
Enfatizando entonces, en que el proceso de construcción de un tests se acompaña de
fundamentos teóricos (de la variable a medir como de las teorías de la medición) así
como las diversas técnicas de análisis matemáticos, que obviamente el futuro
constructor debe conocerlos de manera exhaustiva (Fernández, et al, 2016).

Hasta aquí podemos apreciar que los autores reflexionan sobre el significado
e implicancias de la construcción de tests psicológicos. Tomando como referencia
estas reflexiones podemos postular la siguiente definición:

La construcción de un test psicológico, es un proceso planificado,


sistematizado, riguroso y verificable que haciendo uso de fundamentos teóricos y
matemáticos, diseña, ensaya y estandariza una herramienta para medir una muestra
de conducta en una determinada población demostrando criterios de validez y
confiabilidad y que serán de uso para la práctica profesional y desarrollo
investigativo. (Anastasi y Urbina, 1998; Cohen y Swerdlick, 2001; Meneses, 2013,
Muñiz y Fonseca, 2019, Fernández, et al, 2016)

2.2. El método científico y la construcción de un test psicológico.

La construcción de los tests psicológicos suelen estar acompañados de los


procedimientos que exige la ciencia para obtener un producto tecnológico que
responda a la demanda social, teórica y metodológica. (Hernández et al.; 2010)
Permitiendo que la comunidad científica pueda valorar no solo el producto sino el
procedimiento seguido para su construcción. En ese sentido el método científico
desde el planteamiento del problema, formulación de hipótesis, contrastación de
hipótesis y conclusiones son guías para que los constructores de tests puedan
evidenciar que el producto tecnológico tiene el respaldo del procedimiento
científico. (Bunge, 1972).

Figura 7
Etapas del método científico

50
Las publicaciones sobre construcción de Tests dan cuenta de lo dicho anteriormente.

Para ello nos apoyaremos como ejemplo en la revisión de la Tesis de Robles (2020)

sobre la Construcción de una escala de ansiedad social (EANS) y verificar que se cumplió

con las etapas del método científico.

En la introducción se aprecia el planteamiento del problema con su respectiva


descripción del problema, antecedentes, marco teórico y los objetivos. En método se
lee el tipo y diseño de investigación, operacionalización de la variable, descripción
de la población y muestra, así como el procedimiento de construcción y propiedades
psicométricas del cuestionario, asimismo el detalle de los procedimientos, los
métodos de análisis de datos. En Resultados se presentan los hallazgos respecto a las
propiedades psicométricas del instrumento los mismos que son acompañados de sus
respectivas discusiones. Finalmente, comunica las conclusiones del producto
tecnológico.

51
2.3. Etapas del proceso de construcción de un test

Las etapas o fases de construcción de un tests psicológicos a través de los


años han sido propuesto por diferentes autores, como podemos apreciar en el
siguiente Cuadro que los consolida:

Para este texto tomamos como referencia los procedimientos señalados por
la Comisión Internacional de Tests Psicológicos, la misma que fue traducida por
Muñiz (2019).

Tabla 4
Fases del proceso de construcción de un test

52
Fuente: Tomado de Muñiz (2019). Introducción a la psicometría. P.266.

El mismo Muñiz (2019) advierte que estos pasos no son de carácter universal pero
que si son de ayuda para llevar óptimamente cada procedimiento de este complejo
proceso.

1° Fase: Marco general del test

El proceso de construcción de un test psicológico parte por argumentar las


razones de su creación, describir el por qué y para qué de este nuevo instrumento.
Luego tenemos que delimitar el atributo psicológico que se pretende medir,
proyectar el contexto de aplicación, es decir la población, asimismo definir si el tipo
53
de aplicación será individual o colectiva, el formato de administración (lápiz y papel,
informática), y si la puntuación en el test será para tomar decisiones de diagnóstico,
selección, clasificación, orientación o tamizaje. (Meneses et al., 2013, Muñiz, 2019).

Las causas que pueden llevar a la construcción de un test psicológico suelen


ser variadas, por ejemplo, un psicólogo puede decidir construir un test porque no
existe ningún otro para medir una determinada variable, porque los tests ya
existentes presentan propiedades psicométricas deficientes, o simplemente porque
los existentes se han quedado obsoletos. Muñiz (2019)

2° Fase: Definición de la variable a ser medida por el test

Esta fase es crucial y se caracteriza porque el constructor ha de hacer una


exhaustiva consulta bibliográfica para poder definir la variable a medir en tres
categorías:
Figura 8
Componentes de la definición de variable a medir

Definición de
la variable

Definición Definición Definición


operacional semántica sintáctica

Las vinculaciones de estos tres tipos de definición con las técnicas de validez
son trascendentales, por ello deben ser cuidadosamente definidos.
La definición operacional de la variable va a facilitar su medición empírica,
para ello se requiere el soporte de las teorías acerca de la variable y consulta a
expertos, para poder delimitar que es y que no es, identificar con claridad los
comportamientos más representativos, así como identificar sus posibles
dimensiones, del cuidado que se tenga en la definición operacional la redacción de
los ítems serán pertinentes. (Meneses et al., 2013, Muñiz, 2019).

La definición semántica, permitirá identificar y definir las dimensiones o


54
componentes de la variable a medir, así como sus facetas o dominios y la relación
entre ellas. En tanto, la definición sintáctica, trata de indagar la relación entre la
variable que medirá el test con otras variables de interés incluso variables símil, de
modo que se pueda describir en términos de relación, diseñar una red nomológica de
la variable, será de gran ayuda, puesto que nos permite visualizar q nuestra variable
como parte de un sistema y delimitarlo de la manera más precisa posible. (Meneses
et al., 2013, Muñiz, 2019).

3° Fase: Especificaciones del test a construir

En esta fase se debe enunciar los requerimientos de administración del test,


será un test de papel y/o informático, se administrará de manera individual y/o
colectiva, asimismo el tipo, número, longitud, contenido y distribución de los ítems,
formato de respuestas, escalas o alternativas de respuestas, las instrucciones
generales o específicas. También se debe especificar los requisitos que deben
cumplir quienes resolverán el test (edad, genero, grado de instrucción. Idioma)
incluso proveer las adaptaciones para personas con habilidades diferentes, claro
siempre que el autor considere que para ellos también es aplicable el test que
construirá. y finalmente, enunciar las consideraciones para la seguridad del test.
(Meneses et al., 2013, Muñiz, 2019).

4° Fase: Construcción de los ítems

A decir de Muñiz (2019) esta etapa es la más crucial porque la calidad en la


construcción de los ítems tiene influencias significativas en las propiedades
psicométricas del test.

Los ítems pueden ser originales, creados por el constructor, que es lo ideal;
pero también pueden ser tomados de otros tests ya existentes en otras culturas, en
ambos casos deben ceñirse a las directrices de la International Test Commission
(2017). La construcción de tests se rigen por los principios de representatividad,
relevancia, diversidad, claridad, sencillez y comprensibilidad (Muñiz et al., 2005).

55
Los ítems deben ser redactados en la cantidad oportuna acorde a la definición
operacional de la variable, deben ser heterogéneos y variados, evitando los
tecnicismo, dobles negaciones y ambigüedades y comprensibles para la población en
la que se aplicará, para ello el lenguaje ha de ser inclusivo, no ofensivo ni
discriminatorio, se sugiere que para garantiza la comprensión de los ítems, se realice
un estudio piloto. Sobre la cantidad de ítems la sugerencia e que sean e doble de lo
proyectado por la tendencia a que muchos de ellos serán desechados reya sea por el
criterio de expertos, comprensión de los usuarios o indicadores psicométricos.
(Meneses et al., 2013, Muñiz, 2019).

Los ítems pueden distinguirse acorde al contenido, formato o forma de


respuesta; pero gracias a las Tecnologías de información y comunicación Según
Paschall et al (2010) citado por Muñiz (2019) habría siete dimensiones de los ítems
que están innovándose: estructura, complejidad, fidelidad, interactividad, multimedia,
tipo de respuesta y sistemas de puntuación.
En esta fase, también se debe enunciar los mecanismos de calificación de los ítems,
que seguro va a depender del tipo de ítems y respuesta, las pautas deben ser las más
claras posibles de modo que el calificador no tenga dudas y pueda minimizarse errores
por subjetividad. (Meneses et al., 2013, Muñiz, 2019).

5° Fase: Edición

Para esta fase el constructor debe diseñar e imprimir la primera del test, como
también construir la base de datos con las claves de corrección. Se debe cuidar la
calidad de la presentación del test y sus materiales como el cuadernillo de preguntas
y el protocolo de respuesta, cuidando los criterios de sencillez, elegancia e interés, de
modo que el test sea un factor de motivación para el examinado. Con respecto a la
base de datos, es recomendable tenerlos preparados con las normas de corrección y
puntuación general y/o específica, de modo que facilite la tabulación estadística de
carácter psicométricos como cálculos de coeficientes de validez, confiabilidad,
normas de interpretación, etc. (Meneses et al., 2013, Muñiz, 2019).

6° Estudio piloto
56
Todo estudio piloto o de ensayo, tiene como propósito evaluar el
funcionamiento de un objeto que puede ser un medicamento, un artefacto, un
programa terapéutico, etc., con fines de mejora o prevención de riesgos.

Durante el proceso de construcción del test, el estudio piloto va a permitir


examinar el funcionamiento general del instrumento de medición en una muestra de
personas con características similares a la población para quién se está construyendo
el test. Este estudio va a permitir detectar, evitar y corregir posibles deficiencias del
test in situ, que podrían darse durante su administración, calificación o clasificación
de los examinados. (Meneses et al., 2013, Muñiz, 2019).

Los tipos de estudio piloto pueden ser cualitativo y cuantitativo. Es estudio


piloto cualitativo trabaja con la técnica de focus group y producto de a discusión, los
participantes dan a conocer fortalezas y debilidades del instrumento, por ejemplo
errores semánticos, gramaticales, ambigüedades, confusiones entre ítems, ítems que
generan malestar o incomodidad personal, comprensión de las instrucciones,
desenvolvimiento con las escalas de respuestas y el tiempo promedio de ejecución.
En estudio piloto cuantitativo, apuesta más por un análisis estadístico acerca de las
propiedades psicométricas de los ítems como índice de discriminación, cargas
factoriales, funcionamiento diferencial del ítem, por ejemplo. Para ambos tipos de
pilotaje se requiere que la muestra sea lo más cercana posible a las características
sociodemográficas de la muestra oficial. (Wilson 2005, citado por Muñiz (2019).
Los hallazgos del estudio piloto pueden motivar desechar ítems o tal vez cambiarlos
o incluso incorporar nuevos. Se recomienda al constructor que elabore un informe de
este estudio piloto y las decisiones tomadas que deberán ser parte de la nueva versión
del test sean revisadas de nuevo por el grupo de jueces y ésta versión será la que se
administre a la población definida. (Meneses et al., 2013, Muñiz, 2019).

7° Fase: Selección de otros instrumentos de medida

En la fase dos, se hizo mención a que el constructor tenía que generar una
57
definición sintáctica de la variable a medir, que le permita identificar con qué otras
variables podrían estar relacionada la variable de su test. Por lo que, en esta fase,
corresponde a que al autor debe seleccionar aquellos instrumentos que le permitan
evaluar esas otras variables identificadas para aplicarlos a la muestra y poder recoger
evidencias de validez de relación con variables externas, permitiendo así la
construcción de una red nomológica. Los instrumentos seleccionados deben ser los
que reúnan los más altos indicadores de calidad científica como que se encuentren
validados para la población objetivo y den evidencias de las propiedades
psicométricas de sus puntuaciones, que sean sencillos y de rápida administración y
tengan coherencia para insertarse dentro de su red nomológica. (Meneses et al., 2013,
Muñiz, 2019).

8° Fase: Aplicación del test

En esta fase el constructor del test deberá seleccionar la muestra, aplicar el test
a muestra seleccionada y efectuar el control de calidad y seguridad a la base de datos.

Tal como se exige a la investigación científica, sobre los requisitos de la


muestra si la intención es generalizar los resultados (Hernández, et al 2010), deben
ser tomados en cuenta también es esta fase. La muestra debe ser del tamaño adecuado
y ser representativa de la población para quien se está construyendo el test, es más la
selección de los participantes debe ser probabilístico a fin de minimizar los errores de
medida y muestreo. Se recomienda que por cada ítem administrado se tenga 5 a 10
personas, o unas 200 evaluaciones como mínimo (Ferrando y Anguiano, 2010, citado
por Muñiz, 2019).

La aplicación del test, para que no sea una fuente de sesgos u errores debe
tener definido el ambiente con buenas condiciones físicas y asegure la comodidad y
privacidad de los participantes, asimismo debe asegurar que el administrador tenga
las competencias personales y procedimentales para aplicar el test. (Meneses et al.,
2013, Muñiz, 2019).

Con respecto, al control de calidad de la base de datos, se debe verificar que


58
los datos introducidos se correspondan exactamente con las puntuaciones de la
muestra de participantes. Puede hacerlo el mismo constructor u otras personas
entrenadas para tal fin, una estrategia es extraer al azar de la base datos un porcentaje
de participantes y en ellos verificar la correspondencia entre las puntuaciones
obtenidos en el tests y los ingresados a la base de datos. Si la aplicación del test es
online, se minimiza algunas incongruencias, sin embargo; el constructor debe dar a
conocer los procedimientos informáticos para salvaguardar la base de datos. (Meneses
et al., 2013, Muñiz, 2019).

9° Fase: Propiedades psicométricas

Con los datos obtenidos de la aplicación del Test que se está construyendo,
procede a realizar el estudio de las propiedades psicométricas de las puntuaciones
tales como el análisis de ítems, estimación de la consistencia de las puntuaciones,
obtención de las evidencias de validez y construcción de baremos, los que se efectúan
con altos niveles de rigor metodológico. La finalidad del análisis psicométrico de los
ítems es maximizar o potenciar las propiedades métricas del instrumento de medida

Importante precisar que la fiabilidad se refiere a la precisión de las


puntuaciones, mientras que la validez se refiere a la calidad de las inferencias hechas a
partir de las puntuaciones (Muñiz, 2018; Prieto y Delgado, 2010). El análisis de ítems
permitirá seleccionar los mejores ítems desde el punto de vista psicométrico, se
pueden obtenerlos calculando el índice de dificultad, el índice de discriminación, las
cargas factoriales y/o funcionamiento diferencial de los ítems. (Muñiz et al., 2005).

Una vez seleccionados los ítems, se procede al estudio de la dimensionalidad


del instrumento para obtener evidencias de validez de su estructura interna, que
podría ser esencialmente unidimensional o tener una estructura multidimensional,
resultados que diferenciarían la designación de puntaje global y puntajes específicos.
El análisis factorial exploratorio y confirmatorio y el análisis de componentes
principales son las técnicas multivariantes más utilizadas para examinar la estructura
interna que subyace a las puntuaciones de un instrumento de evaluación (Ferrando y
Anguiano, 2010) citados por Muñiz (2019).
59
Acto seguido se lleva a cabo una estimación de la fiabilidad, para lo cual se
pueden seguir diversas estrategias, tanto desde el punto de vista de la teoría clásica
de los test como de la TRI (Muñiz, 1996, 1997, 2000, 2018). Es pertinente mencionar
que el clásico coeficiente alpha de Cronbach no es la única opción para estimar la
fiabilidad, puesto que se cuenta con el coeficiente Omega, el alpha para datos
ordinales o la función de la información desde el prisma de la TRI (Elosua y Zumbo,
2008; Muñiz, 2018). Además, se tendría que informar el error de medida en los informes
psicológicos, manuales de test y artículos científicos. (Muñiz 2019). Posteriormente,
se debe observar la relacióndel test creado con otros instrumentos de evaluación y,
finalmente, llevar a cabo una baremación del test estableciendo los puntos de corte
con alguna finalidad práctica o profesional (Meneses et al., 2013, Muñiz, 2019).

10° Fase: Versión final del test

En esta fase, se elabora la versión definitiva del test, se informa a las partes
implicadas en el proceso de evaluación y se redacta el manual del test.
Muñiz (2019) alcanza dos recomendaciones, primero no dar por terminado el proceso
de validación del test en esta fase, se debe promover estudios de revisión de
propiedades psicométricas sea con la misma población u otras de otros contextos, de
modo que permita valorar la vigencia del test. En segundo lugar, recomienda que se
efectúe una evaluación rigurosa y sistemática del test construido utilizando el Modelo
de Evaluación de Test elaborado por la European Federation of Porfessional
Psychologist Associations (EFPA) adaptado a España por Hernández et al (2016),
este Cuestionario será desarrollado en el cuarto capítulo del presente texto.

2.4. Fuentes de sesgo en la construcción de un tests psicológicos.

No se ha accedido a una publicación en estricto que de cuenta de las fuentes de sesgo que
afectan a la construcción de un test psicológico, por lo que teniendo como referencia los diez
pasos propuestos por Muñiz (2019) para la construcción de un instrumento de medición
podemos señalar que las fuentes serían:

60
Tabla 5
Principales fuentes de sesgo en la construcción de tests

Autoevaluación:

Revisemos el siguiente artículo que da cuenta de la Construcción y validación


61
de un instrumento psicológico. Luego, compara con el proceso descrito anteriormente y
reporta coincidencias y no coincidencias.

Ficha Resumen
Título:
CONSTRUCCION Y VALIDACIÓN DE UNA ESCALA DE AUTOEFICACIA PERCIBIDAESPECIFICA
DE SITUACIONES ACADÉMICAS.

URL file:///C:/Users/Equipo/Downloads/Dialnet-
ConstruccionYValidacionDeUnaEscalaDeAutoeficaciaPe-
7101317%20(1).pdfn
Autor David Palenzuela
Nombre del Escala de Autoeficacia Percibida Especifica de Situaciones Académicas
instrumento (EAPESA)
Proceso de 1. Elaboración de ítems
construcción 2. Tipo y formato de puntuación
3. Aplicación y sujetos
4. Evaluación y selección de ítems
4.1. Evaluación de ítems por su frecuencia de afirmación
4.2. Evaluación de los ítems por su saturación de contenido convergente y
discriminativo
4.3. Evaluación de la deseabilidad social: El índice de fiabilidad diferencial
4.4. Evaluación de la Fiabilidad, Consistencia interna y homogeneidad.
4.5. Evaluación de la validez factorial
5. Validez empírica de la Escala construida
5.1. Validez concurrente o inspectiva
5.2. Validez predictiva o prospectiva
5.3. Estudio de laboratorio
5.4. Validez retrospectiva

Propiedades psicométricas de la escala de autoeficacia percibida específica de


Investigaciones que situaciones académicas en una muestra de estudiantes españolesde educación
revisaron las secundaria obligatoria
propiedades José M. García-Fernández , Cándido J. Inglés , María S. Torregrosa , Cecilia
psicométricasdel Ruiz-Esteban , Ángela Díaz-Herrero , Elena Pérez-Fernández y María C.
EAPESA
Martínez-Monteagudo
https://www.formacionasunivep.com/ejep/index.php/journal/article/view/51/7

Propiedades psicométricas de una escala de autoeficacia para situaciones


académicas en estudiantes universitarios peruanos
Sergio Dominguez, Graciela Villegas. Carlos Yauri ,Eduardo Mattos y
Fernando Ramírez (2012)
https://revistas.ucsp.edu.pe/index.php/psicologia/article/view/8/7

62
Propiedades psicométricas de la escala de autoeficacia percibida específica de
situaciones académicas en adolescentes peruanos
Jhonatan S. NAVARRO-LOLI y Sergio DOMINGUEZ-LARA (2019)
https://reader.elsevier.com/reader/sd/pii/S1575181320301595?token=5BEFB
D78CF9406FAE37DE2E31680BA1FA6D0E0DC71A9490E1A061B5A0488
40F8785D7E6AEFED96FB8F7615A278D08701&originRegion=us-east-
1&originCreation=20210505033518

Análisis psicométrico de una medida de autoeficaciaacadémica en estudiantes


mexicanos de ciencias de la salud.
Sergio Dominguez-Lara and y Yolanda Campos-Uscanga (2020)
https://doi.org/10.1016/j.edumed.2020.09.021

Actividades para el estudio independiente:

Escuchar el siguiente programa radial sobre los Tests


psicológicos y su construcción, al término toma nota de
cinco ideas que lograste comprender
https://www.youtube.com/watch?v=2
EqreCPGfUQ

Bibliografía Complementaria.
Cohen, R., Swerdlik, M. (2001). Pruebas y evaluación psicológicas: Introducción a las
pruebas y a la medición (4ª ed.). México.

63
CAPITULO III
PROPIEDADES PSICOMÉTRICAS DEL TEST
CONSTRUIDO

Objetivo:

Aplica técnicas estadísticas para verificar las propiedades


psicométricas de los testspsicológicos construidos.

Contenidos:

3.1 Confiabilidad

3.2. Validez

PROPIEDADES
PSICOMETRICAS
3.3. Normas de tipificación

3.4. Software para procesar


propiedades psicométricas

64
Indagando saberes previos:

A continuación, te pedimos resuelvas las siguientes preguntas:


1. Confiabilidad es a consistencia como validez es a:
a. Propósito
b. Confiabilidad
c. Pertinencia
d. Validación

2. Las mediciones psicológicas no son exactas, cuáles son


los factoresque influyen en estas mediciones?.

3. El estadístico más utilizado para verificar la validez y/o


confiabilidadde los puntajes de los tests psicológicos son:
a. Coeficientes de correlación
b. Chi cuadrada
c. Varianza
d. Desviación estándar

4. Enumere los métodos para verificar la confiabilidad de


los puntajesde los tests psicológicos:

5. Subraye los métodos para verificar las evidencias de


validez de lospuntajes de los tests psicológicos

65
Desarrollo temático:

3.1. Confiabilidad

En el capítulo anterior se señaló que las mediciones psicológicas deben ser fiables, libres
de errores de media, que de por si es una exigencia de la ciencia; por lo que los instrumentos
que se utilizan para estas mediciones tendrían que ser fiables también, es decir que las
mediciones que se hacen con ellos carezcan de errores de medida, que sean consistentes. Pero
también se había señalado que a diferencias de las ciencias naturales en psicología nuestras
variables no son fáciles de medir debido a su naturaleza y dinámica, lo que dificulta identificar
si la inestabilidad en la medición se debe al instrumento o a la variable per se o a otros
factores. Un test no sería fiable si cada día generase mediciones diversas de una variable que
se supone estable, frente a esta situación es tarea del psicólogo indagar por las posibles fuentes
de error en las mediciones (Muñiz, 2018) y lo puede hacer desde la Teoría clásica de los tests
o Teoría de respuesta a los ítems. Nosotros lo haremos desde la TCT, que es el modelo más
utilizado no solo en la construcción de tests sino en la verificación de sus propiedades
psicométricas.

El concepto de confiabilidad en la Teoría clásica de los tests

La confiabilidad puede entenderse como la exactitud o precisión de una medición,


o el grado en el cual las puntuaciones de un test están libres de esos errores de medición.
Esta exactitud o precisiónde las puntuaciones permite que éstas se mantengan constantes
en diferentes circunstancias. (Tornimbeni, 2014)

Se había señalado que el objetivo central del modelo lineal clásico es la estimación de
los posibles errores cometidos cuando se utilizan los tests para medir las variables
psicológicas (Muñiz,2018), pues estos errores influyen en los puntajes de las personas y no
olvidemos que son estos puntajes los que nos llevan luego a tomar decisiones, por eso el
interés de asegurar la confiabilidad de los mismos.

El supuesto fundamental de la teoría clásica de los tests (TCT) es que la puntuación


observada de una persona en un test es una función de dos componentes: su puntaje verdadero
(que es inobservable) y el error de medición implícito en toda medición. El postulado esencial

66
de la TCT se expresa como: Oi = Vi + Ei (Muñiz, 2018, Tornimbemi, 2014)

En la teoría clásica de los tests, “la confiabilidad puede expresarse como la proporción
de varianza observada de las puntuaciones de tests que se debe a la varianza verdadera (la
variabilidad de la puntuación verdadera), es decir, a la varianza del rasgo que se está
evaluando y no a otros factores” (Cohen y Swerdlik, 2001). Entre mayor es la varianza total
atribuida a la varianza verdadera, la prueba es más confiable, debido a que se supone que las
diferencias verdaderas son estables, se presume que producen puntuaciones consistentes en
aplicaciones repetidas de la mismas pruebas al igual que en formas equivalentes de las
pruebas. Debido a que la varianza de error puede incrementar o disminuir una puntuación de
prueba en cantidades variables, se vería afectada la consistencia de la puntuación, y por tanto
la confiabilidad (Tornimbemi, 2014).

Según la APA (1999) citado por Tornimbeni, (2014) la confiabilidad como la validez
so son características del test per sé, sino una propiedad de las puntuaciones del test cuando
éste se administra a una muestra específica y bajo condiciones particulares, esto acorde a la
Teoría clásica de los tests.

3.1.2. Factores que afectan la confiabilidad

Nominado por Cohen y Swerdlick (2001) como fuentes de varianza de error e


incluyen a las situaciones que pueden ocurrir durante la construcción de pruebas,
administración de pruebas, calificación e interpretación de pruebas. (Tornimbeni, 2014)

Durante la construcción de pruebas, el muestreo de reactivos o muestreo de contenido


es fuente de varianza de error. Es decir, el grado en que la puntuación de quien responde al
test es afectada sólo por el contenido presentado en el test al igual que por la forma en que se
hizo el muestreo del contenido (referido a la forma en que se construyó el reactivo) es una
fuente de varianza del error. (Cohen y Swerdlick ,2001).

Durante la administración de la prueba, la atención y motivación del examinado,


las condiciones generales del ambiente donde se administra la prueba, el tipo de materiales
del test, así como el estado emocional y el rol y actitud del examinador se tornan en fuentes
de varianza de error (Cohen y Swerdlick ,2001; Tornimbeni, 2014), a pesar de que el tests

67
está estandarizado en todos sus procedimientos, es inevitable la ocurrencia de este tipo de
errores.

Durante la calificación e interpretación de la prueba, existen situaciones que se


constituyen en fuente de varianza de error, por ejemplo cuando los tests deben calificarse
manualmente, la presencia de ítems en distintas direcciones, cuando obtener el puntaje total
o parcial implica aplicar fórmulas o disposiciones de suspensión de pruebas por ítems sin
responder. Estos errores tienden a incrementarse cuando las respuestas son de tipo abierta
como algunos tests de personalidad o creatividad o requieren el registro de conducta por parte
del evaluador. Referente a la interpretación, cuando el examinador no comprende los datos o
tablas estadísticas y no comprende los significados del escalamiento de la variable,
probablemente incrementen la varianza de error de los puntajes del evaluado. (Cohen y
Swerdlick ,2001; Tornimbeni, 2014),

3.1.3. Dimensiones de la confiabilidad

El concepto de confiabilidad comprende tres dimensiones, cada una de las cuales se


relaciona con las diferentes fuentes de error de medición y con distintos métodos para
identificarlas. Cualquier factor no sistemático que incida en el puntaje de un individuo y
que no esté relacionado con el constructo que el instrumento intenta medir representa una
fuente de error; de manera que debería haber tantas dimensiones de la confiabilidad como
condiciones que afectasen las puntuaciones de los mismos (Anastasi y Urbina, 1998). Sin
embargo, en la práctica, interesan particularmente sólo tres de estas dimensiones: a)
estabilidad; b) consistencia interna y c) confiabilidad inter-examinadores.

a) Si se pretende evaluar en qué grado el puntaje de un individuo en un test está libre de


errores de medición causados por cambios personales aleatorios en el examinado (nivel de
motivación, por ejemplo), y en algunos casos a los cambios en las condiciones de
administración, se hace referencia a la estabilidad de las puntuaciones. Esta dimensión de la
confiabilidad está íntimamente relacionada con las características de la variable que se
desea medir, puesto que si se están evaluando rasgos que teóricamente tienen cierta
estabilidad (por ejemplo, rasgos de personalidad o aptitudes cognitivas), es esperable que
las puntuaciones obtenidas en los instrumentos de medición sean también relativamente

68
estables. Si, en cambio, se evalúan estados de ánimo o tiempos de reacción, no resulta
relevante atender a la estabilidad temporal de la prueba, ya que teóricamente se espera una
modificación de los resultados al aplicarla en distintas ocasiones. Los procedimientos
indicados para evaluar la estabilidad temporal de una prueba son el método test-retest y el
método de formas equivalentes, cuando ambas formas del test son aplicadas con un intervalo
de tiempo (APA, 1999).

b) Si se intenta conocer en qué medida la elección de la muestra de ítems que componen la


prueba resulta una fuente de error en la medición, se hace referencia a la consistencia
interna. Esta dimensión de la confiabilidad alude al grado en que distintas partes o ítems
del test miden el mismo constructo o dominio. Los procedimientos para evaluar la
consistencia interna de un test son: el método de formas equivalentes, el método de partición
en mitades y el método del coeficiente alfa de Cronbach.

c) Si se desea estimar en qué grado la medición de un rasgo a través de un instrumento es


independiente de la subjetividad del evaluador se hace referencia a la confiabilidad inter-
examinadores. Este tipo de confiabilidad refiere a la objetividad de los datos
proporcionados por untest, vale decir, que los individuos obtengan puntuaciones idénticas
en sus ejecuciones independientemente de quién sea su examinador. Tanto la calificación
de la respuesta de un individuo al test, como la codificación e interpretación deben partir
de normas claras y precisas que permitan disminuir el componente subjetivo presente en
toda evaluación. El método adecuado paraverificar la confiabilidad ínter-examinadores es
el acuerdo entre jueces.

3.1.4. Métodos para verificar la confiabilidad

Todos los métodos disponibles para valorar la confiabilidad de un test tienen como
objetivo informar sobre el grado de consistencia de los puntajes y son expresados en función
de un coeficiente de correlación cuyo valor varía entre -1 y 1, donde 0 representa la ausencia
total de correlación entre los puntajes, indicando además si la correlación es positiva o
negativa perfecta o inversa, el coeficiente más utilizado es el de correlación Momento-
producto de Pearson, sin embargo hay que señalar que la elección del coeficiente dependerá
del nivel de medición de la variable (Anastasi y Urbina, 1998).
69
A continuación se describen los principales métodos.

a. Test-retest:

Este método llamado también de prueba y posprueba, consiste en administrar el


mismo test en dos oportunidades a la misma muestra de sujetos, con un determinado
intervalo de tiempo entre las dos administraciones, y calcular la correlación entre los
puntajes obtenidos en la primera y segunda vez, el resultado de dicha valoración es una
estimación de la “confiabilidad de prueba y posprueba”. (Anastasi, 1998; Cohen y
Swerdlik 2001). Este método es apropiado para medición de conductas que suelen ser
estable a lo largo del tiempo, como un rasgo de personalidad.

La varianza de error corresponde a las fluctuaciones aleatorias de la ejecución


de una sesión a otra, que pueden provenir de las condiciones no controladas durante la
aplicación, pero también de los cambios en la condición de los propios examinados.
(Anastasi y Urbina, 1998)

Se recomienda que quien utilice este método, en el manual de la prueba


especifique el intervalo en el que se midió. Pues las correlaciones test retest disminuyen
progresivamente conforme aumenta el intervalo. El tiempo transcurrido entre una y otra
administración debería delimitarse atendiendo a las características de la variable medida
y de la población meta del test. Por ejemplo, si el estudio de estabilidad se realiza con
niños pequeños, se recomienda que el intervalo de tiempo sea relativamente breve,
puesto que en la infancia los cambios progresivos del desarrollo tienen un ritmo más
aceleradoen la mayoría de las variables psicológicas. Si se trata de adultos, hay que
considerar el efecto de la variable memoria o aprendizaje, ello significa que no todas
las pruebas son susceptibles de ser evaluadas con este método, salvo lasa motoras y de
discriminación visual. (Anastasi y Urbina, 1998).

b. Formas equivalentes:

Llamado también formas paralelas o formas alternas. Este método es una


manera de evitar las dificultades de la confiabilidad test-retest. Las mismas personas

70
pueden ser evaluadas con una forma en la primera ocasión y con otra equivalente en
la segunda. La correlación entre las puntuaciones de las dos formas representa el
coeficiente de confiabilidad de la prueba, que no solo mide la estabilidad temporal,
sino también la consistencia de las respuestas a diferentes muestras de reactivos
(Anastasi y Urbina, 1998). Una ventaja primordial de usar una forma alternativa o
paralela esque se minimiza el efecto de la memoria para el contenido de una forma de
prueba aplicada con anterioridad. (Cohen y Swerdlik (2001),

Una de las limitaciones de este método , es si las funciones de conducta


consideradas son muy susceptibles al efecto de la práctica el uso de formas alternas
reduce pero no elimina dicho efecto, la otras limitación está referida al grado en que
la naturaleza de la prueba cambia con la repetición, no basta cambiar el contenido de
los reactivos de la segunda forma para eliminar el acarreo de la primera, una tercera
dificultad, alude a la dificultad práctica para elaborar formas verdaderamente
equivalentes, muchas pruebas no disponen de formas alternas. (Anastasi y Urbina,
1998) pues demanda recursos financieros y tiempo elaborarlas. (Cohen y Swerdlik
(2001),

c. Partición en mitades: (división en mitades)

Consiste en dividir en mitades equivalentes a la prueba obteniendo dos


puntuaciones por cada evaluado, estas puntuaciones se correlacionan y se obtiene el
coeficiente de confiabilidad, la misma que debe ser corregida usando la fórmula de
Spearman-Brown.
Hay que precisar que este tipo de confiabilidad proporciona una medida de la
consistencia del contenido muestreado, pero no de la estabilidad temporal de las
puntuaciones, pues la medición es un solo momento. (Anastasi y Urbina, 1998). Sin
embargo, es necesario mencionar que es útil cuando debido a factores de tiempo o costo
es complicado evaluar la confiabilidad con dos pruebas, o tener que administrar la
prueba dos veces a lamisma muestra. (Cohen y Swerdlik; 2001).

La dificultad inicial de este procedimiento es lograr que las mitades obtenidas


71
sean realmente comparables. Muchos de los tests son construidos con un nivel de
dificultad creciente, y si se divide el test en la primera y segunda mitad seguramente
éstas no resultarían comparables. Aun cuando no sean pruebas con dificultad
creciente de sus ítems, otros factores pueden obstaculizar el contar con dos mitades
estrictamente comparables. En efecto, los examinados probablemente se vean más
afectados por la fatiga hacia el final de la prueba, lo cual podría incidir en mayor
medida en los puntajes de la segunda mitad. El criterio habitualmente adoptado para
dividir la prueba es el de separar los ítems del test en dos mitades, una de ítems pares y
la restante de ítems impares. Un método más riguroso pero que requiere mayor
esfuerzo del investigador, exige el apareamiento de todos los ítems con un cierto
criterio estadístico, asignándolos luego al azar a cada una de las partes o mitades del
test. (Anastasi y Urbina, 1998).

Cohen y Swerdlik (2001) recomiendan no usar este método en pruebas


heterogéneas y pruebas de velocidad. Las pruebas heterogéneas son aquellas que
miden distintas dimensiones de la variable y los números de ítems no son uniformes

d. Métodos de covarianza de los ítems:

- Confiabilidad de Kuder-Richarson (KR-20)

Este método requiere la aplicación del test una sola vez por lo que la
confiabilidad se basa en la consistencia de las puntuaciones a todos los reactivos de la
prueba. Anastasi y Urbina (1998) señalan que “esta consistencia entre reactivos está
influida por dos fuentes de varianza de error: (1) el muestreo de contenido (…) y (2) la
heterogeneidad del área de la conducta muestreada. Entre más homogénea sea el área
mayor será la consistencia entre reactivos”.
Efectivamente, esta es una peculiaridad entre los tests psicológicos, tenemos
tests que miden una sola variable como una sola dimensión en tanto otras miden una
variable con múltiples dimensiones o facetas, por lo que deduce que este método sería
más pertinente con aquellos que evalúan ítems homogéneos correspondientes a una sola
dimensión. Y que éstos ítems sean de carácter dicotómicos, que sean calificados como
correctos o equivocados, como si o no, verdadero o falso. (Cohen y Swerdlik, 2001)

72
La fórmula de Kuder Richardson (KR-20), es:

Donde k es el número de reactivos del test, St 2 es la varianza del total de las


puntuaciones de la prueba, p es la proporción de quienes respondieron la prueba y
que aprobaron el reactivo, q es la proporción de personas que fallaron en el reactivo
y ∑pq es la suma de los productos pq de todoslos reactivos.

- Coeficiente alfa (α)

Desarrollado por Cronbach (1951) y ampliado en la subsecuente por otros


como káiser y Michael (1975); Novick y Lewis (1967). El coeficiente alfa es
apropiado para aquellos tests cuyos reactivos no son dicotómicos, en las que la
persona puede obtener diferentes puntuaciones como nunca-rara vez- casi siempre y
siempre. El procedimiento consiste en encontrar la varianza de todas las
puntuaciones individuales de cada reactivo y sumar la varianza de todos los reactivos.
(Anastasi y Urbina, 1998), explicación reforzada por Muñiz (2001), cuando expresa
que el coeficiente alfa expresa el grado de covariación de los ítems de un test, o en
qué medida los diferentes ítems de un test miden una misma variable. Para él, el
coeficiente alfa α es el estadístico más popular para estimar la consistencia interna
del test. Es un coeficiente apropiado en tests que contienen ítems dicotómicos, pero
también multipunto (con varias alternativas de respuesta).

La fórmula del coeficiente alfa de Cronbach (1951) es:

Coeficientes basados en el análisis factorial de los ítems


Con los datos proporcionados por el análisis factorial de los ítems de un test se pueden

73
obtener indicadores de la consistencia interna muy semejantes al coeficiente α. Aun
cuando el propio resultado del análisis factorial constituye un excelente indicador de
la consistencia interna de los ítems, analizando la matriz de correlaciones, el número
de factores obtenidos y la varianza explicad por cada uno de ellos. Sin embargo, es
aportativo la obtención de algún índice único que sintetice de forma razonable toda
esta información, contando para ello los índices theta (Ɵ) de Carmines y la omega
(Ω) de Heise y Bohrnstedt (1970).

e. Confiabilidad entre examinadores

Una fuente de varianza de error proviene de los calificadores, especialmente


cuando se califican test de respuestas abiertas, como las de creatividad y las
proyectivas de personalidad, en la que se tiene que interpretar dibujos, discursos
orales o escritos y por ende, dependen del juicio del calificador y de hecho, la
subjetividad va a estar presente en ese juicio.

Por lo que, si se quiere obtener indicadores de confiabilidad, la confiabilidad


entre examinadores es el que se sugiere calcularlo. En términos generales, consiste
en que una muestra de pruebas es calificada independientemente por dos o más
examinadores, los resultados de cada uno de ellos se correlacionan con las fórmulas
que disponemos para este cálculo y el coeficiente de correlación será la medida de la
confiabilidad del calificador (Anastasi y Urbina, 1998).

De manera más específica, el método consiste en administrar un test a una


muestra, luego entregar los protocolos de respuesta del test a un conjunto de jueces
que los calificarán independientemente. A continuación, se debe verificar el grado
de acuerdo entre los jueces aplicando técnicas de correlación. (Murat, 1985, citado
por Tornimbeni et al.; 2014). Los coeficientes comúnmente utilizados son el Indice
Kappa, cuando se trata de escalas nominales, y en el caso de escalas ordinales o
intervalares, los estadísticos Kappa modificado, W de Kendall, o el coeficiente de
correlación intraclase. (Tornimbeni et al.; 2014).

El coeficiente Kappa permite estimar concordancia entre observadores, es


decir, hasta qué punto los jueces coinciden en su puntuación (Muñiz, 2001)
74
considerando el porcentaje de acuerdos que se observarían solamente por azar. La
fórmula de Kappa es:

En la fórmula precedente, Fc son las frecuencias de coincidencias o número


de casos en los que las clasificaciones de ambos jueces coinciden. Se obtiene sumando
las celdas que representan los casos que fueron evaluados de la misma manera por
ambos jueces. Fa son las frecuencias de azar, o número de casos en que cabe esperar
que las clasificaciones de los jueces coincidan por mero azar, y se obtienen mediante
la sumatoria de los productos de los subtotales de cada categoría sobre el número de
casos. N es el número total de casos evaluados por los jueces. (Tornimbeni et al.;
2014).

La confiabilidad inter-examinadores puede evaluarse por ítem, y en ese caso


estaríamos verificando el grado de acuerdo de los jueces para puntuar un ítem de un
test determinado (con 2, 1 ó 0, por ejemplo). También se puede obtener una
estimación de la confiabilidad inter-examinadores para la puntuación total asignada
por los jueces a una escala donde todos los ítems se califican con un componente de
subjetividad. (Tornimbeni et al.; 2014).

Este tipo de confiabilidad también suele aplicarse en los procesos de


investigación científica, cuando se emplean instrumentos de calificación subjetiva,
pudiendo ser un test o cuestionario, un registro de conducta o un formulario de
entrevista. De por sí es el método preferido por las investigaciones cualitativas a la
que nominan inclusive técnica de triangulación.

Para finalizar, presentamos una tabla que resume los métodos y estadísticos
para evidenciar la confiabilidad, considerando sus diversas dimensiones:

75
3.2. Validez

3.2.1. Definición

Un test representa una muestra de conducta de una persona recogida de manera


objetiva y estandarizada (Muñiz, 2018) , esa muestra permite a los psicólogos inferir
patrones más amplios de la personalidad, lo que significa que debería ser medida con suma
precisión (minimizando los errores de medición) y eso lo verificamos calculando la
confiabilidad. Sin embargo, necesitamos tener la certeza de que las inferencias sobre la
conducta que hacemos con los resultados del test son las correctas, apropiadas y pertinentes,
¿de qué modo podemos comprobar que las inferencias hechas a partir de un test son
correctas? Entonces, estamos refiriéndonos a la validez (Anastasi y Urbina, 1998; Cohen y
Swerdlick, 2001; Muñiz, 2018)

Es necesario hacer la siguiente aclaración para continuar, acerca de la


conceptualización de la validez, usualmente cuando aludimos a la validez de un tests,
solemos referirnos al hecho de asegurarnos que tan bien el test ha medido lo que dice medir,
a verificar si el test cumplió o no su propósito incluso usamos el término validación del test
y según Muñiz (2018) no es así,

“el test no se valida sino las inferencias que se hacen a partir de sus puntuaciones
sobre determinados aspectos de la conducta de las personas. Por tanto, el resultado final
de un proceso de validación no es llegar a decir de forma simplista que tal test es válido;

76
las que son o no válida son las inferencias hechas a partir del test”.

Asumimos que esta precisión mejorará la comprensión de todos los


procedimientos con que se cuentan para juzgar la validez de un test, así como comprender
que el concepto validez ha ido evolucionando a nivel empírico y operacional. Po lo tanto,
la definición que en este texto asumiremos sobre la validez es la que se presenta a
continuación:

“Grado en que la teoría y los datos disponibles apoyan la interpretación de las


puntuaciones de un test para un uso específico” (Standards for Educational and
Psychological Testing , 1999) .

Para Cohen y Swerdlik (2001) la validación es el proceso de recopilación y


valoración de la evidencia de validez que compete a que construye el tests como al
administrador de la misma. Es responsabilidad del constructor del test suministrar
evidencia de la validez en el manual del test pero también de los administradores a realizar
sus propios estudios de validación, sobre todo cuando la intención es adaptar la prueba
para un grupo cultural en particular o tal vez cuando se desea verificar cuan validos siguen
siendo para los tiempos actuales.

3.2.2. Factores que afectan a la validez

Uno de los indicios de validez es el cálculo de la correlación entre el test y un criterio


ajeno a este test, pero esta correlación podría verse afectado por factores como la viabilidad
de ambas medidas, la longitud del test y la variabilidad de la muestra empleada. (Lozano y
Turbani, 2013). La siguiente tabla enlista estos factores

77
Tabla 6
Principales factores que afectan la validez de los tests

La Tabla 6, detalla que los factores que podrían atentar contra la validez del test mayormente
son de tipo estadístico, esto significaría que el constructor del tests como los que se dedican a
realizar estudios de las propiedades psicométricas del instrumento, deberían conocer y
comprender no solo los modelos matemáticos sino las técnicas y herramientas estadísticas que
procesan los datos para evidenciar los índices de validez y confiabilidad. Incluso, contar con
procedimiento que aseguren la calidad de los puntajes que se van a procesar cuantitativamente.

3.2.3. Métodos para obtener evidencias de validez.

Líneas arriba se mencionó que el concepto validez y los procedimientos de validación


han evolucionado teórica y empíricamente. Lozano y Turbany (2013) elaboraron una línea de
tiempo con los cambios más significativos en la conceptualización que la tenido la validez y
que la presentamos en la siguiente tabla.

78
Tabla 7
Evolución histórica de los métodos de validación

Fuente: Lozano y Turbany (2013. P146)

a. Evidencias de validez basado en el contenido

Si un profesor incluyera en su examen de Historia del Perú preguntas de geografía y


aritmética, lo más probable que generaría en sus estudiantes es una incertidumbre, y los que
suelen ser asertivos, le harán llegar su preocupación pues al su juicio las preguntas están
evaluando saberes de otros temas y no de Historia. Sensación similar es la que se debe evitar
con los tests psicológicos pues para que las inferencias sean las correctas los ítems del test
deben representar adecuadamente el atributo o constructo que se quiere medir.
Muñiz (2018) es categórico cuando expresa que “todo proceso de validación ha de
comenzar por la inexcusable tarea de comprobar la pertinencia de los contenidos; si esta falla,
todo lo demás, por muy sofisticado técnicamente que sea, tiene los pies de barro”.

Los ítems son elementos cruciales de todo test, y es importante asegurar que sean los
más pertinentes, relevantes y representativos de la variable que se pretende medir. Para la
validación de contenido puntualmente se requiere dos condiciones, una sólida definición
teórica y operacional del constructo y su correcta representación en el test, a través de la
calidad de los ítems. (Lozano y Turbany, 2013; Muñiz, 2018), de que la muestra de ítems
incluida en el test cubra, efectivamente , todos los aspectos o dimensiones relevantes de la
variable en estudio o a ser medida (Fernández, 2016).

Para lograr estas condiciones, se cuenta con procedimientos analíticos y racionales,


como: el juicio de expertos en primer lugar y las técnicas estadísticas tras la aplicación de la
prueba, en segundo lugar. No se podría obviar el juicio de expertos o desplazarlo por solo el

79
análisis estadístico, pues éste no es capaz de ponderar el real significado del ítem en cuanto a
su significado, comprensión, percepción y pertinencia.

Es interesante también considerar lo que señala Abad (2011) precisando que por
contenido del test no solo debemos referirnos únicamente a los ítems que lo componen sino
también a las instrucciones para su administración y las rúbricas o criterios para su corrección
y puntuación.

La validación por juicio de expertos, es una de las técnicas más utilizadas sobre todo
en procesos de construcción de tests, pues ellos se constituyen en los garantes de que cada
ítem del tests son coherentes con las definiciones operacionales, semánticas y sintácticas del
constructo, pues son los expertos teóricos en el constructor, de ahí que se debe realizar una
cuidadosa selección de ellos. La literatura nos presenta muchas técnicas para este tipo de
validación siendo la más popular en nuestro medio el coeficiente de validez V de Aiken
(Escurra, 1988).

b. Evidencias basadas en procesos de respuestas

Las personas evaluadas que responden a un test obtienen un determinado puntaje en


cada ítem y en el test en general y todas las inferencias que se hacen parten de esos datos.
Muñiz (2018) afirma que, “cuanto más conozcamos acerca de los procesos que llevan a una
persona a obtener una determinada puntuación, mejor comprenderemos el constructo medido
y mayor control tendremos sobre las posibles predicciones”. Por proceso de respuesta se
entienden todas las conductas que se necesitan para poder contestar un ítem , como pueden
leer las preguntas, comprenderlas, decidir las respuestas que se quiere dar y finalmente
responder al ítem. (Lozano y Turbany, 2013)

La información que se puede obtener sobre los procesos que los evaluados describen
para justificar su respuesta son un excelente apoyo en el proceso de validación de la prueba,
y las estrategias que se pueden utilizar para aportar datos sobre los procesos subyacentes a las
respuestas de las personas según Muñiz (2018) van desde preguntar a las mismas acerca de
su proceder y observar los pasos sucesivos (siempre que sea posible) que les conducen al
resultado final hasta utilizar observadores externos o incluso, analizar en laboratorios los
procesos básicos y componentes implicados en la respuesta de cada ítem. En esa línea, Lozano
80
y Turbany (2013) proponen la entrevista, las técnicas de pensamiento en voz alta y entrevistas
cognitivas y advierten que se debe vigilar algunos factores que pueden afectar al proceso de
las respuestas como los relacionados con los ítems (contenido, redacción y validez aparente),
los relacionados con la respuesta a los ítems (número de alternativas e instrucciones) y los
relacionados a las características personales de los que responden al test.

Aún cuando la psicología cognitiva ha tenido un avance significativo en estudios sobre


tiempo de reacción, memoria, tiempo de inspección o los potenciales evocado, no se ha
avanzado lo suficiente en el conocimiento de los procesos explicativos de las respuestas de
las personas a los ítems, más se prioriza las demandas de predicciones que se pueden hacer a
partir de las puntuaciones del test que sobre los procesos reales que hacen que unas personas
resuelvan con facilidad los ítems y otros lo hagan con dificultad. Muñiz (2018)

c. Evidencias basadas en la estructura interna del test

Para Muñiz (2018) “los datos sobre la estructura interna del test pretenden evaluar en
qué medida el test constituye un constructo coherente y riguroso y no se trata simplemente de
un conjunto espurio de ítems”. Dicho de otra forma, se evalúa hasta qué punto los ítems
contribuyen a un solo factor (unidimensionalidad) o a varios factores (multidimensionalidad) y
la técnica estadística que ayudará para este tipo de estudios es el análisis factorial. (Lozano y
Turbany, 2013) que examinan si las relaciones entre los ítems se corresponden con las
hipotetizadas.

Según Abad et al (2011) el estudio de la dimensionalidad puede hacerse mediante


diversos modelos de análisis factorial exploratorio (AFE) o análisis factorial confirmatorio
(AFC). El AFE es para ellos una técnica de reducción de la dimensionalidad que permite pasar
de un conjunto de variables observadas a un número mucho menor de variables latentes o
factores en tanto el AFC, identifica factores latentes que explican la covariación entre las
variables observadas.

El funcionamiento diferencial de los ítems (DIF) es también otra alternativa para evaluar
la estructura interna del test. Estos análisis tratan de asegurar que los ítems funcionan de forma
similar para diferentes grupos socioculturales, independientemente de su edad, sexo, raza,
idioma, etc. no favoreciendo o perjudicando a unos frente a otros. Los datos del DIF se tornan
81
claves para apoyar conclusiones sobre la validez y universalidad de una prueba. (Abad et al.;
2011 y Muñiz, 2018).

Las estrategias para la obtención de datos desarrolladas hasta este momento se centran
en aspectos internos del test; el análisis de su contenido, los procesos implicados en sus
respuestas a los ítems o la estructura interna del test. De aquí en adelante se desarrollan nuevas
estrategias para obtener evidencias, y están referidas a la conexión del test con distintas
variables externas a él.

d. Evidencias sobre las relaciones con otras variables

El objetivo es establecer si las relaciones observadas entre las puntuaciones en el test y


otras variables externas relevantes son consistentes con la interpretación propuesta por las
puntuaciones. Estas variables externas pueden ser: otras medidas del mismo constructo
obtenidas con diferentes tests, medidas de constructos diferentes pero pertenecientes al modelo
teórico del constructo del test, algún tipo de variable criterio que se pretenda predecir a partir
de las puntuaciones del test. (Abad et al.; 2011).

d.1. Converger y discriminar

No existe un solo test para un solo constructo en el mundo, la realidad es que


suelen existir otros tests similares que también pueden medirla. Por lo que,
“si el constructo es sólido, tiene entidad y no es meramente espurio, las distintas
mediciones que se hagan de él por el procedimiento que se han de ser similares, han de
converger, han de estar correlacionadas, han de mostrar, en suma, validez convergente.
Si distintos constructos se evalúan utilizando procedimientos parejos, no hay razón para
esperar que dichas mediciones converjan; deberían divergir, discriminar un constructo
del otro”. Muñiz (2018).

Aportar datos sobre el grado en el que un test converge con otras mediciones del
mismo constructo, o diverge con aquellas de constructos diferentes, sigue siendo
fundamental en su proceso de validación. Las evidencias de validez convergente y
discriminante pueden obtenerse a partir de los datos proporcionados por la llamada
82
matriz multirrasgo-multimétodo. (Lozano y Turbany, 2013)
Dícese haber validez convergente si las correlaciones entre las medidas de un
rasgo por distintos métodos son elevadas, es decir, las medidas de un mismo rasgo
convergen, aunque se haya hecho por diferente método. La validez discriminante, se
refiere a que las correlaciones anteriores entre las medidas del mismo rasgo por distintos
métodos han de ser claramente superiores a las correlaciones entre las medidas de
distintos rasgos por el mismo método.

d.2. La predicción del criterio

Los tests son de gran ayuda para los psicólogos por su capacidad de predecir
aspectos claves del comportamiento humano, la base de estas predicciones descansa en
las correlaciones entre el test y la variable a predecir, el criterio. La correlación entre el
puntaje del test y el criterio se denomina coeficiente de validez. (Muñiz, 2018)

Elegir el criterio no debería llevar complicaciones, sin embargo, en ocasiones se


torna dificultoso por la diversidad de definiciones que se dan acerca de algunos de estos
criterios, por ejemplo el caso de inteligencia.

La distinción clásica de validez concurrente, predictiva o retrospectiva, sigue


siendo una práctica para organizar los datos amén de las peculiaridades temporales en
la medición del criterio (Muñiz, 2018). La validez concurrente o simultánea, es cuando
el test y el criterio se miden de manera simultánea, la validez será concurrente si el
coeficiente de correlación entre ambas mediciones es alto, de esta manera se validaría
el test, inicialmente elaborado para la medida de otra variable, para la medida del
criterio. La validez predictiva, se trata de que si conocemos que un determinado tests y
una variable criterio se encuentran altamente relacionados, será posible utilizar los
valores obtenidos en el test para la predicción o el pronóstico de los valores que se
obtendrán en el criterio y la validez retrospectiva, sirve para encontrar las causas
(criterio) a los valores obtenidos en el presente, para estos casos la variable criterio ha
sido registrada anteriormente a las variables predictoras. (Lozano y Turbany, 2013)

83
d.3. Generalización de la validez

Consiste en obtener datos y aportar argumentos para estar seguros de las


correlaciones test-criterio obtenidas en determinadas condiciones se mantienen en otras
condiciones no estrictamente iguales, es decir, son generalizables (Lozano y Turbany,
2013; Muñiz, 2018).

La variación de situaciones es prácticamente ilimitada, de modo que el aporte de


datos que avalen la generalización es un proceso de acumulación progresiva y en la
medida que no todas las variaciones circunstanciales tienen la misma entidad, es tarea
del usuario y constructor especificarlas para cada caso. En los estándares de la AERA,
APA y NCME (2014) se mencionan cinco situaciones que pueden incidir en la
generalización de los coeficientes de validez: diferencias en la forma en la que se mide
el constructo predictor, el tipo de trabajo o curriculums implicados, el tipo de medida
del criterio utilizado, el tipo de personas evaluadas y el momento temporal en el que se
lleva a cabo el estudio, a ellos se puede sumar la incidencia del entrenamiento para
resolver los tests en sus propiedades psicométricas.

e. Evidencias sobre las consecuencias del uso de los test

Lozano y Turbany (2013) nos recuerdan que en toda aplicación de tests existen
acciones que se derivan de esa aplicación, para ellos tests deben usarse cuando se
maximicen las consecuencias positivas (beneficios) y se minimicen las negativas (costes)
derivadas de su aplicación. Los tests se aplican entonces esperando que de la información
obtenida se extraiga algún tipo de beneficio. Por lo que, uno de los propósitos de la
validación sería indicar en qué casos se puede obtener esos beneficios.

Muñiz (2018) explica que es la última estrategia que se incorpora a propuesta de


los estándares de la AERA, APA y NCME (2014). Trata de la evaluación de las
consecuencias sociales del uso de los tests en el marco de la validez, evaluando aspectos
positivos y negativos con alcance a los autores, constructores de pruebas, distribuidores,
usuarios, personas evaluadas e instituciones contratantes, nominándose al resultado
validez consecuencial. Al respecto hay opiniones a favor y en contra de esta estrategia.
Sugieren que promoviendo el buen uso de los tests sería más que suficiente sin necesidad

84
de incorporarlo como estrategia, pero otros señalan que es mejor incorporarlo para que le
valore como tal el buen uso de los tests considerándolo que las consecuencias de su buen
o mal uso afectarían a la validación.

3.3. Normas de tipificación

3.3.1. Definición

Cohen y Swerdlik (2001) refieren que una norma en singular se usa en la


literatura académica para referirse al comportamiento que es usual, promedio, normal
y estándar o típico para los miembros deun grupo particular y que en un contexto
psicométrico , normas son los datos de desempeño en la prueba de un grupo particular
de personas que están diseñadas para su uso como referencia para evaluar o interpretar
puntuaciones de pruebas individuales. Los manuales técnicos de todas las pruebas
estandarizadas más usadas contienen normas para la prueba.

Los términos psicométricos: elaboración de normas y normalización se


refieren al proceso de obtención de normas. Normalización, puede modificarse para
describir la elaboración de un tipo particular de normas, (edad, género, raza). En
psicometría, a menudo se hace referencia a una muestra normativa; es decir “un grupo
de personas cuyo desempeño en una muestra particular puede ser usada como un
conjunto de normas para la prueba y una fuente de referencia para evaluar
puntuaciones de pruebas individuales. Cuando las personas en la muestra normativa
son las mismas

personas en quienes se estandarizó la prueba, la frase “muestra normativa” y


“muestra de estandarización” a menudo se usan de manera intercambiable. Sin
embargo, cada vez se da más el caso en que después de que se ha publicado una
prueba estandarizada se elaboran normas nuevas para grupos específicos de personas
que la van a responder, generalmente grupos que pueden haber estado su
representados o no haberlos estado en las normas originales. En tales casos, la
muestra normativa para las normas nuevas no serían idénticas a la muestra de
estandarización, y sería impreciso usar los términos en forma intercambiable.

85
La normalización de una prueba con una muestra representativa nacional puede
ser muy costosa, poresto, algunos manuales de prueba proporcionan lo que se conoce
como” normas de usuarios o normas de programa (APA, 1985)., las cuales consisten de
estadísticas descriptivas basadas en un grupo de personas que responden una prueba en un
periodo determinado en lugar de normas obtenidas con métodos de muestreo formales.
(Nelson, 1994)

3.3.2.Tipos de normas

Encontramos normas de edad, normas de grado, normas nacionales, normas


locales, normas de grupos de referencia fijo, normas de subgrupo y normas de
percentiles.
En razón a que son muchas las pruebas que expresan sus normas en percentiles, la
describiremos.

a). Normas de percentiles

Son los datos crudos de una muestra de estandarización de una prueba


convertidos a una forma de percentil (100 partes iguales), En una distribución así
, el percentil x° es igual a la puntuación en o debajo de la cual se encuentra x% de
las puntuaciones. Ejemplo: 25° percentil es la puntuación en odebajo de la cual se
encuentra 25% de las puntuaciones en la distribución. Un percentil es una
clasificación que transmite información sobre la posición relativa de una
puntuación dentro de una distribución de puntuaciones.
Debido a que los percentiles se calculan con facilidad, son una forma
popular de organizar los datos de una prueba, ya sean datos de la muestra de
estandarización o de otra índole. Además, son muy adaptables para su uso con una
amplia gama de pruebas.

Sin embargo, un problema con el uso de percentiles con puntuaciones


distribuidos de manera normales que las diferencias reales entre las puntuaciones
crudas pueden minimizarse cerca de los extremos de la distribución y exagerarse en
medio de ésta. El problema de distorsión incluso puede ser peor con datos muy

86
asimétricos. En la distribución normal, la frecuencia más alta de las puntuaciones
ocurre en medio.

b). Normas de edad:

También conocidas como puntuaciones equivalentes de edad, las normas


de edad indican el desempeño promedio en diferentes muestras de quienes
responden la prueba que tenían diversasedades en el momento en que se aplicó la
prueba.

Las tablas de normas de edad construidas en forma meticulosa para


características físicas como laestatura disfrutan de una extensa aceptación y casi no
son motivos de controversias, Sin embargo, éste no es el caso respecto a las tablas
de normas de edad para características psicológicas como la inteligencia.

c). Normas de grado

Diseñadas para indicar el desempeño promedio de quienes responden


pruebas en un grado determinado, las normas de grado se elaboran aplicando la
prueba a muestras representativas de niños en un rango de niveles de grados
consecutivos (como de primero a sexto grado).

Algunos expertos en pruebas han exigido una moratoria en el uso de las


puntuaciones equivalentes de grado al igual que de las puntuaciones equivalentes de
edad debido a que tales puntuaciones pueden ser interpretadas mal con mucha
facilidad. Cronbach (1970) describió las normas de edad y de grado como arcaicas.
Afirmó que “las conversiones de grado nunca deben usarse para informar sobre un
alumno o una clase, ni en la investigación. Las puntuaciones estándar o percentiles o
las puntuaciones crudas son más adecuadas. También es probable que las
conversiones de edad se interpreten mal”. Otra desventaja de usar normas de grado
es que sólo son útiles con respecto a los años y meses de escolaridad completados,
tiene poca o ninguna aplicabilidad para niños que todavía no están en la escuela o
que se encuentran fuera de ella. Las normas de edad también son limitadas a este

87
respecto, en vista de que, para muchas pruebas, el valor de dichas normas es limitado
con unapoblación adulta.

d). Normas nacionales.-

Se deriva de una muestra de estandarización que ha sido representativa


de la población a escala nacional. En los campos de psicología y educación, por
ejemplo, pueden obtenerse normas nacionales por medio de la prueba de grandes
cantidades de estudiantes representativos de diferentesvariables de interés como
estratos socioeconómicos, ubicación geográfica y los diferentes tipos de
comunidades dentro de las diversas partes del país (como rural, urbana).

e). Normas de sub grupos.-

Una muestra de estandarización puede segmentarse con cualquiera de los


criterios usados al inicio para seleccionar sujetos para la muestra y pueden elaborarse
normas de sub grupos definidos en forma más reducida. Por ejemplo, si los criterios
para seleccionar adolescentes para su inclusión en la muestra de estandarización de la
prueba de comprensión lectora fueron edad, sexo, grado escolar, nivel socio
económico, región geográfica. El manual de la prueba o un complemento podría
reportar información normativa para cada uno de estos sub grupos.

.f). Normas locales.-

Elaborados generalmente por los mismos administradores de la prueba, las normas


locales proporcionan información normativa respecto al desempeño de la población local
en alguna prueba

88
3.4. Softwares para procesar propiedades psicométricas de los tests
psicológico.
Entre los más usados tenemos el:

a. Software SPSS versión 26.

SPSS es muy fácil de usar. Pero eso no significa que alguien con formación en análisis de
datos cero no tendrá dificultades para usarlo. Simplemente significa que es fácil de usar. Ya
sea que se esté preparando para realizar estadísticas descriptivas, regresión lineal, análisis
de factores o análisis de conglomerados, SPSS lo tiene cubierto.

curso de spss statistics -


completo

https://www.youtube.com/watch?v=Ibyg6fc5xrE

b. Jamovi (Software de uso libre)

Jamovi for Data Analysis - Full


Tutorial

https://www.youtube.com/watch?v=mZomeS0tLxY

89
c. Programa AMOS SPSS

Análisis Factorial Confirmatorio en AMOS SPSS


https://www.youtube.com/watch?v=zQfFv50kkys

d. Programa estadístico STATA

Tutorial Programa Estadístico Stata


https://www.youtube.com/watch?v=1v463P45iAg

90
Autoevaluación:

Caso práctico

Leer el siguientes reporte, Caycho-Rodriguez, T, Ventura-León, J y Barboza-


Palomino,M (2021) Diseño y validación de una escala para medir la
preocupación por el contagio de la COVID-19 (PRE-COVID-19). En
Enfermería clínica 31 (2021) 175-183. DOI: 10.1016/j.enfcli.2020.10.034
Luego, en la Ficha identificar y describir los procedimientos
psicométricos de confiabilidad y validez.

Ficha de caracterización de las propiedades psicométricas


de un test.

1. Confiabilidad:
Tipos de confiabilidad
Coeficientes

2. Validez
Tipos de validación
Coeficientes

3. Comentarios

91
Actividades para el estudio independiente:

Visualiza el siguiente video y elabora un organizador conceptual de los temas


desarrollados por elexpositor.

https://www.youtube.com/watch?v=J-843QVJYxk

Bibliografía Complementaria, otras fuentes de consulta, Etc.

Aragón, L. E. (2015). Evaluación psicológica: historia fundamentos teórico-


conceptuales y psicometría (2a. ed.). Editorial El Manual Moderno.
https://elibro.net/es/lc/upla/titulos/39719

92
CAPITULO IV
PUBLICACION DEL TEST PSICOLÓGICO CONSTRUIDO

Objetivo:

Aplica los procedimientos para publicar los resultados de la construcción


del test psicológico respetando las normas éticas de la comunidad
científica.
.

Contenidos

4.1. El Manual Técnico

3.2. Evaluación de la calidad del


Test psicológico
PUBLICACION
DEL TEST
CONSTRUIDO
3.3. Publicación científica del
Tests psicológico

3.4. Etica en el uso de los tests


psicológicos

93
Indagando saberes previos:

Resuelva las siguientes preguntas:

1. ¿Qué características tiene el Manual técnico de un test psicológico?


_______________________________________________________
_______________________________________________________
_______________________________________________________

2. ¿Cuáles son los indicadores para evaluar la calidad de un test


psicológico?
_______________________________________________________
_______________________________________________________
_______________________________________________________
_______________________________________________________
_______________________________________________________.

3. ¿Cuáles son las pautas para la publicación científica de un tests


psicológico?
_______________________________________________________
_______________________________________________________
_______________________________________________________
_______________________________________________________.
4. ¿Qué normas éticas deben tener en cuenta los usuarios de los tests
psicológicos?
_______________________________________________________
_______________________________________________________
_______________________________________________________
_______________________________________________________

94
Desarrollo temático:

1.1. El Manual Técnico del test construido

El manual técnico es el documento por el cual el autor o autores reportan


información teórica, metodológica y psicométrica acerca del test construido.
Algunos autores prefieren llamarle Manual técnico en tanto otros optan el término
Manual, que en realidad no es relevante. Lo que sí es importante señalar que a la
revisión de algunos manuales publicados por empresas autorizadas para su
comercialización, no se encuentra un formato estándar del contenido de los
mismos, observemos a continuación los índices temáticos de dos tests, uno
publicada por Manual Moderno y la otra por TEA Ediciones.
Tabla 8
Contenido en el Manual de dos Tests psicológicos

Manual de la Escala de Desgaste ocupacional Manual de test de empatía cognitiva y


/Burnout)-EDO de Uribe (2010) afectiva-TECA (López-Pérez, et al (2008)
Marco teórico Introducción
Consideraciones éticas  Ficha técnica
 El usuario  Descripción general
 Toma de decisiones  Significación de las Escalas
 Consideraciones sobre la medición Normas de aplicación y puntuación
 Interpretación de las puntuaciones.  Requisitos del examinador y de la
Desarrollo de la Escala persona evaluada.
 Desarrollo del instrumento  Instrucciones específicas de
 Resultados aplicación
 Discusión y conclusiones  Respuestas omitidas
Características de la EDO y recomendaciones  Obtención de las puntuaciones
para su aplicación Justificación estadística
 Características del instrumento  Distribución de las puntuaciones en
 Material de aplicación las escalas
 Recomendaciones generales  Fiabilidad
Calificación de la EDO  Validez de contenido
 Pasos  Validez factorial
 Ejemplo de calificación e  Validez referida a un criterio
interpretación  Validez predictiva
Normas y tablas de conversión Normas de interpretación
Interpretación para los diferentes puntajes Z y  Uso de los datos normativos
T en la curva normal para la EDO.  Interpretación del perfil
Referencias Anexos:
 Baremos
 Medias y desviaciones típicas de los
elementos
 Histogramas de las escalas del
TECA
Referencias bibliográficas

95
Se aprecia en la Tabla que las diferencias son más de forma que de fondo, en ese
sentido consideramos que la propuesta planteada por Canués y Luna (2010)
contienen los rubros mínimos y necesarios que debe tener un Manual, siendo
éstas:

A continuación, describiremos en que consiste cada uno de estos rubros tomando


como ejemplo la prueba ASI, escala de riesgo de abuso sexual infantil (Apraez, Erazo
y Sánchez, 2007

a. Portada o caratula.
Informa el título del test, el nombre del autor o autores, datos de identificación de
la Institución que avaló la investigación y el año de publicación. Canués y Luna
(2010)

96
b. El título
Debe consignarse de manera completa y si tiene siglas que la identifican, éstas se
ubican después del nombre completo de la prueba, ejemplo:

c. Características Generales
c.1. La ficha técnica:
En ella se describen el nombre original del test, nombre de la adaptación
(si la prueba es de otro país), autores, tipo de administración, tiempo aproximado
de aplicación, características de las personas para quiénes se aplicará el test,
significación, baremación y materiales. Canués y Luna (2010).
Ejemplo:

c.2. Descripción general del cuestionario:


En esta sección se enuncian objetivos del test, las características de la población a la
cual está dirigida y el atributo o rasgo que pretende medir. Canués y Luna (2010).
Ejemplo

97
c.3. Elementos teóricos:
En este apartado el autor debe dar a conocer la conceptualización del atributo o rasgo
que mide la prueba así como el modelo teórico en que se fundamenta. Canués y Luna
(2010).
Ejemplo

d. Diseño y estructura del cuestionario

d.1. Estructura de la prueba:

Describe la cantidad de ítems que consta el test en general, y por cada factor o
dimensión, se recomienda que esta presentación sea en un formato tabla, pues ayuda a
comprender la estructura general y específica del test, incluso se informan con los
porcentajes relacionados con los factores de la prueba y el atributo que se pretende
medir. Canués y Luna (2010).

98
Ejemplos:

d.2. Distribución de items:

Se refiere a que en una Tabla se detalla el número de ítems por factor o dimensión.
Ejemplo:

d.3. Tipos de respuesta:

Hace referencia a los tipos de respuesta del cuadernillo o protocolo del test,
pudiendo ser dicotómicos o respuestas de tipo escalar u de alternativas múltiples,
Ejemplo:

99
e. Instrucciones para la aplicación del test

Instrucciones generales:
Se describe de manera breve las indicaciones y condiciones para la aplicación
del test, tales como las características del lugar de la aplicación, así mismo
algunas instrucciones que debe tener en cuenta el examinador antes de aplicar
la prueba. (Canués y Luna, 2010).

Instrucciones específicas:
Se refiere a los datos que debe reportar el examinado en el cuadernillo de la
prueba y a las pautas de cómo debe responder a cada uno de los ítems, alude
también a las actividades que el examinador debe tener en cuenta durante y al
término de la aplicación del test. (Canués y Luna (2010).

Ejemplo:

100
f. Normas para la corrección y puntuación

Según Canués y Luna (2010), en esta sección se da las pautas para la corrección
del test, si esta se hace de forma manual o mecánica a través de un software por
ejemplo. Y si el tests comprender plantillas de corrección, debe darse las pautas de
cómo deben utilizarse, también debe dar indicaciones del valor que se asigna a cada
respuesta a lo ítems dependiendo de su naturaleza (dirección positiva o negativa),
asimismo dar cuenta en qué situaciones debería eliminarse el protocolo y, finalmente
la forma como se obtiene el puntaje general y puntajes específicos y sus respectivas
asignaciones de nivel del atributo medido.

Ejemplo:

101
g. Justificación estadística

Este espacio detalla las propiedades psicométricas del test, tales como
confiabilidad y validez. Se presentan las tablas que describen los procesos
estadísticos que se utilizaron para estimar los coeficientes de confiabilidad y
validez del test, dependiendo de la técnica utilizada (Canués y Luna, 2010)

Ejemplo:

h. Normas interpretativas

Conocida también como los baremos, en esta sección se informa los


procedimientos para transformar los puntaje directos y parciales del tests en puntajes
de normas estadísticas como Puntajes Z, Puntaje T, Quartiles o Percentiles. Así mismo

102
se da las indicaciones para manejar los baremos de la prueba que pueden ser por
edades, sexo, grado de instrucción o tal vez sólo un baremo general.
No está de más informar en una tabla sobre los niveles a los que corresponden los
puntales obtenidos y la media y desviación estándar correspondientes. (Canués y
Luna, 2010).
Ejemplo:

103
i. Referencias

La construcción de un test es un proceso investigativo que se respalda en la


bibliografía científica, por lo que en este acápite se informa las fuentes de referencias
para la elaboración del manual, Tal como señalan Canués y Luna (2010) “en el caso
de las pruebas que han sido producto de trabajos de investigación, en la bibliografía
se incluye únicamente las citas que se encuentran en el manual y no el total de
referencias del trabajo de investigación.”

104
1.2.Evaluación de la calidad del Test psicológico

La construcción de un test psicológico, como todo proceso científico es también falible.


Todo tests psicológico construido debería ser sometido a un proceso de evaluación para
ponderar su calidad de tal modo que se asegure que es una herramienta que será eficaz
sea para el uso profesional o de investigación. Esta evaluación puede hacerse tomando
como referencia el Cuestionario propuesto por la Comisión Internacional de Tests
Psicológicos. Hernández et al (2016) adaptaron para España un Cuestionario que permita
ponderar esta calidad en los siguientes rubros las que resumen en el siguiente cuadro.

Tabla 9
Dimensiones del Cuestionario de Evaluación del Test (CET-R)

Fuente: Hernández, A., et al (2016). Revisión del modelo para evaluar la calidad de los tests
utilizados en España.

105
En la primera parte se aprecia los rubros que necesariamente suele evaluarse de un test
psicológico, rubros de identificación, autoría, características sociodemográficas, características
estadísticas e incluso económicas que deben ser tomados en cuenta por el constructor de la
prueba y por los usuarios para poder decidir su elección acorde a sus propósitos sean
profesionales o de investigación

En la segunda y tercera parte de la Tabla se enuncia los rubros que se valoran pero
desde el ámbito más especializado y técnico-psicométrico. En esta sección se valoran la calidad
del Manual del Test, los reportes y evidencias de la validez, confiabilidad, así como la de las
normas interpretativas (baremos). Y se termina permitiendo al evaluador emitir un juicio acerca
de la valoración global del test, señalando fortalezas, debilidades y recomendaciones de mejora.

Tabla 9
Continuación

106
Al término del proceso de evaluación la valoración del Test puede concluir con la siguiente escala:

Fuente: Hernández, A., et al (2016). Revisión del modelo para evaluar la calidad de los tests
utilizados en España

A modo de comentario, creemos necesario hacer estudios de evaluación a los tests


psicológicos más utilizados en nuestra Región e incluso a nivel país, emulando un tanto la
experiencia española. Esta actividad sin duda, fortalecería el buen uso de los test y el buen
quehacer de los psicólogos.

1.3. Publicación científica del Tests psicológico

La construcción de todo tests psicológico, como ya se había visto en el capítulo


II, implica seguir la pautas de los procedimientos establecidos por el método científico.
Y considerando que esta construcción es equivalente a un proceso de investigación, sus
autores saben que en cumplimiento a las normas académicas, el producto final (Test
nuevo) debe ser puesto a consideración de la comunidad científica para su valoración y
permanentes mejoras.

Los espacios para su publicación pueden ser los Congresos científicos,


Sustentaciones de Tesis o Revistas científicas. Esta última es la más recomendada sobre
todo cuando esta publicación se somete a revisores de pares, quienes ameritan juicios
de valor sobre el estricto cumplimiento de las pautas metodológicas y teóricas en el
proceso de construcción de una herramienta que servirá no solo con fines de
investigación sino de uso profesional.

El estilo de redacción del Artículo científico va a depender de los editores de las


revistas científicas, de hecho los artículos sobre tests psicológicos suelen publicarse en

107
revistas psicológicas y la gran mayoría de editores se ciñen a las normas de publicación
de la American Psichologycal Association (2020) séptima edición, y que es la que
describiremos a continuación:

A continuación se describe la publicación de un Test en una revista científica, para ello


tomaremos como referencia las normas de autor señaladas por LIBERABITa Revista Peruana
de Psicología

1. Primera hoja:

Según la Revista Liberabit (s/f). En la primera hoja se ha de consignar el título, los autores,
afiliación institucional, El resumen y abstract así como las palabras claves y en la parte
final se menciona el correo institucional del autor principal. Dependiendo del Estilo de
redacción de la Revista, los editores suelen precisar las características de cada uno, en el
caso que describiremos es según el estilo APA (2020).

Ejemplo:

108
El título, debe redactarse en español e inglés. En formato oración, en altas y bajas.(APA,)
Ejemplo:

109
Sobre los Autores, se consigna primero el nombre seguido por los apellidos. Si son varios
autores, van separados por comas. El autor corresponsal es identificado por un asterisco
(APA,2020)
Ejemplo:

Los autores deben declarar su afiliación institucional y su país.


Ejemplo:

La redacción del resumen y Abstract deben contener 150 a 180 palabras, se redacta en español
y en inglés. Describen los antecedentes, objetivos, métodos, resultados y
conclusiones.(APA,2020)

Ejemplo:

110
Las Palabras clave y keywords. Pueden ser entre 4 a 6 palabras. Se empieza con
minúscula, se separan por punto y coma (;) y termina en punto.
Ejemplo:

2. Contenido del artículo

El editor de la revista Liberabit ( s/f) señala que el artículo ha de contener: Introducción (no
se considera como subtítulo), Método, Resultados, Discusión, Conflicto de intereses, Responsabilidad
ética, Referencias, Datos del (los) autor(es) y autor corresponsal y Anexos (opcional)

Según la APA (2020) en la Introducción el autor debe redactar el planteamiento del problema,
justificación, antecedentes, marco teórico y precisar los objetivos o las hipótesis de
investigación.

El Método, es la sección en la que se reporta los participantes, instrumentos, procedimientos y


análisis de datos (Liberabit , s/f)

Los participantes son descritos en número, tipo, características sociodemográficas, obtención


y grado de representatividad. En la sección del instrumento se enuncia el nombre completo,

111
del test creado, sus características y las evidencias psicométricas de su validez y confiabilidad.
En los procedimientos, se describen las fases del proceso de construcción del instrumento en
tanto en el análisis de datos se reportan los estadísticos descriptivos e inferenciales que se
utilizaron para los análisis psicométricos y también mencionar el software que utilizó para el
procesamiento de datos. Liberabit (s/f ), APA (2020)

Los Resultados dan a conocer la descripción e interpretación de las propiedades psicométricas del
test construido (validez, confiabilidad, normas de interpretación), se presentan en tablas o figuras.
Liberabit (s/f ), APA (2020)
 Ejemplo de la presentación de las tablas

112
 Ejemplo de la presentación de Figuras

Figura 1.
Modelo final de 27 ítems y 4 factores y sus coeficientes estandarizados de regresión

113
La presentación de las Tablas y Figuras así como su respectiva descripción e interpretación se
ajustan a los lineamientos de las indicaciones del Manual de redacciones de la APA(2020).

Ejemplos de la descripción de una tabla

1)

2)

Ejemplo de redacción de Figura:

1)

2)

114
La Discusión

En este rubro el autor del test argumenta sus hallazgos teóricos y psicométricos acerca del
test construido. Analiza la trascendencia de sus resultados asimismo comunica las
limitaciones y recomendaciones sobre sus hallazgos. (APA,2020)

Referencias

Se incluyen en la antepenúltima hoja, antes de la información de los autores. Y se redactan en


orden alfabético con sangría francesa (En el Manual de redacción de la APA se dá las pautas
para el reporte de los diferentes tipos de fuentes consultadas).

En la siguiente muestra puede verse cómo se reportan las referencias:

115
Parte final del artículo, se consigna acerca del autor o autores la siguiente información:
Nombre y apellidos, filiación, breve resumen del autor, ORCID, correo, indicando el autor con
quien se puede mantener correspondencia. En el formato de Notas el autor detallará información
complementaria referida al estudio como conflictos de interés y responsabilidad ética.

Ejemplo

116
Anexos

Es opcional, debe tener numeración correlativa y título. Todos los anexos deben estar referenciados
en el documento y se presenta al final del manuscrito.

4.4. Ética en el uso de los tests psicológicos

Los tests constituyen una de las tecnologías más utilizadas por los psicólogos en
el ejercicio de la profesión como también en el quehacer investigativo. Sin embargo, no
están libres de algunas más prácticas en su uso, por lo que es importante dar a conocer
algunas pautas internacionales dadas por la Comisión internacional de Tests (ITC) para
el buen uso de los mismos.

Considerando que los tests incluyen un amplio abanico de procedimientos


utilizados en la evaluación psicológica, educativa y ocupacional , que implica medición
de conducta tanto normales como anormales, de que pueden ser aplicados bajo
condiciones controladas o estandarizadas y que los resultados proporcionan
clasificaciones cualitativas u ordenamiento de personas, se espera que un usuario
competente utilizará los tests de forma adecuada, profesional y ética, prestando la debida
atención a las necesidades y derechos de las personas evaluadas. Pues no está de más
recordar que el uso de los tests siempre se dará en un contexto interpersonal que implica
un respeto irrestricto por los derechos humanos.

Los tests deben estar apoyados por datos empíricos sobre su fiabilidad y validez
para medir los objetivos que se proponen, es necesario aportar datos que justifiquen las
inferencias que se hacen a partir de las puntuaciones de los tests, estos datos tendrían
que estar disponibles para os usuarios de los tests, así como para los profesionales e
investigadores.

Según el Colegio Oficial de Psicólogos y la Comisión Internacional de Tests


(ITC) unos conocimientos psicológicos psicométricos sólidos y una comprensión
profunda de todos los aspectos implicados en el proceso evaluativo constituyen la base

117
fundamental para el uso pertinente de los tests. Los expertos suelen estar de acuerdo en
que la causa más importante del uso inapropiado de los tests es una formación deficiente
de los usuarios. Los conocimientos deberían ser sobre estas áreas: Teoría de los tests y
propiedades técnicas de los tests como fiabilidad, validez, estandarización, sesgo,
análisis de ítems. Conocimiento de los tests y principios de la medición para entender
adecuadamente los resultados. Conocimientos sobre la teoría, modelos y constructos
medidos que permita una elección pertinente de las pruebas e interpretación de los
resultados asimismo conocer el abanico de tests disponibles, así como los editores
correspondientes así como avances técnicos recientes, tales como los tests
informatizados, banco de ítems, etc.

Los usuarios competentes deberían:

Sobre el uso ético de los tests: Actuar de forma ética y profesional, asegurarse
de que son competentes para el uso de los tests, responsabilizarse del uso que hacen de
los tests, asegurarse de que los materiales del test están seguros, asegurarse de que los
resultados de los tests se tratan confidencialmente.
Sobre la utilización adecuada de los tests: Estimar la utilidad potencial de los
tests en una situación evaluativa, elegir tests técnicamente correcto y adecuados a cada
situación, prestar atención a los aspectos relacionados con el sesgo de los tests, hacer
los preparativos necesarios para la aplicación del test, aplicar los test adecuadamente,
puntuar y analizar los resultados de los tests con precisión, interpretar los resultados
adecuadamente, comunicar los resultados de forma clara y precisa. Revisión de la
adecuación del test y su uso.

Referido a la elección de test técnicamente correctos y adecuados a cada


situación, los usuarios competentes deberían:
Examinar toda la información disponible sobre los tests potencialmente
adecuados antes de elegir un test concreto.
Comprobar que la documentación técnica sobre el test proporciona suficiente
información para evaluar los siguientes aspectos:
a. Amplitud y representatividad del contenido del test, adecuación de los
grupos normativos utilizados, nivel de dificultad de los contenidos, etc.
b. Precisión de la medición y fiabilidad para las poblaciones pertinentes.

118
c. Validez para las poblaciones pertinentes y su aplicabilidad para el uso
que se hace del test.
d. Ausencia de sesgo para los grupos con los que se utilizará
e. Aceptación por parte de quienes están implicados en su uso, incluyendo
la pertinencia y validez aparente percibidas
f. Aspectos prácticos, tales como tiempo requerido, coste, o recursos que
se necesitan

Evitar el uso de tests que tengan una documentación técnica inadecuada o poco clara
Utilizar tests sólo para aquellos objetivos para los cuales se dispone de una
validez empírica adecuada y pertinente
No aceptar un test basándose únicamente en su validez aparente,
recomendaciones de otros usuarios, o consejos de quienes tienen intereses comerciales
Responder a las preguntas de las personas implicadas (personas evaluadas,
padres, supervisores, representantes legales, etc), dándoles suficiente información para
que entiendan por qué se eligió el test.

Prestar atención a los aspectos relacionados con el sesgo de los tests


Cuando los tests se van a utilizar con personas de diferentes grupos (por ejemplo;
género, cultura, educación, etnia, origen, o edad, entre otros), los usuarios competentes
de los tests harán todos los esfuerzos para asegurarse de que:

Los tests son imparciales y adecuados para todos los grupos evaluados. Los
constructos que se están midiendo son relevantes para cada uno de los grupos evaluados.
Existen datos disponibles sobre las diferencias de rendimiento de los grupos en el test.
Hay datos disponibles sobre el funcionamiento diferencial de los ítems cuando ello es
pertinente. Hay datos sobre la validez que apoyan el uso del test en diferentes grupos.
Se minimizan los efectos de las diferencias grupales no relacionadas con el objetivo de
la medición. Las directrices sobre la imparcialidad de los tests se interpretan dentro del
marco de la legislación al respecto existente en cada país.

Cuando se utilizan los tests en más de un idioma (idiomas distintos, dialectos,


lenguaje de signos, etc) los usuarios competentes harán todos los esfuerzos posibles para
asegurarse de que: Las versiones de los distintos idiomas o dialectos hayan sido

119
elaboradas utilizando una metodología rigurosa. Los constructores hayan sido sensibles
a los aspectos de contenido, culturales e idiomáticos. Quienes aplican los tests sean
capaces de comunicarse perfectamente en el idioma en el que se aplica el test. El
dominio de la lengua (en la que se aplicará el test) de las personas evaluadas sea
comprobado sistemáticamente, utilizándose la versión más adecuada, o una bilingüe si
fuese necesario

120
Autoevaluación:

1. El propósito del Manual técnico del test es, elija las opciones correctas:
( ) Proporcionar información sobre la teoría que respalda el test.
( ) Informar las propiedades psicométricas del tests
( ) Orientar sobre la administración, calificación y clasificación del futuro evaluado
( ) Informar las normas de tipificación
( ) Informar sobre la historia de la psicometría

2. Las normas para evaluar la calidad de los Tests psicológicos, han sido proporcionados
por:
( ) El Colegio de Psicólogos del Perú
( ) EL Ministerio de Educación del Perú
( ) The American Psychological Association
( ) The Comission Internacional Tests

3. ¿Cuáles son los rubros más importantes cuando se valore la calidad de un test?
____________________________________________________________
____________________________________________________________
_____________________________________________________________
_____________________________________________________________

4. ¿Cuándo el constructor de tests decide publicar en una revista científica, cuales son los
rubros que debe contener su artículo de investigación?
____________________________________________________________
____________________________________________________________
_____________________________________________________________
_____________________________________________________________

5. ¿Qué opina sobre el uso de los tests que hacen personas que no son psicólogos? ¿Qué deberíamos
hacer?

_____________________________________________________________
_____________________________________________________________

121
Actividades para el estudio independiente:

- Descargue de una base de datos como Scopus, Scielo o Redalyc un artículo


publicado sobre la construcción de un Tests y luego apoyándose del CT proceda a
valorarlo.
- Asimismo, acceda a un Manual técnico de un test de inteligencia y valores si
cumple o no con los rubros que debe tener.


Bibliografía complementaria

- Camúes y Luna (2010). ¿Cómo hacer un manual para una prueba psicológica?. Universidad de
Nariño. https://psicologiaysalud.udenar.edu.co/wp-content/uploads/2016/02/MANUAL-
PARA-UNA-PRUEBA-PSICOL%c3%93GICA.pdf

- Hernández, A., Ponsoda, V., Muñiz, J., Prieto, G. y Elosua, P. (2016). Revisión del modelo
para evaluar la calidad de los tests utilizados en España. Papeles del Psicólogo, 37, 192-197

122
Referencias

Abad, F., Olea, J., Ponsoda,V., y García,C.(2011). Medición en ciencias sociales y de la salud.. Madrid
Alarcón, R. (1991) Métodos y diseños de investigación del comportamiento. UPCH.
Anastasi, A. y Urbina, S. (1998). Tests Psicológicos. México
Andrade, J. & Valentini, F. (2018). Diretrizes para a Construção de Testes Psicológicos: a
Resolução CFP n° 009/2018 em Destaque. Psicologia: Ciência e Profissão, 38(spe), 28-
39. https://doi.org/10.1590/1982-3703000208890
American Educational Research Association, American Psychological Association, & National
Council on Measurement in Education. (2014). Standards for educational and
psychological testing. Washington, DC: American Educational Research Association
American Psuchological Association ( 2020) Manual de publicaciones. Manual Moderno.
Cuarta edición.
Arias-Barahona, R. y Jesús, M. (1996). Pruebas psicométricas de inteligencia. Apuntes de
curso. Universidad San Martín de Porres-Lima
Ato, M., López, J. J., y Benavente, A. (2013). A classification system for research designs
in psychology. Anales de Psicología, 29(3), 1038–1059.
https://doi.org/10.6018/analesps.29.3.178511
Attorresi, H., Lozzia, G., Abal, J, y Galibert, M, & Aguerri, M. (2009). Teoría de Respuesta al
Ítem. Conceptos básicos y aplicaciones para la medición de constructos psicológicos.
Revista Argentina de Clínica Psicológica, XVIII(2),179-188.[fecha de Consulta 14 de
Abril de 2021]. ISSN: 0327-6716.
https://www.redalyc.org/articulo.oa?id=281921792007
Aiken, L. R. (2003). Tests psicológicos y evaluación (11a. ed.). Pearson Educación.
https://elibro.net/es/lc/upla/titulos/74085
Alarcón, R. (1991) Métodos y diseños de investigación del comportamiento. Lima:
Fondo Editorial de la Universidad Cayetano Heredia. (Biblioteca personal)
Aliaga T., J. (2006). Psicometría: tests psicométricos, confiabilidad y validez. En A. Quintana y
W. Montgomery (Eds.): Psicología: Tópicos de actualidad. Lima:UNMSM
Aragón, L. E. (2015). Evaluación psicológica: historia fundamentos teórico-conceptuales y
psicometría (2a. ed.). Editorial El Manual Moderno.
https://elibro.net/es/lc/upla/titulos/39719
Alvarado, J. (2012). La validez en la medición psicológica. UNED - Universidad Nacional de
Educación a Distancia. https://elibro.net/es/lc/upla/titulos/48544
Barbero, M.; Garcia, E.; Vila, E.; y Holgado, F. (2015) Psicometría: Problemas resueltos. Colección
UNED. Editorial Sanz y Torres. Madrid
Barrios, M.; Bonillo,A.; Cosculluela, A.; Lozano, M.; Turbany,J.; y Valero, S.

Beaver, A.S., Lounsbury, J.W., Richards, J.K., Huck, S.W., Skolits, G.J. y Esquivel, S.L. (2013).
Practical considerations for using exploratory factor analysis in educational research.
Practical Assessment, Research & Evaluation, 18 (6), 1-1
Brown, F. (1980). Principios de la medición en Psicología y Educación. México. Manual moderno
Bunge, M. (1972). La ciencia, su método y su filosofía. Buenos Aires: Siglo XX

123
Canués, D. y Luna, E. (2010). ¿Cómo hacer un manual para una prueba psicológica?. Universidad de
Nariño. Pasto.
Carretero-Dios y Pérez (2007). Normas para el desarrollo y revisión de estudios instrumentales:
consideraciones sobre la selección de tests en la investigación psicológica. International
Journal of Clinical and Health Psychology. Vol. 7, No. 3, pp. 863-882.
http://www.aepc.es/ijchp/NDREI07_es.pdf
Caycho-Rodríguez, Ventura-León y Barboza-Palomino. Diseno˜ y validación de una escala para
medir la preocupación por el contagio de la COVID-19 (PRE-COVID-19) . Enfermería Clínica
31 (2021) 175-183. https://doi.org/10.1016/j.enfcli.2020.10.034
Cerda, E. (1984). Psicometría General. Barcelona.

Cohen, R., Swerdlik, M. (2001). Pruebas y evaluación psicológicas: Introducción a las pruebas
y a la medición(4ª ed.). México: McGraw-Hill.
EcuRed (s/a). https://www.ecured.cu/EcuRed:Enciclopedia_cubana
Engler, B. (1996). Introducción a las teorías de la personalidad. McGraw-Hill. México D.F.
Escurra, M. (1988). Cuantificación de la validez de contenido por criterio de jueces.
Revista de Psicología de la PUCP, 4 (1- 2), 103-111.
Escurra, L. (2011) Análisis psicométrico del Cuestionario de Honey y Alonso de Estilos de Aprendizaje
(CHAEA) con los modelos de la Teoría Clásica de los Tests y de Rasch Persona, (14),71-109.
https://www.redalyc.org/articulo.oa?id=147122650003
Fernández, M.; Cayssials, A.; Pérez. M. (2016). Tercera reimpresión. Curso básico de Psicometría.
Teoría clásica. Lugar editorial. Buenos Aires.
Fernández-Ballesteros,R. (2013) Evaluación Psicológica. Conceptos, métodos y estudio de caso.
Pirámide. Madrid.
Fernández, A.; Pérez, E.; Alderete, A.; Richaud,MC., y Mercedes Fernández,M. ¿Construir o Adaptar
Tests Psicológicos? Diferentes respuestas a una cuestión controvertida . Evaluar, 10 (2010), 60
– 74. https://www.researchgate.net/profile/Alberto-Fernandez-8/publication/277009493
Fuentes, J. (2001) Fundamentos de psicometría. Amaru Ediciones. Salamanca.
Gonzáles, F. (2007). Instrumentos de evaluación psicológicas. Editorial Ciencias Médicas.
Ciudad de La Habana.
Gragory, R. (2012). Pruebas psicológicas: historia, principios y aplicaciones. Pearson
Educación.https://elibro.net/es/lc/upla/titulos/37877?as_all=pruebas psicol%C3%B3gicas,
&as_all_op=unaccent icontains,unaccent icontains&prev=as
Gonzáles Llaneza, Felicia ( 2007) . Instrumentos de evaluación psicológica. Editorial ciencias médicas.
Cuba
Hernández, R.; Fernández, C. y Baptista, P. (2010) Metodología de la investigación. Quinta edición.
México: McGrawHill.
Hernández, A., Ponsoda, V., Muñiz, J., Prieto, G. y Elosua, P. (2016). Revisión del modelo para
evaluar la calidad de los tests utilizados en España. Papeles del Psicólogo, 37, 192-197. https://
Hogan, T. (2015). Pruebas psicológicas: una introducción práctica. 2da. Edición;
Editorial El Manual Moderno. https://elibro.net/es/lc/upla/titulos/100395
Instituto Nacional de Salud Mental Honorio Delgado Hideyo Noguchi (2008). Base de Datos
de Instrumentos de evaluación de Salud Mental y Psiquiatría. Anales deSalud Mental,
19(1), 17-21. http://www.insm.gob.pe/investigacion/archivos/estudios/2008-ASM-

124
BDIESMP/files/res/downloads/book.pdf
Lagunes, R. (2017) Recomendaciones sobre los procedimientos de construcción y validación de
instrumentos y escalas de medición en la psicología de la salud. Psicología y Salud, Vol.
27, Núm. 1: 5-18, enero-junio de 2017
https://psicologiaysalud.uv.mx/index.php/psicysalud/article/view/2431/4279
Leyva Barajas, Yolanda Edith. (2011). Una reseña sobre la validez de constructo de pruebas
referidas a criterio. Perfiles educativos, 33(131), 131-154.
http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S0185-
26982011000100009&lng=es&tlng=es
Liberabit (s/f ),Revista de Psicología de la Universidad de San Martín de Porres. URL
http://www.revistaliberabit.com/index.php/Liberabit/about/submissions
López-Pérez, B., Fernández-Pinto,I., y Abad,F. (2008) Tests de empatía cognitiva y afectiva.
TEA Ediciones; Madrid
Lloret S., S., Ferreres T., A., Hernández B., A. y Tomás M., I. (2014). El análisis factorial
exploratorio de los ítems: una guía práctica revisada y actualizada. Anales de Psicología,
30, 1151-1169.
Lozano, L. y Turbany, J. (2013). Validez. Meneses (Ed), En Psicometria. (141-200). Barcelona:
Editorial UOC.
Medrano, L.; Pérez, E.; Fernández, L.; Marta, M.; Alejandra, M.; Trógolo, M.; Moretti, L.;
Griffoulière, E. (2019) Manual de psicometría y evaluación psicológica. Editorial Brujas;
Buenos aires Argentina https://www.digitaliapublishing.com/a/59485/manual-de-psicometria-
y-evaluacion-psicologica Compiladores Medrano, L.; Pérez, E.;
Meneses, J. (2014). Psicometría. Editorial UOC. https://elibro.net/es/lc/upla/titulos/57600
Barrios, M., Bonillo,A., Cosculluela, A., Lozano, L., Turbany, J. Valero, S.
Meneses, J. (Coord) (2013). Psicometría. Editorial UOC. Barcelona

Moran, V., Olaz, F., Pérez, E., & Del Prette, Z. (2018). Desarrollo y validación del Test de Ansiedad Social para
estudiantes universitarios (TAS-U). Liberabit, 24(2), 195-212. https://doi.org/10.24265/
liberabit.2018.v24n2.03

Muñiz, J. (1990). Teoría de Respuesta a los Items: Un nuevo enfoque en la evolución psicológica y
educativa. Pirámide. Madrid.
Muñiz, J. (1994). Teoría clásica de los tests. Pirámide. Madrid. Primera edición
Muñiz, J. y Fonseca-Pedrero, E. Diez pasos para la construcción de un test. Psicothema
2019. Vol.31 (1). p. 7-16. Doi 10.7334/psicothema2018.291
Muñiz, J., Elosua, P. y Hambleton, R. K. (2013). Directrices para la traducción y
adaptación de los tests: segunda edición. Psicothema, 25, 151-157. doi:
10.7334/psicothema2013.24
Muñiz, J. (2010). Las teorías de los tests: teoría clásica y teoría de respuesta a los ítems. Papeles del
Psicólogo, 31(1), 57-66. http://www.papelesdelpsicologo.es/pdf/1796.pdf
Muñiz, J. (2018). Introducción a la Psicometría. Teoría clásica y TRI. Pirámide. España
Nunnally, J. (1987) Teoría psicométrica. Editorial Trillas. México??
Prieto, G. y Muñiz, J.(2000). Un modelo para evaluar la calidad de los tests utilizados en España
Papeles del Psicólogo, núm. 77, 2000, pp. 65-72 Consejo General de Colegios Oficiales de
Psicólogos. Madrid, España.URL http://www.redalyc.org/articulo.oa?id=77807709
Ramos, Z. (2018). Psicometría básica. Fundación universitaria del Área Andina. Bogotá.
Santisteban, C. (1990). Psicometría. Teoría y práctica en la construcción de tests. Ediciones Norma

125
Tornimbeni, S. Pérez, E. y Olaz,F. (2014). Introducción a la Psicometría. Buenos Aires.
Paidos.
Uribe, J. (2010) EDO. Escala de Desgaste Ocupacional (Burnout). Manual Moderno;
México D.F.

126

You might also like