You are on page 1of 59

Validez

y Confiabilidad

Julio E. Rodríguez-Torres, Ed.D.


17 de diciembre de 2014
CONTENIDO
1. Definición de conceptos asociados al desarrollo y
evaluación de pruebas.
2. Importancia de la Validez y la confiabilidad.
3. Ejemplo de la UPR-RP.
4. ¿Hacia dónde nos dirigimos?
Definición de términos
 Medición
 Proceso de asignar cantidad a propiedades o
atributos siguiendo unas reglas o indicadores
claramente establecidos. (Vera,2002).
 Asignar u obtener expresiones numéricas de las
propiedades o atributos de los objetos o personas
siguiendo unas reglas específicas. (Medina y Verdejo,
2000).
Definición de términos
 Todas
las mediciones se caracterizan por la
mayor o menor presencia de dos atributos o
aspectos sicométricas:
 Validez
 Confiabilidad
Validez
 Sedice que una medición es válida si
mide lo que en realidad trata de medir. Es
asegurarse de que se mide lo que se
intenta medir.
TIPOS DE VALIDEZ
¿Cuan representativo es el
comportamiento elegido como
muestra del universo que se Validez de Contenido
intenta representar?

¿Qué significado tiene el


comportamiento con respecto a
los atributos del individuo que Validez de Constructo
son de interés para la medición?

¿Hasta donde se puede


predecir la actuación de un Validez Predictiva
sujeto a partir de su ejecución en
la prueba?
7

VALIDEZ DE CONTENIDO

 Se refiere a cuan bien el contenido de la prueba, en términos


de los conceptos, destrezas, ítemes y ejercicios, corresponde
fielmente a la materia o curso de enseñanza.
 Para evaluar la validez de contenido hay que analizar el
contenido (conceptos/destrezas) y los niveles de
conocimiento.
 Para realizar una validez de contenido se necesita: la planilla
de especificación diseñada para construir la prueba, los
planes de la clase (objetivos operacionales, destrezas,
procesos, estrategias educativas, técnicas específicas y
asignaciones dadas), libro de texto y materiales utilizados.
 Ver ejemplo en la página 203, libro de texto
EVIDENCIA RELACIONADA CON EL CONTENIDO
Se determina hasta dónde los items de
No puede ser un instrumento son representativos de las
expresada
cuantitativante
variables que se desea medir (grado de
(Ruiz; 2003) representatividad). Palella y Martins;
2006
Método: Validez de Contenido
Técnica: Juicio de Expertos

Ítems Congruencia Claridad Tendenciosidad Observaciones


Si No Si No Si No
1 . . . . . . __________________________
2 . . . . . . __________________________
__________________________
4 . . . . . .
__________________________
5 . . . . . . __________________________
6 . . . . . . __________________________
7 . . . . . . __________________________
8 . . . . . . __________________________
9 . . . . . . __________________________
__________________________
10 . . . . . .
__________________________
11 . . . . . .
9

VALIDEZ DE CONSTRUCTO O CONCEPTUAL

 Se refiere a la conceptualización científica que se


establece para definir los aspectos fundamentales de
la conducta humana.
 Ejemplo: motivación, actitudes, personalidad, intereses
vocacionales, la ansiedad, entre otros de índole
psicológica.
 Para cada uno éstos constructos hay que diseñar una
prueba estandarizada y someterla a todo el rigor del
proceso de estandarización de dicha prueba.
 Este tipo de validez corresponde mayormente a los
especialistas o expertos en la materia.
EVIDENCIA RELACIONADA CON EL CONSTRUCTO
Verifica que el instrumento
¿Hasta donde un instrumento
contenga todas las dimensiones,
mide realmente un determinado
indicadores y variables que se
rasgo latente o una característica
reflejan en la operacionalización
de las personas ? ¿Con cuanta
de variables. (Palella y Matins;
eficacia lo hace? (Ruiz; 2003)
2006)
Método: Validez de Constructo
Técnica: Análisis Factorial

1. Ruiz (1988)
desarrolló la escala Con la Técnica Análisis Factorial
AC 2000 que mide comprobó que las dimensiones
autoconcepto de (Autoconcepto: social, personal y
alumnos de 6to. escolar) tenían soporte empírico en
grado los datos
EVIDENCIA RELACIONADA CON EL CONSTRUCTO
Item Factor 1 Item Factor 2 Item Factor 3
A. Social A. Escolar A. Personal
3 0.51 4 0,52 1 0.30
6 0.63 8 0,43 2 0.48
16 0.49 12 0,45 5 0.58
22 0.48 25 0,54 7 0.43
26 0.64 28 0,57 9 0.57
27 0.54 29 0.55 10 0.56
30 0.40 13 0.41

Escala Auto -.Estima de


2. Información Instrumento AC - 2000
Correlacional. Coopersmith (1959)
Ruiz (1988)
Coeficiente de Correlación 0.79
12

VALIDEZ DE CRITERIO

 Es aquella en la cual el alcance o el grado de los resultados de


una prueba se relaciona o se comparan con otra medida de
ejecución, ya sea de otra prueba o instrumento de evaluación.
 Validez predictiva = Cuando las puntuaciones o resultados de un
examen se usan para predecir ejecutorias futuras o estimar
ejecución sobre alguna medida. Ver ejemplo página 208, texto.
 Validez concurrente = Cuando los resultados de una prueba
concurren con los resultados de otra prueba. Lo que realmente se
hace es comparar los resultados de una prueba con los de otra
con el fin de predecir ejecuciones en áreas relacionadas o para
predecir ejecuciones futuras tomando como base los resultados de
una prueba.
EVIDENCIA RELACIONADA CON LA PREDICCIÓN
Establece la validez de un instrumento de medición
comparándola con algún criterio externo. Entre más se
relacionen los resultados del instrumento con el criterio,
mayor será su validez (Silva; 2009)
Alumno PAA (X) L (Y)

Egledis 650 75

Ronny 710 87 Método: Validez Predictiva


Técnica: Análisis Correlacional
Frank 682 85

Victor 700 83 La PAA es un


691 80 instrumento
Vanesa
Válido
Liévana 705 82

Ruben 600 81
Coeficiente de Correlación
Maybeth 690 90 entre X e Y:
Julio 709 90 Spearman: 0,83
Pearson: 0,87
Marbelis 715 78
FACTORES QUE AFECTAN LA VALIDEZ
a) Instrucciones imprecisas o vagas
b) Estructura de la oración demasiado difícil
c) Preguntas que sugieren las respuestas
1. Construcción del d)Ambigüedad en la formación de los reactivos
Instrumento e) Pruebas demasiado cortas
f) Ítems incongruentes con el contenido
g) Ordenamiento inadecuado

a) Tiempo insuficiente para responder


2. Administración y
b) Ayuda adicional a algunos sujetos
Calificación
c) Subjetividad en la puntuación

3. Respuestas de los a) Bloqueo de los sujetos al responder


sujetos b) Situaciones externas

Principio: La validez es específica con


4. Naturaleza del Grupo
respecto a un grupo en particular
o Criterio
Ej: comprensión de lectura el alumnos
6to grado y 9no. Grado
¿Cómo sabemos que
estamos haciendo la
inferencia correcta?

Un instrumento que Consciencia de usar


no tiene una validez IMPORTANCIA instrumentos
demostrada no vale técnicamente bien
la pena aplicarlo DE LA VALIDEZ calibrados

Construir un instrumento
técnicamente bien
hecho, implica en sí
mismo una investigación
Confiabilidad

 Decimos que una medición es “confiable” si


podemos esperar, de manera razonable, que
los resultados de dicha medición sean
sistemáticamente precisos.
 Representa la consistencia en la
reproducción de los valores obtenidos en la
medición.
 La confiabilidad es una condición necesaria
pero no suficiente para la validez.
CONFIABILIDAD
Se refiere al grado en que su aplicación de un
instrumento repetida al mismo sujeto produce
iguales resultados” Hernández, Fernández y
Bastita (1998) “(p.21)

Se refiere a la consistencia de los resultados.


En el análisis de la confiabilidad se busca que
los resultados de un cuestionario concuerden
con los resultados del cuestionario en otra
ocasión. Menéndez (2009)

Se refiere al grado en que su aplicación repetida


al mismo sujeto u objeto produce iguales
resultados. Silva (2009)

Estabilidad y Consistencia
Reproducibilidad Seguridad Precisión Interna u
Predictibilidad Homogeneidad
Confiabilidad

Método División por mitades:


 Confiabilidad Pearson / Spearman – Brown.
 Confiabilidad Rulón.
 Confiabilidad Guttman.
Confiabilidad de consistencia interna
(Homogeneidad)
 Confiabilidad KUDER –RICHARDSON (KR 20)
 Confiabilidad Alfa DE CRONBACH
6. Importancia de la validez y ejemplos.
CONFIABILIDAD

Supuestos Básicos: La persona no cambia

-Diferentes tiempos (Test – Retest)


-Diferentes observadores (Confiablidad interobservador)
- Diferentes versiones (Confiabilidad en paralelo)

Muñoz, (2009)

Grupo homogéneo: Confiabilidad baja


Grupo heterogéneo: Confiablidad alta
TIPOS DE CONFIABILIDAD
MÉTODO TÉCNICA PROPÓSITO

Test/retest Coeficiente r correlación Consistencia en el


de Pearson tiempo de los puntajes
Formas Equivalentes Coeficiente r correlación Estabilidad Temporal,
de Pearson consistencia de las
respuestas.
División por dos mitades Pearson/Spearman- Homogeneidad de los
Brown. itemes al medir el
Rulon constructo
Guttman
Análisis de KR 20 Coeficientes de fiabilidad
homogeneidad de los como consistencia
Itemes interna para itemes
dicotómicos (KR20).
Alfa de Cronbach Homogeneidad de los
itemes con escala tipo
Lickert.
DESCRIPCIÓN DE LOS MÉTODOS

Método: TEST – RETEST


Características:
 El investigador debe aplicar el mismo instrumento dos veces al
mismo grupo después de cierto período.
 Debe calcular la confiabilidad del instrumento ANTES de la
aplicación definitiva del mismo.
 Coeficiente de Correlación de Pearson altamente positivo =
Instrumento confiable.
Debilidades:
 El periodo de tiempo (corto – largo) entre las mediciones puede
afectar el coeficiente de confiabilidad.
DESCRIPCIÓN DE LOS MÉTODOS
Método: FORMAS EQUIVALENTES
Características:
 Se administran dos o más versiones equivalentes de un mismo
instrumento.
 Deben ser similares en contenido, instrucciones, tipos de
preguntas y dificultad.
 Son administradas al mismo grupo en un período relativamente
corto.
 Los patrones de respuestas deben variar POCO entre las
aplicaciones.
 Coeficiente de Confiabilidad = Fórmula de Correlación de
Pearson.
Debilidades:
 Dificultad para obtener dos pruebas realmente paralelas
 Implica doble trabajo
 Confiable solo si la correlación entre los resultados de ambas
aplicaciones es positiva
DESCRIPCIÓN DE LOS MÉTODOS

Técnica: Alfa de Cronbach


Características:
 Requiere sólo una aplicación del instrumento de medición.
 Produce valores que oscilan entre cero (0) y uno (1).
 No es necesario dividir en mitades los ítems del instrumento.
 Se aplica la medición y se calcula el coeficiente.

Técnica: Kuder – Richardson KR - 20

 Permite calcular la confiabilidad con una sola aplicación del


instrumento.
 No requiere el diseño de pruebas paralelas.
 Es aplicable sólo en instrumentos con ítems dicotómicos, que
puedan ser codificados con 1 – 0 (correcto – incorrecto,
presente – ausente, a favor – en contra, etc.) .
CONFIABILIDAD KUDER-RICHARDSON (KR-20)

PROCEDIMIENTO:
Correlación a través de proporciones de
aciertos y desaciertos y varianza del total de
aciertos.

APLICABLE EN:
Lista de Cotejo y cuestionarios de
preguntas cerradas con opciones de
respuestas dicotómicas (SI- NO)
CONFIABILIDAD KUDER-RICHARDSON (KR 20)

K= Número de Ítems.
∑p.q= sumatoria de proporciones de aciertos
por desaciertos.
S2T= Varianza del total de aciertos.
CONFIABILIDAD ALFA DE CRONBACH
PROCEDIMIENTO:
Correlación a través de la varianza de cada ítem
asociado por variables y la varianza de las
puntuaciones totales.

APLICABLE EN :
Escalas de Estimación, Escala de Lickert,
cuestionario de preguntas cerradas con opciones
policotómicas , test de aptitud verbal, test de aptitud
no verbal , test psicológico, etc.
CONFIABILIDAD ALFA DE CRONBACH

K= Número de Ítems.
S2= Varianza de los puntajes de cada ítems.
S2T= Varianza de los puntajes totales.
Instrumento

HOJA DE CÁLCULO EN EXCEL


CONFIABILIDAD

RANGOS MAGNITUD

0.81 A 1,00 Muy Alta

0.61 A 0,80 Alta

0.41 A 0,60 Moderada

0.21 A 0,40 Baja

0.01 A 0,20 Muy Baja

FUENTE: RUIZ (2002).


Nivel de dificultad de los ítems
Porcentaje de estudiantes que
Delta responden correctamente

6 95
7 92
8 90
9 85 Fácil
10 80
11 70
12 60
13 50 Mediana
14 40
15 30
16 20
17 15 Difícil
18 10
19 5
Ejemplo de la UPR-RP

Prueba de Razonamiento Lógico


Matemático
Definición del dominio de aprendizaje

Razonamiento lógico-matemático y/o


cuantitativo es la habilidad para
identificar, entender, generar y evaluar
argumentos lógicos e información
cuantitativa con el fin de utilizarlos en
situaciones del diario vivir y
relacionadas con su campo de
estudio.
Competencias generales

1. Cómputos
2. Representación
3. Evaluación
Objetivos generales
1. Usar enfoques y métodos matemáticos diversos para el
análisis y la solución de problemas reales y llevar a cabo
los cómputos pertinentes.
2. Utilizar gráficas, tablas, símbolos, conceptos y metodología
cuantitativa o matemática en aritmética, álgebra o
analítica o estadística para representar y analizar procesos
y situaciones reales.
3. Interpretar modelos matemáticos y hacer inferencias a
partir de los mismos.
4. Evaluar argumentos lógicos e información cuantitativa
para formular juicios, llegar a conclusiones y resolver
situaciones reales en distintos contextos.
5. Emplear métodos cuantitativos para representar y analizar
la relación entre variables.
6. Comunicar argumentos lógicos o resultados cuantitativos
de forma efectiva.
Cómputos:

Entender y utilizar la aritmética, el álgebra y la estadística


para resolver problemas que involucren:
Utilizar las cuatro operaciones básicas con números enteros,
decimales y fracciones;
Resolver problemas que requieran por cientos, tasas y
proporciones;
Resolver ecuaciones e inecuaciones y poder aplicarlas;
Utilizar competencias cuantitativas que le permitan analizar
y resolver situaciones de su diario vivir y en sus estudios;
Utilizar principios de estadística para describir situaciones.
Representación:

Entender e interpretar modelos matemáticos representados


por ecuaciones, gráficas y tablas y poder hacer inferencias de
las mismas y resolver problemas que involucren:
Construir e interpretar gráficas;
Analizar y visualizar conceptos geométricos;
Aplicar conceptos de medición;
Utilizar modelos matemáticos y estadísticos para representar
relaciones entre variables;
Analizar situaciones que requieran razonamiento cuantitativo
con el apoyo de la tecnología;
Representar funciones como ecuaciones o gráficamente;
Interpretar y hacer predicciones utilizando conceptos básicos
de la probabilidad y estadística.
Evaluación:

Pensar críticamente sobre el uso de la información cuantitativa.


Identificar relaciones cuantitativas en diferentes contextos,
interpretarlas en su contexto y comunicar su interpretación;
Analizar evidencias, llegar a conclusiones, comunicar y defender
interpretaciones;
Identificar los supuestos tras un argumento que utiliza información
cuantitativa y explorar las implicaciones de cambios en los
supuestos;
Entender la relación entre la información cuantitativa y sus
diferentes representaciones;
Utilizar competencias cuantitativas para generar, interpretar y
analizar un argumento o utilizar apropiadamente simbología
lógica en razonamientos deductivos;
Conocer y aplicar distintos modos de razonamiento lógico-
matemático.
37

Administración
 La prueba fue administrada a 521 estudiantes en 9 cursos
(34 secciones) de un total de 806 estudiantes en la semana
del 16 al 20 de mayo de 2011. Lo anterior equivalente al
65% de los estudiantes que finalizaron el semestre
matriculados en estos cursos.
 Las pruebas fueron corregidas en el Centro de Cómputos
del Recinto por un lector óptico, utilizando una clave. Los
datos crudos fueron enviados a la OEAE.
 En la OEAE se llevó a cabo un análisis de ítems, que incluyó
la elaboración de estadísticas como el índice de dificultad
e índice de discriminación por ítem, distribución de las
puntuaciones globales, distribución de selección de
alternativas por ítem, entre otros, que les presentamos a
continuación.
Oficina de Evaluación del Aprendizaje Estudiantil
38

Resultados Generales

Oficina de Evaluación del Aprendizaje Estudiantil


39

DistribucIón de puntuaciones
totales

Oficina de Evaluación del Aprendizaje Estudiantil


40

Resultados: ítem 1

Oficina de Evaluación del Aprendizaje Estudiantil


41

Resultados: ítem 2

Oficina de Evaluación del Aprendizaje Estudiantil


42

Resultados: ítem 3

Oficina de Evaluación del Aprendizaje Estudiantil


43

Resultados: ítem 4

Oficina de Evaluación del Aprendizaje Estudiantil


44

Resultados: ítem 5

Oficina de Evaluación del Aprendizaje Estudiantil


45

Resultados: ítem 6

Oficina de Evaluación del Aprendizaje Estudiantil


46

Resultados: ítem 8

Oficina de Evaluación del Aprendizaje Estudiantil


47

Resultados: ítem 9

Oficina de Evaluación del Aprendizaje Estudiantil


48

Resultados: ítem 10

Oficina de Evaluación del Aprendizaje Estudiantil


49

Resultados: ítem 12

Oficina de Evaluación del Aprendizaje Estudiantil


50

Resultados: ítem 13

Oficina de Evaluación del Aprendizaje Estudiantil


51

Resultados: ítem 14

Oficina de Evaluación del Aprendizaje Estudiantil


52

Resultados: ítem 15

Oficina de Evaluación del Aprendizaje Estudiantil


53

Resultados: ítem 16

Oficina de Evaluación del Aprendizaje Estudiantil


54

Resultados: ítem 19

Oficina de Evaluación del Aprendizaje Estudiantil


55

Resultados: ítem 21

Oficina de Evaluación del Aprendizaje Estudiantil


56

Resultados: ítem 22

Oficina de Evaluación del Aprendizaje Estudiantil


57

Áreas de fortaleza o Necesidad


 Áreade fortaleza: Competencias específicas del área
de Evaluación
 Cuatro ítems (19, 22, 17 y 7) con índices de dificultad entre 0.72
y 0.79, con índices de discriminación entre 0.4 y 0.26.

 Áreade necesidad: Competencias específicas del


área de Cómputos
 Cinco ítems (4, 12, 8, 13, 9 y 21) con índice de dificultad entre
0.26 y 0.49, pero con índices de discriminación entre 0.34 y 0.51.

 Losresultados de los ítems de área de representación


se distribuyen equitativamente (2) por clasificación
(fortaleza, alguna dificultad, necesidad).
Oficina de Evaluación del Aprendizaje Estudiantil
58

Resumen
Dificultad de los ítems
Porcentaje de estudiantes
Delta Dificultad Cantidad de ítems
que responden
(expertos) del ítem en la prueba
correctamente
6-8 Muy fácil 95-90 0
9-11 Fácil 85-70 8
12-14 Mediana 60-40 9
15-19 Difícil 30-5 5
Discriminación de los ítems
Cantidad de ítems en la
Índice Discriminación
prueba
≥.40 Muy buena 15
.39-30 Discrimina bien 2
.29-20 Puede revisarse 3 Cotejar
dificultad,
≤.19 No debe usarse 2
instrucciones
No discrimina y
Negativo 0
debe eliminarse
Índice de dificultad de la prueba: .54 (delta equivalente 12.5) - Mediana
dificultad
Oficina de Evaluación del Aprendizaje Estudiantil
Una alta confiabilidad, por si sola, no
garantiza “buenos” resultados
científicos. Pero no puede haber
“buenos” resultados científicos sin
instrumentos confiables.
Carlos Ruiz Bolívar (2003)

You might also like