Construcción y Evaluación de la Calidad de los Instrumentos de Evaluación

José Muñiz Universidad de Oviedo

Fines de la ANECA Contribuir a la medición del rendimiento del servicio público de la Educación Superior conforme a procedimientos objetivos y procesos transparentes

Objetivos de esta Conferencia
• Subrayar la necesidad de que las evaluaciones sean rigurosas desde un punto de vista técnico, para que sean objetivas • Ofrecer una panorámica de la tecnología que la Psicometría actual pone en manos de los evaluadores: no se parte de cero

Niveles de Evaluación
• Personas (Profesores, Investigadores) • Instituciones (Universidades, Facultades, Departamentos) • Programas (Doctorado, Ramón y Cajal) • Docencia • Satisfacción Egresados • ........

Pasos de una evaluación
1. Definir con precisión el constructo a medir 2. Elaborar indicadores
Operativos Empíricos Cuantitativos mejor que cualitativos

• • •

Recoger datos de forma rigurosa Análisis adecuados de los datos Feedback a partes implicadas

Requisitos de la Evaluación
• • • • • • • • Resultados comparables Factible Realista Aceptable para las partes implicadas Reforzante Flexible Potenciar mejoras institucionales Orientada a clientes y usuarios

Modelo Europeo de Calidad (EFQM)
• • • • • • • • Liderazgo Planificación y estrategia Gestión del personal Recursos Procesos Satisfacción de las partes implicadas Impacto en la sociedad Resultados

Propiedades métricas de los indicadores
• Conexión explícita con el constructo medido
• Modelo (Tecnología Multivariada)

• Fiabilidad
• Equivalencia • Estabilidad • Consistencia Interna

• Validez
• Contenidos • Predicción • Constructo

Tres ejemplos (sencillos) de Evaluación
• Evaluación de la Docencia • Satisfacción de los egresados • Proyectos de Investigación

Evaluación de la Docencia
• Instrumentos de evaluación
• Escalas Likert a estudiantes • Otros: pares, material pedagógico...

• Aplicación
• Anonimato • En la clase

• Manejo de resultados
• Implicaciones económicas y profesionales

EGRESADOS
• Importancia de sus opiniones
• Conexión Sociedad • Perspectiva amplia • Fidelización

• Metodología
• • • • Encuestas Antiguos alumnos Entrevistas Estudios de opinión

Cualidades Personales más valoradas por las empresas
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Responsabilidad Iniciativa Capacidad Intelectual Tenacidad Creatividad Ética Lealtad Seguridad en sí mismo Discreción Sinceridad

Habilidades Sociales más valoradas por las empresas
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Trabajo en equipo Adaptación Ganas de aprender Superación Disponibilidad Organización Capacidad de comunicación Integración Capacidad para las relaciones sociales Dotes de mando

Evaluación de Proyectos: Criterios ANEP
• • • • • • • • Experiencia del Equipo (0-10) Interés de los Objetivos (0-10) Viabilidad de la Propuesta (0-10) Coordinación (no numérico) Plan de Difusión (no numérico) Presupuesto (no numérico) Capacidad formativa del grupo (0-2) Valoración Final (1-6)

Ranking de Universidades: Psicología y Educación • • • • • • • Autónoma de Madrid Islas Baleares Complutense de Madrid UNED Almería Autónoma de Barcelona Oviedo y Valencia 3,57 3,36 3,15 3,09 3,08 3,06 3,00

Nuevos desarrollos en Tecnología de la Evaluación
1. 2. 3. 4. 5. 6. Modelos de medida Tecnología utilizada Items Fiabilidad Validez Uso de instrumentos de medida

1. Modelos de medida
• De la Teoría Clásica de los Tests a la Teoría de Respuesta a los Ítems (TRI)
• Enfoques complementarios

• Teoría de la Generalizabilidad
• Estimación de las fuentes de error

• Tests Referidos al Criterio
• Puntos de corte en Certificación/Acreditación • Nuevas técnicas para la fiabilidad

Aportaciones centrales de la TRI
• Invarianza de los parámetros de los ítems • Invarianza de las puntuaciones • Fiabilidad para cada nivel de la escala: Función de Información • Medición adaptativa • Avances tecnológicos en distintas áreas psicométricas: DIF, Equiparación, Generación de ítems...

Cuestiones abiertas
• Bondad de ajuste • Selección de los modelos • Estimación de parámetros con muestras pequeñas • Selección y generación automática de ítems • DIF • Nuevos modelos • Software fácil de usar

2. Tecnología: del papel y lápiz a los ordenadores • Tests Adaptativos Informatizados (TAIs) – Concepto
• Ajustar la prueba al sujeto

– Ventajas
• Rapidez • Satisfacción • Precisión

Retos futuros
• Nuevos diseños de las pruebas para:
– – – – Acortar el tiempo de los tests Incorporar nuevos formatos de ítems Mejorar la precisión Satisfacer y motivar a las personas evaluadas

3. Items
• Grandes avances en su elaboración • Bancos de Ítems • Influencia de la tecnología informática
– Items Multimedia – Nuevos formatos (más de 50 descritos)

Dimensiones de Innovación

• • • • •

Formato Tipo de respuesta Medios técnicos incluidos (audio, video...) Nivel de interactividad Métodos de puntuación

Precaución con los nuevos formatos de los Ítems
• Ser muy claro acerca de los constructos medidos • Evitar sesgos • Aportar datos sobre la fiabilidad y validez • Prestar atención a los aspectos prácticos • Controlar posibles entrenamientos

4. Fiabilidad

• Función de Información: fiabilidad para cada nivel de medición • Teoría de la Generalizabilidad • Tests Referidos al Criterio

5. Validez
• Conceptualización comnprensiva y unitaria, más allá de la tríada: Contenido, Predictiva, Constructo • Validación: caso particular de la comprobación de hipótesis científicas • Validez Consecuencial

6. Uso de instrumentos de medida
¿Por qué se usan inadecuadamente los instrumentos de evaluación? A. Intento deliberado de de distorsionar la verdad B. Negligencia C. Conocimiento insuficiente acerca de ellos

Estrategias para mejorar el uso • Enfoque restrictivo
– Clasificación según su especialización – Certificación (Pruebas, Usuarios) – Acceso restringido

• Enfoque Informativo
– Diseminar información técnica sobre ellos – Directrices y Estándares

Tendencias futuras
Impacto de las Nuevas Tecnologías • • • • • Diseño de las pruebas Generación de los ítems Presentación de los ítems Puntuación de las pruebas Evaluación a distancia

Temas calientes para la próxima década
• • • • • • • • Tests computerizados Nuevos tipos de ítems (multimedia) Evaluación auténtica Validez Consecuencial Bancos de Ítems Construcción automática de ítems Evaluación global: Intercultural Evaluación automática de personas

Temas Clásicos que no caducan
• • • • • • • • Teoría de la medición Tecnología estadística: SEM, Multivariado... Tecnología de la elaboración de ítems Funcionamiento Diferencial de los Ítems Equiparación Dimensionalidad Estimación de parámetros Validación

Impresión global...

Vivimos tiempos excitantes, con una impresión muy positiva de la ebullición y cambios que están teniendo lugar en el ámbito de la Tecnología de la Evaluación. Tener en cuenta estos avances a la hora de diseñar sistemas de evaluación .

Evaluación cronológica de una vida media de 75 años
• 25 años durmiendo • 25 años trabajandoestudiando • 5 viendo la TVE • 3 comiendo • 2 fumando (sólo fumadores) • 1 esperando semáforos 6 meses cepillándose los dientes • 6 meses duchándose • 6 meses tendiendo la ropa
• • • • • • 5 meses sacando la basura 4 meses murmurando 3 meses llorando 6 meses en la peluquería 6 meses maquillándose y/o afeitándose .........

Muchas gracias por su atención

José Muñiz E-mail: jmuniz@uniovi.es

Referencias
• • • • • • • Hambleton, R. K. (2004). Theory, methods, and practices in testing for the 21st century. Psicothema. Irvine, S.H. & Kyllonen, P.C. (Eds.) (2002). Item generation for test development. Hillsdale, NJ: LEA. Mills, C.N., Potenza, M.T., Fremer, J.J., & Ward, W.C. (Eds.) (2002). Computer-based testing: Building the foundation for future assessments. Hillsdale, NJ: LEA. Parshall, C.G., Spray, J.A., Kalohn, J.C., & Davey, T. (2002). Practical considerations in computer-based testing. New York: Springer. Skaggs, G. (2004). Software use in psychometric research. Educational Measurement: Issues and Practice, 23(1), 28-33. Van der Linden, W.J. & Hambleton, R.K. (Eds.) (1997). Handbook of modern item response theory. New York: Springer Verlag. Zenisky, A.L. & Sireci, S.G. (2002). Technological innovations in large-scale assessment. Applied Measurement in Education, 15(4), 337362.