You are on page 1of 4

176 Òðóäû ÁÃÒÓ. Ñåðèÿ VI. Ôèçèêî-ìàòåìàòè÷åñêèå íàóêè è èíôîðìàòèêà.

Âûïóñê XVIII

УДК 378.091.33:004.9
Л. С. Мороз, ассистент (БГТУ)
МЕТОДЫ ОПРЕДЕЛЕНИЯ НАДЕЖНОСТИ
И ВАЛИДНОСТИ ТЕСТОВ ДЛЯ КОНТРОЛЯ ЗНАНИЙ
В статье рассмотрены такие основные качественные характеристики тестов, как надежность
и валидность, описаны методы их определения по результатам тестирования. Особое внимание
уделено оценке надежности теста. Представлены результаты расчета коэффициента надежности
теста по формулам Кьюдера – Ричардсона, Спирмена – Брауна, Рюлона с помощью корреляци-
онной матрицы. Описан опыт использования этих методов для определения качества разрабо-
танных автором тестов. Данная статья представляет интерес для специалистов, которые занима-
ются вопросами разработки и стандартизации тестовых измерительных материалов, используе-
мых для контроля знаний студентов.
The article describes the main characteristics of test – reliability and validity; methods of determi-
ning the results of testing. Particular attention is paid to estimation of the reliability of the test. In the ar-
ticle presented the results of the estimation of the reliability of the test by Kyudera – Richardson’s for-
mula, Spearman – Brown’s formula, Ryulona’s formula, with the help of the correlation matrix. The
article describes the experience of using these methods to determine the quality of tests developed by
the author. This article is of interest to professionals engaged in the development and standardization of
test measurement of materials used to monitor students knowledge.
Введение. Тестирование как инструмент точность измерений, а также устойчивость
контроля знаний становится неотъемлемой со- результатов теста к действию посторонних
ставляющей процесса обучения. Несмотря на случайных факторов.
определенные недостатки, оно является единст- Надежность теста тем выше, чем более со-
венным по-настоящему технологичным средст- гласованы результаты одного и того же челове-
вом для измерения уровня знаний, позволяет ка при повторной проверке знаний посредством
реализовать качественный педагогический кон- того же теста или эквивалентной его формы
троль, что необходимо для эффективного управ- (параллельного теста).
ления учебным процессом. Валидность – способность теста получать
По мнению А. Н. Майорова, тест – это ин- результаты, соответствующие поставленной
струмент, состоящий из квалиметрически вы- цели. Валидность теста показывает, насколько
веренной системы тестовых заданий, стандар- хорошо тест делает то, для чего он был создан.
тизованной процедуры проведения и заранее Для оценки надежности тестов используют-
спроектированной технологии обработки и ся следующие методы:
анализа результатов, предназначенный для из- – ретестовый метод;
мерения качества и свойств личности, измене- – метод параллельных форм;
ние которых возможно в процессе системати- – метод расщепления теста.
ческого обучения [1]. Оценка надежности строится на подсчете
Чтобы тест адекватно оценивал знания ис- корреляции между двумя наборами результатов
пытуемого, он должен обладать необходимыми выполнения одного и того же теста или двух
характеристиками. Самые важные из них на- его параллельных форм. Чем выше корреляция,
дежность и валидность. Часто для контроля зна- тем надежнее тест. Хорошим коэффициентом
ний используются тесты, не имеющие данных надежности теста считается тот, когда показа-
качеств, а значит, не совсем точно выполняю- тель колеблется в пределах 0,8 < r < 1.
щие свою функцию, и те, кто использует тесты в Ретестовый метод оценки надежности
своей практике, даже не подозревают о необхо- предполагает двукратное использование од-
димости анализа качества тестов. ного и того же теста в одной группе испы-
Цель настоящей статьи – представить мето- туемых. Он основан на подсчете корреляции
ды, позволяющие определить надежность и ва- индивидуальных баллов испытуемых по ре-
лидность тестов, используемых для контроля зультатам выполнения первого и второго тес-
знаний. Данные методы применялись для оцен- тирования. Данный метод не очень удобен,
ки качества измерительных материалов при так как временной фактор играет большую
проведении итогового контроля знаний студен- роль: временной промежуток не может быть
тов I курса по дисциплине «Информатика и большим – изменится уровень учебных дос-
компьютерная графика». тижений, но и не должен быть слишком ко-
Основная часть. Надежность – один из ротким – испытуемые могут помнить задания
критериев качества теста, обеспечивающий теста и ответы на них.
Ë. Ñ. Ìîðîç 177

Метод параллельных форм предполагает персия индивидуальных баллов, рассчитываемая


двукратное тестирование одной и той же из соотношения
группы испытуемых тестами, которые иден- 2
тичны по содержанию, структуре, включают ⎛ n ⎞
задания, равные по трудности, дифференци- n ⎜ ∑ xi ⎟
рующей способности, т. е. параллельными ∑ xi − ⎝ i =1n ⎠
2

формами теста. Главная трудность примене- S x2 = i =1 ,


ния этого метода в том, что разработчику на- n −1
до создать новый тест, тождественный пер- где n – число студентов; xi – индивидуальный
вому, и доказать идентичность, а это очень балл i-го студента.
трудоемкая процедура. Еще один способ оценки надежности расще-
Метод расщепления теста удобен в практи- пленного теста основан на формуле Рюлона [3]:
ческом применении, так как ограничивается
однократным тестированием. Он основан на S d2
r = 1− , (4)
допущении параллельности двух половин теста S y2
и предполагает деление результатов тестирова-
ния на две части: данные по нечетным задани- где S y2 – дисперсия суммарных баллов резуль-
ям теста (Х) и по четным (Y).
Коэффициент надежности вычисляется как тата; Sd2 – дисперсия разностей между резуль-
коэффициент корреляции Пирсона по формуле татами каждого испытуемого по обеим полови-
n n нам теста. Она вычисляется по формуле
n ∑ xi ∑ yi ⎛ n

2

∑ xi yi − i =1 n
i =1
n
⎜ ∑ ( xi − y i ) ⎟
r= i =1
2 2
, (1) ∑ ⎜⎜ (xi − yi ) − i=1 n ⎟⎟
⎛ n ⎞ ⎛ n ⎞ i =1
⎜ ⎟
n ⎜ ∑ xi ⎟ n ⎜ ∑ yi ⎟ ⎝ ⎠ ,
∑ xi − ⎝ i =1n ⎠ ∑ yi − ⎝ i =1n ⎠
2
2 2 Sd =
n −1
i =1 i =1
где xi – индивидуальный балл i-го студента при
где xi – индивидуальный балл i-го студента
ответе на тест по нечетным заданиям; yi – инди-
при ответе на тест по нечетным заданиям;
видуальный балл i-го студента при ответе на тест
yi – индивидуальный балл i-го студента при
по четным заданиям; n – число студентов; (xi – yi) –
ответе на тест по четным заданиям; n – чис-
разность сумм баллов в строках с номером i суб-
ло студентов.
матриц с нечетными и четными заданиями [3].
Поскольку подсчет надежности ведется по
Оценить надежность теста можно и с по-
расщепленному тесту, который в 2 раза короче,
мощью следующей формулы:
то оценка надежности корректируется по фор-
муле Спирмена – Брауна [2]: mR
r= . (5)
2rрасщ 1 + ( m − 1) R
r= . (2)
1 + rрасщ Здесь m – количество заданий в тесте; R –
В случае, когда выполнение задания оцени- средний коэффициент корреляции заданий тес-
вается дихотомически (1 балл – правильно; та между собой [4].
0 баллов – неправильно), можно использовать Для определения валидности требуется
способ оценки надежности с применением фор- независимый внешний критерий, т. е. оценка
мулы Кьюдера – Ричардсона [3]. эксперта (преподавателя). За коэффициент
Коэффициент надежности находится по валидности принимают коэффициент корре-
следующей формуле: ляции результатов тестовых измерений и
критерия. Коэффициент валидности теста
⎛ m
⎞ может быть рассчитан по формуле
⎜ ∑ pjqj ⎟
m ⎜ j =1 ⎟,
n
r=
m −1⎜
1−
S x2 ⎟
(3) ∑ (Yi yi )
i =1
⎜ ⎟ −Yy
⎝ ⎠ n n
V= , (6)
где m – число заданий в тесте; pj – доля правиль- SY S y n −1
ных ответов на j-е задание теста; qj – доля невер- где Y1, Y2, …, Yn – экспертные оценки знаний
ных ответов на j-е задание, (q j = 1 − p j ); S x2 – дис- испытуемых; Y – среднее арифметическое
178 Òðóäû ÁÃÒÓ. Ñåðèÿ VI. Ôèçèêî-ìàòåìàòè÷åñêèå íàóêè è èíôîðìàòèêà. Âûïóñê XVIII

экспертных оценок; SY – стандартное откло- была разбита на две части: первую половину
нение этих оценок [4]. матрицы составили ответы по нечетным зада-
Валидность проверяется сравнением ре- ниям, вторую – по четным. Были подсчитаны
зультатов тестирования испытуемого с экс- индивидуальные баллы студентов по нечет-
пертными – независимыми от этих результатов ным заданиям xi и индивидуальные баллы по
оценками уровня усвоения им материала дру- четным заданиям yi, а также их разность в со-
гими методами: устным опросом, традицион- ответствующих строках. Подсчитан коэффи-
ной контрольной работой, экзаменом или со- циент корреляции Пирсона для двух половин
поставлением этих результатов с оценками те- теста по формуле (1), и полученное значение
кущей успеваемости [2]. коэффициента надежности теста скорректи-
Для итогового контроля знаний 30 студен- ровано по формуле Спирмена – Брауна (2).
тов был разработан тест, содержащий 22 тесто- Чтобы использовать формулу Рюлона (4), вы-
вых задания. Математико-статистическая обра- числена дисперсия разностей между резуль-
ботка результатов тестирования осуществля- татами каждого испытуемого по обеим поло-
лась с помощью пакета MS EXCEL, применя- винам теста.
лась дихотомическая шкала оценивания. По И, наконец, надежность теста была опреде-
результатам тестирования была сформирована лена по формуле (5) с помощью корреляцион-
матрица размерностью 30×22, состоящая из 0 ной матрицы тестовых заданий, фрагмент кото-
(неверный ответ) и 1 (верный ответ). Далее для рой приведен в табл. 2. Корреляционная матри-
расчета надежности теста потребовались сле- ца представляет собой квадратную матрицу
дующие действия: размерности 22×22, симметричную относи-
1) подсчитать индивидуальные баллы испы- тельно главной диагонали. В ячейках таблицы
туемых (сумма баллов по строкам) Xi; содержатся коэффициенты корреляции тесто-
2) найти количество правильных ответов вых заданий между собой, вычисленные по
на каждое задание (сумма баллов по столб- формуле (1). По таблице был определен сред-
цам) Rj; ний коэффициент корреляций для каждого за-
3) сначала упорядочить строки матрицы по дания, затем средний коэффициент корреляций
убыванию величины Xi, затем столбцы – по по всему тесту R .
убыванию величины Rj;
4) подсчитать количество неправильных от- Таблица 2
ветов на каждое задание Wj ( q j = 1 − p j ); долю Корреляционная матрица
правильных ответов pj и долю неправильных Порядко- Значения коэффициентов корреляции
ответов на каждое задание qj; вый номер
5) рассчитать коэффициент надежности по 1 2 3 4 5
студента
формуле (2).
Фрагмент матрицы представлен в табл. 1. 1 1,000 0,024 0,024 0,279 0,398
2 0,024 1,000 0,148 0,373 –0,146
Таблица 1 3 0,024 0,148 1,000 0,053 0,167
Результаты тестирования 4 0,279 0,373 0,053 1,000 –0,098
Порядко- Ответы на вопросы 5 0,398 –0,146 0,167 –0,098 1,000
вый номер Xi
1 2 3 4 5 Результаты расчета коэффициента надеж-
студента
1 1 1 1 1 1 5
ности теста с помощью разных методов пред-
ставлены в табл. 3.
2 1 1 1 1 0 4
3 1 0 0 1 1 3 Таблица 3
4 1 1 0 0 0 2 Коэффициенты надежности теста
5 0 1 1 0 0 2 Используемая формула Значение
6 1 0 0 0 0 1 По формуле Кьюдера – Ричардсона 0,7023
Rj 5 4 3 3 2 По формуле Спирмена – Брауна 0,7544
Wj 1 2 3 3 4 По формуле Рюлона 0,7538
pj 0,833 0,667 0,5 0,5 0,333 С помощью корреляционной матрицы 0,7238
qj 0,167 0,333 0,5 0,5 0,667
Нижним пределом значения коэффициента
Далее надежность теста рассчитывалась надежности принято считать показатель 0,7.
по формулам Спирмена – Брауна и Рюлона. Если значение коэффициента надежности ни-
Бинарная матрица результатов тестирования же, то надежность теста считается неудовле-
Ë. Ñ. Ìîðîç 179

творительной, так как возникает большая по- 2. Крисилов, В. А. Методика анализа пе-
грешность измерений. дагогических тестов по результатам тести-
Заключение. Анализ результатов свиде- рования / В. А. Крисилов, Т. В. Онищенко,
тельствует о том, что надежность разработанно- Н. В. Русинова [Электронный ресурс]. –
го теста является минимально допустимой, не- Режим доступа: http://www.nbuv.gov.ua/Por-
которые тестовые задания необходимо заменить. tal/natural/Popu/2007_2/5-3.pdf. – Дата досту-
Качество диагностических материалов яв- па: 06.01.2010.
ляется одним из ключевых моментов контроля 3. Материалы к семинару по обработке ре-
знаний. Во избежание неадекватной оценки зультатов тестирования [Электронный ре-
знаний необходимо использовать только ста- сурс]. – Владивосток, 2001. – Режим доступа:
тистически обоснованные тестовые материа- http://kpmit.wl.dvgu.ru/library/aschepkova_test
лы, обладающие достаточным уровнем надеж- ing17102001/index.phtml. – Дата доступа:
ности и валидности. 12.01.2010.
4. Ким, В. С. Тестирование учебных дости-
Литература
жений: монография / В. С. Ким. – Уссурийск:
1. Майоров, А. Н. Теория и практика создания Изд-во УГПИ, 2007. – 214 с.
тестов для системы образования / А. Н. Майоров. –
М.: Интеллект центр, 2001. – 296 с. Поступила в редакцию 31.03.2010

You might also like