You are on page 1of 9

T¹p chÝ y - d−îc häc qu©n sù sè 4-2021

PHÂN TÍCH, ĐÁNH GIÁ CÂU HỎI VÀ ĐỀ THI TRẮC NGHIỆM


KHÁCH QUAN HỌC PHẦN BỆNH HỌC NHI KHOA BẰNG
PHẦN MỀM CONQUEST TẠI HỌC VIỆN QUÂN Y

Hoàng Anh Tuấn1, Đặng Văn Cao1, Nguyễn Việt Hưng1

TÓM TẮT
Mục đích: Đánh giá chất lượng của câu hỏi và đề thi trắc nghiệm bằng lý thuyết đáp ứng
câu hỏi (IRT). Đối tượng và phương pháp: Câu hỏi thi trắc nghiệm và đề thi trắc nghiệm học
phần Bệnh học Nhi khoa được xử lý kết quả bằng phần mềm Conquest để đưa ra các thông số
của câu hỏi, đề thi trắc nghiệm. Kết quả: Hệ số tin cậy (Sr - Separation reliability) = 0,905. Câu
hỏi trắc nghiệm được phân thành 3 nhóm: Câu hỏi tốt, câu hỏi chưa tốt cần chỉnh sửa, câu hỏi
cần loại bỏ). Độ khó của câu hỏi được chia thành 3 nhóm: Câu hỏi có độ khó trung bình, câu
hỏi dễ, câu hỏi quá dễ so với năng lực của thí sinh. Kết luận: Câu hỏi thi trắc nghiệm khách
quan có thông số phù hợp, đề thi phù hợp với mô hình Rash, độ tin cậy cao, đánh giá đúng nội
dung, dễ so với năng lực của thí sinh.
* Từ khóa: Trắc nghiệm; Lý thuyết khảo thí cổ điển; Thuyết đáp ứng câu hỏi; Phần mềm Conquest.

Analysis and Evaluation of Questions and Objective Test of


Pediatric Disease Software by Conquest Software at Vietnam
Military Medical University
Summary
Objectives: To evaluate the quality of questions and on multiple-choice questions using
question-response theory (IRT). Subjects and methods: Multiple-choice questions and
multiple-choice questions in the Pediatric Pathology section were processed using Conquest
software to provide the parameters of the questions and multiple-choice questions. Results:
Separation reliability = 0.905. Multiple choice questions were divided into 3 groups: Good
questions, bad questions that need editing, and questions that need to be eliminated. The
difficulty of the question was divided into 3 groups: Medium difficulty questions, easy questions,
and too easy questions compared to the competitor's ability. Conclusion: Objective multiple-
choice questions with appropriate parameters, exam questions suitable for the Rash model,
high reliability, correct content assessment, easy compared to the candidate's capacity.
* Keywords: Testing; Classic test theory; Theory of response to the question; Conquest software.

1
Phòng Khoa học Quân sự, Học viện Quân y
Người phản hồi: Hoàng Anh Tuấn (hoanganhtuan@vmmu.edu.vn)
Ngày nhận bài: 20/2/2021
Ngày bài báo được đăng: 28/4/2021

134
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021

ĐẶT VẤN ĐỀ năng của nó. Chúng tôi nghiên cứu đề tài
này nhằm: Đánh giá chất lượng câu hỏi
Kiểm tra đánh giá là một khâu rất quan
trắc nghiệm khách quan và đề thi học
trọng trong quá trình đổi mới đào tạo.
phần Bệnh học Nhi khoa.
Kiểm tra đánh giá khách quan, nghiêm
túc, công bằng, đúng cách sẽ tạo động
ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP
lực cho người học, khích lệ người học
NGHIÊN CỨU
trên con đường chiếm lĩnh tri thức. Mặt
khác, thông qua hoạt động kiểm tra đánh 1. Đối tượng nghiên cứu
giá giúp giảng viên và các nhà quản lý đổi Dữ liệu thu thập từ kết quả thi của 86
mới về phương pháp giảng dạy, phương thí sinh với đề thi 50 câu hỏi trắc nghiệm
pháp quản lý để hỗ trợ người học đạt khách quan môn Bệnh học Nhi khoa tại
được các mục tiêu trong học tập. Những Học viện Quân y năm 2021. Ngân hàng
năm gần đây, tại Học viện Quân y, bên câu hỏi thi trắc nghiệm sau khi được biên
cạnh việc đổi mới chương trình và soạn đảm bảo đáp ứng được nội dung
phương pháp giảng dạy, hoạt động đổi yêu cầu của chương trình đào tạo.
mới phương pháp kiểm tra đánh giá cũng
2. Phương pháp nghiên cứu
được quan tâm, chú trọng bằng việc thay
đổi quan điểm tiếp cận về lý luận kiểm tra Sử dụng phần mềm Conquest xử lý
đánh giá, thay đổi phương pháp kiểm tra kết quả thi được trích xuất từ phần mềm
đánh giá phù hợp với yêu cầu của hoạt thi trắc nghiệm sau khi thi xong.
động giảng dạy. Hình thức thi trắc nghiệm Chương trình Conquest cho ra các
khách quan là phương pháp đánh giá có thông số về mức độ phù hợp của câu hỏi
nhiều ưu điểm được sử dụng trong nhiều với mô hình Rash, năng lực thí sinh với
kỳ thi quan trọng như: Thi tuyển sinh Đại độ khó của câu hỏi, độ tin cậy của đề thi
học, thi tốt nghiệp Trung học phổ thông và các đặc trưng của câu hỏi đó là độ
Quốc gia… và ngày càng được áp dụng khó, độ phân biệt, hệ số tương quan của
với nhiều môn thi tại Học viện Quân y câu hỏi với toàn bài, độ tin cậy và sai số.
trong những năm gần đây. Tuy nhiên,
* Các thông số đánh giá câu hỏi và đề
hiện nay các câu hỏi trắc nghiệm khách
thi trắc nghiệm:
quan và đề thi trắc nghiệm được sử dụng
tại Học viện Quân y chưa được đánh giá Sau khi câu hỏi trắc nghiệm khách
một cách khoa học và khách quan. Do đó, quan được nghiệm thu về nội dung, cần
việc nâng cao chất lượng của câu hỏi trắc định lượng các tham số của câu hỏi bằng
nghiệm, cũng như đánh giá mức độ phù kết quả trả lời của thí sinh với câu hỏi đó.
hợp của đề thi với năng lực của sinh viên Theo lý thuyết khảo thí cổ điển, câu hỏi
là rất quan trọng để hoạt động kiểm tra cần đạt được các giá trị về độ khó, độ
đánh giá thực hiện được vai trò và chức phân biệt. Các giá trị này được tính toán

135
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021

dựa trên kết quả về thống kê mà không cậy của đề trắc nghiệm có thể được
xem xét nội dung thuộc vào lĩnh vực nào. đánh giá bằng nhiều phương pháp như:
- Độ khó của câu hỏi (p): Là tỷ lệ phần Trắc nghiệm - trắc nghiệm lại; đề thi trắc
trăm thí sinh trả lời đúng câu hỏi/tổng số nghiệm tương đương; phân đôi đề thi trắc
thí sinh tham gia trả lời. Giá trị của p nằm nghiệm; phương pháp Kuder-Richardson;
trong khoảng 0,1, p càng lớn thì câu hỏi hệ số Cronbach alpha: là biểu thức dùng
càng dễ và ngược lại. Giá trị của có thể ước lượng độ tin cậy của một đề kiểm tra
chấp nhận được nằm trong khoảng tổng thể (có thể gồm nhiều đề trắc
0,25 - 0,75; câu hỏi có p < 0,25 là quá nghiệm con nhị phân hoặc đa phân, được
khó, câu hỏi có p > 0,75 là quá dễ với thí sử dụng nhiều trong tâm lý và giáo dục).
sinh (Lord [2]). Về lý thuyết, giá trị độ tin cậy nằm trong
khoảng 0 - 1. Độ tin cậy cao nghĩa là các
- Độ phân biệt của câu hỏi trắc nghiệm
câu hỏi có độ gắn kết với nhau. Thí sinh
hoặc đề thi trắc nghiệm: Là khả năng
trả lời được câu hỏi này có xu hướng trả
phân biệt được năng lực của thí sinh:
lời được các câu hỏi cùng nhóm. Đề thi
giỏi, khá, trung bình, kém… Độ phân biệt
có độ tin cậy > 0,8 là rất tốt và có thể sử
của câu hỏi liên quan đến độ khó của câu
dụng cho đề thi trên lớp; độ tin cậy từ
hỏi. Nếu một câu hỏi quá khó hay quá dễ
0,7 - 0,8 là tốt, tuy nhiên cần chỉnh sửa
thì phản ứng của thí sinh có năng lực
một số câu hỏi; độ tin cậy < 0,7 là tương
khác nhau là giống nhau: Hoặc sai hết
đối thấp (Brenan [4]).
hoặc đúng hết, do đó không phân biệt
được năng lực của thí sinh. Vì vậy, 1 câu - Độ giá trị của đề thi trắc nghiệm: Là
hỏi có khả năng phân biệt tốt cần có độ yêu cầu quan trọng nhất vì nó phản ánh
khó ở mức trung bình và 1 đề thi trắc đúng giá trị nội dung cần đo, biểu thị mức
độ đạt được mục tiêu đề ra cho phép đo
nghiệm tốt cần có nhiều câu hỏi có mức
nhờ đề trắc nghiệm. Để độ giá trị của đề
độ trung bình. Khi đó, điểm số của thí
trắc nghiệm cao, cần xác định tỉ mỉ mục
sinh có phổ trải rộng. Để xác định độ
tiêu cần đo và bám sát mục tiêu đó trong
phân biệt của câu hỏi, tính hệ số tương
quá trình xây dựng ngân hàng câu hỏi.
quan giữa điểm của câu hỏi với điểm của
Độ giá trị và độ tin cậy của đề thi trắc
cả bài thi trắc nghiệm (hệ số R-pearson).
nghiệm có liên quan với nhau. Đề thi có
Thông thường, giá trị Rp > 0,2 (Lord [2]).
độ tin cậy thấp không thể có giá trị.
- Độ tin cậy: Là giá trị dùng để đánh Nhưng ngược lại, độ tin cậy cao chưa
giá chất lượng của đề thi trắc nghiệm, chắc có giá trị vì có thể không phản ánh
là đại lượng biểu thị mức độ chính xác đúng đối tượng cần đo (Samuel Messick
của phép đo nhờ đề trắc nghiệm. Độ tin [7]).

136
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021

* Lý thuyết khảo thí hiện đại và phần số: sử dụng cả 3 tham số là độ khó, độ
mềm Conquest: phân biệt và độ phán đoán của thí sinh.
Thuyết đáp ứng câu hỏi (Item Response Phần mềm Conquest được xây dựng
Theory), còn gọi là lý thuyết khảo thí hiện dựa trên lý thuyết IRT, được sử dụng để
đại, được ra đời vào thế kỷ XX và phát đánh giá và phân tích câu hỏi, cho phép
triển mạnh mẽ cho đến nay. Lý thuyết khảo sát thuộc tính về đánh giá năng lực
khảo thí hiện đại đã khắc phục được một và đánh giá truyền thống. Phần mềm
số nhược điểm của lý thuyết khảo thí cổ cung cấp cho người sử dụng các thông
điển là không tách biệt được các đặc tin: Thông số cơ bản của việc phân tích
trưng của thí sinh độc lập (năng lực) với câu hỏi theo mô hình IRT; thông số độ
đặc trưng của đề trắc nghiệm; thuyết khó, độ phân biệt theo lý thuyết cổ điển;
khảo thí cổ điển coi sai số tiêu chuẩn của các tham số liên quan đến độ khó, độ
phép đo năng lực giữa các thí sinh là như phân biệt, độ phỏng đoán theo lý thuyết
nhau, quan tâm mức độ đáp ứng của thí IRT, độ tin cậy của đề thi, số lượng thí
sinh lựa chọn từng phương án trả lời;
sinh với đề thi mà không chú trọng mức
phân bố độ khó của câu hỏi với năng lực
độ đáp ứng của thí sinh với các câu hỏi
của thí sinh; đường cong đặc trưng của
riêng biệt (Lâm Quang Thiệp [1]).
câu hỏi; trường hợp bất thường của
Lý thuyết ứng đáp câu hỏi là mô hình
người trả lời.
hóa mối quan hệ giữa biến không thể
quan sát là năng lực của thí sinh và xác
KẾT QUẢ NGHIÊN CỨU
suất mà tại đó thí sinh trả lời đúng 1 câu
hỏi (Harris [5]). Hiểu đơn giản hơn, theo Đề thi gồm 50 câu hỏi trắc nghiệm
Wu và CS [3], lý thuyết ứng đáp câu hỏi khách quan ở học phần Bệnh học Nhi
là sử dụng mô hình toán học để dự khoa với thời gian 60 phút của 85 sinh
viên y khoa năm thứ 5. Đề thi nhằm đánh
đoán xác suất trả lời đúng 1 câu hỏi, dựa
giá năng lực nhận thức ở 3 mức độ: Nhớ
trên chỉ số về năng lực của người trả lời
(25 câu), thông hiểu (15 câu) và vận dụng
và độ khó của câu hỏi. Câu hỏi trắc
(10 câu).
nghiệm được đặc trưng bởi 3 thông số là:
Độ khó, độ phân biệt và độ phán đoán 1. Mức độ phù hợp với mô hình IRT
(đoán mò của thí sinh). Tương ứng các Tiến hành phân tích kết quả trong file
thông số đó, các mô hình đáp ứng được SHW cho thấy, các câu hỏi trong bài kiểm
đưa ra bao gồm: Mô hình đáp ứng 1 tra có giá trị Unweighted fit nằm trong giới
thông số (mô hình Rash): chỉ sử dụng 1 hạn 0,7 - 1,30 và chỉ số của Weighted
tham số là độ khó của câu hỏi; mô hình 2 MNSQ của các câu hỏi đều xấp xỉ 1 cho
tham số: sử dụng cả 2 biến là độ khó và thấy dữ liệu dùng để phân tích phù hợp
độ phân biệt của câu hỏi; mô hình 3 tham với mô hình IRT.

137
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021

Bảng 1: Mức độ phù hợp của câu hỏi với mô hình IRT.

Cả 50 câu hỏi trong đề thi trắc nghiệm hoàn toàn phù hợp, đánh giá đúng nội dung
cần đánh giá. Bài thi trắc nghiệm có độ tin cậy cao với hệ số tin cậy Sr = 0,905.
2. Các đặc tính của câu hỏi
Câu hỏi trắc nghiệm khách quan tốt là câu hỏi đảm bảo chuẩn về nội dung, các
tham số của câu hỏi như độ khó, độ phân biệt, các phương án nhiễu đều hợp lý. Câu
hỏi không phù hợp với mô hình, quá khó, quá dễ, phương án nhiễu không hiệu quả
cần loại bỏ hoặc điều chỉnh cho phù hợp.
- Nhóm câu hỏi tốt (44, 33, 29, 9, 5, 4): Là câu hỏi có độ khó phù hợp, phương án
nhiễu có giá trị. Ví dụ phân tích câu hỏi số 9:

138
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021

Hình 2: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 9.

Câu hỏi có độ khó theo lý thuyết khảo thí cổ điển là 0,65, nằm trong giới hạn
(0,25 -0,75), có 65,88% thí sinh trả lời đúng kết quả. Độ phân biệt của câu hỏi ở mức
khá (Discrimnation = 0,48 > 0,2), tức câu hỏi có khả năng phân biệt được nhóm học
sinh có năng lực cao và nhóm học sinh có năng lực thấp. Chỉ số Pt Bis ở các phương
án nhiễu (A, B, C) đều có giá trị âm, trong khi phương án đúng (D) có giá trị dương và
cao nhất. Chứng tỏ các phương án nhiễu có giá trị trong việc đánh giá năng lực của thí
sinh. So sánh cấu trúc đề thi và ý kiến của chuyên gia về nội dung câu hỏi cho thấy,
câu hỏi số 9 dùng để đánh giá năng lực nhận thức ở mức độ vận dụng, do đó độ khó
bằng 0,65 là khá phù hợp, độ phân biệt 0,48 ở mức chấp nhận được. Phân tích đường
cong đặc trưng của câu hỏi cũng thấy khá phù hợp.
- Nhóm câu hỏi cân nhắc điều chỉnh (40, 27, 26, 25, 21, 17, 10, 8, 42): Là câu hỏi có
độ phân biệt rất thấp, phương án nhiễu không hiệu quả hoặc có độ khó không phù
hợp. Ví dụ phân tích câu hỏi số 27:

139
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021

Hình 3: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 27.

Kết quả phân tích cho thấy câu hỏi có độ khó 0,77, độ phân biệt 0,1. Tham khảo ý
kiến chuyên gia cho thấy câu hỏi được sử dụng để đánh giá năng lực mức thông hiểu.
Do câu hỏi dễ nên không có khả năng phân biệt năng lực của thí sinh. Xem xét giá trị
Pt Bis thấy các đáp án A, D có chỉ số dương, chỉ có 1/85 thí sinh chọn đáp án A.
Chứng tỏ phương án nhiễu không hiệu quả.
- Nhóm câu hỏi chưa tốt (32, 30, 24, 23, 20, 15, 6, 2, 41): Là câu hỏi có độ khó, độ
phân biệt hoặc phương án nhiễu không hợp lý. Ví dụ phân tích câu hỏi số 20:

140
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021

Hình 4: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 20.

Kết quả phân tích cho thấy câu hỏi có độ khó 0,85, độ phân biệt -0,11. Có thể thấy,
câu hỏi không có khả năng phân biệt năng lực giữa các nhóm thí sinh. Điều này cũng
thấy rõ ở chỉ số Pt Bis khi đáp án đúng A có 85,88% sinh viên trả lời đúng nhưng có
giá trị -0,01, nhỏ hơn giá trị của đáp án sai B, C.
3. Phân bố độ khó của câu hỏi với năng lực thí sinh

Hình 5: Thang phân bố độ khó của câu hỏi với năng lực thí sinh.

141
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021

Độ khó của câu hỏi với các mức năng đó giúp giảng viên và các nhà quản lý lựa
lực của thí sinh từ -2 đến +2 theo đơn vị chọn được những câu hỏi tốt, đề xuất
logic. những câu hỏi cần chỉnh sửa và loại bỏ
Câu hỏi trắc nghiệm phân thành 3 những câu hỏi không chất lượng, từ đó
nhóm chính: Nhóm câu hỏi có độ khó nâng cao chất lượng ngân hàng câu hỏi,
trung bình, nhóm câu hỏi dễ và nhóm câu góp phần đánh giá đúng năng lực của
hỏi rất dễ. người học, nâng cao chất lượng đào tạo.
- Nhóm câu hỏi có độ khó trung bình: TÀI LIỆU THAM KHẢO
36, 47, 24, 11, 29, 44, 8, 4, 3, 42, 21, 33, 38.
1. Lâm Quang Thiệp. Đo lường và đánh
- Nhóm câu hỏi dễ: 9, 16, 30, 26, 31, 5, giá hoạt động học tập trong nhà trường. NXB
48, 7, 13, 32, 49, 6, 27, 40, 46, 17, 14, 23, Đại học Sư phạm. Hà Nội 2012.
37, 1, 18, 2, 10, 20, 22, 35. 2. Lord FM. Tài liệu dịch: Psychometrika -
- Nhóm có câu hỏi quá dễ: 43, 19, 34, Mối quan hệ giữa độ tin cậy của câu hỏi đa
28, 41, 50, 12, 15, 25, 39. lựa chọn và phân bổ độ khó của câu hỏi 1952;
18:181-194.
Nhiều thí sinh (16/85 thí sinh) có năng
lực cao hơn câu hỏi có độ khó cao nhất. 3. Wu M, Adams R. Applying the Rasch
Model to Psycho-social Measurement: A practical
Ngược lại, nhiều câu hỏi ở mức độ quá
approach. Tài liệu tập huấn Thiết kế công cụ
dễ khi độ khó của câu hỏi nằm dưới năng
đánh giá do Ngân hàng Thế giới phối hợp với
lực của tất cả thí sinh tham gia kiểm tra ACER tổ chức năm 2007-2008 tại Việt Nam.
(các câu hỏi 43, 28, 41, 50, 12, 15, 25, 39). 2007.
4. Brennan LR. Educational Measurement
KẾT LUẬN
(4th ed.). American Council on Education.
Từ kết quả phân tích các đặc tính của Washington DC 2006.
câu hỏi bằng lý thuyết đáp ứng IRT (mức 5. Harris D. Comparison of 1-, 2-, and
độ phù hợp mô hình, độ tin cậy, độ giá trị, 3-paramater ITR models. A module in NCME
độ phân biệt và phân bố độ khó của câu series of Instructional Topics in Educational
hỏi với năng lực thí sinh, đường cong đặc Measurement. NCME Journal of Educational
trưng câu hỏi) kết hợp ý kiến chuyên gia, Measurement: Issues and Practices 1989; 35-41.
chúng tôi rút ra một số kết luận: 6. Margaret L, Wu Raymond J, Adams
- Đề thi phù hợp với mô hình Rash, có Mark R, Wilson Samuel A Haldane. ACER
Conquest version 2.0: Generalised item response
độ giá trị và độ tin cậy cao. Tuy nhiên, đề
modelling software. ACER Press 2007.
thi còn dễ so với năng lực của thí sinh,
7. Messick S. Validity of psychological
thể hiện qua việc nhiều thí sinh (16/85) có
assessment: Validation of inferences from
năng lực vượt qua mức độ khó của câu
persons’ responses and performances as
hỏi và có 14/50 câu hỏi có mức độ khó
scientific inquiry into score meaning. American
dưới năng lực của tất cả các thí sinh. Psychologist 1995; 50:741-749.
- Phần mềm Conquest hỗ trợ việc 8. Rasch G. Probablistic models for some
phân tích đánh giá chất lượng câu hỏi intelligence and attainment tests. Danish
trắc nghiệm và đề thi trắc nghiệm rất hiệu Institute for Educational Research. Copenhagen,
quả theo lý thuyết khảo thí hiện đại. Qua Denmark 1960.

142

You might also like