You are on page 1of 32

GGGB6333

TEORI DALAM PENGUKURAN&PENILAIAN


FAKULTI PENDIDIKAN
UNIVERSITI KEBANGSAAN MALAYSIA

TEORI UJIAN KLASIKAL (CTT)


VS
TEORI RESPON ITEM (IRT)

NAMA AHLI KUMPULAN:-

WAN AZHAN BIN WAN YAACOB P66540


WAN RAZANA BINTI WAN MUSA P66544
ERNIE NOOR FAIZAH BINTI NAIM P67594
NORHIDAYAH BINTI ADDENAN P69065
JAZAN BIN MOHD NOR P59407
SOALAN 1

a) Bincang dan bandingkan Teori Ujian Klasikal


(CTT) vs Teori Respon Item (IRT).
b) Limitasi CTT
c) Kelebihan IRT berbanding CTT
RANGKA PEMBENTANGAN
BIL TOPIK SUBTOPIK

1 Pengenalan i) Teori CTT


ii) Teori IRT
2 Perbandingan i) Teori CTT
ii) Teori IRT
3 Limitasi i) Teori CTT
ii) Teori IRT
4 Kelebihan i) Teori CTT
ii) Teori IRT
PENGENALAN
TEORI UJIAN KLASIK /
CLASSICAL TEST THEORY (CTT)
Teori pengujian awal diperkenalkan oleh Frederick
Lord berdasarkan Teori Guilford pd 1903:
Kebolehan seseorang stabil sekurang-kurangnya
dalam satu tempoh tertentu
Boleh diukur dengan ujian

Kebolehan diukur berdasarkan jumlah skor yang


diperoleh daripada satu ujian atau bilangan item
yang dijawab betul daripada satu set item ujian
Spearman (1903) dalam Teori Ralat Pengukuran:

X o XT
skor yang kita beri kepada calon dipanggil skor
dicerap (observed score) dan bukan skor sebenar
(true score) yang menggambarkan kebolehan
atau pencapaian sebenar calon
Skor yang dicerap daripada sesuatu ujian

mengandungi ralat (Error)


Ralat di dalam sesuatu skor ujian tidak
bergantung (independent) kepada skor sebenar
TEORI UJIAN KLASIK /
CLASSICAL TEST THEORY
(CTT)
CTT mengguna dua statistik item: kesukaran dan
diskriminasi item - (Sample Dependent)

Kebolehpercayaan (reliability) didefinisikan dalam


bentuk atau ujian selari yang dikatakan
mempunyai kadaran pengukuran yang skoran
sebenar yang sama dan mempunyai ralat varians
yang sama.
TEORI RESPON ITEM / ITEM
RESPONSE THEORY (IRT)
Kebolehan diukur berdasarkan kebarangkalian menjawab
betul satu item dalam ujian

IRT ialah satu model matematik yang menetapkan hubungan


antara prestasi ujian yang boleh dilihat dan trait atau
kebolehan yang tidak nampak

Hubungan antara kuantiti yang nampak dan tak nampak itu


digambarkan oleh suatu fungsi matematik

Bentuk perhubungan menentukan Perbezaan model IRT


Contoh: model ogif normal, model logistik (1,2,3 PL), model
norma-ogive, model graded-response. model nominal
response, model continuous response(Nabeel & Chin, 2013)
TEORI RESPON ITEM / ITEM
RESPONSE THEORY (IRT)
Model IRT menentukan hubungan antara pemboleh ubah
tak ketara (selalunya dikonsepsikan sebagai kebolehan
calon] dan kebarangkalian calon menjawab betul sesuatu
item ujian

Model-model IRT kesemuanya menganggap satu


kebolehan tunggal bagi calon-calon (ditanda sebagai )
tetapi berubah ciri-ciri (parameters) mereka bagi item
berlainan

Model IRT berlainan menentukan perbezaan perhubungan


parameter
Contoh: Model Logistik 1-, 2- atau 3-parameter
MODEL RASCH (1-PARAMETER
LOGISTIC)
Dalam semua model IRT, Model Rasch paling sedikit
ramuannya untuk menentukan apa terjadi apabila seorang
calon mencuba suatu item ujian

Hanya satu parameter kebolehan (), untuk setiap calon


dan satu parameter , kesukaran item (b) untuk setiap item
(Model Satu Parameter) (Bhasah, 2003)

Apabila ditadbirkan, hasil ujian ialah interaksi antara


parameter calon dengan parameter item ujian
MODEL RESPONSE ITEM
Model IRT termudah melibatkan
hanya satu parameter: kesukaran
item

Response x berlaku apabila


calon mencuba untuk
menjawab item

Oleh itu x dilihat sebagai


keputusan interaksi antara
kebolehan calon & kesukaran
item

Kebarangkalian respons ialah


perbezaan antara ukuran
kebolehan calon () dan ukuran
kesukaran item ()
__eL__ Banyak model matematik
L 1 + eL berbeza diguna untuk
-4.0

0.018 menggambarkan IRC
(Bhasah, 2003)
-3.0 0.047
Model logistic diwakili
-2.0 0.119 oleh:
-1.0 0.269
0.0 0.500
+1.0 0.731
+2.0 0.881 Model Ogif Normal
diwakili oleh
+3.0 0.953
x( - )
+4.0 0.982

Jelas, L boleh dinyatakan sebagai fungsi perbezaan kebolehan


calon dan kesukaran item: ( - )
Model IRT 1-PL
Model IRT memberikan kebarangkalian menjawab betul
suatu item atau soalan dalam sebutan interaksi antara
kebolehan calon dengan parameter item
Model IRT paling mudah menggabungkan hanya 2 element:
kebolehan calon (ditanda oleh ) dan satu parameter iaitu
kesukaran item (ditanda oleh b)

pemalar, 1.7 ialah faktor skala

Dikenali sebagai Model Satu Parameter Logistik (1-PL)


Model ini pertama diperkenal oleh Georg Rasch
P() ialah kebarangkalian seseorang calon dengan
proficiency atau kebolehan merespons betul suatu item
beraras kesukaran b
Model IRT 2-PL & 3-PL
Model yang membenarkan parameter a
dan b berubah untuk memerihalkan
item dinamakan model logistik 2
parameter.
Model ini digunakan untuk mewakili
skala sikap (attitude scales) dan
sesetengah ujian pencapaian di mana
tekaan (guessing) dianggap tiada.

Parameter c digunakan untuk


menggambarkan tekaan dalam item
aneka pilihan.
Model 3 parameter biasa digunakan
untuk mewakili ujian kognitif.
PERBANDINGAN
CTT & IRT
PERBANDINGAN CTT & IRT

CTT IRT
Model Linear Tak Linear

PERBANDINGAN CTT
X=T+E

DAN IRT
Lemah (mudah untuk Mempunyai kekuatan (lebih sukar
memenuhi keperluan data) untuk memenuhi keperluan data ujian-
kompleks)
Unidimensi (satu ciri terpendam shj
diukur)
Local independence (apabila ciri
terpendam yang diukur tetap
(constant), maka respons pelajar
terhadap mana-mana pasangan item
Peringkat ujian adalah bebas
Peringkat Itemstatistik)
PERBANDINGAN CTT & IRT
CTT IRT
Ralat Ralat= X-T Ralat= Respon Pemerhatian
pengukuran Respon yang diramalkan
Hubungan Tidak dinyatakan Item Characteristic Curve (ICC
keupayaan item
Statistik item p, r a,b,c (bagi model 3 parameter)
p = indeks kesukaran a = parameter diskriminasi
r = indeks diskriminasi b = parameter kesukaran
(korelasi skor item dengan c = parameter tekaan
skor ujian)
Keupayaan Skor ujian (atau anggaran Keupayaan skor dilaporkan
skor sebenar dilaporkan pada skala - ke +
pada skala skor ujian)
Invarian bagi Tiada parameter item dan Ada- parameter item dan
item dan individu bergantung pd individu adalah bebas @ tidak
individu sampel bergantung pd sampel
Saiz sampel Secara umum di antara 200 Bergantung pada model IRT
ke 500 yang digunakan tetapi
umumnya memerlukan sampel
yang besar (>500)
PERBANDINGAN CTT & IRT

IRT CTT
BerasaskanModel X
Ketidakbergantunganparameter

X
item
Ketidakbergantunganparameter
kebolehan X

Ralatpiawaibersyarat X
Anggarankebolehansebenar
X

Copyright Educational Testing Service, 2004. All rights reserved. 19


ITEM CHARACTERISTIC
CURVE

1 .0

0 .9
a
0 .8

0 .7
P r o b a b ility

0 .6

0 .5

0 .4
I te m 1 : b = 0 .0 , a = 1 .0 , c = 0 .2
0 .3

0 .2
c
0 .1
b
0 .0
- 4 .0 - 3 .5 - 3 .0 - 2 .5 - 2 .0 - 1 .5 - 1 .0 - 0 .5 0 .0 0 .5 1 .0 1 .5 2 .0 2 .5 3 .0 3 .5 4 .0

A b ility

20
LIMITASI CTT
1. STATISTIK CTT:
BERGANTUNG-KUMPULAN
Purata aras kesukaran & julat skor kebolehan calon
mempengaruhi kedua-dua statistik itu. Contoh:

Nilai p lebih tinggi jika sampel calon mempunyai kebolehan


tinggi berbanding purata aras kebolehan calon dalam
populasi

Indeks diskriminasi item cenderung lebih tinggi apabila


mengguna sampel calon yang heterogeneous berbanding
sampel calon yang homogeneous
1. STATISTIK CTT:
BERGANTUNG-KUMPULAN
Heterogeneity memberi kesan yang besar kepada koefisien
korelasi

Oleh itu dua statistik item tadi hanya berguna dalam


memilih item dalam pembinaan ujian menggunakan sampel
yang menyamai populasi

Juga, kebolehpercayaan skor ujian berkadar langsung


dengan kepelbagaian skor ujian
2. BERGANTUNG-UJIAN
Dalam CTT, perbandingan calon-calon pada satu
pengukuran yang sama hanya boleh dibuat dengan
keadaan calon-calon itu diuji mengguna ujian yang sama
atau mengguna ujian selari

Kesahan ujian meningkat apabila kesukaran ujian


bersesuaian dengan aras kebolehan calon

Kebanyakan ujian dibina sesuai dengan calon-calon


berkebolehan sederhana; oleh itu ujian-ujian itu tidak
menyediakan anggaran yang tepat kebolehan calon tinggi
dan rendah
2. BERGANTUNG-UJIAN
Apabila beberapa ujian pelbagai bentuk yang mempunyai
aras kesukaran berbeza diguna, tugas untuk
membandingkan calon menjadi semakin sukar. Skor ujian
tidak lagi mencukupi.

Dua calon yang memperoleh 50% dalam dua ujian yang


berlainan kesukaran tidak boleh dianggap sama kebolehan

Adakah calon yang mendapat skor 60% dalam satu ujian


yang mudah, lebih tinggi kebolehannya daripada calon yang
mendapat skor 40% dalam ujian yang sukar?
- CTT tidak boleh menangani masalah ini dengan mudah
3. KEBOLEHPERCAYAAN
UJIAN
Dalam CTT, kebolehpercayaan ujian diperoleh melalui ujian
bentuk selari

Secara praktis, Ukuran selari sukar diperoleh

Skor calon tidak pernah sama dalam ujian yang ditadbir kali
kedua (e.g., mereka lupa, mendapat kemahiran baru,
motivasi dan anxiety berubah, etc.)
4. MERAMAL PRESTASI
CALON
CTT tidak dapat menentukan prestasi calon menggunakan
satu item ujian

Anggaran kebarangkalian seorang calon dapat menjawab


betul suatu item boleh diguna untuk memadankannya
dengan kebolehan calon itu

Maklumat ini berguna kepada pembina ujian yang ingin


meramalkan ciri-ciri skor ujian dalam satu atau lebih
populasi calon atau untuk mereka bentuk ujian-ujian yang
mempunyai ciri-ciri tertentu untuk satu populasi calon
(Hambleton et al., 1991)
CTT & VARIANCE RALAT
CTT menganggap variance ralat pengukuran sama bagi semua
calon (ralat tidak bergantung kepada calon)

(sesetengah calon menunjukkan prestasi yang lebih konsisten pada


sesuatu tugasan berbanding calon yang lain; kekonsistenan
berubah mengikut kebolehan)

Oleh itu, prestasi calon berkebolehan tinggi dalam beberapa bentuk


ujian selari boleh jadi lebih konsisten daripada calon berkebolehan
sederhana

Apa yang diperlukan ialah model yang boleh menyediakan informasi


tentang kejituan skor ujian (anggaran kebolehan), informasi spesifik
skor ujian (anggaran kebolehan) dan yang bebas berubah daripada
satu skor ujian (anggaran kebolehan) kepada skor ujian yang lain
KELEBIHAN IRT
BERBANDING CTT
KELEBIHAN IRT BERBANDING
CTT
Parameter item yang bebas daripada sampel di
mana data diperoleh (kesukaran dan
diskriminasi )
Parameter kebolehan tidak bergantung kepada
item tertentu dalam ujian
IRT boleh menilai keberkesanan ujian bagi tahap
kebolehan yang berlainan
IRT boleh mengukur kebolehan kumpulan orang

yang berbeza kebolehan berdasarkan satu skala


yang sama
KELEBIHAN IRT BERBANDING
CTT
Set ujian yang baru boleh dibina dan dikaji tanpa
perlu ditadbir dahulu
IRT menyediakan kerangka penyelesaian bagi
masalah pengujian
IRT digunakan untuk mengenal pasti ujian yang

mengandungi item-item yang berat sebelah (DIF)


RUJUKAN
Hambleton, R.K. & Jones, R. W. 1993. Comparison of classical
test theory and item response theory and their applications to
test development. educational measurement issu and practice
8: 253-262
Crocker, L. & Algina, J. 1997. Introduction to classical
andmodern test theory. Harcourt: Barace College Publishers.
Xitao. 1998. Item Response Theory and Classical Test Theory:
An empirical comparison of thei item/person statistics. Journal
Educational and Psychological Measurement. June 1998 V58 p
357 (25). Gale Group.
Siti Rahayah Ariffin. 2008. Inovasi dalam pengukuran dan
penilaian pendidikan. Fakulti Pendidikan UKM.
Nabeel Abedalaziz & Chin Hai Leng. 2013. The Relationship
between CTT and IRT Approaches in Analyzing Item
Characteristics The Malaysian Online Journal of Educational
Science Volume 1, Issue 1 m/s 64-70

You might also like