Teori Ujian Klasikal CTT Vs Teori Respon Item

GGGB6333
TEORI DALAM PENGUKURAN&PENILAIAN

FAKULTI PENDIDIKAN
UNIVERSITI KEBANGSAAN MALAYSIA
TEORI UJIAN KLASIKAL (CTT)

VS
TEORI RESPON ITEM (IRT)
NAMA AHLI KUMPULAN:-
WAN AZHAN BIN WAN YAACOB P66540

WAN RAZANA BINTI WAN MUSA P66544
ERNIE NOOR FAIZAH BINTI NAIM P67594
NORHIDAYAH BINTI ADDENAN P69065
JAZAN BIN MOHD NOR P59407
SOALAN 1
a) Bincang dan bandingkan Teori Ujian Klasikal

(CTT) vs Teori Respon Item (IRT).
b) Limitasi CTT
c) Kelebihan IRT berbanding CTT
RANGKA PEMBENTANGAN
BIL TOPIK SUBTOPIK
1 Pengenalan i) Teori CTT

ii) Teori IRT
2 Perbandingan i) Teori CTT
ii) Teori IRT
3 Limitasi i) Teori CTT
ii) Teori IRT
4 Kelebihan i) Teori CTT
ii) Teori IRT
PENGENALAN
TEORI UJIAN KLASIK /
CLASSICAL TEST THEORY (CTT)
Teori pengujian awal diperkenalkan oleh Frederick
Lord berdasarkan Teori Guilford pd 1903:
Kebolehan seseorang stabil sekurang-kurangnya
dalam satu tempoh tertentu
Boleh diukur dengan ujian
Kebolehan diukur berdasarkan jumlah skor yang

diperoleh daripada satu ujian atau bilangan item
yang dijawab betul daripada satu set item ujian
Spearman (1903) dalam Teori Ralat Pengukuran:
X o XT
skor yang kita beri kepada calon dipanggil skor
dicerap (observed score) dan bukan skor sebenar
(true score) yang menggambarkan kebolehan
atau pencapaian sebenar calon
Skor yang dicerap daripada sesuatu ujian
mengandungi ralat (Error)

Ralat di dalam sesuatu skor ujian tidak
bergantung (independent) kepada skor sebenar
TEORI UJIAN KLASIK /
CLASSICAL TEST THEORY
(CTT)
CTT mengguna dua statistik item: kesukaran dan
diskriminasi item - (Sample Dependent)
Kebolehpercayaan (reliability) didefinisikan dalam

bentuk atau ujian selari yang dikatakan
mempunyai kadaran pengukuran yang skoran
sebenar yang sama dan mempunyai ralat varians
yang sama.
TEORI RESPON ITEM / ITEM
RESPONSE THEORY (IRT)
Kebolehan diukur berdasarkan kebarangkalian menjawab
betul satu item dalam ujian
IRT ialah satu model matematik yang menetapkan hubungan

antara prestasi ujian yang boleh dilihat dan trait atau
kebolehan yang tidak nampak
Hubungan antara kuantiti yang nampak dan tak nampak itu

digambarkan oleh suatu fungsi matematik
Bentuk perhubungan menentukan Perbezaan model IRT

Contoh: model ogif normal, model logistik (1,2,3 PL), model
norma-ogive, model graded-response. model nominal
response, model continuous response(Nabeel & Chin, 2013)
TEORI RESPON ITEM / ITEM
RESPONSE THEORY (IRT)
Model IRT menentukan hubungan antara pemboleh ubah
tak ketara (selalunya dikonsepsikan sebagai kebolehan
calon] dan kebarangkalian calon menjawab betul sesuatu
item ujian
Model-model IRT kesemuanya menganggap satu

kebolehan tunggal bagi calon-calon (ditanda sebagai )
tetapi berubah ciri-ciri (parameters) mereka bagi item
berlainan
Model IRT berlainan menentukan perbezaan perhubungan

parameter
Contoh: Model Logistik 1-, 2- atau 3-parameter
MODEL RASCH (1-PARAMETER
LOGISTIC)
Dalam semua model IRT, Model Rasch paling sedikit
ramuannya untuk menentukan apa terjadi apabila seorang
calon mencuba suatu item ujian
Hanya satu parameter kebolehan (), untuk setiap calon

dan satu parameter , kesukaran item (b) untuk setiap item
(Model Satu Parameter) (Bhasah, 2003)
Apabila ditadbirkan, hasil ujian ialah interaksi antara

parameter calon dengan parameter item ujian
MODEL RESPONSE ITEM
Model IRT termudah melibatkan
hanya satu parameter: kesukaran
item
Response x berlaku apabila

calon mencuba untuk
menjawab item
Oleh itu x dilihat sebagai

keputusan interaksi antara
kebolehan calon & kesukaran
item
Kebarangkalian respons ialah

perbezaan antara ukuran
kebolehan calon () dan ukuran
kesukaran item ()
__eL__ Banyak model matematik
L 1 + eL berbeza diguna untuk
-4.0

0.018 menggambarkan IRC
(Bhasah, 2003)
-3.0 0.047
Model logistic diwakili
-2.0 0.119 oleh:
-1.0 0.269
0.0 0.500
+1.0 0.731
+2.0 0.881 Model Ogif Normal
diwakili oleh
+3.0 0.953
x( - )
+4.0 0.982
Jelas, L boleh dinyatakan sebagai fungsi perbezaan kebolehan

calon dan kesukaran item: ( - )
Model IRT 1-PL
Model IRT memberikan kebarangkalian menjawab betul
suatu item atau soalan dalam sebutan interaksi antara
kebolehan calon dengan parameter item
Model IRT paling mudah menggabungkan hanya 2 element:
kebolehan calon (ditanda oleh ) dan satu parameter iaitu
kesukaran item (ditanda oleh b)
pemalar, 1.7 ialah faktor skala
Dikenali sebagai Model Satu Parameter Logistik (1-PL)

Model ini pertama diperkenal oleh Georg Rasch
P() ialah kebarangkalian seseorang calon dengan
proficiency atau kebolehan merespons betul suatu item
beraras kesukaran b
Model IRT 2-PL & 3-PL
Model yang membenarkan parameter a
dan b berubah untuk memerihalkan
item dinamakan model logistik 2
parameter.
Model ini digunakan untuk mewakili
skala sikap (attitude scales) dan
sesetengah ujian pencapaian di mana
tekaan (guessing) dianggap tiada.
Parameter c digunakan untuk

menggambarkan tekaan dalam item
aneka pilihan.
Model 3 parameter biasa digunakan
untuk mewakili ujian kognitif.
PERBANDINGAN
CTT & IRT
PERBANDINGAN CTT & IRT
CTT IRT
Model Linear Tak Linear
PERBANDINGAN CTT
X=T+E
DAN IRT
Lemah (mudah untuk Mempunyai kekuatan (lebih sukar
memenuhi keperluan data) untuk memenuhi keperluan data ujian-
kompleks)
Unidimensi (satu ciri terpendam shj
diukur)
Local independence (apabila ciri
terpendam yang diukur tetap
(constant), maka respons pelajar
terhadap mana-mana pasangan item
Peringkat ujian adalah bebas
Peringkat Itemstatistik)
CTT IRT
Ralat Ralat= X-T Ralat= Respon Pemerhatian
pengukuran Respon yang diramalkan
Hubungan Tidak dinyatakan Item Characteristic Curve (ICC
keupayaan item
Statistik item p, r a,b,c (bagi model 3 parameter)
p = indeks kesukaran a = parameter diskriminasi
r = indeks diskriminasi b = parameter kesukaran
(korelasi skor item dengan c = parameter tekaan
skor ujian)
Keupayaan Skor ujian (atau anggaran Keupayaan skor dilaporkan
skor sebenar dilaporkan pada skala - ke +
pada skala skor ujian)
Invarian bagi Tiada parameter item dan Ada- parameter item dan
item dan individu bergantung pd individu adalah bebas @ tidak
individu sampel bergantung pd sampel
Saiz sampel Secara umum di antara 200 Bergantung pada model IRT
ke 500 yang digunakan tetapi
umumnya memerlukan sampel
yang besar (>500)
IRT CTT
BerasaskanModel X
Ketidakbergantunganparameter

X
item
Ketidakbergantunganparameter
kebolehan X
Ralatpiawaibersyarat X
Anggarankebolehansebenar
X
Copyright Educational Testing Service, 2004. All rights reserved. 19

ITEM CHARACTERISTIC
CURVE
1 .0
0 .9
a
0 .8
0 .7
P r o b a b ility
0 .6
0 .5
0 .4
I te m 1 : b = 0 .0 , a = 1 .0 , c = 0 .2
0 .3
0 .2
c
0 .1
b
0 .0
- 4 .0 - 3 .5 - 3 .0 - 2 .5 - 2 .0 - 1 .5 - 1 .0 - 0 .5 0 .0 0 .5 1 .0 1 .5 2 .0 2 .5 3 .0 3 .5 4 .0
A b ility
20
LIMITASI CTT
1. STATISTIK CTT:
BERGANTUNG-KUMPULAN
Purata aras kesukaran & julat skor kebolehan calon
mempengaruhi kedua-dua statistik itu. Contoh:
Nilai p lebih tinggi jika sampel calon mempunyai kebolehan

tinggi berbanding purata aras kebolehan calon dalam
populasi
Indeks diskriminasi item cenderung lebih tinggi apabila

mengguna sampel calon yang heterogeneous berbanding
sampel calon yang homogeneous
1. STATISTIK CTT:
BERGANTUNG-KUMPULAN
Heterogeneity memberi kesan yang besar kepada koefisien
korelasi
Oleh itu dua statistik item tadi hanya berguna dalam

memilih item dalam pembinaan ujian menggunakan sampel
yang menyamai populasi
Juga, kebolehpercayaan skor ujian berkadar langsung

dengan kepelbagaian skor ujian
2. BERGANTUNG-UJIAN
Dalam CTT, perbandingan calon-calon pada satu
pengukuran yang sama hanya boleh dibuat dengan
keadaan calon-calon itu diuji mengguna ujian yang sama
atau mengguna ujian selari
Kesahan ujian meningkat apabila kesukaran ujian

bersesuaian dengan aras kebolehan calon
Kebanyakan ujian dibina sesuai dengan calon-calon

berkebolehan sederhana; oleh itu ujian-ujian itu tidak
menyediakan anggaran yang tepat kebolehan calon tinggi
dan rendah
2. BERGANTUNG-UJIAN
Apabila beberapa ujian pelbagai bentuk yang mempunyai
aras kesukaran berbeza diguna, tugas untuk
membandingkan calon menjadi semakin sukar. Skor ujian
tidak lagi mencukupi.
Dua calon yang memperoleh 50% dalam dua ujian yang

berlainan kesukaran tidak boleh dianggap sama kebolehan
Adakah calon yang mendapat skor 60% dalam satu ujian

yang mudah, lebih tinggi kebolehannya daripada calon yang
mendapat skor 40% dalam ujian yang sukar?
- CTT tidak boleh menangani masalah ini dengan mudah
3. KEBOLEHPERCAYAAN
UJIAN
Dalam CTT, kebolehpercayaan ujian diperoleh melalui ujian
bentuk selari
Secara praktis, Ukuran selari sukar diperoleh
Skor calon tidak pernah sama dalam ujian yang ditadbir kali
kedua (e.g., mereka lupa, mendapat kemahiran baru,
motivasi dan anxiety berubah, etc.)
4. MERAMAL PRESTASI
CALON
CTT tidak dapat menentukan prestasi calon menggunakan
satu item ujian
Anggaran kebarangkalian seorang calon dapat menjawab

betul suatu item boleh diguna untuk memadankannya
dengan kebolehan calon itu
Maklumat ini berguna kepada pembina ujian yang ingin

meramalkan ciri-ciri skor ujian dalam satu atau lebih
populasi calon atau untuk mereka bentuk ujian-ujian yang
mempunyai ciri-ciri tertentu untuk satu populasi calon
(Hambleton et al., 1991)
CTT & VARIANCE RALAT
CTT menganggap variance ralat pengukuran sama bagi semua
calon (ralat tidak bergantung kepada calon)
(sesetengah calon menunjukkan prestasi yang lebih konsisten pada

sesuatu tugasan berbanding calon yang lain; kekonsistenan
berubah mengikut kebolehan)
Oleh itu, prestasi calon berkebolehan tinggi dalam beberapa bentuk

ujian selari boleh jadi lebih konsisten daripada calon berkebolehan
sederhana
Apa yang diperlukan ialah model yang boleh menyediakan informasi

tentang kejituan skor ujian (anggaran kebolehan), informasi spesifik
skor ujian (anggaran kebolehan) dan yang bebas berubah daripada
satu skor ujian (anggaran kebolehan) kepada skor ujian yang lain
KELEBIHAN IRT
BERBANDING CTT
KELEBIHAN IRT BERBANDING
CTT
Parameter item yang bebas daripada sampel di
mana data diperoleh (kesukaran dan
diskriminasi )
Parameter kebolehan tidak bergantung kepada
item tertentu dalam ujian
IRT boleh menilai keberkesanan ujian bagi tahap
kebolehan yang berlainan
IRT boleh mengukur kebolehan kumpulan orang
yang berbeza kebolehan berdasarkan satu skala

yang sama
KELEBIHAN IRT BERBANDING
CTT
Set ujian yang baru boleh dibina dan dikaji tanpa
perlu ditadbir dahulu
IRT menyediakan kerangka penyelesaian bagi
masalah pengujian
IRT digunakan untuk mengenal pasti ujian yang
mengandungi item-item yang berat sebelah (DIF)

RUJUKAN
Hambleton, R.K. & Jones, R. W. 1993. Comparison of classical
test theory and item response theory and their applications to
test development. educational measurement issu and practice
8: 253-262
Crocker, L. & Algina, J. 1997. Introduction to classical
andmodern test theory. Harcourt: Barace College Publishers.
Xitao. 1998. Item Response Theory and Classical Test Theory:
An empirical comparison of thei item/person statistics. Journal
Educational and Psychological Measurement. June 1998 V58 p
357 (25). Gale Group.
Siti Rahayah Ariffin. 2008. Inovasi dalam pengukuran dan
penilaian pendidikan. Fakulti Pendidikan UKM.
Nabeel Abedalaziz & Chin Hai Leng. 2013. The Relationship
between CTT and IRT Approaches in Analyzing Item
Characteristics The Malaysian Online Journal of Educational
Science Volume 1, Issue 1 m/s 64-70

Teori Ujian Klasikal CTT Vs Teori Respon Item

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Teori Ujian Klasikal CTT Vs Teori Respon Item

Uploaded by

Copyright:

Available Formats

GGGB6333

TEORI DALAM PENGUKURAN&PENILAIAN

TEORI UJIAN KLASIKAL (CTT)

NAMA AHLI KUMPULAN:-

WAN AZHAN BIN WAN YAACOB P66540

a) Bincang dan bandingkan Teori Ujian Klasikal

1 Pengenalan i) Teori CTT

Kebolehan diukur berdasarkan jumlah skor yang

mengandungi ralat (Error)

Kebolehpercayaan (reliability) didefinisikan dalam

IRT ialah satu model matematik yang menetapkan hubungan

Hubungan antara kuantiti yang nampak dan tak nampak itu

Bentuk perhubungan menentukan Perbezaan model IRT

Model-model IRT kesemuanya menganggap satu

Model IRT berlainan menentukan perbezaan perhubungan

Hanya satu parameter kebolehan (), untuk setiap calon

Apabila ditadbirkan, hasil ujian ialah interaksi antara

Response x berlaku apabila

Oleh itu x dilihat sebagai

Kebarangkalian respons ialah

Jelas, L boleh dinyatakan sebagai fungsi perbezaan kebolehan

pemalar, 1.7 ialah faktor skala

Dikenali sebagai Model Satu Parameter Logistik (1-PL)

Parameter c digunakan untuk

Copyright Educational Testing Service, 2004. All rights reserved. 19

Nilai p lebih tinggi jika sampel calon mempunyai kebolehan

Indeks diskriminasi item cenderung lebih tinggi apabila

Oleh itu dua statistik item tadi hanya berguna dalam

Juga, kebolehpercayaan skor ujian berkadar langsung

Kesahan ujian meningkat apabila kesukaran ujian

Kebanyakan ujian dibina sesuai dengan calon-calon

Dua calon yang memperoleh 50% dalam dua ujian yang

Adakah calon yang mendapat skor 60% dalam satu ujian

Secara praktis, Ukuran selari sukar diperoleh

Anggaran kebarangkalian seorang calon dapat menjawab

Maklumat ini berguna kepada pembina ujian yang ingin

(sesetengah calon menunjukkan prestasi yang lebih konsisten pada

Oleh itu, prestasi calon berkebolehan tinggi dalam beberapa bentuk

Apa yang diperlukan ialah model yang boleh menyediakan informasi

yang berbeza kebolehan berdasarkan satu skala

mengandungi item-item yang berat sebelah (DIF)

You might also like