You are on page 1of 13

Analisis Penilaian Kredit Parsial

Geofferey N. Masters
University of Melbourne

Artikel ini membahas berbagai masalah dalam penerapan praktis metode item response theory
(IRT) untuk penilaian kredit parsial. Setelah diskusi singkat tentang penilaian kredit parsial sebagai
alternatif penilaian benar-salah dalam pengukuran prestasi pendidikan, model IRT untuk analisis kredit
parsial dikembangkan dan dijelaskan. Model ini disajikan sebagai aplikasi langsung dan logis dari model
dikotomi Rasch ke urutan alternatif respons yang dipesan. Sifat khas dari parameter item dalam model
dijelaskan dan parameter ini dikontraskan dengan dua set parameter yang lebih dikenal: Ambang batas
Thurstone dan kesulitan sub item yang dinilai secara dikotomis. Masalah dalam menandai dan
menafsirkan variabel menggunakan model ini yang mungkin berguna dalam aplikasi tertentu dan untuk
jenis data tes dan kuesioner tertentu.
Meskipun tes prestasi standar biasanya terdiri dari item yang dinilai benar atau salah, ada banyak
bidang prestasi pendidikan di mana penilaian benar-salah dianggap tidak tepat. Biasanya tidak akan
dianggap tepat untuk menggambarkan pertunjukan dalam musik, tarian, ora berbicara sebagai "benar"
atau "salah", misalnya. Juga tidak akan dianggap tepat untuk menggambarkan sebuah karya seni, esai,
gambar teknik, atau model seni industri yang dibangun oleh seorang siswa sebagai benar atau salah.
Ketika mengevaluasi prestasi di bidang ini, adalah konvensional untuk memberikan berbagai tingkat
kredit untuk usaha siswa (misalnya, dengan menilai mereka pada skala 1 sampai 5).
Sistem penilaian kredit parsial juga umum dalam ujian tertulis di mana tanggapan siswa harus
dibaca dan di mana ada kesempatan bagi penguji untuk mengidentifikasi keberhasilan parsial atau
pemahaman parsial. Siswa yang mencoba tugas pemecahan masalah yang terdiri dari beberapa bagian
biasanya diberikan kredit untuk proporsi setiap tugas yang mereka selesaikan dengan sukses. Demikian
pula, guru kelas secara rutin memberikan nilai parsial ketika menilai pekerjaan siswa, yang dianggap
karena rasa "keadilan" dan Dalam upaya untuk mengenali dan menghargai pemahaman parsial..
Bahkan butir-butir tes yang biasanya diberi nilai benar-salah terkadang dapat dinilai lebih dari
dua kategori hasil. Di antara jawaban “salah” (dan terkadang “benar”) yang diberikan siswa terhadap
suatu item, terkadang dimungkinkan untuk mengidentifikasi jenis dan tingkat pemahaman yang berbeda.
Jika jawaban siswa terhadap suatu item dapat dikelompokkan menurut tingkat pemahaman yang mereka
refleksikan, maka lebih dari dua tingkat hasil yang berurutan dapat ditentukan untuk item tersebut. Adam
(masalah ini) mempertimbangkan kemungkinan membangun perpustakaan jawaban salah umum untuk
item dan mencocokkan respons setiap siswa dengan salah satu entri perpustakaan ini untuk
menyimpulkan tingkat pemahaman untuk setiap siswa. Sebuah alternatif akan mencari informasi lebih
lanjut tentang jawaban siswa, mungkin melalui urutan petunjuk terprogram atau subpertanyaan yang
dirancang untuk mengungkapkan sifat kesalahpahaman siswa. Keuntungan mendefinisikan lebih dari dua
tingkat hasil untuk item adalah bahwa ukuran pencapaian dapat dibuat lebih tepat dan informasi
diagnostik yang lebih rinci dapat diperoleh
Untuk mengilustrasikan proses membangun lebih dari dua tingkat hasil untuk suatu item,
pertimbangkan tes kemampuan aritmatika dasar anak-anak. Untuk mengukur kemampuan aritmatika, kita
dapat mengembangkan serangkaian pertanyaan dalam bentuk “6+8=? “. Jawaban anak-anak untuk setiap
pertanyaan mungkin dinilai benar atau salah, dan jumlah jawaban benar setiap anak dapat dianggap
sebagai ukuran kemampuannya. Ini akan menjadi pendekatan tradisional untuk mengukur kemampuan
aritmatika anak-anak
Atau, kita mulai dengan upaya untuk memahami konsepsi yang berbeda yang dimiliki anak-anak
tentang operasi seperti penambahan satu digit, mungkin dengan mempelajari strategi mereka untuk
menjawab pertanyaan seperti 6+8=?. Sebuah "tes" kemudian dapat dirancang untuk memberikan
informasi tentang jenis dan tingkat pemahaman bahwa individu memiliki masing-masing operasi penting
dalam aritmatika dasar. Beberapa penelitian latar belakang yang diperlukan untuk pendekatan semacam
itu telah dilakukan oleh Carpenter dan Moser (1984) yang mengidentifikasi berbagai strategi yang
digunakan anak-anak kecil untuk menjawab pertanyaan semacam itu. Dari strategi yang berbeda ini,
mereka telah membangun lima tingkat kinerja pada item tambahan satu digit (Tabel 1)

Tabel 1
Kategori Deskripsi
High
Tidak perlu menghitung, dapat langsung menjawab menggunakan angka
4
untuk menyelesaikan 6 + 8 = 14
3 Selalu menghitung dari bilangan yang lebih besar (“8,9,10,..,14”)
Menghitung, tetapi tidak konsisten memulai dari angka yg lebih besar
2
( “6,7,8,…,14”)
Mengitung 6 objek, lalu menghitung. 8 objek, lalu menghitung semuanya 14
1
objek (“1,2,..14”)
0 Tidak dapat menyelesaikan
low

Carpenter dan Moser menemukan bahwa beberapa anak memecahkan 6+8=? dengan menghitung
6 objek, lalu 8 objek lagi, dan kemudian semua 14 objek ( Kategori 1). Kemudian, anak-anak mencapai
pemahaman bahwa berhitung tidak harus dimulai dengan angka 1. Mereka “menghitung”, meskipun tidak
harus dari angka yang lebih besar (misalnya, “6,7,8,...,14”). Belakangan, anak-anak memahami sifat
komutatif penjumlahan (6+8=8+6) dan secara konsisten menghitung dari bilangan yang lebih besar
(“8;9,10,…,14). Akhirnya, anak-anak dapat menyelesaikan 6+8=? menggunakan fakta angka dan tanpa
menghitung objek.
Carpenter dan Moser menunjukkan bagaimana strategi yang berbeda ini digunakan oleh
sekelompok anak-anak Wisconsin pada waktu yang berbeda selama beberapa tahun pertama sekolah
mereka (Gambar 1). Pada awal kelas satu (bawah gambar 1), sekitar 15% dari anak-anak ini tidak dapat
menyelesaikan soal seperti 6+8=?, bahkan ketika diberikan benda untuk dihitung (Kategori 0 ). Di antara
anak-anak yang bisa memecahkan masalah seperti itu, sejauh ini strategi yang paling umum adalah
menghitung 6 objek, lalu 8 lagi, dan kemudian semuanya 15 ( Kategori 1). Pada awal kelas dua, hampir
semua anak ini memahami bahwa berhitung tidak harus dimulai dengan angka 1 dan berhitung ( Kategori
2 dan 3), meskipun beberapa masih belum memahami sifat komutatif dan tidak konsisten menghitung dari
angka yang lebih besar. . Dengan delapan putaran pengamatan (atas gambar 1), lebih dari 70% dari
kelompok anak-anak ini dapat menyelesaikan masalah penjumlahan satu digit tanpa harus menghitung
benda (Kategori 4)
Perhatikan bahwa anak-anak dalam Kategori 1, 2, 3, dan 4 pada gambar 1 semuanya memberikan
jawaban “benar: jawaban untuk item ini, Jika jawaban anak-anak hanya dinilai benar atau salah, maka
semua anak ini akan diperlakukan sama, dan ini item hampir tidak ada gunanya sebagai sumber informasi
tentang pemahaman anak-anak ini tentang penjumlahan. Dengan mengenali berbagai strategi yang
digunakan anak-anak untuk menyelesaikan 6+8=? dan dengan memperhatikan perbedaan dalam proses,
dimungkinkan untuk memberikan jumlah kredit yang berbeda untuk tingkat pemahaman yang berbeda
dan dengan demikian memperoleh banyak informasi dari item ini.
Setiap artikel dalam edisi khusus ini membahas masalah pengukuran prestasi siswa ketika
penampilan pada item tes dicatat dalam beberapa kategori berurutan. Artikel ini menguraikan model
pengukuran untuk analisis nilai kredit parsial dan membahas beberapa masalah yang muncul dalam
aplikasi praktisnya.
THE RASCH PARTIAL CREDIT MODEL
Jika ukuran pencapaian akan dibangun dari penilaian kredit parsial, maka model pengukuran
diperlukan untuk mengawasi proses ini. Model pengukuran yang digunakan di sini dikembangkan dari
model logistik sederhana rasch (1960):

π¿ 1 exp ⁡( β n −δ i )
= (1)
π ¿0 + π ¿ 1 1+exp ⁡(β n−δ i)
Dimana π ¿1 adalah probabilitas orang n menjawab Kategori 1 item i, π ¿0 adalah probabilitas
orang n menjawab dalam Kategori 0 item i (di mana respon dalam Kategori 1 mewakili lebih banyak
variabel yang diukur daripada jawaban dalam Kategori 0), β n adalah kemampuan orang n, dan δ i, adalah
tingkat kesulitan item i, didefinisikan sebagai posisi pada kontinum di mana π ¿1=¿ π ¿0 . Meskipun model
Rasch biasanya tidak ditulis sebagai probabilitas bersyarat, model ini dapat direpresentasikan seperti itu
jika kita mengingat bahwa hasil yang diamati dibatasi hanya pada dua kemungkinan, 0 dan 1. Hasil
lainnya, seperti kegagalan untuk merespons, tidak tercakup dalam persamaan 1. yang memberikan
probabilitas jawaban dalam Kategori 1 dengan syarat jawaban diberi skor 0 atau 1 sehingga π ¿1 +¿ π ¿0 . =
1
Model ini dapat diterapkan pada lebih dari dua kategori terurut dengan terlebih dahulu mencatat
bahwa orde yang dimaksud 0 < 1 < 2 < … < m dari himpunan m + 1 kategori dapat ditangkap dalam
himpunan relasi orde dasar bentuk A < B. Jumlah terkecil dari relasi-relasi elementer ini yang diperlukan
untuk orde empat kategori, misalnya, seluruhnya ditangkap dalam tiga relasi orde elementer 0 < 1, 1< 2,
2<3.
Pertimbangkan sekarang hanya Respon Kategori 0 dan 1. Apa yang kita maksud ketika kita
mengatakan bahwa Kategori 1 dimaksudkan untuk mewakili lebih banyak variabel yang diukur daripada
kategori 0? Implikasi dari urutan yang dimaksudkan 0 < ` adalah bahwa jika seseorang merespons dalam
salah satu dari dua kategori ini, maka kemungkinan respons berada dalam kategori 1 daripada di kategori
0 harus meningkat dengan β n . Dalam kata lain, urutan Kategori 0 dan 1 yang dimaksudkan memiliki
implikasi untuk probabilitas bersyarat π ¿1 /( π ¿ 0 + π ¿ 1), yang seharusnya meningkat dengan β n.
Pengamatan ini menyarankan penerapan sederhana dari persamaan 1`:

π¿ 1 exp ⁡( β n −δ i 1 ) (2)
=
π ¿0 + π ¿ 1 1+exp ⁡(β n−δ i 1)

Dalam ekspresi ini, semua kategori lain telah dikondisikan untuk fokus pada implikasi dari orde 0
< 1. Seperti sebelumnya, β n adalah kemampuan orang n =. Parameter δ i 1 mengatur probabilitas respons
yang terjadi di kategori 1 daripada di Kategori 0 dari item i. kita kembali membahas arti parameter ini
lebih detail nanti.

π nix exp ⁡( β n−δix )


= (3)
π ¿, x−1 + π nix 1+ exp ⁡(β n −δ ix )

For x=1 , m

Di mana δ ix mengatur probabilitas respons yang terjadi dalam kategori x daripada dalam kategori
x – 1 dari item i. ini hanyalah model rasch ( Persamaan 1) yang diterapkan pada setiap pasangan kategori
yang berdekatan dalam satu set alternatif terurut
Jika jumlah alternatif jawaban yang tersedia untuk butir i terbatas pada m+1, dan orang n diminta
untuk menjawab salah satu dari m+1 kategori ini, maka
m

∑ π nik =1
k=0

Dari himpunan probabilitas bersyarat dalam persamaan 3, dan dengan persyaratan dalam
persamaan 4, berikut secara langsung (dengan sejumlah kecil aljabar) bahwa, untuk m = 3 , probabilitas
orang n dengan kemampuan _n merespons dalam kategori 0 , 1 , 2 dan 3 item i adalah
π ¿0 =1/¿

π ¿1=exp ⁡(β n−δ i 1)/¿

π ¿2=exp ⁡(2 β n−δ i 1−δ i 2)/¿

π ¿3=e xp ⁡(3 βn −δ i1 −δ i 2−δ i 3 )/¿


Dimana adalah jumlah dari empat pembilang di sebelah kanan persamaan ini dan memastikan
bahwa ekspresi dapat ditangkap dalam satu ekspresi umum jika beberapa notasi khusus diperkenalkan.
Jika, misalnya, kita mendefinisikan
0 k k

∑ (β n−δ i 1) ≡0 and ∑ (β n−δ ij)≡ ∑ ( β n−δ ij ) , then


j=0 j=0 j=1

x
exp ∑ ( βn −δ ij ) For x=0 , m
j=0
π nix= m k

∑ exp ∑ (β n−δij)
k=0 j=0

Yang memberikan model probabilitas orang n dengan kemampuan merespons dalam kategori x
( x = 0,1,…,m) item i. ekspresi umum ini dikenal sebagai model kredit parsial ( PCM ; Masters, 1982 ;
Wright & Masters, 1982).
Kurva operasi PCM diberikan oleh Persamaan 3 dan merupakan ogive logistik sederhana dengan
kemiringan yang sama. Ini berarti bahwa semua orang dan parameter item dalam model unidimensional
ini adalah lokasi titik pada satu garis dan bahwa hubungan yang dimodelkan antara probabilitas bersyarat
β n dan variabel kemampuan laten tunggal adalah sama untuk semua nilai x dan semua nilai i.
Sebagai bagian dari model pengukuran rasch , PCM memiliki karakteristik yang membedakan:
kemungkinan mengkondisikan satu set parameter keluar dari prosedur estimasi untuk set lainnya (Masters
& Wright, 1984; Rasch, 1960). Dalam PCM, set parameter orang dapat dikondisikan dari prosedur
kalibrasi untuk item, memungkinkan estimasi parameter "bebas orang" untuk setiap item (Wright, 1968).
Prosedur kemungkinan maksimum bersyarat untuk memperkirakan parameter PCM dijelaskan oleh
wright dan master (1982, hlm. 85-86) ini adalah generalisasi langsung dari prosedur untuk model
dikotomi dalam persamaan 1. Wright dan master juga mengembangkan prosedur kemungkinan
maksimum tanpa syarat dan statistik yang dijelaskan untuk menganalisis kecocokan data uji ke PCM.

ITEM RESPONSE MAPS


Ketika PCM ( Persamaan 6 ) digunakan untuk menganalisis sekumpulan data tes, m parameter
item δ i 1 , δ i 2 , … , δ ℑdiestimasi untuk setiap item i. dengan mensubstitusikan m perkiraan untuk item i ke
dalam persamaan 6, satu set model probabilitas π ¿1 , …, π diperoleh untuk setiap nilai kemampuan orang
nim

β n. Gambar 2 memplot probabilitas model ini untuk item tes hipotetis i. dalam gambar ini, kemampuan β
meningkatkan halaman dari = -2,5 menjadi = +2,5 logit . Tanggapan untuk item ini telah dinilai dalam
lima kategori berurutan berlabel 0 sampai 4, dan gambar 2 telah dibangun dengan menetapkan nilai
tertentu ke empat parameter itemδ i 1 , δ i 2 , δ i3 , δ i 4untuk item ini.

Dari gambar 2 dapat dilihat bahwa seseorang dengan perkiraan kemampuan 2,5 logit (bagian
bawah gambar) memperkirakan probabilitas model sekitar .18 dari skor 0 pada item ini, .44 dari skor
1, .23 dari skor 1, .14 dari penskoran 3, dan .01 dari penskoran 4. Nilai relatif dari probabilitas model ini
berubah dengan meningkatnya kemampuan sehingga, di atas porsi variabel kemampuan yang ditunjukkan
di sini, skor rendah 0, 1 dan 2 menjadi semakin mungkin, dan skor 3 pada item ini menjadi semakin
mungkin hingga level kemampuan sekitar 0 log. Saat kemampuan meningkat di atas level ini, skor 3
menjadi lebih kecil kemungkinannya karena skor tertinggi 4 pada item ini menjadi hasil yang semakin
mungkin
Bentuk dasar daerah probabilitas pada gambar 2 ditentukan oleh aljabar model dan sama untuk
semua item tes. Posisi dan lebar daerah ini bervariasi dari item ke item dan diperkirakan dari respon siswa
untuk setiap item. Untuk menyusun gambar 2, nilai ditetapkan ke empat parameter item δ i 1 , δ i 2 , δ i3 dan
δ i 4 untuk menghasilkan gambar yang menyerupai gambar 1
Peta respons item pada gambar 2 dapat digunakan untuk mengilustrasikan beberapa fitur penting
PCM dan untuk menunjukkan perbedaan utama antara model ini dan beberapa pendekatan lain untuk
analisis kategori respons terurut. Untuk mengilustrasikan perbedaan ini, kita mulai dengan menggambar
ulang gambar 2 dan menambahkan garis vertikal melalui tengah gambar dengan probabilitas P = .5
( Gambar 3). Dalam rentang kemampuan yang ditunjukkan di sini, garis vertikal ini melewati Wilayah
Peluang 3 dan 2. Jika garis ini diperpanjang ke bawah, garis ini juga akan melewati Wilayah peluang 1
dan masuk ke wilayah 0. Titik-titik di mana garis ini memotong batas antara kelimanya kategori telah
ditandai

Titik-titik persimpangan ini, diberi label di sini γ i 1 , γ i 2, γ i 3 dan γ i 4 dikenal dalam literatur
psikometri sebagai ambang batas. Dalam item yang dinilai secara dikotomis, hanya ada satu ambang
( atau kesulitan) untuk setiap item, yang didefinisikan sebagai posisi pada kontinum di mana ogive
tunggal untuk item tersebut berpotongan P =.5 . Meskipun ambang batas yang didefinisikan dengan cara
ini telah banyak digunakan dalam psikofisika (misalnya, Urban, 1908) dan biometrik (misalnya,
Aitchison & Silvey, 1957), tampaknya Thurstone yang pertama kali menggunakan pendekatan ini untuk
mengasosiasikan wilayah variabel sikap dan kemampuan. dengan kategori respon yang dipesan.
Thurstone menyebut γ i 2 dan γ i 3 , sebagai "batas atas dan bawah" Kategori 2 dan perbedaannya γ i 3−γ i 2
sebagai "perkiraan lebar kategori 2 pada kontinum psikologis" (Edwards & Thurstone, 1952, hlm. 173-
174) . Untuk alasan ini, kami merujuk ke titik persimpangan yang ditunjukkan pada Gambar 3 sebagai
treshold thurstone. Baru-baru ini, ambang batas thurstone telah dimasukkan ke dalam beberapa model
IRT untuk kategori yang dipesan (misalnya, Samejima, 1969)
Ambang batas item pada gambar 3 dapat dikontraskan dengan parameter item di Rasch PCM. Ini
ditunjukkan pada gambar 4. Dapat dilihat langsung bahwa parameter item dalam model Rash memiliki
definisi yang sangat berbeda (dan tidak biasa). Lokasi setiap parameter Rasch pada variabel kemampuan
dapat ditemukan dengan memeriksa wilayah peta ini untuk setiap pasangan kategori respons yang
berdekatan. Parameter item δ i 1, misalnya, didefinisikan sebagai titik pada kemampuan kontinum di mana
π ¿1=π ¿ 2. Parameter itemδ i 3 didefinisikan sebagai titik di mana π ¿2=π ¿ 3, dan seterusnya. Daripada
didefinisikan secara global, seperti ambang batas (gambar 3), parameter ini didefinisikan secara lokal.
Definisi lokal ini adalah konsekuensi langsung dari cara urutan kategori respons yang dimaksudkan
dimasukkan ke dalam PCM: dengan mempertimbangkan implikasi urutan kategori yang berdekatan
dengan semua kategori respons lainnya dikondisikan. Parameter item # tidak ditampilkan pada Gambar 4
tetapi terletak di suatu tempat di bawah -2,5 log, di mana π ¿0 =π ¿1

Salah satu konsekuensi menarik dari definisi kondisional mereka adalah, tidak seperti ambang
Thurstone, yang, menurut definisi, diurutkan γ i 1< γ i2 < γ i 3 <…< γ ℑ, parameter dalam Rasch PCM dapat
memiliki urutan apa pun pada kontinum laten. Pada gambar 4, mereka diurutkan δ i 1< δ i 2 <δ i 3< δ i 4 .
Perbedaan penting ini harus diingat ketika menginterpretasikan estimasi parameter item dalam PCM. Saat
memperkirakan ambang Thurstone (misalnya, melalui penerapan model respons bergradasi tahun 1969
dari Samejima), logika definisi mereka mengharuskan ambang ini memiliki urutan tertentu. Dalam model
Rasch, ini bukan masalahnya : Tidak ada hubungan antara urutan parameter item yang ditentukan secara
lokal dan urutan kategori respons yang dimaksudkan. Kadang-kadang mungkin ada alasan untuk
menginginkan pola tertentu dari estimasi item di Rasch PCM (kita kembali ke ini segera), tetapi tidak ada
logika definisi mereka atau persyaratan pengukuran objektif yang akan mengarahkan kita untuk
mengharapkan atau persyaratan pengukuran objektif yang akan mengarahkan kita untuk mengharapkan
atau mengharuskan parameter item yang ditentukan secara lokal ini memiliki urutan tertentu.
Satu pengamatan penting lainnya tentang parameter item dalam PCM adalah bahwa mereka tidak
dapat diinterpretasikan sebagai kesulitan urutan subitem yang dinilai secara dikotomis. Jika suatu item
terdiri dari urutan subitem yang harus diselesaikan dalam urutan tertentu dan jika kredit diberikan untuk
menyelesaikan setiap subitem, maka parameter item di PCM hanya akan menjadi "kesulitan" dari subitem
independen ini. . Dalam item seperti itu, dimungkinkan untuk memahami pola estimasi item PCM untuk
item tersebut dengan mempelajari detail subitem (Lihat Masters, 1982; Wright & Masters, 1982), tetapi
estimasi item individual tidak dapat ditafsirkan sebagai "kesulitan" subitem komponen.

MENAFSIRKAN VARIABEL
Setelah item pada tes telah dikalibrasi (yaitu, perkiraan telah diperoleh untuk set parameter yang
terkait dengan setiap item tes), dan ukuran pada variabel yang ditentukan oleh item ini telah diperoleh
untuk individu, adalah mungkin untuk menghitung probabilitas model orang itu untuk merespons dalam
setiap kategori dari setiap item. Dengan cara ini dimungkinkan untuk menafsirkan apa artinya berada
pada tingkat kemampuan yang diperkirakan pada variabel laten. Karena item yang menggunakan sistem
penilaian kredit parsial memberikan lebih banyak alternatif respons daripada item yang dinilai secara
dikotomis, interpretasi variabel pada umumnya tidak semudah untuk PCM seperti untuk model Rasch
dikotomis. Pada bagian ini, kami menguraikan cara-cara yang berbeda namun saling melengkapi dalam
menginterpretasikan estimasi kemampuan yang diperoleh dengan PCM. Ini kemudian diringkas dalam
Gambar 5.

Mempelajari Peta Respons Item


Ini mengikuti dari sifat probabilistik model respons item bahwa interpretasi lengkap dari
perkiraan kemampuan seseorang memerlukan pertimbangan probabilitas model orang itu untuk
merespons di setiap kategori respons item yang tersedia. Dalam hal dikotomis pada masing-masing
kategori jawaban item yang tersedia. Dalam kasus item yang dinilai secara dikotomis, misalnya, perkiraan
kemampuan yang menyiratkan probabilitas keberhasilan 0,9 biasanya akan ditafsirkan secara berbeda dari
kemampuan yang menyiratkan hanya probabilitas keberhasilan 0,6. Untuk item yang diberi skor lebih
dari dua kategori, pemahaman lengkap tentang apa artinya berada di lokasi tertentu pada variabel
kemampuan bergantung pada pertimbangan probabilitas orang tersebut untuk merespons di setiap
kategori respons yang tersedia dari item tersebut. Detail ini dapat dibaca dari peta respons item (mis.,
Gambar 2).
Ketika tujuan mengukur kemampuan seseorang adalah untuk membuat keputusan tentang strategi
instruksional yang tepat, studi terperinci dari setiap peta respons item mungkin dianggap diinginkan dan
bermanfaat. Pemeriksaan rinci ini tidak terlalu memakan waktu jika jumlah barang yang akan diperiksa
sedikit. Eben untuk sejumlah besar item, cara dapat ditemukan untuk memfasilitasi proses ini (mis.,
Dengan memungkinkan untuk membuka halaman melalui peta respons di layar). Namun, untuk aplikasi
mungkin akan berguna untuk membangun ringkasan informasi rinci yang terkandung dalam peta respon
item.
Menghitung Skor yang Diharapkan
Salah satu cara sederhana untuk meringkas peta respons suatu item adalah dengan menghitung skor yang
diharapkan pada item tersebut pada berbagai tingkat kemampuan. Skor yang diharapkan dari orang n E x
pada item i adalah.
mi
E x =∑ k π nik
k=0

Dimana π nik adalah probabilitas orang n untuk menjawab dalam kategori k item i. Siswa dengan
kemampuan perkiraan +2,5 log pada Gambar 5, misalnya, memiliki probabilitas model sekitar 0,35 dari
skor 3 dan sekitar 0,65 dari skor 4 pada item ini. Untuk siswa pada tingkat kemampuan ini, skor yang
diharapkan pada item ini adalah sekitar 3 ( .35 ) +4 ( .65 )=3.7 . Ketika kecocokan data ke PCM diuji,
seseorang dengan perkiraan kemampuan +1,5 log memiliki skor pengamatannya (skor dalam kisaran 0
hingga 4) pada item ini dibandingkan dengan skor yang diharapkannya sebesar 3,7 untuk menilai apakah
respons terhadap item ini konsisten dengan respons yang diharapkan berdasarkan model.
Di bagian bawah gambar 5, orang dengan perkiraan kemampuan -2,5 log memiliki skor yang diharapkan
E x ≈ 1.1 . Skor yang diharapkan E x adalah variabel berkelanjutan dan meningkat seiring dengan
kemampuan. Selama rentang kemampuan yang ditunjukkan pada gambar 5, E x meningkat dari 1.1
menjadi 3.7

Untuk menafsirkan perkiraan kemampuan seseorang, referensi mungkin dibuat untuk skor yang
diharapkan orang itu pada setiap item tes. Keuntungan menghitung skor yang diharapkan pada setiap item
adalah bahwa hal itu menerangi beberapa aspek lain dari analisis ini. Ini memungkinkan pengguna untuk
melihat hubungan antara skor tes total seseorang dan skor yang diharapkannya pada item individual:
Jumlah skor yang diharapkan seseorang sesuai dengan skor tes yang diamati orang tersebut. Perhitungan
skor yang diharapkan juga memfasilitasi interpretasi statistik kecocokan orang. Alasan untuk swuare rata-
rata kecil yang tidak terduga adalah bahwa respons orang tersebut sangat mirip dengan skor yang mereka
harapkan. Alasan untuk kuadrat rata-rata besar yang tidak terduga adalah karena respons yang diamati
sangat berbeda dari skor yang diharapkan orang tersebut. Menampilkan serangkaian skor yang diharapkan
seseorang dapat menjadi cara yang sangat berguna untuk memahami dan menjelaskan hasil analisis.
Merencanakan Ambang Batas Thurstone
Pendekatan kedua untuk meringkas peta respons item telah diilustrasikan pada gambar 3. Di
bawah pendekatan tradisional ini, ambang batas yang dipesan digunakan untuk mengasosiasikan wilayah
kontinum kemampuan dengan berbagai kategori respons. Ketika metode ini digunakan untuk menandai
suatu variabel, perkiraan kemampuan individu diinterpretasikan dengan merujuknya ke wilayah kontinum
inti di mana ia berada. Pertimbangkan, misalnya, seseorang dengan perkiraan kemampuan +1,0 log pada
Gambar 5. Karena orang ini memiliki kemampuan yang diperkirakan di atas γ i 3, dia lebih mungkin
mendapat skor 3 atau lebih baik pada item I daripada skor kurang dari 4 pada item ini si lebih mungkin
daripada skor 4. Ini menempatkan orang ini di wilayah kontinum yang terkait dengan Kategori Respons 3.
Perbedaan antara pendekatan ini dan penggunaan skor yang diharapkan adalah bahwa upaya
dilakukan di sini untuk mengaitkan serangkaian kemampuan dengan kategori respons tertentu. (Namun,
perhatikan bahwa skor yang diharapkan dapat digunakan untuk menandai wilayah kontinum. Misalnya,
akan menjadi wilayah di mana skor yang diharapkan seseorang pada item ini lebih dekat ke 2 daripada ke
` atau 3 ). Kemampuan semua orang di dalam didefinisikan, adalah mungkin untuk menggambarkan
dengan cara probabilistik apa artinya memiliki kemampuan dalam setiap interval kontinum

Menemukan Respons “Paling Mungkin”


Pendekatan lain untuk menafsirkan perkiraan kemampuan seseorang adalah dengan
mengidentifikasi respons "paling mungkin" orang tersebut terhadap setiap item. Ketika item diberi skor
hanya dalam dua kategori, estimasi kemampuan seseorang dapat dirujuk ke estimasi kesulitan item untuk
memutuskan apakah orang tersebut kemungkinan besar akan mendapatkan item dengan benar, atau
kemungkinan besar mendapatkan item yang salah. Ini adalah masalah sederhana karena hanya ada dua
kemungkinan hasil pada setiap item. Meskipun pernyataan tentang apa yang paling mungkin harus
ditafsirkan dengan lebih hati-hati ketika ada lebih dari dua kemungkinan hasil pada suatu item,
pendekatan terhadap interpretasi variabel ini dapat diperluas ke penilaian kredit parsial. Pada peta respons
item, satu-satunya respons yang paling mungkin pada tingkat kemampuan mana pun ditunjukkan oleh
wilayah terluas dari peta pada tingkat itu

Ketika estimasi parameter untuk suatu item kebetulan berada dalam urutan δ i 1< δ i 2 <δ i 3< …<δ ℑ
, wilayah respons yang paling mungkin ditandai secara langsung oleh estimasi ini. Tetapi bahkan ketika
perkiraan item ini dalam urutan lain, mereka masih dapat digunakan untuk menemukan wilayah
tanggapan yang paling mungkin.

Pada Gambar 5 δ i 4 , menurut definisi, adalah titik pada kontinum kemampuan di mana respons dalam
kategori 4 lebih mungkin daripada respons dalam kategori 3. Dari gambar 5 dapat dilihat bahwa, untuk
orang dengan kemampuan di atas δ i 4, skor dari 4 akan menjadi satu-satunya hasil yang paling mungkin
pada item ini
Sebuah pemeriksaan dekat peta respon item pada gambar 4 menunjukkan bahwa pada tingkat
kemampuan tidak ada respon dalam kategori 2 hasil tunggal yang paling mungkin pada item ini. Hal ini
dapat dilihat dengan memulai dari bagian bawah peta dan bekerja ke atas. Untuk kemampuan hingga δ i 2
skor 1 lebih mungkin daripada skor 2 pada item ini. Tetapi dengan tingkat kemampuan ini, skor 3 juga
menjadi lebih mungkin daripada skor 2. Jadi, pada tingkat kemampuan tidak ada skor 2 hasil yang paling
mungkin pada item ini. Titik pada kontinum ini di mana skor 1 tidak lagi menjadi hasil yang paling
mungkin dan skor 3 menjadi kemungkinan besar diberikan oleh rata-rata estimasi δ i 2 dan δ i 3

Meskipun interpretasi perkiraan kemampuan dalam hal pernyataan apa yang paling mungkin
menarik (karena merupakan perpanjangan sederhana dari praktek akrab dalam analisis dikotomis),
pendekatan ini harus digunakan dengan hati-hati. Misalkan, misalnya, jawaban "salah" untuk suatu item
diklasifikasikan ke dalam beberapa jenis berbeda yang mencerminkan tingkat pemahaman yang berbeda
sehingga beberapa jawaban yang salah menerima lebih banyak pujian daripada yang lain. Saat
kemampuan meningkat, kemungkinan jawaban "benar" untuk item ini akan meningkat. Akhirnya, suatu
tingkat kemampuan akan tercapai di mana kemungkinan jawaban yang benar akan lebih besar daripada
kemungkinan salah satu jawaban yang salah. Dapat disimpulkan bahwa orang dengan kemampuan itu
"kemungkinan besar" akan mendapatkan item ini dengan benar. Tentu saja, karena jumlah probabilitas
dari berbagai jawaban yang salah akan lebih besar daripada kemungkinan jawaban yang benar, orang-
orang dengan kemampuan ini "kemungkinan besar" akan mendapatkan item ini. Meskipun pernyataan
tentang apa yang paling mungkin dapat diinterpretasikan secara jelas untuk penilaian benar-salah,
pernyataan tersebut harus ditafsirkan dengan hati-hati untuk kategori respons yang berurutan.
Kelemahan dari pendekatan ini untuk menandai variabel adalah bahwa hal itu dapat membuat
kategori respons tampak seolah-olah mereka telah "menghilang". Hal ini dapat dilihat di sebelah kanan
gambar 5, di mana tidak ada wilayah yang skor 2 adalah jawaban paling mungkin untuk item ini. Terbukti
dari peta respons untuk item ini, Kategori 2 tentu saja belum hilang. Faktanya, tidak ada alasan untuk
percaya bahwa itu tidak berfungsi sebagaimana dimaksud sebagai tingkat menengah tanggapan untuk
item ini antara level 1 dan 3. Meskipun Kategori 2 mungkin tidak berbuat banyak untuk meningkatkan
ketepatan tindakan yang dibuat dengan item ini., mungkin mewakili tingkat pemahaman menengah yang
penting untuk tujuan diagnostik dan instruksional. (jika Kategori 2 menunjukkan pemahaman bahwa
penghitungan tidak harus dimulai dengan 1 tetapi tidak ada pemahaman tentang sifat komutatif
penjumlahan, misalnya, maka itu mungkin merupakan tingkat perkembangan yang ingin kita identifikasi
dan pisahkan).
Perhatikan bahwa apakah suatu kategori "menghilang" atau tidak saat menandai wilayah yang
paling mungkin merespons suatu item sebagian bergantung pada berapa banyak kategori lain yang
ditentukan untuk item tersebut. Jika probabilitas respons yang terjadi dalam kategori menengah tertentu
tidak pernah lebih besar dari 0,3 dan ini salah satu dari hanya tiga kategori, maka pasti tidak akan ada
wilayah respons yang paling mungkin untuk kategori itu. Sebaliknya, jika itu adalah salah satu dari empat
kategori atau lebih, maka mungkin akan ada wilayah yang paling mungkin merespons kategori itu. Ada
atau tidak adanya wilayah tanggapan yang paling mungkin tidak hanya mencerminkan seberapa besar
kemungkinan (atau tidak mungkin) tanggapan dalam kategori itu.

DISKUSI
Model pengukuran yang dijelaskan dalam artikel ini untuk analisis penilaian kredit parsial dan
diterapkan dalam artikel lain dalam edisi khusus ini adalah aplikasi langsung dari model Rasch (1960)
untuk pengamatan yang direkam dalam lebih dari dua kategori respons berurutan. PCM mengikuti
langsung dari pertimbangan implikasi urutan yang dimaksudkan dari rangkaian kategori respons untuk
setiap pasangan kategori yang berdekatan. Konsekuensi membangun model dengan cara ini (yaitu,
pengkondisian dari pernyataan probabilitas untuk setiap pasangan kategori yang berdekatan semua
kategori selain dua yang dipertimbangkan) adalah bahwa parameter item dalam PCM memiliki definisi
yang unik dan berbeda. Secara khusus, mereka tidak menjadi bingung dengan didefinisikan secara
kumulatif (dan karenanya dipesan) Thrustone "ambang" atau dengan "kesulitan" dari subitem dengan skor
dichomously. Interpretasi parameter item di PCM difasilitasi oleh tampilan visual yang dijelaskan dalam
artikel ini sebagai peta respons item
Artikel-artikel dalam edisi khusus ini menggambarkan berbagai aplikasi dari metode IRT ini.
Aplikasi lain disediakan oleh Adams (1987), Adams dan Griffin (1986), Adams, Griffin dan Martin
(1987), Andrich (1978, 1982, 1985). Dodd dan Koch (1985, 1986) Koch dan Dodd (1985, 1986), Masters
(1980, 1982, dalam pers), Masters dan Evans (1986), Politt dan Gutchinson (1987), Smith (1987), Wilson
(1985) , Wright dan Masters (1982), dan lain-lain. Perawatan teoritis dan elaborasi metode umum
disediakan oleh Andrich (1982), Duncan (1984) Duncan, Stenbeckm dan Brody (1987), Glas (dalam
pres), Master (1984), Masers dan Wright (1984), Molenaar (1983) , dan Pedler (1987).
Hanya satu dekade sejak upaya serius untuk menerapkan model Rasch unidimensional untuk
kategori respons berurutan pertama kali muncul dalam literatur. Jumlah studi berdasarkan pendekatan
yang dijelaskan dalam artikel ini dan berbagai masalah yang berhasil diterapkan (dicontohkan oleh
aplikasi dalam edisi khusus ini) adalah kesaksian nilai metode HI ini sebagai alat saya menerapkan
pengukuran pendidikan.

You might also like