You are on page 1of 5

1

PENDAHULUAN

TINJAUAN PUSTAKA

Latar Belakang
Dalam bidang pendidikan, kegiatan
penilaian atau evaluasi hasil belajar peserta
didik merupakan salah satu tugas penting
yang harus dilakukan oleh pendidik. Evaluasi
hasil belajar peserta didik dilakukan untuk
mengetahui kemajuan peserta didik terhadap
kurikulum yang telah diajarkan. Salah satu
upaya evaluasi hasil belajar peserta didik
adalah memberikan ujian pada tengah
semester dan akhir semester. Namun,
terkadang pemberian soal yang terlalu susah
atau terlalu mudah menyebabkan pendidik
sulit membedakan kemampuan peserta didik.
Oleh karena itu, diperlukan analisis terhadap
soal ujian dengan harapan hasil ujian
merepresentasikan kemampuan peserta didik.
Banyak metode yang dikembangkan dalam
bidang psikometrika yang digunakan untuk
menganalisis butir soal dari pendekatan secara
klasik hingga modern. Pendekatan secara
klasik yang digunakan adalah teori uji klasik
(classical test theory) sedangkan pendekatan
modern dengan item response theory (IRT)
atau teori respon butir.
Teori uji klasik merupakan suatu teori
yang mudah dalam penerapannya namun
memiliki banyak kelemahan. Oleh karena itu,
banyak peneliti mencoba mengembangkan
metode modern. Aspek yang diperhatikan
dalam teori uji klasik adalah setiap butir soal
ditelaah menurut (1) tingkat kesukaran butir;
(2) daya pembeda butir; (3) penyebaran
pilihan jawaban, dan (4) reliabilitas skor tes
(Safari, 2000). Teori respon butir merupakan
teori pengukuran modern yang biasanya
digunakan dalam analisis butir soal. Dalam
teori ini digunakan model matematis untuk
menghubungkan karakteristik butir soal
dengan kemampuan responden. Hubungan
tersebut
digambarkan
melalui
kurva
karakteristik butir.

Teori Uji Klasik


Teori uji klasik merupakan satu dari
masalah yang disampaikan oleh ahli psikologi
Belanda Charles Spearman dengan konsep
korelasi (Crocker & Algina, 1986). Beberapa
aspek yang diperhatikan dalam teori uji klasik
yaitu tingkat kesukaran butir, daya pembeda
butir, penyebaran pilihan jawaban, dan
reliabilitas skor tes (Safari, 2000).
a. Tingkat Kesukaran Butir (p)
Tingkat kesukaran soal adalah peluang
untuk menjawab benar suatu soal pada
tingkat kemampuan tertentu yang biasanya
dinyatakan dalam bentuk indeks. Indeks
tingkat kesukaran ini pada umumnya
dinyatakan dalam bentuk proporsi yang
besarnya berkisar 0,00 1,00. Perhitungan
indeks tingkat kesukaran ini dilakukan
untuk setiap nomor soal. Rumus di bawah
ini dipergunakan untuk soal pilihan ganda
(Nitko, 1996).

Tujuan
Tujuan yang ingin dicapai dalam
penelitian ini adalah :
1. Menerapkan teori uji klasik dan teori
respon butir untuk memeriksa butir soal
pada soal Ujian Akhir Semester Tingkat
Persiapan Bersama Institut Pertanian
Bogor (UAS TPB IPB) mata kuliah Fisika
tahun ajaran 2008/2009.
2. Mencari model yang sesuai untuk
menggambarkan butir-butir soal pada soal
UAS TPB IPB untuk mata kuliah Fisika.

p=

Jumlah peserta yang menjawab benar


Jumlah seluruh peserta tes

Semakin besar nilai p yaitu semakin


besar proporsi peserta tes dalam menjawab
benar, maka soal tersebut dianggap
mudah. Semakin kecil nilai p maka soal
tersebut dianggap sukar.
Pada teori uji klasik, tingkat kesukaran
butir soal bergantung kepada kemampuan
peserta ujian. Bagi peserta ujian yang
berkemampuan tinggi, butir soal menjadi
mudah. Bagi peserta ujian yang
berkemampuan rendah, butir soal menjadi
sukar. Pada butir soal yang mudah, tampak
kemampuan peserta ujian menjadi tinggi.
Sedangkan pada butir soal yang sukar,
maka kemampuan peserta ujian menjadi
rendah. Oleh karena itu, tingkat kesukaran
butir
soal
tidak
sepenuhnya
menggambarkan ukuran karakteristik butir
soal sesungguhnya, akan tetapi lebih
merupakan
kemampuan
rata-rata
kelompok peserta ujian.
Klasifikasi tingkat kesukaran soal
dalam Nitko (1996) adalah:
Jika nilai p di antara 0,00 0,30 soal
tergolong sukar,
Jika nilai p di antara 0,31 0,70 soal
tergolong sedang, dan
Jika nilai p di antara nilai 0,71 1,00
soal tergolong mudah.

b. Daya Pembeda (DP)


Daya pembeda soal adalah nilai indeks
yang menunjukkan kemampuan butir soal
untuk membedakan kelompok peserta
ujian yang berkemampuan tinggi dan
berkemampuan rendah. Daya pembeda
suatu butir soal ini didasarkan pada hasil
tes suatu kelompok sehingga daya
pembeda tersebut belum tentu berlaku
pada kelompok yang lain. Indeks daya
pembeda berkisar antara -1,00 sampai
dengan 1,00. Semakin tinggi nilai daya
pembeda soal, maka semakin baik soal
tersebut.
Daya pembeda soal untuk bentuk
pilihan ganda dapat dihitung dengan
rumus sebagai berikut :
2 ( BA BB )
DP
N
Keterangan :
DP = daya pembeda soal,
BA = jumlah jawaban benar pada
kelompok atas
BB = jumlah jawaban benar pada
kelompok bawah
N = jumlah siswa yang mengerjakan
tes.
Dalam Crocker & Algina (1986), daya
pembeda soal diklasifikasikan sebagai
berikut :
Jika DP 0,4 maka butir soal
baik/diterima,
Jika 0,3 DP < 0,4 maka butir soal
cukup baik,
Jika 0,2 DP < 0,3 maka butir soal
perlu diperbaiki, dan
Jika DP < 0,2 maka soal ditolak.
Pembagian kelompok diambil 25%
dari urutan nilai terbaik sebagai kelompok
atas dan 25% dari nilai terendah sebagai
kelompok bawah. Hal ini terdapat dalam
Anastasi & Urbina (1997) yang
menyatakan
bahwa
secara
umum
persentase yang tepat antara 25%-33%.
Selain rumus di atas, untuk mengetahui
daya pembeda soal bentuk pilihan ganda
dapat digunakan rumus korelasi point
biserial (r pb) (Crocker & Algina, 1986).
Semakin tinggi nilai korelasi point biserial
maka semakin baik soal tersebut.

p
r pb

q

Keterangan :
rpb = koefisien point biserial,
+ = rata-rata skor peserta ujian yang
menjawab benar,

= rata-rata skor peserta ujian,

= simpangan baku skor total,


= proporsi jawaban benar terhadap
semua jawaban siswa,
q
= proporsi jawaban salah terhadap
semua jawaban siswa.
c. Penyebaran Pilihan Jawaban
Penyebaran pilihan jawaban dijadikan
dasar dalam penelaahan soal. Hal ini
dimaksudkan untuk mengetahui berfungsi
tidaknya jawaban yang tersedia. Safari
(2000) menyatakan bahwa suatu pilihan
jawaban (pengecoh) dapat dikatakan
berfungsi apabila :
1. Paling tidak dipilih oleh 5% peserta
ujian, dan
2. Lebih banyak dipilih oleh kelompok
siswa yang belum paham materi.
d. Reliabilitas Skor Tes
Tujuan utama menghitung reliabilitas
skor tes adalah untuk mengetahui tingkat
ketepatan (precision) dan kekonsistenan
skor tes. Indeks reliabilitas berkisar antara
0-1. Semakin tinggi koefisien reliabilitas
suatu tes (mendekati 1), makin tinggi pula
ketepatannya.
Reliabilitas dapat dihitung dengan
koefisien alfa, dalam Crocker & Algina
(1986) didefinisikan sebagai berikut :
n
n
i 1 i2

1

n 1
x2

Keterangan :
n
= jumlah butir soal,
i2 = ragam skor per butir soal,
x2 = ragam skor total.
Teori Respon Butir
Teori respon butir merupakan teori
pengukuran modern yang biasanya digunakan
dalam analisis butir soal. Nama lain teori
respon butir adalah latent trait theory (LTT)
atau characteristics curve theory (CCT).
Pengembangan
teori
respon
butir
didasarkan kepada dua postulat. Postulat
pertama adalah bahwa kemampuan subyek
(examinee) pada suatu butir dapat diprediksi
oleh seperangkat faktor yang disebut traits,
latent traits atau abilities. Trait adalah
dimensi kemampuan seseorang seperti
kemampuan verbal, kemampuan psikomotor,
kemampuan kognitif, dan sebagainya. Postulat
kedua adalah bahwa hubungan antara
kemampuan peserta tes pada suatu butir dan
perangkat
kemampuan
laten
yang
mendasarinya dapat digambarkan melalui
item
kurva
karakteristik
butir
atau

characteristics curve (ICC) (Hambleton et al.,


1991).
Model-model
karakteristik
butir
tergantung pada bentuk matematis fungsi
karakteristik
butirnya
dan
banyaknya
parameter yang dilibatkan dalam model yang
digunakan. Hal ini dikarenakan tidak semua
model IRT cocok untuk perangkat data tes
yang lain.
Beberapa asumsi model teori respon butir
dalam Hambleton et al. (1991) adalah sebagai
berikut:
1. Asumsi pertama adalah satu dimensi
(unidimensional). Asumsi ini sangat sulit
dipenuhi dikarenakan banyaknya faktorfaktor yang mempengaruhi tes seperti
kognitif, kepribadian, dan administrasi tes.
Namun yang paling penting dari asumsi ini
adalah adanya satu komponen yang
dianggap dominan dalam menentukan
kemampuan subyek. Menurut Hutten
(1980) dalam Hattie (1985) bahwa
unidimensional dapat diperiksa dengan
akar ciri dalam analisis faktor. Asumsi
unidimensional dapat dilihat dengan
menghitung rasio antara akar ciri yang
pertama dan kedua. Jika rasionya tinggi,
maka model bersifat unidimensional.
2. Asumsi kedua dikenal dengan kebebasan
lokal (local independence). Asumsi ini
maksudnya adalah respon peserta tes
terhadap suatu butir tidak berhubungan
dengan butir lainnya dalam tes tersebut.
Model Teori Respon Butir
Model ogive normal pada awalnya adalah
model yang paling dominan digunakan dalam
pengembangan teori respon butir. Namun
model tersebut saat ini sudah jarang
digunakan dan digantikan dengan modelmodel logistik. Model logistik lebih sering
digunakan karena prosedur komputasinya
lebih mudah dan sederhana dibandingkan
model ogive normal.
Ada tiga model logistik yang sering
digunakan saat ini (Hambleton et al., 1991)
yaitu :
1. Model logistik satu parameter (model
rasch) atau item response theory 1parameter logistic (IRT 1PL) yaitu untuk
menganalisis
data
yang
hanya
menitikberatkan pada parameter tingkat
kesukaran. Kurva karakteristik butir soal
untuk model satu parameter diberikan oleh
persamaan :
e ( bi )
P i ( )
1 e ( b i )

2. Model logistik dua parameter atau item


response theory 2-parameter logistic (IRT
2PL) yaitu untuk menganalisis data yang
hanya menitikberatkan pada parameter
tingkat kesukaran dan daya pembeda soal.
Kurva karakteristik butir soal untuk model
dua parameter diberikan oleh persamaan :

Pi ( )

e Da i ( b i )
1 e Da i ( b i )

3. Model logistik tiga parameter atau item


response theory 3-parameter logistic (IRT
3PL) yaitu untuk menganalisis data yang
menitikberatkan pada parameter tingkat
kesukaran soal, daya pembeda soal, dan
peluang menebak (guessing).
Kurva karakteristik butir soal untuk model
tiga parameter diberikan oleh persamaan :
P i ( ) c i (1 c i )

e Da i ( b i )
1 e Da i ( b i )

Keterangan :
Pi() = peluang bahwa peserta tes dengan
kemampuan menjawab butir
soal ke-i dengan benar,
ai
= parameter daya pembeda soal
butir ke-i,
= parameter tingkat kesukaran, yaitu
bi
satu titik pada skala ability dimana
kemungkinan untuk menjawab
benar sebesar 0,5.
= peluang tebakan benar butir ke-i.
ci

= parameter kemampuan peserta tes,


D = faktor penskalaan yang diikutkan
untuk menjadikan fungsi logistik
serupa mungkin dengan fungsi
ogive normal (D = 1,702).
Pendugaan Parameter
Langkah pertama dan paling penting
dalam aplikasi teori respon butir adalah
pendugaan parameter, baik parameter
kemampuan peserta uji maupun parameter
karakteristik butir (Hambleton et al., 1991).
Ada beberapa metode yang digunakan untuk
menduga parameter pada model teori respon
butir. Salah satu metode yang digunakan
adalah metode kemungkinan maksimum
(maximum likelihood estimation, MLE).
Prinsip dasar dari metode MLE dalam
Hogg et al. (1978) adalah jika terdapat contoh
acak X1, X2, ..., Xn dari sebuah sebaran yang
memiliki suatu fungsi kepekatan peluang
f(x;), . Fungsi kepekatan peluang
bersama dari X1, X2, ..., Xn adalah f(x1;),
f(x2;), ..., f(xn;). Fungsi kepekatan peluang
bersama ini dipandang sebagai fungsi dari .
Dengan definisi yang telah dijelaskan maka

fungsi nisbah kemungkinan (L)


(
dapat
dinotasikan sebagai berikut :
L(;x1, x2, ..., xn )=f(x1;),
), f(x2;), ..., f(xn;)
Hambleton et al. (1991) mendefinisikan
fungsi likelihood untuk model teori respon
butir adalah sebagai berikut :
N

L ( x1 , x 2 ,..., x n | )
Pij ij Q ij
x

1 xij

j 1 i 1

l ( X | ) ln L ( x1 , x 2 ,..., x n | )
N n x 1 x
l ( X | ) ln Pij ij Q ij ij
j 1 i 1

l ( X | ) x ij ln Pij (1 x ij ) ln Qij
N

j 1 i 1

dengan

l
0 , =(;a,b,c)

Dimana a, b, dan c adalah parameter butir


soal, dan
n adalah parameter kemampuan.
(model
model ini diasumsikan model IRT 3PL).
Kurva Karakteristik Butir
Kurva
karakteristik
butir
dalam
Hambleton et al. (1991) adalah suatu
hubungan matematis yang berkaitan dengan
peluang berhasil (misalnya, memberikan
respon yang benar) pada butir soal yang
diukur dengan melihat kemampuan ujian dan
karakteristik butir soal. Semakin tinggi
kemampuan seseorang, maka peluang untuk
menjawab sebuah butir soal dengan benar
akan semakin meningkat (Crocker & Algina,
1986).

Gambar 1 merupakan ilustrasi kurva


karakteristik butir yang diambil dalam
Embretson & Reise (2000) terdiri atas tiga
butir soal. Soal nomor 1 dan nomor 2
memiliki
liki tingkat kesukaran yang sama sebesar
-11 tetapi memiliki nilai daya pembeda yang
berbeda. Perbedaan
erbedaan antara model IRT 1PL
dan IRT 2PL terletak pada nilai daya
pembeda. Pada model IRT 1PL diasumsikan
nilai a (daya pembeda) setiap soal bernilai
sama. Sedangkan pada model IRT 2PL, daya
pembeda untuk setiap soalnya berbeda
berbeda. Soal
nomor 3 merupakan
kan contoh model IRT 3PL
dan terdapat peluang menebak sebesar 0,25.
0,25
Berdasarkan soal nomor 3, dapat dilihat
seseorang yang memiliki kemampuan tinggi
memiliki peluangg untuk menjawab salah dan
sebaliknya
seseorang
yang
memiliki
kemampuan rendah masih memiliki peluang
untuk menjawab benar.
Kesesuaian Model
Kesesuaian model IRT adalah untuk
menguji karakteristik butir soal setelah
direspon oleh berbagai kemampuan peserta
pesert
tes. Uji kesesuaian (goodness
goodness of fit test
test) model
IRT dilakukan untuk setiap butir soal yang
direspon. Pengujian menggunakan statistika
(
Zij2 yang berdistribusi khi kuadrat (chi-square)
(Hambleton et al.,, 1991) dengan rumus
sebagai berikut :

dengan

1
3

Peluang

Kemampuan
Keterangan :
soal 1 (b=-1;a=1)
soal 2 (b=-1;a=0,5)
soal 3 (b=1;a=1;c=0,25)
Gambar 1. Kurva karakteristik butir dengan
bermacam-macam
macam asimtot dan
kemiringan

pij E ( pij )

z ij

E ( pij )[1 E ( pij )] N ij


m
j 1

Z ij2 m2 k

Keterangan :
pij
= proporsi jawaban benar pada butir
ke-ii dalam kelompok kemampuan
ke-j,
E(pij) = nilai harapan ,
Nij
= banyaknya peserta tes yang
merespon butir ke-ii dalam
kelompok kemampuan ke-j,
ke
k
= banyaknya
yaknya parameter dalam model,
model
m
= banyaknya kategori kemampuan
yang bergantung pada pe
pendugaan
kemampuan peserta tes.
Hipotesis nol dalam pengujian ini
menyatakan bahwa kurva karakteristik sesuai
untuk data respon butir ke-i.
i. Kesesuaian
model untuk suatu butir ditunjukkan
tunjukkan oleh nilai
khi kuadrat empiris butir yang tidak melebihi
nilai khi kuadrat teoritis.

Pemilihan Model
Analisis yang digunakan untuk memilih
model adalah likelihood ratio test (LRT). LRT
merupakan suatu uji yang membandingkan
nilai fungsi likelihood untuk dua model yang
akan diuji. Statistik uji LRT didefinisikan
dalam Wiberg (2007) sebagai berikut :

l (a )
2 ln[ l ( a ) l ( c )] (2m )
G 2 ln
l (c)
2

Keterangan :
l(a) = nilai fungsi likelihood dari model
augmented,
l(c) = nilai fungsi likelihood dari model
compact,
m = selisih jumlah parameter antara
model augmented dan model
compact.
Selain menggunakan menggunakan LRT,
pemilihan model dapat dilihat dari indeks
reliabiltas. Semakin tinggi nilai reliabilitas
maka modelnya semakin baik.
Kriteria Butir Soal
Pemilihan kriteria butir soal dilihat
berdasarkan uji kesesuaian model dan
besarnya nilai parameter butir soal yaitu daya
pembeda, tingkat kesukaran dan peluang
menebak. Menurut Lord (1980) dalam teori
respon butir, soal yang ideal adalah soal yang
memiliki daya pembeda berkisar 1 (satu) dan
peluang menebak mendekati nol. Dalam
Hambleton et al. (1991), nilai b yang
mendekati -2,00 menandakan bahwa butir soal
mudah, dan nilai b yang mendekati +2,00
berarti butir soal tersebut tergolong sukar
untuk
kelompok
tersebut.
Sehingga
disimpulkan sebagai berikut (secara ringkas
disajikan pada Tabel 1) :
1. Soal yang baik adalah model setiap soal
yang sesuai dengan model jika nilai khi
kuadrat empiris butir yang tidak melebihi
nilai khi kuadrat teoritis (nilai p > 0,05),
memiliki nilai daya pembeda berkisar 1,
peluang menebak kecil, dan tingkat
kesukaran berada di antara nilai -2, 00
sampai dengan +2,00.
2. Soal yang cukup baik adalah soal yang
sesuai model jika nilai khi kuadrat empiris
butir yang tidak melebihi nilai khi kuadrat
teoritis (nilai p > 0,05) dan salah satu
kriteria soal yang baik tidak terpenuhi.
3. Soal yang belum dapat digambarkan
adalah soal yang tidak sesuai dengan
model yang digambarkan jika nilai khi
kuadrat empiris butir lebih besar nilai khi
kuadrat teoritis (nilai p <0,05).

Tabel 1. Kriteria butir soal


Kriteria
Model

Belum
dapat
digambarkan
Nilai
p < 0,05
(uji chisquare)

Baik

Cukup
Baik

IRT
1PL

Nilai
p>
0,05;
-2b2

Nilai
p > 0,05;
b<-2 atau
b>2

IRT
2PL

Nilai
p>
0,05;
a 0.5;
-2b2

Jika salah
satu
kriteria
soal baik
tidak
terpenuhi.

Nilai
p < 0,05

IRT
3PL

Nilai
Jika salah
p > 0,05;
satu
a 0,5;
kriteria
-2<b<2; soal baik
c0,2
tidak
terpenuhi.

Nilai
p <0,05

BAHAN DAN METODE


Bahan
Penelitian ini menggunakan data yang
diperoleh dari hasil jawaban UAS Fisika TPB
IPB yang dilaksanakan pada tanggal 25 Juni
2009. Jumlah peserta ujian sebanyak 1596
siswa. Jumlah butir soal sebanyak 35 butir
soal pilihan ganda. Setiap soal memiliki lima
pilihan jawaban yaitu A, B, C, D, dan E.
Penilaian dilakukan dengan pemberian skor 1
untuk jawaban benar dan 0 untuk jawaban
salah.
Soal UAS TPB IPB mata kuliah Fisika
terdiri dari tiga bagian yaitu :
1. Soal nomor 1 sampai dengan nomor 24,
memilih satu dari lima jawaban tersedia.
2. Soal nomor 25 sampai dengan nomor 30,
analisis hubungan antar hal.
3. Soal nomor 31 sampai dengan 35, asosiasi
berganda.
Metode
Tahapan-tahapan yang dilakukan pada
penelitian ini adalah :
1. Penyiapan data berupa penginputan
jawaban peserta UAS TPB IPB untuk mata
kuliah Fisika pada tahun ajaran 2008/2009.
2. Penerapan teori uji klasik
a. Menghitung indeks tingkat kesukaran,
b. Menghitung daya pembeda,