Professional Documents
Culture Documents
ketekalan antara dua pengukuran terhadap sesuatu benda, sesuatu ciri, atau sifat
seseorang.
Secara umum, kesilapan angkubah pengukuran adalah banyak terdapat dalam skor
ujian dalam pendidikan (atau, dengan kata lain, ujian pendidikan cenderung kepada tidak
reliabel) melainkan kerja yang lebih berhati-hati dilakukan bagi menentukan aras
reliabiliti yang diterima (Martuza, 1977). Ini menunjukkan bahawa reliabiliti bukan
sahaja skor yang sama didapati walaupun orang lain yang menilainya, tetapi jika kita
harus memberikan skor yang sama juga walaupun kita menilai pada masa yang berbeza.
telah ditunjukkan oleh Dicker (1973), yang menemukan bahawa pekali korelasi hanya
0.46 apabila 24 guru memeriksa sekali dan kemudian diperiksa semula selepas tiga bulan.
Aschersleben (1971) menganalisis pemeriksaan oleh 24 guru ke atas 623 pelajar dalam
empat ujian matematik yang bersiri dan empat ujian ‘dictation’. Beliau mendapati
secara purata, nilai lebih kecil (Ingenkamp, 1977). Ini menunjukkan bahawa pemeriksaan
seseorang pemeriksa bukan sahaja tidak tekal tetapi amat berbeza di antara seorang
pemeriksa dengan pemeriksa lain. Dengan kata lain pemeriksaan mereka mempunyai
kebolehbergantungan ujian berkenaan. Ini bermaksud sesuatu ujian yang boleh dipercayai
akan menghasilkan maklumat yang tekal (merujuk kepada beberapa pentadbiran ujian
yang telah dijalankan), tepat seperti yang sepatutnya serta boleh diterima pakai tanpa
keraguan.
Pada kebiasaannya , sesuatu ukuran itu tidak lepas daripada ralat (error). Ini amat
ketara dalam prestasi fizikal. Jauh lompatan seseorang misalnya, tidak sentiasa sama
kerana pengaruh halaju angin keadaan fizikalnya, keadaan atau jenis kasut yang dipakai,
latihan, larian atau sebagainya. Sedangkan berat seseorang pun boleh berubah dalam satu
Indeks ini ditentukan dengan menggunakan kaedah korelasi antara dua set markat ujian.
Sesuatu pengukuran itu apabila diulangi dan jika dengan keputusan yang sama
merupakan pengukuran yang boleh dipercayai. Oleh yang demikian korelasi di antara
skor ujian dengan skor ulang-uji dianggap sebagai satu anggaran kebolehpercayaan ujian
yang diukur. Ukuran yang boleh diulangi dengan keputusan yang sama adalah sangat
bermakna dan ukuran itu dianggap stabil. Oleh itu korelasi uji-ulang- uji dirujukkan
Dalam penggunaan kaedah uji-ulang- uji dua faktor yang patut diambil kira, iaitu
tempoh masa antara uji dan ulang-uji dan kestabilan pembolehubah yang berkenaan . Ini
2 2 2
(C)
S = S+S
p b s
S
2
r =
b
2 (D)
S p
S 2
r =1−
s
(E)
2
S p
kebolehpercayaan lebih-lebih lagi kalau tempoh masa antara uji dan ulang uji itu adalah
Jika ini berlaku nilai p akan menjadi lebih besar daripada apa yang
sebenarnya. Ini menyebabkan nilai r yang diperoleh , satu anggaran yang lebih
tinggi . Nilai anggaran yang tinggi ini boleh dikurangkan kalau tempoh masa antara uji
dan ulang-uji itu dipanjangkan. Kalau masa antara uji-ulang- uji panjang, faktor yang
Turun naik skor benar bagi sesuatu pembolehubah bergantung kepada stabilitinya
. Pembolehubah afektif atau personaliti misalnya, konsep diri, bimbingan dan sebagainya
berubah semakin banyak apabila tempoh masa antara dua pengukurannya semakin lama.
Pembolehubah domain kognitif adalah lebih stabil tetapi akan juga mengalami perubahan
dengan peredaran masa. Maka boleh dikatakan secara am, kalau tempoh masa antara uji
dan ulang-uji itu adalah panjang varians turun naik skor benar diukur sebagai varians
2
persamaan ( E ) telah menjadi lebih besar daripada yang sebenarnya. Akibat r yang
didapati telah menjadi kurang besar daripada yang sebenarnya atau satu satu anggapan
yang agak kurang. Kesan stabiliti atas anggaran kebolehpercayaan dapat diminimunkan
Boleh dikatakan bahawa kesan ingatan dan kesan turun naik skor benar adalah
dua perkara bertentangan dan satu imbangan antara kedua-dua faktor itu patut dicapai
dalam menentukan masa di antara uji dan ulang-uji. Di samping itu stabiliti
pembolehubah yang berkenaan juga perlu dipertimbangkan. Ujian yang tinggi tahap
stabil. Misalnya, pembaris adalah boleh dipercayai tetapi jarak yang dilompat oleh
seseorang juga berubah dengan beberapa kali lompatan.Kalau kaedah uji -ulang-uji itu
digunakan, tempoh masa di antara uji dan ulang-uji itu harus dinyatakan secara eksplisit.
Untuk ujian praktikal beberapa bantahan umum telah dibangkitkan tentang uji ulang-uji.
Di antaranya ialah:
ii. Ujian pertama sudah pasti mempengaruhi ulang-uji. Oleh itu kesannya
iii. Kalau tempoh masa di antara uji dan ulang-uji itu adalah panjang,
iv. Uji ulang-uji tidak menarik kepada semua pihak termasuk calon ujian.
Minat calon akan menurun dalam ujian ulangan. Apakah makna kesan itu?
Akan tetapi kaedah ini jarang atau tidak langsung digunakan dalam sekolah.
Kaedah ujiian setara ini menggunakan prosedur yang sama dengan kaedah uji
ulang-uji. Yang berlainan sedikit ialah ujian yang digunakan dalam ulang -uji
ialah ujian setara. Ujian setara bolehlah dianggap sebagai satu persampelan
daripada populasi item yang sama. Item-item daripada ujian setara ini mempunyai
aras kesukaran yang sama , dan seharusnya juga mengukur pembolehubah yang
sama. Di samping itu semua arahan, cara pentadbiran ujian, cara respondan
sebagainya adalah sama untuk semua ujian setara. Walaupun ujian setara
mengukur pembolehubah yang sama , ujian itu dibentuk sebegitu rupa supaya
kesan dari ujian yang pertama tidak akan mempengaruhi keputusan ujian setara,
yakni ujian yang kedua. Salah satu langkah untuk menjamin hasrat ini ialah
Tiga indeks statistik yang penting dan biasa digunakan untuk menguji
sama ada ujian itu setara atau tidak ialah min, varians, dan korelasi. Andainya dua
ujian atau lebih itu dikatakan ketara maka seharusnya min, varians, dan korelasi
antara ujian itu sama sahaja. Sifat-sifat ini adalah diandaikan benar, lebih-lebih
lagi jika ujian-ujian setara dianggap sebagai ujian –ujian yang mempunyai
bilangan item yang sama dan item-item itu dipilih secara rawak daripada satu
populasi item. Ini bermakna ujian-ujian itu adalah ujian-ujian setara secara rawak.
Korelasi di antara dua keputusan daripada dua ujian setara digunakan sebagai anggaran
ukuran tentang kesetaraan di antara dua ujian setara. Oleh itu, korelasi di antara dua ujian
Terdapat juga satu lagi jenis ujian setara yang berlainan sedikit. Ujian setara
berpadan yang mempunyai semua sifat di atas termasuk ciri tiap-tiap item dalam satu
ujian setara berpadan yang dipadankan dengan yang sama isi dari ujian asal.
Sama seperti kaedah uji –ulang-uji, kaedah ujian setara juga menghadapi
beberapa bantahan yang agak serupa. Biasanya ujian setara juga tidak dipraktikkan di
sekolah untuk tujuan mencari kebolehpercayaan. Mungkin keperluan itu tidak dirasai
Ini memerlukan ujian dua kali. Kaedah uji-ulang-uji dan ujian setara pada dasarnya
memenuhi keperluan ini tetapi kaedah-kaedah itu menghadapi banyak bantahan. Kaedah
ujian bahagi dua diwujudkan untuk mengatasi bantahan-bantahan itu dan telah menjadi
kaedah ini prinsip-prinsip pengujian dua kali dipenuhi dengan membahagikan satu ujian
kepada dua ujian setara yang sama panjangnya. Bilangan item dalam setiap separuh ujian
itu adalah setengah bilangan item daripada ujian asal. Dengan itu calon-calon tidak perlu
mengambil dua ujian sama atau diuji dua kali dalam perkara yang sama. Perbelanjaan,
tenaga kerja dan masa tambahan tidak diperlukan lagi. Hanya ada satu kelemahan kecil
yang ditemui. Kebolehpercayaan yang didapati ialah untuk ujian yang panjangnya adalah
setengah daripada ujian asal. Tetapi anggaran kebolehpercayaan ujian asal itu dapat
Ujian boleh dibahagikan kepada dua ujian pendek yang setara dengan mudah.
Kedua-dua ujian setara itu haruslah memenuhi tiga sifat yang disebutkan . Kalau sesuatu
ujian asal itu adalah sejenis, yakni semua butir adalah mengukur trait yang sama , maka
ujian asal boleh dibahagikan kepada ujian separuh bahagian yang atas dan ujian separuh
bahagian yang bawah. Misalnya bagi ujian yang mempunyai 24 item, item nombor 1
hingga 12 menjadi ujian separuh atas dan item nombor 13 hingga 24 menjadi ujian
separuh bawah. Ujian asal boleh dibahagikan kepada dua separuh berdasarkan item
ganjil-genap. Dengan menggunakan contoh tadi, item nombor 1,3,5…23 termasuk dalam
separuh ganjil dan item nombor 2,4,6….24 termasuk dalam separuh genap. Lain-lain
kombinasi boleh juga digunakan kalau sekiranya bilangan item dalam dua separuh ujian
Jikalau item-item ujian itu tidak sejenis, atau tidak sama aras kesukaran serta
kuasa diskriminasi , susunan item-item dalam ujian asal harus disusun semula mengikut
kesukaran item. Kemudian susunan baru ini digunakan sebagai asas dalam pembahagian
ujian kepada dua separuh yang sama dengan cara item ganjil-genap. Ini menjamin yang
kedua-dua ujian separuh itu mempunyai min dan varians yang sama.
Untuk ujian aneka jenis (item-itemnya beraneka jenis dalam isi) kedua-dua ujian
separuh yang dipilih harus setara dan sepadan. Ini bermakna bahawa ujian-ujian separuh
bahagi dua adalah seperti berikut. Katakan lima orang murid mengambil ujian dan skor-
JADUAL 1
PELAJAR
A B C D E
1 Jumlah markah untuk item ganjil (x) 1 2 3 4 5
2 Jumlah markah untuk item genap (y) 2 1 5 3 4
3 Perbezaan (x – y ) -1 1 -2 1 1
4 Jumlah ( x + y ) 3 3 8 7 9
Mengaplikasikan cara hasil darab momen ( atas baris 1 dan 2 ) korelasi untuk ujian
separuh ( r1 ) = 0.6
r2 = 2 ×0.6
1 +0.6
= 0.75
Satu interpretasi dari sudut yang berlainan terhadap kolerasi yang diperoleh daripada
kaedah ini ialah kita menganggapkan yang korelasi ini mencerminkan ‘ketekalan dalam’
ujian. Kaedah Rulon (1939) ialah satu lagi cara yang boleh mengganggarkan ‘ketekalan
dalam’ seperti kaedah bahagi dua.Di sini satu andaian khas dibuat oleh Rulon tentang
separuh menunjukkan amaun selisihan, pengukuran, jadi varians perbezaan di antara dua
2
S = Varians perbezaan antara dua ujian separuh.
s
2
= S
(x-y)
2 2
s (x-y)
(x-y)
2 2
(x+y
p )
2 160 2 40
Keputusan : S = dan S =
(x-y) 25 (x+y) 25
40 / 25
Dan r=1 - = 0.75
160 / 25
Yang menarik di sini ialah , walaupun Rulon menggunakan kaedah yang
berlainan tetapi r yang diperoleh adalah sama dengan nilai r yang dikira dengan cara
Kaedah Guttman pula adalah satu kaedah yang berasaskan kaedah Rulon .
prinsip dan andaian cara Rulon telah mendapatkan formula bahawa kebolehpercayan satu
(S + S)
X y
R = 2 [1 – 2
]
S
X+y
R = 2 [1 – 2 + 2 ]
5
2 = [ ]
8
= 0.75
Perhatikan di sini bahawa prosedur yang digunakan dalam kaedah cantuman ini
adalah lebih mudah daripada kaedah Rulon. Ini disebabkan perbezaan di antara kedua-
dua ujian separuh tidak diperlukan lagi. Keputusan yang didapati secara ini juga sama
dengan yang diperoleh dengan cara Rulon dan cara ujian bahagi dua. Ini berlaku kalau
varians kedua-dua ujian separuh adalah sama seperti dalam contoh ini. Dalam ujian
apabila varians tidak sama , r dari cara ujian bahagi dua dan cara Guttman adalah sama
dan kedua-duanya lebih daripada r yang diperoleh dari cara Rulon. Tetapi pada lazimnya
perbezaan di antara r yang didapati dari tiga cara itu adalah kecil sahaja.
Dalam kaedah ujian bahagi dua, ujian dibahagi kepada dua separuh ujian setara.
Prinsip ini dapat digunakan untuk membahagikan suatu ujian kepada beberapa ujian yang
setara yang mana bilangannya adalah sama dengan bilangan item yang terdapat dalam
ujian itu. Di sini tiap-tiap item itu dianggap sebagai suatu ujian. Kalau begitu ujian yang
mempunyai 100 item bolehlah dibahagikan kepada 100 ujian kecil yang setara. Kuder
dan Richardson dalam tahun 1937 dengan membuat beberapa andaian telah mencipta satu
cara baru untuk menganggarkan kebolehpercayaan suatu ujian. Cara ini dianggap lebih
teknikal daripada cara lain. Kaedah ini juga popular untuk menganggarkan
seperti berikut:
n = bilangan items
2
Kebolehpercayaan r = S = varians item i
i
2
S = varians jumlah skor
Anuarp bin Salleh – 66907
dan varians
Rosli bin Abdullah perhatikan
- 66900
GS3073– Pengukuran Dan Penilaian Dalam Pendidikan 13
Dan kalau hanya dua kemungkinan boleh terjadi bagi tiap-tiap item
Tetapi , jika diandaikan bahawa tiap-tiap item mempunyai kekerapan jawapan yang betul
/ salah yang sama ( iaitu p = p ) atau aras kesukaran tiap-tiap item adalah sama , maka
i j
∑ piqi
1
= n p q , p = min p , q = min q
i i
2 n = bilangan butir
S − n pq M = Min
n p
Kemudian r = 2
n −1 2 S = varians perhatikan
S p
p
M2
n n
Atau = 1−
n −1 2
S
p
Contoh kiraan: Ujian mempunyai 10 butir objektif p = 0.6 bermakna 0.6 bilangan murid
menjawab betul.
Butir 1 2 3 4 5 6 7 8 9 10
0.7 0.8 0.8 0.8 0.6 0.6 0.7 0.7 0.6 0.7
Perkadaran p
i
Jawapan betul
0.3 0.2 0.2 0.2 0.4 0.4 0.3 0.3 0.4 0.3
Perkadaran q
i
Jawapan salah
0.21 0.16 0.16 0.16 0.24 0.24 0.21 0.21 0.24 0.21
p q
i i
10
Maka ∑ piqi
1
= 2.04, p =0.7, q = 0.3
2
Kalau S = 6 (katakan)
p
10
∑p q
n i i
Maka r = 1− 1 KR-20
n −1 2
S
p
10 2.04
= 1 −
9 6
10
= (1 − 0.34)
9
=0.733
n n pq
r= 1−
n −1 2
S
p
10 10 × 0.7 × 0.3
= 1−
9 6
10 2.1
= 1 −
9 6
10
= (1 − 0.35)
9
=0.722
Perhatikan bahawa r dikira dengan KR-20 dan KR-21 adalah hampir sama. Ini adalah
Ringkasan
Bagi menganggarkan kebolehpercayaan ujian dua faktor harus diambil kira, faktor
pertama ialah jenis ujian, sama ada ujian itu terdiri daripada item aneka jenis atau sejenis.
Faktor kedua ialah tentang aspek kebolehpercayaan yang ditegaskan atau dipersoalkan,
iaitu sama ada stabiliti atau ketepatan atau ketekalan dalam ? Oleh sebab
kebolehpercayan merupakan sesuatu yang relatif dan juga berbeza-beza dari masa ke
semasa, situasi dan populasi, adalah lebih baik jika kebolehpercayaan ujian itu
didapatkan dengan cara yang berlainan. Maka untuk kegunaan penyelidikan dan ujian
terstandard yang mana skor benar diutamakan, ujian yang digunakan haruslah
mestilah dikemaskinikan dari semasa ke semasa. Ini dibuat untuk menjamin bahawa
kebolehpercayaan itu masih boleh di pakai dengan penuh keyakinan pada masa ujian itu
digunakan.
yang sesuai dengan jenis ujian dan aspek kebolehpercayaan yang terlibat.
kebolehpercayaan
Ketepatan dan stabiliti Uji-ulang-uji Uji-ulang-uji
Markat benar - -
ketepatan Ujian setara KR20
Ketekalan dalam Ujian bahagi dua Rulon, Ujian bahagi dua berpadan.
Seperkara yang penting yang perlu dipersoalkan ialah tentang saiz, koefisien
kebolehpercayaan yang diperoleh daripada mana-mana ujian. Berapakah nilai yang boleh
Sebenarnya tiada jawapan yang lengkap dan memuaskan dapat diberi bagi persoalan
tersebut akan tetapi , di kalangan ujian yang sah ujian yang mempunyai indeks
kebolehpercayan terbesar merupakan ujian yang lebih diutamakan dan menjadi pilihan.
Ini juga bergantung kepada kegunaan maklumat yang diperoleh daripada ujian itu.
Pengguna maklumat atau ujian menentukan taraf kejituan yang dikehendaki dan memilih
ujian yang sesuai untuk tujuannya. Biasanya untuk pengukuran dan membuat keputusan
daripada 0.75 adalah kurang memuaskan . tetapi dalam kes lain untuk tujuan ramalan satu
kumpulan yang saiznya lebih daripada 25 ( n = 25)r = 0.3 mungkin boleh diterima.
nilai r haruslah lebih daripada 0.8 dan untuk pembolehubah personaliti dan afektif seperti
Akhir kata, ujian yang mempunyai kebolehpercayaan tinggi boleh dianggap hanya
mengukur apa yang ujian itu mengukur dengan tepat. Tetapi ujian itu tidak semestinya
mengukur apa yang harus diukur. Dengan kata lain kebolehpercayaan tidak semestinya
Rujukan Istilah:
Bibliografi
Lee Shok Mee dan Mook Soon Sang (1989). Pengujian dan penilaian dalam pendidikan,
Mohd. Majid Konting. (1998). Kaedah penyelidikan pendidikan. Kuala Lumpur : Dewan
Mokhtar Ismail (1995).Penilaian di bilik darjah. Kuala Lumpur: Dewan Bahasa &
Pustaka.
Yap Yee Khiong et al. (1985). Pengukuran dan penilaian dalam pendidikan. Selangor