You are on page 1of 34

KESESUAIAN

ITEM DAN KEBOLEHPERCAYAAN

Sejauh

mana alat tersebut dapat mengukur apa yang sepatutnya diukur oleh alat tersebut (Hanna & Dettmer,2004). Ciri kesahan bagi sesuatu alat ukuran adalah amat penting supaya alat ukuran tersebut dapat mengukur apa yang hendak diukur.

Alat yang dibina untuk mengukur sikap, hendaklah berupaya mengukur sikap, dan bukannya konstruk lain, seperti minat atau motivasi. Ujian diagnosis adalah tidak sah digunakan untuk tujuan penggredan. Dalam bidang bahasa,misalnya, ujian ejaan hanyalah sah, sekiranya ia benar-benar dapat mengukur kebolehan mengeja; ujian mendengar hanyalah sah, sekiranya ia dapat mengukur kemahiran mendengar.

Contoh: mengenal pasti di antara kecergasan pernafasan kardio dan kebolehan bermain tenis. Contoh: Ujian kecergasan tidak boleh digunakan untuk menentukan kemahiran dalam permainan tenis.

Mehrens

dan Lehmann (1991) - empat jenis kesahan (1) kesahan kandungan (content validity), (2) kesahan konstruk (contruct validity), (3) kesahan muka (face validity), dan (4) kesahan hubungan kriteria(criterionrelated validity).

Sejauh mana sesuatu alat ukuran itu mencakupi kandungan pelajaran yang telah ditetapkan. Kesahan kandungan adalah penting, terutama bagi ujian pencapaian, sebab markah yangdiperolehi pelajar akan menunjukkan tahap pencapaian pelajar tersebut bagi kandungan pelajaran tertentu. Sekiranya soalan ujian tidak meliputi secukupnya kandungan pelajaran tersebut, penilaian terhadap pencapaian pelajar menjadi tidak sah/bais.

Beberapa

kaedah boleh diguna untuk meningkatkan kesahan kandungan, seperti merujuksemula kepada buku rekod pengajaran dan juga sukatan pelajaran.

Guru

boleh menggunakan Jadual Penentuan Ujian (JPU) dan membina soalan-soalan ujian mengikut jadual tersebut. Kaedah-kaedah ini dapat memastikan soalan-soalan ujian mewakili semua objektif pengajaran serta semua tajuk dan kemahiran yang telah diajar.

1.Pengetahuan Memerlukan calon mengingat semula. Contoh kata kerja: Labelkan (label) , Senaraikan (list), Nyatakan (state), Pilih (select), Ingat kembali (recall), Susun (arrange), Hasilkan semula (reproduce), Hubungkaitkan (relate), Beri definisi (define), Huraikan (describe).

2. Kefahaman Memerlukan calon

memahami dan menghuraikan fakta serta memberi contoh atau illustrasi. Contoh kata kerja: Terangkan (explain), Huraikan (describe), Ramalkan (predict), Tukarkan (change), Nyatakan semula (restate), Ringkaskan (summarise), Kaji semula (review), Bincangkan (discuss), Kenalpastikan (identify), Laporkan (report), Terjemahkan (translate).

3. Aplikasi Memerlukan calon menyelesaikan masalah nonroutine atau masalah baru. Ciri soalan adalah problem-solving. Masalah diselesaikan dengan cara tersendiri menggunakan gabungan teori, pengalaman dan pelbagai kaedah penyelesaian masalah yang mempunyai unsur persamaan. Contoh kata kerja: Aplikasikan (apply), Tunjukkan (show), Kelolakan (organise), Kaitkan (relate), Tafsirkan (interpret), Selesaikan (solve), Lakarkan (sketch), Terapkan (adopt), Jadualkan (schedule).

4. Analisis Memerlukan calon menganalisis, memecah/mencerakinkan fakta untuk mengkaji unsurunsurnya secara mendalam termasuk membanding, membeza, mengupas dan membukti. Contoh kata kerja: Analisis (analyse), Taksirkan (appraise), Hitungkan (calculate), Bandingkan (compare), Kategorikan (categorise), Diskriminasikan (discriminate), Kaji (examine), Lakarkan (sketch), Kenalpastikan (identify), Buat kesimpulan (infer), Bahagikan (Subdivide), Tunjukkan (point out), Gariskan (outline), Bezakan (distingush/contrast), Buktikan (prove)

5. Sintesis Memerlukan calon merancang, mereka/mencipta dan menghasilkan sesuatu yang kreatif yang menggabungkan pelbagai unsur. Ini termasuk penghasilan sesuatu rancangan, rumusan, kaedah/prosedur, atau cadangan. Contoh kata kerja: Susunkan (arrange), Bentukkan (formulate), Aturkan (organise), Bina (build), Gambarkan (illustrate), Ubah (change), Karang (compose), Pasang (assemble), Semak (revise), Buat hipotesis (hypothesise), Ramalkan (predict), Uruskan (manage), Susun semula (reorder), Himpunkan (collect), Hasilkan (produce), Rancangkan (plan), Sediakan

6. Penilaian Memerlukan calon menilai, membuat pertimbangan atau justifikasi untuk mencapai atau mendapatkan sesuatu kesimpulan. Calon perlu melihat fakta dari aspek pro dan cons semasa membuat penilaian. Contoh kata kerja: Taksirkan (evaluate), Nilaikan (appraise), Pertimbangkan (justify), Gredkan (grade), Sokong (support), Utamakan (prioritise), Arbitrasikan (arbitrate), Pertahankan (defend), Syorkan (recommend), Simpulkan (conclude), Ramalkan (predict), Kritik (criticize).

Kesahan

konstruk/gagasan merujuk kepada sejauh mana sesuatu alat ukuran itu dapat mengukur sesuatu konstruk/gagasan berasaskan teori Contoh, alat yang dibina untuk mengukur konstruk sabar sepatutnya dapat mengukur konstruk ini dengan baik. Contoh: Kemahiran

muka bukanlah kesahan seperti definisinya yang kita fahami, tetapi ia lebih kepada sesuatu alat ukuran nampak pada permukaannya mempunyai kesahan yang tinggi. Ini bermaksud, sekali pandang, nampak alat ukuran itu sah, atau orang biasa/tidak terlatih nampak alat ini sebagai sah.
Kesahan

Bagaimanapun, kesahan muka mempunyai kepentingannya sendiri, mempengaruhi orang yang menjawab item inventori merasa yakin terhadap inventori tersebut. Sekiranyainventori ini dirasakan tidak sesuai, besar kemungkinan orang tidak akan menjawab item-itemnya secara serius, skornya dirasakan tidak sah dan, dengan demikian, tidakboleh digunakan. Sebaliknya, kesahan muka juga memberikan masalah kepada kesahan konstruk dan kesahan berkaitan kriteria, sebabnya, apabila seseorang itu mengetahui siapa yang ingin diukur, dia akan memberikan jawapan yang sentiasa positif.

Merujuk

kepada sejauh mana sesuatu alatukuran itu dapat menghasilkan skor yang mempunyai hubungan dengan beberapa ukuran luaran (kriteria).

Ukuran

luaran ini boleh dibahagikan kepada dua jenis, iaitu pertama, ukuran serentak (concurrent measure), iaitu apabila ukuran luaran diambil serentak dengan ukuran alat;dan kedua, ukuran ramalan (predictive measure), iaitu apabila ukuran luaran diambilselepas ukuran alat. Daripada ukuran-ukuran luaran ini, kita boleh mencari kesahan serentak dan kesahan ramalan seperti berikut.

Kesahan serentak merujuk kepada sejauh mana sesuatu alat ukuran itudapat menghasilkan skor yang mempunyai hubungan dengan ukurandaripada alat lain yang diambil serentak. Sebagai contoh, sekiranya alat ukuran kecerdasan A menghasilkan skor yangmempunyai hubungan (pekali korelasi tinggi) yang kuat dengan skor daripada alatukuran kecedasan B, maka alat A dikatakan mempunyai kesahan serentak yangtinggi. Dengan demikian, alat A boleh mengganti alat B untuk mengukur kecerdasan

Kesahan ramalan merujuk kepada sejauh mana sesuatu alat ukuran itudapat menghasilkan skor yang mempunyai hubungan dengan ukurandaripada alat lain yang diambil kemudian Sebagai contoh, sekiranya ujian percubaan matematik menghasilkan markah yangmempunyai hubungan yang kuat dengan gred matematik SPM, maka ujian matematikpercubaan dikatakan mempunyai kesahan ramalan yang tinggi. Ini bermaknapencapaian pelajar dalam ujian percubaan dapat meramal keputusan SPM.

Bagaimanapun, kesahan muka mempunyai kepentingannya sendiri, mempengaruhi orangyang menjawab item inventori merasa yakin terhadap inventori tersebut. Sekiranyainventori ini dirasakan tidak sesuai, besar kemungkinan orang tidak akan menjawab itemitemnya secara serius, skornya dirasakan tidak sah dan, dengan demikian, tidakboleh digunakan. Sebaliknya, kesahan muka juga memberikan masalah kepada kesahankonstruk dan kesahan berkaitan kriteria, sebabnya, apabila seseorang itu mengetahuisapa yang ingin diukur, dia akan memberikan jawapan yang sentiasa positif.

Ketekalanukuran-ukuran

(consistency of measures) yang dihasilkan oleh alat tersebut(Hanna & Dettmer, 2004). - Justeru, kebolehpercayaan ujian bermaksud ketekalan markah-markah yang dihasilkan oleh ujian tersebut

Darjah ketekalan ukuran-ukuran boleh ditentukan dalam pelbagai keadaan, misalnya, apabila ujian yang sama diambil oleh pelajar kali kedua, ujian yang sama ditadbirkan oleh guru lain,ujian yang sama diambil oleh pelajar pada waktu yang berbeza (pagi/petang), jawapan kepadaujian yang sama diperiksa oleh pemeriksa yang berbeza. Ujian yang baik/sesuai adalah ujianyang mempunyai darjah ketekalan (degree of consistency) yang tinggi, iaitu markah/skoryang dihasilkan adalah hampir sama dalam apa jua keadaan.

Dari

segi definisi operasi, pekali/indeks kebolehpercayaan boleh dikira/dianggar (compute/estimate) dengan menggunakan pekali korelasi antara dua (2) ukuran yang boleh dikira menggunakan pelbagai kaedah

Seperti julat pekali korelasi, julat indeks kebolehpercayan juga adalah antara -1.00 hingga + 1.00. Indeks kebolehpercayaan negatif menunjukkan ketekalan yang songsang, iaitu pelajar yang mendapat skor tinggi dalam ujian kali pertamaakan mendaapat skor yang rendah dalam ujian kali kedua, dan sebaliknya. Kita berharap keadaan begini tidak berlaku dalam mana-mana ujian. Kebiasaannya indeks kebolehpercayaan bernilai positif, dan bagi kebanyakan ujian, indeks antara 0.65 dan 0.85 adalah memadai.

Sebagai panduan, kebolehpercayaan ujian boleh ditafsirkan mengikut indeks (r) seperti yangditunjukkan dalam Jadual 5.5.Seterusnya, Mehrens dan Lehmann (1991) menyenaraikan lima jenis kebolehpercayaan danjuga kaedah menentukan indeksnya. Jenis-jenis kebolehpercayaan tersebut ialah: (1) UkuranKestabilan (Measure of Stability), Ukuran Kesetaraan (Measure of Equivalence), (3) UkuranKesetaraan dan Kesetabilan (Measure of Equivalence and Stability ), (4) Ukuran KetekalanDalaman (Measure of Internal Consistency), dan (5) Kebolehpercayaan Pemeriksa (ScorerReliability). Jenis-jenis kebolehpercayaan, kaedah pengukuran dan kaedah pengiraan indekskebolehpercayaan berkenaan dijelaskan dalam bahagian berikut.

Jadual

5.5: Indeks Kebolehpercayaan dan Pengkelasan Ujian Nilai Nilai (r) Pengkelasan Ujian < 0.20 Tidak baik 0.21 0.40 Kurang baik 0.41 0.60 Sederhana baik 0.61 0.80 Baik 0.81 1.00 Sangat baik

Mehrens dan Lehmann (1991) menyenaraikan lima jenis kebolehpercayaan dan juga kaedah menentukan indeksnya. Jenis-jenis kebolehpercayaan tersebut ialah: (1) Ukuran Kestabilan (Measure of Stability), Ukuran Kesetaraan (Measure of Equivalence), (3) Ukuran Kesetaraan dan Kesetabilan (Measure of Equivalence and Stability ), (4) Ukuran Ketekalan Dalaman (Measure of Internal Consistency), dan (5) Kebolehpercayaan Pemeriksa (Scorer Reliability).

Ukuran

Kestabilan, yang juga dipanggil anggaran kebolehpercayaan uji-uji semula (test-restest estimate of reliability) boleh dikira dengan memberikan ujian yang sama sekali lagi kepada kumpulan pelajar yang sama selepas ujian pertama ditadbirkan, dan seterusnya, mengira pekali korelasi Pearson antara dua/pasangan skor yang diperoleh setiap pelajar.

Berbeza daripada kaedah uji-uji semula yang menggunakan ujian yang sama, Ukuran Kesetaraan [atau Ukuran Keselarian (parallel)] dikira dengan memberikan dua (2) ujian yang berbeza tapi setara (kesamaan dari segi kandungan, Jadual Spesifikasi Ujian, format soalan dan arahan menjawab serta min, varians dan interkorelasi skor) kepada kumpulan pelajar dan hari yang sama, dan seterusnya, mengira pekali korelasi Pearson antara dua/ pasangan skor yang diperoleh setiap pelajar.

Ukuran Kesetaraan ini akan menggambarkan tahap keyakinan kepada kita untuk membuat generalisasi skor yang akan diperoleh pelajar, sekiranya mereka diberi ujian yang terdiri daripada item-item lain yang setara dengan item-item ujian yang telah diberikan. Ujian yang setara ini penting sekiranya seseorang penyelidik enggan menggunakan soalan yang sama sebagai ujian-pra dan ujian-pos (untuk mengelak daripada pelajar menghafal jawapan). Dalam hal ini, dua ujian yang setara boleh digunakan, satu sebagai ujian-pra dan satu lagi sebagai ujian-pos. Selain itu, ujian yang setara juga boleh digunakan untuk menguji dua kumpulan pelajar yang berbeza pada berlainan masa.

Ada kalanya kita ingin melihat ketekalan pencapaian seseorang pelajar untuk jangkamasa yang panjang dengan menggunakan ujian yang berbeza. Justeru, kaedah yang sesuai untuk membuat pengukuran ini ialah dengan mentadbirkan ujian kedua yang setaradengan ujian pertama (Ukuran Kesetaraan) pada suatu masa yang lain (UkuranKestabilan). Kebolehpercayaan ini, yang merangkumi Ukuran Kesetaraan dan UkuranKestabilan, dinamakan Ukuran Kesetaraan dan Kestabilan. Indeks kebolehpercayaanini boleh ditentukan oleh pekali korelasi Pearson antara dua/pasangan skor yang diperolehsetiap pelajar, iaitu skor ujian pertama dan skor ujian kedua yang ditadbirkan kemudian

Berbeza daripada ketiga-tiga ukuran ketekalan yang dijelaskan sebelum ini, Ukuran Ketekalan Dalaman boleh ditentukan dengan menggunakan sekali ujian sahaja. Salah satu daripada kaedah yang digunakan untuk mengukur ketekalan dalaman ialah dengan membelah/memecahkan ujian kepada separuhseparuh (split-half), iaitu separuh pertama dan separuh kedua. Ukuran Ketekalan Dalaman Belah-Dua ini dapat menggambarkan kesetaraan dalaman ujian, iaitu antara separuh pertama dengan separuh kedua sesuatu ujian.

Kebolehpercayaan

pemeriksa bermaksud ketekalan ukuran/skor yang diberikan oleh dua atau lebih pemeriksa apabila memeriksa kertas jawapan yang sama. Kebolehpercayaan ini tidak diperlukan bagi ujian berbentuk objektif, sebab jawapan kepada setiap soalan dalam ujian bentuk ini adalah sama, iaitu perbezaan skor antara pemeriksa tidak wujud (biasanya jawapan diperiksa oleh komputer sahaja).

Beberapa

faktor didapati mempengaruhi kebolehpercayaan ujian, termasuk panjang ujian, kehomogenan kumpulan, kesukaran item dan objektiviti jawapan.

You might also like