You are on page 1of 18

129

Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

B
Baabb 77
K
KE
EU
UTTU
UH
HA
AN
ND
DA
AN
NK
KE
ES
SA
AH
HA
AN
N TTE
EK
KN
NIIK
KP
PE
EN
NTTA
AK
KS
SIIR
RA
AN
N
Di akhir bab ini, anda harus boleh:

Menerangkan konsep markah sebenar


Membezakan berbagai teknik-teknik menganggar keutuhan ujian
Memberzakan berbagai teknik-teknik menentukan kesahan ujian
Membincangkan hubungan di antara keutuhan dan kesahan

BAB SEPINTAS LALU

7.1
7.2
7.3
7.4

Apakah itu Kesahan?


Unit Pekali Keutuhan
Kaedah menganggar Keutuhan
Keutuhan Inter dan Intrapemeriksa
7.5 Jenis Kesahan
7.6 Faktor-faktor Mempengaruhi
Keutuhan dan Kesahan
7.7 Hubungan di antara Keutuhan
dan Kesahan
7.8 Ringkasan
Istilah Penting
Rujukan

Bab 1: Pengenalan
Bab 2: Memutuskan apa yang akan
ditaksir
Bab 3: Mentaksir Hasil Pembelajaran
Menggunakan Ujian Objectif
Bab 4: Mentaksir Hasil Pembelajaran
Menggunakan Ujian Karangan
Bab 5: Mentaksir Hasil Pembelajaran
Menggunakan Projek dan Amali
Bab 6: Mentaksir Hasil Pembelajaran
Menggunakan Pencerapan, Ujian
Lisan, dan Portfolio
Bab 7: Kebolehpercayaan dan Kesahan
Kaedah Pentaksiran
Bab 8: Analisis Item
Bab 9: Analisis Pemarkahan Ujian dan
Melaporkan Pentaksiran Pelajar

Kita telah membincangkan berbagai kaedah mentaksir prestasi pelajar menggunakan


ujian objektif, ujian esei, projek, amali, senarai semak pemerhatian, ujian lisan dan
pentaksiran portfolio. Dalam bab ini kita akan menangani dua isu penting, iaitu;
keutuhan dan kesahan kaedah-kaedah pentaksiran tersebut. Bagaimanakah kita
memastikan bahawa teknik-teknik yang kita gunakan untuk mentaksir pengetahuan,
kenahiran dan nilai pelajar adalah sah dan utuh? Kita membuat keputusan yang
penting tentang keupayaan dan kebolehan generasi akan datang dan tentunya kita
ingin memastikan bahawa kita membuat keputusan yang betul.

130
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran
7.1 APAKAH ITU KEUTUHAN?

Anda memberikan ujian matematik kepada sekumpulan pelajar Tingkatan IV


dan salah seorang pelajar bernama Keng Yap telah mendapat markah 66% dalam
ujian tersebut. Sejauhmanakah anda pasti bahawa itulah sebenarnya markah yang
Keng Yap harus terima? Adakah itu markah sebenar dia? Apabila anda membina
sebuah ujian dan melaksanakannya kepada pelajar-pelajar anda, anda cuba untuk
mengukur mengukur markah benar pelajar. Markah sebenar merupakan suatu konsep
yang hipotetikal tentang keupayaan sebenar, kecekapan dan kemampuan seorang
individu. Sebuah ujian cuba mengukur markah sebenar seseorang. Apabila mengukur
keupayaan manusia, adalah hampir mustahil untuk membina sebuah ujian yang bebas
kesalahan kerana kesalahan tentu ujud. Walau bagaimanapun, hanya kerana terdapat
kesalahan, ini tidak bermaksud bahawa ujian tersebut tidak bagus. Yang lebih penting
adalah saiz kesalahan itu.
Markah Sebenar = Markah Diperhatikan + Kesalahan
Kesalahan mungkin timbul daripada beberapa sumber seperti daripada dalam
ujian yang diambil oleh pelajar, (e.g. soalan tidak jelas), dalam pentadbiran ujian
ataupun semasa memberi markah (atau menanda). Kepenatan, sakit, nasib baik
semasa meneka, arahan yang lemah, meniru ataupun ternampak jawaban pelajar lain
semuanya menyumbang kepada kesalahan dalam pengambil ujian. Sesetengah
daripada ini akan mengurangkan nilai markah sebenar manakala sesetengah yang lain
akan mempertingkatkannya. Sebagai contoh, kepenatan akan menyebabkan markah
diperhatikan lebih rendah daripada markah sebenar manakala meniru akan
menyebabkan markah diperhatikan menjadi lebih tinggi daripada markah sebenar.
Umumnya, lebih kecil kesalahan, lebih hampir kemungkinan anda mengukur
markah sebenar pelajar. Sekiranya anda yakin bahawa ujian matematik anda (markah
diperhatikan) mempunyai kesalahan yang kecil,
maka anda boleh dengan yakin membuat inferensi
bahawa markah Keng Yap 66% adalah hampir
dengan markah sebenarnya atau keupayaan
sebenarnya
dalam
menyelesaikan
masalah
matematik; i.e. Apa yang dia sebenarnya tahu.
Bagi mengurangkan kesalahan dalam ujian, anda
perlu memastikan bahawa ujian anda adalah utuh
dan sah. Lebih tinggi keutuhan dan kesahan ujian
anda, lebih lagi kemungkinan anda mengukur
markah sebenar pelajar anda. Kita perlu
pertamanya mengukur keutuhan ujian kita. Apakah
itu keutuhan?
Keutuhan merupakan konsistensi ukuran. Tentunya, anda tidak
Akankah pelajar menerima markah yang sama mempercayai sebuah alat
sekiranya mereka mengambil ujian yang sama pada penimbang sekiranya
dua ketika yang berbeza? Adakah mereka akan bacaannya berubah mengikut
mendapat markah yang lebih kurang sama suhu atau sekiranya ia
mempunyai spring yang
longgar.

131
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

sekiranya mereka mengambil dua jenis pentaksiran yang berbeza? Soalan-soalan ini
berkait dengan konsistensi ujian anda dalam mengukur keupayaan, kemahiran dan
sikap atau nilai pelajar anda. Nama generik untuk konsistensi adalah keutuhan.
Keutuhan merupakan pelopor kepada ujian kesahan. Iaitu, sekiranya markah
ujian tidak boleh dijalankan dengan konsisten, mustahil untuk merumuskan bahawa
markah tersebut mengukur domain yang diperhatikan dengan tepat. Kesahan merujuk
kepada sejauhmana inferens yang dibuat daripada ujian dapat dijustifikasi dan tepat.
Sebagai contoh, sekiranya seorang pelajar gagal dalam sebuah ujian, adakah anda
pasti bahawa ia adalah kerana pelajar tidak mengetahui bahan atau adakah kerana
sebab-sebab lain.
Walau bagaimanapun, menentukan kesahan sesebuah ujian secara formal
boleh jadi suatu proses yang memerlukan tenaga dan mengambil masa. Dengan itu,
analisis keutuhan selalunya dianggap sebagai langkah pertama dalam proses ujian
keutuhan (Wells dan Wollack, 2003). Sekiranya sebuah ujian tidak utuh, kita tidak
perlu membuang masa menyiasat samada ia adalah sah kerana ia tentunya tida.
Sekiranya ujian itu mempunyai keutuhan, maka menyiasat kesahan ujian tersebut
boleh dilakukan.
6.1 AKTIVITI

a) Apakah yang anda faham dengan markah sebenar?


b) Apakah perbezaan di antara keutuhan dan kesahan?
c) Bolehkah sebuah ujian utuh tetapi tidak sah? Jelaskan
dengan contoh-contoh.

7.2 PEKALI KEUTUHAN


Keutuhan merupakan pekali keutuhan yang diukur. Simbol yang digunakan
untuk menunjukkan pekali keutuhan adalah r dengan dua subskrip yang sama
(sebagai contoh, rxx). Pekali keutuhan umumnya ditakrif sebagai percanggahan
markah sebenar dibahagikan dengan percanggahan markah diperhatikan.
Sekiranya terdapat kesalahan yang agak kecil, nisbah percanggahan markah
sebenar kepada percanggahan markah diperhatikan akan mendekati pekali keutuhan
1.00 iaitu keutuhan sempurna. Sekiranya terdapat kesalahan yang agak besar, nisbah
percanggahan markah sebenar kepada percanggahan markah diperhatikan akan
mendekati 0.00 iaitu sepenuhnya tidak utuh.

Ujian dengan tiada keutuhan


0.00

Ujian dengan keutuhan sempurna


1.00

Keutuhan yang tinggi bermaksud soalan-soalan dalam sesebuah ujian bersatu.


Pelajar-pelajar yang diberikan soalan dengan betul lebih mungkin menjawab soalansoalan lain dengan betul. Sekiranya sebuah ujian yang sama ataupun selaras dibina

132
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

dengan menggunakan item-item yang sama, markah-markah pelajar akan tidak jauh
berbeza. Keutuhan rendah bermaksud bahawa soalan-soalan tidak berkaitan diantara
satu sama lain daripada segi siapa yang menjawabnya dengan betul. Markah ujian
yang terhasil mencerminkan bahawa sesuatu tidak kena dengan item-item atau situasi
pengujian dan bukannya pengetahuan pelajar dalam mata pelajaran tersebut. Panduan
berikut boleh digunakan untuk menginterpretasi pekali keutuhan untuk ujian dalam
bilik darjah (lihat Jadual 7.1):

Keutuhan
0.90 dan ke atas
0.80 0.90
0.70 0.80
0.60 0.70
0.50 0.60
0.50 dan ke bawah

Interpretasi
Keutuhan yang cemerlang (sama seperti ujian
standard yang terbaik)
Sangat baik untuk ujian dalam bilik darjah
Baik untuk ujian dalam bilik darjah tetapi
terdapat beberapa item yang boleh diperbaiki
Agak rendah. Mungkin terdapat item-item
yang perlu dikeluarkan atau diperbaiki
Ujian perlu dikaji semula
Keutuhan yang boleh dipersoalkan dan ujian
harus digantikan ataupun perlukan rombakan

Jadual 7.1 Interpretasi Pekali Keutuhan


7.3 KAEDAH-KAEDAH MENGANGGAR KEUTUHAN SEBUAH
UJIAN

Mari kita bincangkan bagaimana menganggar keutuhan sebuah ujian. Lihat


Gambarajah 7.2 yang menyenaraikan TIGA kaedah yang biasa digunakan untuk
menganggar keutuhan sebuah ujian. Adalah tidak mungkin untuk menghitung
keutuhan dengan tepat dan dengan itu kita terpaksa menganggar keutuhan.
a) Uji-Uji Semula
Menggunakan teknik Uji-Uji Semula, ujian yang sama ditadbir semula kepada
kumpulan pelajar yang sama. Markah yang diterima dalam pentadbiran ujian pertama
dikorelasikan kepada markah diterima dalam pentadbiran kedua ujian tersebut.
Sekiranya korelasi di antara dua markah tersebut adalah tinggi maka ujian tersebut
boleh dikatakan mmempunyai keutuhan yang tinggi. Namun begitu, situasi uji-uji
semula adalah agak sukar dilaksanakan kerana tidak mungkin pelajar bersedia
mengambil ujian yang sama dua kali.
Terdapat juga kesan daripada latihan dan ingatan yang mungkin
mempengaruhi korelasi tersebut. Lebih pendek senggang waktu, lebih tinggi korelasi;
lebih lama senggang waktu, lebih rendah korelasi. Ini kerana kedua-dua pemerhatian
berkait dengan waktu. Oleh kerana korelasi ini adalah anggaran keutuhan melalui ujiuji semula, akan mungkin mendapat anggaran yang jauh berbeza bergantung kepada
senggang waktu.

133
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

Apa? Ujian yang


sama lagi! Ujian itu
kita dah buat
minggu lepas.
Amboi, senangnya!

Uji-Uji Semula
Kaedah Untuk
Menganggar
Keutuhan

Bentuk Serupa atau Selaras


Pecah-Separuh
Keutuhan Internal
Alfa Cronbach

Gambarajah 7.2 Kaedah Menganggar Keutuhan

b) Bentuk Serupa atau Selaras


Bagi teknik ini, dua ujian yang serupa (ataupun sama bentuk) ditadbir kepada
kumpulan pelajar yang sama. Kedua-dua ujian tidaklah sama tetapi serupa. Lihat
Gambarajah 7.3 yang menunjukkan ujian harga diri dengan Bentuk X dan Bentuk Y.
Dalam erti kata lain, mereka mempunyai soalan-soalan berbeza tetapi mereka
mengukur pengetahuan, kemahiran atau sikap yang sama. Dengan itu, anda
mempunyai dua set markah yang berkorelasi dan keutuhan dapat ditentukan. Tidak
seperti teknik uji-uji semula, ukuran keutuhan serupa atau selaras tidak dipengaruhi
oleh daya ingatan. Suatu masalah utama dalam pendekatan ini adalah bahawa anda
harus boleh menghasilkan banyak item yang mencerminkan konstruk atau pemboleh
ubah yang sama. Ini selalunya bukan suatu yang mudah.

134
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

Ujian Harga Diri


Bentuk X

Bentuk Y

Gambarajah 7.3 Bentuk X dan Bentuk Y Ujian Serupa Tetapi Tidak Sama
SEMAK KENDIRI 7.1

a) Apakah masalah-masalah dengan keutuhan uji-uji semula dan


bentuk serupa?
b) Jelaskan teknik bentuk selaras atau serupa dalam menentukan
keutuhan sesebuah ujian.
c)
c) Konsistensi Internal
Konsistensi internal ditentukan menggunakan hanya satu ujian yang ditadburkan
sekali kepada pelajar. Konsistensi internal merujuk kepada perlakuan sebuah item
atau soalan berbanding dengan yang lain dan dengan keseluruhan ujian. Malah kita
menimbangkan keutuhan sesuatu alat ukuran dengan menganggarkan sejauhmana
item-item mencerminkan konstruk yang sama menghasilkan keputusan yang
sama. Kita melihat sejauhmana konsisten keputusan-keputusan adalah berlainan bagi
item-item bagi konstruk yang sama dalam ukuran yang sama. Berikut adalah dua
ukuran konsistensi internal yang biasa digunakan.
(i)

Pecah-Separuh
Bagi menyelesaikan masalah terpaksa mentadbir dua ujian yang sama dua
kali, teknik pecah-separuh digunakan. Dalam teknik pecah-separuh,
sebuah ujian ditadbir sekali kepada sekumpulan pelajar. Ujian itu
dibahagikan kepada dua bahagian selepas pelajar selesai mengambil ujian.
Teknik ini paling sesuai untuk ujian yang memasukkan item aneka pilihan,
item betul-salah dan mungkin juga esei jawaban pendek. Item-item dipilih
mengikut kaedah genap-ganjil di mana separuh daripada ujian terdiri
daripada item-item bernombor genap manakala separuh lagi terdiri
daripada item-item bernombor ganjil. Seterusnya, markah yang diterima
untuk kedua-dua bahagian dikorelasi bagi menentukan keutuhan
keseluruhan ujian menggunakan pekali korelasi Spearman-Brown.

135
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

2rxy
rsb =
(1 + rxy)
Dalam formula ini, rsb adalah pekali keutuhan pecah-separuh, dan rxy
mewakili korelasi di antara kedua-dua bahagian. Misalnya, anda telah
menentukan bahawa pekali korelasi di antara dua bahagian adalah 0.65.
Apakah keutuhan keseluruhan ujian?

2rxy

2 (0.65)

rsb =

(1 + rxy)
(ii)

1.3

1 + 0.65

= 0.78
1.65

Alfa Cronbach
Alfa pekali Cronbach boleh digunakan untuk item-item jenis binari
(1 = betul, 0 = salah atau 1 = benar & 0 = salah) dan juga item-item skala
(1 = sangat setuju, 2 = setuju, 3 = tidak setuju, 4 = sangat tidak setuju).
Keutuhan dianggarkan dengan menghitung korelasi di antara individu
soalan dan sejauhmana individu soalan berkorelasi dengan keseluruhan
ujian. Inilah yang dimaksudkan dengan konsistensi internal. Kuncinya
adalah internal. Tidak seperti uji-uji semula dan bentuk serupa atau
selaras yang memerlukan sebuah ujian lain sebagai rujukan eksternal.
Lebih kukuh item-item berkait, lebih tinggi kemungkinan ujian tersebut
konsisten. Lebih tinggi alfa, lebih utuh ujian tersebut. Tidak ada pemisah
yang dipersetujui umum. Selalunya, 0.7 dan ke atas boleh diterima
(Nunnally, 1978). Formula untuk Alfa Cronbach adalah seperti berikut:
k

pi (1- pi)
k
Alfa Cronbach () =

i =1
1

k1

2x

k adalah bilangan item dalam ujian;


pi merujuk kepada item yang payah, iaitu bahagian pelajar yang
menjawab item i dengan betul,
2x adalah percanggahan sampel untuk markah keseluruhan.

Contohnya:
Andainya dalam sebuah ujian aneka pilihan yang terdiri daripada 5 item
atau soalan indeks kepayahan berikut untuk setiap item telah diperhatikan:
p1 = 0.4, p2 0.5, p3 = 0.6, p4 = 0.75 dan p5 = 0.85. Percanggahan sampel
(2x ) = 1.84. Alfa Cronbach dihitung seperti berikut:
5

1.045

136
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

1
51

= 0.54
1.840

Ujian standard yang dibina secara professional harus mempunyai pekali


konsistensi internal sekurang-kurangnya 0.85. Pekali keutuhan yang tinggi
diperlukan untuk ujian standard kerana mereka ditadbir hanya sekali dan
markah untuk ujian itu digunakan untuk membuat rumusan tentang tahap
konstruk yang diukur bagi setiap pelajar. Kemungkinan, yang paling
hampir kepada ujian standard dalam konteks Malaysia adalah ujian-ujian
untuk berbagai mata pelajaran yang dilaksanakan di peringkat
kebangsaaan dalam PMR dan SPM. Menurut Wells dan Wollack (2003),
ujian dalam bilik darjah boleh diterima sekiranya mempunyai keutuhan
0.70 dan ke atas kerana markah seorang pelajar dalam sesebuah ujian tidak
menentukan gred keseluruhan pelajar tersebut dalam mata pelajaran atau
kursus yang diambilnya. Selalunya, gred adalah berdasarkan beberapa
ukuran lain seperti tugasan projek, persembahan lisan, ujian amali,
penyertaan dalam kelas dan sebagainya. Sejauhmanakah ini benar dalam
institusi-institusi pendidikan?
BERHATI-HATI!
Apabila anda mendapat alfa yang rendah, anda harus berhati-hati agar
tidak terus merumuskan bahawa ujian itu adalah sebuah ujian yang lemah.
Anda harus menyemak bagi menentukan samada ujian tersebut mengukur
beberapa ciri-ciri atau dimensi dan bukan hanya satu ciri atau dimensi.
Sekiranya ya, terdapat kemungkinan Alfa Cronbach sememangnya
menjadi rendah. Sebagai contoh, sebuah ujian kecenderungan mungkin
mengukur 3 ciri-ciri atau dimensi seperti keupayaan kuantitatif, keupayaan
bahasa dan keupayaan analitikal. Maka, adalah tidak menghairankan
sekiranya Alfa Cronbach bagi keseluruhan ujian tersebut adalah rendah
kerana soalan-soalan mungkin tidak berkorelasi di antara satu sama lain.
Mengapa? Ini adalah kerana item-item mengukur 3 jenis keupayaan
manusia yang berlainan. Penyelesaiannya adalah untuk menghitung tiga
Alfa Cronbach yang berlainan; satu untuk keupayaan kuantitatif, satu
untuk keupayaan bahasa dan satu untuk keupayaan analitikal yang akan
memberitahu anda lebih tentang konsistensi internal item-item dalam ujian
itu.
SEMAK KENDIRI 7.2

a) Bagaimanakah konsistensi internal berbeza daripada


keutuhan uji-uji semula?
b) Apakah kelebihan utama teknik pecah-separuh berbanding
teknik uji-uji semula dalam menentukan keutuhan sebuah
ujian?
c)

137
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran
7.4 KEUTUHAN INTER-PENANDA DAN INTRA-PENANDA
Dalam bab-bab terdahulu, kita telah membincangkan pentaksiran hasil
pembelajaran menggunakan esei, projek, amali, ujian lisan dan portfolio, yang adalah
sangat subjektif. Sebagai contoh, apabila menggunakan soalan esei untuk mentaksir
hasil pembelajaran anda terpaksa menggunakan tenaga manusia untuk memeriksa
jawaban kepada soalan-soalan tersebut. Apabila anda menggunakan tenaga manusia
sebagai sebahagian daripada prosedur pengukuran anda, anda perlu bimbang tentang
samada keputusan-keputusan yang anda terima adalah konsisten atau utuh. Orang
memang terkenal dengan tidak konsisten. Kita mudah diganggu. Kita menjadi letih
apabila membuat sesuatu tugasan secara berulang. Kita berkhayal. Kita kadang-kala
membuat interpretasi yang salah. Bagaimanakah kita dapat menentukan samada dua
orang membuat pemerhatian atau memberi markah semasa memeriksa kertas
peperiksaan dengan konsisten?
Bagaimanakah kita menentukan bahawa dua pemeriksa memeriksa kertas esei
dengan konsisten?
Bagaimanakah kita menentukan bahawa dua pemeriksa memeriksa sebuah
projek dengan konsisten?
A) Keutuhan Inter-Pemeriksa
Apabila dua atau lebih orang memeriksa sebuah soalan esei, sejauhmana mereka
bersetuju dalam markah yang diperuntukkan dipanggil keutuhan inter-pemeriksa.
Lebih tinggi persetujuan, lebih tinggilah keutuhan inter-pemeriksa.
Pemeriksa A

Pemeriksa B

Keutuhan inter-pemeriksa mungkin rendah kerana sebab-sebab berikut:


Pemeriksa-pemeriksa tanpa disedari dipengaruhi oleh pengetahuan tentang
pelajar yang diperiksa. Terdapat kemungkinan memberi markah yang lebih
tinggi kepada pelajar yang anda anggap sebagai pelajar bagus dan
sebaliknya.
Konsistensi semasa memeriksa mendapat kesan selepas memeriksa satu set
skrip yang sangat bagus atau yang sangat lemah.
Apabila terdapat gangguan semasa memeriksa sekumpulan skrip, standard
yang berbeza mungkin digunapakai selepas senggang itu
Skema pemarkahan yang lemah mungkin menjadikan pemeriksa membuat
interpretasinya sendiri tentang jawaban-jawaban.
Menurut Frith dan Macintosh (1987), keutuhan inter-pemeriksa boleh dipertingkatkan
sekiranya kriteria pemarkahan atau skema pemarkahan:

138
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

Mengandungi jawaban disyorkan berkaitan soalan


Memperuntukkan jawaban alternatif yang boleh diterima
Memastikan bahawa peruntukan masa sesuai dengan kerja yang diperlukan
Dipecahkan dengan secukupnya bagi membolehkan pemeriksaan menjadi
seobjektif mungkin dan penghitungan markah betul
Memperuntukkan markah mengikut darjat kepayahan soalan

Skema
pemarkahan ini
mengelirukan dan
aku dah lambat.

b) Keutuhan Intra-Pemeriksa
Sementara keutuhan inter-pemeriksa melibatkan dua atau lebih orang individu,
keutuhan intra-pemeriksa adalah konsistensi penggredan oleh satu orang pemeriksa.
Markah dalam sebuah ujian diperiksa oleh seorang pemeriksa pada ketika yang
berlainan. Apabila kita menggred sebuah ujian pada waktu yang berbeza, kita
mungkin menjadi tidak konsisten dalam penggredan kita disebabkan berbagai faktor.
Sebagai contoh, sesetengah kertas yang digred pada waktu siang mungkin mendapat
perhatian penuh manakala kertas lain yang digred di penghujung hari mungkin
diimbas dengan cepat. Sama juga keadaannya, perubahan dalam angin kita mungkin
mempengaruhi penggredan kertas. Dalam situasi-situasi ini, kurang konsisten
mungkin mempengaruhi keutuhan intra-pemeriksa dalam penggredan jawaban
pelajar.
SEMAK KENDIRI 7.2

a) Senaraikan langkah-langkah yang boleh diambil untuk


mempertingkatkan keutuhan inter-pemeriksa dalam
penggredan skrip jawaban esei.
b) Cadangkan langkah-langkah yang anda mungkin ambil untuk
mempertingkatkan keutuhan intra-pemeriksa dalam
penggredan projek.

139
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran
7.5 KESAHAN

APAKAH ITU KESAHAN?


Kesahan selalu ditakrifkan sebagai sejauhmana sebuah ujian mengukur apa
yang ia direkabentuk untuk mengukur (Nutall, 1987). Sementara keutuhan berkait
dengan kekonsistenan sebuah ujian, kesahan berkait dengan kerelevanan ujian itu.
Sekiranya ia tidak mengukur apa yang ia patutnya mengukur, maka penggunaannya
adalah mengelirukan dan interpretasi yang dibuat berasaskan ujian tersebut tidak sah
atau relevan. Sebagai contoh, sebuah ujian yang patut mengukur keupayaan mengeja
kanak-kanak 8 tahun tidak mengukur keupayaan mengeja, maka ujian tersebut
bukanlah sebuah ujian yang sah. Kita akan dilanda kemusnahan sekiranya kita
membuat rumusan tentang apa yang pelajar boleh atau tidak boleh buat berdasarkan
ujian yang sebenarnya mengukur perkara lain. Inilah sebabnya ramai pendidik
berhujah bahawa kesahan merupakan suatu aspek yang paling penting sesebuah ujian.
Walau bagaimanapun, kesahan akan berbeza bagi setiap ujian bergantung kepada
kegunaannya. Sebagai contoh, sebuah ujian mungkin mempunyai kesahan yang tinggi
dalam mengingat semula fakta dalam ekonomi tetapi ujian yang sama mungkin
mempunyai kesahan yang rendah dalam aplikasi konsep-konsep dalam ekonomi.
Messick (1989) sangat khuatir tentang inferens yang guru buat daripada
markah ujian, interpretasi yang dibuat oleh guru tentang pelajarnya serta kesan
daripada inferens dan interpretasi itu. Anda boleh bayangkan kuasa yang digenggam
oleh seorang pendidik dalam tangannya semasa mereka bentuk sebuah ujian. Ujian
anda boleh menentukan masa hadapan beribu pelajar. Inferens berdasarkan ujian yang
mempunyai kesahan yang rendah mungkin memberi gambaran yang jauh berlainan
daripada keupayaan dan kecekapan sebenar pelajar.
JENIS-JENIS KESAHAN
Terdapat TIGA jenis kesahan yang dikenal pasti: kesahan konstruk, kesahan
kandungan dan kesahan berkaitan kriteria yang terdiri daripada kesahan meramal dan
bersama (lihat Gambarajah 7.4).

Kesahan konstruk

Jenis-jenis
Kesahan

Kesahan Kandungan
Kesahan Meramal
Kesahan Berkaitan
Kriteria

Gambarajah 7.4 Jenis-jenis Kesahan

Kesahan Bersama

140
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

a) Kesahan Konstruk:
Kesahan konstruk berkait dengan bagaimana sebuah ujian merupakan ukuran
yang sesuai bagi konstruk yang mendasari. Sebuah konstruk mungkin suatu fenomena
seperti pencapaian matematik, kemahiran membaca peta, kefahaman bacaan, sikap
terhadap sekolah, pertimbangan induktif, kesedaran persekitaran, keupayaan mengeja
dan sebagainya. Anda dapat menganggap kesahan konstruk sebagai melabel,
adakah anda melabel sesuatu itu dengan betul? Contohnya, semasa anda mengukur
apa yang anda labelkan sebagai pemikiran kritis, adakah itu yang anda sebenarnya
mengukur?
Dengan itu, bagi memastikan kesahan konstruk yang tinggi, anda mesti jelas
tentang takrif konstruk yang anda ingin ukur. Contohnya, suatu konstruk seperti
kefahaman membaca mungkin termasuk pembinaan kosa kata, membaca untuk
maksud literal dan membaca untuk maksud inferensial. Ada pakar dalam pengukuran
pendidikan berhujah bahawa kesahan konstruk merupakan jenis kesahan yang paling
penting. Anda dapat menentukan kesahan konstruk sesebuah instrument dengan
mengkorelasikannya dengan sebuah ujian yang mengukur konstruk yang sama.
Sebagai contoh, anda boleh membandingkan markah yang diperolehi dalam ujian
kefahaman membaca dengan markah yang diperolehi dalam sebuah lagi ujian
kefahaman membaca yang diketahui, yang diberikan kepada sampel pelajar yang
sama. Sekiranya markah bagi kedua-dua ujian tersebut berkorelasi tinggi, maka anda
bolehlah merumuskan bahawa ujian kefahaman membaca anda mempunyai kesahan
konstruk yang tinggi.
Suatu konstruk ditentukan dengan merujuk kepada teori. Contohnya, sekiranya
anda berminat untuk mengukur konstruk harga diri, anda perlu jelas apa itu harga
diri. Kemungkinan, anda perlu merujuk pustaka dalam bidang yang menjelaskan ciriciri harga diri. Anda mungkin mendapati secara teori, harga diri terdiri daripada ciriciri berikut; harga diri fizikal, harga diri akademik dan harga diri sosial. Berdasarkan
kepada sudut pandang teori ini, anda dapat membina item-item atau soalan-soalan
bagi mengukur harga diri yang memasukkan ketiga-tiga jenis harga diri tadi. Melalui
proses seperti itu anda lebih meungkin dapat memastikan kesahan konstruk yang
tinggi.
SUKATAN
MATA PELAJARAN

Cahaya
Bunyi
Kepanasan
Magnetisma
Letrik

Domain fakta, konsep,


prinsip dan kemahiran
tentang Tenaga dan Daya

UJIAN

Cahaya, Bunyi, Kepanasan,


Magnetisma, Letrik

Sampel fakta, konsep,


prinsip dan kemahiran tentang
Tenaga dan Daya

141
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

Gambarajah 7.5 Sampel Kandungan yang Diuji Bagi Unit Tentang Tenaga
dan Daya

b) Kesahan Kandungan:
Kesahan Kandungan lebih mudah dan mungkin berkait dengan kesahan
konstruk. Ia berkait dengan memasukkan kandungan yang sesuai dan diperlukan i.e.
adakah ujian memasukkan kemahiran-kemahiran yang diperlukan untuk prestasi yang
bagus, ataupun semua aspek mata pelajaran yang diajar? Ia berkaitan dengan
perwakilan populasi sampel; i.e. fakta, konsep dan prinsip yang diliputi oleh itemitem ujian harus mewakili domain yang besar (e.g. sukatan mata pelajaran) daripada
segi fakta, konsep dan prinsip.
Sebagai contoh, unit sains tentang Tenaga dan Daya mungkin memasukkan
fakta, konsep, prinsip dan kemahiran tentang cahaya, bunyi, kepanasan, magnetisma
dan letrik. Walau bagaimanapun, adalah sukar, kalaupun tidak mustahil, untuk
mentadbir sebuah ujian selama 2-3 jam untuk meliputi kesemua aspek-aspek dalam
sukatan mata pelajaran tentang Tenaga dan Daya (lihat Gambarajah 7.5). Dengan
itu, hanya fakta, konsep, prinsip dan kemahiran terpilih daripada sukatan pelajaran
(atau domain) disampelkan. Kandungan yang dipilih akan ditentukan oleh pakar
bidang yang akan mempertimbangkan keterkaitan kandungan dalam ujian kepada
kandungan dalam sukatan pelajaran atau domain tersebut.

Topik
Cahaya
Bunyi
Kepanasan
Magnetisma
Letrik
JUMLAH

Memahami
Konsep
7
7
7
3
8

Aplikasi
Konsep
4
4
4
3
3

Jumlah
11 (22%
11 (22%)
11 (22%)
6 (11%)
11 (22%)

32 (64%)

18 (36%)

50

Jadual 7.1 Jadual Spesifikasi Untuk Unit Tentang Tenaga dan Daya
Kesahan kandungan akan menjadi rendah sekiranya soalan-soalan dalam ujian
termasuk soalan yang menguji kandungan yang tidak berkait dengan domain atau
sukatan pelajaran. Bagi memastikan kesahan kandungan dan cakupan, ramai di antara
guru yang menggunakan Jadual Spesifikasi. Jadual 7.1 adalah suatu contoh jadual
spesifikasi yang mengkhususkan pengetahuan dan kemahiran yang akan diukur dan
topic-topik yang dimasukkan dalam unit tentang Tenaga dan Daya. Anda tidak boleh
mengukur semua kandungan dalam topic dan dengan itu anda terpaksa menumpukan
kepada bahagian-bahagian penting dan memberikannya pemberat yang sesuai kepada
bahagian-bahagian yang penting itu. Sebagai contoh, guru membuat keputusan
bahawa 64% daripada soalan-soalan akan menekankan pemahaman konsep sementara
36% akan menumpukan kepada aplikasi konsep untuk lima topik. Suatu jadual

142
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

spesifikasi memberi guru bukti bahawa ujian mempunyai kesahan kandungan yang
tinggi, bahawa ia mencakupi apa yang ia harus cakupi.
c) Kesahan Berkaitan Kriteria
Kesahan berkaitan kriteria sesebuah ujian ditentukan dengan mengaitkan markah
yang diperolehi kepada markah yang diperolehi untuk beberapa kriteria lain atau ujian
lain. Terdapat dua jenis kesahan berkaitan kriteria:
Kesahan Ramalan berkait dengan samada sebuah ujian dapat meramal
dengan tepat prestasi atau keupayaan masa hadapan. Adakah STPM suatu
peramal prestasi dalam universiti? Kesukaran dalam menghitung kesahan
ramalan bagi STPM ialah kerana hanya mereka yang lulus peperiksaan itu
yang akan meneruskan pelajaran ke universiti (secara umumnya) dan kita
tidak tahu sejauhmana baik pencapaian pelajar yang gagal (Wood, 1991). Dan
juga, hanya sebahagian kecil populasi yang mengambil STPM dan korelasi di
antara gred STPM dan prestasi di peringkat sarjana muda mungkin akan
tinggi.

Kesahan Bersama berkait dengan samada ujian berkorelasi dengan, atau


memberi keputusan yang sama dengan, sebuah ujian lain berkaitan kemahiran
yang sama. Sebagai contoh, adakah ujian bahasa akhir tahun anda berkorelasi
dengan peperiksaan MUET. Dalam erti kata lain, sekiranya ujian bahasa anda
berkorelasi dengan tinggi dengan MUET, maka ujian bahasa anda mempunyai
kesahan bersama yang tinggi.

7.6 FAKTOR-FAKTOR YANG MEMPENGARUHI KEUTUHAN DAN


KESAHAN

Deale (1975) mencadangkan bahawa untuk membina ujian yang sah dan utuh, faktorfaktor berikut harus diambil kira:
a) Panjang Ujian
Secara umumnya lebih panjang ujian lebih utuh dan sah ujian tersebut. Sebuah
ujian yang pendek tidak mungkin merangkum kerja selama setahun. Sukatan
pelajaran perlu disampelkan. Ujian tersebut harus terdiri daripada cukup
soalan agar mewakili pengetahuan, kemahiran dan kecekapan dalam sukatan
pelajaran. Walau bagaimanapun, terdapat juga suatu lagi masalah dengan ujian
yang terlalu panjang. Sebuah ujian yang panjang mungkin sah tetapi ia akan
mengambil masa yang terlalu lama dan keletihan akan muncul dan
mempengaruhi prestasi serta keutuhan ujian tersebut.
b) Pemilihan Topik
Topik-topik yang dipilih dan soalan-soalan ujian yang disediakan harus
mencerminkan cara topic-topik diolah semasa pengajaran. Kita harus jelas
tentang hasil pembelajaran dan mereka bentuk item-item yang mengukur hasil
pembelajaran tersebut. Contohnya, dalam pengajaran anda pelajar tidak diberi
peluang berfikir secara kritis dan menyelesai masalah. Sebaliknya, ujian anda

143
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

terdiri daripada item-item yang memerlukan pelajar berfikir secara kritis dan
menyelesai masalah. Dalam situasi sebegini, keutuhan dan kesahan ujian itu
akan mendapat kesan.
c) Pilihan Teknik Pengujian
Teknik pengujian yang dipilih akan juga membawa kesan kepada kesahan dan
keutuhan ujian tersebut. Contohnya, sekiranya anda memilih untuk
menggunakan soalan esei, kesahan mungkin tinggi tetapi keutuhan mungkin
rendah. Soalan esei selalunya kurang utuh berbanding soalan jawaban pendek.
Esei berstruktur selalunya lebih utuh daripada esei terbuka.
d) Kaedah Mentadbir Ujian
Masa yang mencukupi harus diberi kepada kebanyakan pelajar untuk
menyudahkan ujian. Ini akan mengurangkan pelajar meneka membuta tuli dan
sebaliknya menggalakkan pelajar berfikir dengan teliti tentang jawaban.
Arahan perlu jelas bagi mengurangkan kesan kekeliruan terhadap keutuhan
dan kesahan. Keadaan fizikal dalam mana ujian diambil harus menyenangkan
pelajar. Harus ada cukup ruang, cahaya dan suhu yang bersesuaian. Pelajar
harus boleh kerja dengan berdikari dan kemungkinan gangguan dalam bentuk
pergerakan dan kebisingan mesti dijauhi.
e) Kaedah Memeriksa
Memeriksa haruslah seobjektif mungkin. Memeriksa bergantung kepada
penggunaan pertimbangan manusia seperti dalam esei, pemerhatian aktiviti
dalam bilik darjah dan amali, dan semua itu terbuka kepada kepelbagaian sifat
manusia. [Rujuk kepada keutuhan inter-pemeriksa yang dibincangkan lebih
awal]. Adalah mudah untuk memeriksa item objektif dengan cepat, tetapi
adalah juga mudah untuk membuat kesilapan yang remeh. Ini benar dalam
keadaan memeriksa bilangan skrip yang banyak. Suatu sistem semakan sangat
digalakkan. Satu kaedah ialah dengan mendapatkan komen daripada pelajar itu
sendiri setelah skripnya diperiksa.
7.7 HUBUNGKAIT ANTARA KEUTUHAN DAN KESAHAN

Ada yang menganggap bahawa keutuhan dan kesahan adalah dua konsep yang
berasingan. Hakikatnya, keutuhan dan kesahan adalah saling berkait. Trochim (2005)
menawarkan analogi berikut (lihat Gambarajah 7.6).

144
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

a) Utuh tetapi
tidak sah

b) Sah tetapi
tidak utuh

c) tidak utuh dan


tidak sah

d) Utuh dan sah

Gambarajah 7.6 Hubungkait Antara Keutuhan dan Kesahan


[sumber: W.K. Trochim. 2005. Research Methods Knowledge Base
http://www.socialresearchmethods.net/kb/rel&val.htm]

Pusat sasaran merupakan konsep yang kita cuba mengukur. Misalnya, sebagai
contoh, semasa cuba mengukur konsep pertimbangan induktif, anda
mungkin mengena pusat (atau pusat sasaran) sekiranya ujian Pertimbangan
Induktif anda adalah utuh dan sah, iaitu apa yang semua pembina ujian
sasarkan (lihat Gambarajah 7.6d).

Sebaliknya, ujian Pertimbangan Induktif anda mungkin utuh tetapi tidak sah.
Bagaimana mungkin? Ujian anda mungkin tidak mengukur pertimbangan
induktif tetapi markah yang anda dapat setiap kali anda mentadbir ujian
tersebut lebih kurang sama (lihat Gambarajah 7.6a). Dalam erti kata lain, ujian
tersebut adalah konsisten dan mengukur dengan sistematik konstruk yang
salah (i.e. pertimbangan induktif). Bayangkan kesan daripada membuat
keputusan tentang pertimbangan induktif pelajar menggunakan ujian seperti
itu!

Sama juga, ujian Pertimbangan Induktif anda mungkin mengukur konstruk


pertimbangan induktif (i.e. pelajar mendapat jawaban yang betul) tetapi
apabila anda menguji mereka sekali lagi mereka mendapat markah yang
berlainan yang menunjukkan kurang konsisten bagi pelajar yang diukur (lihat
Gambarajah 7.6b). Dalam erti kata lain, anda mendapat anggaran yang sah
untuk keupayaan pertimbangan induktif pelajar anda tetapi mereka tidak
konsisten.

Senario yang paling buruk adalah apabila ujian anda tidak utuh dan tidak sah
(lihat Gambarajah 7.6c). Dalam senario ini markah yang pelajar terima
tertumpu kepada separuh bahagian atas sasaran dan mereka dengan konsisten
tersasar daripada pusat. Pengukuran anda dalam kes ini tidak utuh dan tidak
sah, dan ujian tersebut harus ditolak atau diperbaiki.

145
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran
RINGKASAN

Markah sebenar merupakan konsep hipotetikal keupayaan, kecekapan dan


kemampuan individu sebenar.

Lebih tinggi keutuhan dan kesahan ujian anda, lebih kemungkinan anda akan
mengukur markah sebenar pelajar anda.

Keutuhan merujuk kepada konsistensi pengukuran. Sebuah ujian dianggap utuh


sekiranya kita mendapat markah yang sama secara berulang.

Dengan menggunakan teknik Uji-Uji Semula, ujian yang sama ditadbir sekali lagi
kepada pelajar yang sama.

Untuk teknik ini, dua ujian yang serupa (atau bentuk serupa) ditadbir kepada
kumpulan pelajar yang sama.

Konsistensi internal ditentukan menggunakan hanya satu ujian yang ditadbir satu
kali kepada pelajar.

Apabila dua atau lebih orang memeriksa soalan esei, sejauhmana terdapat
persetujuan dalam markah yang diperuntukkan dipanggil kutuhan inter-pemeriksa.

Sementara keutuhan inter-pemeriksa melibatkan dua atau lebih individu, keutuhan


intra-pemeriksa adalah konsistensi penggredan oleh seorang pemeriksa.

Kesahan merupakan sejauhmana sebuah ujian mengukur apa yang ia sepatutnya


mengukur. Adalah penting bagi sesebuah ujian itu sah agar keputusan dapat
diaplikasikan dan diinterpretsi dengan tepat.

Kesahan konstruk berkait dengan samada ujian adalah cukup untuk mengukur
konstruk yang mendasari.

Kesahan kandungan adalah lebih terang dan berkemungkinan berkait dengan


keutuhan konstruk; ia berkait dengan kesesuaian dan perlunya kandungan yang
dicakupi.

Ada yang menganggap keutuhan dan kesahan merupakan dua konsep yang
berasingan. Hakikatnya, keutuhan dan kesahan adalah saling berkaitan.

146
Bab 7: Keutuhan dan Kesahan Kaedah Pentaksiran

ISTILAH
PENTING
Markah sebenar
Keutuhan
- Uji uji semula
- bentuk-selaras
- konsistensi internal

Kesahan
- konstruk
- kandungan
- berkaitan kriteria
- meramal

Keutuhan & kesahan


hubungkait
Sah & tidak utuh
Utuh & tidak sah

RUJUKAN

Deale, R. (1975). Assessment and Testing in the Secondary School. London:


Evans/Methuen Educational.

Jacobs, L. (1991). Test reliability. Educational Testing Centre. Indiana


University: Bloomington.

Macintosh H. and G. Firth (1987). A teachers guide to assessment. Nelson


Thornes Ltd.

Wells, C., Wollack, J. (2003). An Instructors Guide to Understanding Test


Reliability. Testing & Evaluation Services, University of Wisconsin, Madison.

You might also like