Professional Documents
Culture Documents
Bab Ii
Bab Ii
Prinsip penilaian bahasa dapat diterapkan pada tes formal. Prinsip-prinsip tersebut akan digunakan
untuk mengevaluasi tes yang ada, diterbitkan sebelumnya, atau dibuat. Ada lima kriteria utama untuk
Kepraktisan
Keandalan
Tes yang andal konsisten dan dapat diandalkan. Jika tes yang sama diberikan kepada siswa yang sama
atau siswa yang cocok pada dua kesempatan yang berbeda, tes harus menghasilkan hasil yang sama.
Masalah reliabilitas tes paling baik diatasi dengan mempertimbangkan sejumlah faktor yang dapat
Masalah terkait pelajar yang paling umum dalam keandalan disebabkan oleh penyakit sementara,
kelelahan, "hari yang buruk", kecemasan dan faktor fisik atau psikologis lainnya, yang dapat membuat
skor "diamati" menyimpang dari skor "benar" seseorang. Juga termasuk dalam kategori ini adalah
faktor-faktor seperti "test-wiseness" peserta tes atau strategi untuk pengambilan tes yang efisien
Keandalan Rater
Kesalahan manusia, subjektivitas dan bias dapat masuk ke dalam proses penilaian. Reliabilitas antar-
penilai terjadi ketika dua atau lebih pencetak skor menghasilkan skor yang tidak konsisten dari tes
yang sama, mungkin karena kurangnya perhatian terhadap kriteria penilaian, kurangnya pengalaman,
Reliabilitas intra-penilai adalah kejadian umum bagi guru kelas karena kriteria penilaian yang tidak
jelas, kelelahan, bias terhadap siswa "baik" dan "buruk" tertentu, atau kecerobohan sederhana.
Tidak dapat diandalkan juga dapat diakibatkan oleh kondisi di mana tes diberikan, seperti karena
kebisingan jalan di luar gedung, variasi fotokopi, jumlah cahaya di berbagai bagian ruangan, variasi
Uji Reliabilitas
Terkadang sifat tes itu sendiri dapat menyebabkan kesalahan pengukuran, seperti tes yang terlalu
panjang dan item tes yang ditulis dengan buruk (yang ambigu atau yang memiliki lebih dari satu
Validitas
Validitas dapat didefinisikan sebagai "sejauh mana kesimpulan yang dibuat dari hasil penilaian sesuai,
bermakna, dan berguna dalam hal tujuan penilaian" (Gronlund, 1998, hal.226). Bagaimana validitas tes
ditetapkan? Tidak ada ukuran validitas final dan absolut, tetapi beberapa jenis bukti yang berbeda dapat
digunakan untuk mendukung. Dalam beberapa kasus, mungkin tepat untuk memeriksa sejauh mana tes
membutuhkan kinerja yang sesuai dengan kursus atau unit studi yang diuji. Dalam kasus lain, kita
mungkin prihatin dengan seberapa baik tes menentukan apakah siswa telah mencapai serangkaian
tujuan atau tingkat kompetensi yang ditetapkan. Korelasi statistik dengan tindakan terkait tetapi
independen lainnya adalah bentuk bukti lain yang diterima secara luas. Kekhawatiran lain tentang
validitas tes mungkin berfokus pada konsekuensi - di luar mengukur kriteria itu sendiri - dari tes, atau
Jika tes benar-benar mengambil sampel materi pelajaran tentang kesimpulan mana yang akan ditarik,
dan jika itu mengharuskan peserta tes untuk melakukan perilaku yang sedang diukur, tes tersebut dapat
mengklaim bukti validitas terkait konten, sering populer disebut sebagai validitas konten (misalnya,
Mousavi, 2002; Hughes, 2003). Anda biasanya dapat mengidentifikasi bukti terkait konten secara
observasional jika Anda dapat dengan jelas mendefinisikan pencapaian yang Anda ukur.
Cara lain untuk memahami validitas konten adalah dengan mempertimbangkan perbedaan antara
pengujian langsung dan tidak langsung. Pengujian langsung melibatkan peserta tes dalam benar-
benar melakukan tugas target. Dalam tes tidak langsung, peserta didik tidak melakukan tugas itu sendiri
Aturan praktis yang paling layak untuk mencapai validitas konten dalam penilaian kelas adalah
Bukti terkait kriteria, juga disebut sebagai validitas terkait kriteria, adalah sejauh mana "kriteria" tes
Dalam kasus penilaian kelas buatan guru, bukti terkait kriteria paling baik ditunjukkan melalui
perbandingan hasil penilaian dengan hasil beberapa ukuran lain dari kriteria yang sama.
Bukti terkait kriteria biasanya jatuh ke dalam salah satu dari dua kategori: validitas konkuren dan
prediktif. Tes memiliki validitas bersamaan jika hasilnya didukung oleh kinerja bersamaan lainnya di
luar penilaian itu sendiri. Validitas prediktif penilaian menjadi penting dalam hal tes penempatan,
baterai penilaian penerimaan, tes bakat bahasa, dan sejenisnya. Kriteria penilaian dalam kasus seperti
itu bukan untuk mengukur kemampuan bersamaan tetapi untuk menilai (dan memprediksi)
Validitas terkait konstruk biasanya disebut sebagai validitas konstruk. Konstruk adalah teori,
hipotesis, atau model apa pun yang mencoba menjelaskan fenomena yang diamati di alam semesta
persepsi kita. Konstruk mungkin atau mungkin tidak diukur secara langsung atau empiris – verifikasi
mereka sering membutuhkan data inferensial. "Kemahiran" dan "kompetensi komunikatif" adalah
konstruksi linguistik; "Harga diri" dan "motivasi" adalah konstruksi psikologis. Di bidang penilaian,
validitas konstruk bertanya, "Apakah tes ini benar-benar memanfaatkan konstruk teoritis seperti yang
telah didefinisikan?" Tes, dengan cara berbicara, operasional; definisi konstruk karena mereka
mengoperasionalkan entitas yang sedang diukur (lihat Davidson, Hudson, & Lynch, 1985).
Validitas konstruk adalah masalah utama dalam memvalidasi tes kemahiran standar skala besar. Karena
tes semacam itu harus, karena alasan ekonomi, mematuhi prinsip kepraktisan, dan karena mereka harus
mengambil sampel sejumlah domain bahasa, mereka mungkin tidak dapat memuat semua konten dari
Validitas Konsekuensial
Validitas konsekuensial mencakup semua konsekuensi dari tes, termasuk pertimbangan seperti
keakuratannya dalam mengukur kriteria yang dimaksudkan, dampaknya terhadap persiapan peserta tes,
pengaruhnya terhadap pelajar, dan konsekuensi sosial (yang dimaksudkan dan tidak disengaja) dari
Gronlund (1998, hlm. 209-210) mendorong guru untuk mempertimbangkan pengaruh penilaian
terhadap motivasi siswa, kinerja selanjutnya dalam kutukan, pembelajaran mandiri, kebiasaan belajar,
Validitas Wajah
Aspek penting dari validitas konsekuensial adalah sejauh mana "siswa memandang penilaian sebagai
adil, relevan, dan berguna untuk meningkatkan pembelajaran" (Gronlund, 1998, hal.210), atau apa
yang dikenal sebagai validitas wajah. "Validitas wajah mengacu pada sejauh mana tes terlihat benar,
dan tampaknya mengukur pengetahuan atau kemampuan yang diklaimnya untuk diukur, berdasarkan
penilaian subyektif dari peserta ujian yang mengambilnya, personel administrasi yang memutuskan
penggunaannya, dan pengamat psikometri lainnya yang tidak canggih" (Mousavi, 2002, hlm.244).
Validitas wajah berarti bahwa siswa menganggap tes itu valid. Validitas wajah mengajukan pertanyaan
"Apakah tes, pada 'wajah' itu, muncul dari perspektif pelajar untuk menguji apa yang dirancang untuk
diuji?" Validitas wajah kemungkinan akan tinggi jika peserta didik menjumpai:
format yang dibangun dengan baik dan diharapkan dengan tugas-tugas yang sudah dikenal,
tes yang jelas dapat dilakukan dalam batas waktu yang ditentukan,
tugas yang berhubungan dengan pekerjaan kursus mereka (validitas konten), dan
tingkat kesulitan yang menghadirkan tantangan yang masuk akal.
Validitas wajah bukanlah sesuatu yang dapat diuji secara empiris oleh seorang guru atau bahkan oleh
seorang ahli pengujian. Ini murni faktor "mata yang melihatnya" – bagaimana peserta tes, atau
mungkin pemberi tes, secara intuitif memandang instrumen. Keadaan psikologis pelajar (kepercayaan
diri, kecemasan, dll) merupakan unsur penting dalam kinerja puncak oleh pelajar.
Keaslian
Bachman dan Palmer (1996, hlm. 23) mendefinisikan keaslian sebagai "tingkat korespondensi
karakteristik tugas tes bahasa yang diberikan dengan fitur tugas bahasa target," dan kemudian
menyarankan agenda untuk mengidentifikasi tugas-tugas bahasa target tersebut dan untuk
Pada dasarnya, keaslian dalam tugas pengujian kemungkinan akan diberlakukan di "dunia nyata".
4. Beberapa organisasi tematik untuk item disediakan, seperti melalui alur cerita atau episode
Washback
Dalam penilaian skala besar, washback umumnya mengacu pada efek tes terhadap instruksi dalam hal
bagaimana siswa mempersiapkan diri untuk tes. Contoh washback adalah kursus "menjejalkan",
"mengajar untuk ujian", informasi yang "mencuci kembali" kepada siswa dalam bentuk diagnosis
kekuatan dan kelemahan yang berguna, efek penilaian pada pengajaran dan pembelajaran sebelum
Salah satu cara untuk meningkatkan washback adalah dengan berkomentar dengan murah hati dan
khusus pada kinerja tes. Nilai huruf, skor numerik dan frasa sama sekali tidak memberikan informasi
tentang minat intrinsik kepada siswa dan mengurangi segunung data kinerja linguistik dan kognitif
menjadi molehill yang tidak masuk akal. Tanggapi sebanyak mungkin detail selama tes jika waktu
memungkinkan. Berikan pujian untuk kekuatan serta kritik konstruktif terhadap kelemahan. Berikan
petunjuk strategis tentang bagaimana seorang siswa dapat meningkatkan elemen kinerja tertentu.
Dengan kata lain, luangkan waktu untuk membuat kinerja tes pengalaman yang memotivasi secara
intrinsik dari mana seorang siswa akan mendapatkan rasa pencapaian dan tantangan.