You are on page 1of 6

LAPORAN BUKU BAB II

PRINSIP PENILAIAN BAHASA

Prinsip penilaian bahasa dapat diterapkan pada tes formal. Prinsip-prinsip tersebut akan digunakan

untuk mengevaluasi tes yang ada, diterbitkan sebelumnya, atau dibuat. Ada lima kriteria utama untuk

"menguji tes", yaitu: Kepraktisan, Reliabilitas, Validitas, Keaslian, dan Washback.

Kepraktisan

Tes yang efektif praktis. Ini berarti bahwa:

Tidak terlalu mahal

Tetap dalam batasan waktu yang tepat

Relatif mudah dikelola

Memiliki prosedur penilaian / evaluasi yang spesifik dan efisien waktu

Keandalan

Tes yang andal konsisten dan dapat diandalkan. Jika tes yang sama diberikan kepada siswa yang sama

atau siswa yang cocok pada dua kesempatan yang berbeda, tes harus menghasilkan hasil yang sama.

Masalah reliabilitas tes paling baik diatasi dengan mempertimbangkan sejumlah faktor yang dapat

berkontribusi pada tidak dapat diandalkannya tes.

Reliabilitas Terkait Siswa

Masalah terkait pelajar yang paling umum dalam keandalan disebabkan oleh penyakit sementara,

kelelahan, "hari yang buruk", kecemasan dan faktor fisik atau psikologis lainnya, yang dapat membuat

skor "diamati" menyimpang dari skor "benar" seseorang. Juga termasuk dalam kategori ini adalah

faktor-faktor seperti "test-wiseness" peserta tes atau strategi untuk pengambilan tes yang efisien

(Mousavi, 2002, hlm. 804).

Keandalan Rater

Kesalahan manusia, subjektivitas dan bias dapat masuk ke dalam proses penilaian. Reliabilitas antar-

penilai terjadi ketika dua atau lebih pencetak skor menghasilkan skor yang tidak konsisten dari tes

yang sama, mungkin karena kurangnya perhatian terhadap kriteria penilaian, kurangnya pengalaman,

kurangnya perhatian atau bahkan bias yang terbentuk sebelumnya.


Masalah reliabilitas rater tidak terbatas pada konteks di mana dua atau lebih pencetak gol terlibat.

Reliabilitas intra-penilai adalah kejadian umum bagi guru kelas karena kriteria penilaian yang tidak

jelas, kelelahan, bias terhadap siswa "baik" dan "buruk" tertentu, atau kecerobohan sederhana.

Reliabilitas Administrasi Pengujian

Tidak dapat diandalkan juga dapat diakibatkan oleh kondisi di mana tes diberikan, seperti karena

kebisingan jalan di luar gedung, variasi fotokopi, jumlah cahaya di berbagai bagian ruangan, variasi

suhu dan bahkan kondisi meja dan kursi.

Uji Reliabilitas

Terkadang sifat tes itu sendiri dapat menyebabkan kesalahan pengukuran, seperti tes yang terlalu

panjang dan item tes yang ditulis dengan buruk (yang ambigu atau yang memiliki lebih dari satu

jawaban yang benar).

Validitas

Validitas dapat didefinisikan sebagai "sejauh mana kesimpulan yang dibuat dari hasil penilaian sesuai,

bermakna, dan berguna dalam hal tujuan penilaian" (Gronlund, 1998, hal.226). Bagaimana validitas tes

ditetapkan? Tidak ada ukuran validitas final dan absolut, tetapi beberapa jenis bukti yang berbeda dapat

digunakan untuk mendukung. Dalam beberapa kasus, mungkin tepat untuk memeriksa sejauh mana tes

membutuhkan kinerja yang sesuai dengan kursus atau unit studi yang diuji. Dalam kasus lain, kita

mungkin prihatin dengan seberapa baik tes menentukan apakah siswa telah mencapai serangkaian

tujuan atau tingkat kompetensi yang ditetapkan. Korelasi statistik dengan tindakan terkait tetapi

independen lainnya adalah bentuk bukti lain yang diterima secara luas. Kekhawatiran lain tentang

validitas tes mungkin berfokus pada konsekuensi - di luar mengukur kriteria itu sendiri - dari tes, atau

bahkan pada persepsi peserta tes tentang validitas.

Bukti Terkait Konten

Jika tes benar-benar mengambil sampel materi pelajaran tentang kesimpulan mana yang akan ditarik,

dan jika itu mengharuskan peserta tes untuk melakukan perilaku yang sedang diukur, tes tersebut dapat

mengklaim bukti validitas terkait konten, sering populer disebut sebagai validitas konten (misalnya,
Mousavi, 2002; Hughes, 2003). Anda biasanya dapat mengidentifikasi bukti terkait konten secara

observasional jika Anda dapat dengan jelas mendefinisikan pencapaian yang Anda ukur.

Cara lain untuk memahami validitas konten adalah dengan mempertimbangkan perbedaan antara

pengujian langsung dan tidak langsung. Pengujian langsung melibatkan peserta tes dalam benar-

benar melakukan tugas target. Dalam tes tidak langsung, peserta didik tidak melakukan tugas itu sendiri

melainkan tugas yang terkait dalam beberapa cara.

Aturan praktis yang paling layak untuk mencapai validitas konten dalam penilaian kelas adalah

menguji kinerja secara langsung.

Bukti Terkait Kriteria

Bukti terkait kriteria, juga disebut sebagai validitas terkait kriteria, adalah sejauh mana "kriteria" tes

sebenarnya telah tercapai.

Dalam kasus penilaian kelas buatan guru, bukti terkait kriteria paling baik ditunjukkan melalui

perbandingan hasil penilaian dengan hasil beberapa ukuran lain dari kriteria yang sama.

Bukti terkait kriteria biasanya jatuh ke dalam salah satu dari dua kategori: validitas konkuren dan

prediktif. Tes memiliki validitas bersamaan jika hasilnya didukung oleh kinerja bersamaan lainnya di

luar penilaian itu sendiri. Validitas prediktif penilaian menjadi penting dalam hal tes penempatan,

baterai penilaian penerimaan, tes bakat bahasa, dan sejenisnya. Kriteria penilaian dalam kasus seperti

itu bukan untuk mengukur kemampuan bersamaan tetapi untuk menilai (dan memprediksi)

kemungkinan keberhasilan peserta tes di masa depan.

Bukti Terkait Konstruk

Validitas terkait konstruk biasanya disebut sebagai validitas konstruk. Konstruk adalah teori,

hipotesis, atau model apa pun yang mencoba menjelaskan fenomena yang diamati di alam semesta

persepsi kita. Konstruk mungkin atau mungkin tidak diukur secara langsung atau empiris – verifikasi

mereka sering membutuhkan data inferensial. "Kemahiran" dan "kompetensi komunikatif" adalah

konstruksi linguistik; "Harga diri" dan "motivasi" adalah konstruksi psikologis. Di bidang penilaian,

validitas konstruk bertanya, "Apakah tes ini benar-benar memanfaatkan konstruk teoritis seperti yang

telah didefinisikan?" Tes, dengan cara berbicara, operasional; definisi konstruk karena mereka

mengoperasionalkan entitas yang sedang diukur (lihat Davidson, Hudson, & Lynch, 1985).
Validitas konstruk adalah masalah utama dalam memvalidasi tes kemahiran standar skala besar. Karena

tes semacam itu harus, karena alasan ekonomi, mematuhi prinsip kepraktisan, dan karena mereka harus

mengambil sampel sejumlah domain bahasa, mereka mungkin tidak dapat memuat semua konten dari

bidang atau keterampilan tertentu.

Validitas Konsekuensial

Validitas konsekuensial mencakup semua konsekuensi dari tes, termasuk pertimbangan seperti

keakuratannya dalam mengukur kriteria yang dimaksudkan, dampaknya terhadap persiapan peserta tes,

pengaruhnya terhadap pelajar, dan konsekuensi sosial (yang dimaksudkan dan tidak disengaja) dari

interpretasi dan penggunaan tes.

Gronlund (1998, hlm. 209-210) mendorong guru untuk mempertimbangkan pengaruh penilaian

terhadap motivasi siswa, kinerja selanjutnya dalam kutukan, pembelajaran mandiri, kebiasaan belajar,

dan sikap terhadap pekerjaan sekolah.

Validitas Wajah

Aspek penting dari validitas konsekuensial adalah sejauh mana "siswa memandang penilaian sebagai

adil, relevan, dan berguna untuk meningkatkan pembelajaran" (Gronlund, 1998, hal.210), atau apa

yang dikenal sebagai validitas wajah. "Validitas wajah mengacu pada sejauh mana tes terlihat benar,

dan tampaknya mengukur pengetahuan atau kemampuan yang diklaimnya untuk diukur, berdasarkan

penilaian subyektif dari peserta ujian yang mengambilnya, personel administrasi yang memutuskan

penggunaannya, dan pengamat psikometri lainnya yang tidak canggih" (Mousavi, 2002, hlm.244).

Validitas wajah berarti bahwa siswa menganggap tes itu valid. Validitas wajah mengajukan pertanyaan

"Apakah tes, pada 'wajah' itu, muncul dari perspektif pelajar untuk menguji apa yang dirancang untuk

diuji?" Validitas wajah kemungkinan akan tinggi jika peserta didik menjumpai:

 format yang dibangun dengan baik dan diharapkan dengan tugas-tugas yang sudah dikenal,

 tes yang jelas dapat dilakukan dalam batas waktu yang ditentukan,

 item yang jelas dan tidak rumit,

 arah yang jernih,

 tugas yang berhubungan dengan pekerjaan kursus mereka (validitas konten), dan
 tingkat kesulitan yang menghadirkan tantangan yang masuk akal.

Validitas wajah bukanlah sesuatu yang dapat diuji secara empiris oleh seorang guru atau bahkan oleh

seorang ahli pengujian. Ini murni faktor "mata yang melihatnya" – bagaimana peserta tes, atau

mungkin pemberi tes, secara intuitif memandang instrumen. Keadaan psikologis pelajar (kepercayaan

diri, kecemasan, dll) merupakan unsur penting dalam kinerja puncak oleh pelajar.

Keaslian

Bachman dan Palmer (1996, hlm. 23) mendefinisikan keaslian sebagai "tingkat korespondensi

karakteristik tugas tes bahasa yang diberikan dengan fitur tugas bahasa target," dan kemudian

menyarankan agenda untuk mengidentifikasi tugas-tugas bahasa target tersebut dan untuk

mengubahnya menjadi item tes yang valid.

Pada dasarnya, keaslian dalam tugas pengujian kemungkinan akan diberlakukan di "dunia nyata".

Dalam pengujian, keaslian dapat hadir dengan cara berikut:

1. Bahasa dalam tes ini sealami mungkin

2. Item dikontekstualisasikan daripada diisolasi

3. Topik bermakna (relevan, menarik) bagi pelajar

4. Beberapa organisasi tematik untuk item disediakan, seperti melalui alur cerita atau episode

5. Tugas mewakili, atau mendekati dekat, tugas dunia nyata.

Washback

Dalam penilaian skala besar, washback umumnya mengacu pada efek tes terhadap instruksi dalam hal

bagaimana siswa mempersiapkan diri untuk tes. Contoh washback adalah kursus "menjejalkan",

"mengajar untuk ujian", informasi yang "mencuci kembali" kepada siswa dalam bentuk diagnosis

kekuatan dan kelemahan yang berguna, efek penilaian pada pengajaran dan pembelajaran sebelum

penilaian itu sendiri.

Salah satu cara untuk meningkatkan washback adalah dengan berkomentar dengan murah hati dan

khusus pada kinerja tes. Nilai huruf, skor numerik dan frasa sama sekali tidak memberikan informasi

tentang minat intrinsik kepada siswa dan mengurangi segunung data kinerja linguistik dan kognitif

menjadi molehill yang tidak masuk akal. Tanggapi sebanyak mungkin detail selama tes jika waktu

memungkinkan. Berikan pujian untuk kekuatan serta kritik konstruktif terhadap kelemahan. Berikan
petunjuk strategis tentang bagaimana seorang siswa dapat meningkatkan elemen kinerja tertentu.

Dengan kata lain, luangkan waktu untuk membuat kinerja tes pengalaman yang memotivasi secara

intrinsik dari mana seorang siswa akan mendapatkan rasa pencapaian dan tantangan.

Menerapkan Prinsip untuk Evaluasi Tes Kelas

1. Apakah prosedur pengujiannya praktis?

2. Apakah tes ini dapat diandalkan?

3. Apakah prosedur menunjukkan validitas konten?

4. Apakah wajah prosedur valid dan "bias untuk yang terbaik"?

5. Apakah tugas tes seotentik mungkin?

6. Apakah tes ini menawarkan pencucian yang bermanfaat bagi pelajar?

You might also like