You are on page 1of 9

TES BAHASA DITILIK DARI MACAM DAN

SYARATNYA

Oleh
Widiatmoko
E.: moko.geong@gmail.com
W.: http://widiatmoko.blog.com

Pengertian
Sebelum mengenali aneka macam tes bahasa, akan saya ulas sedikit
pengertian evaluasi, penilaian, pengukuran, dan tes. Hal ini dimaksudkan agar
istilah yang bertalian dengan tes tidak menjadi rancu. Kita sering mendengar
kata ‘evaluasi’ yang dipahami sebagai kegiatan penilaian pada akhir suatu
program kegiatan. Di dalam banyak literatur, istilah evaluasi dapat kita temukan
sebagai istilah yang bertalian dengan bidang psikologi, pendidikan, manajemen,
dan sebagainya. Di dalam kamus linguistik terapan, Richards et.al (1985)
mendefinisikan evaluasi sebagai pengumpulan informasi secara sistematik
untuk keperluan pengambilan keputusan. Di dalam terminologi penelitian,
istilah evaluasi digunakan secara silih berganti dengan istilah metoda, maka
digunakanlah metoda kuantitatif (seperti: tes) dan metoda kualitatif (seperti:
observasi dan kiraan). Di dalam penelitian evaluasi, bahkan, sebagaimana
ditemukan istilah evaluasi oleh Anderson et.al (1975) di dalam Encyclopedia of
Educational Evaluation, dipahami sebagai program yang bertujuan memberikan
informasi untuk pengambilan keputusan. Dipertegas di dalam pengertiannya,
Patton (1980) di dalam pengantarnya memahami evaluasi sebagai istilah
penelitian, yaitu administrasi tes baku pada kelompok eksperimen dan
kelompok kontrol. Bertalian dengan program pembelajaran bahasa, evaluasi
dipahami sebagai keputusan yang dibuat tentang kualitas program dan
keputusan tentang individu di dalam program tersebut. Naga (2002)
memberikan definisi evaluasi sebagai proses untuk melakukan pertimbangan
nilai tentang sesuatu (produk, kinerja, tujuan, proses, prosedur, program,
pendekatan, fungsi).
Berbeda halnya dari evaluasi, penilaian dapat diartikan sebagai suatu
proses untuk mengukur kadar pencapaian tujuan. Definisi ini muncul karena
Nurgiyantoro (1995) menggunakan istilah penilaian di dalam konteks
pendidikan dan pengajaran sebagai proses. Tuckman (1975) yang dinukil oleh
Burhan (1995) memberi arti penilaian sebagai suatu proses untuk mengetahui
(menguji) apakah suatu kegiatan, proses kegiatan, keluaran suatu program telah
sesuai atau belum dengan tujuan atau kriteria yang telah ditentukan
sebelumnya. Di dalam dunia pendidikan, penilaian memang dapat diartikan
sebagai pemberian nilai atau pertimbangan hasil belajar pembelajar, cara
mengajar pendidik, kegiatan belajar mengajar, kurikulum atau program
pendidikan.
Sedangkan pengukuran, sebagaimana didefinisikan oleh Naga (2002),
adalah pemberian bilangan pada atribut dari subjek (makhluk, benda, peristiwa)
menurut aturan. Bilangan yang diberikan itu adalah sekor (data), sedangkan
atribut dari subjek itu adalah sasaran ukur (sasaran ukur atribut dan sasaran
ukur subjek atau responden). Gronlund (1981) membedakan pengukuran dari
evaluasi. Pengukuran menurutnya dipandang sebagai deskripsi perilaku secara
kuantitatif, dalam hal ini ia berupa sekor tes.
Dalam proses belajar mengajar, kita akan banyak bersinggungan dengan
istilah tes. Tes, secara umum, dipahami sebagai prosedur untuk mengukur
kemampuan, pengetahuan, atau kinerja. Istilah tes tentu digunakan juga di
dalam banyak hal. Ada yang dikenal dengan tes bakat di dalam psikologi;
TOEFL (Test of English as a Foreign Language), TOEIC (Test of English for
International Communication), IELTS (The International English Language Testing
System) di dalam bahasa Inggris; tes tengah semester, tes akhir akhir semester di
dalam pendidikan; dan sebagainya. Istilah tes di sini sering digunakan secara
silih berganti dengan istilah ujian. Tes sebagaimana didefinisikan di dalam
Webster’s Collegiate adalah serangkaian pertanyaan atau latihan atau alat lain
yang mengukur keterampilan, pengetahuan, intelegensi, kapasitas, atau bakat
seseorang. Pada definisi lain, para ahli mendefinisikan tes untuk menunjuk pada
alat untuk membedakan individu atau kelompok bertalian dengan pengalaman
yang dialaminya. Tes di dalam terminologi penelitian sering dianggap sebagai
salah satu alat ukur (instrumen) di samping alat ukur lain yang berupa nontes
(observasi, skala sikap). Dalam tulisan ini, akan disinggung tes secara khusus,
yakni tes bahasa.
Oller (1979) sebelum mendefinisikan tes bahasa telah mengetahui bahwa
tes yang dimaksud adalah tes bahasa asing. Dengan demikian definisi yang
dimaksud adalah alat yang digunakan untuk menilai seberapa besar seseorang
telah belajar bahasa asing tersebut. Bagi kebanyakan sekolah, tes bahasa asing
merupakan salah satu tes yang diberikan selain tes bidang studi yang lain. Tes
bahasa sebagaimana tes yang lain merupakan bagian integral di dalam proses
belajar mengajar di mana ia diputuskan sebagai penentu yang sesuai untuk
mengetahui keberhasilan belajar siswa atau mahasiswa di kelas di dalam suatu
periode program pembelajaran. Seiring dengan perkembangan metoda
pengajaran bahasa, tes bahasa juga mengalami perubahan yang kini lebih sering
terdengar istilah tes bahasa secara komunikatif. Oleh karena itu, pengertian tes
bahasa merupakan definisi yang lebih sering digunakan di dalam pembelajaran
bahasa yang merupakan rangkaian akhir pembelajaran setelah perhatian pada
kurikulum atau silabus dan proses pembelajaran dengan metodanya.

Macam-macam Tes Bahasa


Di dalam banyak literatur tes bahasa, ditemukan sejumlah macam tes
bahasa. Namun secara mendasar, sebelum tes diberikan kepada siswa atau
mahasiswa, dikenali secara baik alasan-alasan mengapa suatu tes diberikan.
Heaton (1990) menyajikan alasan-alasan suatu tes diberikan, yakni mencari
kemajuan belajar, memotivasi belajar, menemukan kesulitan belajar, mengetahui
prestasi belajar, mengetahui tingkat kemampuan, menyeleksi calon pembelajar,
dan mengetahui kelancaran berbahasa.
Manakala tes diberikan dengan alasan untuk mencari kemajuan belajar
siswa atau mahasiswa, tes tersebut adalah progress test. Jenis tes ini memiliki
karakteristik, seperti kecenderungan 80% - 90% terdapat nilai B (baik) atau A
(baik sekali), mencakupi materi yang tidak banyak dalam rentang waktu yang
pendek, dan diberikan secara sedikit tidak formal. Jenis tes ini juga dapat
dimaksudkan untuk mencari kesulitan belajar siswa atau mahasiswa. Ini berarti
bahwa tes ini selain sebagai alat untuk memotivasi belajar juga mencari materi-
materi yang masih lemah dikuasai. Harapan bahwa nilai sebagian besar siswa
atau mahasiswa tinggi, ternyata yang ditemui sebaliknya, maka tes ini pun
digunakan sebagai alat ukur untuk mendeteksi kesulitan belajar. Dengan
demikian, siswa atau mahasiswa mampu melakukan perbaikan dalam masa
pengayaan (remedial teaching) sehingga ketinggalan materi ajar dapat diikuti.
Secara sederhana, progress test pada saat tertentu dapat berfungsi sebagai
diagnostic test. Waktu pelaksanaannya sama dengan progress test, hanya saja
diagnostic test sedikit lebih formal sehingga persiapannya pun sedikit lebih baik.
Sedangkan jenis tes yang dimaksudkan untuk mengetahui prestasi belajar
siswa atau mahasiswa, tes formatif atau tes sumatif atau lebih dikenal dengan tes
tengah semester atau tes akhir semester biasa diberikan. Karakteristik
antarkeduanya sedikit berbeda. Tes formatif mencakupi jumlah materi yang
lebih sedikit dibandingkan dengan yang ada pada tes sumatif. Tes formatif
diberikan dalam rentang waktu yang lebih pendek dari suatu program
pembelajaran, sedangkan tes sumatif diberikan dalam rentang waktu yang lebih
lama dari suatu program pembelajaran. Tes formatif diberikan selama proses
pembelajaran, sedangkan tes sumatif diberikan pada akhir program. Meskipun
terdapat perbedaan, kedua jenis tes tersebut juga memiliki kesamaan, yakni
kedua jenis tersebut diberikan dalam keadaan yang lebih formal, memiliki
kecenderungan rentangan nilai yang merata dari yang terendah hingga tertinggi
dan berdistribusi normal.
Selain jenis-jenis tes di atas yang diberikan pada saat proses pembelajaran
berlangsung dan pada akhir program pembelajaran, jenis tes tersebut juga
diberikan pada awal program. Jenis tes ini meliputi tes seleksi dan tes
penempatan. Tes seleksi bertujuan untuk memilih calon pembelajar yang terbaik.
Selain itu, tes ini juga memiliki karakteristik, seperti menggunakan standar
penilaian kriteria (criterion reference test), mencakupi jumlah materi yang bersifat
umum dan luas, membutuhkan waktu yang tidak sebentar untuk memenuhi
jumlah pembelajar, dan lebih memberatkan pihak penyelenggara karena pada
suatu saat tidak diperoleh calon pembelajar yang terbaik. Biasanya yang
melakukan kegiatan ini adalah sekolah atau kampus unggulan. Sebaliknya, tes
penempatan adalah tes yang bertujuan untuk memilih calon pembelajar sesuai
dengan tingkatnya, misalnya tingkat mahir, tingkat semenjana (intermediate),
tingkat novice, dan sebagainya. Biasanya yang sering menggunakan jenis tes ini
adalah penyelenggara kursus bahasa. Namun, tidak menutup kemungkinan
jenis tes ini dipadukan dengan jenis tes seleksi. Ini dapat dilakukan manakala
penyelenggara tes memiliki calon pembelajar dalam jumlah yang sangat banyak,
sedangkan yang dibutuhkan hanya separonya. Dengan demikian, tes seleksi
dilakukan untuk mencari separo calon pembelajar terbaik. Selain itu, dari separo
jumlah peserta yang diterima tersebut, diklasifikasikan menurut nilai capaian
yang mereka dapatkan, misalnya 20 pembelajar bernilai terbaik berada di kelas
A, 20 berikutnya di kelas B, dan seterusnya.
Ada juga tes yang diberikan tidak pada awal, proses, dan akhir program,
melainkan berdiri sendiri. Jenis tes ini lazim ditemui, seperti proficiency test. Tes
ini bertujuan untuk mengetahui kemahiran berbahasa seseorang. Biasanya
seseorang yang melakukan tes ini pernah belajar bahasa tersebut dalam kurun
waktu tertentu. Tes ini mencakupi TOEFL (Test of English as a Foreign Language),
TOEIC (Test of English for International Communication), dan sebagainya. Tes
pertama dimaksudkan untuk tujuan akademik, sedangkan tes kedua untuk
tujuan vokasional. Di berbagai negara kedua jenis ini sering dilakukan.

Reliabilitas Tes
Agar tes bahasa dapat digunakan sebagai alat ukur, ia harus memenuhi
persyaratan, yang meliputi, yakni reliabilitas. Reliabilitas suatu tes, menurut
Nurgiyantoro (1995) berarti bahwa tes tersebut bersifat konsisten di mana ia
akan memperoleh hasil ukur yang kurang lebih sama pada sesuatu yang diukur,
jawaban siswa atau mahasiswa relatif tetap, dan hasil tes diperiksa oleh siapa
pun akan menghasilkan sekor yang kurang lebih sama. Naga (2002)
mendefinisikan reliabilitas sebagai tingkat kecocokan antara hasil ukur dan
keadaan sesungguhnya pada responden. Ada sejumlah jenis reliabilitas yang
dapat digunakan, yakni jenis konsistensi internal, stabilitas, dan ekivalensi.
Konsistensi internal terdiri atas pilah paruh Spearman-Brown, koefisien Alpha
Cronbach, Kuder-Richardson 20 (KR-20), Kuder-Richardson 21 (KR-21). Stabilitas
terdiri atas uji-uji ulang. Ekivalensi terdiri atas uji-uji setara.
Uji pilah paruh (split-half) dilakukan dengan cara memisahkan sekor hasil
tes ke dalam kelompok ganjil dan kelompok genap. Kemudian dilakukan
perhitungan jumlah sekor kelompok ganjil dan jumlah sekor kelompok genap.
Kedua jumlah sekor tersebut dikorelasikan untuk mendapatkan koefisien
korelasi (r). Akhirnya kita menghitung koefisien korelasi seluruh tes, dengan
rumus r = (2xr)/(1+r), di mana r adalah reliabilitas.
Koefisien Alpha Cronbach diterapkan pada tes yang memiliki sekor
berskala atau politomi, artinya sekor tes itu memiliki sejumlah kemungkinan
yang berjenjang, misalnya 1-5 atau yang lain bergantung pada maksud
penyusunannya. Pertanyaan-pertanyaan yang menggunakan koefisien
reliabilitas Alpha Cronbach ini adalah mengenai sikap, minat, motivasi, dan lain-
lain yang jawabannya berskala. Rumus koefisien Alpha Cronbach adalah r =
[K/(k-1)] x [1-(ΣSi2)/(St2)], K adalah jumlah butir, ΣSi2 adalah jumlah variansi
butir, St2 adalah variansi total.
Pengujian reliabilitas dengan menggunakan KR-20 dan KR-21 dilakukan
dengan membandingkan sekor butir-butir tes. Manakala butir-butir tes
menunjukkan tingginya tingkat kecocokan, disimpulkan bahwa tes tersebut
akurat atau mengukur secara akurat. Penggunaan KR-20 menghasilkan koefisien
lebih besar daripada dengan KR-21. KR-20 juga lebih rumit. Tetapi manakala
untuk menguji tes yang bersifat heterogen dan mencakupi berbagai pokok
bahasan, KR-20 lebih direkomendasikan. Sebaliknya KR-21 sekalipun lebih
sederhana dan mengukur secara lebih akurat dalam memberikan penafsiran, ia
tidak mampu menguji alat tes yang heterogen. Rumus KR-20 adalah r = [n/(n-1)]
x [1-(Σpq)/(S2)], n adalah jumlah butir, p adalah proporsi jawaban betul, q
proporsi jawaban salah, dan S2 variansi. Sedangkan rumus KR-21 adalah r =
[n/(n-1)] x [1-{μ(n-μ)}/{nS2}], μ adalah rataan (means).
Uji-uji ulang digunakan untuk memperkirakan tingkat stabilitas tes dengan
melakukan kegiatan pengukuran dua kali pada tes yang sama kepada siswa atau
mahasiswa yang sama. Hasil tes pertama dan kedua kemudian dikorelasikan.
Manakala koefisien korelasi (r) tinggi, tes yang diujicobakan dinyatakan stabil
atau reliabel. Teknik uji-uji ulang memiliki beberapa kelemahan, antara lain: sulit
untuk menghilangkan pengaruh jawaban tes yang pertama, adanya
kemungkinan faktor-faktor yang mempengaruhi hasil tes kedua, misalnya
berupa meningkatnya kemampuan siswa atau mahasiswa sebagai hasil belajar,
sulit menciptakan dua kondisi penyelenggaraan dua kali tes, dan menuntut
siswa atau mahasiswa mengalami dua kali tes yang dirasa kurang
menguntungkan dan memberatkan siswa atau mahasiswa.
Uji-uji setara digunakan untuk menguji tingkat reliabilitas tes yang
dilakukan terhadap dua perangkat tes yang setara. Kedua tes tersebut memiliki
jumlah butir, susunan, tingkat kesulitan, dan tujuan pengukuran yang sama. Ini
dilakukan dengan cara mengujicobakan kedua tes tersebut kepada subjek yang
sama, kemudian hasilnya dikorelasikan. Pengujian ini hampir sama dengan uji-
uji ulang. Tetapi, yang membedakan adalah bahwa uji-uji setara terdiri atas dua
perangkat tes yang berbeda. Untuk menyiapkan perangkat tes ini tentu bukan
pekerjaan yang mudah, sehingga dapat dikatakan bahwa uji-uji setara pun juga
memiliki kelemahan.

Validitas Tes
Naga (2002) mendefinisikan validitas sebagai kecocokan antara alat ukur dan
sasaran ukur. Harrison (1983) mendefinisikan validitas sebagai sejauh mana alat
ukur mampu mengukur apa yang seharusnya diukur. Validitas terdiri atas
validitas isi, validitas kriteria, dan validitas konstruk. Sebagian ahli membagi
validitas menjadi validitas isi, validitas prediktif, validitas serentak, dan validitas
konstruk.
Validitas isi menunjuk pada pengertian apakah alat tes itu memiliki
kesesuaian dengan tujuan dan deskripsi bahan ajar. Manakala butir-butir tes
secara jelas dimaksudkan untuk mengukur tujuan-tujuan tertentu dan mewakili
bahan yang diajarkan, dikatakan tes tersebut memiliki validitas isi. Pemenuhan
validitas isi dilihat dari tersedianya kisi-kisi yang baik yang dipakai sebagai
dasar penyusunan butir-butir tes di samping juga ketepatan masing-masing
butir itu sendiri. Validitas isi pada dasarnya tidak memerlukan perhitungan
statistik. Dengan demikian, sebenarnya validitas isi hampir sama dengan
validitas wajah yang hanya memperhatikan kesesuaian elemen-elemen yang
harus dipenuhi dalam kisi-kisi tes.
Validitas konstruk bertalian dengan konstruk atau konsep bidang bahasa
atau bidang lainnya yang akan diuji validitasnya. Ini menunjuk pada pengertian
apakah tes yang disusun itu telah sesuai dengan konsep ilmu yang diteskan
tersebut. Untuk menentukan tingkat validitas konstruk, penyusunan butir
dilakukan dengan mendasarkan diri pada kisi-kisi. Jenis validitas konstruk
digunakan untuk mempertimbangkan tingkat validitas butir yang berhubungan
dengan masalah sikap, motivasi, minat, dan lain-lain yang menggunakan skala
bertingkat.
Validitas kriteria menunjuk pada pengertian seberapa jauh siswa atau
mahasiswa yang sudah diajarkan bidang bahasa atau bidang lainnya
menunjukkan kemampuan yang lebih tinggi daripada mereka yang belum
diajarkan. Naga (2002) menyebutkan validitas ini bertujuan untuk menentukan
kecocokan antara hasil ukur berdasarkan pada sasaran ukur prediktor dan
sasaran ukur kriteria. Hasil ukur atau sekor prediktor merupakan hasil ukur
yang diperoleh melalui penerapan alat ukur pada subjek yang validitasnya
diperiksa. Sedangkan hasil ukur kriteria merupakan acuan untuk melihat
kecocokannya dengan hasil ukur prediktor. Validitas ini tediri atas dua, yakni
validitas serentak dan validitas prediksi. Validitas serentak merupakan validitas
di mana hasil ukur kriteria dan hasil ukur prediktor terjadi pada waktu yang
sama. Alat ukur kriteria merupakan alat ukur baku yang biasa dipakai,
sedangkan alat ukur prediktor merupakan alat ukur hasil rakitan baru yang
biasanya dibuat oleh guru atau dosen. Validitas prediksi merupakan validitas di
mana hasil ukur kriteria terjadi kemudian setelah hasil ukur prediktor. Hasil
ukur prediktor digunakan untuk memprediksi keadaan kemudian, misalnya
hasil ukur ujian masuk sekolah atau perguruan tinggi memprediksi hasil belajar
kemudian. Hasil ukur kriteria diperoleh kemudian dengan membuat alat ukur
kriteria. Rumus koefisien validitas adalah ρval = ρAxAy, di mana ρval adalah
koefisien validitas, Ax adalah hasil ukur prediktor, dan Ay adalah hasil ukur
kriteria.

Kepraktisan
Kepraktisan yang dimaksud di sini adalah bahwa tes harus
mempertimbangkan nilai ekonomi, kemudahan pelaksanaan, kemudahan
pensekoran, dan kemudahan penafsiran. Pertimbangan ekonomis merupakan
salah satu syarat tes yang diperlukan. Tidak mungkin kita melakukan tes tanpa
mempertimbangkan hal ini sekalipun syarat valid dan reliabel dipenuhi.
Kemudahan pelaksanaan berarti bahwa pelaksanaan tes tidak menuntut
berbagai fasilitas yang rumit dan tidak tersedia di pihak penyelenggara.
Pemilihan alat tes hendaknya juga mempertimbangkan kemudahan pensekoran
pada hasil pekerjaan siswa atau mahasiswa. Dipertimbangkan juga pedoman
penilaian, khususnya tes bentuk uraian. Kemudahan penafsiran juga merupakan
satu hal yang harus dipertimbangkan. Ini berarti bahwa tes yang baik harus
disertai pedoman bagaimana menafsirkan hasil tes tersebut, apakah ia menuntut
ditafsirkan dengan menggunakan acuan normatif atau acuan kriteria.
Simpulan
Agar seorang guru atau dosen mampu memberikan penilaian hasil belajar
siswa atau mahasiswanya, ia terlebih dahulu harus memahami pengertian yang
saling tumpang tindih di antara evaluasi, penilaian, pengukuran, dan tes.
Seorang guru atau dosen bahasa tentu saja akan bersinggungan dengan itu
semua. Tes sebagaimana dipahami sebagai prosedur untuk mengukur
kemampuan, pengetahuan, atau kinerja. Demikian pula halnya dengan tes
bahasa, tentu untuk mengukur kemampuan, pengetahuan, atau kinerja bahasa
seseorang. Ada banyak macam tes bahasa berdasarkan alasan-alasan mengapa
suatu tes diberikan. Secara mendasar, ada tes yang diberikan pada awal suatu
program, selama proses pembelajaran, maupun pada akhir suatu program, dan
ada pula yang terlepas dari suatu program. Yang terakhir biasanya berupa tes
kemahiran, dalam bahasa Inggris dijumpai banyak ragamnya, seperti TOEFL,
TOEIC, IELTS, dan sebagainya. Seorang guru atau dosen selain mengenal macam
dan alasannya suatu tes diberikan, juga yang paling mendasar adalah bagaimana
ia menyusun perangkat tes yang memenuhi syarat tes yang baik. Syarat ini
mencakupi validitas, reliabilitas, dan kepraktisan.

Pustaka Acuan
Anderson, Scarvia B., Samuel Ball. Encyclopedia of Educational Evaluation. San
Francisco: Jossey Bass, Inc. 1975.
Nurgiyantoro, Burhan. Penilaian dalam Pengajaran Bahasa dan Sastra. Yogyakarta:
BPFE. 1995.
Naga, Dali S. Pengantar Teori Sekor pada Pengukuran Pendidikan. Jakarta:
Gunadarma. 1992.
Naga, Dali S. Teori Tes dan Pengukuran. Jakarta: Program Pascasarjana,
Universitas Negeri Jakarta. 2002.
Harrison, Andrew. A Language Testing Handbook. London: Macmillan Press. 1983.
Heaton, J.B. Classroom Testing. London: Longman Group. 1990.
McDonald, Roderick P. Test Theory: A Unified Treatment. New Jersey: Lawrence
Erlbaum. 1999.
Oller, John W. Language Tests at School. London: Longman Group. 1979.
Patton, Michael Quinn. Qualitative Evaluation Methods. California: Sage
Publications, Inc. 1980.
Richards Jack, John Plat, dan H. Weber. Longman Dictionary of Applied Linguistics.
England: Longman Group. 1985.
Weir, Cyril J. Communicative Language Testing. United Kingdom: Prentice Hall.
1990.

You might also like