# TUGAS INDIVIDU

VALIDITAS DAN REABILITAS

oleh Endi Febrianto 310800073 Program Studi : Pendidikan Matematika

SEKOLAH TINGGI KEGURUAN DAN ILMU PENDIDIKAN PERSATUAN GURU REPUBLIK INDONESIA (STKIP – PGRI) PONTIANAK 2011

ABSTRACT Validity of a test is its most important characteristic. A test is valid to the degree that it accurately measures some characteristics. There are three basic types of validity: content validity, which is most important for the classroom teacher’s achievement test, describes the adequacy of the test to sample the domains of a subject as stressed in classroom instruction. Criterion-related validity describes the relationship between test scores and independent external criterion measures. Construct validity is the degree to which test scores can be accounted for by certain explanatory actions that support a psychological theory. Reliability of test result is a universal criterion of educational measurement. Higher reliability measures are obtained as chance errors associated with the complete process of testing are reduced. Coefficients of reliability are the best statistical data available to the teacher who is striving to determine the degree of success in testing and who is making efforts to improve future tests. One major aspect of test reliability is the degree to which a test measures with consistency. Kata Kunci: validitas, reliabilitas A. PENDAHULUAN Evaluasi pendidikan melibatkan banyak kegiatan teknis dalam menentukan metode dan format penilaian yang dapat digunakan untuk mendapatkan informasi yang dibutuhkan. Informasi tersebut diperlukan dalam menafsir dan menetapkan keputusan untuk kepentingan pendidikan. Penilai membutuhkan keterampilan dalam mengidentifikasi dan memahami berbagai macam perspektif penilaian, baik penilaian kontekstual dan proses maupun penilaian hasil. Karena penilaian merupakan pusat kontrol keberhasilan program pendidikan, maka terdapat dua syarat utama yang harus dipenuhi oleh suatu instrumen penilaian, yaitu validitas dan reliabilitas. Validitas mengacu pada keberartian, kebenaran, kemanfaatan, dan kesesuaian skor tes. Validitas merupakan karakteristik suatu tes ketika diujikan pada suatu kelompok peserta tes. Validasi suatu instrumen mencakup pengumpulan data empiris dan argumentasi logis untuk menunjukkan bahwa kesimpulan tertentu adalah tepat. Sedangkan reliabilitas yang berarti konsistensi adalah ciri umum dari suatu instrumen pengukuran dan penilaian pendidikan. Konsistensi tinggi skor instrumen dari suatu pengukuran ke pengukuran berikutnya merupakan ciri terpenting dari instrumen yang berkualitas tinggi. Tulisan ini adalah sebuah kajian teoretis tentang apa dan bagaimana validitas dan reliabilitas itu apabila dikaitkan dengan kualitas instrumen dan penerapannya dalam penilaian hasil suatu program pembelajaran. Selanjutnya, tulisan ini diharapkan untuk mengundang wacana bagi pembaca tentang: Bagaimana instrumen penilaian yang berkualitas? Bagaimana meningkatkan validitas dan reliabilitas suatu instrumen penilaian? Faktor-faktor apa yang mempengaruhi validitas dan reliabilitas suatu instrumen penilaian?

C. PEMBAHASAN 1. Validitas a. Jenis-jenis Validitas dan Ukurannya Crocker dan Algina (1986) membedakan tiga jenis validitas, yaitu: 1) validitas isi, mengkaji kepadanan sampel yang terdapat dalam suatu instrumen; 2) validitas konstruk, mengkaji sifat-sifat psikologis yang menjelaskan keragaman skor responden dalam instrumen tertentu; 3) dan validitas relasi kriteria, membandingkan skor responden dengan satu atau lebih variabel eksternal. Validitas konstruk mencakup syarat-syarat empiris dan logis dari validitas isi dan validitas kriteria. Hal Ini berari bahwa validitas konstruk menggabungkan syarat-syarat yang terdapat dalam validitas isi dan validitas relasi kriteria (Anastasi, 1997). Validitas konstruk menghubungkan gagasan dan praktek pengukuran di satu pihak, dengan gagasan teoretik di pihak lain. Para penyusunan instrumen biasanya bertolak dengan bekal suatu konstruk, kemudian mengembangkan instrumen untuk mengukur konstruk tersebut. Selanjutnya, butir-butir instrumen yang telah dikembambangkan diujicobakan secara empiris. Validitas isi dan validitas konstruk berhubungan dengan kecocokan butir-butir instrumen dengan tujuan ukurnya. Kedua jenis validitas tersebut dapat ditentukan melalui pengkajian secara teoretis dan secara empiris, yang mencakup: (1) menjelaskan pokok bahasan dan sub pokok bahasan; (2) menetapkan pokok bahasan dan subpokok bahasan yang diukur oleh setiap butir instrumen; (3) mencocokkan butir-butir instrumen dengan pokok bahasan dan subpokok bahasan yang diukurnya. Secara teoretis validitas isi dan validitas konstruk dapat dikaji melalui penilaian panelis. Penilaian panelis dimaksudkan untuk menilai kesesuaian setiap butir instrumen dengan pokok bahasan dan subpokok bahasan yang diukurnya. Prosedur yang digunakan adalah meminta para panelis untuk mencermati butir-butir instrumen. Kemudian menilai kesesuaian setiap butir instrumen dengan pokok bahasan dan subpokok bahasan yang diukurnya. Suatu contoh penilaian validitas isi dan validitas konstruk secara teoretis dapat dilakukan melalui penilaian panelis (pakar). Pengembangan prosedur penilaian panelis dapat dilakukan melalui beberapa langkah, yaitu: Pertama, menetapkan skala yang digunakan, yaitu: 1 = tidak relevan, 2 = kurang relevan, 3 = cukup relevan, 4 = relevan, dan 5 = sangat relevan. Kedua, menetapkan kriteria penilaian yang mencakup: (1) mengukur indikatornya; (2) hanya memiliki satu arti; (3) jelas dan mudah dipahami; (4) tidak bersifat faktual; dan (5) tidak tumpang tindih dengan butir-butir lainnya. Ketiga, menetapkan pilihan, yaitu: 1 (tidak relevan) jika hanya satu atau semua kriteria tidak terpenuhi; 2 (kurang relevan) jika hanya dua kriteria yang terpenuhi; 3 (cukup relevan) jika hanya tiga kriteria yang terpenuhi; 4 (relevan) jika hanya empat kriteria yang terpenuhi; dan 5 (sangat relevan) jika semua kriteria terpenuhi. Keempat, kualitas masing-masing butir instrumen didasarkan atas rerata hasil penilaian panelis, dengan kriteria sebagai berikut: Rerata Penilaian Keputusan 1,0 – 2,9 Tidak sesuai Direvisi 3,0 – 3,9 Cukup sesuai Diterima dengan revisi 4,0 – 5,0 SesuaiDiterima

Penilaian validitas isi dan validitas konstruk secara empiris dilakukan dengan ujicoba instrumen kepada responden yang sesuai dengan karakteristik responden tempat pemberlakuan instrumen final. Penetapan jumlah sampel dapat diacuh dari pendapat Nunnaly (1970) bahwa untuk mengurangi resiko kehilangan butir-butir instrumen dan agar memungkinkan untuk mengeliminasi faktor-faktor yang tidak dikehendaki maka dalam analisis instrumen direkomendasikan untuk digunakan sampel 5–10 kali jumlah butir instrumen. Ujicoba secara empiris dimaksudkan untuk menganalisis validitas isi dan validitas konstruk instrumen secara empiris. Validitas isi biasanya digunakan untuk menyebut validitas instrumen tes, sedangkan validitas konstruk biasanya digunakan untuk menyebut validitas instrumen non tes. Secara empiris, kedua jenis validitas tersebut dianalisis dengan cara yang berbeda. Validitas isi. Secara empiris alat analisis validitas isi yang biasa digunakan (khusus untuk tes pilihan ganda) adalah Item and Test Analysis (ITEMAN). Alat analisis ini dimaksudkan untuk mendapatkan informasi tentang: indeks kesukaran butir tes, indeks daya beda butir, dan keberfungsian pengecoh. Disamping itu, juga untuk menentukan: korelasi biserial titik (point biserial correlation), dan keseimbangan isi atau keterwakilan materi yang hendak diukur. Secara empiris kelima informasi tersebut dibutuhkan karena saling berhubungan antara satu dengan yang lainnya, dimana keberfungsian pilihan dapat meningkatkan indeks kesukaran butir tes, indeks kesukaran butir tes dapat menentukan daya beda butir, dan indeks kesukaran dan daya beda butir dapat mempengaruhi interkorelasi butir, dan secara keseluruhan kelima informasi tersebut merupakan penentu tingkat reliabilitas tes. Untuk jelasnya prosedur analisis butir dan penetapan kriteria untuk menerima, menolak atau merevisi butir-butir tes, secara berturut-turut sebagai berikut: (1) Indeks kesukaran butir (p). Indeks kesukaran butir tes adalah proporsi peserta yang menjawab benar butir tes. Indeks kesukaran butir yang baik berkisar antara 0,3-0,7 paling baik pada 0,5; karena p=0,5 dapat memberikan kontribusi optimal terhadap korelasi biserial titik, daya pembeda butir, dan reliabilitas tes. Butir-butir tes yang memiliki indeks kesukaran di bawah atau di atas kriteria 0,3 - 0,7 dapat digunakan apabila ada pertimbangan keterwakilan pokok bahasan yang diukurnya. (2) Daya pembeda butir (D). Daya pembeda butir adalah kemampuan butir tes untuk membedakan siswa mampu dan kurang mampu. Indeks daya beda butir mempunyai rentang nilai –1 ke +1, namun nilai negatif dan rendah menunjukkan kinerja butir yang rendah. Suatu butir tes dapat dipertahankan apabila memiliki nilai D ³ 2,0. Indeks daya beda butir dihitung dengan menggunakan rumus: D= pu - pi; dimana: pu = proporsi kelompok atas yang menjawab benar, pi = proporsi kelompok bawah yang menjawab benar. Pembagian kelompok responden didasarkan atas pendapat Kelly (1939) yang dikutip oleh Crocker dan Algina (1996) bahwa indeks daya beda butir yang lebih stabil dan sensitif dapat dicapai dengan menggunakan 27 persen kelompok atas dan 27 persen kelompok bawah. (3) Korelasi biserial titik (rpbi). Korelasi biserial titik adalah korelasi antara skor butir tes dengan skor total. Korelasi biserial titik dapat disamakan dengan daya beda butir, namun rpbi itu sendiri perlu dihitung karena dapat menyediakan refleksi yang sebenarnya dari kontribusi setiap butir tes terhadap