You are on page 1of 45

Evaluasi Program Pembelajaran/Kurikulum Konsep Dasar Evaluasi Program Evaluasi adalah suatu proses yang digunakan untuk mengukur

kualitas suatu pekerjaan. Evaluasi jika digunakan secara tepat, akan mengadakan kontrol kualitas yang menentukan seberapa jauh gap antara apa yang terjadi dan apa yang seharusnya terjadi.... Akhirnya tujuan dari pada evaluasi adalah untuk mengumpulkan data (hasil), mengubah data menjadi informasi ( yang dijadikan alat dalam membuat keputusan yang berguna), dan menggunakan informasi untuk membuat keputusan. Evaluasi adalah suatu bidang yang meliputi bidang yang luas baik pengalaman, pertumbuhan, perkembangan, dan perubahan. Hal ini digunakan perhatian terutama hubungan antara tujuan yang diinginkan dan penampilan, tetapi sering kali lebih luas dari pada itu. Dengan perluasan bidang ini, ada beberapa definisi dari istilah dan nama, dan secara jujur, menjadi sangat membingungkan. Evaluasi program yaitu evaluasi yang menaksir kegiatan pendidikan yang memberikan pelayanan pada suatu dasar yang kontinu dan sering melibatkan tawaran-tawaran kurikuler. Beberapa contoh di antaranya ialah evaluasi-evaluasi program membaca di suatu sekolah daerah, evaluasi program pendidikan khusus di negara bagian atau evaluasi program pendidikan berlanjut di suatu universitas. Evaluasi proyek adalah evaluasi yang menaksir kegiatan-kegiatan yang menyangkut suatu jangka waktu untuk menyajikan suatu tugas khusus. Beberapa contoh, misalnya lokakarya tiga hari tentang tujuan behavioral, percobaan dua tahun tentang pengembangan tes atau proyek tiga tahun tentang pendidikan karir. Suatu perbedaan antara program dan proyek adalah bahwa program diharapkan berlangsung untuk jangka waktu yang tidak terbatas, sedangkan proyek untuk jangka waktu singkat. Proyek yang diintitusionalkan bisa menjadi program. Evaluasi materi yaitu evaluasi yang menaksir nilai soal-soal fisik yang berhubungan dengan isi, termasuk buku, pentunjuk kurikuler, film, tape, dan hasil-hasil instruksional nyata lainnya. Sedangkan evaluasi material ialah evaluasi yang negukur kebaikan-kebaikan atau nilai-nilai dari butir-butir fisik yang berhubungan dengan isi, meliputi buku, panduan kurikulum, film, pita, lain lain-lain (hasil) pengajaran. Evaluasi kurikulum ialah suatu proses mendeskripsikan suatu nilai dan keputusan tentang kurikulum baik dari dimensi konsep, dimensi rencana, dimensi kegiatan dan dimensi hasil belajar. Dalam evaluasi program/kurikulum dikenal adanya evaluasi internal dan evaluasi eksternal. Evaluasi internal ialah evaluasi dilakukan oleh seorang anggota staf di dalam organisasi yang sedang diteliti. Sedangkan evaluasi eksternal ialah evaluasi yang dilaksanakan oleh evaluator di luar organisasi dalam mana objek dari evaluasi ditempatkan. Evaluasi program/kurikulum juga dibedakan dengan evaluasi formatif dan evaluasi sumatif. Evaluasi formatif ialah evaluasi yang dirancang dan digunakan untuk memperbaiki suatu objek, khususnya apabila objek itu sedang dikembangkan. Sedangkan evaluasi sumatif ialah evaluasi yang dirancang untuk menyajikan kesimpulan-kesimpulan tentang kelebihan atau harga suatu objek, dan saran-saran (anjuran-anjurannya) apakah objek itu harus dipertahankan, diubah atau dibuang. Evaluasi bebas tujuan: evaluasi dari suatu hal (akibat, hasil) di mana evaluator berfungsi tanpa tahu tujuan evaluasi itu. Seringkali terjadi pembedaan yang tidak jelas tentang pengertian evaluasi dan penelitian dalam pemakaian sehari-hari. Para ilmuwan sudah lama berusaha mencari dan menemukan kesepakatan untuk membedakan kedua pengertian tersebut. Apabila kita membaca secara cermat sesungguhnya antara kedua istilah evaluasi dan penelitian secara prinsip terdapat perbedaan.

Ditinjau dari sudut tujuan kegiatan, evaluasi dilaksanakan dengan tujuan untuk menemukan nilai dan makna dari evaluasi. Dengan nilai dan makna tersebut evaluator dapat memberikan informasi kepada pembuat keputusan (decision maker) atau kepada penanggungjawaban program. Evaluator dapat memberikan alternatif pemecahan masalah, namun keputusan tetap menjadi wewenang pembuat keputusan atau penanggungjawab program. Sedangkan penelitian dilaksanakan dengan tujuan untuk menjelaskan hubungan empirik antar berbagai variabel. Kegiatan penelitian terutama diarahkan untuk mengembangkan terori dalam disipln ilmu tertentu. Ada jenis penelitian tertentu yang memang dekat hubungannya dengan evaluasi yaitu penelitian tindakan (action research). Gambaran garis besar penelitian tindakan dibedakan menjadi penelitian dasar (basic research) dan penelitian praktis (practical research). Penelitian praktis dapat diklasifikasikan menjadi peneltian evaluasi (evaluation research), penelitian terapan (application research) dan penelitian tindakan (action research). Penelitian praktis sejak munculnya bermaksud menemukan pemecahan masalah-masalah dalam dunia kerja. Namun dalam pengembangannya mengalami perubahan dengan variasi pada sasaran penelitian, keterlibatan sponsor dan peneliti pada saran penelitian. Penelitian evaluasi lazimnya dimaksudkan untuk melakukan evaluasi terhadap suatu aspek atau beberapa aspek dari program serta mengkaji efektivitas program-program yang dirancang untuk melakukan perubahan-perubahan program dalam skala yang lebih luas. Prosedur yang lazim dilakukan adalah (a) mengidentifikasi tujuan program, (b) memilih tujuan program yang menjadi acuan, (c) menetapkan kriteria evaluasi, (d) melakukan pengukuran terhadap sasaran penelitian, (e) membandingkan hasil pengukuran dengan tujuan, dengan menggunakan kriteria yang telah ditetapkan dan (f) merumuskan perbedaan antara data dengan tujuan. Ditinjau dari sudut onbjek kegiatan, pelaksanaan evaluasi selalu harus berhubungan dengan kegiatan yang memang nyata dan telah terjadi. Sedangkan penelitian, objek kegiatannya lebih luas dan tidak terbatas. Namum hendaknya memperhatikan dan mengikuti aturan-aturan atau norma-norma yang telah ditetapkan, yang disebut dengan istilah etika penelitian. Etika ini dijadikan patokan atau pedoman yang sangat penting dalam pelaksanakan penelitian. Penelitian dilaksanakan secara sistematis artinya dilaksanakan berdasarkan suatu sistem, prosedur, aturan tertentu sehingga hasil penelitian benar-benar dapat diyakini secara kritis. Antara penelitian dan evaluasi, dua istilah yang secara historis berawal dari penelitianpenelitian tentang ilmu-ilmu tingkah laku (behavioral sciences). Mula-mula timbulnya psikologi sebagai disiplin ilmu sejak tahun 1800-an. Sebagai ilmu psikologi yang dewasa, hal ini disusun suatu metodologi dan teknik yang dipinjam dari ilmu-ilmu fisika dan biologi. Termasuk prinsip-prinsip penemuan ilmu pengetahuan (principles scientific inquiry), pengukuran (measurement) dan analisis data. Kemudian memasuk-kan model-model statistik yang dikembangkan untuk aplikasi agrikultur, antropologi, sosiologi, pendidikan dan tinjauan bidang ilmu tingkah laku yang lain, yang disesuaikan dengan metodologi penelitian dalam bidang yang baru. Penelitian memiliki sumber pengetahuan yang merupakan tinjauan terhadap pengembangan teori dan paradigma yang sudah lazim dikenal dalam metode penelitian eksperimental. Di mana hipotesis diperoleh atau dirumuskan secara logis dari teori dan melakukan tes di bawah kondisi yang terkontrol. Evaluasi memiliki cara teknologi dari pada ilmu. Penekanannya bukan pada pembangunan teori, tetapi pada pencapaian hasil atau prestasi dalam melaksanakan tugas (unjuk kerja). Esensinya adalah memberikan feedback terbimbing untuk mencapai keberhasilan. Menurut Stufflebeam (dalam Isaac, 1984) yang membedakan antara kegiatan evaluasi dan penelitian adalah bahwa tujuan evaluasi antara lain adalah to improve (meningkatkan atau memperbaiki), bukan to prove (membuktikan). B. Kriteria Evaluasi Program

Pada umunya evaluasi program memiliki tiga kerangka pokok, yaitu: (1) deskripsi program, (2) adanya kriteria dan (3) pertimbangan. Ketiga komponen tersebut saling berkaitan. Evaluasi dilaksanakan berdasarkan kriteria tertentu yang disusun dengan berpedoman pada deskripsi program. Hasil analisis data selanjutnya dibuatlah suatu pertimbangan dan keputusan terhadap program tersebut. Deskripsi Program Pengumpulan data pada umumnya didasarkan atas konsep deskripsi program yang dikembangkan sebelumnya dengan menggunakan pendekatan tertentu, program dijabarkan menjadi beberapa unsur atau aspek. Selanjutnya dapat dirumuskan beberapa panduan atau pedoman yang berguna untuk pengumpulan data. Ada tiga pendekatan yang dapat dipergunakan dalam rangka penentuan unsur-unsur pokok suatu program, yaitu: Pendekatan Struktural Pendekatan Fungsional Pendekatan Sistematis Pendekatan struktural, pusat perhatian ditujukan kepada komponen-komponen yang membentuk program. Komponen-komponen tersebut dijadikan panduan dalam rangka pengumpulan data. Contoh unsur-unsur program yang didasarkan atas pendekatan struktural adalah: Tujuan-tujuan program Seleksi dasar rancangan program Seleksi kegiatan-kegiatan program Rasional dan pendekatan terhadap evaluasi Karakteristik audiens Sistem penunjang administrasi Karakteristik pelaksana program Implementasi program Pendekatan fungsional pusat perhatiannya ditujukan kepada fungsi-fungsi utama dalam suatu program. Sebagai contoh, penekatan fungsional terdapat unsur-unsur program, yaitu: Evaluasi dan seleksi program Diagnosis dan remidiasi Community Outreach Penjadwalan Kompetensi Functional literacy Penempatan tenaga Latihan jabatan Testing program Pendekatan sistematis pusat perhatiannya ditujukan kepada keseluruhan program. Unsurunsur di dalam program terdiri dari: Komponen masukan (in-put) Komponen proses (process) Komponen hasil (product) C. Manfaat, Peranan, Tujuan dan Fungsi Evaluasi Program Manfaat evaluasi program bagi program pendidikan dan pelatihan, maupun proyek adalah sebagai berikut: Memungkinkan pengecekan program yang telah disusun, apakah program tersebut dapat dilaksanakan (applicable). 2. Melakukan pengkajian sejauhmana program yang dilaksanakan relevan dengan tujuan program dan membuahkan hasil sebagaimana yang diharapkan. 3. Memberikan petunjuk apakah pelaksanan program masih sejalan dengan apa yang telah direncanakan semula. Melalui teknik pengamatan dan monitoring, evaluasi dapat dilaksanakan selama pelaksanaan program berlangsung (evaluasi proses). 4. Memungkinkan pengkoordinasian kegiatan program dengan baik. Peranan dan Tujuan Evaluasi Program Peranan evaluasi peogram antara lain: Menetapkan kebijakan dan pembuatan keputusan. Menilai hasil yang dicapai setelah prgram dilaksanakan. Mengevaluasi pelaksanaan kurikulum pada salah satu jenjang pendidikan tertentu. Memberikan kepercayaan kepada lembaga tertentu (pemerintah atau swasta) yang mempunyai program, proyek atau kursus. Memonitor dana yang dikeluarkan untuk membiayai pelaksanaan program agar tidak terjadi penyalahgunaan. Memperbaiki dan menyempurnakan materi dan program yang telah dilaksanakan. Tujuan Evaluasi Program Evaluasi program dilaksanakan untuk kepentingan penentuan kebijakan dan pengambilan keputusan. Menetukan kebijakan dana pengambilan keputusan dapat dapatdilaksanakan dengan tepat apabila didukung oleh informasi (data ) yang lengkap, benar dan akurat

mengenai hal-hal yang berkaitan dengan permasalahannya, serta untuk mengukur keberhasilan pelaksanaan program. Bentuk keputusan tersebut dapat berupa angka/nilai tertentu setelah melalui pertimbangan tertentu pula. Sedangkan tingkat keterandalan dan keberadaan suatu keputusan pada dasarnya ditentukan oleh tingkat kebenaran dan keterandalan informasi (data) yang diperoleh. Untuk mengumpulkan data yang diperlukan, maka menggunakan instrumen pengumpul data yang memiliki tingkat keterandalan yang memadai pula. Secara spesifik dapat dijabarkan tujuan evaluasi program adalah untuk menetapkan: Apakah program yang telah disusun memenuhi kebutuhan sasaran dan apakah layak untuk dilaksanakan? Apakah pelaksanaan program berjalan sesuai dengan tujuan yang diharapkan? Berapa besar pengaruh program terhadap sararan yang telah ditetapkan? Seberapa besar program mampu memberikan nilai tambah (plus) apabila dibandingkan dengan biaya, tenaga dan waktu yang telah digunakan? Kelemahan-kelemahan apa yang terdapat dalam program dan bagaimana upaya-upaya yang dilakukan untuk memperbaiki atau menyempurna-kannya? Memberikan bahan pertimbangan bagi pengambil keputusan untuk menetapkan apakah program tersebut dapat dilanjutkan penyelenggaraan, diperluas atau dibatalkan/dihentikan. Memberikan bahan pertimbangan bagi penyelenggara program untuk mengadakan perbaikan dan penyempurnaan program, organisasi penyelenggara, komponen-kopmponen program dan aspek-aspek penyelenggara program sepanjang tahap-tahap penyelenggaraan program. Informasi yang diperoleh dapat dipakai sebagai bahan pertimbangan dalam mengambil keputusan mengenai perlu tidaknya diadakan modifikasi atau revisi guna meningkatkan efisiensi dan efektivitas penyelenggaraan program berikutnya. Berdasarkan tujuan yang dikemukakan di atas selanjutnya dapat ditetapkan dan dipilih instrumen pengumpul data yang cocok serta teknik analisis data apa seyogyanya digunakan. Fungsi Evaluasi Program Para perencana, pengelola dan pelaksana program perlu mengetahui tingkat keberhasilan dari usahanya menyelenggarakan program, terutama perencana program. Untuk merealisasi maksud tersebut pada waktu merencanakan suatu program hendaknya sudah diperkirakan bahwa program tersebut akan baik. Namun tanpa terasa ternyata kurang baik hasilnya. Dalam keadaan demikian evaluasi dalam konteks ini sangat penting karena telah berfungsi memberikan informasi kepada pelaksana program untuk membantu mengontrol pelaksanaan program agar dapat diketahui kelemahan-kelemahan atau penyimpangan-penyimpangan atau kekeliruan yang tenjadi selama program berjalan sehingga dapat memberikan tindak lanjut terhadap pelaksanaan program selanjutnya. Beberapa kontribusi yang dapat diberikan oleh evaluasi program dalam hubungannya dengan tipe keputusan serta kebijakan yang ditempuh seperti yang ditunjukkan berikut ini: Memberikan kontribusi terhadap keputusan tentang instalasi program (program installation). Banyak program yang berjalan namun terputus-putus dan bahkan gulung tikar karena tidak mampu front-end-analysis kebutuhan dan tuntutan program, tersedianya staf dan fasilitas yang dibutuhkan untuk membuahkan hasil yang diharapkan. Memberikan kontribusi terhadap keutusan tentang kelangsungan/ kontinuitas program, ekspansi dan sertifikasi. Hal ini termasuk menentu-kan apakah progran yang dilaksanakan memberikan suatu keuntungan atau pengaruh sampingan (side effect) yang sangat bermanfaat. Memberikan kontribusi terhadap keputusan tentang modifikasi program. Sasarannya adalah matapelajaran/bidang studi, yaitu memberikan informasi bagi pengembang program, pengelola dan pelaksana program yang dapat membantu memperbaiki disain program dan pelayanan peralatan. Evaluator mencari dan mengumpulkan informasi tentang pengaruh program atau sumbangan program dalam membantu pengambilan keputusan mengenai ekspansi. Dapat juga

menyeleksi data untuk memperbaiki program. Memberikan keterangan/informasi kepada rally support tentang program yang telah dilaksanakan. Memberikan keterangan/informasi kepada rally opposition tentang program yang telah dilaksanakan. Memberikan kontribusi agar memahami dasar kejiwaan (psikologis), sosial dan proses lainnya. D. Prinsip-Prinsip, Syarat-Syarat Evaluasi dan Evaluator Program Pelaksanaan evaluasi program didasarkan atas tujuan tertentu. Setiap program evaluasi diarahkan untuk mencapai tujuan yang telah ditetapkan secara jelas dan spesifik. Tujuantujuan itu pulalah yang mengarahkan kegiatan-kegiatan sepanjang proses evaluasi dilaksanakan. Evaluasi harus bersifat obyektif. Pelaksanaan evaluasi dan hasil evaluasi harus bersifat obyektif, berpijak pada apa adanya dan bersumber dari data yang nyata dan akurat, yang diperoleh melalui pengumpulan data dengan instrumen yang terandalkan. Evaluasi bersifat komprehensif. Pelaksanaan evaluasi hendaknya mencakup semua aspek (dimensi) yang terdapat dalam program. Evaluasi bersifat komprehensif. Tanggungjawab dalam perencanaan, pelaksanaan dan keberhasilan suatu program merupakan tanggungjawab bersama semua pihak yang terlibat dalam peroses evaluasi. Evaluasi hendaknya dilaksanakan secara efisien, khususnya dalam penggunaan waktu,niaya dan tenaga serta peralatan yang menajdi unsur penunjang. Evaluasi harus dilaksanakan secara berkesinambungan. Hal ini perlu mengingat tututan diadakannya perbaikan dan poenyempurnaan program dan perbaaikan sistem. Evaluasi program dalam pelaksanaannya hendaknya berpijak pada beberapa asumsi: Evaluasi program hendaknya didisain sebaik-baiknya guna memperoleh informasi yang baik dan akurat. Evaluasi program hendaknya dibatasi pada penemuan-penemuan yang didukung oleh data kuantitatif, kendatipun tidak dapat mengabaikan informasi (data) kualitatif. Informasi (data) yang diperoleh melalui pelaksanaan evaluasi hendaknya dapat menjadi alat yang efisien dan efektif dalam rangka perbaikan, penyempurnaan dan peningkatan program. Evaluasi program dapat dilaksanakan secara berkesinambungan dan mencakup evaluasi terhadap komponen input, proses dab output (product). Syarat-Syarat Evaluasi Program. Berorientasi pada tujuan. Tujuan program dijadikan patokan/arah dalam melakukan kegiatan evaluasi. Sebagai patokan/arah, tujuan program harus dirumuskan secara operasional, dapat diukur serta indikator keberhasilannya dapat diamati. Berorientasi kepada kriteria keberhasilan. Evaluator harus merumuskan indikator-indikator keberhasilan sebagai dasar/ pedoman untuk menetapkan keberhasilan dan atau kegagalan pelaksanaan suatu program. Menyeluruh (komprehensif) maksudnya mencakup seluruh kegiatan dalam program dan penyelengaraannya dilaksanakan secara terpadu seluruh komponen program. Serasi dan berkesinambungan. Kegiatan evaluasi hendaknya serasi dengan komponen-komponen dan aspek-aspek yang akan dievaluasi dan dilaksanakan secara berkesinambungan dari langkah penjajagan, perencanaan, persiapan, pelaksanaan hingga selesainya kegiatan program. Menggunakan berbagai sumber informasi dan teknik. Penggunaan berbagai sumber informasi dan teknik untuk evalusi program dapat diperoleh dari berbagai sumber antara lain: instruktur/pengajar/pelatih, peserta, lembaga atau instansi yang berkepentingan baik milik pemerintah maupun lembaga yang diadakan oleh masyarakat (swasta). Teknik yang digunakan dapat bervariasi, di antaranya: dengan menggunakan daftar pertanyaan (angket), wawancara (interview), pengamatan langsung (observation), dokumentasi (document), skala sikap, tes (tertulus/lisan) dan sebagainya. Berfungsi ganda. Evaluasi program selain berfungsi untuk memperoleh informasi yang lengkap, teliti, objektif dan akurat sebagai bahan pertimbangan dalam menyusun rekomendasi perbaikan atau penyempurnaan; tetapi juga berfungsi sebagai suatu media komunikasi antara pihak penyelenggara program dengan pihak-pihak yang menajdi sumber informasi mengenai komponen dan aspek progrtam serta

tujuan program yang tidak dievaluasi. Evaluator baik perseorangan maupun tim dapat berasal dari dalam (evaluator intern) maupun dari luar (evaluator extern). Evaluator yang berasal dari dalam (evaluator intern) yaitu seseorang atau sebuah tim yang ditunjuk oleh sebuah organisasi profesional, perusahaan ataupun pusat pendidikan dan pelatihan (Pusdiklat) yang melaksanakan program, berasal dari orang-orang yang menjadi anggota sebuah organisasi atau orang-orang yang terlibat dalam keanggotaan panitia pelaksana Diklat. Contoh: Sebuah Pusat Pendidikan dan Pelatihan atau sebuah Balai Latihan Kerja (BLK), sebuah Diklat Penyuluhan Pertanian, menyelenggarakan kegiatan selama tiga bulan. Pusdiklat/BLK membentuk panitia dan menunjuk beberapa orang yang bukan panitia bertugas mengevaluasi atau monitoring selama Diklat berlangsung. Evaluator dari luar (evaluator extern), yakni seseorang atau sebuah tim yang ditunjuk oleh pihak penguasa (penanggungjawab dan pengambil keputusan) untuk melaksanaakn evaluasi terhadap efektivitas dan efisiensi sebuah program. Dengan demikian hasil yang diperoleh dapat dipergunakan sebagai bahan pertimbangan dalam pengambilan keputusan, untuk menentukan tindak lanjut terhadap kelangsungan program (perbaikan, modifikasi atau dihentikan). Evaluator ekstern hendaknya berasal dari sekelompok orang atau tim yang sudah profesional, suatu tim/kelompok yang berasal dari suatu lembaga/organisasi profesi yang siap dibayar oleh penanggungjawab program. Evaluator ekstern dapat berasal dari perwakilan beberapa instansi yang berwenang yang ditunjuk. Contoh: Evaluasi terhadap Diklat BKKBN: penyelenggaran Diklat menunjuk perwakilan dari instansi terkait yang tidak menyelenggarakan Diklat sebagai evaluator, namun berkepentingan dengan Diklat tersebut. Sebelum melaksanakan evaluasi terhadap program, evaluator hendaknya menguasai prinsipprinsip dasar evaluasi, yaitu: Evaluator seyogyanya tidak memberikan jawaban terhadap pertanyaan khusus dan tidak dapat memberikan pertimbangan kepada pihak lain. Tugas evaluator hanya sebatas memberikan informasi dan beberapa pilihan alternatif. Evaluator tidak terikat pada suatu lembaga/instansi penyelengara Diklat. Evaluasi merupakan suatu proses yang berlangsung terus-menerus, sehingga dimungkinkan untuk mengadakan perbaikan ataupun modifikasi apabila terjadi hambatan atau kurang efektif ditinjau dari segi tenaga, biaya dan waktu. Hasil evaluasi yang dilaporkan kepada pihak pengambil keputusan merupakan tanggungjawab tim dan tidak mempunyai hak untuk memberikan peertimbangan, apakah diperbaiki, dimodifikasi, dihentikan atau dilanjutkannya suatu program. Evaluator hendaknya merumuskan pertanyaan-pertanyaan yang operasional untuk menggali informasi (data) serta menyelami semua permasalahan yang dihadapi. Evaluator hendaknya menggunakan variasi metode, teknik dan instrumen dalam pengumpulan data sebanyak mungkin, sehingga dapat mengungkapkan data sebanyak mungkin dari aspek-aspek yang dievaluasi. Evaluasi hendaknya dilakukan dengan teliti, cermat dan obyektif. Kesimpulan hasil evaluasi hendaknya merupakan deskripsi yang tegas dan jelas menunjukkan sebab-akibat. Untuk memperkaya deskripsi, evaluator dapat mengajukan beberapa asumsi yang didukung oleh data yang valid dan reliabel. Persyaratan sebagai Evaluator. Agar memperoleh hasil evaluasi yang sebaik-baiknya dan benar-benar onyektif, maka evaluator program dituntut memenuhi persyaratan-persyaratan berikut. Memahami materi, maksudnya memahami seluk beluk program yang akan dievaluasi antaralain: 1) Tujuan program yang telah dirumuskan sebelum memulai program. 2) Komponen-komponen program. 3) Jangka waktu dan jadwal kegiatan. 4) Mekanisme pelaksanaan program. 5) Pelaksanaan program.

6) Sistem monitoring kegiatan program. Menguasai teknik, yaitu menguasai cara-cara/teknik-teknik yang digunakan dalam pelaksanaan evaluasi program. Oleh karena itu evaluator program hendaknya menguasai: 1) Cara menyusun desain evaluasi program. 2) Teknik penentuan populasi dan sampel. 3) Teknik penyusunan instrumen evaluasi program. 4) Teknik dan prosedur pelaksanaan evaluasi. 5) Prosedur dan teknik pengumpulan data. 6) Teknik pengolahan data. 7) Teknik menganasisis dan menginterpretasi data. 8) Cara menyusun laporan hasil evaluasi.

Obyektif dan Cermat. Tim evaluator adalah sekelompok orang yang mengemban tugas penting dan ditopang oleh data yang dikumpulkan secara cermat, teliti dan obyektif. Berdasarkan data yang dikumpulkan, diharapkan tim evaluator dapat mengklasifikasikan, mentabulasikan, mengolah dan menganalisis serta menginterpretasi data dengan cermat dan obyektif. Di dalam mennentukan strategi penyusunan laporan, evaluator tidak diperkenankan untuk membedakan serta memandang salah satu atau dua asepek sebagai satu hal atau peristiwa yang istimewa atau luar biasa dan tidak boleh memihak. Jujur dan dapat dipercaya. Tim evaluator dalam melaksanakan tugasnya hendaknya berlaku jujur dan dapar dipercaya. Jujur artinya, data/informasi yang dikumpulkan benar-benar berasal dari sumber yang dapat dipertanggungjawabkan serta apa adanya. Tidak dimanipulasi, tidak ditambah dan dikurangi serta jujur melaporkan hasilnya kepada pihak pengambil keputusan (penguasa). Kejujuran dalam melaporkan hasil akan mempengaruhi keputusan yang diambil serta tidak lanjut yang dilakukan. Di samping itu, tidak bias dalam pengamatan ataupun salah dalam persepsi. Evaluator hendaknya orang luar yang tidak ada kaitan dengan pengambil kebijakan (keputusan) maupun pengelola dan pelaksana program. Evaluator hendaknya mengadakan hubungan yang baik dengan para responden maupun klient, dapat memahami wataknya, kebiasaan dan cara hidup responnden yang dijadikan sumber data. Evaluator hendaknya tangap terhadap masalah politik dan sosial budaya, apalagi tujuan evaluasi adalah untuk pengembangan program. Evaluator harus memiliki konsep diri yang tinggi sehingga tidak mudah terpengaruh atau terbawa arus. Evaluator hendaknya menguasai teknik untuk memilih desain dan metodologi yang tepat untuk program yang akan dievaluasi. Evaluator hendaknya bersikap terbuka terhadap kritik dan memberikan kesempatan kepada orang lain/pihak luar untuk melihat apa yang sedang dan akan terjadi. Evaluator hendaknya menyadari kekurangan dan keterbatasannya serta bersikap jujur, menyampaikan kelemahan dan kekurangan tentang evaluasi yang dilakukan. Evaluator hendaknya bersikap pasrah kepada umum mengenai penemuan yang positif maupun yang negatif. Evaluator bersedia menyebarluaskan hasil evaluasi, teutama bagi pihak-pihak yang membutuhkan. Hasil evaluasi yang tidak secara eksplisit dinyatakan sebagai informasi terbuka, sebaiknya tidak disebarluaskan. Evaluator tidak mudah membuat kontrak. Evaluator yang tidak memenuhi persyaratan-persyaratan yang disebutkan di atas, sebaiknya tidak mudah menyanggupi menerima tugas-tugas, karena secara etis dan moral akan merupakan sesuatu yang kurang dapat dibenarkan. E. Context Evaluation.

Context Evaluation, according to Stufflebeam (90), addresses this questions:

What unmet needs exist in the context served by a particular institution? What objectives should be pursued in order to order to meet this needs? What objectives will receive support from the community? What set of objectives in most feasible to achieve? Stufflebeam (90) suggest five questions that input evaluation should be capable of answering: Does a given project strategy provide a logical response to a set of specified objectives? Is a given strategy legal? What strategies already exist with potential relevance for meeting previously established objectives? What specific procedures and time schedules will be needed to implement a given strategy? What are the oprerating characteristics and effects of competing strategy ubder pilot conditions? Stufflebeam (90) suggest the folowing questions to be addresed by process evaluation: Is the project on schedule? Should be staff be retrained or reoriented prior to completions of the process priject cycle? Are the facilities and materials being used adequately and appropiately? What major procedural barriers need to be overcome during the present cycle? The checlist consists of six major steps: Focusing the evaluation, which means identifying and defining the decision situations or goals of the evaluatuon, the setting within which it is be conducted, and the polities within which it is to operate; Planning the data cillection; Planning the organization odf the data; Planning the data analysis; Specifying audience, format, means, and schedule for reporting the finding; Adminstrating the evaluation, or providing an overal plan for executing the evaluation design. Dressel (21) offers a more comprehensive and useful checklist plan for planning an evaluation: What is the purpose and background of the evaluation?What inputs, environment factors, processes, or outcomes are to be evaluated? What are the critical points at which evidence will be required for decisions? What rules, procedures, assumsions, and principles are involved in the decisions? Who will make decisions and what is the process by which these will be made? Does the overall situation suggest. Require, or prohibit certain tactics and strategies? What timing considerations are involved? What are the litimitation on costs? What are the specific evaluation tasks? What information is to be collected?Are the particular items unambigiously defined and collectible by objective and reliable means? Frome where or from whom id the evidence to be collected? By whom is it to be collected? What instruments or procedures are to be used? Will the collections of evidence in itself seriously affect the input, environment, process, or outcomes? Will the collections of evidence become a regular part of the process, or is it an add-on for one-time evaluation? What is the schedule for collection of information? What procedures will be used for organizing and analysing data?In what form is information to be collected? Will coding be required? If subjective judgements wiil be required in coding, are the criteria for the adequate? Who will do the coding? How will the data be stored, received, and processed? What analytic procedures are to be used? Is the reporting procedure clear?Who will receive reports? Will reports be organized by analytic procedures, by type of data, or by decisions to be made? Will report include the practical implications regarding the various possible decisions to be made or leave these implications for the project staff of admnistrators to the evidence? Is the evaluator to state explisitly the particular decisions which be believes are supported by the evidence? When and in what detail are reports to be made? How is the evaluation to be evaluated?Who will be involvedproject staff, the evaluator, decision-makers, some presumably more objective individual? What will the criteria used in this second-level evaluation becosts, program improvement, impact on further planning of related enterprises? To whom and when is this report to be presented? What decisions are to

be anticipated as a result of the report? Will they include improvement of evaluation processes in the future? F. Beberapa Model Evaluasi Program 1. Model Tyler Model ini dinamakan model Tyler karena tidak ada nama resmi yang diberikan oleh pengembangnya. Tyler yang mengajukan model ini menuliskan buah pikirannya tersebut tidak dalam suatu tulisan lepas mengenai evaluasi. Ia mengemukakan pikiran-nya mengenai evaluasi program ini dalam suatu buku kecil tentang kurikulum. Dengan buku kecil ini pula namannya terangkat sebagai seorang ahli yang disegani baik dalam kurikulum maupun dalam evaluasi. Buku yang diberi judul Basic principles of curriculum and instruction ditulis ketika ia bertugas sebagai tenaga pengajar di Universutas Chicago. Idenya tentang evaluasi dituangkan dalam bab 4 yang diberi judul How can the efeffectiveness of leraning experiences be evaluated? Model yang dikemukakannya dibangun atas dua dasar, yaitu: evaluasi yang ditujukan kepada tingkah laku siswa dan evaluasi harus dilakukan pada tingkah laku awal siswa sebelum suatu pelaksanaan kurikulum serta pada saat siswa telah melaksana-kan kurikulum tersebut. Dengan kedua dasar ini ia ingin mengatakan bahwa evaluasi kurikulum yang sebenarnya hanya berhubungan dengan hasil belajar menurut pengertian yang dikemukakan terdahulu. Evaluasi kurikulum sebagai rencana yang dinamakan sebagai intermediate or preliminary stages of evaluation (Tyler 1949:104) dianggap bukan merupakan suatu penghargaan yang adekuat terhadap kurikulum. Evaluasi terhadap kurikulum sebagai kegiatan tidak dimasukkan dalam ruang lingkup evaluasi oleh Tyler. Dengan dasar evaluasi yang kedua, Tyler menghendaki evaluasi dapat menentukan perubahan tingkah laku yang terjadi adalah memang perubahan yang disebabkan oleh kurikulum. Kenyataan seperti itu menurut Tyler tidak mungkin dapat ditetapkan apabila evaluator hanya melihat tingkah laku siswa setelah mereka mengikuti kurikulum tersebut. Dalam kata-katanya sendiri Tyler 1949:108 menulis: On this basic, one is not able to evaluate an instructional prgram by testing students only at the end odfthe program. Without knowing where the students were at the beginning, it is not possible to tell how far changes have taken place. Karena itu evaluasi yang dilakukan di mana model Tyler dipergunakan sebagaimana mestinya memerlukan informasi perubahan tingkah laku paling tidak pada dua saat yaitu sebelum dan sesudah siswa mengikuti suatu kurikulum. Dalam istilah yang banyak dipergunakan sekarang ini diperlukan adanya tes awal (pretest) dan tes akhir (posttest) untuk mengumpulkan kedua informasi tersebut. Berdasarkan informasi yang diperoleh dari hasil tes awal dan tes akhir ini kemudian model yang dikembangkan Tyler ini mensyaratkan bahwa informasi yang diperoleh dari tes awal adalah gambaran tingkah laku siswa yang ada sebelum mengikuti program. Sedangkan informasi dari tes akhir adalah gambaran tingkah laku siswa karena pengalaman yang diperolehnya selama mengikuti program tersebut. Oleh karena itu Tyler juga mengisyaratkan validitas informasi tes akhir tersebut. Usaha untuk menjamin validitas ini memerlukan cara yang dianggap sangat tepat. Lebih lanjut karena model ini sangat menekankan adanya tes awal dan tes akhir maka model Tyler ini dikenal pula dengan nama black box. Nama ini mencerminkan bahwa apa yang terjadi dalam proses tidak memerlukan perhatian oleh evaluator. Bagian ini sudah terjamin dengan desain eksperimen tadi walalupun sesungguhnya evaluator tidak tahu persis apa yang terjadi pada diri siswa. Karena itu bagian dari proses ini dianggap sebagai kotak hitam yang menyimpan segala macam teka-teki.

Dalam pelaksanaannya, Tyler mengemukakan ada tga prosedur utama yang harus dilakukan. Ketiga prosedur tersebut itu adalah: menentukan tujuan kurikulum yang akan dievaluasi. menentukan situasi di mana siswa mendapatkan kesempatan untuk memperlihatkan tingkahlaku yang berhubungan dengan tujuan. memnentukan alat evaluasi yang akan dipergunakan untuk mengukur tingkah laku siswa. Ketika menentukan tujuan kurikulum yang akan dievaluasi harus pula dipertimbangkan mengenai tingkah laku yang bagaimana yang dianggap merupakan pernyataan bahwa tujuan tersebut telah tercapai. Artinya, evaluator harus dapat menentukan jenis tingkah laku yang harus diperlihatkan siswa sesuai dengan materi yang telah dipelajarinya. Disini evaluator dituntut untuk mengembangkan kisi-kisi tujuan yang akan dievaluasi dalam tabel dua dimensi: dimensi tingkahlaku dan dimensi materi. Oleh karena itu diharapkan para pengembang kurikulum telah merumuskan tujuan tersebut dalam bentuk behavioral objectives. Konsekuensi dari persyaratan ini seringkali evaluator yang mempergunakan model Tyler mengharapkan pula agar para pengembang program merumuskan tujuan program dalam bentuk behavioral objectives. Seringkali terjadi, evaluator harus berkonsultasi terlebih dahulu dengan para pengembang kurikulum mengenai tujaun apa yang akan dievaluasi mengenai tingkat pencapaiannya. Pekerjaan evaluasi yang dilakukan oleh Braithwaite dan Koop (1982) merupakan contoh model ini. Mereka mendapat tugas untuk mengevaluasi penataran yang dilakukan di bagian barat metropolitan Sidney. Untuk itu mereka membicarakan mengenai tujuan program yang akan dievaluasi dan mengembangkan tujuan tersebut dalam bentuk behavioral atau juga sering diistilahkan dengan operasional. Persoalan pengembangan tujuan program menurut ukuran behavioral seperti yang dipersyaratkan poleh Tyler memang sudah umum dilakukan di Indonesia, terutama setelah PPSI diperkenalkan melalui Kurikulum 1975. tetapi harus diingat bahwa pada waktu Tyler mengemukakan persyaratan tersebut, tujuan dengan rumusan yang demikian masih merupakan sesuatu yang baru bagi dunia pendidikan di A.S. Justru gagasam Tyler ini yang kemudian mengilhami Bloom dan kawan-kawan mengembang-kan ide tersebut menjadi taksonomi tujuan pendidikan yang terkenal tersebut. Taksonomi ini kemudian yang diterapkan di Indoensia melalui cara pengembangan tujuan instruksional yang tercakup dalam model PPSI. Tujuan kurikulum yang akan dievaluasi, seperti yang juga dikembangkan dalam taksonomi tujuan pendidikan Bloom dan kanwan-kawan, tidak selalu hanya berhubung-an dengan tujuan yang bersifat kognitif saja. Tetapi kurikulum yang menyangkut asepek afektif dan juga psikomotorik dapat pula dievaluasi apabila tujuan tersebut dianggap penting oleh para pengembang kurikulum dan dapat dinyatakan dalam bentuk operasional sehingga tujuan itu dapat diamati. Dengan demikian ruang lingkup pekerjan evaluator dapat menjadi sangat luas. Langkah kedua adalah menentukan situasi atau keadaan yang memberikan kesempatan kepada siswa untuk menunjukkan kemampuan yang akan dievaluasi. Langkah ini sangat berhubungan erat dengan langkah pertama. Pada langkah pertama dikatakan bahwa yang dievaluasi adalah tingkat pencapaian tujuan kurikulum dan siswa dijadikan sumber utama untuk mendapat informasi mengenai tingkat pencapaian tujuan tersebut. Oleh karena itu dalam langkah kedua ini evaluator harus dapat menentukan situasi apa yang dianggap terbaik agar kemampuan yang akan diperlihatkan siswa sebagai sumber informasi betul-betul memperlihatkan kemampuan sebenarnya. Dengan demikian validitas data evaluasi terjamin. Dalam langkah ini evaluator dapat saja mempergunakan lebih dari satu situasi, sesuai dengan jenis data yang diharapkan yang sebetulnya merupakan konsekuensi dari tujuan yang akan dievaluasi. Misalkan seorang evaluator akan menilai pencapaian tujuan kognitif kurikulum. Katakanlah, evaluasi tadi ingin mengetahui tingkat pencapai-an tujuan kurikulum dalam setiap jenjang kemampuan kognitif seperti yang dipersyarat-kan oleh kurikulum. Dengan

demikian evaluator tersebut akan berhubungan dengan kemampuan siswa dalam jenjang pengetahuan, pemahaman, aplikasi, analisis, sintesis, dan evaluasi. Maka dalam langkah kedua ini evaluator tadi harus menentukan situasi yang paling sesuai untuk mengevaluasi kemampuan-kemampuan tersebut. Misalnya evaluator tida dapat menentukan bahwa kemampuan-kemampuan tadi akan diperlihat-kan oleh siswa dalam suatu tes. Dengan demikian, seluruh siswa yang dijadikan sumber informasi harus menyatakan kemampuan mereka dalam situasi tes yang mungkin pula berupa situasi tes tertulis, tes lisan, tes performansi, dan sebagainya. Mungkin pula evaluator tersebut menentukan bahwa untuk tujuan seperti di atas akan dipergunakan beberapa situasi yang berbeda. Untuk jenjang pengetahuan, pemahaman, dan evaluasi akan dipergunakan situasi tes. Untuk jenjang aplikasi, analisis, dan sintesis akan dipergunakan situasi bekerja di laboratorium. Barangkali pula kombinasi situasi lainnya yang dipergunakan sesuai dengan hekikat bidang studi (konten kurikulum), karakteristik tujuan, waktu dan dana yang tersedia, serta kemampu-an evaluator yang melakukan tugas tersebut. Pertimbangan profesional evaluator terhadap faktor-faktor yang baru disebutkan menentukan situasi apa yang akan dipergunakannya. Langkah kedua ini nampaknya sederhana. Tetapi ia sangat menentukan keberhasilan evaluasi yang dulakukan. Apabila situasi yang ditetapkan tidak tepat, tingkah laku siswa yang diharapkan tidak akan terungkapkan dengan baik. Artinya, apa yang ingin kita ketahui tidak terungkapkan dengan sebenarnya validitas data yang diperoleh sangat diragukan. Dengan perkataan lain, tujuan kurikulum tidak terevaluasi sebagaimana seharusnya. Oleh karena itu walaupun tampaknya sederhana, sebaiknya evaluator memberikan perhatian yang seksama terhadap pelaksanaan langkah kedua ini. Seperti hubungan antara langkah pertama dan langkah kedua, demikian pula keeratan hubungan antara langkah kedua dengan langkah ketiga. Pada waktu evaluator menentukan situasi dalam langkah kedua secara eksplisit sebenarnya ia telah pula menentukan langkah ketiga, yaitu penetuan alat evaluasi yang akan dipergunakan. Alat evaluasi dapat berbentuk tes seperti yang banyak dipergunakan orang. Tapi ia dapat pula berbentuk alat bukan tes seperti alat observasi, kuesioner, panduan wawancara, dan lain sebagainya. Ketika ia menentukan situasi di mana siswa diharapkan dapat mengemukakan hasil belajar dengan baik, evaluator harus memiliki pengetahuan tentang alat evaluasi: karakteristik alat tersebut, kekuatan dan kelemahan yang ada dihubungkan dengan tujuan yang akan diukur. Meskipun secara eksplisit ia telah menentukan alat evaluasi yang akan dipergunakan, secara eksplisit hal itu perlu dilakukan evaluator yang bersangkutan. Ia harus menyebutkan jenis alat evaluasi tersebut. Setelah itu, model evaluasi kurikulum Tyler ini menghendaki evaluator untuk melakukan kajian mengenai alat evaluasi yang tersedia. Pertanyaan pokok di sini ialah apakah alat evaluasi yang tersedia sesuai dengan tujuan yang akan diukur. Dalam katakatanya sendiri Tyler (1949:113) menulis: It is only after the objectives have been identified, clearly defined, and situations listed which give opportunity for the expression of the behavior desired that it is possible to examine available evaluation instruments to see how far they may serve the evaluation purposes desired. Apabila di antara instrumen yang tersedia ada yang memang mengukur tujuan yang sama dengan tujuan yanga akan diukur, instrumen tersebut sudah barang tentu dapat dipergunakan. Katakanlah bahwa seorang evaluator bertugas untuk mengukur pencapaian tujuan suatu kurikulum tertentu. Untuk mudahnya sebut saja tujuan yang akan diukur tersebut sebagai X. kemudian setelah ia menentukan situasi bagi siswa untuk menyatakan kapasitasnya terhadap tujuan tersebut, ia menelaah alat evaluasi yang telah dikembangkan orang. Apabila di antara alat evaluasi yang tersedia ada yang memang sesuai dengan situasi yang telah ditentukan dan

untuk mengukur tujuan X tadi maka tidak ada salahnya apabila ia mempergunakan instrumen tersebut. Hal ini bahkan sangat dianjurkan oleh model ini. Tetapi kalau tidak ada, evaluator yang bersangkutan harus mengembangkan instrumen yang sesuai dengan tujuan dan situasi yang telah ditetapkan. Dalam model ini sangat ditekankan bahwa penggunaan suatu insrumen janganlah didasarkan atas pertimbangan kecanggihan ataupun popularitas yang dipunyainya. Tujuan yang ingin diukurlah yang menentukan pemakaian suatu instrumen. Memang tugas mengembang-kan instrumen ini merupakan tugas yang tidak ringan. Meskipun demikian, evaluator tersebut tidak dapat mengindarkan tugas ini. Instrumen yang dikembangkan haruslah pula memenuhi persyaratan objektif, terandal (reliabel) dan sahih (valid). Dilihat dari prosedur kerja evaluasi yang mempergunakan model Tyler ini, proses pengembangan kriteria evaluasi dapat dilakukan melalui pendekatan pengembangan preordinate maupun fidelity. Model ini memberikan keleluasaan kepada penggunaan kedua pendekata ini. Pada waktu evaluator bersama dengan para pengembang kurikulum menentukan tujuan mana yang akan diukur, disaat itulah kemungkinan penggunaan salah satu dari kedua pendekatan pengembangan kriteria itu terjadi. Kalau pada waktu itu ditentukan bahwa tujuan yang akan diukur adalah tujuan yang bersifat umum untuk setiap kurikulum tanpa memperhatikan karakteristiknya, maka evaluator akan bekerja dengan pendekatan pengembangan kriteria pre-ordinate. Dengan demikian, alat evaluasi yang akan dipergunakan cenderung pada alat evaluasi yang sudah ada karena alat evaluasi yang demikian banyak dikembangkan orang. Biasanya tujuan yang akan diukur dengan pendekatan ini adalah tujuan generik. Apabila pada waktu penentuan tujuan yanga akan diukur ditentukan hanya tujuan-tujuan yang spesifik terhadap kurikulum itu sendiri maka pendekatan pengembangan kriteria fidelity akan dilakukan. Dengan pendekatan ini evaluator mempunyai kemungkinan besar harus mengembangkan alat evaluasi khusus. Perbedaan kerakteristik antar setiap kurikulum menyebabkan tidak ada alat evaluasi yang tersedia akan sesuai dengan tujuan kurikulum yang akan diuji. Terkecuali apabila evaluator tersebut mengevaluasi kurikulum yang sama dengan evaluator atau tugas sebelumnya, hanya lingkungan pendidikan yang berbeda antara kedua tugas tersebut. Dalam keadaan demikian tentu saja evaluator tersebut dapat mempergunakan instrumen yang sudah ada. Jadi sebagian kerja sudah dapat diselesaikan. Seperti pada setiap model, model evaluasi Tyler inipun memiliki kelebihan dan kelemahan. Keunggulan utamanya ialah kesederhanaanya. Jika dibandingkan dengan model evaluasi lainnya, model evaluasi Tyler ini lebih sederhana, terlihat dalam peosedur kerja sepeeti dibicara terdahulu. Evaluator hanya perlu memberikan perhatian kepada pengukuran hasil belajar siswa yang belajar dari kurikulum yang dinilai. Bagi mereka yang terlatih dalam pengukuran, kesederhanaan model ini memberikan kesempatan yang luas untuk melakukan evaluasi kurikulum tanpa perlu pendidikan khusus lagi. Perbedaannya dengan prosedur pengukuran adalah sangat kecil. Kalau dalam pengukuran mereka tidak perlu memperhatikan karakteristik evaluan, sekarang mereka harus melakukannya. Tetapi, identifikasi karakteristik itu segera dapat dilakukan dengan berkonsentrasi kepada pihak pengembang kurikulum. Keunggulan ini pada sisi lain merupakan kelemahan model evaluasi Tyler. Perhatiannya yang hanya terpusatkan pada kurikulum sebagai hasil belajar menjadikan model ini tidak cukup luas dipakai sebagai model evaluasi komprehensif. Seperti telah dibahas sebelumnya, hasil belajar hanyalah merupakan salah satu dimensi kurikulum. Dengan demikian, dimensi kurikulum lainnya tidak dapat dievaluasi dengan memper-gunakan model Tyler ini. Dimensi kurikulum sebagai rencana dan proses tidak dapat dievaluasi dengan mempergunakan model ini.

Asumsi yang dipergunakan model ini mengenai dimensi kurikulum sebagai proses sukar dipertahankan. Studi-studi yang mengkaji mengenai dimensi proses memperlihatkan bahwa implementasi kurikulum seringkali tidak sesuai dengan apa yang dikehendaki oleh kurikulum sebagai rencana. Kenyataan dari hasil studi tentang proses ini menyebabkan sukar untuk melakukan claim bahwa hasil yang diperlihatkan siswa adalah hasil yang ditimbulkan oleh kurikulum yang dievaluasi. Oleh karena itu, proses merupakan variabel penting yang harus diperhatikan dalam suatu kegiatan evaluasi. 2. Model Countenance Stake

Ini adalah model pertama evaluasi kurikulum yang dikembangkan oleh Stake. Dalam tulisannya ia sendiri tidak memberikan nama khusus tehadap model ini. Nama countenance di sini disesuaikan dengan judul artikel yang ditulis walaupun pengertian countenance itu sendiri mempunyai makna ambigous. Dalam suatu pengertian ia adalah keseluruhan sedangkan dalam pengertian lain kata itu bermakna sesuatu yang disenangi (favourable). Dalam tulisan itu, Stake ingin mengemukakan keseluruhan kegiatan evaluasi yang harus yang harus dilakukan dan cara yang diinginkannya bagaimana evaluasi tersebut dilakukan. Oleh karena itu, walaupun beberapa penulis lain yang membicarakan model ini memprgunakan judul seperti model concruence atau model contingency, nama nama tersebut tidak dipergunakan di sini karena baik congruence maupun contingency merupakan dua konsep utama dalam model pengolahan data yang dikemukakan oleh Stake. Tetapi kedua konsep itu tidak dapat mewakili keseluruhan ide Stake mengenai evaluasi kurikulum. Jadi nama countenance dipertahankan sebagai nama model ini secara keseluruhan. Dalam model ini, Stake mendasarkan dirinya pada evaluasi formal, di mana dikatakannya sebagai suatu kegiatan evaluasi yang sangat tergantung pada pemakaian checklist, structured visitation by peers, controlled comparisons, and standardized testing of students (Stake, 1972:93). Lebih lanjut, model ini dikembangkan atas keyakinan bahwa suatu evaluasi haruslah memberikan deskripsi dan pertimbangan sepenuhnya mengenai evaluan. Dasat ini masih menjadi keyakinannya ketika ia mengembangkan model-model evaluasi lain di kemudian hari, yang memberikan tekanan pada pendekatan kualitatif. Model ini dimasukkan dalam model kuantitatif, karena dalam model ini jelas Stake masih mengutamakan data kuantitatif dan pendekatan kuantitatif dalam mengumpulkan data. Bahkan mengenai peertimbangan yang duberikan berbagai kelompok sumber haruslah dikumpulkan secara obyektif; suatu sikap yang berubah ketika ia kemudian lebih cenderung mempergunakan model-model kualitatif. Seperti yang diungkapkannya ketika ia menguraikan tentang pertimbangan (Stake, 1872:95): Evaluation will seek out and record the opinions of persons of special qulification. These opinion, though subjective, can be very useful and can be gathered objectively, independent of the solicitors opinions. Bahkan dalam model ini Stake sangat menekankan peran evaluator dalam mengembangkan tujuan kurikulum menjadi tujuan khusus yang terukur, sebagaimana berlaku dalam tradisi pengukuran yang behavioristik dan kuantitatif. Dalam model ini, Stake mengemukakan bahwa suatu evaluasi forma harus memberikan perhatian terhadap keadaan sebelum suatu kegiatan kelas berlangsung dan terhadap kegiatan kelas itu sendiri, serta menghubungkan dengan berbagai bentuk hasil belajar. Keadaan sebelum suatu kegiatan kelas berlangsung dinamakannya antecendent. Sedangkan kegiatan interaksi yang terjadi di sekolah dinamakannya dengan istilah transactions. Lebih lanjut dikemukakannya, bahwa ketiga tingkatan tersebut, antecendent, transaction dan hasil (outcome), terbagi atas dua kategori. Kategori pertama ialah apa yang diinginkan

(intent) oleh pengembang program. Seorang guru, sebagai seorang pengembang program, merencanakan mengenai keadaan (persyaratan) yang diingin-kannya, untuk suatu kegiatan kelas tertentu. Apakah persyaratan tersebut berhubungan dengan siswanya seperti minat, kemampuan, pengalaman, dan lain sebagainya yang biasa diisitilahkan dengan entry behavior. Mungkin pula ersyaratan itu berhubungan dengan lingkungan di kelas. Lebih lanjut, guru tersebut merencanakan apa yang diperkirakan akan terjadi pada waktu interaksi dikelas, dan kemampuan apa yang diharapkan dimiliki siswa setelah proses interaksi berlangsung. Dengan kata lain, perencanaan yang dilakukan guru dalam satuan pelajaran, merupakan apa yang diingin-kan guru tersebut (intent). Kategori kedua ialah kategori yang berhubungan dengan apa yang sesungguhnya terjadi, bukan lagi apa yang diinginkan. Misalnya keadaan apa yang ada pada waktu suatu interaksi kelas akan dilakukan; bagaimana dengan kemampuan siswa yang akan belajar; apakah siswa telah belajar mengenai topik yang akan dibicarakan pada malam hari sebelum pelajaran berlangsung. Apakah atlas yang akan digunakan guru memang tersedia; demikian pula dengan OHP yang akan dipakai oleh guru yang bersangkutan? Bagaimana interaksi tersebut berlangsung? Apakah setelah guru mencoba memberikan pertanyaan kepada siswa untuk mengetahui kemajuan yang mereka peroleh dari proses interaksi yang terjadi? Karena Stake membuat ketegorinya berdasarkan apa yang dilakukan evaluator, kategori kedua ini dinamakan observasi. Jadi seperti juga dengan intent, data mengenai observasi ini meliputi antecendent, transaction, dan hasil yang diperoleh. Baik data yang dikelompokkan ke dalam intent maupun observasi adalah data yang mengungkapkan tentang apa dan bagaimana kurikulum itu. Data ini baru merupakan sebagian dari data yang harus dikumpulkan evaluator yang bekerja mempergunakan model evaluasi ini. Oleh karena itu, pekerjan belumlah selesai. Ia baru menyelesaikan sebagian dari kegiatan pengumpulan data yang harus dilakukannya. Stake juga beranggapan bahwa, suatu evaluasi harus sampai kepada pemberian pertimbangan. Stake yang menyadari banyak di antara evaluator yang enggan memberikan pertimbangan dan untuk mengatasi hail tersebut, dalam model ini ia mengemukakan jalan keluar yaitu evaluator harus mengumpulkan data mengenai pertimbangan tersebut dari sekelompok orang yang dianggap memiliki kualifikasi untuk memberikan pertimbangan tersebut. Data pertimbangan ini yang kemudian dimasukkan ke dalam matriks sebagai bagian dari model ini. Data pertimbangan ini meliputi tiga jenjang yang dikemukakan oleh Stake, yaitu antecendent, transactions, dan hasil yang diperoleh. Di samping meliputi tiga jenjang ini, data mengenai pertimbangan tersebut terbagi pula atas tiga kategori, yaitu standar dan pertimbangan. Oleh karena itu matriks pertimbangan, seperti juga metriks deskripsi, terdiri dari atas 6 kotak. Tiga kotak untuk data pertimbangan dan tiga kotak lagi mengenai data standar. Keseluruhan matriks yang mendukung model Stake ini terdiri dari 12 kotak. Di samping itu, ada sebuat kotak lagi yang dinamakan kotak rasional. Setiap pengembang kurikulum/guru harus memiliki rasional untuk setiap intent yang dikembangkan. Mungkin sekali mereka tidak mempunyai rasional yang tertulis, dan mungkin pula mereka tidak dapat mengemukakannya dalam susunan kalimat yang baik tapi mereka pasti memilikinya. Cara kerja model evaluasi Stake ini adalah sebagai berikut. Evaluator mengumpulkan data mengenai apa yang diinginkan pengembangan program baik yang berhubungan dengan antecendents (persyaratan awal), transaksi (interaksi), dan juga hasil. Data dapat dikumpulkan melalui studi dokumen tetapidapat pula dilakukan dengan jalan wawancara. Cara terakhir ini dilakukan apabila dokumen tidak diperoleh karena sesuatu dan lain hal. Cara terbaik tentulah melalui studi dokumen.

Bersamaan dengan pengumpulan data mengenai intents (tujuan) ini dapat pula dikumpulkan resional dari setiap tujuan tersebut. Di sini Stake memperingatkan agar data mengenai rasional janganlah dikumpulkan dengan jalan mendikte pengembang program/guru tersebut. Biarkanlah mereka berbicara dengan pengertian dan bahasa yang ada pada diri mereka. Evaluator mendengarkan dan mencatat apa yang dikemukakan oleh pengembang program. Suatu hal yang perlu diperhatikan, walaupun dalam gambar kotak rasional berada di sebelah kiri matriks deskripsi, hal itu tidaklah berarti bahwa pengumpulan data tentang rasional dilakukan terlebih dahulu. Dalam kenyataannya, data tentang rasional tak mungkin dikumpulkan sebelum data mengenai tujuan telah dikumpulkan. Oleh karena itu waktu yang paling cepat untuk segera mengumpulkan data mengenai rasional adalah bersamaan dengan waktu pengeumpulan data mengenai tujuan. Kegiatan berikutnya ialah pengumpulan data observasi mengenai persyaratan awal, transaksi dan hasil. Sesuai dengan namanya, data untuk bagian ini dikumpulkan melalui observasi. Dan, seperti ditekankan Stake, observasi ini haruslah observasi formal. Maksudnya, observasi tersebut haruslah dilakukan denga mepergunakan instrumen (alat pengumpul data yang dikembangkan khusus). Stake (1972:98) mengemukakan bahwa instrumen yang dipakai dapat meliputi daftar inventori, daftar pertanyaan tentang data biografis, daftar wawancara, daftar cek, pertanyaan tentang pendapat (optionares), dan semua jenis tes psikometrik. Yang penting, data tersebut berhubungan dengan apa yang dikembangkan dalam tujuan. Dalam pengolahan data matriks deskripsi, Stake mengemukakan dua konsep yaitu contingency dan cungruency. Kedua konsep ini berbeda dalam penggnnaannya. Contingency dipegunakan untuk menganalisis data secara vertikal, mencari kesesuaian antara kotak di atas dengan kotak di bawahnya. Ada dua analisis mengenai kesesuaian ini. Pertama adalah kesesuaian secara logika, yaitu kesesuaian menurut pemikiran logika evaluator. Evaluator mempertimbangkan apakah hubungan yang satu dengan lainnya masuk akal, apakah yang satu itu mungkin tercapai melalui apa yang ada pada kotak lainnya. Analisis logis ini dipergunakan Stake dalam memberikan pertimbangan mengenai keterhubungan antara persyaratan awal, transaksi, dan hasil dari kotak-kotak tujuan (intent). Evaluator harus dapat menentukan apakah persyaratan awal yang telah dikemukakan pengembang program/guru. Ataukah sebetulnya ada model transaksi lain yang lebih efektif untuk mencapai apa yang dikemukakan dalam prasyarat. Demikian pula mengenai hubungan antara transaksi dengan hasil yang diharapkan. Analisis kedua adalah analisis empirik kontingensi. Dasar bekerjanya adalah sama dengan analisis logis tapi data yang dipergunakan adalah data empirik. Jadi, dalam analisis ini evaluator harus mempertimbangkan keterhubungan tersebut berdasarkan data empirik yang telah dikumpulkannya. Pertanyaan-pertanyaan yang diajukan untuk analisis logus dipergunakan untuk analisis empirik ini. Masih dalam analisis mengenai data deskriptif, pekerjaan evaluator berikutnya ialah mengadakan analisis congruence (kesesuaian) antara apa yang dikemukakan dalam tujuan (intent) dengan apa yang terjadi dalam kegiatan observasi. Pertanyaan yang dapat diajukan di sini ialah apakah yang telah direncanakan dalam tujuan memang sesuai dalam pelaksanaannya di lapangan (observasi). Apakah terjadi penyimpangan-penyimpangan antara apa yang direncanakan (intent) dengan apa yang terjadi dan kalau ada penyimpangan faktorfaktor apa yang berperan dalam penyimpangan tersebut. Apabila analisis contingency dan concruency tersebut telah diselesaikan, adalah tugas evaluator untuk menyerahkan hasilnya kepada tim yang terdiri dari para ahli dan orang yang terlibat dalam program. Tim ini yang akan meneliti kasahihan hasil analisis evaluator tersebut. Lebih lanjut tim ini pula yang akan memberikan persepsinya mengenai faktor penting baik dalam contingency maupun congruency.

Tugas berikut evaluator ialah memberikan pertimbangan mengenai program yang sedang dikaji. Untuk itu evaluator memerlukan standar. Dalam model keseluruhan digambarkan bahwa dalam matriks pertimbangan ada yang dinamakan standar dan pertimbangan. Standar dapat berbentuk standar mutlak dan relatif. Standar mutlak adalah standar yang dianggap belaku untuk suatu kurikulum atau program. Katakanlah untuk program IPS ditentukan adanya standar-standar tertentu baik mengenai tujuan yang akan dicapai, proses belajar mengajar, dan hasil belajar. Mungkin saja standar itu datang dari individu para ahli tetapi standar itu adalah standar yang diinginkan bagi setiap program studi IPS, terlepas dari karakteristik khusus yang dimiliki program tersebut. Standar relatif berhubungan dengan komparasi antara satu program dengan program lainnya dalam satu bidang studi yang sama. Untuk konteks pendidikan di AS dan beberapa negara lainnya, adanya beberapa program dalam satu bidang studi yang sama adalah jamak. Suatu negara bagian tertentu atau bahkan satu lingkungan otoritas pendidikan tertentu memiliki program IPA yang berbeda dengan negara bagian atau lingkungan otoritas pendidikan lainnya. Dalam konteks pendidikan Indonesia perbedaan semacam itu mungkin tidak akan terjadi. Oleh karena itu komparasi untuk konteks pendidikan di Indonesia hanya dapat dilakukan antara program yang lama dengan program yang baru. Menurut Stake (1972:101), evaluator yang harus mempergunakan kedua standar tersebut. Jadi, evaluator harus memberikan pertimbangan baik yang bersifat mutlak maupun relatif. Hanya dengan kedua pertimbangan tersebut arti dari kurikulum tersebut dapat ditetapkan terlebih mantap. Dengan demikian, pada waktu evaluator memberikan umpan balik kepada pembuat keputusan, pertimbangan yang diberikannya adalah pertimbangan yang bersifat menyeluruh (komprehensif). Model Stake ini lebih dapat dipergunakan untuk melakukan evaluasi mengenai pelaksanaan implementasi kurikulum dalam konteks pendidikan Indonesia. Proses pengembangan kurikulum di Indoensia sedemikian rupa sehungga kurikulum sebagai rencana dibuat di tingkat basional dan bersifat tidak siap pakai. Guru masih harus mengembangkan rencana besar tersebut menjadi rencana yang lebih operasional, yang dalam istilah kependidikan di Indonesia disebut satuan pelajaran (SP). Satuan pelajaran inilah yang dapat dipergunakan untuk mengisi matriks intent model yang dikemukakan Stake. Mengenai standar yang diinginkan Stake dapat dikembangkan dari komponen yang ada dalam rencana besar kurikulum tersebut. Meskipun demikian, tidak ada salahnya apabila evaluator juga mempergunakan standar yang dikembangkan dari para ahli bidang studi bersangkutan. Tentu saja masalah akan timbul apabila antara standar yang dikembangkan dari rencana besar tidak bersesuaian dengan yang dikembangkan dari para ahli tadi. Tapi persoalan yang demikian juga dihadapi setiap evaluator yang mempergunakan model Stake ini, meskipun dalam konteks pendidikan di AS di mana model ini dilahirkan. Hal ini pula kiranya yang menyebabkan mengapa Stake (1972:100) menganjurkan agar jangan mengevaluasi kurikulum dengan mikroskop tetapi seharusnya dengan a panoramic view finder. Adanya beragam standar akan memebrikan kesempatan kepada evaluator untuk mempergunakan standar tersebut sebagai teorpong panorama dan buka mikroskop. Meskipun demikian untuk konteks pendidiakn di Indonesia, selain untuk mengevaluasi dimensi kurikulum sebagai kegiatan, model Stake ini dapat dipergunakan dalam pengembangan kurikulum di tringkat nasional apabila eksperimen dilakukan. Pada waktu eksperimen, pengembang kurikulum dapat menerapkan model ini sepenuhnya karena semua persyaratan Stake terpenuhi.

3.

Model CIPP

Model ini dikembangkan oleh suatu tim yang diketuai Stufflebeam. Pada waktu memimpin tim ini ia bekerja di Ohio State University. Meskipun demikian, tim yang dipimpinnya tersebut terdiri dari para sarjana yang berkerja di berbagai universitas dan salah seorang anggotanya, Gephart, adalah sarjana yang bekerja di Phi Delta Kappa (PDK). Organisasi ini pula yang menugaskan Stufflebeam dan kawan-kawannya berkarya mengembangkan pemikiran tentang evaluasi pendidikan. Oleh karena itu, model yang mereka kembangkan itu kadang-kadang dinamakan pula dengan model PDK. Nama CIPP, dalam kenyataannya lebih dikenal masyarakat perguruan tinggi dan kalangan evaluator. Hal ini mungkin sekali disebabkan CIPP adalah singkatan dari Context, Input, Process dan Product. Memang keempat daerah kerja ini adalah komponen utama dari model ini. Dalam buku yang mereka tulis, model tersebut dikemukakan dalam bab 7, setelah mereka mendiskusikan pikiran mereka mengenai evaluasi dan hubungannya dengan pembuatan keputusan. Dalam buku suntingan Madaus, Scriven dan Stufflebeam (1983) model ini dibicarakan kembali dalam bab 7 pula, ditulis oleh Stufflebeam sendiri. Tetapi dalam buku suntingan ini, Evaluation Model, Stufflebeam membuat semacam penyederhanaan yang sebenarnya lebih mengena pada pokok ide tentang model itu sendiri. Menurut Stufflebem (1983:117) model ini telah diterapkan di banyak tempat di A.S. dan telah dibahas dalam beberapa disertasi doktor. Di antara beberapa disertasi dibuat oleh mahasiswa di the Ohio State Universiry. Sayangnya, di universitas ini pada saat sekarang sudah tidak menunjukkan bekas-bekas hasil kerja profesor tersebut. Seolah-olah hasil binaan Stufflebeam di unversitas tersebut sirna begitu saja. Adalah wajar pula kalau model CIPP ini berkembang di universitas Western Michigan di mana Stufflebeam sekarang ini bekerja. Penyederhanaan model dalam bentuk diagram dilakukan setelah ia meninggalkan the Ohio State Unversity. Meskipun terjadi penyederhanaan, pokok-pokok pikiran CIPP yang dikembang-kan tim PDK masih tetap merupakan dasar dari penyederhanaan yang dilakukan Stufflebeam. Oleh karena itu, pembahasan mengenai model CIPP ini tidak akan membandingkan antara keduanya. Pembahasan dilakukan berdasarkan model yang dikembangkan terakhir. Sesuai dengan namanya, model ini terbentuk dari 4 jenis evaluasi yaitu evaluasi konteks (Context), masukan (Input), proses (Process) dan hasil (Product). Keempat evaluasi ini merupakan suatu rangkaian keutuhan. Tetapi seperti dikemukakan oleh Stufflebeam sendiri, dalam pelaksanaan seorang evaluator dapat saja hanya melakukan satu jenis atau kombinasi dari dua atau lebih jenis evaluasi itu (Stufflebeam, 1983:122). Artinya, seorang evaluator tidak selalu harus mempergunakan keempatnya. Walaupun demikian, karena model ini dikembangkan berdasarkan suatu pandangan tentang kegiatan kurikulum sebagai sesuatu dalam dimensinya yang utuh, pelaksanaan ke empat jenis evaluasi model ini merupakan hal yang diharapkan. Lagi pula kekuatan model sebetulnya terletak dari rangkaian kegiatan keempat jenis evaluasi itu sendiri. Sesuai dengan namanya, keempat jenis evaluasi Stufflebeam ini mempunyai obyek kejian yang berbeda. Evaluasi konteks ditujukan untuk menilai keadaan yang sedang dilakukan oleh suatu lembaga pendidikan. Jadi, evaluasi ini tidak mengharuskan lembaga pendidikan mempunyai suatu kurikulum baru terlebih dahulu untuk melakukan kegiatan evaluasi. Evaluasi justru dilakukan dari kegiatan awal sebelum suatu inovasi kurikulum direncanakan. Bahkan adalah fungsi dari evaluasi konteks untuk melihat apakah diperlukan adanya suatu inovasi atau tidak. Tujuan evaluasi konteks yang utama ialah untuk mengetahui kekuatan dan kelemahan yang dimiliki evaluan (Stufflebeam, 1983:128). Dengan mengetahui kekuatan dan kelemahan ini, evaluator dapat memberikan arah perbaikan yang diperlukan. Dalam melakukan evaluasi ini evaluator harus dapat menemukan kebutuhan yang diperlukan evaluan. Oleh karena itu, evaluan konteks ini sebagian tigasnya adalah melakukan need assesment. Tetapi, selain dari

need asesment, evaluasi konteks ini harus pula dapat memberikan pertimbangan apakah tujuan yang akan dicapai sesuai dengan kebutuhan yang telah ditentukan. Dari tugas yang harus dilakukan terlihat nahwa evaluasi konteks mencoba untuk memberikan pertimbangan mengenai nilai dan arti dari auatu keadaan. Nilai diperlihat-kan dengan mengemukakan mengenai keadaan evaluan. Kekuatan dan kelemahan yang dimiliki evaluan merupakan hasil pertimbangan evaluator tentang nilai evaluan. Sedangkan arti evaluan diperlihatkan dengan memberikan pertimbangan apakah tujuan yang akan dicapai sesuai dengan kebutuhan. Dari evaluasi konteks ini terlihat perbedaan antara model CIPP ini dengan model-model evaluasi yang telah dibahas terdahulu. Model-model lain mulai dengan adanya suatu inovasi yang sedang dilaksanakan oleh suatu lembaga pendidikan. Inovasi itu yang kemudian dijadikan evaluan. CIPP bahkan membantu evaluan untuk memutus-kan apakah inovasi diperlukan atau tidak. Kalau perlu, evaluator yang mempergunakan model CIPP tidak lantas berpangku tangan. Evaluator harus dapat menentukan skala inovasi yang dilakukan. Dalam model aslinya dikenal ada tiga jenis skala inovasi yang mungkin dilakukan. Ketiganya diberi label yang cukup klasik walaupun cukup jelas menggambarkan skala yang dimaksud. Ketiganya ialah homeostatic, incremental, dan neobolistic. Homeostatic merupakan skala terendah di mana inovasi yang akan dilakukan hanya memasukkan unsur baru yang tidak berarti. Dapat dikatakan bahwa skala inovasi homeostatic tidak akan mengubah pola kegiatan yang sudah ada. Hanya elemen tertentu dari pola yang ada yang harus diubah. Dampak perubahan hanya bersifat mikro. Oleh karena itu, apabila inovasi yang akan dilakukan bersifat homeostatic, evaluasi berikutnya tidak dapat dikatakan tidak diperlukan. Tetapi apabila skala inovasi yang akan dilakukan bersifat incremental (penambahan), apalagi dalam skala noebolistic, evaluasi berikutnya yaitu evaluasi masukan merupakan suatu yang dipersyaratkan. Mengapa demikian? Seperti dikemukakan oleh Stufflebeam (1983:130), bahwa orientasi utama evaluasi ialah mengemukakan suatu program yang dapat mencapai apa yang diinginkan lembaga tersebut. Program yang dimaksudkan ialah program yang membawa perubahan yang membawa perubahan berskala penambahan dan pembaharu-an. Lebih lanjut, Staufflebeam menulis: This type of study should identify and rate relevant approaches (including any that are already in operation) and assist and explicating and shaking down the one that is chosen for instalation or continuation. It should also search the clients environment for barriers, constraints, and potentially available resources that need to be taken info account in the process of activating the program. Dengan demikian evaluasi masukan tidak hanya melihat apa yang ada pada lingkungan lembaga tersebut ( baik material maupun personal) tetapi juga harus dapat memperkira-kan kemungkinan-kemungkinan yang akan dihadapi di waktu mendatang ketika suatu inovasi kurikulum dilaksanakan. Dari apa yang telah dibicarakan mengenai evaluasi masukan ini, makin jelas bahwa CIPP tidak hanya dilaksanakan dalam situasi di mana suatu inovasi sedang dilaksanakan tetapi justru model ini dilakukan ketika inovasi itu akan atau belum dilaksanakan. Meskipun demikian, tidaklah berarti bahwa CIPP tidak dapat dapat dilaksanakan apabila suatu inovasi kurikulum sedang dalam proses pelaksanaan. CIPP tetap dapat dilakukan kendati suatu lembaga pendidikan telah melaksanakan suatu inovasi kurikulum dalam waktu tertentu. Seperti telah dikemukakan, Stufflebeam telah mengatakan CIPP tidak mutlak harus digunakan dalam keseluruhan model, CIPP dapat digunakan dalam salah satu atau kombinasi dari dua atau lebih kegiatan evaluasi. Jadi, CIPP dapat digunakan hanya dengan menggunakan evaluasi proses saja. Mengingat obyek kajian dan tujuan yang akan dicapai

evaluasi proses, CIPP dapat digunakan walaupun bukan dari sejak awal ketika akan menemukan ide inovasi. Evaluasi proses adalah evaluasi mengenai pelaksanan dari suatu inovasi kurikulum. Jadi, kalau evaluasi konteks adalah evaluasi kurikulum dalam dimensi pengertian sebagai ide, evaluasi masukan adalah evaluasi kurikulum dalam dimensi pengertian sebagai rencana, evaluasi proses adalah evaluasi kurikulum dalam dimensi pengertian sebagai realita atau kegiatan. Artinya, evaluasi proses ini baru dapat dilakukan apabila inovasi kurikulum tersebut telah dilaksanakan di lapangan, bukan pada waktu ia dirancang. Oleh karena itu, evaluator dapat saja menggunakan model CIPP walaupun ia baru diminta berpartisipasi ketika suatu program inovasi sedang dilaksanakan. Dalam pelaksanaannya, model CIPP ini bertujuan memperbaiki keadaan yang ada. Evaluator diminta untuk menentukan sampai sejauh mana rencana inovasi itu dilaksanakan di lapangan, hambatan-hambatan apa yang ditemui yang tak dapat diperkirakan sebelumnya, dan perubahan-perubahan apa yang harus dilakukan terhadap inovasi tersebut. Informasi yang dikumpulkan disajikan sebagai umpan balik bagi para pengelola dan juga staf. Dengan demikian, keputusan-keputusan yang diperlukan dalam usaha memperbaiki proses yang sedang berlangsung dapat dilaksanakan. Dari tujuan yang akan dicapai oleh evaluasi proses CIPP ini terlihat jelas bahwa CIPP mempergunakan pendekatan pengembangan kriteria baik yang bersifat fidelity maupun yang bersifat mutual adaptive. Kriteria yang bersifat fidelity terlihat dari tujuan untuk menentukan sampai sejauh mana rencana inovasi yang dibuat telah tercapai. Pendekatan mutual adaptive terlihat dari adanya usaha untuk memperbaiki keadaan lapangan agar inovasi itu sendiri. Artinya, evaluator yang melaksanakan evaluasi proses ini harus pula dapat memberikan informasi mengenai hal-hal apa dari lapangan yang harus diubah dan komponen apa dari inovasi yang harus pula diubah. Dengan perubahan-perubahan tersebut diharapkan inovasi dan lapangan mencapai kesesuaian. Evaluasi hasil adalah kegiatan evaluasi berikutnya dalam model CIPP. Tujuan utama dari evaluasi hasil ini adalah untuk menentukan sampai sejauh mana kurikulum yang dimplementasikan tersebut telah dapat memenuhi kebutuhan kelompok yang mempergunakannya (Stufflebeam, 1983:134). Dalam hal ini, diharapkan pula bahwa evaluasi hasil memperlihatkan pengaruh program tidak hanya yang bersifat langsung tapi juga pengaruh tidak langsung. Pengaruh tersebut tidak saja yang bersifat positif (biasanya evaluasi hasil hanya melihat pengaruh dari sudut pandangan positif ini), tetapi juga pengaruh negatif dari kurikulum tersebut. Adanya pengaruh negatif ini kedengarannya aneh tetapi sebenarnya realistis. Bukankah suatu hal yang mustahil bahwa suatu kurikulum menghasilkan pengaruh sampingan yang bersifat negatif yang tidak pernah diperkirakan oleh para pengembang-nya. Misalnya, suatu kurikulum yang dikembangkan berdasarkan tradisi intelektual. Hasilnya, mungkin memberikan kemampuan intelektual tinggi bagi siswa tapi dapat pula kemampuan intelektual tinggi tersebut menyebabkan siswanya menjadi ingkar terhadap agama. Dalam suatu studi di AS, misalnya, ditemukan bahwa program yang dikembangkan berdasarkan pandangan humanistik, memberikan pengaruh negatif dalam aspek disiplin. Evaluasi hasil dalam konsep CIPP ini memberikan laporan komprehensif mengenai pengaruh dari program tersebut. Untuk itu barangkali suatu perbandingan dengan kurikulum lainnya perlu dilakukan sehingga pendekatan pengembangan kriteria preordinate yang dipergunakan. Adanya ruang lingkup pengaruh yang luas sebagai fokus kajian evaluasi hasil CIPP memberikan kesan ada pengaruh model evaluasi Goal Free dari Scriven. Sayangnya, hal tersebut tidak dapat dinyatakan secara pasti. Paling tidak adanya pengaruh tersebut tidak dapat diidentifikasi dari bacaan yang dipergunakan Stufflebeam. Kiranya korespondensi pribadi dapat lebih menjelaskan persoalan. Sayangnya, korespondensi semacam itu belum

dapat dilakukan penulis buku ini. Hanya pada bagian awal tulisannya, dikatakan ia berhubungan dengan Scriven. Bahkan mereka berdua pernah diminta untuk membicarakan model masing-masing pada beberapa lembaga. Bukan tidak mungkin pengaruh tersebut berkembang selama masa ini. Atau, ide tersebut memang muncul secara terpisah pada kedua diri pengembang model tersebut walaupun keduanya sering berdiskusi. Suatu hal yang pasti dan diakui oleh Stufflebeam bahwa terdapat perbedaan pandangan mengenai peran evaluasi yang cukup prinsipil antara dia dengan Scriven. Sementara model CIPP lebih menekankan pada peran formatif sedangkan model Scriven, baik formatif-sumatif maupun Goal Free, sangat memberikan perhatian yang besar terhadap peran sumatif. Oleh karena itu dalam evaluasi hasil inipun model CIPP memberikan posisi penting bagi peran formatif. Artinya, informasi yang dihasilkan evaluasi hasil CIPP tidak dipergunakan untuk menentukan apakah suatu program harus diganti. Informasi yang diberikan digunakan untuk menetapkan apakah ada komponen kurikulum yang harus diperbaiki. Karena sifatnya yang demikian, adalah sangat berbahaya kalau evaluasi hasil model CIPP ini dilakukan secara terpisah. Keterbatasan ruang lingkup evaluasi hasil merupakan hambatan sehingga informasi yang diberikan tidak cukup kuat untuk dipergunakan sebagai landasan dalam memperbaiki program. Misalnya, katakanlah kalau evaluasi hasil menunjukkan bahwa hasil belajar siswa sangat rendah dibanding-kan dengan apa yang direncanakan. Lantas, kesimpulan apa yang dapat diambil? Apakah kelemahan tersebut disebabkan oleh faktor masukan ataukah faktor proses. Atau, mungkin kelemahan itu disebabkan kelemahan dalam kurikulum itu sebagai suatu ide? Adanya kelemahan semacam ini bukannya tidak disadari oleh Stufflebeam. Oleh karena itu ia menganjurkan, kalaulah jenis-jenis evaluasi yang ada dalam CIPP akan dilakukan tidak seutuhnya, sebaiknya pekerjaan evaluasi meng-gabungkan dua atau lebih dari jenis evaluasi yang ada. Dengan adanya penggabungan ini tentu saja kelemahan seperti yang diungkapkan di atas tidak perlu dikhawatirkan. Keunggulan suatu jenis evaluasi dapat menutupi kelemahan jenis evaluasi lainnya. Tampaknya, kalau model CIPP ini diperhatikan, yang paling dapat diper-tanggungjawabkan ialah evaluasi konteks di sati pihak, evaluasi masukan, proses, dan hasil di lain pihak. Pemisahan semacam ini merupakan suatu penyelesaian terutama apabila evaluasi hasil akan dilakukan. Apabila evaluasi hasil tidak diikutsertakan, persoalannya tidaklah begitu mengkhawatirkan. Setiap gabungan lainnya tidak akan membawa persoalan yang mengandung resiko tinggi bagi pengambil keputusan. Sudah tentu yang terbaik ialah apabila keseluruhan model CIPP dapat dilaksana-kan. Gambar 6 memperlihatkan alur kerja keseluruhan model tersebut. Seperti terlihat dalam gambar tersebut, dalam model ini perbedaan kegiatan dinyatakan dengan perbedaan bentuk. Bentuk kotak persegi empat digunakan untuk menggambarkan kegiatan pelaksanaan. Bentuk belah ketupat digunakan untuk menggambarkan keputusan yang harus diambil. Oleh karena itu dalam setiap keputusan itu ada garis ya yang berarti keputusan yang diambil mengiyakan pertanyaan ayanga ada dalam bentuk belah ketupat itu. Sedangkan tidak berarti menolak pertanyaan yang diajukan. Bentuk lonjong (oval) menunjukkan kegiatan evaluasi yang dilakukan. Bagi pembaca yang kenal dnegan program komputer tentu saja bentuk-bentuk tersebut bukanlah sesuatu yang baru. Dalam diagram asli mengenal CIPP kotak untuk kegiatan evaluasi proses dan hasil dipisahkan. Dalam diagram terbaru ini Stufflebeam menggabungkan kedua kegiatan evaluasi itu dalam satu kotak. Kiranya, penggabungan ini merupakan sesuatu yang sugestif bahwa paling tidak evaluasi hasil harus digabungkan dalam pelaksanaan-nya dengan evaluasi proses. Gambar 6 yang memperlihatkan alur kerja model CIPP itu sangat jelas memperlihatkan kapan suatu evaluasi diadakan dan jenis keputusan apa diharapkan, serta tindak lanjut apa yang dapat dilakukan berdasarkan keputusan yang diambil. Sebagai contoh, evaluasi konteks

secara berkala melakukan kajian terhadap pelaksanaan sistem yang berlaku. Dari hasil kajian itu harus dapat diputuskan apakah suatu inovasi diperlukan. Kalau tidak, kembali melaksanakan apa yang sedang dilakukan oleh lembaga pendidikan itu. Kalau suatu inovasi diperlukan (ya), masalah yang dihadapi harus diidentifikasi dan tujuan yang akan dicapai harus pula dirumuskan. Setelah itu, keputusan yang harus diambil adalah apakah pemecahan masalah sudah memuaskan. Kalau sudah, solusi itu dilaksanakan. Kalau tidak, evaluasi masukan dilaksanakan. Demikian seterusnya. Model CIPP ini memiliki keunggulan terutama apabila keseluruhan model dilaksanakan. Keempat dimensi kurikulum, seperti yang dibicaraan dalam buku ini dapat dilayani dengan baik oleh model ini. Kurikulum dalam dimensi ide dapat dievaluasi meklakui evaluasi konteks. Pertnyaan keputusan tentang apakah suatu ide inovasi kurikulum mempunyai kekuatan justifikasi adalah pertanyaan dasar dalam kajian dimensi ide. Evaluasi masukan dapat ditujukan kepada kurikulum dalam dimensi sebagai rencana. Seperti diketahui dalam pendekatan sistem, yang juga sebenarnya merupakan dasar pemikiran model CIPP ini, kurikulum sebagai rencana adalah suatu masukan (kadang-kadang disebut dengan istilah instrumental input. Sedangkan evaluasi proses dan hasil, sesuai dengan namanya, ditujukan untuk mengkaji dimensi proses dan hasil suatu kurikulum. Keunggulan lain dari model ini ialah peran aktif evaluator sejak awal. Seperti telah dikemukakan, evaluasi konteks dilaksanakan bahkan sebelum suatu ide inovasi dirumuskan secara kongkrit. Evaluator harus melihat keadaan yang barlaku dan kemudian, berdasarkan hasil kajian tersebut, mempertanyakan apakah suatu inovasi diperlukan. Di sini evaluator bertindak sebagai orang yang mempunyai posisi penting dalam membantu memberikan penyelesaian terhadap masalah yang dihadapi suatu lembaga pendidikan. Sepanjang pengetahuan penulis, model lain tidak memberikan pesan yang sedemikian penting bagi evaluator terkecuali kejian need assessment yang biasanya dimasukkan dalam ruang lingkup kajian perencanaan. Tetapi model CIPP menempatkan kajian need assessment sebagai salah satu teknik evaluasi konteks dan memberikan kedudukan yang penting bagi evaluator dalam suatu usaha inovasi. Kelemahan model ini ialah apabila ia diterapkan secara bagian demi bagian (partial). Penerapan yang demikian melemahkan ide dasar model. Pelaksanaan kombinasi antar dua atau lebih jenis evaluasi menyebabkan alur kegiatan evaluasi menjadi tidak utuh. Dengan pelaksanaan yang demikian, hubungan antara satu keputusan dengan keputusan lain dapat kehilangan kesinambungan. 4. Model Evaluasi Scriven

Menurut Michael Scriven, evaluasi program dibedakan atas dasr fungsinya yaitu: evaluasi formative dan evaluasi sumatif. Evaluasi formatif berfungsi untuk mengumpulkan data selama kegiatan sedang dilaksanakan. Data yang dikumpulkan dapat pula digunakan oleh pengembang program untuk membentuk dan memodifikasi program. Dalam beberapa hal, penemuan-penemuan dari evaluasi dapat digunakan sebagai bahan acuan bagi pelaksana dalam melaksanakan program selanjutnya, agar tidak terjadi pemborosan biaya, tenaga dan waktu. Evaluasi sumatif berfungsi untuk mengmpulkan data ketika kegiatan program benar-benar selesai. Evaluasi sumatif dilaksanakan dengan tujuan untuk mengetahui kemanfaatan program, terutama jika dibandingkan dengan program lain yang sejenis. Data yang dikumpulkan selama evaluasi sumatif sangat berguna bagi pihak pembuat keputusan atau penanggungjawab program dalam menentukan kebijakan dan tindak lanjut. Oleh Scriven, evaluasi formatif dan sumatif menunjuk model evaluasi karena mengandung pengertian tentang:

a.

b.

c.

d.

: Terus menerus disusun, memperoleh hasil sambil menggunakan langsung, tidak perlu desain lengkap. 2) Sumatif : Satu kali pelaksanaan: menyeluruh, memperoleh data, mengolah dan menyimpulkan data dan menyebarkan kepada pihak pengambil keputusan. Memerlukan penyusunan desain secara lengkap. Langkah-langkah pelaksanaan evaluasi formatif dan evaluasi sumatif. 5. Evaluasi formatif dilaksanakan selama program berlangsung dengan tujuan untuk menyediakan informasi yang bermanfaat kepada pimpinan atau penanggungjawab program untuk kepentingan perbaikan dan penyempurnaan program. Setiap langkah pelaksanaan evaluasi akan menghasilkan umpan balik segera. Selanjutnya berdasarkan informasi yang telah dikumpulkan dapat dipergunakan untuk merevisi dan menyempurnakan progran apabila diperlukan. 6. Evaluasi sumatif dilaksanakan pada akhir kegiatan untuk memberi-kan informasi kepada kemampuan potensial tentang manfaat atau kegunaan program. 7. Evaluasi formatif hendaknya menarah kepada keputusan tentang program, termasuk perbaikan, modifikasi dan penyempurnaan. Sedangkan evaluasi sumatif mengarah kepada kebutuhan mengenai kelanjutan program berikutnya atau program yang ditersukan pengabdosiannya. 8. Jelasnya bahwa kedua evaluasi ini penting karena keputusan yang diperlukan selama proses, tingkat pengembangan program, untuk memperbaiki dan memperkuat keputusan progran yang diambil. Dan apabila sudah stabil dapat dipakai untuk mengevaluasi manfaat progran atau untuk memutuskan masa depan/kelanjutan program yang bersangkutan.

Komponen 1) Formatif 2) Sumatif Instrumen 1) Formatif 2) Sumatif Pelaksana 1) Formatif 2) Sumatif Langkah-langkah 1) Formatif

: Evaluasi sebagian program : Evaluasi seluruh program : Disusun oleh evaluator : Terstandar : Dilakukan orang dalam : Dilakukan orang luar

5. Model Evaluasi Discrepancy (Kesenjangan) Malcolm Provus sebagai perintis dan pengembang model ini berpendapat bahwa evaluasi kesenjangan berfungsi untuk mengetahui tingkat kesesuaian antara standar yang sudah ditetapkan dengan penampilan aktual program yang bersangkutan. Sedangkan menurut AECT (1979), evaluasi kesenjangan adalah suatu metode untuk mengidentifikasi perbedaan/kesenjangan antara tujuan khusus yang ditetapkan dengan penampilan aktual. Adapun langkah-langkah dalam pelaksanaan model evaluasi kesenjangan adalah: Tahap Penyusunan Desain, kegiatan yang dilakukan antara lain:Merumuskan tujuan program. Menyiapkan audience, personil dan kelengkapan lainnya. Menentukan kriteria dalam bentuk rumusan yang menunjuk pada sesuatu yang dapat diukur. Tahap pemasangan Instalasi, kegiatan yang dilakukan antara lain:Menilai kembali penetapan kriteria (standar) yang telah ditetapkan pada tahap penyusunan desain. Meninjau/memonitor program yang sedang dilaksanakan. Meneliti kesenjangan antara apa yang telah direncanakan dengan apa yang telah dicapai. Tahap proses pengumpulan data, kegiatan yang dilakukan antara lain:

mengadakan evaluasi terhadap tujuan-tujuan manakah yang telah dan akan dicapai. Pada tahap ini disebut tahap pengumpulan data dari pelaksanaan program. Tahap pengukuran tujuan (product), yaitu mengadakan analisis data dan menetapkan tingkat output yang diperoleh. Tahap perbandingan (comparison), yaitu membandingkan hasil yang telah dicapai dengan tujuan yang telah ditetapkan sebelumnya. Dalam tahap ini evaluator menulis semua temuan tentang kesenjangan. Selanjutnya disajikan kepada pengambil kebijakan/ pembuat keputusan, agar mereka dapat memutuskan kelanjutan dari program tersebut. Kemungkinan hasil keputusan yang ditetapkan adalah (a) menghentikan program, (b) mengganti atau merevisi program, (c) meneruskan progran yang telah didesain atau (d) memodifikasi atau menyempurnakan tujuannya.

6. Model Ekonomi Mikro Sebenarnya model ekonomi mikro ini nukan hanya satu. Tetapi untuk memudahkan pembahasan, dan lagi pula satu sama lainnya saling bertautan, model-model yang dikembangkan dari ekonomi mikro ini dimasukkan dalam satu kelompok pembahasan. Dengan cara demikian, diharapkan pengulangan pembahasan yang tidak perlu dapat dihindari. Pada mulanya, model-model ekonomi mikro ini hanya dikenal oleh orang-orang yang belajar ekonomi. Oleh karena itu yang dievaluasi adalah pola program dan kegiatan-kegiatan yang berhubungan dengan kegiatan perekonomian dalam arti kata sempit. Artinya, kegiatan yang dievaluasi adalah kegiatan yang dilakukan oleh lembaga-lembaga sosial budaya, mempunyai karakteristik khusus yang tidak selalu mendasarkan dirinya atas perhitungan ekonomi. Jadi kajian evaluatif mengenai pendidikan seolah-olah tidak memerlukan adanya perhitungan biaya dan keuntungan dalam pengertian ekonomi. Pandangan yang demikian kemudian berubah. Keadaan perekonomian yang tidak selalu cerah menyebabkan orang mulai berpikir bahwa kegiatan pendidikan pun harus dapat dipertanggungjawabkan dari segi finansiil. Lagipula, prinsip efisiensi seperti yang dilaksanakan presiden Johnson, dan prinsip akuntabilitas yang dicanangkan presiden Nixon, mengukuhkan kedudukan model-model ekonomi mikro dalam kajian evaluasi di bidang pendidikan pada saat sekarang, kuliah-kuliah mengenai model ini banyak ditawarkan di berbagai fakultas ilmu pendidikan di AS. Ada kalanya kuliah merupakan sesuatu yang berdiri sendiri sebagai suatu mata kaliah mandiri, tapi banyak pula yang mebahas konsep-konsep ekonomi yang digunakan model ini dalam suatu perkuliahan kependidikan dengan judul berbeda. Ada yang membicarakannya dalam kuliah perencanaan pendidikan, dan ada pula yang membicarakannya sebagai topik dalam kuliah evaluasi. Apapun modus yang digunakan, kenyataan tersebut menunjuk-kan peranan model ini yang semakin dirasakan manfaatnya dalam kajian evaluasi di bidang pendidikan. Demikian pula kajian di bidang evaluasi kurikulum, penggunaan model ini pun tak sepi. Menurut Levin (1983:17), dalam model yang digunakannya cost analysis approaches ini terdapat 4 model yang berbeda, yaitu cost effectiveness, cost benefit, cost-utility, dan costfeasibility. Di antara keempatnya, model sost-effectiveness adalah model yang paling banyak digunakan dalam evaluasi kurikulum. Diikuti kemudian oleh model cost-benefit. Meskipun demikian, kempat-empatnya akan dibahas dalam bagian ini karena di masa mendatang tampaknya cost-utility dan cost-feasibility akan pula menarik perhatian yang besar. Dalam bukunya yang berjudul Cost Effectiveness: A primer Levin (1983:17) memberikan pengertian tentang cost effectiveness sebagai berikut: Cost-effectiveness (CE) analysis refers to the evaluation of alternative according to both their costs and their effect with regard to producing some outcome or set outcomes. Typically,

educational evaluation and decision making must focus on the choice of an educational intervention or alternative for meeting a particular objective, such as increasing test scores in basic skills or reducing dropouts. Dari kutipan tersebut jelas bahwa evaluator yang menerapkan model cost effectiveness harus dapat membandingkan dua program atau lebih baik dalam pengertian dana yang digunakan untuk masing-masing program maupun hasil yang diakibatkan oleg setiap program. Perbandingan ini akan memberikan petunjuk bagio para pembuat keputusan mengenai program mana yang lebih menguntungkan dilihat dari hubungan antara dana dan hasil. Contoh dari penerapan model cost-effectiveness dalam evaluasi kurikulum mulai mengisi jurnal-jurnal profesional. Pada umumnya studi ini menggunakan desain eksperimen di mana kurikulum yang baru merupakan variabel perlakuan yang akan dibandingkan dengan kurikulum yang sudah ada. Dana yang harus dikeluarkan sebagai konsekuensi operasional setiap program dihitung. Tentu diaya yang dihitung di sini adalah biaya yang diperkirakan harus dikeluarkan apabila kurikulum itu dilaksanakan dalam kegiatan rutin pendidikan; biaya khusus yang harusdikeluarkan karena kegiatan eksperimen tidak diperhitungkan sebagai biaya yang harus dikeluarkan. Dalam pengukuran hasil, dipergunakan instrumen yang sudah distandardisasi. Penggunaan instrumen standar ini penting karena hanya dengan demikian perbandingan antara biaya dengan hasil dapat dilakukan. Di sini terihat bahwa penerapan model cost-effectiveness ini menggunakan pendekatan pengembangan kriteria pre-ordinate. Dengan demikian karakteristik masing-masing kurikulum yang dibandingkan tidak diper-hitungkan. Oleh karena itu Levin (1984:18) mengatakan bahwa model ini hendaknya diterapkan untuk membandingkan dua kurikulum atau program yang mempunyai tujuan identik atau serupa. Apabila tidak, validitas perbandingan semakin menimbulkan persoalan. Misalnya ada dua kurikulum yang mempunyai tujuan yang berbeda. Satu kurikulum berusaha mengembangkan keterampilan siswa dalam mancari, mengolah, dan mempergunakan informasi. Di dalam kurikulum ini persoalan banyak pengetahuan yang dimiliki siswa bukan persoalan utama. Dasar teoritis yang mendasari ide pengembangan kurikulum tersebut ialah keterampilan memperoleh, mengolah dan mempergunakan pengetahuan merupakan keterampilan pokok yang akan membantu kehidupan siswa di masyarakat. Dengan keterampilan yang demikian, siswa akan terus aktif mengembangkan dirinya baik sebagai individu maupun sebagai anggota masyarakat. Perkembangan ilmu pengetahuan dan teknologi yang pesat akan dapat dihadapi dengan penuh keyakinan apabila siswa tersebut memiliki keterampilan yang dimaksud. Kurikulum lainnya mempunyai tujuan yang berbeda karena didasarkan atas pandangan teoritis yang berbeda pula. Kurikulum ini, misalnya, dikembangkan atas pandangan bahwa siswa harus memiliki pengetahuan siap yang cukup. Dengan pengetahuan yang demikian, siswa yang telah menyelesaikan pelajarannya segera dapat menggunakan pengetahuannya tersebut untuk berkomunikasi dengan anggota masyarakat. Oleh karena itu, dalam proses belajar siswa tersebut harus mencerna banyak pengetahuan yang termuat dalam buku-buku teks, menghafal letak berbagai kota dan dapat menunjukkannya dengan tepat pada sebuah peta buta, dan lain sebagainya. Bagimana kedua kurikulum tersebut dapat dibandingkan? Instrumen standar mana yang harus digunakan? Tes standar manapun yang digunakan tentu akan memberikan perlakuan yang tidak adil terhadap salah satu kurikulum. Dengan perkataaan lain, hasil yang diperoleh dari tes standar itu tidak akan mencerminkan kekuatan yang sesungguhnya pada diri anak didik. Artinya, walaupun tes standar tadi memiliki validitas isi dan reliabilitas tinggi, tapi data yang

dihasilkannya justru menimbulkan persoalan validitas data yang sukar dapat dipertanggungjawabkan. Persoalan mengenai kesamaan tujuan kurikulum yang akan dibandingkan tidak akan dialami oleh evaluator yang akan menerapkan model cost-benefit dalam kajiannya. Berbeda dengan cost-effectiveness yang menggunakan angka (score) sebagai unit pengukuran hasil, costbenefit menggunakan unit uang dalam mengukur hasilnya. Oleh karena itu, perbedaan karakteristik kedua kurikulum yang dibandingkan, baik perbedaan dalam tujuan, proses, isi, dan lain sebagainya, tidaklah merupakan pesoalan bagi model cost-benefit. Bahkan perbedaan-pebedaan seperti itu memberikan keuntungan teoritis penggunaan model costbenefit. Justru perbedaan yang demikian dapat memberikan dapat memberikan informasi kepada pembuat keputusan mengenai program mana yang lebih nerorientasi kepada kebutuhan pasar (market-oriented) (Levin, 1987:84; Caterral, 1984:19). Perbedaan lain antara kedua model tersebut adalah dalam waktu yang digunakan untuk mengukur hasil. Apabila dalam pendekatan cost-effectiveness hasil dapat segera diukur setelah siswa menyelesaikan programnya, tidak demikian halnya dengan model cost-benefit. Hasil dalam cost-effeciveness adalah angka hasil belajar yang diperoleh siswa berdasarkan kemampuannya menjawab suatu tes. Hasil dalam cost-benefit yaitu keuntungan yang diperoleh seseorang setelah seelsai dari suatu program studi. Keuntungan itu pada dasarnya nilai uang dari aktivitas yang dilakukan-nya setelah ia dinyatakan berhasil dari suatu program. Oleh karena itu ia memerlukan waktu yang lama (Caterral, 1984:12). Kadangkala waktu yang diperlukan adalah 5 tahun atau 10 tahun, bahkan ada yang menghitung sampai waktu orang tersebut pensiun. Suatu program dianggap berhasil apabila memberikan keuntungan yang lebih besar dibandingkan dengan biaya yang dikeluarkan. Suatu program dianggap lebih memenuhi kebutuhan pasar dibandingkan program lainnya apabila angka ratio cost-benefit yang lebih kecil. Misalnya biaya untuk program A adalah sebesar Rp.100.000.000,- sedangkan untuk program B Rp. 150.000.000,-. Setelah diukur keuntungannya, diperoleh angka bahwa keuntungan untuk program A Rp.200.000.000,-. Angka keuntungan yang sama pula diperoleh program B. oleh karena itu rasio cost-benefit untuk program A adalah biaya dibagi keuntungan sama dengan setengah atau 50%. Angka rasio untuk program B adalah 1,5/2 atau 75%. Dengan demikian, dilihat darti model cost-benefit program A lebih meguntungkan daripada program B. Di samping keuntungan dalam persoalan unit pengukuran yang sama, pengukur-an benefit dalam bentuk uang ini merupakan pula kesulitan dalam pengukuran. Persoalannya ialah tidak semua hasil yang diperoleh dari suatu kegiatan pendidikan tertentu dapat diterjemahkan dengan nilai uang secara mudah. Banyak program dalam pendidikan yang tidak diarahkan untuk pengembangan keterampilan baik kognitif maupun psikomotorik. Program-program yang bertujuan untuk mengembangkan ranah afektif sangat sukar, apabila tidak dapat dikatakan tidak mungkin, diterjemahkan dalam nilai uang. Katakanlah penataran-penataran P4 yang bertujuan terutama dalam pengembangan sikap bangsa berdasarkan Pancasila. Nilai rupiah apa yang dapat diberikan kepada orang yang taat dalam beragama sebagai manifestasi sila pertama Pancasila. Berapa rupiah yang dapat diberikan kepada orang yang memiliki semangat nasionalisme yang merupakan pelaksanaan dari sila persatuan Indonesia, dan seterusnya. Dalam ruang lingkup pendidikan formal, misalnya, banyak pula contoh yang dapat dikemukakan. Seorang yang belajar sejarah Indonesia atau bahasa Indonesia dapat digunakan sebagai contoh untuk menjelaskan persoalannya. Katakanlah pada suatu waktu Depertemen Pendidikan Nasional mengembangkan dua jenis program yang berbeda untuk bidang studi sejarah dan bahasa Indonesia. Standar apa yang dapat digunakan untuk mengatakan bahwa suatu program memberikan benefit yang lebih besar dibandingkan program lainnya. Upaya

apa yang dapat digunakan untuk menentu-kan bahwa suatu program memberikan kontribusi benefit yang lebih besar dari program lainnya setelah siswa tersebut bekerja. Persoalan pengukuran lain yang timbul adalah disebabkan oleh sistem upah yang tidak dibedakan berdasarkan keunggulan program yang ditempuh. Seorang yang tamat SMU akan dibayar sama dengan siswa tamatan SMU lainnya kalau mereka bekerja sebagai pegawai negeri atau dalam suatu perusahaan yang sama. Sebagai pegawai negeri, mereka juga akan dikenakan proasedur dan persyaratan promosi yang sama. Dulu pernah ada perbedaan dalam kepangkatan pertama antara mereka tamatan sekolah menengah umum dengan sekolah menengah kejuruan. Mereka yang tamat sekolah kejuruan diberikan pangkat dan golongan awal yang lebih tinggi dari mereka tamatan sekolah menengah umum. Sekarang aturan yang demikian tidak belaku lagi. Model ketiga dalam kelompk mikro ekonomi ialah apa yang diistilahkan dengan cost-utility. Levin (1983:26) mendefinisikan model ini sebagai the evaluation of alternative according to a comparison of their cost and the estimated utility or value of their outcomes. Penegrtian cost sama dengan apa yang dibicarakan dalam model soct-effectiveness, cost-benefit yang telah dikemukakan. Pengertian utility yang dimaknakan sebagai the estimate utility or value od their outcomes. Memerlukan kajian lebih jauh. Pengertian utility di sini menurut Levin (1983:26) memberikan peluang bagi evaluator untuk menggunakan baik data kuantitatif maupun data kualitatif. Dengan peluang ini evaluator tidak dibatasi ruang geraknya hanya atas satu jenis data saja. Perkiraan-perkiraan dari para pakar mengenai kegunaan atau nilai satu atau lebih peogram dapat digunakan. Untuk itu Levin (1983:27) menganjurkan digunakannya skala kegunaan (utility scale). Skala ini dapat bergerak dari 0-10 tapi dapat pula bergerak 0-4, atau lainnya. Pokok utama skala yang digunakan ialah bahwa setiap orang yang diminta pendapat diberikan skala yang sama. Hal penting lainnya ialah bahwa skala itu berada dalam tingkat pengukuran interval dan bukan ordinal. Dengan demikian setiap orang yang menempatkan kegunaan ataupun nilai suatu program menyadari bahwa jarak antara satu titik skala dengan titik skala lainnya dipergunakan mempunyai jarak yang sama dengan titik berikutnya dalam skala. Levin (1983:28) memperguakan istilah cardinal. Pakar yang diminta pendapatnya harus memberikan penilaiannya mengenai nilai tujuan yang akan dicapai program. Misalnya, kembali kepada contoh bahasa Indonesia tadi. Pakar-pakar yang diminta pendapatnya (orang kebanyakan dapat pula diminta pendapatnya) harus memberikan pertimbangan mengenai nilai tujuan yang akan dicapai oleh program bahasa Indonesia yang satu dan program bahasa Indonesia lainnya. Beberapa kriteria dapat saja dikembangkan untuk memberikan pertimbangan nilai tujuan tadi. Informasi ini yang kemudian diolah dan dijadikan masukan bagi para pengambil keputusan. Pengolah yang dimaksud adalah membandingkan antara nilai rata-rata yang diperoleh suatu program dengan costnya. Cara lain adalah bukan meminta nilai tujuan yang akan dicapai tapi meminta pendapat pakar tadi mengenai kemungkinan yaitu pemberian nilai terhadap tujuan yang akan dicapai, cara kedua ini lebih rumit. Untuk dapat menentukan kemungkinan pencapaian tujuan, seseorang yang dimintakan pendapatnya haruslah mengetahui program tersebut secara keseluruhan dan bukan hanya tujuan. Oleh karena itu kiranya tidak berlebihan kalau dikatakan bahwa dalam cara kedua ini orang yang dimintakan pendapatnya itu sebaiknya adalah orang yang mengetahui dan punya pengalaman di lapangan pendidikan. Dengan pengetahuan dan pengalaman yang dimilikinya, pertimbangan mengenai kemungkinan pencapaian tujuan yang diberikannya akan lebih berdasar. Seperti cara pertama, dalam cara kedua inipun dicari kemunkinan rata-rata pendapat tersebut. Angka rata-rata pendapat ini kemudian dibandingkan dengan biaya yang dikeluarkan atau akan dikeluarkan untuk masing-masing program. Dengan cara ini biaya dengan kemungkinan

pencapaian untuk masing-masing program dapat diperoleh. Program yang memiliki angka rasio yang menguntungkan kemungkinan pencapaian yang lebih besar tentu merupakan program yang diinginkan. Dalam menetukan kemungkinan tersebut dapat saja dipergunakan skala seperti pada waktu memberikan nilai terhadap tujuan. Tetapi dapat pula dipergunakan prosentase kemungkinan pencapaian tujuan. Dengan prosentase ini, makin besar angka persen yang diberikan artinya, makin besar pula kemungkinan pencapaian tujuan yang dimaksud. Cara ketiga dalam cost-utility ini adalah menggabungkan kedua cara tersebut. Jadi, baik pemberian nilai tujuan yang akan dicapai berdasarkan skala tertentu maupun kemungkinan pencapaian tujuan berdasarkan persen. Dengan penggabungan ini kelemahan-kelemahan cara pertama dan kedua dapat diatasi tetapi perhitunganya menjadi makin kompleks. Kelemahan cara pertama terutama adalah pertimbangan yang diberikan hanya berdasarkan nilai tujuan yang akan dicapai. Apakah tujuan tersebut memeng berguna berdasarkan pandangan tertentu atau kurang bahkan tidak sama sekali. Pertimbangan mengenai apakah tujuan tersebut dapat dicapai tidak diperhitungkan. Jasi aspek proses tidak mendapat tempat dalam pertimbangan. Kelemahan cara kedua ialah pertimbangan yang diberikan hanya mengenai aspek kemungkinan pencapaian tujuan. Pertimbangan apakah tujuan itu berguna atau tidak bukan merupakan aspek yang diperhatikan. Kelemahan keduanya ini menjadi hilang apabila kedua cara tersebut digabungkan. Dengan penggabungan kedua aspek itu harus diperhitungkan dalam pengolahan data. Data dari hasil pertimbangan mengenai nilai tujuan yang akan dicapai dikalikan dengan cara dari pertimbangan mengenai kemungkinan pencapaian. Hasilnya merupa-kan gambaran tentang kegunaan (utility) dari program tersebut yang kemudian merupakan dibandingkan dengan biaya yang dikeluarkan untuk program. Hasil perbandingan tersebut merupakan rasio costutility. Dengan cara tersebut dua program atau lebih dapat dibandingkan. Kembali kepada contoh bahasa Indonesia yang telah dikemukakan di atas. Katakan program bahasa Indonesia X mempunyai kemungkinan pencapaian .7 (70%) dan nilai tujuan yang akan dicapainya 8 sedangkan biaya yang diperlukan 5 juta. Sedangkan program bahasa Indonesia Y memiliki kemungkinan pencapaian 8, nilai tujuan 7 sedangkan biaya 3 juta. Maka rasio cost utility program bahasa Indonesia X adalah 5 juta dibadi.7 X 8, yaitu Rp. 892.857.143. Sedangkan program bahasa Indonesia Y mempunyai rasio cost utility 3 juta dibagi .6 X 7 yaitu Rp. 714.285.714. Dengan demikian program bahasa Indonesia Y lebih menguntungkan dilihat dari model cost-utility. Model terakhir dari kelompok mikro ekonomi ini ialah yang dinamakan model cost-fesibility. Berbeda dengan ketiga model terdahulu, model cost-fesibility tidak berusaha mencari hubungan antara biaya dengan hasil tertentu. Sesuai dengan namanya fesibility, model ini justru mencoba menjawab pemasalahan evaluasi apakah biaya yang diperlukan memang tersedia. Artinya, setelah ide suatu program diformulasikan, perhitungan biaya dilakukan. Apabila angka sudah diperoleh pertanyaan yang diajakan ialah apakah pengadaan biaya yang diperlukan mungkin. Kalau lembaga atau departemen yang bersangkutan memiliki biaya yang diperlukan, perhitungan berikutnya ialah bagaimana dengan kelanjutan biaya dimasa mendatang. Biaya terakhir ini perlu diperhitungkan agar program yang akan dikembangkan tersebut mendapat jaminan tidak hanya dalam pengembangan dan pelaksanaan dalam waktu dekat saja. Maksudnya, jangan sampai biaya yang tersedia hanya untuk satu atau dua tahun saja sedangkan biaya untuk tahun-tahun berikutnya merupakan masalah. Kalau keadaan terakhir ini yang terjadi, kontinuitas program tidak terjamin.

7.

Model Evaluasi Kualitatif

Model evaluasi kurikulum yang didasarkan pada tradisi kualitatif tidak sebanyak model kuantitatif. Meskipun demikian, model-model kualitatif telah memberikan sumbangan yang sangat berarti dalam evaluasi kurilulum. Sumbangan tersebut terutama disebabkan sifatnya yang komunikatif dengan para pemakai hasil evaluasi dan gambaran kuat yang diberikannya mengenai suatu pelaksanaan kurikulum di lingkungan pendidikan tertentu dan terbatas. Dengan gambaran yang demikian, rincian masalah yang dihadapi oleh pelaksana kurikulum segera dapat dikenal oleh para pengambil keputusan sehingga arah keputusan yang akan diambilpun menjadi lebih jelas. Model evaluasi kualitatif didasarkan atas metodologi kualitatif yang menurut Richardt dan Cook (1979:9) serta Patton (1980:44-46) berasal dari filsafat fenomenologi. Ciri khas dari model evaluasi kualitatif ialah fokus perhatian utamanya pada proses pelaksanaan kurikulum. Jadi kurikulum dalam dimensi kegiatan lebih mendapatkan perhatian dibandingkan dengan dimensi kegiatan lebih mendapatkan perhatian dibandingkan dengan dimensi lain kurikulum. Meskipun demikian, hal ini tidak berarti bahwa model evaluasi kualitatif tidak pernah dilakukan untuk mengkaji dimensi kurikulum yang lain. Studi Greig dan Reid (1979) mengenai Cambridge Classic Project, misalnya, mengevaluasi kurikulum dalam dimensi rencana. Model utama evaluasi kualitatif adalah apa yang dikenal dengan nama studi kasus (case study). Demikian kuatnya model ini sehingga kalau orang berbicara tentang model kualitatif, nama studi kasus segera muncul dalam kotal memorinya. Hal ini tidak mengherankan karena dengan nama studi kasus sebenarnya terdapat beberapa varian yang mempunyai karakteristik studi kasus di samping karakteristik varian itu sendiri. Varian-varian seperti democratic evaluation (McDonald, 1974), quick case study (Walker, 1974), multy sites case study (Stake & Easley, 1979), portrayal (Kemmis, 1980) pada dasarnya adalah model studi kasus. Karena itu varian-barian ini tidak dibicarakan secara khusus. Mereka akan dibicarakan dalam kajian mengenai studi kasus. Demikian pula varian lain yaitu connouisseurship and criticism yang dikem-bangkan oleh Eisner (1976). Model illuminative yang dikembangkan oleh Parlett dan Hamilton (1976) pada dasarnya adalah juga studi kasus. Tetapi karakteristik yang dimiliki model ini sangat khusus. Demikian pula konsep-konsep uang dikembangkan berhubungan dengan model tersebut khusus pula. Oleh karena itu, model illuminative memerlukan kajian khusus yang terpisah dari studi kasus. Dengan dasar pertimbangan yang sama pula maka model responsive yang dikembangkan Stake (1976) dibicarakan secara terpisah. 8. Model Studi Kasus

Sesuai dengan namanya, evaluasi yang menggunakan model studimkasus memusatkan perhatiannya hanya kepada kegiatan kurikulum di satu unit kegiatan pendidikan. Unit tersebut dapat saja satu sekolah, satu kelas bahkan hanya terhadap seorang guru atau kepala sekolah. Dalam bahasa kualitatif, dikatakan bahwa studi kasus dilakukan apabila n = 1 (Legare, 1980:19). Dengan demikian persoalan pemilihan sampel yang dihadapi dalam studi dengan model kuantitatif bukan merupakan persoalan dalam studi dengan model kualitatif (Walker,1974). Memang, konseuensinya hasil yang diperoleh hanya dinyatakan sahih untuk tempat di mana evaluasi itu dilakukan. Generalisasi hasil evaluasi, yang memang bukan menjadi perhatian model kualitatif, tidak dilakukan. Karakteristik alin dari model evaluasi ini ialah data yang dikumpulkan terutama data kualitatif. Data ini dianggap lebih memberikan makna dibandingkan data yang ada di lapangan. Proses yang direkam tidak dapat dinyatakan dengan angka kecuali dengan ungkapan proses pula. Meskipun demikian, model studi kasus tidak menolak pemakaian data

kuantitatif apabila data tersebut memang diperlukan (catatan bahwa pengertian data kuantitatif di sini adalah data yang dinyatakan dalam bentuk angka; jadi bukan dalam pengertian data kualitatif statistik di mana data kualitatif diartikan sebagai data dari pengukuran tingkat nominal). Penolakan yang dilakukan oleh model ini ialah model pengumpulan data kuantitatif. Karakteristik ketiga ialah diakuinya adanya kenyataan yang tidak sepihak (multiple realistics) (Patton,1980; Kemmis,1982). Maksudnya, kenyataan adalah sesuatu yang berhubungan dengan konteks dan persepsi individu yang terlihat di dalamnya. Jadi bukan hanya kenyataan yang dipersepsi oleh evaluator atau orang yang memberi tugas kepada evaluator. Oleh karena itu, persepsi orang-orang yang terlibat seperti siswa, guru, kepala sekolah, dan sebagainya adalah kenyataan yang harus dipertimbangkan oleh evaluator. Dalam menggunakan model ini, tindakan pertama yang harus dilakukan evaluator ialah familiarisasi dirinya terhadap kurikulum yang dikaji (Walker, 1974; Shipman, 1974; Stake dan Easley, 1976; Fehrenbacher, Owens, dan Haenn, 1976, 1976; Cohen, 1977; Smith dan Fraser, 1980; Hasan, 1984). Familiarisasi ini sangat penting sehingga dapat dikatakan bahwa evaluator yang tidak melakukan langkah ini akan menemui kegagalan dalam kajiannya. Ada dua jenis familiarisasi yang harus dilakukan dan keduanya mempunyai fungsi dan waktu yang berbeda. Tetapi keduanya saling berhubungan dan saling mendukung. Familiarisasi pertama adalah familiarisasi terhadap kurikulum sebagai ide dan sebagai rencana. Evaluator harus mempelajari dasar-dasar pikiran yang melahirkan kurikulum sebagai sebagai rencana dan kurikulum sebagai rencana itu sendiri. Familiarisasi ini akan memberikan frame of reference bagi evaluator yang diperlukannya pada waktu ia mengunjungi lapangan. Frame of reference itu memang tidak mejadi dasar bagi evaluator untuk membuat instrumen. Tetapi ia akan membantu evaluator dalam berhubungan dan berkomunikasi dengan lapangan. Familiarisasi kedua adalah ketika evaluator sudah berada di lapangan. Di sini untuk beberapa waktu, tergantung dari keadaan lapangan dan pendekatan yang dilakukan evaluator, evaluator harus menguasai keadaan lapangan dengan seluk beluknya yang rumit tersebut. Evaluator harus menguasai kebiasaan-kebiasaan yang ada sehingga ia tidak lagi merasa sebagai orang asing di tempat tersebut. Dia dapat berkomunikasi dalam bahasa yang sama seperti yang digunakan di lapangan. Dengan familiarisasi tersebut barulah evaluator dapat mengobservasi lapangan dengan baik. Persoalan-persoalan pokok yang penting akan muncul ke permukaan sehingga evaluator dapat mengumpulkan informasi yang sangar grounded. Stake mempergunakan istilah isu bagi persoalan-persoalan pokok tersebut. Dengan dasar pengetahuan mengenai persoalanpersoalan pokok ini kemudian evaluator dapat mengembangkan instrumen yang dipergunakannya. Jadi, instrumen yang dihasilkannya betul-betul bermanfaat karena sesuai dengan keadaan lapangan dan bukan sesuatu yang diperkirakan sebelumnya dari belakang meja. Instrumen yang dikembangkan bukanlah instrumen yang terinci seperti yang umumnya dikehendaki oleh teori pengukuran. Pertanyaan dengan segala kemungkinan jawaban (open ended) adalah pertanyaan yang sangat dianjurkan digunakan dalam model ini. Tentu saja di samping pertanyaan besar, evaluator dapat pula mengembang-kan pertanyaan pengarahan aspek khusus (probing). Tetapi, prosedur standardisasi terutama penegakan reliabilitas yang biasa dilakukan dalam tradisi kuantitatif, tidak dipersoalkan. Tidak ada keperhatian terhadap konsep reliabilitas dalam model ini. Model ini menuntut validitas bukan reliabilitas. Observasi merupakan teknik pengumpulan data yang sangat dianjurkan dalam model studi kasus. Posisi penting ini dikarenakan anggapan bahwa observasi adalah cara yang memungkinkan evaluator langsung berhubungan dengan evaluan. Dengan hubungan langsung tersebut evaluator dapat melihat langsung pula apa yang terjadi. Instrumen tidak lagi menjadi perantara antara evaluator dengan evaluan seperti dalam kasus tes, kusioner,

maupun wawancara. Jadi, kalau yang akan dievaluasi adalah interaksi guru dengan siswa baik di kelas maupun di sekolah, evaluator harus melihat sendiri adanya interaksi tersebut. Demikian pula apabila evaluator ingin mengetahui apakah guru membuat satuan pelajaran atau tidak, evaluator harus melihat sendiri satuan pelajaran yang dibuat guru. Meskipun demikian, wawancara dan kuesioner dapat pula digunakan dalam pengumpulan data kualitatif. Apabila seorang evaluator ingin mengetahui persepsi guru tentang kurikulum yang berlaku, ia dapat mengumpulkan data tersebut dengan wawancara. Demikian pula kalau evaluator ingin mengetahui tentang pendapat guru mengenai sesuatu yang berhubungan dengan kualitas lingkungan kerja yang ada. Apabila evaluator ingin mendapatkan informasi tentang murid yang dianggap guru sangat potensial, ia dapat melakukannya baik melalui wawancara ataupun kuesioner. Hal penting yang harus diperhatikan oleg evaluator yang menggunakan model studi kasus ialah instrumen yang dikembangkannya haruslah berasal dari persoalan yang timbul dari hasil observasi di lapangan dan pertanyaan yang dibuat bersifat terbuka. Data yang sudah dikumpulkan langsung diolah. Jadi pengolahan data dilakukan ketika evaluator masih berada di lapangan dan ketika evaluator masih dalam proses pengumpulan data. Cara ini memiliki beberapa keuntungan di antaranya ialah persoalan baru yang mungkin muncul dari hasil analisis data dapat segera ditelusuri. Kedua, hal-hal yang tidak jelas dapat segera dikomunikasikan kembali ke responden untuk mendapat kejelasan. Ketiga, waktu untuk kegiatan evaluasi dapat dipersingkat memngingat hakikat data kualitatif yang dikumpulkan. Data kualitatif adalah yang meminta banyak waktu dalam pengolahan. Evaluator harus memahami satu persatu data yang dikumpulkan untuk dapat diklasifikasi. Proses pemahaman ini yang menyita waktu cukup banyak. Apabila itu dilakukan ketika evaluator masih di lapangan, pekerjaan tersebut dimulai dengan jumlah yang masih sedikit sehingga pekerjaan lebih mudah dan proses klasifikasi dapat dilakukan secara progresif. Artinya, klasifikasi berjalan terus sejalan dengan data yang masuk dan kelompok data yang baru muncul bersamaan dengan masuknya data tadi. Dengan demikian, laporan sudah dapat mulai ditulis bersamaan dengan pekerjaan lapangan sehingga ketika perkejaan evaluasi di lapangan selesai, evaluator tinggal memoles laporan tadi menjadi laporan akhir. Dengan klasifikasi tersebut, persoalan-persoalan muncul ke permukaan. Tetapi, seperti diingatkan oleh Miles dan Huberman (1984:69) evaluator jangan pula terlena oleh tumpukan data yang masuk. Kalsifikasi-klasifikasi itupun demikian pula. Kalau evaluator tidak hati-hati ia akan terbenam oleh pekerjaan klasifikasi. Oleh karena itu dari hasil klasifikasi tersebut evaluator harus mampu membuat memoing; pembuatan memo mengenai konsep penting yang dapat diambil dari klasifikasi. Mengutip pendapat Glaser dalam bukunya Theoritical sensitivity, Miles dan Huberman mengatakan bahwa :Memos are always conceptual in intent, yang bentuknya dapat saja berupa atau beberapa kalimat. Adanya memo ini menyebabkan evaluator berada pada posisi diatas data. Dengan memo ini evaluator dapat mengarahkan pekerjaannya lebih baik. Ia juga membantu evaluator pada waktu manulis laporan akhir. Pekerjaan memoles laporan akhir menjadi lebih mudah karena evaluator tidak lagi berhubungan dengan datas secara langsung tetapi dengan memo yang telah dibuatnya. 9. Model Illuminatif

Model ini sebenarnya sudah dilaporkan penggunaannya tahun 1969 oleh Hanley tetapi menjadi terkenal karena tulisan Parlett dan Hamilton (1978). Oleh karena itu tulisan mengenai model ini, seperti Stenhouse (1979) dan Scrimshaw (1979), menunjuk kepada tulisan Parlett dan Hamilton tersebut, uraian berikut inipun didasarkan pada hasil tulisan

mereka berdua itu yang dilaporkan pada buku yang disunting oleh Tawney (1976) dengan judul Curriculum evaluation today: trends and applications. Tulisan Parlett dan Hamilton itu pada awalnya diterbitkan pada tahun 1972 dengan judul Evaluation as illumination; a new approach to study of innovatory program. Suatu kenyataan yang harus diakui bahwa model ini lebih banyak mendapatkan tanggapan di Inggris. Di AS, meskipun model ini pernah dilaksanakan Parlett dan King (1971) dalam mengevaluasi program inovatif matematik di Massacusetts Institute of Technology, tanggapan terhadap model illuminatif tidaklah terlalu luas. Dapat dikatakan bahwa Stake (1973) dan House (1980) adalah dua tokoh evaluasi AS yang banyak memberikan perhatian terhadap model ini. Meskipun demikian, model ini perlu dikaji karena ia merupakan model yang pertama secara utuh menyatakan dirinya sebagai alternatif bagi model evaluasi yang dikembangkan dari tradisi kualitatif. Model evaluasi illuminatif mendasarkan dirinya pada paradigma antropologi sosial. Oleh karena itu, model ini memberikan perhatian terhadap lingkungan luas di mana suatu inovasi kurikulum dilakukan. Ini merupakan salah satu kekuatan model illuminatif terutama dalam aplikasi di Indonesia di mana suatu inovasi yang dikembangkan di tingkat pusat diimplementasi di berbagai ragam lingkungan sosial-budaya. Keberhasilan suatu implementasi sebagai kurikulum dalam pengertian proses, dapat dipahami dengan memberikan perhatian terhadap lingkungan tersebut. Demikian pula dengan kegagalan suatu inovasi kurikulum. Seperti dikatakan oleh pengembangnya (Parlett dan Hamilton, 1976:89). Tujuan evaluasi illuminatif ialah: To study the innovatory project: how it operates; how it is influences by the various scholl situations in which it is applied; what those directly connected regard as its advantages and disadvantages; and how students intelectual tasks and academic experiences are affected. Interaksi antara lingkungan dengan inovasi itu sendiri menjadi perhatian model ini. Tetapi ini tidak berarti bahwa model ini mencoba melakukan suatu kajian untuk menetapkan berbagai macam lingkungan dan hubungannya dengan inovasi dalam suatu model eksperimen. Model illuminatif tidak menghendaki bahkan menentang model eksperimen. Eksperimen dianggap tidak sesuai dengan hakekat manusia yang terlibat dalam program. Model evaluasi illuminatif ini ditegakkan atas dua konsep utama, yaitu sistem instruksi (instructional system) dan lingkungan belajar (learning millieu). Sistem instruksional di sini diartikan sebagai katalog, perspektus, dan laporan-laporan kependidikan secara khusus berisi berbagai macam rencana dan pernyataan yang resmi berhubungan dengan pengaturan suatu pengajaran (Parlett dan Hamilton, 1976:89). Kurikulum 1984, misalnya adalah suatu sistem instruksi. Sedangkan lingkungan bealajar adalah lingkungan sosial-psikologis dan materi dimana guru dan siswa berinteraksi (Parlett dan Hamilton, 1976:90). Sifat lingkungan ini adalah unik. Dalam pengertian metodologis dikatakan bahwa model evaluasi illuminatif bukanlah suatu paket model yang standar. Menurut kedua pengembangnya, model ini bersifat adaptif dan eklektik. Oleh karena itu berbagai metode yang tersedia dapat dipergunakan dalam model evaluasi illuminatif asalkan metode teresebut sesuai dengan persoalan yang sedang dihadapi. Juga model ini tidak mengikat diri pada suatu jenis data yang harus dikumpulkan. Baik data kuantitatif maupun data kualitatif mempunyai kedudukan yang sama. Keduanya dipergunakan untuk saling mengisi. Dalam langkah pelaksanannya, model ini mengenal tiga kegiatan. Ketiganya merupakan suatu rangkaian yang berhubungan tetapi tidak terpisah secara tajam. Ketiga langkah tersebut ialah observasi, inkuiri lanjutan, dan usaha penjelasan. Ketiganya ini merupakan sesuatu yang

dapat dikatakan baku dalam model ini. Artinya, karakteristik model ini diwarnai oleh ketiga langkah metodologi ini. Observasi dianggap langkah yang memegang peranan penting. Evaluator yang akan mepergunakan model ini harus melakukan tugasnya dimulai dengan kegiatan observasi. Dalam observasi ini, evaluator dapat mengamati langsung apa yang sedang berlangsung di suatu lembaga pendidikan. Ia juga dapat mempergunakan wawancara, kuestioner, dan bahkan tes untuk mengmpulkan informasi yang diperlukan. Demikian pula dengan studi dokumentasi. Data dari hasil observasi ini merupakan bekal utama bagi evaluator untuk bekerja. Dengan data yang berhasil dikumpulkannya, evaluator mencoba untuk menemukan isu pokok, kecenderungan yang sering muncul, dan persoalan-persoalan penting lainnya yang terjadi dalam pelaksanaan kurikulum di suatu lingkungan kependidikan tertentu. Isu pokok, kecenderungan, serta persoalan yang muncul ini merupakan pedoman bagi evaluator untuk masuk ke dalam langkah berikutnya. Hal tersebut kemudian yang diteliti lebih lanjut dalam langkah kedua. Dalam langkah kedua evaluator tidak berpegang teguh terhadap semuanya dalam langkah pertama. Seperti telah dikemukakan sebelumnya, temuan tersebut hanyalah bersifat pedoman bagi evaluator. Oleh karena itu dalam langkah kedua ini mungkin saja terjadi perubahan. Maksudnya, mungkin sekali isu yang telah ditemukan dalam langkah pertama tadi terpaksa diganti dengan isu baru karena isu yang ditemukan dalam langkah pertama itu dianggap tidak lagi relevan. Ada isu baru yang berkembang dan lebih relevan. Dengan demikian terjadi fokus baru yang harus diperhatikan evaluator. Dalam inkuiri lanjutan ini, evaluator memantapkan isu, kecenderungan, serta persoalanpersoalan yang ada sampai suatu kegiatan di mana evaluator dapat menarik kesimpulan bahwa tidak ada lagi persoalan baru yang muncul. Dengan kata lain, evaluator sudah tidak lagi melihat ada persoalan lain yang mungkin lebih penting dibandingkan dengan persoalan yang sudah diidentifikasi. Artinya, persoalan yang ada pada evaluator sudah memiliki validitas data yang sudah tidak diragukan lagi. Berdasarkan data yang terkumpul, evaluator kemudian memasuki langkah ketiga. Dalam langkah ini evaluator harus dapat menemukan prinsip-prinsip umum yang mendasari kurikulum tersebut. Di samping itu pula evaluator harus dapat menemukan pola hubungan sebab akibat sehingga ia dapat enjelaskan mengapa suatu kegiatan dapat dikatakan berhasil dan mengapa kegiatan lainnya dikatakan gagal dalam suatu lingkungan kependidikan yang sama. Penjelasan semacam ini merupakan suatu kegiatan penting dalam model illuminatif, tidak hanya sekedar mendapatkan apa yang terjadi secara portrayal. Walaupun model illuminatif ini memberikan peluang dalam menggunakan data kuantitatif, kepedulian yang utama adalah data kualitatif. Dari segi pendekatan pengembangan kriteria, jelas model ini mendasarkan dirinya pada pendekatan proses. Dari hasil lapangan evaluator dapat menentukan apa dan abagaimana suatu kurikulum dievaluasi dan dinyatakan berhasil. 10. Model Responsive

Model ini dikembangkan oleh Stake. Dapat dikatakan bahwa model responsive ini merupakan pengembangan lebih lanjut dari model countenancenya, meskipun dalam beberapa hal terdapat perbedaan yang prinsipiil. Perbedaan-perbedaan yang ada menyebabkan model ini layak untuk disikusikan. Perbedaan pertama adalah dalam fokus. Model countenance mempunyai fokus yang lebih luas dibandingkan dengan model responsif. Model countenance memberikan perhatian terhadap kurikulum sebagai rencana. Dalam model responsive, fokus yang demikian sudah ditingalkan. Seperti dikatakan Stake (1983:292) fokus model responsive adalah pada

kurikulum dalam dimensi proses. Apa yang terjadi di lapangan dijadikan dasar mengembangkan model ini. Perbedaan kedua ialah dalam pendekatan pengembangan kriteria. Model countenance berdasarkan pengembangan kriteria fidelity, model responsive mengembangkan kriterianya berdasarkan pendekatan proses. Perbedaan pandangan dari orang-orang yang terlibat di lapangan dalam melaksanakan kurikulum menjadi sumber untuk mengembangkan kriteria evaluasi. Konsekuensinya, model reponsive tidak berbicara tentang pemakaian instrumen standar (Stake, 1976:20). Bahkan dapat dikatakan bahwa segala sesuatu yang berbau standar dihindari model ini. Oleh karena adalah tepat apabila Rakel (1976:35) berpendapat bahwa model responsive menjadi kurang berharga untuk diterapkan dalam mengevaluasi kurikulum yang sangat ketat strukturnya. Hal ini disadari dan diakui oleh Stake (1976:20) sepenuhnya. Dengan keperhatiannya yang besar terhadap pelaksana kurikulum di lapangan, model ini memberikan perhatian besar terhadap interaksi antara evaluator dengan pelaksana kurikulum. Tanpa interaksi tidak ada satupun issue yang dapat diungkapkan. Hal tersebut terlihat dalam 12 peristiwa event penting evaluasi yang harus dilakukan evaluator. Keduabelas peristiwa itu ialah: berbeicara dengan nasabah, staff program, pemakai; identifikasi ruang lingkup program; satukan laporan resmi (kalau ada); overview aktivitas program; ringkaskan format untuk digunakan pemakai; temukan tujuan, keperhatian; validasi, confirmasi, usaha untuk tidak konfirmasi; konseptualisasikan keperhatian isu, masalah; temaisasi: persiapkan portrayal dan hasil yang diharapkan; identifikasi data yang diperlukan, isu, masalah mengenai isu; pilih pengamat hakim, instrumen, bila diperlukan. Kedua belas peritiwa penting evaluasi dalam model Stake ini bukan merupakan urutan. Seorang evaluator dapat saja mulai dari suatu peristiwa tertentu dan kemudian melakukan kegiatan untuk peristiwa lainnya yang bukan peristiwa berikutnya. Misalnya, seorang evaluator dapat saja melakukan kegiatan yang berhubungan dengan peristiwa identifikasi data yang diperlukan setelah selesai dengan peristiwa overview aktivitas program. Setelah itu dapat saja ia melakukan temaisasi dan kembali pada kegiatan memilih pengamat, dan seterusnya. Meskipun daftar yang seperti muka jam tersebut tidak membentuk suatu urutan konsekutif, berbicara dengan para nasabah, staff yang terlibat dalam program dan para pemakai program, merupakan suatu kegiatan pokok yang harus dilakukan evaluator. Dengan kegiatan inilah, evaluator dapat melakukan kegiatan-kegiatan lain yang dikemukakan dalam model responsive ini.

G.

Prosedur Pelaksanaan Evaluasi Program

Pelaksanaan evaluasi terhadap suatu program merupakan suatu kegiatan penelitian yang hasilnya langsung digunakan sebagai bahan pertimbangan bagi pihak penanggungjawab propgram atau pengambil keputusan. Pelaksanaan evaluasi program merupakan kegiatan yang bersifat politis dan sosial. Karena begitu pentingnya peranan evaluasi program, maka hendaknya dilaksanakan dengan cermat dan melalui prosedur yang sistematis dan terprogram. Secara berturut-turut evaluasi program dilaksanakan melalui langkah-langkah berikut: Penyusunan desain. Penyusunan instrumen. Pengumpulan data. analisis dan interpretasi data. Penyusunan laporan. Penyusunan Desain. Penyusunan desain evaluasi program merupakan langkah pertama dan menyangkut perencanaan. Di dalam tahap perencanaan ini diuraikan garis-garis besar mengenai hal-hal yang akan dikerjakan berserta alasan (rasional), tujuan, problematika dan lain-lain yang berkaitan dengan kegiatan evaluasi tersebut. Kegiatan evaluasi program merupakan pelayanan bantuan kepada pelaksana program dan penguasa

yang melahirkan atau yang menetapkan program tersebut. Oleh karena fungsi inilah, maka pelaksana evaluasi program hendaknya benar-benar memahami seluk beluk program yang akan dievaluasi. Desain evaluasi program setidak-tidaknya mencakup hal-hal berikut ini. 1) Latar belakang dilaksanakannya evaluasi program. 2) Problematika (permasalahan). 3) Tujuan melaksanakan evaluasi program. 4) Popuilasi dan sampel. 5) Instrumen dan sumber data. 6) Teknik analisis dan interpretasi data. 7) Penyusunan laporan. Penyusunan Instrumen Langkah-langkah penyusunan instrumen adalah sebagai berikut: 1) Merumuskan tujuan setiap jenis instrumen yang digunakan. 2) Membuat kisi-kisi instrumen. 3) Menyusun butir-butire instrtumen. 4) Menyunting instrumen. 5) Menguji cobakan (try-out) instrumen. Pengumpulan Data Dalam tahap ini yang dikerjakan ialah menetapkan metode, teknik dan instrumen yang digunakan dalam pegumpulan data. Pemilihan metode dan teknik pengumpulan data akan mempengaruhi juga terhadap insttrumen pengumpul data yang digunakan. Ada beberapa jenis instrumen pengumpulan data yang dapat digunakan antara lain angket, wawancara, observasi, dokumentasi, skala sikap (rating scale). Analisis Data Evaluasi Setelah semua data (informasi) yang dibutuhkan dikumpulkan, maka langkah berikutnya segera diadakan pengolahan dan analisis data. Secara garis besar pelaksanaan analisis data meliputi langkah-langkah penting yaitu: 1). Langkah persiapan Kegiatan yang dilakukan dalam langkah persiapan antara lain: a). Mencek nama dan kelengkapan identitas responden. b). Mencek kelengkapan data. c). Mencek macam isian data. 2. Tabulasi data. Dalam kegiatan tabulasi data ini yang dilakukan antara lain: a). Scoring (pemberian skor). b). Coding (pemberian kode). c). Mengubah atau memodifikasi jenis data yang disesuaikan dengan jenis analisis yang akan digunakan. d). Memberi kode (coding) dalam hubungannya dengan pengolahan data jika menggunakan jasa komputer. 3. Penerapan data, yaitu mengolah data dengan menggunakan rumus-rumus atau aturan-aturan yang ada sesuai dengan pendekatan atau desain yang telah disusun. Yang dimaksudkan dengan data yang diterapkan dalam perhitungan adalah data yang disesuaikan dengan jenis data yaitu data deskrit, data ordinal, data interval dan data rasional. Pemilihan dan penentuan rumus-rumus yang digunakan kadang-kadang disesuaikan dengan jenis data, tetapi ada kalanya evaluator menentukan rumus, kemudian data yang diubah disesuaikan dengan rumus atau formula yang sudah dipilih. Penyusunan Laporan hasil Evaluasi Maksud pelaksanaan evaluasi program adalah membantu para pengambil keputusan sebagai pedoman dalam menetapkan keputusan terhadap kegiatan dalam program. Laporan hasil evaluasi disusun dengan maksud untuk memper-tanggungjawabkan tugas yang diberikan kepada tim evaluator. Tujuan laporan

adalah untuk memberikan informasi yang bermakna tentang pelaksnaan progran yang dievaluasi, agar pihak pengambil keputusan dapat mengambil keputusan dengan tepat dan cermat. Tujuan penyusunan laporan adalah untuk menyampaikan informasi yang bebarti kepada pengambil keputusan, maka penyusunan laporan hendaknya menyesuaikan dengan tujuan tersebut di atas. Informasi yang disampaikan harus setaraf dan relevan dengan tingkat pengambilan keputusan, teknis operasional, penentuan skala prioritas serta penentuan kebijakan. Satu ciri khusus pelaporan hasil evaluasi program adalah pertimbangan kesibukan para pengambil keputusan, di samping pertimbangan kepentingan program yang bersangkutan. Berkenaan dengan pertimbangan-pertimbangan tersebut, maka bentuk-bentuk pelaporan hasil evaluasi dibuat oleh tim evaluator sekurang-kiurangnya ada tiga, yaitu: Bentuk luas atau lengkap. Bentuk rimgkas tetapi padat isinya. Bentuk sempit, ringkas disertai pertimbangan-pertimbangan dengan memperhatikan segi-segi positif dan negatif dari program. Adapun isi laporan hasil; evaluasi program yang lengkap mencakup pokok-pokok penting sebagai berikut. Tujuan evaluasi program, yang didahului dengan menguraikan latar belakang dan alasan dilaksanakannya evaaluasi program. Problematika, berupa pertanyaan-pertanyaan yang akan dicari jawabannya melalui kegiatan evaluasi. Lingkup dan metodologi pelaksanaan evaluasi. Di dalam lingkup diuraikan aspek-aspek yang akan dievaluasi. Dalam metodologi diuraikan tentang populasi, sampel, sumber data, teknik pengumpulan data, teknik analisis dan interpretasi data. Pelaksanaan evaluasi program meliputi: Siapa tim evaluator selengkapnya disertai pembagian tanggungjawab masing-masing. Penjadwalan pelaksanaan evaluasi. Kegiatan menyusun laporan. Hasil evaluasi yang dengan jelas mengutarakan tujuan program, tolok ukur keberhasilan (kriteria), data yang diperoleh dilengkapi dengan informasi-informasi lain yang mendukung penemuan sehingga dengan mudah mengambil keputusan serta dapat memehami keberhasilan program. Penyajian yang jelas dan lengkap akan sangat bermanfaat bagi pengambil keputusan dalam menentukan tindak lanjut program. G. Glosarium Evaluasi Program, Proyek dan Material Acak: terjadi secara kebetulan. Analisis data sekunder: suatu analisis ulang data yang menggunakan prosedur yang sama atau lebih layak untuk memverifikasi kecermatan hasil-hasil analisis pertama atau untuk menjawab pertanyaan-pertanyaan yang berbada. Analisis isi: proses mengidentifikasi dan mendaftarsejalan dengan suatu kehematan klasifikasiide, perasaan, referensi pribadi, dan kategori ekspresi (pernyataan) lain yang terdapat dalam berbagai sumber-sumber informasi. Analisis kovarian: suatu teknik untuk menganalisisd data yang sering dipergunakan untuk membuat suatu keputusan tentang apakah perbedaan-perbedaan terjadi secara kebetulan. Analisis modus operandi: membuat kesimpulan akibat-akibat setelah menganalisis kejadiankejadian, proses, atau sifat yang berkaitan dengan akibat, analog dengan prosedur-prosedur pekerjaan detektif.

Analisis sistem: penemuan dan identifikasi sumber-sumber kesalahan atau varianilitas dalam suatu sistem, pengukuran tentang kesalahan-kesalahan ini, dan pengaturan unsur-unsur sistem untuk memperbaiki atau meningkatkan tampilan sistem. Analisis varian: suatu metode untuk menetapkan apakah perbedaan antar kelompok secara statiktik signifikan. Audience yang mempunyai hak tahu: sekelompok yang yang diberi hak untuk diberi tahu tentang hasil-hasil evaluasi. Bentuk-bentuk paralel: berbagai bentuk dari sebuah tes yang sengaja dibuat sedemikian rupa agar isi, panjang, pelaksanaan dan sifat-sifat tes serta skornya dapat dianggap seimbang atau dapat saling dipertukarkan. Bias: dukungan terhadap susuatu dengan satu sudut pandang saja. Data: material/bahan yang dikumpulkan selama proses (waktu) suatu evaluasi yang beguna sebagai dasar untuk informasi, pembahasan dan penarikan kesimpulan. Derajad signifikansi: suatu nilai probabilitas (kemungkinan) yang ditetapkan sebelum dipergunakan untuk menetapkan apakah suatu akibat terjadi secara kebetulan. Definisi opersional: duatu definisi tentang suatu istilah atau objek yang diperoleh dengan menyatakan pelaksanaan atas prosedur-peosedur yang dilakukan untuk membedakannya dari yang lain. Dimensi afektif: konsep psikologis yang menujukkan perasaan seseorang, emosi atau tingkat penerimaan atau penolakan suatu objek. Efektivitas biaya: sejauh mana suatu program, proyek atau materi pengajaran menghasilkan hasil yang sama atau lebih baik daripada pembanding yang harganya sama baik waktu, tenaga, dan sumber-sumbernya; atau sejauh mana suatu objek menghasilkan hasil yang sama dengan pembanding tentang biaya yang lebih sedikit. Ekstrapolasi: invertigasi sistematis (penyelidikan terarah) tentang harga/ nilai atau kebaikan suatu objek, misalnya suatu program, proyek, atau material pengajaran. Hak-hak generik: hak-hak yang dimiliki bersama oleh seluruh angggota kelompok. Harga: nilai suatu objek dalam hubungannya dengan suatu tujuan. Hipotesis nol: suatu hipotesis tidak adanya perbedaan atau tidak adanya pengaruh. Ijin, persetujuan yang diinformasikan: kesepakatan oleh para partisipan dalam suatu evaluasi yang mengijinkan penggunaan nama-nama mereka atau dan informasi rahasia yang mereka berikan dengan cara-cara tertentu, untuk tujuan-tujuan yang menyatakan dengan mengingat akibat-akibat (konsekuensi-konsekuensi) yang mungkin timbul menjelang pengumpulan/penyiaran informasi, dalam laporan evaluasi.

Informasi kualitatif: fakta-fakta dan hak-hak (tuntutan-tuntutan) yang disajikan dalam bentuk naratif, bukan bentuk angka. Informasi kuantitatif: fakta-fakta dan hak-hak (tuntutan-tuntutan) yang disajikan dengan angka (bilangan-bilangan). Instrumen: suatu alat ukur diambil, disessuaikan, atau dibuat untuk tujuan-tujuan evaluasi. Instrumen laporan diri sendiri: suatu alat dimana orang-orang membuat atau melaporkan putusan-putusan(pertimbangan-pertimbangan) tentang berfungsinya suatu proyek, program atau material pengajaran. Kaidah keputusan: suatu kaidah dalam memilih interpretasi-interpretasi (pilihan) atau tindakan dengan diberikan bukti-bukti tertentu (misalnya suatu kaidah yang mengatur para guru untuk meluluskan atau tidak meluluskan siswa-siswa dalam suatu mata-pelajaran berdasarkan pada skor tes mereka dan tampilan lain dalam matapelajaran itu, suatu pengaturan di mana suatu agen pemerintah (lembaga pemerintah) membuat rangking proposal-proposal proyek untuk pendanaannya berdasar pada isi proposal dan peringkat yang diberikan oleh juri; atau suatu pengaturan yang memungkinkan seorang evaluator memutuskan (menetapkan) bahwa perbedaan skor-skor tes dari siswa yang dikenal programprogram yang berlainan adalah signifikan secara statistik. Kasus ilustratif: suatu ilustrasi (gambaran) bagaaimana suatu ukuran baku mungkin dapat diterapkan, yang meliputi deskripsi tentang latar-latar tertentu, siatuasi di mana ukuran baku tidak dapat dipenuhi, dan suatu pembahasan tentang tidakan-tindakan korekstif yang akan mengakibatkan terpenuhinya ukuran baku. Kebutuhan-kebutuhan informasi: Syarat informasi dari para evaluator, klien, dan peminat penting lainnya yang harus dipenuhi oleh evaluasi. Kelayakan: sejauh mana evaaluasi layak untuk diterapkan dalam latar praktis. Kelebihan, jasa: keunggulan suatu objek sebagaimana diukur/dibuktikan dengan kebaikan intrinsik atau tampulan-tampilannya. Kelompok eksperimental: suatu kelompok subjek-subjek yang dikenai suatu perlakuan (ubahan bebas) dan pengaruhnya diukur (ubahan terikat). Kadang-kadang, perbandingan din\buat antara pengaruh tersebut dengan pengaruh yang diamati pada kelompok kontrol (kelompok yang tidak dikenai perlakuan). Kelompok lawan/pembela: sekelompok orang yang masuk dalam uji/pemeriksaan silang tentang rencana, strategi, atau tujuan yang berlainan/berlawanan. Kelompok kontrol: suatu kelompok yang semirip mungkin dengan kelompok eksperimen (suatu kelompok yang dikenai program, proyek, atau material pengajaran) dan dikenai semua kondisi penelitian kecuali program, proyek, atau material pengajaran yang sedang diveluasi. Kelompok konvergen: suatu kelompok yang bertanggungjawab atas pemasukan sifat-sifat yang penting dari strategi alternatif yang diusulkan tim pembela, ke dalam strategi yang telah disetujui.

Kelompok pembanding: suatu kelompok yang melengkapi suatu basis (dasar) berlawanan/berbeda dengan kelompok eksperimental (misalnya, kelompok orang yang sedang berpartisipasi dalam suatu program atau proyek yang sedang dievaluasi). Kelompok pembanding ini tidak dikenai perlakuan (ubahan bebas), jadi kelompok ini adalah yang mengakibatkan/menimbulkan suatu perangkat untuk perbandingan dengan kelompok eksperimen, yang menerima treatmen. Klarifikasi Nilai-nilai: prosedur-prosedur yang digunakan untuk membantu kelompokkelompok untuk mengenali berbagai nilai yang dianut dalam kelompok-kelompok itu, untuk melihat konflik antara nilai-nilai itu, dan untuk mempertimbangkan bagaimana konflik-koflik itu dapat diatasi/dipecahkan. Klien: individu, kelompok atau organisasi yang mempekerjakan (mengupah) evaluator. Kemampuan-kemampuan Word Attack: alat yang memungkinkan seseorang mengenali dan memahami arti dari suatu kata. Kemampuan kognitif: konsep psikologis yang menunjukkan suatu proses seperti mengamati, mengetahui, mengenali, membuat konsep, memutuskan dan bernalar. Kemudahan/jalan masuk data: di mana evaluator diijinkan (diperkenankan) memper-oleh data selama proses (waktu) evaluasi. Kenirnamaan: tindakan evaluator untuk meyakinkan bahwa identitas subjek evaluasi tidak diutarakan selama proses maupun dalam laporan-laporan. Kode Informasi: mentransfer seperangkat data atau butir ke dalam seperangkat simbol-simbol kuantitatif atau kualitatif. Koefisien: suatu nilai yang menyatakan derajad atau sifat atau hubungan yang ditemukan dalam peristiwa khusus, misalnya koefisien korelasi adalah nilai yang menyatukan derajad dua buah variabel yang berubah-ubah secara kait-mengait. Kovariat: suatu perbedaan yang terjadi secara bersama-sama dengan perbedaan pada minat (evaluasi) utama dan diukur dengan tujuan membuat penysuaian-penyesuaian yang terjelaskan pada perbedaan pada minat utama (misalnya, mengukur hasil pretes dari dua kelompok agar supaya skor-skor postesnya dapat disesuaikan sehingga mereka dapat memperhitungkan peerbedaan-perbedaan yang ada antara kelompok-kelompok sebelum perlakuan dikenakan pada salah satu kelompok. Kontek suatu evaluasi: kombinasi unsur-unsur yang menyertai studi yang mungkin mempengaruhi hasil-hasil studi. Unsur-unsur ini meliputi lokasi geografis, waktu, iklim sosial politik, dalam daerah itu dan dalam waktu yang bersamaan aktivitas-aktivitas profesional lain yang relevan yang sedang berkembang dan kondisi-kondisi ekonomi penting yang ada. Kontrak: kesepakatan lisan atau tertulis antara evaluator dan klien, yang terikat hukum. Hal ini merupakan saling pengertian tentang harapan dan tanggungjawab untuk kedua belak pihak.

Korelasi: suatu ukuran statistik tentang derajad hubungan antara dua ubahan atu lebih. Dinyatakan dalam suatu bentuk yang dapat bervariasi antara -1.00 ke +1.00. Keputusan: di mana evaluasi telah dilaksanakan dengan cara yang tidak bertentangan dengan prinsip-prinsip cita-cita tertinggi (termasuk etika profesional, hukum perdata, kode moral, dan kesepakatan-kesepakatan yang telah dicapai). Kesimpulan-kesimpulan suatu evaluasi: keputusan-keputusan akhir dan saran-saran. Kesulitan, perangkap, jebakan: suatu kesulitan yang tidak gampang dikenali, yang dianggap berkaitan dengan ukuran baku. Kesalahan-kesalahan nin mungkin terjadi karena ketidaktahuan tentang makna dan tujuan ukuran baku. Ketelitian/keseksamaan: kesahihan evaluasi tentang suatu program, proyek atau material. Ketersamarataan: sejauh mana informasi tentang suatu program, proyek atau material pengajaran yang dikumpulkan dalam suatu latar dapat dipergunakan untuk memperoleh suatu keputusan sahih tentang bagaimana hal itu akan tampil/terlaksana dalam latar lain. Kriteria: ukuran baku di mana sesuatu dapat dinilai. Laporan eksekutif: suatu ringkasan laporan yang telah disesuaikan, ditujukan pada kepentingan-kepentingan dan masalah-masalah seseorang yang fungsinya menyelenggarakan suatu program atau proyek pendidikan. Mengulangi: mengulangi suatu evaaluasi dengan tidak mengubah hal-hal yang penting. Mengkondisi: mengaitkan suatu tanggapan dengan suatu rangsangan yang tidak terhubungkan sebelumnya melalui penyajian yang diulang-ulang terhadap suatu objek pada waktu yang sama (hampir sama) dengan rangsangan lain yang secara normal menghasilkan tanggapan tersebut. Menyamakan: suatu proses percobaan yang membagi subjek sehingga kelompok-kelompok mempunyai kemampuan dan kelebihan yang sama. Norma: sebuah nilai tunggal, atau suatu distribusi nilai-nilai yang membentuk tampilan khusus dari suatu kelompok tertentu. Objek evaluasi: apa yang sedang dievaluasi, misalnya, suatu program, proyek, atau materi pengajaran. Otoritas pemeriksa/edit: Hak evaluator memeriksa (mengedit) laporan-laporan evaluasi sebelum disebarluaskan (didiseminasikan). Pelaksana: siapa saja yang menerima dan melaksanakan tanggungjawab merancang, melaksanakan, dan melaporkan evaluasi. Pemantauan: suatu pemeriksaan atau verivikasi mandiri bebas tentang kualitas suatu rencana evaluasi, kelayakan apabila diterapkan, ketelitian/keseksamaan hasil-hasilnya, dan kesahihan kesimpulan-kesimpulannya.

Perkiraan/taksiran/penilaian: tindakan menetapkan kedudukan suatu objek terhadap ubahanubahan minat. Sebagai contoh, skor-skor kasar dari testing dan rapor siswa. Peminat: orang-orang (mereka) yang akan dipandu oleh evaluasi dalam membuat keputusankeputusan dan orang-orang lain yang berperanserta dalam suatu evaluasi. Pencarian arsip: suatu pemeriksaan/pengujian catatan-catatan, laporan-laporan, dokumendokumen yang berkaitan dengan objek evaluasi. Pengadilan Juri untuk proyek-proyek: evaluasi proyek dipolakan sesudah pengadilanpengadilan juri di dalam prosedur-prosedur untuk menjernihkan, mengenali dan mengukur bukti-bukti, dan mencapai simpulan. Acapkali dikenal sebagai evaluasi model adversary. Pengausan/pengurangan: hilangnya subjek dari suatu sampel yang telah ditetapkan selama proses evaluasi. Penguatan: menguatkan suatu cara bertindak/bertingkah laku yang dipelajari, dengan pengaruh-pengaruh internal dan eksternal. Penyebaran: komunikasi dengan perbuatan-perbuatan tertulis, lisan, dan atau pelaporan audio visual dari para evaluator untuk memperkembangkan pengetahuan (pengertian) tentang temuan-temuan evaluasi di antara peminat yang mempunyai hak untuk mengetahuinya.

Populasi: semua orang dalam kelompok yang dapat dikenai simpulan-simpulan dari suatu studi yang akan diharapkan. Perangkat keras: data processing; komponen-komponen (unsur-unsur) fisik, seperti misalnya suatu komputer dan mesin keypunch, dari suatu sistem pemrosesan data sebagai lawan dari komponen-komponen instruksional (berhubungan dengan isi). Perbedaan tidak signifikan: suatu label yang mecerminkan suatu keputusan bahwa perbedaan teramati antara dua ststistik terjadi secara kebetulan. Perbedaan signifikan: suatu istilah yang mencerminkan keputusan bahwa suatu perbedaan yang teramati di antara dua statistik tidak terjadi secara kebetulan. Peringatan: suatu pembahsan tentang tawar menawar yang mungkin perlu didalam menerapkan ukuran baku. Semua ini adalah kesalahan-kesalahan yang disebabkan oleh semangat yang berlebihan dalam menerapkan ukuran baku. Petunjuk, acuan, panduan: suatu anjuran/saran prosedural/berprosedur dimaksudkan untuk membantu para evaluator dan para peminatnya agar dapat memenuhi persyaratan ukuran baku evaluasi; suatu strategi untuk menghindari kesalahan dalam menerapkan ukuran baku. Rancangan evaluasi: suatu perwujudan seperangkat keputusan-keputusan yang menetapkan bagaimana suatu evaluasi akan dilaksanakan; misalnya, jadwal pengumpulan data, jadwal pelaporan, pertanyaan-pertanyaan (evaluasi) yang akan disampaikan, rencana analisis,

rencana managemen, dan lain-lain. Rancangan-rancangan dapat berupa preordinat (ditetapkan sebelumnya secara tepat) atau emergen (kembang). Rancangan eksperimental: perencanaan suatu eksperimen, meliputi pemilihan subjek-subjek, tatanan perlakukan administratif eksperimental, jenis perlakuan, prosedur yang dipergunakan, dan perekaman/pencatatan data (dengan referensi khusus pada analisis statistik khusus yang akan diterapkan). Rancangan kembang, rancangan tumbuh kembang: suatu rencana terapan di mana spesifikasi langkah tergantung pada hasil-hasil langkah sebelumnya, kadangkala juga dikenal sebagai rancangan-mengalir atau rancangan menggelinding. Regresi terhadap rerata: suatu kecenderungan skor peserta di atas atau dibawah rata-rata dari suatu distribusi dalam pretes (tes awal) terhadap skor yang lebih mendekati mean dalam postes (pasca tes). Reliabilitas/ketelitian terhadap tes-retes: di mana pelaksanaan tes yang sama terhadap kelopmpok subjek-subjek yang sama menghasilkan hasil-hasil yang ajeg. Rerata matematik: suatu ukuran tendensi sentral yang dihitung dengan membagi jumlah semua nilai dengan banyaknya nilai. Ringkasan eksekutif: suatu pernyataan teringkas, yang dirancang untuk menyediakan suatu tinjauan cepat dari laporan evaluasi yang lengkap. Riset eksperimental: penyelidikan ilmiah di mana peneliti memanipulasi (merubah) dan mengontrol satu atau lebih ubahan bebas untuk menentukan pengaruh-pengaruhnya pada ubahan terikat (akibat). Sampel: bagian dari suatu populasi evaluasi. Sampel acak: menarik/mengambil sejumlah butir apa saja dari suatu kelompok atau populasi yang lebih besar sehingga setiap butir secara individual memiliki kesempatan yang sama (kebebasan yang sama) sebagaimana lainnya untuk dipilih. Sampel acak berjenjang/bertingkat: suatu pengelompokan yang dieproleh dengan membagi populasi ke dalam suatu bilangan dari kelas-kelas yang tidak jumbuh atau kategori-kategori yang secara bersama-sama mencakup semua kasus, diikuti dengan mengambil kasus-kasus dengan cara acak dari dalam kategori-kategori itu, dan bilangan/angka/jumlah itu harus proporsional dibandingkan dengan jumlah keseluruhan. Skor-skor tambahan: perbedaan-perbedaan antara tampilan-tampilan siswa dalam suatu tes dengan tampilan-tampilan berikutnya pada tes yang sama. Sosiodrama: pendramatisasian dan permainan peran yang digunakan untuk mengajar (mengajari) seorang peminat tentang temuan-temuan suatu evaluasi dan untuk menggambarkan aplikasi-aplikasi potensialnya. Sosok sekolah: suatu deskripsi/gambaran (grafik, angka, atau ubahan-ubahan) tentang status suatu sekolah dalam hubungannya dengan seperangkat konsep atau ubahan.

Sponsor: individu, kelompok atau organisasi yang membiayai evaluasi. Statistik: bilangan angka ringkas yang secara khusus dipergunakan untuk menggambar-kan ciri-ciri suatu sampel. Studi berseri waktu: suatu studi di mana pengukuran secara periodik diperoleh menjelang dan selama pengenalan suatu intervensi atau perlakuan, agar supaya memperoleh kesimpulan tentang akibat intervensi itu. Studi-studi eksperimen komparatif: studi yang memberi tugas terstruktur tentang suatu program, proyek atau materi pengajaran kepada sekelompok orang dan membandingkan hasilnya dengan kelompok kain yang tidak dikenai program, proyek atau material pengajaran diamaksud. Studi kasus: suatu deskripsi mendalam dan terinci tentang sebuah proyek, program atau material pengajaran tunggal dalam hubungannya dengan lingkungannya. Sumber-sumber informasi: orang-orang, kelompok-kelompok dan dokumen-dokumen dari mana data diperoleh. Studi simulasi: suatu studi di mana akibat (pengaruh-pengaruh) yang mungkin dari pemecahan-pemecahan alternatif terhadap suatu masalah diidentifikasi dengan mengggunakan gambaran simbolik (lambang) dari aktivitas, situasi atau lingkungan. Teknik delphi: suatu metode untuk memperoleh konsensus (kesepakatan) kelompok dengan cara menggunakan suatu seri kuesioner per pos dan balikan yang dikontrol pada respondenresponden yang dilakukan secara terus menerus sampai kesepakatan dicapai. Terminal: suatu alat yang dihubungkan dengan komputer lewat jaringan-jaringan telepon, yang memungkinkan penggunaan komputer dari lokasi-lokasi yang secara fisik terpisah dengan komputernya. Tes acuan tujuan: suatu tes yang skor-skornya lebih cenderung mengacu kepada pencapaian tujuan-tujuan yang akan diukur oleh jumlah tes, daripada tampilan pada tes oleh orang-orang dari kelompok pembanding. Tes acuan patokan: tes yang skor-skornya dinterpretasikan dengan mengacu pada tampilan yang telah ditetapkan dan tidak mengacu pada tampilan-tampilan dari kelompok pembanding. Tes akhir: suatu tes untuk menetapkan tampilan sesudah penyelenggaraan/pelaksanaan suatu program, proyek atau materi pengajaran. Tes awal: suatu tes untuk menetapkan tampilan sebelum penyelenggaraan/pelaksanaan suatu program, proyek atau materi pengajaran. Tes lapangan: penyelidikan suatu program, proyek atau material pengajaran dalam suatu latar sebagaimana keadaannya bilamana dipergunakan. Uji atau tes lapangan mungkin beranjak dari penyelidikan-penyelidikan primitif awal sampai penyelidikan-penyelidikan sumatif skala penuh.

Tes pilot: suatu studi/penelitian awal yang singkat atau disederhanakan untuk menguji coba metode-metode agar dapat mempelajari apakah suatu proyek atau program mempunyai kemungkinan besar dalam membuahkan hasil yang berharga. Tes yang dibakukan: suatu sampel butir-butir atau situasi-situasi dengan pentunjuk yang tepat/jelas/pasti untuk melaksanakan dan menskor, kebanyakan disertai dengan data keterandalan dan kesahihan, kadang-kadang dengan informasi normatif. Tinjauan, tinjauan menyeluruh: suatu pernyataan konseptual atau pengenalan yang memberikan definisi-definisi esensial, melengkapi suatu cara berpikir yang umum; dan menyajikan prosedur-prosedur teringkas, masalah-masalah umum, dan kesulitan-kesulitan tertentu yang diterapkan. Suatu penjelasan ukuran baku. Tim-tim pembeli: kelompok orang yang terlibat bersama mengembangkan strategi-strategi yang kompetitif untuk mencapai tujuan-tujuan yang telah ditentukan. Tujuan-tujuan dalam studi evaluasi: tujuan-tujuan evaluasi (misalnya untuk memutuskan kelebihan-kelebihan relatif dari buku-buku teks, atau untuk memantau dan melaporkan kelancaran pelaksanaan suatu rencana proyek, dan manfaat dari laporan yang dimaksudkan, misalnya untuk membantu guru memilih suatu buku teks atau untuk membantu suatu wilayah sekolah menangani suatu proyek). Ubahan: suatu ciri yang dapat memuat nilai-nilai yang berbeda-beda. Ubahan terikat: suatu ukuran (misalnya, tampilan siswa dalam suatu tes) yang dasumsikan/dianggap/diduga akan berbeda-beda sebagai akibat dari suatu pengaruh (sering dianggap sebagai ubahan bebas/independent variable), seperti misalnya pengalaman instruksional siswa. Ukuran-ukuran,pengukur-pengukur yang cermat/teliti: suatu ukuran (pengukur) yang menyertai/melengkapi/ membekali indikasi-indikasi/pentujuk-petunjuk ajeg tentang ciri-ciri yang sedang diukur. Unit analisis: suatu benda tunggal, orang, atau kelompok yang merupakan anggota yang merupakan unsur pokok dan terpisah dari keseluruhan yang lebih inklusif, suatu anggota dari suatu kumpulan yang merupakan bagian terkecil yang memiliki eksistensi terpisah yang secara jelas dapat ditegaskan dan yang secara normal membentuk suatu unsur-unsur dasar organisasi di dalam kumpulan; suatu unsur terkecil di mana ukuran-ukuran (pengukurpengukur) diambil dan dianalisis. Ukuran baku: suatu prinsip yang secara umum disepakati ahli-ahli dalam pelaksanaan evaluasi dan penggunaan evaluasi sebagai ukuran (pengukur) nilai atau kualitas evaluasi. Utilitas: sejauh mana hasil evaluasi bermanfaat dan laporan yang disebarkan dapat memberitahu peminat terkait dan memiliki dampak yang menguntungkan mereka. Validitas: kekuatan tentang penggunaan dan interpretasi suatu ukuran (pengukur). Variat: ukuran kuantitatif di suatu ubahan.

Wakil pihak ketiga: pihak ketiga, yang dengan kesepakatan, mengontrol/memeriksa informasi-informasi terttentu, seperti misalnya nama-nama tes, yang diserahkan oleh pihak pertama, sehingga informasi ini tidak diperoleh pihak kedua.

Sumber Pustaka: Arikunto, S. 1988. Evaluasi Program Pendidikan, Jakarta: Ditjendikti, P2LPTK, DEPDIKBUD. Beauchamp, G. A. 1975. Curriculum Theory. Wilmette Illinois: Kegg Press. Cronbach, L. E. 1983. Designing Evaluating of Educational and Social Program. San Francisco: Jossey Bass. Flagg, B.N. 1990. Formative Evaluation for Educational Technology. Lawrence Erlbaum Associated, Publishers. Gronlund, N. E. 1985. Measurement Evaluation in Teaching. (5Th .ed.) New York: MacMillan Publishing Company. Guba, E. G. & Lincoln, J. S. 1985. Effective Evaluation. San Fransisco: Jose Bass Publishers. Hamalik, O. 1981. Evaluasi Kurikulum. Bandung: Hasan, S. H. 1988. Evaluasi Kurikulum. Jakarta: P2LPTK, Ditjendikti, Depdibud. House, R. E. 1980. Evaluating with validity. London: Sage Publication. Isaac, S. & William, B.M. 1984. Handbook in Research and Evaluation For education and Behavioral Sciences (2nd .Ed.).California:EDITS Publishers. Kaufman, R. & Thomas, S. 1980. Evaluation Without Fear. New York: New Viewpoints, A Division of Franklin Watts. Nunally, J. C. 1970. Introduction to Psychological Measurement. Tokio: Kogasuka Co. Possavac, D.J., & Carey, R.G. 1985. Program Evaluation; Methods and Case Studies. New Jersey: Prentice-Hall, Englewood Cliffts. Rose, C.,& Nyre, G.F. 1977. The Practice of Evaluation. New Jersey: Educational Testing Service. Stake, R. E. & Easley, J.A. 1978. Case Studies in Science Education: Boolet O, Overview. Illinois: University of Illinois at Urbana-Champaign, Center for Instructional Research and Curriculum Evaluation Commite on Culture and Cognition. Slavin, R. E. 1997. Educational Psychology, Theori and Practice. London: Allyn

and Bacon. The Joint Committee on Standards for Educational Evaluation, 1981. Standards for Evaluations of Educational Programs, Projects, and Materials. New York: McGraw-Hill Book Company. Zais, R.S. 1976. Curriculum: Principles and foundations. New York: Harper &Row.

You might also like