You are on page 1of 28

Ulasan penelitian Penggunaan rubrik penilaian: Keandalan, validitas

dan konsekuensi pendidikan
Anders Jonsson *, Gunilla Svingby
Sekolah Pendidikan Guru, Malmo University, SE-205 06 Malmo, Swedia
Diterima 3 Agustus 2006; menerima dalam bentuk revisi 3 Mei 2007; diterima 4 Mei 2007
Abstrak
Beberapa manfaat menggunakan rubrik skor dalam penilaian kinerja telah diusulkan, seperti peningkatan konsistensi mencetak
gol, kemungkinan untuk memfasilitasi penilaian yang valid dari kompetensi yang kompleks, dan promosi pembelajaran. Makalah
ini meneliti apakah bukti untuk klaim ini dapat ditemukan dalam literatur penelitian. Beberapa database digeledah untuk
penelitian empiris pada rubrik, sehingga total 75 studi yang relevan untuk ulasan ini. Kesimpulan adalah bahwa: (1) skor
terpercaya dari penilaian kinerja dapat ditingkatkan dengan penggunaan rubrik, terutama jika mereka analitik, topik khusus, dan
dilengkapi dengan eksemplar dan / atau pelatihan penilai; (2) rubrik tidak memfasilitasi penilaian yang valid dari penilaian
kinerja per se. Namun, penilaian yang valid dapat difasilitasi dengan menggunakan kerangka yang lebih komprehensif validitas
saat memvalidasi rubrik; (3) rubrik tampaknya memiliki potensi mempromosikan pembelajaran dan / atau meningkatkan
instruksi. Alasan utama untuk potensi ini terletak pada kenyataan bahwa rubrik membuat harapan dan kriteria eksplisit, yang juga
memfasilitasi umpan balik dan penilaian diri. © 2007 Elsevier Ltd All rights reserved.
Kata kunci: penilaian Alternatif; Penilaian kinerja; Mencetak rubrik; Keandalan;validitas
Isi
1. Pendahuluan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . 131 2. Prosedur dan
data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 3. Hasil. . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 3.1.
Keandalan mencetak gol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
3.1.1. Kehandalan intra-penilai. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
3.1.2. Reliabilitas antar penilai. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
3.1.3. Apakah penggunaan rubrik meningkatkan konsistensi mencetak gol? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 3.2.
Penghakiman berlaku dari penilaian kinerja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 3.2.1.
Dapat rubrik memfasilitasi penilaian yang valid dari penilaian kinerja? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 3.3. Promosi
belajar siswa dan / atau kualitas pengajaran. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 3.3.1. Diri dan rekan
penilaian. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 3.3.2. Perbaikan mahasiswa
dan pengguna persepsi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 3.3.3. Apakah penggunaan rubrik
mempromosikan belajar dan / atau meningkatkan instruksi? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
* Penulis Sesuai.
Alamat E-mail: anders.jonsson@lut.mah.se (A. Jonsson).
1747-938X / $ - melihat hal depan © 2007 Elsevier Ltd All rights reserved. doi: 10,1016 / j.edurev.2007.05.002
Tersedia online di www.sciencedirect.com
Penelitian Pendidikan 2 (2007) 130-144

A. Jonsson, G. Svingby / Penelitian Pendidikan 2 (2007) 130-144 131
4. diskusi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
139 5. Kesimpulan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . 141 Referensi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . 141
1. Pendahuluan
Artikel ini studi yang berhubungan dengan masalah menilai kompetensi yang kompleks dengan cara yang
kredibel. Meskipun arti "kredibilitas" dapat bervariasi dalam situasi yang berbeda dan untuk tujuan penilaian yang
berbeda, penggunaan rubrik scoring semakin dilihat sebagai sarana untuk memecahkan masalah ini.
Hari ini penilaian dalam pendidikan tinggi akan melalui pergeseran dari pengujian tradisional pengetahuan
terhadap "penilaian untuk pembelajaran" (Dochy, Gijbels, & Segers, 2006). Budaya penilaian baru bertujuan menilai
tingkat tinggi proses dan kompetensi bukan pengetahuan faktual dan keterampilan kognitif tingkat yang lebih
rendah, yang telah menyebabkan minat yang kuat dalam berbagai jenis penilaian kinerja berpikir. Hal ini disebabkan
keyakinan bahwa tugas terbuka diperlukan dalam rangka untuk memperoleh berpikir tingkat tinggi siswa.
Penilaian kinerja dapat diposisikan di ujung kontinum yang mewakili keterbukaan memungkinkan respon siswa,
sebagai lawan penilaian pilihan ganda (Messick, 1996). Menurut Black (1998), penawaran penilaian kinerja dengan
"kegiatan yang dapat model langsung dari realitas" (hal. 87), dan beberapa penulis menulis tentang penilaian otentik
dan tugas yang berkaitan dengan "dunia nyata". Gagasan realitas bukanlah cara untuk melarikan diri dari kenyataan
bahwa semua pembelajaran adalah produk dari konteks yang terjadi, melainkan mencoba untuk lebih mencerminkan
kompleksitas dunia nyata dan memberikan data yang lebih valid tentang kompetensi siswa (Sayang- Hammond &
Snyder, 2000). Sebagai akibatnya, penilaian kinerja dirancang untuk menangkap aspek yang lebih sulit dipahami
belajar dengan membiarkan siswa memecahkan masalah realistis atau otentik.
Ketika memperkenalkan penilaian kinerja, masalah apakah pengamatan perilaku kompleks dapat dilakukan
dengan cara yang kredibel dan dapat dipercaya muncul. Masalah ini yang paling mendesak untuk penilaian berisiko
tinggi, dan lembaga menggunakan penilaian kinerja untuk keputusan-saham tinggi sehingga dihadapkan dengan
tantangan untuk menunjukkan bahwa bukti yang berasal dari penilaian ini adalah baik valid dan reliabel. Penilaian
kelas bertujuan untuk membantu belajar siswa kurang dipengaruhi oleh panggilan ini untuk tingkat kehandalan yang
tinggi tetapi penilaian masih perlu berlaku. Sejak tugas kinerja sering dinilai dengan bimbingan rubrik penilaian,
desain yang efektif, pemahaman, dan penggunaan yang kompeten dari rubrik yang penting, tidak peduli apakah
mereka digunakan untuk-saham yang tinggi atau kelas penilaian-meskipun fokus utama dari dua perspektif ini akan
berbeda.
Dari perspektif penilaian berisiko tinggi, Stemler (2004) berpendapat bahwa ada tiga pendekatan utama untuk
menentukan akurasi dan konsistensi mencetak gol. Ini adalah perkiraan konsensus, mengukur sejauh mana penanda
memberikan skor yang sama untuk kinerja yang sama; konsistensi memperkirakan, mengukur korelasi skor antara
penilai; estimasi pengukuran, pengukuran misalnya sejauh mana skor dapat dikaitkan dengan scoring umum
daripada komponen error.
Tampaknya lebih sulit untuk menyatakan apa yang harus diperlukan untuk penilaian dengan tujuan formatif, serta
untuk kombinasi dari penilaian formatif dan sumatif. Meskipun demikian, sebagian besar pendidik dan peneliti
tampaknya menerima bahwa penggunaan rubrik menambah kualitas penilaian. Misalnya, Perlman (2003)
berpendapat bahwa penilaian kinerja terdiri dari dua bagian: "tugas dan satu set kriteria penilaian atau rubrik
penilaian" (p 497.). Istilah "rubrik" Namun, digunakan dalam beberapa cara yang berbeda: "tidak mungkin ada kata
atau ungkapan yang lebih membingungkan daripada istilah 'rubrik'. Dalam literatur pendidikan dan kalangan praktisi
pengajaran dan pembelajaran, kata 'rubrik' dipahami umumnya berkonotasi alat penilaian sederhana yang
menggambarkan tingkat kinerja pada tugas tertentu dan digunakan untuk menilai hasil di berbagai konteks berbasis
kinerja dari TK sampai perguruan tinggi (K-16) pendidikan "(Hafner & Hafner, 2003, hal. 1509).

2001. Ini berlaku untuk kedua penilaian-saham yang tinggi dan penilaian untuk belajar. Ini termasuk kriteria untuk wisatawan dimensi penting dari kinerja. Perlman. 2003). Busching. penilai memberikan skor untuk masing-masing . serta standar pencapaian untuk kriteria tersebut. penilai membuat penilaian yang menyeluruh tentang kualitas kinerja. Definisi luas dari rubrik pendidikan menyatakan bahwa itu adalah alat scoring untuk wisatawan kualitatif otentik atau kompleks pekerjaan siswa. Dua kategori utama dari rubrik dapat dibedakan: holistik dan analitis. 1998. Dalam mencetak gol holistik. Rubrik mengatakan kedua instruktur dan siswa apa yang dianggap penting dan apa yang harus dicari ketika menilai (Arter & McTighe. sementara dalam mencetak gol analitik.

Hal ini diasumsikan bahwa ketegasan kriteria dan standar yang mendasar dalam memberikan siswa dengan umpan balik kualitas. dan penggunaan rubrik sebagai alat untuk penilaian kinerja (Hafner & Hafner. 1998. Pencarian rubrik / rubrik pendidikan / rubrik scoring memberi ribuan hits. serta antara penilai yang berbeda. Tidak ada batas waktu ditetapkan. bila digunakan oleh siswa untuk menilai kinerja mereka sendiri. seperti ScienceDirect. Dan meskipun manfaat yang disebutkan di atas rubrik mungkin tampak masuk akal. untuk menggambarkan berbagai tingkat pencapaian. Apakah penggunaan rubrik meningkatkan keandalan mencetak gol? 2. yang menggambarkan bahwa kata tertanam dalam kosakata guru dan pendidik guru. 1998). Hanya studi eksplisit melaporkan penelitian . 1998). tanpa mengorbankan kebutuhan untuk keandalan (Morrison & Ross. 1998). Ada beberapa manfaat menggunakan rubrik dinyatakan dalam literatur. tampaknya ada sedikit informasi dalam literatur tentang efektivitas rubrik. Jangkar dapat ditulis deskripsi atau. G. yang dipandang oleh tubuh sastra yang menumpuk dalam dekade terakhir pada desain. Apakah penggunaan rubrik mempromosikan belajar dan / atau meningkatkan instruksi? 2. atau contoh. Orsmond dan Merry (1996) berpendapat bahwa siswa mungkin tidak menemukan kualitas dalam pekerjaan mereka bahkan jika mereka tahu apa yang harus dicari. Efek potensial ini difokuskan dalam penelitian tentang formatif. Wiggins. Akademik Cari Elite / EBSCO. adalah promosi pembelajaran. Scoring analitis berguna di dalam kelas karena hasil dapat membantu guru dan siswa mengidentifikasi kekuatan siswa dan kebutuhan belajar. Efek positif lain yang sering disebutkan adalah kemungkinan untuk memberikan penilaian yang valid dari penilaian kinerja yang tidak dapat dicapai dengan cara tes tertulis konvensional. karena mereka memiliki rasa yang kurang berkembang dari bagaimana menafsirkan kriteria. diri. PsychINFO. Namun. Jonsson. Salah satu efek banyak dikutip penggunaan rubrik adalah konsistensi peningkatan penghakiman ketika menilai kinerja dan tugas-tugas otentik. Perbedaan antara instruktur dan penilaian siswa mungkin sehingga baik dikaitkan dengan pemahaman siswa lebih rendah dari kriteria yang digunakan dan tidak kinerja seperti itu. 2001. tetapi juga sering disebutkan dalam studi pada penilaian sumatif.132 A. Web of Science. serta di formatif. Oleh karena ia berpendapat bahwa rubrik harus dilengkapi dengan "jangkar". utilitas mungkin dibatasi oleh kualitas rubrik penilaian yang digunakan untuk mengevaluasi kinerja siswa. dan pada konferensi pendidikan. dan dalam beberapa database lain. dan rubrik bisa dengan cara ini mempromosikan pembelajaran siswa (Arter & McTighe. konstruksi. Rubrik tampaknya menjadi topik yang populer dalam literatur pendidikan. yang tidak selalu terjadi ketika penggunaan rubrik berpendapat dalam perdebatan umum. rubrik dapat diklasifikasikan sebagai tugas tertentu atau generik. makalah konferensi. Tulisan ini bertujuan untuk menyelidiki apakah bukti dapat ditemukan dalam literatur penelitian tentang efek rubrik di-saham yang tinggi sumatif. 2003. 1998. Kertas akan mencoba untuk menjawab pertanyaan-pertanyaan berikut: 1. Rubrik diasumsikan untuk meningkatkan konsistensi mencetak gol di seluruh siswa. dilengkapi dengan pencarian di Google Scholar dan berbagai daftar reference. Wiggins. Pencarian kemudian dipersempit hanya untuk menyertakan artikel peer-review di jurnal. bukti penelitian untuk mendukung mereka dibutuhkan. Bisa rubrik memfasilitasi penilaian yang valid dari penilaian kinerja? 3. Bahkan jika penggunaan rubrik adalah mendapatkan medan. pemikiran. penilaian. JSTOR dan Blackwell Synergy. Svingby / Penelitian Pendidikan 2 (2007) 130-144 dimensi sedang dinilai dalam tugas. Selanjutnya. murah dan akurat. Wiggins. laporan penelitian dan disertasi. Sepertinya rubrik menawarkan cara untuk memberikan validitas yang diinginkan dalam menilai kompetensi yang kompleks. dan penilaian sejawat. 2003). Prosedur dan data Penelitian rubrik untuk menilai kinerja awalnya mencari online di Sumber Daya Pendidikan informal mation Pusat (ERIC). Scoring holistik biasanya digunakan untuk penilaian skala besar karena diasumsikan mudah. sebenarnya sampel kerja (Busching. Efek penting lain dari penggunaan rubrik sering terdengar dalam debat umum. tugas. Perlman. bahkan lebih baik.

dari Applied Pengukuran dalam Pendidikan. penelitian yang berhubungan dengan jenis lain dari kriteria atau script untuk penilaian telah dikeluarkan. di sisi lain. Hanya tujuh artikel yang diterbitkan sebelum tahun 1997. Hal ini mengurangi jumlah kertas dimasukkan ke 75. Dari jumlah total studi ditinjau. dan panduan tentang cara menggunakan rubrik . dan International Journal of Pendidikan Sains .empiris di mana rubrik digunakan untuk penilaian kinerja dimasukkan. Distribusi mengindikasikan bahwa rubrik adalah masalah penelitian cukup baru- baru ini. termasuk sejumlah besar artikel pada pengembangan rubrik. narasi dari sekolah atau perguruan tinggi. Gagasan ini diperkuat oleh fakta bahwa studi ditemukan dalam 40 jurnal yang berbeda. dan Penilaian Pendidikan lebih Menilai menulis. dan hanya segelintir ini telah menerbitkan lebih dari satu studi pada subjek. Selain itu. makalah pendapat tentang manfaat dari rubrik. Berbagai jurnal. mayoritas diterbitkan selama dekade terakhir.

Sedangkan pengujian tradisional. berfokus terutama pada keandalan pengukuran. Kami pertama kali akan memberikan gambaran tentang artikel Ulasan dan menganalisis mereka sesuai dengan pengukuran yang digunakan. Selain alasan yang lebih jelas untuk perbedaan pendapat.1. Howell. jenis dan fokus tugas kinerja. 1996). Mayoritas studi terutama tertarik dalam mengevaluasi rubrik sebagai bagian dari sistem penilaian.banyak yang guru dan siswa guru . dan dengan demikian harus dibuat dengan pertimbangan tertarik dan didasarkan pada beberapa jenis bukti (Wiggins. atau dalam konsistensi satu penilai tunggal. menulis esai. dan bahwa variabilitas tugas-sampling telah terbukti menjadi ancaman serius bagi kehandalan dalam penilaian kinerja (Shavelson et al. Ada berbagai cara di mana variabilitas skor penilaian bisa datang. Perlu dicatat. bahwa sumber-sumber lain dari variabilitas mungkin memiliki dampak yang lebih besar pada keandalan. Keandalan mencetak Kebanyakan penilaian memiliki konsekuensi bagi mereka yang dinilai (Black. Di antara mereka. Ini mungkin disebabkan karena variasi dalam penilai (atau penilai ') penilaian. Svingby / Penelitian Pendidikan Ulasan 2 (2007) 130-144 133 Akademik obat-obatan. penilaian harus independen dari yang melakukan scoring dan hasil yang sama tidak peduli kapan dan di mana penilaian dilakukan. Jenis-jenis pertunjukan dipelajari mewakili berbagai macam kompetensi. Kedua. Oleh karena itu penilaian harus kredibel dan dapat dipercaya. G. Kehandalan intra-penilai . juga bervariasi. skenario rekayasa. Idealnya. dan siswa dan guru sikap terhadap menggunakan rubrik sebagai alat penilaian. perguruan tinggi. & Hoekema. Banyak dari studi ini fokus pada menilai manfaat keandalan rubrik tertentu. dan universitas untuk profesional aktif diwakili. Hasil 3. seperti perbedaan dalam pengalaman atau kurangnya setuju-upon rutinitas scoring. Artikel yang dipilih telah dianalisis menurut penelitian mereka dan karakteristik rubrik. praktek kelas.sementara anak-anak bungsu yang kurang terwakili. Dalam ulasan ini kami terutama menangani sumber pertama dari variasi. Variasi dalam penilaian penilai 'dapat terjadi baik di penilai. menunjukkan minat pendidikan yang besar di rubrik. 1996). bagaimanapun. jenis rubrik yang digunakan. telah melaporkan bahwa hal-hal seperti 'sikap mengenai siswa guru etnis.. & Baxter. seperti berpikir kritis. mungkin menunjukkan minat yang tumbuh. lebih sering dilaporkan dalam beberapa tahun terakhir. fokus. langkah-langkah dari dampak pada siswa belajar. ukuran reliabilitas dan validitas. 1998) atau dalam sampling tugas (Shavelson. dll Variasi bidang penelitian juga menunjukkan dirinya dalam fokus penelitian. Sekitar seperlima dari studi ditinjau memiliki penilaian formatif dalam fokus. Hasil akan disajikan dalam kaitannya dengan masing-masing pertanyaan penelitian tiga. Paling sering adalah studi tentang penilaian guru dan kualitas mengajar yang kompleks. serta aktor yang terlibat. yang dikenal sebagai reliabilitas antar penilai. lebih dapat diandalkan penilaian dianggap (Moskal & Leydens. 3. jenis rubrik yang digunakan. 3. telah dikembangkan untuk memenuhi tuntutan yang lebih ketat. dan dua penilai mungkin datang ke kesimpulan yang berbeda tentang kinerja yang sama. 1998).1. 2000). Kelompok besar lain terdiri dari studi yang tertarik dalam membuat penilaian guru lebih dapat diandalkan dengan rubrik. juga dapat mempengaruhi peringkat siswa bekerja (Davidson. dengan misalnya pertanyaan pilihan ganda. Semakin konsisten skor lebih penilai yang berbeda dan kesempatan. disebut intra-rater kehandalan. studi menemukan bahwa mengalihkan perhatian mereka untuk diri dan penilaian sejawat. dan Sains Bio. Studi ini.A. Konten. Hampir setengah dari penelitian fokus pada mahasiswa dan profesional aktif . Seluruh jajaran dari K-12.Jonsson. penilaian kinerja kompleks dipertanyakan atas nama kredibilitasnya. sekunder atau tersier pendidikan).1. kita akan merangkum temuan bagaimana / jika penggunaan pembelajaran dan sikap efek rubrik siswa. tapi ini hampir tidak diperoleh. Gao. 1998). 2000). serta konten. yaitu variasi dalam penghakiman. bersama dengan studi tentang menulis dan melek. Ada beberapa faktor yang dapat mempengaruhi putusan dari penilai.relevan terutama pengaturan pendidikan (misalnya SD. Tics characteris. di siswa kinerja (Black. bagaimanapun.

Ini berarti bahwa jumlah yang tepat dari perkiraan jatuh dalam kisaran tertentu. Sebagian besar studi menyelidiki kehandalan intra-penilai menggunakan alpha Cronbach untuk memperkirakan konsistensi penilai '. yang menurut Brown. .70. umumnya 1 Beberapa penelitian di ini ulasan ini dihitung lebih dari satu perkiraan tetapi hanya melaporkannya pada tingkat agregat. dan Harland (2004). dan laporan majority1 pada nilai-nilai alpha di atas 0. atau melebihi batas tertentu. Glasswell. tidak selalu bisa disajikan di sini. Masih hanya tujuh studi di ulasan ini telah dilaporkan pada keandalan intra-rater. Menurut Brown. 235). Bull. dan Pendlebury (1997) "ancaman utama untuk keandalan adalah kurangnya konsistensi penanda individu" (hlm.

dan nilai yang dilaporkan bervariasi 0. manipulasi telah dibuat yang mungkin mendistorsi nilai-nilai dan dengan demikian rentang nilai harus ditafsirkan dengan hati-hati. b Beberapa artikel melaporkan lebih dari satu antar-penilai pengukuran keandalan. yang berarti tingkat yang baik konsistensi.134 A. Di sisi lain. dan bahwa metode memungkinkan untuk penggunaan data nominal. Gasper. dengan mayoritas perkiraan jatuh di kisaran 55-75%. Ini berarti bahwa banyak perkiraan gagal mencapai kriteria 70% atau lebih. akan ada kesempatan lebih besar untuk kesepakatan. Dengan tingkat yang lebih sedikit. Kategori ini merangkum jumlah total artikel yang melaporkan reliabilitas antar penilai tanpa menghitung setiap artikel dua kali. persen perjanjian yang tepat atau berdekatan (dalam satu titik skor) antara penilai dilaporkan. dengan hanya beberapa nilai di bawah 0. Reliabilitas antar penilai Lebih dari setengah dari artikel dalam laporan review tentang reliabilitas antar penilai dalam beberapa bentuk. Perlu diingat bahwa dalam sejumlah studi ini. Sebaliknya. G. Perlu dicatat. niat belum menghasilkan nilai-nilai khas.40. 3. sementara banyak-aspek Model Rasch dan teori generalisasi adalah dua metode utama estimasi pengukuran. Svingby / Penelitian Pendidikan 2 (2007) 130-144 Tabel 1 Ikhtisar studi melaporkan antar-penilai pengukuran keandalan Metode Nomor studi Konsensus perjanjian Persentase total kesepakatan 18 Persentase kesepakatan yang berdekatan 14 kappa Cohen 4 lainnya 7 Totala 27 Konsistensi memperkirakan korelasi 4 Pearson Cronbach alpha 8 rho Spearman 6 lainnya 9 Totala 24 Pengukuran memperkirakan teori generalisasi 15 Banyak-aspek Model Rasch 3 lainnya 1 Totala 19 Grand totalb 46 a Beberapa artikel melaporkan lebih dari satu metode. Perkiraan konsensus dengan persentase kesepakatan yang tepat bervariasi antara 4 dan 100% dalam ulasan ini. Nilai kappa antara 0. . 2004). ini dapat menunjukkan bahwa kehandalan intra-penilai mungkin tidak sebenarnya menjadi perhatian utama ketika penilai didukung oleh rubrik.40 dan 0. bagaimanapun. Sering menggunakan perjanjian konsensus mungkin dapat dikaitkan dengan fakta bahwa mereka relatif mudah untuk menghitung. Sebagian besar. jangkauan dan nilai-nilai khas dari beberapa indeks yang dilaporkan.2. Bawah dan pada Tabel 1. metode yang digunakan. & Canaday. bahwa kesepakatan konsensus penilai sangat bergantung pada jumlah tingkat di rubrik. dan banyak dari persentase digunakan perjanjian sebagai pengukuran.20-0. dan dalam beberapa artikel kappa Cohen digunakan untuk memperkirakan sejauh mana penilaian musyawarah mufakat bervariasi dari tingkat yang diharapkan secara kebetulan.75 mewakili kesepakatan yang adil di luar kesempatan (Stoddart. Jonsson. misalnya kedua total kesepakatan dan berdekatan. Estimasi konsistensi diukur terutama dengan cara koefisien korelasi yang berbeda. misalnya kedua konsistensi dan pengukuran perkiraan. 2000).63.1. Sebagai tren yang sama berlaku untuk studi menggunakan perkiraan lain juga. Abrams. perjanjian dalam satu titik skor melebihi 90% di kebanyakan studi. dianggap cukup. Kategori ini merangkum jumlah total artikel yang melaporkan setiap keandalan pengukuran antar-penilai (misalnya perjanjian konsensus) tanpa menghitung setiap artikel dua kali. yang diperlukan jika perjanjian yang tepat adalah untuk dipertimbangkan terpercaya (Stemler.

dengan mayoritas antara 0.75. tetapi dalam banyak artikel itu tidak ditentukan yang koefisien korelasi telah dihitung. . Ketika melaporkan pada konsistensi memperkirakan sebagian besar peneliti menggunakan beberapa jenis korelasi skor penilai '.. Stemler.27-0. Kisaran korelasi adalah 0. 2004. namun dalam beberapa kasus juga Kendall W. nilai di atas 0. itu adalah sebagian besar korelasi Pearson atau Spearman. Di mana ditentukan. Dalam perkiraan konsistensi.70 dianggap dapat diterima (Brown et al.55 dan 0.98.

Johnson. Koefisien alpha berada di kisaran 0. Selain korelasi antara penilai. meskipun perkiraan umumnya terlalu rendah untuk pengujian tradisional. konsistensi juga dilaporkan dengan alpha Cronbach. dengan mudah dapat diubah jika mereka muncul menjadi salah.. keandalan kemungkinan besar akan tinggi. 2003) dan skenario dalam pendidikan teknik (McMartin. Svingby / Penelitian Pendidikan 2 (2007) 130-144 135 2004). Popp. dan beberapa temuan dalam ulasan ini mendukung fakta yang agak jelas bahwa ketika semua siswa melakukan tugas yang sama atau tes. dan kemudian tidak bermanfaat bagi guru kelas (Gearhart. Salzman. 2001.70 dan 0. Nilai koefisien melebihi 0. sebagai akibatnya. dengan sebagian besar nilai di atas 0. banyak gagal mencapai kriteria ini. di mana kebanyakan dari mereka adalah di bawah 0. Ryan. penilaian yang memberikan hasil yang sangat handal untuk kelompok siswa mungkin gagal untuk menangkap kinerja seorang siswa. 2000b). masing-masing. Jadi. sedangkan koefisien terendah adalah untuk menulis esai. Penny. tetapi karena kebanyakan dari nilai yang dilaporkan adalah antara 0.98. Penny. Studi berfokus pada aspek kehandalan relatif sedikit. Dari penelitian menggunakan perkiraan pengukuran untuk melaporkan reliabilitas antar penilai. 2.06-0. & Gordon.92. yang dapat digunakan untuk mendapatkan gambaran tentang bagaimana membuat rubrik untuk penilaian kinerja yang lebih handal: 1. sedangkan penilaian misalnya kinerja motor dalam pendidikan jasmani (Williams & Rink. teori generalisasi telah digunakan hampir secara eksklusif. Oleh karena itu. atau sebagai generalisasi dan ketergantungan koefisien. 1996). 2003). Johnson.96 dan 0.70. dan. McKenna. 2000. keandalan adalah bukan dari yang sangat penting sama seperti dalam penilaian skala besar. & Tracz (2003) untuk beberapa item dari "uji Fresno kompetensi" dalam kedokteran berbasis bukti. membuat atas dasar penilaian. sebagian besar perkiraan tidak mencapai kriteria ini. Sebuah rubrik yang memberikan gambaran mudah diinterpretasi pengetahuan siswa individu mungkin tidak memiliki kualitas teknis untuk penggunaan skala besar. apa yang dianggap dapat diterima tergantung pada apakah penilaian ini untuk-saham yang tinggi atau kelas tujuan. Akibatnya. & Youssefi. namun. Marzano. Beberapa telah menggunakan banyak-aspek Model Rasch dan dalam satu studi korelasi intraclass ANOVA berbasis telah digunakan. & Gordon. tingkat yang lebih rendah dari keandalan dapat dianggap diterima.50 dan 0. Mayoritas hasil yang dilaporkan pada konsensus penilai tidak melebihi kesepakatan 70%. memilih topik mereka sendiri atau memproduksi barang-barang unik. 2004. Novak. tetapi mereka harus dipilih dengan hati-hati karena skor sangat bergantung pada tolok ukur yang dipilih untuk menentukan rubrik (Dennis.15-0. 3. tapi . Keteguhan dan generalisasi koefisien dari teori generalisasi berkisar 0. Johnson. 1998). dan prosedur scoring didefinisikan dengan baik. dibandingkan dengan mereka yang belajar reliabilitas antar penilai. Benchmark yang paling mungkin untuk meningkatkan kesepakatan.50-0. sedangkan reliabilitas dapat dilihat sebagai prasyarat untuk validitas dalam penilaian skala besar. Contohnya adalah bahwa korelasi tinggi yang luar biasa dari skor penilai dilaporkan oleh Ramos.3. 2000a. G. & Gordon. Namun. Tugas-tugas seperti presentasi lisan juga menghasilkan nilai yang relatif rendah. maka keandalan bisa diharapkan untuk menjadi relatif rendah (Brennan. Herman. & Wolf. penilaian kinerja tidak pengujian tradisional.80.80. Tapi ketika siswa melakukan tugas yang berbeda. Di sisi lain. scoring Analytical sering lebih (Johnson. masing-masing.A. & Harris. & Gordon. ini belum tentu benar untuk penilaian kelas. 2002). Schafer. 1995).1. Penny. Keputusan di kelas. & Behrens. Apakah penggunaan rubrik meningkatkan konsistensi mencetak gol? Hasil dari studi menyelidiki kehandalan intra-penilai menunjukkan bahwa rubrik tampaknya untuk membantu penilai dalam mencapai konsistensi internal yang tinggi ketika mencetak tugas kinerja. Hal ini juga berlaku untuk artikel menghadirkan konsistensi penilai sebagai koefisien korelasi. di mana tidak ada jalan kembali (Black. sebagian besar peneliti dalam ulasan ini menyimpulkan bahwa reliabilitas antar penilai dari rubrik mereka cukup.80 sering dianggap sebagai diterima (Brown et al. setidaknya ketika penilaian relatif rendah berisiko. Jonsson. Namun. 2000) laporan kehandalan agak lebih tinggi. Tentu saja. ada beberapa faktor lain yang mempengaruhi reliabilitas antar penilai melaporkan juga. Juga. 2002. Thompson. Penny.

Weigle. Penny et al.. 2000a. 1996. Johnson. 4. rubrik Topik-spesifik cenderung menghasilkan skor lebih digeneralisasikan dan diandalkan dari rubrik generik (DeRemer. 2002). 2003). Persky. 3. meskipun tidak kesepakatan konsensus (MyFord. Marzano. skala dua tingkat (misalnya kompeten-tidak kinerja yang kompeten) dapat dipercaya mencetak dengan pelatihan yang minimal. Perjanjian ditingkatkan dengan pelatihan.mungkin tidak begitu jika skor dimensi terpisah dirangkum dalam akhir (Waltman. & Koency. Dellinger. 5. . 1998. & Michaels. & Powers. 2000b). 1999). 1999. tetapi pelatihan mungkin tidak akan pernah benar-benar menghilangkan perbedaan (Stuhlmann. Daniel.tanda-tanda) tampaknya meningkatkan aspek-aspek tertentu dari reliabilitas antar penilai. Untuk tingkat tinggi musyawarah mufakat. Kahn. Wilkins. sedangkan skala empat tingkat lebih sulit untuk digunakan (Williams & Rink. Denny. Augmentation dari skala rating (misalnya bahwa penilai dapat memperluas jumlah tingkat menggunakan + atau . 1998).

keandalan penilaian selalu dapat. dinaikkan ke tingkat yang dapat diterima dengan memberikan pembatasan ketat untuk format penilaian. generalisasi. 1996). 2004. tampaknya aman untuk mengatakan bahwa mencetak gol dengan rubrik mungkin lebih dapat diandalkan dibandingkan mencetak tanpa satu. atau jika kita kehilangan esensi suatu tempat dalam proses memberikan tingkat akurasi yang tinggi dalam mencetak gol. validitas dalam konteks ini menjawab pertanyaan "Apakah ukuran penilaian apa yang dimaksudkan untuk mengukur?" Jawaban atas pertanyaan ini. Penghakiman berlaku dari penilaian kinerja dasarnya.2. tugas. seperti Gearhart et al. nilai dan evaluasi. bagaimanapun. tetapi tidak harus diabaikan. dan konsekuensial. Oleh karena itu. membuat perbandingan skor siswa di seluruh tingkatan kelas. Perhatian untuk keterwakilan konten dalam penilaian adalah karena kebutuhan untuk hasil yang akan digeneralisasikan ke domain konstruk. apakah perubahan yang dibawa oleh pembatasan ini dapat diterima. Messick (1996) berpendapat untuk teori yang lebih komprehensif dari validitas konstruk. Messick . & Niemi. Namun. Ada dua cara yang berbeda dalam memandang masalah validitas.136 A. sebagai rubrik dapat dilihat sebagai perangkat peraturan untuk mencetak gol. tidak selalu yang sederhana. Yang paling umum adalah tradisional kriteria. eksternal. Mereka mungkin akan dibahas secara selektif.. Sebaliknya. Brown et al. & van Heerden. Marzano. Jonsson. Dari artikel di ulasan ini. Linn. kesempatan. Selanjutnya. bahkan jika penting. Dia membedakan enam aspek validitas konstruk: konten. Svingby / Penelitian Pendidikan 2 (2007) 130-144 6. G. sedangkan aspek eksternal meneliti hubungan dari skor penilaian untuk langkah-langkah lain yang relevan untuk membangun yang dinilai. mungkin bisa disebut sebagai menangani aspek generalisasi validitas konstruk. 2002). Singkatnya. Messick (1996) membedakan dua aspek validitas dalam hal ini. 2004. Abedi. Batas antara aspek generalisasi dan aspek eksternal tampaknya agak tidak jelas dalam beberapa kasus. topik khusus.. Pertanyaannya kemudian. cukup untuk menghasilkan tingkat yang dapat diterima dari kesepakatan antar-penilai (Baker. 1995 . b Beberapa artikel melaporkan lebih dari satu aspek dan kategori ini merangkum jumlah total . secara teori. struktural. (1995). di mana generalisasi yang aspectrefers untuk sejauh mana skor interpretasi menggeneralisasi seluruh kelompok. Ada banyak aspek validitas diselidiki dan dilaporkan dalam literatur tentang penilaian. atau sebagai interpretasi skor tes (Borsboom. validitas dalam penelitian pendidikan sering dipandang sebagai melibatkan penilaian evaluatif. Mellenbergh. 3. dan karena itu tidak dilihat sebagai milik tes seperti itu. 1997). Dua penilai adalah. dll. Rubrik dapat membantu peningkatan ini dalam konsistensi mencetak gol dengan menjadi analitik. Konsep validitas juga harus dieksplorasi dalam kaitannya dengan bentuk yang lebih otentik dari penilaian. McMillan. Aspek isi Messick (1996) validitas konstruk menentukan relevansi konten dan keterwakilan pengetahuan dan keterampilan diungkapkan oleh penilaian. dalam kondisi terkendali. dan dilengkapi dengan eksemplar dan / atau pelatihan penilai. kehandalan bukan satu-satunya konsep penting yang harus diperhitungkan ketika merancang penilaian kinerja. konten dan validitas konstruk. tetapi lebih sebagai interpretasi dari hasil (Borsboom et al. Perspektif pertama adalah yang paling banyak digunakan dalam ilmu alam dan tes psikologi dan tidak ada artikel di ulasan ini ditemukan menggunakannya. dan banyak dari mereka yang digunakan validitas isi dalam beberapa cara (lihat Tabel 2). Tabel 2 Tinjauan studi melaporkan validitasrubrik Aspek validitya Jumlah studi Konten 10 generalisasi 3 Eksternal 15 Struktural 7 Substantif 1 Consequential 2 Totalb 25 a Diadaptasi dari Messick (1996). Pendapat ahli yang nomor satu rute untuk mendapatkan bukti empiris untuk aspek validitas. sepertiga melaporkan validitas. dan tidak terbatas hanya pada sampel tugas dinilai. Entah validitas dipandang sebagai milik tes. 2004. seperti ketika Baker (1994) membuat perbandingan penilaian nya dengan tes lainnya. substantif.

.artikel yang melaporkan setiap aspek tanpa menghitung setiap artikel dua kali.

the authors discuss the possibility that some individuals might be judged differently based on the two rubrics. The last aspect of validity. not only does the task have to be consistent with the theory of the construct in question. and empirical evidence of. consistency in responses that reflect the thinking processes used by experts in the field. like thinking processes. the content aspect was a frequently investigated aspect of validity. includes evidence of implications of score interpretation. and empirical evidence was mainly collected through expert opinions. but also as “a theoretical model of good thinking” (p. For instance. This is called the structural aspect of construct validity and has been addressed in some studies by means of factor analysis (Baker.. When considering social consequences of decisions about mastery/non- mastery on scores derived from the rubric. but the scoring structure (like criteria and rubric) must also follow rationally from the domain structure. where they try to validate a new rubric for narrative writing.and long-term consequences (Messick. The substantive aspect includes theoretical rationales for.2. and no other aspect of validity has been addressed.. (1995). has used a more comprehensive framework for the validation process. All these factors threaten validity and might . work samples or laboratory reports. Value implications. The researchers are guided in this validation process by the work of Messick and use an established rubric for comparison. A noteworthy exception is the relatively large amount of studies investigating student teachers. several articles use correlations with other measures or instruments. 3. Domain coverage is not only about traditional content. or that there are severe social consequences or bias. Jonsson. national survey items (Stoering & Lu. 1994. attention has to be paid to the level of these cognitive processes in the assessment (Van de Watering & van der Rijt.. Under the headings of “value implications” and “consequential validity” they examine evidence from raters' reflections of score usefulness in informing writing instruction as well as the stability and meaning of decisions of mastery based on different cut points.1. post-course evaluations (Roblyer & Wiencke. Another focus of external validity is the relevance and utility of the rubric for its intended purpose. Researchers have performed factor analysis to reveal the underlying structure or investigated the alignment of guidelines.4 to . standards and rubrics. Also. Only two articles in this review reports explicitly on consequential aspects of validity and one of them is a study by Gearhart et al. 2002). Flowers and Hancock (2003) report that their interview protocol and scoring rubric for evaluating teacher performance has been adopted by over 85% of the public schools of North Carolina. 1996). are not. the consequential aspect. As mentioned above. both internal and external. Therefore. It is still relevant to ask what it means. as suggested by raters' reflections. Can rubrics facilitate valid judgment of performance assessments? Most reports claim to have some support for the validity of the rubric used. but also about thinking processes used during the assessment. such as an established rubric (Gearhart et al. saying that performance assessment consist of two parts: “a task and a set of scoring criteria or a scoring rubric” (p. however. In the studies reviewed. the rubric could serve not only as an assessment tool. In the beginning of this article. 1998). 2002) or tests of prior knowledge (Waltman et al. Svingby / Educational Research Review 2 (2007) 130–144 137 Reporting on external aspects of validity. As an example. most rubrics focus on products. standards and the rubric (Denner et al. Only one study. Baker et al. 497). Most report on modest correlations from . (1995). It could also mean that there is no alignment between objectives and assessment. It could mean that content knowledge is properly assessed. like essays. Osana and Seymour (2004) designed a rubric according to empirically validated theory in argumentation and statistical reasoning. 2003). and also the scores produced have been checked for correlation to other measures. Perlman (2003) was cited. 1995).6. indicate that the new rubric has more instructional potential than the comparison rubric. Gearhart et al.. Several rubrics have been validated for content validity by experts.A. rather than processes. 495). both intended and unintended as well as short. when a rubric has been shown to have for instance content validity. 2006). G. According to Messick (1996). while other dimensions. 1995) and by raters evaluating the alignment of guidelines.

since a rubric is a regulatory device.produce unfair results. There is. then this would influence the aspect of consequential validity. fidelity of scoring structure to the construct domain or generalizability. Just by providing a rubric there is no evidence for content representativeness. On the issue of reliability it was concluded that. If rubrics in some way affect instruction. scoring with a rubric is probably more reliable than scoring without. Could it. Nor does it give any convergent or discriminant evidence to other measures. however. . be concluded that scoring with a rubric is probably more valid than scoring without? The answer in this case would have to be “no”. so that there are positive educational consequences from using them. one certain aspect of validity that might benefit from the use of rubrics. in the sense that students are disadvantaged in their opportunity to show what they have learned. in the same sense.

up till now mostly negative influence. few scientific studies reporting on effects of self. The meta-analyses of Falchikov and Boud (1989) and of Falchikov and Goldfinch (2000) provide a comprehensive list of research on self. where significant improvement in the quality of students' compositions were made. 2003. Sadler & Good. and motivating forms of assessment. In line with this assumption. the majority being concerned with student improvement or/and perceptions of using rubrics by either teachers. Topping.and peer assessment at large indicates on the one hand that students can be very accurate in grading their own work (Dochy et al. Jonsson. Self. . A central question that has to be further evaluated. assessment has a strong impact on the focus and attention of most students (Dochy et al.and peer assessment. motivation and study situation at large. Eight articles investigated the effect of rubrics on self. let alone measured with high accuracy. Of the 75 articles reviewed. Hafner & Hafner. 3. one-third report on some kind of educational consequences of rubric usage. 3. evaluation time and students' understanding of criteria (see Table 3). There is a strong conviction that the use of performance assessment in combination with rubrics will change students' efforts and learning in a positive way.and peer assessment The research literature on self.3.and peer assessment. Research on self.. all of the reviewed articles argue that the use of rubrics has shown to be beneficial for students' learning. no ted low technical quality regarding the quantitative research reviewed. and the plethora of outcomes is not easily predicted. 2003). G. A few recent articles have investigated the variation in students' responses in relation to a scoring rubric using quantitative measures (eg Cho. has been acknowledged by educational institutions.138 A. Schunn. without counting any article twice. It is claimed that it is advantageous for students' learning to be involved in giving and receiving feedback (Dochy.and peer assessment is substantive. Schirmer. whereas on the other hand self-assessment tend to result in higher grades than teacher assessment (Topping.. The evaluation of student improvement was done using both quantitative and qualitative measures.1. The meta-analyses mentioned above. 2006. & Sluijsmans. complex. In this sense. Bailey. it seems as if assessment of one's own performance is more difficult than assessing a peer's performance (Lindblom-Yl anne. 2003). This. The performance movement and the investment in rubrics are part of this. The quantitative analysis indicated that use of the rubric as a teaching strategy. Segers. & Wilson. Hence both students' and teachers' perceptions of educational consequences are presented alongside more solid research results in this review. Performance assessments are by definition open-ended. There are. and has led to the demand for more authentic. Svingby / Educational Research Review 2 (2007) 130–144 Table 3 Overview of studies reporting on promotion of student learning and/or the quality of teaching Data Number of studies Student improvement 10 Teachers' perceptions 9 Students' perceptions 8 Student use of criteria and self-assessment 8 Other 2 Totala 25 a Some articles report on more than one category of data and here the total number of articles reporting on each category is summarized. 2006). students or both. 2006).and peer assessment using rubrics. 1999. Taken together. and Fitzgerald (1999) report on a year long experiment with assessment rubrics as a teaching strategy with deaf children in the fifth and seven grades. the persons in best position to evaluate if rubrics promote learning and/or improve instruction are the students and teachers actually using them. Pihlajam aki. Promotion of student learning and/or the quality of teaching As is widely recognized. is if the use of rubrics might enhance the accuracy of self. content. however. 2006). story development and organization. significantly improved writing according to topic.and peer assessment. and a few articles also reported on the effect of rubrics on off-task behaviour.3. 1999). & Kotkas.

Students in four middle school classrooms were trained to grade with the help of a scoring rubric. The researchers compared teacher-assigned grades to grades awarded either by students to themselves or by their peers. A very high correlation between . The study by Sadler and Good (2006) puts the presumed benefits of peer-grading to the test.

Morrell & Ackley. Luft. via transparency. This is mainly due to the fact that the results are not pointing in any particular direction. Smith & Hanna. mirrors in a way the widespread interest in assessing performance in a credible way. Suthers. 2006. 3. 1999b. Toth et al. The way in which rubrics support learning and instruction is by making expectations and criteria explicit. and also that self-grading appears to result in increased student learning.94).91–. improved dramatically. G. A couple of studies report on activity and off-task behaviour. 2006. making them their own. Cho et al. or only in combination with other interventions (Toth. Hafner and Hafner (2003) used assessments of oral presentations to estimate the reliability of a rubric for self- and peer assessment purposes. 2003) while others have positive effects only in some areas (Green & Bowser. (2006) argue that peer reviewing of writing may be a way to create more writing opportunities in college and university settings. mirror the great expectations and positive . only two show an overall improvement (Brown et al. Schamber & Mahoney. in the wording by Frederiksen and Collins (1989). 3. Student improvement and users perceptions It is not possible to draw any conclusions about student improvement related to the use of rubrics from this material. however. but observes that the validity and reliability of peer-generated grades are a major concern. 1999a). Swanson. & Lesgold. 2001). Besides transparency. 2006. They know why they are doing what they are doing. Rubrics indicate what is important and thereby give clarity and explicitness to the assessment. and a few working with the effects of using rubrics on students' learning and the quality of the teaching–learning situation. Mullen. and this is deemed positive by students and teachers alike (Bissell & Lemons. and in one study some negative effects (Andrade. Their analysis suggests that the aggregated ratings of at least four peers are both highly reliable and as valid as instructor ratings. the concrete nature of rubric criteria provides information for feedback as well as makes self-assessment easier (Schamber & Mahoney. The perceptions of the users as to the benefits of using rubrics may therefore be seen as more interesting. 1998). The relative lack of research studies on the effects of learning and teaching does not. and that rubrics can give teachers more insights to the effectiveness of their instructional practices (Waltman et al. 2004)..A. to make assignments and assessment meaningful to the students. 2001. 2001... 2006. Some studies also show that students actually internalize the criteria. Sadler & Good. 1998).. is the perception of clarified expectations or. An important finding was that the students who scored their own tests using the rubric. Although few. 2002). at least as perceived by the teachers and students using them.3. A major theme in the comments from both teachers and students.2.and peer-grading may be used to save teachers' time on grading. In the studies reporting on student improvement of some kind. The authors conclude that both self. with a majority tackling questions of reliability and validity. 2001. Shaw.and peer assessment. 1999. Schirmer et al. Svingby / Educational Research Review 2 (2007) 130–144 139 students and their teacher was obtained (. Also. Does the use of rubrics promote learning and/or improve instruction? To conclude. Piscitello. and use them while self-assessing (Andrade. Ben e. 2002). 2006. other benefits of rubrics as perceived by the teachers are the encouragement of reflective practice (Beeth et al. whereas peer-grading does not. Jonsson. Discussion The distribution of the reviewed articles. Schamber & Mahoney. these studies indicate that rubrics might be valuable in supporting student self.. transparency. 4. which also facilitates feedback and self-assessment. the students showed much agreement in their ranking of the presentations. 1998). 2006. 2004. Schafer.3. & Newberry. When supported by a rubric.3. One possible interpretation of this is that rubrics help. 1999). where students seem more involved in the task at hand (Piscitello. it seems like the use of rubrics have the potential of promoting learning and/or improving instruction.

open-ended and as such prone to produce lower reliability. Still. Performance assessment is.narratives of the effect of rubrics on the quality of performance assessment. reliability can be improved by adding restrictions to the assessment. reviewed in this article. however. Even if research articles have been presented on the topic for a decade. The studies reporting on rubric reliability. indicating that the use of rubrics might not in itself be enough to produce sufficient reliability for summative assessments. . the research may still be described as rudimentary. generally present low reliability coefficients as compared to traditional psychometric requirements.

seem to be important factors influencing the results. for example criterion and content validity. The studies reviewed do. where different methods of assessment are combined. etc. In this way. Those actors are perhaps in best positions to evaluate the benefits or detriments of using rubrics.and peer assessment are other positive experiences reported. due to calls for high reliability. Wiggins (1998) emphasizes that rubrics should not restrict the format or the method. the term construct validity refers to a unifying concept incorporating different aspects of validity. The validity concept has traditionally been fragmented into different forms of validity. Messick. reflecting the qualities sought in new modes of assessment (Gielen. and positive. So even if it is not strictly demonstrated that students do learn better. As the type of content involved. However. Typically. but by . The reviewed research on teachers' and students' perceptions of using rubrics. validity issues are not always straight forward. Baartman et al. All these aspects are seen as interrelated. as an example. & Dierick. 2006). Jonsson. which could be further aided by the use of rubrics. This is done by suggesting that multimodal assessment programs should be developed for high-stakes competence assessments. in order to get a more complete picture of the validity. feedback. it is not known whether an assessment deemed valid for correlating with external measurements actually requires the higher order thinking that was intended. To avoid this. transparency of assessments can be seen as a great contributor to learning. This holistic. Alignment. Performance assessments target knowledge and skills which are often difficult to evaluate with the traditional pre. Student understanding of criteria.140 A. broader approach has not been used by most articles. 2003). or at least a widened. Rather. submitted for publication). Svingby / Educational Research Review 2 (2007) 130–144 Benchmarks can be used. authenticity and other similar concepts are in the same way demonstrated to be associated with Messick's (1996) framework. & Van der Vleuten. shows that a major benefit of rubrics is that of bringing transparency to the assessment. do we still measure the full scope of what was intended to measure? In this view. not each individual assessment has to meet all criteria.and post-tests of educational research. one or two aspects of validity have been addressed while the others are left unmentioned. Kirschner.and peer assessment. however. Thus. present positive results. The question is addressed in a review on requirements for competence assessments (Baartman. the students themselves perceive that they do. In addition to transparency there are a row of other possible benefits of the use of rubrics for performance assessment. Dochy. The question of reliability versus validity is actualized when the effects on student learning is studied. Bastiaens. as well as the performance tasks assessed. different scoring methods can be applied. the use of rubrics should in most cases improve reliability.. the question is: If severe restrictions are made. In line with the assumptions from research on self. The question has been raised as to whether the transparency provided by rubrics could actually stifle creativity (Mabry. Since rubrics are a way of restricting the scoring of performance assessments. which makes expectations explicit. 1996). raters can be trained. G. Instead a new. Knowing that learning is influenced by factors such as motivation (Birenbaum et al. By using various examples or “anchors” it is also possible to show that there are many ways to approach the same task. The researchers argue that transparency is related to both the structural as well as the consequential aspect of validity. and all should be addressed when validating assessments. A few of these studies are long term and involve many students. The evidence for student improvement due to the usage of rubrics is still scarce if we restrict ourselves to rigorous quantitative studies. reliability is not the “bottleneck” for quality performance assessments. (submitted for publication) offer a way to resolve the issue by meeting the demands of both psychometricians and the emerging “assessment culture”. This is in line with the argument of some researchers that novel forms of assessment cannot be evaluated only on the basis of psychometric criteria. In a more contemporary view of validity. they indicate that learning is promoted by the meta-cognitive processes involved in this type of assessments. 1999. generalization of the data is still not recommended. Evaluations of teachers' and students' experiences and attitudes are on the contrary almost univocal. possibilities of self. but rather validity seems to be of more critical importance. set of criteria is needed.

with its ten criteria. “Reproducibility of decisions”. is framed within an educational context. “Cognitive complexity” and “Authenticity”. where the quality criteria are displayed in concentric circles.dation of assessment development. “Meaningfulness”. & Van der Vleuten (2006) presents a framework containing twelve quality criteria for competence assessment programs. consisting of “Fairness”. The authors put forth what is called “The Wheel of Competency Assessment”. Baartman. The wheel. Bastiaens. These basic criteria are seen as prerequisites for the outer layer. The hub is occupied by “Fitness for purpose”—the foun. represented by two criteria: “Educational consequences” and “Costs & Effi- . “Fitness for self-assessment”. Kirschner. surrounded by “Comparability”.using a combination of methods the program as a whole can meet the quality criteria of both cultures. “Transparency” and “Acceptability”.

Cascallar. D. such as promoting learning and/or improve instruction.. Bull.. J. 61–67. (2004). J. Dochy. Phillips (Ed. Breuer. J.. In L... In relation to reliability issues. Kirschner. & Pendlebury. D. Ridgway. 367–373. Studies in Higher Education. 523–545. (1989). M. G. (1999). F. (2000). Oxford. consequential validity is an aspect of validity that might need further attention. (1997). (1998). K. Scoring rubrics in the classroom.. The concept of validity. L. J. Darling-Hammond. Svingby / Educational Research Review 2 (2007) 130–144 141 ciency”.. M. Student self-assessment in higher education: A meta-analysis. F. & S. Since performance assessments are more or less open ended per definition. London: Routledge. 331–350. & Segers. Baartman. M. Brennan. in order to estimate the quality of performance assessments. With such a framework there is no need to take the detour. Brown. & Snyder. PA. Dochy. Conclusions This paper aimed to review empirical research and illuminate the questions of how the use of rubrics can (1) enhance the reliability of scoring.. P. 153–170. Review of Educational Research. Jonsson.ment could be facilitated by using a more comprehensive framework of validity when validating the rubric. & Van der Vleuten. LKJ. Assessing student learning in higher education. J. Boekaerts. D. 89–96.). The use of self-. topic-specific. (2000). References Arter. 24. and (3) give positive educational consequences. and complemented with exemplars and/or rater training. Washington. (2000). 93. GJ. KW. & Van der Vleuten. CPM (submitted for publication). (2001). 32. Effects of ethnicity and violent content on rubric scores in writing samples. Grading inquiry projects. 1. E. Furthermore. M. DC: National Center for Education Statistics. A first conclusion is that the reliable scoring of performance assessments can be enhanced by the use of rubrics. (2006). 1061–1071. (1998). peer and co-assessment in higher education: A review. Borsboom. Verschaffel.). D. rubrics should be analytic. present and future trends. This could be achieved through a framework of quality criteria that acknowledges the importance of trustworthiness in assessment as well as supports a more comprehensive view on validity issues (including educational consequences).. Testing: Friend or foe? London: Falmer Press. Amsterdam: Elsevier. Authentic assessment of teaching in context. Instructional psychology: Past. Birenbaum. N. The wheel of competency assessment: Presenting quality criteria for competency assessment programmes. 19–58). Student peer assessment in higher education: A meta- . Davidson. A learning integrated assessment system. J.. Dochy. Gijbels. Baartman. Bastiaens.. Falchikov. it has been concluded that rubrics seem to have the potential of promoting learning and/or improve instruction. Valid assess. Another conclusion is that rubrics do not facilitate valid judgment of performance assessments per se. Segers. M. Vosniadou (Eds. Generalizability of performance assessments. Teaching and Teacher Education. & McTighe. Technical issues in large-scale performance assessment (pp.. Journal of Educational Research.. In G. Dochy. Learning and the emerging new assessment culture. & Boud. & Sluijsmans... instead of focusing on only one or two aspects of validity. PA. 111. (1996). CPM (2006). The main reason for this potential lies in the fact that rubrics make expectations and criteria explicit. Dori. R. Black. LKJ. TJ. Educational Research Review. Kirschner. & Goldfinch. Busching. & Hoekema. B. Y. it is not always possible to restrict the assessment format to achieve high levels of reliability without sacrificing the validity. Assessment in competence-based education: How can assessment quality be evaluated? Educational Research Review. New Directions for Teaching and Learning. Bastiaens.. J... Psychological Review. Falchikov. G. P. (2) facilitate valid judgment of performance assessments. In relation to learning and instruction. TJ. which also facilitates feedback and self-assessment. via the traditional psychometric criteria reliability and validity.A. 5. F. Howell. 16. & van Heerden. Studies in Educational Evaluation. 395–430. et al.. Thousand Oaks: Corwin Press Inc. (2006). N. F. It is thus argued that assessment quality criteria should emphasize dimensions like transparency and fitness for self-assessment to a greater extent than is done through the traditional reliability and validity criteria. 59. Mellenbergh. M.

Dochy. 287–322. Educational Researcher. & Dierick. JR.. 27–32. 18.. Evaluating the consequential validity of new modes of assessment: The influence of assessment on learning. Dordrecht: Kluwer Academic Publishers. F. S. Cascallar (Eds. Frederiksen.analysis comparing peer and teacher marks. 70. 673–679. & E. (2003). Gielen. In M. Phi Delta Kappan. Educational research: Fundamentals for the consumer. (1989).. A. Review of Educational Research. post-. F. (1999). & Collins. Segers. A systems approach to educational testing. . including pre-.). Mabry. Boston: Pearson Education Inc. S. L. and true assessment effects. 80. Dochy. McMillan. Writing to the rubric: Lingering effects of traditional standardized testing on direct writing assessment. JH (2004). Optimizing new modes of assessment: In search of qualities and standards.

Cho..142 A. & Lemons. Baker. P. A continuum for assessing science process knowledge in grades K-6. RW (2006). BM. ME. 21. X. Self and peer assessment in school and university: Reliability. 98. 9. EL (1994). Brown. A comparison of consensus. 197–205. Research & Evaluation. and writing achievement. GR. New Directions for Teaching and Learning. & Leydens. The role of instructional rubrics and self-assessment in learning to write: A smorgasbord of findings. & Baxter. A new method for assessing critical thinking in the classroom. Educational Research Review. 7. 9.). G. HG (1999b). & van der Rijt. Linn. Performance assessment: Designing appropriate performance tasks and scoring rubrics. Writing assessment: Raters' elaboration of the rating task. BioScience. C. JA (2000). Research & Evaluation.. Segers. (1996). Svingby / Educational Research Review 2 (2007) 130–144 Messick. HG (1999a). USA. Glasswell. Gao. 97–106.Practical Assessment.. In Paper Presented at the Annual Meeting of the American Educational Research Association. 105–121. K. (2004). & Ross. Chi. Accuracy in the scoring of writing: Studies of reliability and validity using a new zealand writing assessment system. & Wilson. Salzman. Electronic Journal of Science Education.. ML (1998). (2001). (2006). Van de Watering. CC (2003). E. K. Validity of performance assessments. 5. RL. 56. Evaluating technology-based processes and products. Schunn. Learning-based assessments of history understanding. perceptions of classroom goal structures. Washington. & E.. Phillips (Ed. 2. On the content validity of performance assessments: Centrality of domain-specifications. Alternatives in assessment of achievements. Boston: Kluwer Academic Publishers. PR.The influence of using cognitive strategy instruction through writing rubrics on high school students' writing self-efficacy. Unpublished doctoral dissertation. & Kennedy. Jonsson. CP. RJ. Student self-assessment: At the intersection of metacognition and authentic assessment. learning processes and prior knowledge. Teachers' and students' perceptions of assessments: A review and a study into the ability and accuracy of estimating the difficulty levels of assessment items. (2001). Pirro. K. Technical issues in large-scale performance assessment (pp. (1996). San Francisco: Jossey-Bass. Beeth. Practical Assessment. & Harris. Dimensionality and generalizability of domain-independent performance assessments. Flowers. Wiggins. In G. Educational Psychologist. & Harland. SE (2004). 1. In M. Educative assessment. Stemler. 71–81. DR (2003).). (1998). Assessment & Evaluation in Higher Education. LB (2002). In Paper presented at the annual meeting of the American Association of Colleges for Teacher Education. and measurement approaches to estimating interrater reliability. BL (2003). Assessment in Education: . 29. SM (1998). (1996). Teacher work sample assessment: An accountability method that moves beyond teacher testing to the impact of teacher performance on student learning.. self-regulation. 66–72. & Niemi. 7–29. 133–147. Pearl. Journal of Educational Research.). Dochy (Eds. Optimizing new modes of assessment: In search of qualities and standards. CD. & Merry. 1–18). Dochy. References to papers in the review Andrade. Dordrecht: Kluwer Academic Publishers. 5.ment goal orientation. Shavelson. Cross. Orsmond. Yagnesak. DC: National Center for Education Statistics. (2003). Duke. Birenbaum & F. F. Assessing Writing. 89. J. Journal of Educational Psychology.. In Paper Presented at the Annual Meeting of the American Educational Research Association. Topping. G. Abedi. Moskal. 891–901. 239–250. Journal of Applied Measurement. J.. Morrison. G. Andrade. The importance of marking criteria in the use of peer assessment. D. GTL. AN. North Carolina. An interview protocol and scoring rubric for evaluating teacher performance. SA.. DeRemer. EL. validity and utility. (1995). Assessing Writing. Scoring rubric development: Validity and reliability. 379–388. consistency. Cascallar (Eds. J. 69–77. & Hancock. Validity and reliability of scaffolded peer assessment of writing from instructor and student perspectives. L. G. J. Comparing holistic and analytic scoring for performance assessment with many-facet rasch model. achieve. S.. In M. Denner. 74. Bissell. USA: University of Oklahoma. K. Perlman. D. PR (2006). Baker. S.

(2006). Herman.. Inquiry and inscription as keys to authentic science instruction and assessment for preservice secondary science teachers. RL. Luft. International journal of science education. 229–249. S. & Bowser. H. (2000). peer. 45. Applied Measurement in Education. Johnson. Policy and Practice. .. T. B. Quantitative analysis of the rubric as an assessment tool: An empirical study of student peer-group rating. B. Penny. The relation between score resolution methods and interrater reliability: An empirical study of an analytic scoring rubric. J. USA: University of Tennessee. Principles. 2. 1509–1528. Score resolution and the interrater reliabilityof holistic scores in rating essays. 121–138. & Wolf.. & Hafner. JL. 7. Gearhart. & Gordon. M. Journal of Library Administration. 207–242. (1998). Unpublished doctoral dissertation. Johnson. J. 18. Rubrics: Design and use in science teacher education. Active Learning in Higher Education. Toward the instructional utility of large-scale writing assessment: Validation of a new narrative rubric. PM (2003). Self-. & Gordon. Pihlajamäki. JC. Hafner. Lunsford. 185–202. 51–62. Lindblom-Ylänne.. 161–168. (2001). Observations from the field: Sharing a literature review rubric. SA (1995). R. Penny..and teacher-assessment of student essays. J. RL. M. & Kotkas. (2006). Green. JR.. 10. 13. BE (2002). 25. In Paper Presented at the Annual Meeting of the Association for the Education of Teachers in Science. Assessing Writing. Novak.Written Communication.

Alternative approaches to scoring: The effects of using different scoring methods on the validity of scores from a performance assessment. & Hanna. A.. McMartin. & Fitzgerald. Educational Research and Evaluation. B. International Journal of Science Education.. (1999).. Using rating augmentation to expand the scale of an analytic rubric. RJ (2002). The impact of self. Scenario assignments as assessment tools for undergraduate engineering education. Assessing literacy: Establishing common standards in portfolio assessment. Journal of General Education. 383–397. 111–120. SL (2006). A generalizability study of the effects of training on teachers' abilities to rate children's writing using a rubric. 269–278. Demystifying the evaluation process for parents: Rubrics for marking student research projects. Shaw. CM.. Validation of the fresno test of competence in evidence based medicine. KD. R. 20. 16. MS. (2004). S. SM (2003). RK. Student improvement in middle school science.. The effect of rating augmentation on inter-rater reliability: An empirical study of a holistic rubric. K. Smith. Effects of teacher knowledge of rubrics on student achievement in four content areas.. & Canaday. Popp. Mapping to know: The effects of representational guidance and reflective assessment on scientific inquiry. Mullen. 143–164. R. Wilkins. A. & Newberry. JF. 249–267. Denny. In Paper Presented at Annual Meeting of the American Educational Research Association. JM. G. WR (2003). Practicing what we teach: Assessing pre-service teachers' performance using scoring guides. WD. Counselor Education and Supervision. & Youssefi. J. Schirmer. Suthers.. Gasper. Topics in Language Disorders. 16–19. & Powers. Bené. C. Abrams. BR. Myford. Los Angeles. In Paper Presented at Annual Meeting of the Association for Institutional Research. Johnson. 86. PM. Schafer. D. & Gordon. Stoering. Paratore.. HP. Using rubrics for assessment and evaluation in art. AM (2002). & Seymour. 319–321. Piscitello. 1–31. J. McKenna. JR (2004). A comparison of selected methods of scoring classroom assessments. & Lu. Penny. Journal of Experimental Education. IEEE Transactions on Education. M. Science Education. Weigle. 10. & Michaels.. & Wiencke.. MA (1998). RL. Assessing and improving the quality of group critical thinking exhibited in the final projects of collaborative learning groups. 43. (2000b). Thompson. ME (2001). 67–83. 107–127. JR (1995). J. & Behrens. 264–286. JT (2003). Kahn. G. (2000). Bailey.. Waltman. E. (1998). & Tracz. DD. T. 32. Sadler. (2006). 1221–1246. Design and use of a rubric to assess and encourage interactive qualities in distance courses. YK (2003). Roblyer. (2000). 7.. Constructing scoring rubrics: Using “facets” to study design features of descriptive rating scales. N.. Schafer.. BC (1999). Exceptional Children. 68. (2001). Morrell. Stoddart. E. B. Toth. American Journal of Distance Education. K. MD. Svingby / Educational Research Review 2 (2007) 130–144 143 Marzano. Ryan. Operationalizing the rubric: The effect of benchmark selection on the assessed quality of writing.. J. G. Applied Measurement in Education. 65. 473–498. (2000a). H. Penny. 151–170. 15. Concept maps as assessment in science inquiry learning—A report of methodology. & Gordon. PD.A. Jonsson. RL. Using rubrics for documentation of clinical work supervision. 326. J. 22. E.. Osana. Combining the national survey of student engagement with student portfolio assessment. Persky. SM (1999). British Medical Journal. JM. & Koency.. & Ackley. 17. SC (1999).. CSE Technical Report 488. & Mahoney. & Good. Critical thinking in preservice teachers: A rubric for evaluating argumentation and statistical reasoning. Investigating . G. Dellinger. 103–137. USA: University of Wisconsin. 77–99.. Unpublished master thesis. Assessing Writing. Teacher Librarian. In Paper presented at the annual meeting of the American Educational Research Association. L.and peer-grading on student learning. 55. Swanson. A. 11. SEO. (2002). In Paper presented at the annual meeting of the American Educational Research Association. F. 269–287. Johnson. EE. Unpublished master thesis. USA: Saint Xavier University. Using a writing assessment rubric for writing development of children who are deaf.. 14. Stuhlmann. Journal of Reading Psychology. Applied Measurement in Education. Educational Assessment. & Lesgold. Daniel. J. (1996). 37. Johnson. Ramos. Schamber. T.

rater/prompt interactions in writing assessment: Quantitative and qualitative approaches. MK (2006). (2003). (2006). Los Angeles. Teachers' assignments as indicators of instructional quality in elementary schools. & Murphey. EL (1995). M. J. CSE Technical Report 545. 3. Boston.. topic generalizability. CSE Technical Report 690. Assessing Writing. SM (2005). L. & Baker. Pascal. . Developing indicators of classroom practice to monitor and support school reform.. M. Aschbacher. CSE Technical Report 672.. 14–21. Educational Measurement: Issues and Practice. & Wolf. 24. Valdes. 22. Choinski. Brookhart. Educational and Psychological Measurement. JR (2001). Portal: Libraries & the Academy. Journal of Teaching in Physical Education. A latent-variable modeling approach to assessing interrater reliability. and validity of a content assessment scoring rubric. Teacher competency using observational scoring rubrics. References to papers in the review Abedi. Los Angeles. Williams. & Rink. Using classroom artifacts to measure instructional practice in middle school science: A two-state field test. R.. 563–576. AE. Assessing academic rigor in mathematics instruction: The development of the instructional quality assessment toolkit. Clare. Borko. & Stecher. J. B. CSE Technical Report 513. PR (1999). 552–572.. & Steinberg. 55. 701–715. The quality of local district assessments used in Nebraska's school-based teacher-led assessment and reporting system (STARS). L. Assessment with rubrics: An efficient and objective means of assessing student outcomes in an information resources class.. J. (2003). Los Angeles. Mark. 6.. H. E. Los Angeles.. 145–178.

(2001). D. & McCotter. A. Ruit. Keiser. & McDaniel. (2005). USA: Nova Southeastern University. AD. H.. 20. developing. Scoring rubrics for assessing students' performance on functional behavior assessment cases. B. (1998). Etsler. B. & Drumgold. Unpublished doctoral dissertation. Unpublished doctoral dissertation. & Michaels. Laprocina. F. Early Childhood Research & Practice: An Internet Journal on the Development. 5.. JR. Lignugaris/Kraft. USA: University of Illinois at Urbana-Champaign.. Harrison. 7. Journal of Educational Computing Research. Schacter. 26. Economics of Education Review. Mott. B. Comparing several human and computer-based methods for scoring concept maps and essays. Using the instructional quality assessment toolkit to investigate the quality of reading comprehension assignments and student work. Assessing Writing. M. Measuring inter-rater reliability of the sequenced performance inventory and reflective assessment of learning (SPIRAL). Innovative Higher Education. & Vari. 23. M. C. J. S. SS. 78. J. Learning & Performance Support Laboratory. Svingby / Educational Research Review 2 (2007) 130–144 Dunbar. Technical education curriculum assessment. & Miles. Scherbert. Journal of Vocational Education Research. R. & Forgette- Giroux. Koul... J.. & Slocum. Roswell. & Salehi. GL. BS. JC. C. 411–430. L. NE. Validity and internal consistency of two district-developed assessments of Title I students. Capps.. RC (2003). (2002). A. & Sundbye. 79–91. N. Pomplun. 181–194. MS. LC. L. L. Willeke. Simon. 95–110. 39–70. Goldberg. (2002). SC. 5.. 227–239. (2006).. Care.. Criteria teachers use to score performance items. (2006). G. Practical Assessment. . B. & Kubicka-Miller. Portfolio assessment in a collaborative program evaluation: The reliability and validity of a family literacy portfolio. Educational and Psychological Measurement.. 28.. Confirmatory factor analysis of scores on the clinical experience rubric. S. MK. D. 29. H.. 5. M. Academic Medicine. Slater. & Thum. and Education of Young Children. Rule.and low-quality teaching. 31. Brooks. F. Educational Assessment. Oral communication skills in higher education: Using a performance- based evaluation rubric to assess communication skills. Teaching and Teacher Education. & Mordica. MJ. Watkins. DT. Johnson.. KG. A. CF. Matsumura. Applying an analytic writing rubric to children's hypermedia “narratives”. TG (1998). Pindiprolu. CSE Technical Report 669. Lawrenz. 115–128. SS (2004).. C. A question of choice: The implications of assessing expressive writing in multiple genres. 478–488. R. 243–257. (2002). 32. Jonsson. Teacher Education and Special Education. McAfee. Peterson. Peterson. In Paper Presented at the Annual Meeting of the American Educational Research Association. (1998). 367–377. Los Angeles. Fisher. Collaborative consultation pre-referral interventions at the elementary level to assist at-risk students with reading and language arts difficulties. & Junker. RL. Hand. RB. and validating the interview for admission into the teacher education program... A rubric for scoring postsecondary academic skills. Reflection as a visible outcome for preservice teachers. Schieve.. Flowers. Paying for high. YM (2004). In Paper Presented at the Annual Meeting of the Southeastern Region Association for Teacher Educators. Ward.. (2005). DeCuir. Hickey. Clariana. 844–850. R. T.. University of Georgia. The study of individual differences in the utility and validity of rubrics in the learning of writing ability. Levison.. Olson. S. (2003). (2006). Evaluation and Program Planning. JA. Laveault. Wolf. Crosson. Kyser. Examining.. & Caldwell. & Appleton. TJ (1996). Technology-supported formative and summative assessment of collaborative scientific inquiry. S. T. JJ (2004). Resnick. Research & Evaluation. 66. (2003).144 A.