You are on page 1of 288

Editör: Satılmış TEKİNDAL

Devrim ALICI
Gülşah BAŞOL
EĞİTİMDE
Mehtap ÇAKAN
Adnan KAN
ÖLÇME VE
Erol KARACA
Editör: Satılmış
Özlem Yeşim TEKİNDAL
ÖZBEK
DEĞERLENDİRME
Metin YAŞAR

3. Baskı
Editör: Prof. Dr. Satılmış Tekindal

EĞİTİMDE ÖLÇME VE DEĞERLENDİRME

ISBN 978-605-5885-16-8

Kitapta yer alan bölümlerin tüm sorumluluğu yazarlarına aittir.

© 2011, Pegem Akademi


Bu kitabın basım, yayın ve satış hakları
Pegem Akademi Yay. Eğt. Dan. Hizm. Tic. Ltd. Şti’ye aittir.
Anılan kuruluşun izni alınmadan kitabın tümü ya da bölümleri,
kapak tasarımı, mekanik, elektronik, fotokopi, manyetik, kayıt
ya da başka yöntemlerle çoğaltılamaz, basılamaz, dağıtılamaz.
Bu kitap T.C. Kültür Bakanlığı bandrolü ile satılmaktadır.
Okuyucularımızın bandrolü olmayan kitaplar hakkında
yayınevimize bilgi vermesini ve bandrolsüz yayınları
satın almamasını diliyoruz.

1. Baskı: Ekim 2008


2. Baskı: Ekim 2010
3. Baskı: Ekim 2011

Dizgi-Grafik Tasarım: Dide Kestek


Kapak Tasarımı: Gürsel Avcı
Baskı: Cantekin Matbaası
(Ankara-0312-3843435)

Yayıncı Sertifika No: 14749


Matbaa Sertifika No: 15372
Önsöz
Her sistemde olduğu gibi, eğitim sisteminin ürünlerinin de kalite kontrolü-
nün yapılmasına gereksinim vardır. Kalite kontrolü yapmak bir uzmanlık işidir;
rastgele, gelişigüzel yapılmaz; herkes yapamaz, yapmamalıdır da. Eğitim siste-
minin ürünü öğrencilerdir. Öğrencilerin öğretim programında belirlenen kaza-
nımları (bilgi, beceri, davranış, özellik vb.) edinme derecesi nedir; başka bir
deyişle öğrencilerin, öğretilmek istenenler anlamında kalitesi nedir; bunun,
sistemin kendisi ve istihdam edicilerin yararı açısından uzman kişilerce ortaya
çıkarılması kaçınılmazdır. Öğretmenlik bir uzmanlık mesleğidir, Eğitim Fakül-
telerinde bu mesleğe eleman yetiştirilmektedir.
Öğretmenler, uzmanlık mesleğinin gereği olarak, okullarda yetiştirilen öğ-
rencilerin başarılarının derecesini ölçme ve değerlendirme yardımıyla belirle-
meye çalışırlar. Öğretmenin öğrenci başarısı hakkında isabetli bir karar vere-
bilmesi için ölçme ve değerlendirme yapması ve ölçme ve değerlendirmenin de
geçerli ve güvenilir olması gerekir. Sonuçta, öğretmen ölçme ve değerlendirme
konusunu ne kadar iyi bilir ve uygulayabilirse öğrenci vb. hakkında o kadar
isabetli kararlar verebilir.
Bu kitabın bölümleri alanın uzmanları tarafından yazılmış ve bir uzman ta-
rafından edit edilmiştir. Bölüm yazarları, kendi bölümleri ile ilgili azami titizliği
göstermişlerdir, teşekkür ediyorum. Kitabın yazımında anlaşılır bir dil kullanıl-
masına, teoriden ziyade uygulamaya dönük olmasına, bilimselliğe ve Millî Eği-
tim Bakanlığının geliştirmiş olduğu ilköğretim ve ortaöğretim programları ile
uyumlu olmasına özen gösterilmiştir.
Eldeki kitaptan, üniversite öğretim elemanları, öğretmenler ve öğrencilerin
ders kitabı olarak; alanın uzmanlarının ise kendi alanına yönelik olarak yararla-
nabilecekleri umulmaktadır.

Kocaeli – 2008 Editör


Prof. Dr. Satılmış TEKİNDAL

iii
İkinci Baskının Önsözü

Son yıllarda eğitim bilimlerinde ortaya çıkan yönelimler, örneğin çoklu ze-
kâ, yaratıcılık, yapılandırmacılık vb. ölçme ve değerlendirme alanında da yeni
anlayışları getirmiştir. Geleneksel ölçme araçları olan testlerin yanı sıra
portfolyo, anekdot, akran değerlendirme vb. araçların kullanılması; değerlen-
dirmeye öğrencilerin dahil edilmesi (not vermek için değil), ona velilerin katıl-
ması ve değerlendirmenin sosyal çevreden bağımsız olmaması önerilmektedir.
Eldeki kitap, alanındaki bu gelişmelere paralel olarak yazılmış ve birinci baskısı
bittiği için bazı bölümleri revize edilerek ikinci baskının yapılmasına ihtiyaç
doğmuştur.
Bu eserin öğrencilere, öğretim elemanlarına, öğretmenlere, alanda çalışan
bilim insanlarına ve diğer ilgililere faydalı olacağı düşünülmektedir.

Kocaeli -2010

Editör
Prof. Dr. Satılmış TEKİNDAL

iv
Bölümler ve Yazarları

1. Bölüm: Ölçme ve Değerlendirmenin Önemi


Yrd. Doç. Dr. Metin YAŞAR
Pamukkale Üniversitesi Eğitim Fakültesi

2. Bölüm: Ölçme ve Değerlendirme ile İlgili Temel Kavramlar


Yrd. Doç. Dr. Metin YAŞAR
Pamukkale Üniversitesi Eğitim Fakültesi

3. Bölüm: Ölçme Araçlarında Bulunması İstenen Nitelikler


Yrd. Doç. Dr. Özlem Yeşim ÖZBEK
Gaziosmanpaşa Üniversitesi Eğitim Fakültesi

4. Bölüm: Eğitim Sistemimizde Yaygın Olarak Kullanılan


Test Türleri
Doç. Dr. Mehtap ÇAKAN
Abant İzzet Baysal Üniversitesi Eğitim Fakültesi

5. Bölüm: Öğrenci Performansının Değerlendirilmesinde


Kullanılan Diğer Ölçme Araç ve Yöntemleri
Yrd. Doç. Dr. Devrim ALICI
Mersin Üniversitesi Eğitim Fakültesi

6. Bölüm: Ölçme Sonuçları Üzerinde Yapılabilecek


İstatistiksel İşlemler
Yrd. Doç. Dr. Erol KARACA
Dumlupınar Üniversitesi Eğitim Fakültesi

7. Bölüm: Öğrenme Çıktılarını Değerlendirme ve Not Verme


Yrd. Doç. Dr. Gülşah BAŞOL
Gaziosmanpaşa Üniversitesi Eğitim Fakültesi

8. Bölüm: Ölçme Aracı Geliştirme


Doç. Dr. Adnan KAN
Gazi Üniversitesi Gazi Eğitim Fakültesi

v
İÇİNDEKİLER

Önsöz...................................................................................................................... iii
Bölümler ve Yazarları ............................................................................................... v
İçindekiler................................................................................................................ vi

1. Bölüm
ÖLÇME VE DEĞERLENDİRMENİN ÖNEMİ
(ss: 1/8)

Giriş ......................................................................................................................... 2
Eğitimde Ölçme ve Değerlendirmenin Önemi .......................................................... 2
Özet ......................................................................................................................... 7
Kaynakça ................................................................................................................. 7
Sorular ..................................................................................................................... 8

2. Bölüm
ÖLÇME VE DEĞERLENDİRME İLE İLGİLİ TEMEL KAVRAMLAR
(ss: 9/41)

Giriş ....................................................................................................................... 10
Ölçme .................................................................................................................... 12
Değişken ................................................................................................................ 14
Sürekli ve Süreksiz Değişken ............................................................................. 15
Nicel ve Nitel Değişkenler.................................................................................. 15
Bağımsız ve Bağımlı Değişkenler ....................................................................... 16
Ölçme Türleri ......................................................................................................... 18
Ölçme İşlemine Ait Sonuçların Gösterilmesi ...................................................... 20
Ölçmede Birim .................................................................................................. 20
Ölçmede Kullanılan Ölçekler .................................................................................. 22
Ölçmede Sıfır ..................................................................................................... 23
Ölçmede Ölçekler.............................................................................................. 24
Değerlendirme ....................................................................................................... 29
Değerlendirme Türleri ............................................................................................ 32
Özet ....................................................................................................................... 36
Kaynakça ............................................................................................................... 38
Sorular ................................................................................................................... 39

vi
3. Bölüm
ÖLÇME ARAÇLARINDA BULUNMASI İSTENEN NİTELİKLER
(ss: 43/89)

Giriş ....................................................................................................................... 44
Güvenirlik .............................................................................................................. 44
Ölçme Hataları ....................................................................................................... 46
Güvenirlik İndeksi ve Ölçmenin Standart Hatası .................................................... 46
Gerçek Puan Teorisi............................................................................................... 47
Güvenirliği Hesaplamak için Yöntemler ................................................................. 53
Güvenirliği Etkileyen Faktörler ............................................................................... 62
Geçerlik ................................................................................................................. 66
Geçerliği Etkileyen Faktörler................................................................................... 81
Kullanışlılık ............................................................................................................. 82
Özet ....................................................................................................................... 84
Kaynakça ............................................................................................................... 85
Sorular ................................................................................................................... 87

4. Bölüm
EĞİTİM SİSTEMİMİZDE YAYGIN OLARAK KULLANILAN
TEST TÜRLERİ
(ss: 91/126)

Giriş ....................................................................................................................... 92
Çoktan Seçmeli Maddeler ...................................................................................... 94
Doğru / Yanlış Maddeleri...................................................................................... 106
Eşleştirme Maddeleri ............................................................................................ 109
Kısa Cevaplı Maddeler ......................................................................................... 110
Yazılı Yoklamalar ................................................................................................. 114
Sözlü Sınavlar ...................................................................................................... 120
Ödevler ................................................................................................................ 121
Özet ..................................................................................................................... 123
Kaynakça ............................................................................................................. 125
Sorular ................................................................................................................. 125

vii
5. Bölüm
ÖĞRENCİ PERFORMANSININ DEĞERLENDİRİLMESİNDE
KULLANILAN DİĞER ÖLÇME ARAÇ VE YÖNTEMLERİ
(ss: 127/168)

Giriş ..................................................................................................................... 129


Öğrenci Performansının Değerlendirilmesi ........................................................... 130
Öğrenci Performansını İzlemeye Yönelik Çalışmalar............................................. 131
Performans Görevleri...................................................................................... 131
Öğrenci Gelişim (Seçki- Ürün) Dosyaları - Portfolyolar ................................... 136
Araştırma Projeleri .......................................................................................... 139
Gözlem................................................................................................................. 143
Görüşme......................................................................................................... 144
Öğrencilerin Değerlendirme Sürecine Katılımı ...................................................... 146
Öz Değerlendirme ................................................................................................ 146
Akran Değerlendirme...................................................................................... 149
Grup Değerlendirme....................................................................................... 151
Öğrenci Performansını Değerlendirmede Kullanılabilecek Ölçme Araçları ............ 152
Kontrol Listeleri .................................................................................................... 152
Dereceleme (Değerlendirme) Ölçekleri ........................................................... 154
Özet ..................................................................................................................... 160
Kaynakça ............................................................................................................. 162
Sorular ................................................................................................................. 164

6. Bölüm
ÖLÇME SONUÇLARI ÜZERİNDE YAPILABİLECEK
İSTATİSTİKSEL İŞLEMLER
(ss: 169/215)

Giriş ..................................................................................................................... 171


Verilerin Düzenlenmesi......................................................................................... 171
Veriler Üzerinde İstatistiksel İşlemlerin Yapılması.................................................. 178
Merkezî Yığılma Ölçüleri ................................................................................. 178
Dağılım Ölçüleri .............................................................................................. 185
İlişki Ölçüleri ................................................................................................... 205
Özet ..................................................................................................................... 211
Kaynakça ............................................................................................................. 212
Sorular ................................................................................................................. 214

viii
7. Bölüm
ÖĞRENME ÇIKTILARINI DEĞERLENDİRME VE NOT VERME
(ss: 217/238)

Giriş ..................................................................................................................... 218


Değerlendirme ..................................................................................................... 219
Değerlendirmenin Amacı...................................................................................... 220
Kriter Referanslı (Mutlak) Değerlendirme.............................................................. 221
Norm-Referanslı (Bağıl) Değerlendirme .......................................................... 224
Karşılaştırma ................................................................................................... 231
Kişisel Gelişim Dosyaları (Portfolio) ................................................................ 234
Öğretimi Değerlendirme ....................................................................................... 235
Öğretim Programını Değerlendirme ..................................................................... 235
Öğretim Hizmetini Değerlendirme ........................................................................ 235
Özet ..................................................................................................................... 236
Kaynakça ............................................................................................................. 237
Sorular ................................................................................................................. 238

8. Bölüm
ÖLÇME ARACI GELİŞTİRME
(ss: 239/276)
Giriş ..................................................................................................................... 240
Test Geliştirme ..................................................................................................... 240
Testin Amacının Belirlenmesi.......................................................................... 240
Ölçülecek Özelliğin Tanımlanması, Kapsamının Belirlenmesi ve Belirtke
Tablosunun Oluşturulması .............................................................................. 241
Test Maddelerinin Oluşturulması..................................................................... 242
Denemelik Maddelerin Gözden Geçirilmesi (Qualitative İtem Analysis) .......... 242
Denemelik Test Formunun Hazırlanması ........................................................ 245
Denemelik Test Formunun Uygulanması ve Puanlanması .............................. 247
Madde Analizi (Quantitative İtem Analysis)..................................................... 249
Madde Güçlük İndeksi .................................................................................... 249
Madde Ayırıcılık Gücü İndeksi ........................................................................ 251
Madde Analiz Yönteminin Seçilmesi ............................................................... 256
Çeldirici Seçenek Analizi................................................................................. 258
Diğer Madde İstatistikleri................................................................................. 259
Madde Varyansı ve Standart Sapması ............................................................ 259
Madde Güvenirlik Kat Sayısı........................................................................... 260
Test İstatistiklerinin Belirlenmesi ..................................................................... 263
Testin Aritmetik Ortalaması............................................................................. 263
Test Varyansı ve Standart Sapması................................................................. 264
Testin Ortalama Güçlüğü................................................................................ 265
Testin Güvenirliği............................................................................................ 266

ix
Testin Standart Hatası .................................................................................... 267
Nihai Test Formunun Oluşturulması ve Nihai Testin Psikometrik
Özelliklerinin Kestirilmesi ................................................................................ 268
Özet ..................................................................................................................... 271
Kaynakça ............................................................................................................. 273
Sorular ................................................................................................................. 274

EK A-Standart Normal Dağılım Tablosu............................................................... 277

x
1. Bölüm

ÖLÇME VE
DEĞERLENDİRMENİN ÖNEMİ

Metin YAŞAR
Pamukkale Üniversitesi

Kazanımlar

Bu bölümün sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir.


 Ölçme ve değerlendirmenin bilgisi
 Ölçmenin eğitim sistemindeki önemini açıklayabilme
 Değerlendirmenin eğitim sistemindeki önemini açıklayabilme
 Ölçme ve değerlendirme arasındaki ilişkiyi kavrayabilme
 Değerlendirmenin öğeleri arasındaki ilişkiyi açıklayabilme
 Eğitim sisteminde bireylerle ilgili isabetli kararların nasıl
verilebileceğini örneklerle açıklayabilme

Konu Başlıkları

 Giriş
 Eğitimde Ölçme ve Değerlendirmenin Önemi
 Özet
 Kaynakça
 Sorular
2 Eğitimde Ölçme ve Değerlendirme

Giriş
Bugün, milli eğitim sistemi içinde yer alan eğitim kurumları (okullar) ve
eğitim kurumlarında görev yapmakta olan eğitimciler sistem içinde birçok
alanda karar vermek zorunda kalmaktadırlar. Bu kararlar davranış
değişikliğine maruz kalan öğrencilerin akademik başarıları (öğrencilerin
güçlü veya eksik yanları) ile ilgili olabilir veya onların ihtiyaç duydukları
rehberlik hizmetleri hakkında, öğrencilerle ilgili olarak velileri
bilgilendirmek, uygulanmakta olan öğretim programlarının uygulama
aşamalarında karşılaşılan problemlerin tespit edilmesi ve çözümü için karar
vermek durumundadırlar. Bu durumlara ilişkin verecekleri kararların
doğruluğu eldeki ölçme sonuçlarının doğruluğuna ve kıyas için seçilen
ölçütün uygunluğuna bağlıdır. Ölçme sonuçları ne kadar güvenilir ve geçerli
ise verilecek kararlar da o denli doğru ve geçerli olacaktır. Tutarlı ve geçerli
kararlar verebilmek için ölçme sonuçları önemli görünmekle beraber asıl
olan ölçme sonuçlarının elde edildiği ölçme araçlarının güvenilir, geçerli ve
kullanışlılık özelliklerine sahip olmasıyla ilişkilendirilmektedir.
Hakkında değerlendirme yapılacak özelliklerin var olan büyüklüklerine
ait miktarları belirleyebilmek için onların ortaya çıkarılmasında kullanılacak
ölçme araçlarının oluşturulması, uygulanması ve uygulamadan elde edilecek
sonuçların yorumlanması ölçme ve değerlendirme alanına ait uzmanlık ve
becerileriyle çok yakından ilişkilidir.

Eğitimde Ölçme ve Değerlendirmenin Önemi

Eğitim, kişinin davranışlarında kendi yaşantıları yoluyla değişmeler


meydana getirme sürecidir (Ertürk,1972. s.12). Ertürk’ün eğitime ilişkin
tanımına bakıldığında en can alıcı noktanın davranış değişikliği olduğu
görülmektedir. Davranış değişikliği bireyin kendi yaşantılarına bağlı olarak
meydana gelmektedir. Yaşantı ise bireyin içinde bulunduğu ve etkileşimde
bulunduğu sosyal çevrenin bireyde meydana getirdiği kalıcı olma özelliği
gösteren iz/ler olarak düşünülebilir. Birey belli bir zamana kadar aile içinde
etkileşimde bulunmakta ve bu etkileşimlere dayalı olarak geçirmiş olduğu
yaşantılara bağlı olarak bir takım davranış değişikliği meydana gelmektedir.
Bir bireyde davranış değişikliğinin meydana gelmesi demek bireyde
öğrenmenin meydana gelmesi demektir.
Bireylerdeki öğrenmeler öncelikle içinde yaşadığı ailenin ve daha sonra
da bir üyesi olduğu toplumun, toplumsal yapılarına paralel davranışlar
kazanmaktadır. Bu duruma birey açısından bakıldığında “sosyalleşme–
kültürlenme” toplum açısından bakıldığında ise “sosyalleştirme–
Ölçme ve Değerlendirmenin Önemi 3

kültürleme” olarak nitelendirilebilir. Aslında bu bir süreci ifade etmektedir.


Ve bu süreç birey açısından öğrenme, toplum açısından ise öğretme
sürecidir.
Bu süreç belli bir süreye kadar informal (informal eğitim) olarak, belli
bir süreden sonra ise formal (formal eğitim) olarak devam etmektedir.
İnformal eğitim, gelişigüzel kültürlenmeyle gerçekleşen eğitimdir (Demirel
ve Kaya, 2001.s.7). İnformal eğitim, belli bir noktada kendiliğinden gelişen
bir süreç olarak kabul edilebilir. Formal eğitim ise okullarda veya
kurumlarda bir plan bir program uygulanarak gerçekleştirilen eğitimdir
(Demirel ve Kaya, 2001.s.8).
Eğitimin temel özelliklerinden biri belki de en önemlisi, bireyin
karşılaşacağı problemleri çözebilecek düzeyde bilişsel, duyuşsal ve
devinişsel özelliklere sahip olmasını sağlamaktır. Mademki bireylerin
yaşadıkları süreç içerisinde karşılaşacakları problemleri çözebilecek
düzeyde bilişsel, duyuşsal ve devinişsel özelliklere sahip olması bekleniyorsa
bu özelliklerin gelişigüzel bir eğitim sürecinde meydana gelmesini beklemek
kabul edilebilir bir durum değildir. Bundan dolayı bireylerin karşılaşacakları
problemlerin çözümünde kendi kendilerine yeterli hale gelebilmeleri için
belli bir plan ve program uygulamaya konularak, bu plan ve program
çerçevesinde istenilen özelliklerin davranışsal olarak oluşturulması mümkün
olabilsin.
Bireylere yukarıda belirtilen özelliklerin kazandırılması görevini okul
denilen eğitim kurumları üstlenmektedir. Okul bu görevi üstlenirken belli
bir plan ve program dahilinde ele almaktadır. Yani kasıtlı davranış
değişikliği meydana getirme süreci oluşturmaktadır. Okul bu kasıtlı süreci
oluştururken toplumsal gereksinimleri dikkate almaktadır. Bunun anlamı
okulun üstlenmiş olduğu görev, toplumun farklı alanlarda ihtiyaç duyduğu
nitelikli bireylerin yetiştirilmesi görevidir. Okullar anılan görevi yerine
getirirken bir sistem yaklaşımı anlayışının varlığına tanık olunmaktadır.
Sistem, en az bir hedefi gerçekleştirmek düşüncesiyle belli başlı alt yapıların
bir araya getirilmesi sonucunda ortaya çıkan dirik bir yapı olarak ifade
edilebilir. Her sistemde olduğu gibi eğitim sistemi de girdi, süreç (işlem
basamağı), çıktı ve kontrol öğelerinden oluşmaktadır. Eğitim sisteminin
kontrolü değerlendirme vasıtasıyla gerçekleştirilmektedir. Değerlendirme,
sistemi oluşturan öğelerin planlandığı gibi işleyip işlemediğini, varsa her
hangi bir noktasında işlemeyen kısımların belirlenip sistemin planlandığı
gibi işler hale getirilmesi için onarılmasına katkı sağlamaktadır. Bu katkı
hem girdi, hem süreç hem de çıktı hatta kontrol aşamasında söz konusudur.
4 Eğitimde Ölçme ve Değerlendirme

Eğitim sisteminin sağlıklı işleyişi için çok önem arz eden değerlendirme
öğesi bir karar verme, yargıda bulunma bir hükümde bulunma sürecidir.
Turgut (1977) değerlendirmeyi, ölçme sonuçları ile bir ölçütü kıyaslayarak
bir karara varma işlemi olarak tanımlamaktadır. Turgut’un değerlendirmeye
ilişkin tanımlamasına bakıldığında, değerlendirme sürecinin üç öğeden
oluştuğu görülmektedir. Bunlar sırasıyla ölçme (dolayısıyla ölçme
işleminden elde edilen ölçme sonuçları), ölçüt ve karar olduğu
görülmektedir. Ölçme, değerlendirmenin ön koşuludur. Ölçme işlemi,
dolayısıyla ölçme işleminden elde edilen ölçme sonuçları olmadan
değerlendirme olmaz.
Turgut (1977) ölçmeyi, bir niteliğin gözlenip gözlem sonuçlarının
sayılarla veya başka sembollerle gösterilmesidir. Ölçme, bir nesnenin, bir
bireyin belli bir niteliğe veya özelliğe ne derece sahip olduğunun
belirlenmesi amacına dayalı olarak yapılmaktadır (Kan, 2006). Ölçme
tanımı içinde geçen özellik kavramı bireyde bulunmasını istediğimiz ve
öğretim programı çerçevesinde oluşturmayı düşündüğümüz bilişsel,
duyuşsal ve devinişsel alanlarına özgü nitelikler olarak düşünülmektedir.
Ölçülen değişkenlerin objelerin kendileri değil, bireylerde var olduğu kabul
edilen özelliklerin belirlenmesi işlemi olarak kabul edilmektedir. Bireylerin
sahip oldukları bu özellikler durumdan duruma, zamandan zamana veya
bireyden bireye farklılıklar gösterebilir. Ölçmenin, bu özelliklerin bireylerde
var olan büyüklüklerine ilişkin miktarları arasındaki farklılıkları belirlemek
amacıyla ortaya çıktığını söylemek her halde yanlış olmasa gerek. Yani
ölçme farka dayalı olarak ortaya çıkmıştır denilebilir.
Eğitimde ölçmenin önemi bir bilim olma uğraşısının yanı sıra pratikte
verilecek olan kararlara bir dayanak sağlaması noktasında kendini
göstermektedir. Bu dayanak noktasının güçlü, tutarlı ve geçerli olabilmesi
onun bilim olma çabalarının yanı sıra bu alanda gün geçtikçe güçlü ölçme
araçlarının ve metotlarının geliştirilerek uygulamaya konma çabaları
bakımından da önem kazanmaktadır. Geliştirilen her güçlü ölçme aracı ve
metodunun uygulanmasıyla elde edilecek ölçme sonuçlarının güvenirlik ve
geçerlik düzeyinin yüksek olması, ölçmeye konu olan nitelik hakkında daha
doğru ve geçerli değerlendirmeler yapılmasına olanak sağlayacaktır.
Daha önce de ifade edildiği gibi bir sistem olarak dikkate alındığında
eğitim sistemi içinde yer alan ve her hangi bir durumda karar verme
noktasında bulunan kişilerin verecekleri muhtemel kararlar şöyle olabilir:
• Seçme ve yerleştirme ile ilgili kararlar
• Öğretim ile ilgili kararlar
Ölçme ve Değerlendirmenin Önemi 5

• Öğrencilerin ihtiyaç duydukları rehberlik ve ilgileri doğrultusunda


yönlendirilmeleri ile ilgili kararlar
• Öğrencilerin süreç içerisindeki başarıları veya başarısızlıkları ile
ilgili kararlar
• Uygulanmakta olan programın etkililiği ile ilgili kararlar
• Değerlendirme öğesinin değerlendirilmesine ilişkin kararlar
• Sistem içinde fiili olarak yer alan öğretmenlerin kendilerine yönelik
değerlendirmeleri ile ilgili kararlar
• Sistemin ayrılmaz ve asıl öğesi olan öğrencilerin öğretmenlere
ilişkin algılarına yönelik kararlar
• Sistemin çıktılarına yönelik kararlar
Seçme ve yerleştirmeye yönelik kararlar; özellikle öğrencilerin bir üst
basamakta yer alan programa geçip geçemeyeceğine yönelik olarak alınan
kararları belirtmektedir. Seçme ve yerleştirmeye yönelik olarak öğrencilerin
girmek istedikleri programlara seçilmeleri ve yerleştirilmeleri için yapılan
öğrenci seçme sınavları (ÖSS) örnek olarak gösterilebilir. Bu tür
sınavlardan elde edilen ölçme sonuçlarına bakılarak öğrencilerin tercih
ederek girmek istedikleri programın gerektirdiği ön koşul öğrenmelere
sahip olup olmadıklarına yönelik değerlendirmeler yapılmaktadır.
Yapılacak değerlendirmenin doğruluğu ve geçerliği ancak yapılan ölçme
işleminden elde edilen ölçme sonuçlarının güvenirliğine ve geçerliğine
bağlıdır. Bu anlamda doğru kararların verilmesi için ölçme ve ondan elde
edilen ölçme sonuçlarının önemi ortaya çıkmaktadır. Ayrıca ölçme,
öğrencilerin yerleştirilecekleri programlar hakkında yapılacak
değerlendirmelere de yasal dayanak noktasını oluşturmaktadır.
Eğitim sisteminin süreç basamağında uygulanmakta olan öğretim
programında yer alan ve öğrencilere kazandırılması ön görülen
davranışların hazırlanan öğretme-öğrenme ortamında ne derece
kazandırıldığının değerlendirilmesine yönelik kararların verilmesi
kaçınılmaz olmaktadır. Öğretme-öğrenme ortamının hazırlayıcısı ve
yürütücüsü konumunda olan öğretmenin, öğretme aşamasında yapmış
olduğu gözlemlere göre öğrencilerinin öğrenmeye yönelik her hangi bir
öğrenme güçlüğü içinde olup olmadıklarını, eğer öğrenme güçlüğü söz
konusu ise bu güçlüğün hangi nokta ortaya çıktığının belirlenmesi ve
alabileceği önlemlere yönelik değerlendirmeler söz konusu olabilir.
Öğretmenin yapacağı değerlendirmenin doğruluğu, ölçme işleminden elde
edilen ölçme sonuçlarının doğruluğuna bağlı olacaktır.
6 Eğitimde Ölçme ve Değerlendirme

Öğrencilerin öğretim süreci içinde gözlenerek onların akademik


anlamda başarıları, ilgileri, yetenekleri hakkında ölçümler elde edilmesi ve
bu ölçümlere dayanarak onların hangi alanda daha başarılı olabileceklerine
dair yönlendirilmeleri konusunda kararlar verilmektedir. Verilen kararların
(değerlendirmelerin) doğruluğu ölçme işleminde kullanılan ölçme
araçlarının, dolayısıyla da onlardan elde edilen ölçme sonuçlarının
güvenirlik ve geçerlik düzeylerinin derecesiyle yakından ilişkilidir. Burada
yapılacak yönlendirmelerin doğruluğu öğrencinin ilerideki mesleki
yaşantısında karşılaşacağı problemlerin çözümünde, mesleki olarak iş
doyumu veya üretken birey olup olmamasını etkileme gücüne sahip
olacaktır. Görülmektedir ki ölçme ve ona bağlı olarak yapılan
değerlendirmelerin bir kez daha önemi ortaya çıkmaktadır.
Bir okul, köy, ilçe, il, bölge veya ülke genelinde merkezi düzeyde değişik
kararlar almak olanaklıdır. Alınacak kararlar eğitim sistemini etkileyecek
nitelikte olabilir. Buna, seviye belirleme sınavları (SBS) örnek olarak
gösterilebilir. Bir okulun kendi öğrencilerinin diğer okulların öğrencileriyle
karşılaştırmasıyla kendi okul başarısı hakkında, ilçe kendi okullarının
başarılarını başka ilçelerin okullarının başarıları ile karşılaştırdığında kendi
okullarının başarıları hakkında, il kendi okullarını başka illerin okullarının
başarılarıyla karşılaştırdığında kendi okullarının başarıları hakkında, bir
bölge kendi okullarının başarılarını başka bölgelerdeki okulların başarıları
ile karşılaştırdığında bölge başarısı hakkında hangi noktada bulunduğuna
dair değerlendirme yapma olanağını bulabilecektir. Bu tür
değerlendirmelerin yapılabilmesi uygun ölçme araçlarının ve metotlarının
geliştirilip uygulanması ile olanaklı olarak görülmektedir.
Baykul’un (2000) da belirttiği gibi: kararların doğruluğu, ölçütün
uygunluğu yanında, ölçme sonuçlarının geçerlik ve güvenirliğine bağlıdır.
Eğitimde, eğitim programının sağlam olup olmadığını anlama, öğretimde
başvurulan metotların etkililik derecesinin saptanması, öğrencileri başarılı
olabilecekleri düşünülen alanlara yönlendirebilme, öğrencilerin öğrenme
güçlüklerini belirleme, öğrencilerin başarılarını saptama ve ölçme ve
değerlendirme öğesinin iyi işleyip işlemediğini görme gibi amaçlarla yapılan
değerlendirmelerin hepsi ölçme sonuçlarına dayanmaktadır.
Baykul’un yukarıdaki ifadeleri dikkate alındığında, eğitimde ölçme ve
değerlendir- menin ne denli önemli olduğu kendiliğinden ortaya
çıkmaktadır.
Ölçme ve Değerlendirmenin Önemi 7

Özet

Eğitim sistemine giren bireylerde davranış oluşturma, onların


istenmeyen davranışlarını ortadan kaldırma veya eksik olan davranışlarını
düzeltirken, sistemin kendisine ve işleyişine yönelik kontrollerin de yapılması
gerekmektedir. Eğitim sistemine yönelik kontroller değerlendirme yoluyla
yapılır. Yapılan değerlendirmelerin isabetli olması için ölçme sonuçlarına ve
bu ölçme sonuçlarının güvenilir ve geçerli olmasına gereksinim duyulur.
Eğitimde seçme ve yerleştirme, öğretim, rehberlik ve yönlendirme,
öğrencilerin başarıları, öğretim programının etkililiği vb. konularda kararlar
verilir. Eğitim sisteminin her aşamasında ve bir aşamanın her seviyesinde
ilgilenilen özelliğin derecesinin veya miktarının belirlenebilmesi için uygun
ölçme araçlarının ve metotlarının geliştirilip uygulanması ve bu
uygulamalardan elde edilen ölçme sonuçlarının bir veya birden fazla ölçüt
ile karşılaştırılarak isabetli kararlara varılmasının mümkün olması, eğitimde
ölçme ve değerlendirme alanındaki gelişmelere ve ölçümler ile ölçütün
güvenilir ve geçerli olmasına bağlıdır.

Kaynakça

Baykul, Y. (2000).Eğitimde ve Psikolojide Ölçme: Klasik Test Teorisi ve


Uygulaması. Ankara: ÖSYM Yayınları
Ertürk, S. (1972). Eğitimde “Program” Geliştirme. Ankara: Meteksan
Yayınları.
Kan, A. (2006) Eğitimde Ölçme ve Değerlendirme. Ankara: Ertem Matbaası.
Turgut, M.F. (1977) Eğitimde Ölçme ve Değerlendirme Metotları. Ankara:
Saydam Matbaacılık
8 Eğitimde Ölçme ve Değerlendirme

Sorular

1. Ölçme ve değerlendirme kavramlarını açıklayınız.


2. Değerlendirme kavramının anlamından hareketle, değerlendirmenin
öğelerini yazınız.
3. Eğitimde bireylerle ilgili isabetli kararlar vermenin neye veya nelere bağlı
olduğunu yazınız.
4. Ölçme ve değerlendirme arasındaki ilişkiyi açıklayınız.
5. Ölçmenin eğitim sistemindeki önemini yazınız.
6. Değerlendirmenin eğitim sistemindeki önemini yazınız.
7. Ölçme ve değerlendirmeye eğitim sisteminden örnekler yazınız.

Yrd. Doç. Dr. Metin YAŞAR

Yaşar, ilköğretimini Iğdır-Karakoyunlu’da, orta öğretimini ise Iğdır’da


tamamladı. 1988 yılında lisans programını, 1990 yılında Yüksek Lisans
programını ve 1999 yılında ise Doktora programını Hacettepe Üniversitesi
Eğitim Fakültesi Eğitim Bilimleri Bölümü Eğitimde Ölçme ve Değerlendirme
Anabilim Dalında tamamladı.
Aynı zamanda 1989-1994 yılları arasında YÖK/Dünya Bankası II.
Endüstriyel Eğitim Projesinde Eğitim Uzmanı olarak çalıştı. Yaşar, Şubat
1994 yılından beri Pamukkale Üniversitesi Eğitim Fakültesi Eğitim Bilimleri
Bölümü Eğitimde Ölçme ve Değerlendirme Anabilim dalında Öğretim Üyesi
olarak çalışmaktadır.
2. Bölüm

ÖLÇME ve DEĞERLENDİRME ile


İLGİLİ TEMEL KAVRAMLAR
Metin YAŞAR
Pamukkale Üniversitesi

Kazanımlar
Bu bölümün sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir.
 Açık sistem olarak eğitim sisteminin öğelerinin işlevlerini açıklayabilme
 Eğitimde ölçme ve değerlendirme kavramının anlamını açıklayabilme
 Öğretimde ölçme ve değerlendirmenin rolünü ifade edebilme
 Ölçme türlerini sınıflandırabilme
 Değerlendirme türlerini sınıflandırabilme
 Değerlendirme türlerinin işlevlerini açıklayabilme
 Ölçmede değişken kavramının anlamını örneklerle açıklayabilme
 Değişkenleri özelliklerine göre sınıflandırabilme
 Ölçme sürecini açıklayabilme
 Ölçmede sıfır kavramının anlamını kavrayabilme
 Ölçmede kullanılan ölçeklerin sınıflandırılmalarına ilişkin özellikleri
kavrayabilme
 Öğretimde değerlendirmenin gerekliliğini anlayabilme
 Değerlendirme türlerini örneklendirerek açıklayabilme

Konu Başlıkları
 Giriş
 Ölçme
 Değişken
 Değerlendirme
 Değerlendirme Türleri
 Özet
 Kaynakça
 Sorular
10 Eğitimde Ölçme ve Değerlendirme

Giriş
Ertürk (1993), İnsanı, biyo-kültürel ve sosyal bir varlık olarak tanımla-
maktadır. Ertürk’ün insan tanımına bakıldığında, insan denilen varlığa ait
üç özelliği vurguladığı görülmektedir. Birinci özelliği onun biyolojik boyu-
tunu, ikinci özelliğine bakıldığında ise onun kültürel boyutunu ve son olarak
üçüncü özelliği ise onun sosyal boyutunu oluşturmaktadır. Ancak Ertürk’ün
insana ilişkin vurguladığı bu üç özellik dikkate alındığında, dünyaya ilk gel-
diği haliyle kendi kendine yeterli olabilmesi ve yaşantısını idame ettirmesi
pek olası görünmemektedir. Tekin’in de (1993) söylediği gibi, dünyaya gö-
zünü açan insan yavrusunun, yaşamını sürdürebilmesi ve yaşamın gerekleri-
ni yerine getirebilmesi açısından, göreli de olsa, kendi kendine yeterli hale
gelebilmesi uzun zaman alır.
İnsanın kendi kendine yeterli hale gelebilmesi için bir sürece ihtiyaç
duyulduğu gerçeği ile karşı karşıyayız. Bireylerin gelişim dönemlerinin özel-
likleri de dikkate alınarak, insanın bilişsel, devinimsel ve duyuşsal özellikle-
rin geliştirilmesi gerekmektedir. Buradan çıkarılması gereken anlam, birey-
lerde istendik yönde davranış oluşturma veya davranış değişikliği meydana
getirmenin kaçınılmazlığıyla karşı karşıya kalmaktayız. Bireylerde davranış
değişikliğinin informal veya formal anlamda oluşturulması olanaklıdır.
İnformal anlamda davranış oluşturma, herhangi bir plana programa dayan-
mayan öğrenmeleri ifade eder. Bu tür davranış değişikliği (öğrenme) en
yakın çevre olan aile veya bireyin etkileşim içinde olduğu sosyal çevreyle
oluşturduğu yaşantılara dayalı olarak gerçekleşebilir. Formal anlamda dav-
ranış oluşturma ise eğitim sistemi içinde yer alan eğitim kurumları tarafın-
dan yani okullar tarafından gerçekleştirilmektedir. Kurumlarda veya okul-
larda belli bir plan ve program (eğitim programı) çerçevesinde gerçekleşti-
rilmeye çalışılan davranış değişikliğini veya davranış oluşturma çabası
formal anlamda davranış oluşturma olarak nitelendirilebilir.
İster informal anlamda olsun ister formal anlamda olsun davranış oluş-
turma veya istenmeyen davranışların ortadan kaldırılması veya davranış
değişikliği meydana getirme süreci, eğitim kavramıyla karşılanmaktadır.
Eğitim, bireyin davranışlarında kendi yaşantısı yoluyla kasıtlı olarak istendik
değişme oluşturma süreci olarak tanımlanmaktadır (Özçelik, 1981; Ertürk,
1993; Tekin, 1993; Demirel, 2005; Demirel ve Kaya, 2007).
Sönmez (2003) ise eğitimi; fiziksel uyarımlar sonucu, beyinde istendik
biyo-kimyasal değişiklikler oluşturma süreci olarak tanımlamaktadır. Yukarı-
da verilen tanımlara bakıldığında iki kritik kavramla karşılaşılmaktadır.
Bunlardan birincisi istendiklik diğeri ise süreç kavramlarıdır. İstendikliğin
ölçüsü nedir? Hangi özelliklerin istendik olduğu nasıl ve neye göre belirle-
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 11

necek? Bunların ölçüt olarak kabul edilmesi durumunda bu ölçütler takımı


her zaman toplum için uygun olabilecek midir? Bu soruların mutlaka cevap-
landırılması gerekmektedir. İstendik kavramının dışında önemli ikinci kav-
ram olarak süreç görülmektedir. Süreç, birikik, ucu açık, tutarlıya doğru geli-
şen dirik bir örüntü olarak tanımlanabilir (Sönmez, 2003, s.2)
Bireylerde istendik davranış oluşturma süreci olarak görülen eğitimin
bu özelliğinden dolayı açık bir sistem olarak kabul edilmesinde herhangi bir
sıkıntı görülmemektedir. Sistem, girdi, işlem, çıktı ve dönütten oluşan ve en az
bir hedefi gerçekleştirmek üzere örgütlenip uygulamaya konan ve her uygulama
sonucuna göre yeniden düzenlenen dirik bir örüntü olarak tanımlanabilir
(Sönmez, 2003, s.2).

Girdiler İşlem Basamağı Çıktılar

➣ Öğrenci sayısı, yaşı, cinsiyeti Eğitim Programlarında ➣ Öğrenci sayısı, yaşı, cinsiyeti
➣ Öğrencinin hazır bulunuşluk kazandırılması öngörülen ➣ Öğrencilerin bilişsel,
düzeyi özelliklerin kazandırılması için devinişsel ve duyuşsal olarak
gerekli olan her türlü zihinsel ve ulaşabildikleri erişi
➣ Yatırım
devinimsel etkinlikler, zaman
➣ Araç-gereç ve Donanım ➣ Okulda üretilen mal ve
hizmet karşılığında elde
➣ Sisteme dahil olan yeni bilgi
edilen kazanç
vb.
➣ Kazanılan kurumsal
anlamda deneyim

DÖNÜT DÖNÜT DÖNÜT

Şekil 2.1 Açık Bir Sistem Olan Eğitimin Öğeleri


Açık bir sistemin girdi basamağı, enerji, sermaye, işlenmemiş madde,
yarı işlenmiş madde, birey, bilgi vb. değişkenlerden oluşmaktadır. Sistemin
işlem basamağı ise hedefi gerçekleştirici her türlü zihinsel, fiziksel etkinlik-
ler ve zamanı içermektedir. Sistemin çıktılar basamağı, yeni enerji, ürün ve
davranışları içermektedir. Sistemin son öğesi olan dönüt ise bir işlem sonu-
cunda sisteme işlemle ilgili olarak bilgi vermek, geri bildirimde bulunmak
şeklinde düşünülebilir. Bu özelliğinden dolayı, dönüt, sistemin vazgeçilmez
özelliklerinden biri olarak kabul edilmektedir. Daha önce de belirtildiği gibi
her sistemin gerçekleştirmeyi düşündüğü en az bir hedefi söz konusudur;
dönüt, sistemin gerçekleştirmeyi düşündüğü hedefe ulaşılma çabalarında
herhangi bir sıkıntının olup olmadığının saptanması konusunda gerekli bilgi
akışını sağlama gibi özel bir görevi yerine getirmektedir. Kısacası dönüt
12 Eğitimde Ölçme ve Değerlendirme

sistemin kontrol görevini üstlenmiş durumdadır. Sistemde kontrol ise değer-


lendirmeler vasıtasıyla yapılmaktadır. Değerlendirme, kendisi de dâhil ol-
mak üzere, eğitim sistemindeki öğelerin iyi işleyip işlemediğini, varsa işle-
meyen yönlerinin saptanmasını sağlayarak, sistemin yeni baştan gözden
geçirilerek onarılmasına büyük katkı sağlamaktadır (Baykul, 2000, s.88).
Değerlendirme bir karar verme işi olarak, ölçme sonuçlarının bir ölçüt
ile karşılaştırılarak bir karara varma işi olarak tanımlanabilir (Turgut, 1984).
Bu tanım dikkate alındığında değerlendirme işleminde ölçme sonuçları,
ölçüt ve karar olmak üzere üç temel öğe olduğu hemen dikkat çekmektedir.
Bu üç temel öğeden biri olan ölçme, değerlendirmeye dayanak noktası ola-
cak veri elde etme işlemidir. Ölçüt ise karar vermede kullanılan referans
olarak ifade edilebilir. Karar ise bir hüküm ortaya koyma işidir. Değerlen-
dirmenin (verilen kararın) doğruluğu, dayanak noktası konumunda olan
ölçme sonuçlarının güvenirlik ve geçerlik derecesine bağlıdır.
Eğitimde, uygulaya konan eğitim programlarının sağlam olup olmadı-
ğını, bireylere planlandığı gibi davranışların kazandırılması için öğretimde
başvurulan metotların etkililik derecesinin saptanması, öğrencilerin başarılı
olabilecekleri düşünülen alana doğru yönlendirilmelerini sağlamada, öğre-
tim aşamasında öğrencilerin öğrenme güçlüklerinin hangi noktalarda oldu-
ğunun tespit edilmesi, öğrencilerin uygulanmakta olan eğitim programları
çerçevesinde başarılarının tespit etme ve tüm bunlar gerçekleştirilirken
ölçme ve değerlendirme öğesinin iyi çalışıp çalışmadığının belirlenmesi
amacına yönelik yapılan bütün değerlendirmelerin tamamı ölçme sonuçla-
rına dayanmaktadır. Bu bakımdan ölçme sonuçlarının güvenirlik ve geçerlik
derecelerinin yüksek olması, değerlendirmelerin doğruluk derecesini artıra-
caktır.

Ölçme

Stevens ölçmeyi, “eşyaların ve olayların algılanabilen yönlerine bazı ku-


rallara göre sayılar vermektir” ifadesini kullanarak tanımlamaya çalışmıştır
(Turgut ve Baykul, 1992, s. 20-21). Yine Turgut (1984) ölçmenin tanımını
Stevens’ın tanımına paralel olarak, “Bir niteliğin gözlenip gözlem sonucu-
nun sayı veya sembollerle gösterilmesidir.” şeklinde tanımlamıştır.
Magnusson ölçmeyi, “geçerli görgül yollarla test edilebilecek kurallar çerçe-
vesinde nesnelere belli özelliklere sahip oluş derecelerine göre sayılar ve
semboller vermektir” şeklinde tanımlamaktadır (Kan, 2006, s.3).
Çok geniş anlamda bakıldığında ölçmede, ölçme konusu olan şey, bir
özelliktir. Belli bir özelliğe sahip olup olmama veya sahip oluş derecesi nes-
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 13

neden nesneye, durumdan duruma, aynı nesne içinde zamandan zamana


değişebilir (Tekin, 1993, s.31). Yukarıdaki ifadeye bakıldığında ölçme belirli
bir özelliğin saptanması işlemi olarak görülebilir. Ölçülmeye çalışılan özellik
bakımından bireyler arasında farklılıklar söz konusu olabilir. Ölçme bireyler
arasındaki bu farkların derecesini veya miktarını saptamaya çalışma işlemi-
dir. O halde fark kavramı ölçmede önemli bir kavram olarak düşünülebilir.
Bir anlamda denilebilir ki ölçme, farktan doğmuştur. Gerçekten de bütün
insanlar eşit derecede zeki olsalardı zekâ kavramı, aynı uzunlukta olsalardı
boy kavramı, her yer her zaman aynı sıcaklıkta olsaydı sıcaklık kavramı ol-
mazdı ve dolayısıyla bunların ölçülmesi diye bir şey olmazdı (Tekin, 1993,
s.31).
Ölçme, günlük hayatın yanı sıra bilimin bütün dallarında da önemli bir
yer tutmaktadır. Bilim bir yandan kuramsal yapı ve öğeleri, diğer yandan
deneysel verileri bulunan bir sistem olarak düşünülebilir. Bilimin amacı, bu
sistemin elemanları arasındaki ilişkileri meydana çıkarıp doğrulamak, doğ-
rulanmış bağıntıları genellemek ve genellemelerden kanunlara varmaktır.
Bir kuramsal yapının kurulmasında ölçme gerekmez, fakat o kuramsal yapı-
dan çıkarılan ilişkilerin doğru olup olmadığının belirlenmesi için gözlem ve
ölçme zorunluluk göstermektedir (Baykul, 2000; Kan, 2007).
Yukarıda verilen açıklamaya bakıldığında her bilim dalı kendine özgü
özelliklerinden hareket ederek, kendi amacını gerçekleştirebilmek için,
ölçme yöntemlerini geliştirerek kullanmaya başlamıştır. Bu özelliğinden
dolayı ölçme, ülkemizde son yıllarda bilim dalları itibarıyla hızlı gelişme
göstermektedir.
Belli bir özelliğe veya niteliğe sahip oluş derecesi, durumdan duruma,
gözlemden gözleme, zamandan zamana kişiden kişiye değişiklik gösterebi-
lir. Burada yapılan açıklama aslında bir değişken kavramını işaret etmekte-
dir. Çeşitli değerler alabilen bir niteliğe, daha doğrusu onun ölçülerine,
matematik dilinde değişken denir ( Turgut,1984,s.8).
➣ Sınıftaki yazı tahtasının yüksekliği 140 cm.dir
➣ Türkiye’de 2007 yılında ortalama sıcaklık 32 derece oldu.
➣ Ümit Yaşar matematik sınavında aldığı puan itibarıyla birinci sırayı aldı.
➣ Tilbe Yaşar İlköğretim okulundan pekiyi derecesi ile mezun oldu.
➣ Beden eğitimi dersinde öğretmen öğrencileri bayan ve bay şeklinde
sınıflandırarak farklı hareketler yaptırdı.
➣ Sevilay 2006 ÜDS’den 73 puan aldı.
➣ Batuhan Obaoğlu’nun sınıfında 12 erkek, 14 kız öğrenci vardır.
14 Eğitimde Ölçme ve Değerlendirme

Yukarıda yer alan örneklerin her birinde belirli bir nitelik gözlenmiştir.
Sınıftaki öğrenci sayısı, Türkiye’deki 2007 yılına ait ortalama sıcaklık,
Sevilay’ın 2006 ÜDS’den aldığı puan, Ümit Yaşar’ın matematik dersindeki
başarısı, Tilbe Yaşar’ın ilköğretim okulundan pekiyi derecesi ile mezun
olması, beden eğitimi dersinde öğretmenin öğrencilerini cinsiyetlerini dik-
katte alarak kız ve erkek öğrencilere farklı hareketler yaptırması ve Batu-
han Obaoğlu’nun sınıfında 12 erkek ve 14 kız öğrencinin bulunması gibi
özelliklere bakıldığına birbirinden farklı özellikleri ifade etmekte oldukları
görülmektedir.
Yukarıdaki örneklere bakıldığında geniş anlamda birer ölçme belirtil-
mektedirler. Bunlar herhangi bir değişkenin belirli bir niteliğini ifade et-
mektedirler. Ölçme sonuçları sayı veya başka bir sembol ile gösterilmiştir. O
halde ölçme çok geniş anlamda niteliklerin nicelendirilmesi veya semboller-
le gösterilme işlemi olarak ifade edilebilir. Bu açıklamadan hareket edilerek
şu sonuca ulaşılabilir; ölçme bireylerin, nesnelerin veya olayların kendisini
değil onlara ait olduğu düşünülen niteliklerin saptanmasını kendine konu
edinmektedir.
Gerçekte ölçülen şey bireylerin kendileri değil onlara ait olan veya on-
larda bulunduğu düşünülen bir takım özelliklerin var olma derecesi veya
miktarıdır. Kısacası ölçmede değişkenlerin belirli bir niteliğinin saptanma-
sına çalışılmaktadır. Bu durumda değişken kavramının açıklanması yerinde
olacaktır.

Değişken
Değişken, durumdan duruma, gözlemden gözleme farklı değerler alabi-
len özelliklere denir. Bunun da ötesinde değişken, en az iki sonucu olan
veya değişebilme özelliğine sahip olan her şey olarak ifade edilebilir.
Değişkenlere ilişkin yapılan sınıflamalara bakıldığında;
➣ Sürekli ve süreksiz değişken,
➣ Nicel ve nitel değişken,
➣ Bağımlı ve bağımsız değişken olarak sınıflandırılmaktadır. Burada-
ki sınıflandırılması yapılan değişkenlere ilişkin küçük açıklamaların
yapılmasında yarar olacağı düşünülmektedir.
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 15

Sürekli ve Süreksiz Değişken


Sürekli Değişken: Matematiksel olarak herhangi iki değer arasında da-
ima başka değer bulunabilen değişkenlere sürekli değişken denir
(Baykul,1996,s.15). Sürekli değişken, değişkene ait iki değeri arasında teorik
olarak sonsuza kadar değerler yer alabilmekte veya başka bir ifade ile iki
değerin arası sonsuza kadar bölünebilme özelliğine sahiptir. Bu özelliği
gösteren değişkenler sürekli değişken olarak kabul edilir. Sürekli değişkene
örnek olarak, bir kişinin ağırlığı, yine bir kişinin zekâ düzeyi veya bir kişinin
herhangi bir derse ait akademik başarısını göstermek mümkündür.
Süreksiz (kesikli) Değişken: Süreksiz değişken, sürekli değişkenin ak-
sine, değişkenin farklı iki değeri arasında başka bir değer hiç yoktur veya
birkaç değerden başka değerler bulunamaz. Bu özellikteki değişken süreksiz
değişken (kesikli) olarak adlandırılmaktadır. Süreksiz değişkenin değerleri-
nin mutlaka bir bitim noktası bulunmaktadır. Örneğin bir kişinin medeni
durumu ele alındığında kişiyi bu özelliğe göre şöyle tanımlamak mümkün-
dür; bekâr, sözlü, nişanlı, evli veya dul olarak betimlenebilir. Bu kategoriler
arasında başka bir değerin veya sıfatlandırmanın olamayacağını, olsa bile
ancak bir veya iki sıfatlandırma mümkün olabilecektir. Sonuç olarak sıfat-
landırmanın belirli bir noktada nihayet bulması kaçınılmazdır.

Nicel ve Nitel Değişkenler


Nicel Değişken: Bazı özellikler sayılar kullanılarak açıklanabilir veya
belirli bir niteliğini ifade etmek için sayılar kullanılması onların anlamları-
nın daha iyi anlaşılması bakımından yarar sağlayabilir. Bu gibi durumlarda
değişkenin değerlerini sayılar kullanarak ifade etmekte fayda vardır. Eğer
değişkene ait değerler sayılarak kullanılarak ifade ediliyor ise bu değişkene
nicel değişken denir. Kısacası değerleri sayılarla ifade edilebilen değişken-
lerdir. Örneklendirilecek olunursa, aynen sürekli değişken örneğinde oldu-
ğu gibi, bir kişin boyunun uzunluğuna ait değer, akademik başarı değişkeni-
ne ait değer, bir zekâ testinden elde edilen zekâ (değişkenine ait) puanı v.b
değerleri nicel değişken olarak kabul edilmektedir.
Nitel Değişken: Bazı değişkenlerin değerlerini sayılarla değil de sıfatlar-
la (nitelendirmelerle) ifade etmek daha anlamlı olabilmektedir. Bir değiş-
kenin değeri sayılarla ifade edilme yerine sıfatlarla ifade ediliyorsa bu de-
ğişkene nitel değişken denir. Bireylerin cinsiyetleri, medeni durumları,
mensubiyetleri, tuttukları futbol takımları nitel değişkene örnek olarak veri-
lebilir.
Özelliklere sayıların karşı getirilmesi, matematiğin kural ve işlemlerinin
uygulanması sayesinde, özelliklerin büyüklüklerinin ve aralarındaki ilişkile-
16 Eğitimde Ölçme ve Değerlendirme

rin çalışılmasına imkân sağlar. Değişkenlerin nitel veya nicel olmaları, onla-
rın aldıkları değerlere uygulanabilen işlemlere yani sayı ve sıfatlara uygula-
nabilen işlemlerle ilgilidir. Bu sayı ve sıfatlara ölçme sonuçları denildiğine
göre, değişkenin nicel veya nitel olması onun değerlerine uygulanabilen
işlemlere daha iyi bir değişle ölçme sonuçlarının ölçek değerleri ile ilgilidir (
Turgut ve Baykul, 1992; Baykul, 1996, s. 14).

Bağımsız ve Bağımlı Değişkenler


Değişkenlerle ilgili yapılan bir başka sınıflandırma ise onların başka
değişkenlerden etkilenip etkilenmedikleri durumudur. Bu özelliğe göre
değişkenler sınıflandırıldığında bağımsız ve bağımlı değişken kavramları
ortaya çıkmaktadır.
Bağımsız Değişken: Başka bir değişkenden etkilenmeyen ya da başka
bir değişkene bağlı olmadan değerler alabilen değişkenlere bağımsız değiş-
ken denir.
Bağımlı Değişken: Başka bir değişkenden etkilenerek veya değişkenle-
re bağlı olarak farklı değerler alabilen değişkenlere bağımlı değişken denir.
Daha önce de ölçmenin, bir niteliğin gözlenip gözlem sonuçlarının sayı
veya sembollerle ifade edilmesi işlemi veya süreci olduğu vurgulanmıştı.
Ölçme, ölçülen özelliğe göre farklı türde olabilmekte ve ölçme işlemi-
nin yapılabilmesi için ilk olarak ölçülecek özelliğin tanımlanması, daha son-
ra ölçülmesi düşünülen özelliğe uygun sayı veya semboller kümesinin belir-
lenmesi ve son olarak da ölçülmesi düşünülen özelliğe hangi sayı veya sem-
bollerin verileceğini gösteren kural veya kuralların gösterilmesi gerekiyor-
du. Buradan da anlaşılacağı üzere ölçme işlemi bir süreci gerektirmektedir.
Bu süreç aşağıdaki şekilde olduğu gibi gösterilebilir.

ÖLÇME SÜRECİ

Ölçülecek Özelliğin Ölçme Aracının Ölçme İşleminin Ölçme Sonuçlarının


Belirlenmesi Seçilmesi Gerçekleştirilmesi İfade Edilmesi

Şekil 2.2 Ölçme Sürecinin Aşamaları


Ölçülecek Özelliğin Belirlenmesi: Yapılan her ölçme işleminin mutlaka
bir amacı bulunmaktadır. Veya bir amacının bulunması gerekmektedir.
Bütün bilimsel çalışmalarda, yapılacak işlemlerin sonucunda belirlenen
hedeflere ulaşma çabaları bulunmaktadır. Ölçme işlemini gerçekleştirecek
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 17

olan kişinin bu aşamada ölçme işlemine konu olan özelliğin ne olduğunu


tanımlaması gerekmektedir. Ölçme işlemini yapan kişi bir grup öğrencinin
duyuşsal alana ait belirli bir niteliğini mi, yoksa bilişsel alana ilişkin belirli
bir niteliği mi veya psiko-motor alana özgü belirli bir niteliği mi ölçme ko-
nusu olarak almaktadır. Ölçmeye konu olan özelliğin tam olarak belirlen-
mesi gerekmektedir. Bunun gerekçesi, bilişsel özelliklerin ölçülmesi veya
duyuşsal özelliklerin ölçülmesinde farklı yol izlenmesinden dolayı ölçülecek
özelliklerin belirlenmesi ölçme sürecinin ilk basamağını oluşturmaktadır.
Ölçme Aracının Seçilmesi: Ölçmeye konu olan özelliğe karşı gelen de-
ğerin saptanmasını en iyi şekilde sağlayacak ölçme aracının belirlenmesini
ifade eden basamak olarak kabul edilmektedir. Ölçme aracının seçiminde
dikkate alınması gereken şey ölçme aracının, ölçmeye konu olan özelliğin
istenilen şekilde mümkün olduğu ölçüde, güvenilir ve geçerli bir şekilde
ortaya çıkarabilme özelliğine sahip olmasıdır. Ölçme işleminden elde edilen
ölçümler, ölçme işleminin amacına uygun şekilde ifade edilmesi için analize
tabi tutularak ortaya çıkan sonuçların söz konusu özelliği daha anlamlı bir
şekilde ifade edilmesine olanak sağlamalıdır. Bu katkıyı gerçekleştirebilecek
yapıdaki (özellikteki) ölçme aracının seçilmesi gerekliliğini ifade eden ba-
samaktır.
Ölçme İşleminin Gerçekleştirilmesi: Ölçmeye konu olan özelliğin, öğ-
rencilerde var olma derecesinin ortaya çıkarılması için gözlemin gerçekleşti-
rildiği aşamadır. Daha önce de belirtildiği gibi ölçülecek özelliğin tanım-
lanmasından ve ölçüme konu olan özelliği ortaya çıkaracak ölçme aracının
belirlenmesinden sonra ölçme sürecinin üçüncü basamağı, gözlem olarak
bilinmektedir. Gözlem yani ölçme işlemi gerçekleştirilirken, uygun zamanın
belirlenmesi, hazırlanan ölçme aracının rahat bir şekilde uygulanabilmesi
için uygun bir ortamın seçilmesi gerekmektedir. Bu basamakta ölçme işlemi
gerçekleştirilirken öğrencilerde bulunduğu düşünülen davranışların (öğ-
renmelerin, gücün, yeteneğin v.b.) ortaya çıkmasını engelleyecek türdeki
değişkenlerin mümkün olduğu ölçüde kontrol altında tutulmasına özen
gösterilmesi gerekmektedir. Öğrencilerdeki öğrenmelerin ortaya çıkmasını
engelleyecek istenmeyen değişkenlerin kontrol altında tutulması durumun-
da elde edilecek ölçme sonuçlarının daha güvenilir ve geçerli olacağı göz
ardı edilmemelidir.
Ölçme Sonuçlarının İfade Edilmesi: Ölçme işleminde, ölçmeye konu
olan özelliğe karşı gelen değerin daha anlaşılır olması için uygun semboller-
le veya sayılarla ifade edilmesi gerekir. Ölçme işleminde, ölçmeye konu olan
özelliğe ait değerleri ifade eden sayı veya semboller ölçme sonucu olarak
adlandırılmaktadır. Nihayetinde ölçme sonuçları, sayı veya semboller tek
başına fazla anlam ifade etmeyebilirler. Ölçme sonuçları olarak nitelendiri-
18 Eğitimde Ölçme ve Değerlendirme

len sayı ve sembollerden daha anlamlı, anlaşılır, açıklanabilir, ölçmedeki


amaca bağlı olarak yorumlanabilir, mukayese edilebilir sonuçlara ihtiyaç
duyulabilir. Bütün bunların ötesinde farklı birimlerden elde edilen ölçme
sonuçlarının karşılaştırılması gerekebilir. Bunun için ölçme sonuçlarının bir
takım istatistiksel yöntem veya teknikler kullanılarak analiz edilmesine ge-
rek duyulabilir. Ölçme sonuçlarının sembollerle gösterilmesi durumunda,
burada elde edilen ölçme sonuçları ile ancak sınıflamaya veya sıralamaya
dayalı istatistikler kullanılabilir. Sınıflama veya sıralamaya dayalı istatistik-
ler fazla anlamlı sonuçlar vermeye uygun değildir. Bunun için ölçme sonuç-
larının semboller yerine sayılarla gösterilmesi daha uygun olacağı bir ger-
çektir. Çünkü herhangi bir özelliğe karşılık gelen değerin sayılarla gösteril-
mesi durumunda, sayısal değerler üzerinde istatistiksel yöntem veya teknik-
ler kullanılarak ihtiyaç duyulan çözümlemelerin yapılması uygun olduğun-
dan ölçme sonuçlarının (değişkenin doğasına bağlı olarak) sayısal değerler
olarak gösterilmesi daha uygun olacaktır.
Daha önce de vurgulandığı gibi gerçekte ölçülen şey olayların veya bi-
reylerin kendileri değil onlara ait olduğu düşünülen bir takım özelliklerin
var olma derecesi veya miktarının saptanması işlemidir. Burada belirtilen
özelliklerin, değişkenlere karşılık gelen değerlerin saptanması ve işlemin
sonucunda değişkenlere karşılık gelen değerlerin sayılarla veya sembollerle
ifade edilmesidir. Değişkenlere karşılık gelen değerlerin saptanması nokta-
sında gerçekleştirilen ölçme işlemine dayalı olarak ölçme iki türe ayrılmak-
tadır. Bunlardan birincisi doğrudan ölçme diğeri ise dolaylı ölçmedir.

Ölçme Türleri
Ölçme kavramı, daha önce bir niteliği gözlemek ve gözlem sonuçlarının
sayı veya sembollerle ifade edilmesi olarak tanımlanmıştı. Ölçme türü ise,
ölçülen veya ölçülmesi düşünülen özelliğe ait bir niteliğin ortaya çıkarılma
(gözlenme) şekline ve izlenen yönteme (ne şekilde yapıldığına) bağlı olarak
sınıflandırılmaktadır. Kan tarafından yapılan sınıflandırmada, üç türlü öl-
çeme olduğu belirtilmektedir. Bu ölçme türleri sırasıyla (1) doğrudan ölçme
(2) dolaylı ölçme ve (3) türetilmiş ölçme olarak ifade edilmektedir. Buna
karşılık (Turgut,1984;Tekin,1993, Bahar ve diğerleri, 2006) ise ölçme türü-
nü, (1) doğrudan ölçme ve (2) dolaylı ölçme olarak sınıflandırmaktadırlar.
Onlara göre ancak dolaylı ölçme de kendi içinde,(a) göstergeyle ölçme (b)
türetilmiş ölçme olarak ikili sınıflandırmaya tabi tutulmuştur.
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 19

Ölçme Türleri

Doğrudan Ölçme Dolaylı Ölçme Türetilmiş Ölçme

Şekil 2.3 Ölçme Türleri


Doğrudan ölçme: Ölçmeye konu olan bazı değişkenlere ait değerler
doğrudan doğruya gözlenmeye uygun olabilmektedir. Söz konusu değerle-
rin doğrudan gözlenebilmesine olanak sağlayan ölçme, doğrudan ölçme
olarak ifade edilebilir. Matematik dersi saatinde, derste olan ve olmayan
öğrencilerin sınıf listesine göre yoklama alınarak tespit edilmesi (gözlenme-
si) bir ölçme işlemi olarak kabul edilir ve burada kullanıldığı var sayılan
ölçme türü ise doğrudan ölçmeye bir örnek olarak gösterilebilir. Doğrudan
ölçmede en belirgin özellik, ölçmeye konu olan değişkenin belirli bir niteli-
ğinin gözlenmesi sırasında, değişkenin söz konusu niteliğinin ortaya çıka-
rılması aşamasında başka bir değişken kullanılmadan söz konusu niteliğin
saptanmasını olanaklı hale getirmesidir (Tekin, 1982; Turgut, 1984; Turgut
ve Baykul 1992; Kan, 2006).
Dolaylı ölçme: Ölçmeye konu olan değişkenin belirli bir niteliğinin var-
lığına ilişkin derecesini veya miktarının doğrudan gözlenmesi mümkün ol-
mayan durumlar da olabilir. Doğrudan gözleme uygun olmayan değişkenin
niteliğinin var olma derecesini veya miktarını belirlemek için bir başka de-
ğişken yardımıyla ölçme işlemi yapılarak söz konusu niteliğin derecesinin
veya miktarının saptanmasında kullanılan ölçme türüne dolaylı ölçme denir.
Örneklendirmek gerekiyorsa, herhangi bir dersi alan bir grup öğrencinin o
derse ilişkin başarılarının saptanması ölçme konusu ise, başarı değişkeninin
doğrudan gözlenmesi mümkün değildir. Öğrencilerin derse özgü başarıları-
nın derecesinin saptanabilmesi için öğrencilerin kendilerine sorulan sorula-
ra verecekleri cevaplar onların o derse ilişkin başarılarının bir göstergesi
olarak kabul edilir. Bu tür ölçmeyi dolaylı ölçme olarak kabul etmek duru-
mundayız.
Türetilmiş ölçme: Ölçümeye konu olan değişken üzerinde başka bir
ölçme işlemi yapmadan, bu değişken ile başka değişkenler arasında bir ba-
ğıntı oluşturarak elde edilen ölçümlere türetilmiş ölçme denir (Tan, 2006).
Bu ölçmeye örnek olarak, bir ülkenin nüfus artış oranı gösterilebilir.
Bir ülkenin yıllık nüfus artış oranı = doğum – ölüm / varolan toplam nüfus
20 Eğitimde Ölçme ve Değerlendirme

Türetilmiş ölçmede yapılan işlem, ölçülecek değişkenin, iki veya daha


fazla sayıdaki değişken arasındaki matematiksel anlamda bağıntı kullanıla-
rak tanımlanması, bağıntı içinde yer alan diğer değişkenlerin ayrı ayrı olarak
ölçümlerinin yapılması ve elde edilen ölçümlerin daha önceden matematik-
sel olarak tanımlanan bağıntı yerine konularak, asıl ölçülecek değişkene ait
sayısal değerin belirlenmesidir (türetilmesidir).

Ölçme İşlemine Ait Sonuçların Gösterilmesi


Herhangi bir değişkene ait ölçümler (ölçme sonuçları) ifade edilirken,
genellikle bir sembol veya sayılardan yararlanılmaktadır. Ancak ölçümler
üzerinde bir takım istatistiksel işlemlerin yapılması söz konusu olduğu za-
man semboller fazla işe yaramaz. Bundan dolayı ölçme sonuçları üzerinde
daha fazla ve daha anlamlı bilgileri ortaya koyabilmek için ölçme sonuçları-
nın gösterilmesinde sayıların kullanılması daha kullanışlı olacaktır.

Ölçmede Birim
Ölçme işlemi, ölçme yapan kişiye, ölçmeye konu olan değişkenin ilgile-
nilen niteliğinin var olma derecesini veya miktarının ne olduğu hakkında,
tutarlı ve mümkün olduğunca geçerli bilgi sağlama çabasıdır. Ancak ölçme
işleminden elde edilen sonuçların daha fazla anlamlı hale getirilebilmesi
için, onların, anlaşılır bir birimle ifade edilmesi gerekmektedir. Örnek ver-
mek gerekirse, 6 Fen A şubesindeki Ümit Yaşar, matematik dersinde çok
başarılıdır. Burada öğrencinin matematik dersinde çok başarılı olduğu ifade
edilmekle beraber çok başarılı kavramına ilişkin insanların algıları birbirin-
den farklı olabilir. Her bireyin kendine özgü bir başarı anlayışı olduğundan
başarı kavramına ilişkin anlamlandırmalar da farklılaşacaktır. Yukarıdaki
öğrenciye ait örnek “6 Fen A şubesindeki Ümit Yaşar matematik dersinde
100 alarak sınıfında birinci olmuştur” şeklinde verilse idi buradan çıkarıla-
cak anlam hemen hemen herkes tarafından aynı olacaktır.
Yukarıdaki örneklerden de anlaşılacağı üzere herhangi bir değişkene
ait ölçme sonuçlarının ifade edilmesinde bir birimin kullanılması gerekliliği
ortaya çıkmaktadır. Çünkü ölçme sonuçlarının ifade edilmesi, ölçme sonuç-
larına ait anlamın anlaşılırlığını etkileme özelliğine sahiptir.
Ölçmede belirli bir birimin kullanılması ölçme işleminin objektifliğini
sağlamaya olanak vermektedir. Objektif olarak gerçekleştirilebilen ölçme
işleminden elde edilen ölçme sonuçlarının güvenirliği ve geçerliliği daha
yüksek olacağından, ölçme sonuçlarına karışabilecek hata düzeyinin az ol-
duğunu kabul edilmektedir. Bunun da ötesinde ölçmelerde birimlerin kul-
lanılması, ölçmede standart sağlanmasına katkı sağlamaktadır. Bu da ölç-
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 21

meden elde edilen ölçme sonuçlarının okunmasını, yorumlanmasını ve bu


yorumlamaların diğer bireylere aktarılmasında kolaylık sağlamaktadır.
Ölçmede kullanılan birimlerin beklenilen yararları sağlayabilmeleri için
eşitlik, genellik ve kullanışlılık özelliklerine sahip olması gerekiyor
(Baykul,1992; Turgut, 1995).
Ölçmede birimlerin sağlamış oldukları katkılara bakıldığında değişken-
lerin ölçmeye konu olan niteliklerine ait değerleri cm, kg, puan gibi birim-
lerle ifade edilmesine olanak sağlayarak ölçme sonuçlarının daha anlaşılır
hale gelmesine katkıda bulunmaktadır. Bunun dışında ölçümlere standartlık
sağlayarak farklı algılamalara veya yanlış anlamlandırılmalara meydan ver-
memektedir. Birimlerin yukarıda vurgulanan katkıları sağlayabilmesi için
eşitlik, genellik ve kullanışlılık gibi özelliklere sahip olması, gerekmektedir
(Baykul, 1992; Kan, 2006; Turgut, 1995).
Birimlerde Eşitlik: Ölçme işleminde kullanılan birimlerin her noktada
birbirine eşit büyüklükte olmasını ifade etmektedir. Örneklendirmek gere-
kirse, uzunluk ölçmede kullanılan metrenin bir birim olarak alınması ge-
rekmektedir. Eğer yapım hatası söz konusu değil ise her yerde ölçme ama-
cıyla kullanılan metrenin büyüklüğü 100 cm’ye eşittir. Buna karşılık ölçme-
lerde birim olarak kullanılabilecek karış, kulaç ve adım gibi birimlerde bü-
yüklük farklılaşabilmektedir. Bu birimlerde eşitlik özelliğinden söz etmek
pek olası değildir. Çünkü, farklı fiziksel büyüklüklere sahip olan bireylerin
karışlarının veya kulaçlarının farklılıklar göstereceği kesindir. Farklı bireyle-
rin de ötesinde aynı birey sınıfın boyunu karışlayarak ölçmeye kalkıştığında
bile, ilk karışa karşılık gelecek büyüklük ile 100.cü karışa karşılık gelecek
büyüklük arasında belli bir farkın ortaya çıkması kaçınılmazdır. Bunun se-
bebi her karıştan sonra bireyin ellerindeki kasların gerilmesine bağlı olarak
karış büyüklükleri de farklılaşacaktır. Benzer bir durum kulaç veya adım
için de geçerlidir. Ölçmede kullanılan birimlerin eşitlik özelliğine sahip ol-
ma veya olmama durumu ölçme işleminden elde edilen ölçme sonuçlarının
duyarlılığını olumlu veya olumsuz yönde etkileyecektir. Metre, kulaç, ayak
veya adım gibi birimlere göre daha duyarlı ölçme sonuçları vereceğinden
ölçme sonuçlarının güvenirliği daha yüksek olacaktır.
Birimlerin Genelliği: Birimlerin genelliği denilince, ölçme işleminde kul-
lanılan birimlerin herkes tarafından aynı şekilde anlaşılması, bilinmesi, yaygın
bir şekilde kullanılması, kullanıcıdan kullanıcıya veya yerden yere değişme-
mesi şeklinde kabul edilmektedir. Eğer ölçme birimi bu özelliği taşımaz ise
ölçme sonuçlarının yorumlanmasında, anlamlandırılmasında veya birbirlerine
dönüştürülmesinde ve bundan daha önemlisi ölçme sonuçları üzerinde uz-
laşma noktasında sorunların yaşanabileceği olası bir durumdur.
22 Eğitimde Ölçme ve Değerlendirme

Birimlerin Kullanışlılığı: Kullanılacak birimin, ölçme işlemindeki ama-


cı karşılayıp karşılayamadığını ifade etmektedir. Ölçme işlemini yapan kişi-
nin amacı, ölçmede kullanılan birim tarafından gerçekleştirilmesine olanak
veriyor, güvenilir ve geçerli ölçme sonuçlarının elde edilmesini gerçekleşti-
riyor ise o ölçmede kullanılan birimin kullanışlılık özelliğine sahip olduğu
söylenebilir. Bir grup öğrencinin bütün dönem boyunca işledikleri içeriğe
bağlı olarak kazandırılan davranışların ne derece kazanılıp kazanılmadığının
saptanmasında yazılı yoklamalar kullanışlı olmayabilir. Çünkü, bir dönem
boyunca bir derse ait onlarca davranış kazandırıldığı bilinmektedir; buna
paralel olarak bu kazandırıldığı varsayılan davranışların saptanmasında
yazılı yoklama kullanılacak olursa yazılı yoklamaların özelliğinden dolayı
ancak birkaç davranışın yoklanması söz konusu olabilecektir. Bu durumda
yazılı yoklama ile yoklanan birkaç davranışın onlarca davranışı temsil ettiği-
ni söylemek oldukça zordur. Böyle bir durumda belki de yazılı yoklama
yerine çoktan seçmeli bir ölçme aracının kullanılması daha kullanışlı olur.
Aynı şekilde bir sarrafın sattığı altınları normal bir teraziyi kullanarak tart-
ması, onun iflası anlamına gelebilir. Çünkü altının tartılması için kullanılan
terazi çok duyarlı değildir. Sarrafın altını tartarken normal terazi yerine çok
hassas olan miligramlık ölçümlere duyarlı olan bir terazi kullanması daha
kullanışlı olur. Ölçmede kullanılan bir birimin kullanışlı olup olmaması
ölçmeye konu olan özelliği amaca uygun olarak saptanmasına imkân verip
vermediğine bağlıdır. Amaca uygunluk gösteriyorsa ölçme aracının kullanış-
lı olduğu, amaca uygunluk göstermiyorsa kullanışlılık özelliğine sahip olma-
dığı söylenebilir. Bunların dışında yine amaca uygunlukla beraber, bir ölçme
aracının maliyeti, hazırlanmasındaki kolaylık, kolayca uygulanabilirliği ve
ölçme işleminden sonra ölçme sonuçlarının her türlü istatistiksel analizlere
uygunluk göstermesi onun kullanışlılık özelliğine sahip olup olmadığının
belirleyicisi olarak kabul edilebilir.

Ölçmede Kullanılan Ölçekler


Ölçme işlemine karar verilirken, önce ölçmeye konu olan özelliğin ta-
nımlanması, belirlenmesi gerekir ki, söz konusu özelliğe karşılık gelen de-
ğerlerin belirlenerek ortaya çıkarılması mümkün olabilsin. Ancak ölçmede
birçok niteliğin veya özelliğin doğrudan gözlenmesi söz konusu olamayabi-
lir, gözlense bile bu tür özelliklerin doğrudan ölçülmesi mümkün değildir.
Dolayısıyla, ölçülecek olan özelliğe karşılık gelecek miktar hakkında kesin
bir bilgi elde edilemez. Bundan dolayı ölçülecek niteliklerin veya özellikle-
rin gözlenebilir ve ölçülebilir özellikte olması gerekir. Ölçülen özelliklere ait
değerlerin saptanmasında ölçme araçlarından ve ölçülecek özelliğe ait uy-
gun birimlerden yararlanılmaktadır. Ölçme araçları, ölçme işlemini kolay-
laştırmakla beraber elde edilen ölçme sonuçları açısından da belirleyici ol-
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 23

maktadır. Klasik test teorisine göre ölçme araçları, ölçülecek olan özelliğin
büyüklüğündeki değişmelere duyarlı olduğundan, bireyden bireye, örnek-
lemden örnekleme, durumdan duruma ölçülecek özellikteki değişimlerin
gözlenip, ölçülmesine imkân vermektedir.
Ölçme araçları sadece ölçme işleminin gerçekleştirilip ölçülen özellik-
lere karşılık gelen değerleri vermenin dışında, ölçeklerin birimlendirilerek
tanımlanmasında da işe yaramaktadır. Bir sınıfta yer alan yazı tahtasının
yüksekliğini ölçmek için belli bir uzunluğa sahip olan dal parçası kullanılabi-
lir. Bu dal parçası kullanılarak tahtanın yüksekliği ölçülebilir. Ancak tahta
yüksekliğine karşılık gelen büyüklük sayısal bir değer olarak belirlenemez.
Tahta yüksekliğinin sayısal bir değer olarak gösterilmesi için kullanılacak
ölçme aracının bir başlangıç noktasının bulunması gerekmektedir. Araçta
başlangıç noktasıyla birlikte; araç kendi içinde daha küçük ve eşit büyüklük-
te aralıklar şeklinde bölmelendirilerek ki bunlar belli kurallara göre yapılır,
araç ölçeklendirilmiş olur. Ölçme aracının küçük ve eşit büyüklükte aralık-
lar şeklinde bölmelere ayrılmasının gerekçesi, ölçülecek olan özelliğin karşı-
lığı olan değerlerin daha duyarlı bir şekilde elde edilmesine katkı sağlayacak
olmasıdır. Ölçekleri önemli kılan özellik olarak belki de bir başlangıç (sıfır)
noktasına sahip olmasıdır. Ölçmede veya ölçeklerde başlangıç noktasının
önemli bir özellik olduğu bilinmektedir. O halde ölçmede başlangıç noktası
veya sıfır önemli bir yere sahiptir. Öyle ise sıfır kavramının açıklanmasında
fayda vardır.

Ölçmede Sıfır
Ölçmeye konu olan bir özelliğin veya ölçmede kullanılan birimlerin
başlangıç noktası olarak sıfır alınır. Ölçme açısından bakıldığında sıfırın
önemli bir kavram olduğu görülmektedir. Ölçmede, kullanılan bir sıfır nok-
tası varsa, bu sıfırın ölçülen özelliğin sıfır değerine karşılık gelmesi gerek-
mektedir. Eğer ölçmede elde edilen sayı ve sembollerin sıfır değeri ölçülen
özelliğin sıfır değerine karşılık gelmiyorsa elde edilen ölçme sonuçlarıyla
oranlama yapılamaz. Matematiksel bağlamda oranlama mümkün olarak
görünse de sonuçların anlamsız olacağı kuşku götürmez bir gerçektir. Ölç-
mede iki farklı anlam içeren sıfır bulunmaktadır. Bunlardan birincisi Doğal
sıfır diğeri ise Tanımlanmış sıfırdır.
Doğal Sıfır: Ölçmede ölçülecek olan özelliğin sıfır değerinin belirlene-
bilmesi ve bu sıfır değerinin sıfır sayısı ile gösterilmesi çok istenen bir özel-
liktir (Turgut,1984,s.14). Bazı değişkenlerin doğal sıfırı bulunmaktadır. Do-
ğal sıfır ölçmeye konu olan bir değişkenin (ilgilenilen niteliğin miktar ola-
rak) gerçek anlamda yokluğunu ifade eden sıfırdır (Tan,2006, s.218). Bir
sınıfta yer alan öğrenciler arasında herhangi bir futbol takımında oynayan
24 Eğitimde Ölçme ve Değerlendirme

öğrenci yoktur denildiğinde, mevcut öğrenciler arasında bir futbol takımın-


da hiçbir öğrenci olmadığı anlaşılmaktadır. Burada “yok” sözcüğü doğal
sıfırı yani mutlak yokluğu ifade etmektedir.
Tanımlanmış (Göreceli) Sıfır: Eğitimdeki ölçmeye konu olan bazı de-
ğişkenlerin ya sıfır başlangıç noktası bulunmamaktadır veya mevcut koşullar
altında şimdilik kaydıyla sıfır başlangıç noktalarının ne olduğu bilineme-
mektedir. Sıcaklık, akademik başarı, zekâ, yetenek veya duyuşsal özellikler
örnek olarak verilebilir. Ancak yukarıda verilen özelliklere karşı gelen bü-
yüklüklere ait değerlerin bilinmesine gereksinim duyulmaktadır. Okullara
en zeki öğrencilerin yerleştirilmesine öncelik vermek, yarın hava sıcaklığının
ne olacağını ve ona göre tedbir alınması, işyerinde çalıştırılmak üzere yete-
nekli kişilerin alınacak olması durumunda, yetenek denilen şeyin büyüklü-
ğünün ne kadar olduğu ve bu büyüklüğün ne kadarlık kısmına sahip olan
bireylerin diğer bireylere göre daha fazla yetenekli olduğunu tespit ederek
onun işe alınmasını sağlamak mümkün olsun? Buna benzer örneklerin daha
da çoğaltılması mümkündür. Örneğin bir sınavda, çok yüksek düzeyde kaygı
yaşayan bir öğrencinin, sorulan soruların hiçbirini cevaplandıramaması,
sınavda sorulan soruların yoklamaya çalıştığı özelliklerin hiçbirine sahip
olmadığı anlamına gelmemektedir. Doğal sıfır olmamasına rağmen, ölçek
üzerinde herhangi bir noktaya yerleştirilerek tanımlanan ve ölçülen özelli-
ğin yokluğu anlamında yorumlanamayan bu değer göreceli veya izafi sıfır
olarak tanımlanmaktadır.
Yukarıda anlamlarının ve kendisinin ne olduğuna dair açıklamaların
yapılmaya çalışıldığı doğal ve tanımlanmış (göreceli, izafi) sıfıra karşılık,
sıfır noktasının hiç tanılanmadığı veya herhangi bir anlam içermeyen ölçme
işlemleri de yapılabilmektedir. Bir öğretmen, sınıf oturma düzenini öğrenci-
lerin giysilerinin renklerine göre düzenlemiştir. Öğretmenin burada yaptığı
oturma planına ilişkin düzenlemesinin de sıfırın anlamlı olmadığı sınıflama
düzeyinde bir ölçme işlemi yapmış olduğu düşünülebilir.

Ölçmede Ölçekler
Ölçme işleminde, daha önce de açıklanmaya çalışıldığı gibi ölçme, bi-
reylerin, olayların veya nesnelerin kendilerini değil onlara ait olduğu düşü-
nülen özelliklere karşılık gelen büyüklüklere ait değerlerin saptanması ve
saptanan bu büyüklüklere ait değerler kullanılarak söz konusu özelliklerin
açıklanmasına çalışılmaktadır. Ölçme sonucunda elde edilen sayıların (ölç-
me sonuçları) matematiksel özellikleri ölçek niteliklerini ifade eder; bu
bağlamda, ölçek, ölçme sonuçlarının matematiksel özellikleri şeklinde ifade
edilebilir (Turgut ve Baykul, 1992; Baykul, 2000; Kan, 2006).
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 25

Ölçme işleminden elde edilen ölçme sonuçları formal özellikleri bakı-


mından sırasıyla, (1) sınıflama-adlandırma, (2) sıralama, (3) eşit aralıklı ve
(4) eşit oranlı ölçek, şeklinde sınıflandırılmaktadır.
Buradaki sınıflamaya ilişkin yapılan sıralamada dikkate alınan özellik
en az gelişmiş ölçekten başlanarak en gelişmiş ölçeğe doğru yapılan sırala-
madır. Daha iyi bir ifadeyle en az bilginin elde edilebileceği ölçekten başla-
narak en fazla bilginin elde edilebileceği ölçeğe doğru bir sıralama söz ko-
nusudur. Buna göre ölçmede en az bilgi sınıflama-adlandırma ölçeklerinde
elde edilebilirken buna karşılık, ölçme işleminde en fazla ileri düzeyde açık-
lamaların, karşılaştırmaların, yorumlamaların yapılmasına imkân verecek
özelliklere sahip bilgilerin ise eşit oranlı ölçekten elde edilebileceği vurgu-
lanmaktadır.
Sınıflama-adlandırma Ölçeği: Bilimsel anlamdaki ölçmelerde kullanı-
lan en basit düzeydeki ve en az anlam içeren bilginin elde edilebileceği öl-
çektir. Çünkü bilimsel çalışmalarda en basit işlem ölçmeye konu olan özelli-
ğin belli düzeyde benzer olan niteliklerinin dikkate alınarak adlandırılması
veya sınıflandırılmaya tabi tutulmasıdır. Bu özelliğinden dolayı sınıflama en
basit düzeyde ölçme işlemi olarak kabul edilmektedir.
Bu ölçekle, ölçme işlemine tabi tutulan özelliklerin (1) adlandırılması
veya (2) belirli özellikler dikkate alınarak sınıflandırılmalar oluşturmak
amacıyla yapılmaktadır. Her ilde trafiğe çıkan araçlara verilen plakalar,
araçların tanınmasını sağlamak amacıyla yapılan bir işlemdir. Okula henüz
başlayan öğrencilerin sayılarının çok fazla olmasından dolayı okul yönetimi-
nin çok sayıdaki öğrencileri A, B ve C şubelerine dağıtımını gerçekleştirme-
leri bir sınıflandırma işlemi olarak kabul edilmektedir. Sınıflandırmaya tabi
tutulan nesnelerin, bireylerin özellikleri bakımından kendi içinde bir farklı-
lık söz konusu değildir. Tam tersine sınıflandırmada benzer özellikler dikka-
te alınmaktadır.
Sınıflama-adlandırma ölçeğinden (1) elde edilen ölçme sonuçlarının
üzerinde herhangi bir şekilde matematiksel işlemler yapılamaz, matematik-
sel anlamda işlem yapılsa bile sonuç itibarıyla anlamsız olacaktır. (2) Ölçme
işleminden elde edilen ölçme sonuçları ile sınıflamalar yapılabilir. (3) Ölç-
me sonuçları sıfatlarla ifade edilebilmektedir. (4) Bu ölçekten elde edilen
ölçme sonuçlarıyla karşılaştırmalar yapılamaz.
Adlandırma-sınıflama ölçeklerine bağlı olarak yapılan sınıflandırmalar,
aynı özelliklere sahip olan objelerin veya bireylerin sayılmasına imkân sağ-
lamaktadır. Yine yapılan sınıflamaya ilişkin tablolar oluşturulabilir frekans-
lar veya mod bulunabilir.
26 Eğitimde Ölçme ve Değerlendirme

Sıralama Ölçeği: Objelerin ölçmeye konu olan özelliklerine karşılık ge-


len değerleri dikkate alınarak, özelliğe ait büyüklükler belli bir kurala göre
sıralanabilir. Bu sıralama ya büyükten küçüğe doğru veya küçükten büyüğe
doğru yapılır. Sıralama ölçeğinde kullanıldığı kabul edilen sayıların sayma
sayıları olduğu bilinmektedir. Beden eğitimi dersinde, dersin sorumlusu
öğretmen, öğrencilerin boy uzunluklarını dikkate alarak en uzun boylu öğ-
renci başta olmak üzere boy sırasına göre öğrencilerden sıraya girmelerini
isteyebilir. Sıraya giren öğrencilere sıra numarası vererek daha sonra yapıla-
cak işlerin hangi sıradaki öğrenciler tarafından yapılacağına ilişkin bir dü-
zenlemeye gitmiştir. Burada öğrencilere sıra numarası için verilen sayılar
öğrencilerin boy uzunluklarına ilişkin büyüklük dikkatte alınarak verilen
sayılardır. Öyleyse sıralama ölçeğinde verilen sayılar belli bir büyüklüğe
verilen ve bu büyüklükler arasında bir farkın olduğu anlamında kullanılan
sayılardır. Buna göre sıralama ölçeği, elde edilen ölçme sonuçlarına göre
ölçülen özelliklere karşı gelen değerlerin karşılaştırılabilmesine olanak ver-
mektedir. Bu karşılaştırmalara bağlı olarak ölçülen özelliklerin büyüklükle-
rine karşılık gelen değerler arasında büyüklük bakımından herhangi bir
farkın olup olmadığı belirlenebilir; ancak, büyüklükler arasındaki farkın
miktarı sayısal bir değer olarak ifade edilmesine imkân vermemektedir.
Bunun nedeni sıralama ölçeklerinde tanımlanmış bir başlangıç noktasının
ve ölçeğin kendi içinde tanımlanabilmiş eşit büyüklüklere sahip birimlerin
olmamasına bağlanabilir. Ölçeğin kendi içinde birimlere ayrılması söz konu-
su olsa bile, birimlere ait büyüklüğün her yerde birbirine eşit olduğunu söy-
lemek imkânsızdır. Sıralama ölçekleri, ölçülen özelliklere karşılık gelen
değerlerin büyüklükleri dikkate alındığında ölçülen özelliğe ait değerin
hangi objede veya bireyde daha fazla veya daha az olduğu konusunda ölçme
yapan kişiye bilgi vermektedir.
Sıralama ölçeği tanımlı ve eşit büyüklükte birimlere sahip olmadığın-
dan, bu ölçek türünden elde edilen ölçme sonuçları üzerinde, toplama, çı-
karma, çarpma ve bölme işlemleri yapılamaz. Bu ölçekten elde edilen ölçme
sonuçlarına ilişkin ortanca (medyan), yüzdelikler ve sıra farkları korelasyo-
nu (ilgileşim) gibi istatistiksel işlemlerin yapılması mümkün görünmektedir
(Turgut ve Baykul, 1992; Kan, 2006).
Eşit Aralıklı Ölçekler: Ölçmeye konu olan özelliğe ait değerin başlan-
gıç noktası ile söz konusu özelliğe ait değerin saptanabilmesi için kullanılan
ölçeğin başlangıç noktasına ait değerin birbirine denk gelememesi durumu
veya başlangıç noktalarının gerçekte üst üste örtüşemediği türdeki ölçek eşit
aralıklı ölçek olarak tanımlanabilir (Yaşar’ın bu çalışmada yapmaya çalıştığı
tanımlama).
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 27

Eşit aralıklı ölçekte, sınıflama-adlandırma ve sıralama ölçeğinde olma-


yan, en önemli özellik olarak bir başlangıç başka bir deyişle sıfır noktasının
bulunmasıdır. Eşit aralıklı ölçekte belirli, sabit bir başlangıç noktasının bu-
lunmasına rağmen başlangıç noktası görecelidir. Eşit aralıklı ölçeğe termo-
metre bir örnek olarak gösterilebilir. Termometre odalarımızın sıcaklığına
ilişkin değeri öğrenmek amacıyla kullandığımız bir ölçme aracıdır. Termo-
metrede sıfır, başlangıç noktası olarak alınmıştır. Termometredeki cıva hava
sıcaklığına bağlı olarak büzülmekte veya genleşmektedir. Sıcaklık arttığında,
cıva, termometredeki başlangıç noktası olarak belirlenmiş sıfırın yukarısına
doğru hareketlenmekte veya hava soğudukça cıva büzülerek sıfırın altına
doğru inmektedir. Bizler de civanın durduğu noktadaki değeri okuyarak
sıcaklık veya soğukluk hakkında bilgi sahibi olmaya çalışıyoruz. Ancak bili-
nen bir gerçek mutlak anlamda sıfır matematikte yokluğu ifade etmektedir
(tanımlamaktadır). Ancak aralık ölçeğindeki ölçme sonuçlarında sıfır yok-
luk anlamına gelmez; başlangıç anlamındadır (Baykul, 1996, s. 46).
Eşit aralıklı ölçeklerde göreceli (izafi) bir başlangıç noktasının ve biri-
minin bulunması, bu ölçekten elde edilen ölçme sonuçlarına bağlı olarak
ölçmeye konu olan özelliklere karşılık gelen değerlerin karşılaştırılmasını
mümkün hale getirmektedir. Belirli özelliklerin değerlerinin belirlenebilme-
si amacıyla geliştirilen standart testlerle elde edilen ölçme sonuçlarının eşit
aralık ölçeğinde olduğunu söylemek mümkündür. Dolayısıyla standart test-
lerden elde edilen ölçme sonuçları arasındaki farklar anlamlıdır. Eşit aralık-
lı ölçeğin uygulanması sonucu elde edilen ölçme sonuçları ile toplama ve
çıkarma işlemi yapılması söz konusu olmasına karşılık bu ölçekten elde edi-
len ölçme sonuçları üzerinde çarpma ve bölme işlemleri yapılamaz; ölçme
sonuçları üzerinde çarpma ve bölme işlemi yapılsa bile, başlangıç noktası
anlamındaki sıfır göreceli olduğundan, ulaşılan sonuçlar anlamsız olacaktır.
Örneklendirilecek olursak, matematik dersi sınavından 100 puan alan bir
öğrencinin, bu sınavdan 50 puan alan başka bir öğrenciden iki kat daha
başarılıdır şeklinde bir anlam çıkarmak yanlıştır; oluşturulan anlamın anla-
mı yoktur. Bu örnekle ulaşılabilecek sonuç muhtemelen şöyle olabilir; ma-
tematik dersi sınavında 100 puan alan öğrenci aynı sınavdan 50 puan alan
öğrenciden ölçmenin yapıldığı araç kapsamında daha başarılıdır (yalnız
burada ulaşılan yargının doğru olabilmesi, sınavdan 50 puan alan öğrenci-
nin, sınav esnasında, onun var olduğu kabul edilebilecek matematik dersine
ilişkin davranışlarının, olumsuz niteliklerdeki faktörlerden etkilenmediği
düşünülerek ifade edilmiştir).
Turgut’a (1984) göre, eşit aralıklı bir ölçek oluşturulmak istendiğinde,
bir birim tanımlanır ve pratik amaçlara uygun bir sıfır noktası seçilir. Bu
sıfır noktasının kullanışlı olması yeterli olarak kabul edilebilir; gerçek sıfırın
28 Eğitimde Ölçme ve Değerlendirme

karşılık gelmesi gerekmeyebilir. Ancak aracın bölmeleri, tanılanan birime


göre eşit aralıklı ve ölçülecek değişkenin değeri ile oranlı olmalıdır. Bu bağ-
lamda standartlaştırılmış testlerin eşit aralıklı ölçek niteliğinde olduğuna
inanıldığı iddia edilmektedir.
Aralık ölçeğinden elde edilen ölçme sonuçları farklı birimlerden elde
edilmişse doğrusal dönüştürmelere tabi tutulabilmekte; bunun anlamı, X
ölçme sonuçları, Y=aX+b eşitliği yardımıyla Y sayılarına dönüştürülebilir.
Bununla ilgili olarak Z standart puanlarının T standart puanına dönüştü-
rülmesini örnek olarak gösterilebilir (Baykul, 2000, s.96).
Eşit Oranlı Ölçekler: Eğer ölçülen özelliğin başlangıç noktası anlamın-
daki sıfır değeri ile ölçülecek olan özelliğe ait başlangıç noktası olan sıfır
değeri gerçekte birbirlerini tam olarak karşılıyorsa bu ölçme işleminden
elde edilen ölçme sonuçlarının eşit oranlı ölçekte olduğu söylenebilir. Bu
özelliği gösteren ölçek eşit oranlı ölçek olarak adlandırılabilir.
Eşit oranlı ölçekler ile eşit aralıklı ölçekler arasında önemli fark, eşit
oranlı ölçeklerde başlangıç noktası anlamında kullanılan sıfır gerçek (do-
ğal), buna karşılık eşit aralıklı ölçeklerde kullanılan başlangıç noktası anla-
mındaki sıfır ise, göreceli sıfırdır. Bundan dolayı eşit aralıklı ölçeklerden
elde edilen ölçme sonuçları oranlamaya uygun olmadığı halde, eşit oranlı
ölçeklerdeki sıfırın gerçek sıfır olmasından dolayı elde edilen ölçme sonuç-
ları oranlamaya uygun ve sonuç itibarıyla da anlamlıdır. Eşit oranlı ölçek-
lerden elde edilen ölçme sonuçları üzerinde her türlü istatistiksel analizler
yapılabilir. Bunların içinde oranlama da dâhil olmak üzere, analizler sonu-
cunda elde edilen değerlerin hepsi de anlamlıdır.
Yukarıda özellikleri açıklanmaya çalışılan dört ölçek türüne ilişkin
özetleyici anlamda bir tablo aşağıda verilmiştir.
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 29

Tablo 2.1 Değişik Ölçek Türleri ve Bu Ölçeklerden Elde Edilebilecek Olan


Ölçümlerin Anlamlılık Dereceleri
ÖLÇEK Ölçeğin Yapısal Elde Edilecek Ölçümlerin
TÜRÜ Özellikleri Anlamlılık Derecesi
Başlangıç Birimleri Nitelik Nicelik Gösterme
Noktası (Aralıkları) Gösterme Gücü
Gücü Sıra Fark Oran
Sınıflama Yok Yok Var
Ölçekleri
Sıralama Öl- Var Fakat Var Fakat Var Var
çekleri Değişir Değişir
Eşit Aralıklı Var Fakat Var ve Eşit Var Var Var
Ölçekler Göreceli

Eşit Oranlı Var ve Mut- Var ve Eşit Var Var Var Var
Ölçekler laktır

Kaynak: D.A. Özçelik’den alınmıştır (1981).

Değerlendirme

Ölçme işlemine gerek duyulmasının nedeni, belirli bir değişkenin belirli


özelliğine karşılık gelen değerlerin saptanması olarak ifade edilmişti. Aslın-
da, söz konusu olan, sadece özelliklere karşılık gelen değerlerin saptanması
değildir. Gerçekte, elde edilen ölçme sonuçlarından yararlanılarak ölçmeye
konu edilen özellik hakkında bir karara ulaşma çabası yatmaktadır. Başka
bir ifade ile ölçmeye konu olan özellik hakkında bir değerlendirme yapa-
bilmek için ölçme sonuçlarına ihtiyaç duyulmaktadır. Bu noktadan hareket-
le ölçme ve değerlendirme arasında bir ilişki olduğu gerçeği karşımıza çık-
maktadır. Zaten ölçme, değerlendirmenin bir ön koşulu olma özelliğine
sahiptir. Bu bağlamda ölçme olmadan değerlendirme yapılamaz.
Değerlendirme, bir ölçme işleminden elde edilen ölçme sonuçlarının
bir ölçüt veya ölçütler takımıyla karşılaştırılarak birey veya nesnelerin ölçü-
len özellikleri hakkında bir karar verme süreci olarak tanımlanabilir
(Özçelik, 1981; Turgut, 1995; Baykul, 2000). Yukarıda verilen değerlendir-
me tanımından yola çıkılacak olunursa, değerlendirmenin iki öğeye ve bu iki
öğenin karşılaştırılmasına dayandırıldığı söylenebilir. Bu öğeler (1) ölçme
sonuçları ve (2) ölçüttür.
30 Eğitimde Ölçme ve Değerlendirme

Değerlendirmenin
Öğeleri

Ölçme
Sonuçları Ölçüt

Mutlak Ölçüt Bağıl Ölçüt

Şekil 2.4 Değerlendirmenin Öğeleri


1. Ölçme Sonuçları: Değerlendirme sürecinin ilk öğesi olarak ölçme
sonuçları kabul edilmektedir. Ölçme sonuçları, ölçmeye konu olan nesnele-
rin, olayların veya bireylerin, belirli bir özelliğine karşılık gelen değerlerin
ölçüsünün sayı veya sembolleri olarak düşünülebilir. Nesneler, olaylar ve
bireylerin söz konusu özelliklerine ilişkin doğru değerlendirme yapabilmek,
ölçme sonuçlarının tesadüfî (Eğitimdeki ölçmelerde sadece tesadüfî hatalar
olabileceği düşünüldüğünde) hatalardan mümkün olduğunca arınık, yani
yüksek güvenirlik derecesine sahip olmasına ve ölçme aracının amaca uy-
gunluğuna (geçerliğine) bağlıdır. Bir ölçme işleminden elde edilen ölçme
sonuçlarının güvenirlik ve geçerlik derecesinin düşük olmasına bağlı olarak
yapılacak değerlendirmelerin doğru olması beklenmemelidir. Bundan dola-
yı sağlıklı (doğru) değerlendirmenin ön koşulunun, ölçmeye tabi tutulan
özelliklere ait ölçme sonuçlarının güvenirlik ve geçerlik düzeyinin yüksekli-
ğine bağlı olduğu unutulmamalıdır.
2. Ölçüt: Değerlendirmenin önemli öğesi ve olmazsa olmaz türden bir
parçası olan ölçüte, ölçme sonuçlarının yorumlanmasını kolaylaştıran ve
böylece değer yargısına ulaşmaya yardım eden bir referans çerçevesi (ilke,
kıstas veya kriter) olarak bakılabilir (Turgut, 1984. s.231). Ölçme sonuçları-
nın güvenilir ve geçerli olması değerlendirmeyi etkilediği gibi, seçilen ölçü-
tün uygunluğu da değerlendirmenin doğruluğunu etkilemektedir. Buradan
çıkarılacak sonuç, sadece ölçme sonuçlarının güvenilir ve geçerli olması
değerlendirmenin doğruluğu için tek başına yeterli olmamaktadır. Bununla
birlikte seçilen ölçütün de uygun olması durumunda değerlendirmenin doğ-
ru olabileceği kanısı ortaya çıkmaktadır. Buna mukabil ölçme sonuçlarının
güvenilir ve geçerlilik düzeyi yüksek olsa bile seçilen ölçüt uygunluğu tar-
tışma konusu olduğu zaman yapılacak değerlendirmenin de doğruluğu tar-
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 31

tışma konusu olacaktır. Bundan dolayı değerlendirmenin doğruluğu, seçilen


ölçütün uygun olup olmaması durumundan doğrudan etkilenmektedir.
Değerlendirmede, seçilecek olan ölçütün uygun olup olmadığına ilişkin
bir sonuca ulaşmak için, değerlendirmede kullanılması düşünülen ölçütün
özelliklerinin bilinmesinde fayda vardır. Ölçüte ait özelliğin bilinmesi, de-
ğerlendirmede kullanılacak uygun ölçütün seçilmesinde önemli bir faktör-
dür. Değerlendirmelerde iki türlü ölçüt kullanılmaktadır. Bunlardan birinci-
si mutlak ölçüt diğeri ise bağıl ölçüttür.
Mutlak Ölçüt: Bireyler henüz ölçme işlemine tabi tutulmadan önce,
üzerinde ölçme işlemi yapılacak olan grubun tamamını kapsayacak şekilde
belirlenen kesin ve standart özelliğe sahip olan ölçütler, mutlak ölçüt olarak
ifade edilebilir
Bağıl Ölçüt: Mutlak ölçütün aksine, ölçme işlemi gerçekleştirildikten
sonra ölçme sonuçları dikkate alınarak, bir gruba veya bireye göre belirle-
nen ölçüte bağıl ölçüt denilmektedir. Bağıl ölçütün belirlenmesinde bir gru-
ba ait ölçme sonuçları dikkate alındığından dolayı, bağıl ölçüt sadece söz
konusu grup için geçerli olabilmektedir. Başka gruplar için geçerli olmaya-
bilir. Bu özelliğinden dolayı bağıl ölçüte dayalı olarak yapılacak değerlen-
dirmeye ilişkin anlam farklılaşabilmektedir. Bu ölçütün göreceliği, ölçütü ve
ona bağlı olarak yapılan değerlendirme konusunda tartışmalara neden ola-
bilir. Eğer değerlendirme bir grup öğrencinin herhangi bir derse ilişkin aka-
demik başarısı için yapılıyorsa, grup için başarılı bir grup veya başarısız bir
grup yargısı ortaya konulduğunda, neye göre başarılı veya neye göre başarı-
sızdır gibi soruların gündeme gelmesi kaçınılmaz olur. Mutlak ölçüt bir ku-
rum veya kurum içindeki yetkili kurul tarafından belirlenirken, bağıl ölçüt
ise, değerlendirmeyi yapacak olan kişi tarafından belirlenmektedir.

Değerlendirme Türleri

Değerlendirme, bir ölçme işleminden elde eilen ölçme sonuçlarının bir


ölçüt ile karşılaştırılarak bir yargıya varma süreci olarak tanılanabilir. Eği-
timde yapılan değerlendirmelerin amacı, genelde ya işlem basamağındaki
öğrenmelerin (kazanıldığı düşünülen davranışları) veya öğretimin değerlen-
dirilmesi şeklindedir. Eğitim süreci içerisinde kazandırılması öngörülen
davranışların (öğrenmelerin) öğrenciler tarafından kazanılıp kazanılmadığı-
nı tespit etmek, var ise güçlüklerin saptanması ve belirlenen güçlüklerin
giderilmesi için ek önlemler alınmasını sağlamaya olanak vermede, bazen
de süreç başlamadan, sürecin başlangıcında öğrencilerin ön öğrenmelerinin
veya yeterliliklerinin belirlenmesi gerektiğinde, benzer düzeydeki ön öğ-
32 Eğitimde Ölçme ve Değerlendirme

renmelere veya yeterliliğe sahip olan öğrencilerin belirlenip gruplandırılma-


sı amacıyla değerlendirme yapılmaktadır. Bununla birlikte süreç devam
ederken belli bir zaman diliminde öğrencilerin beklenen sonuçlara ulaşıp
ulaşmadıklarının tespit edilmesinde değerlendirmelerin yapılması kaçınıl-
maz hale gelmektedir. Eğitim sürecinin belli bir kısmı değerlendirilirken bir
bütün olarak sürecin tamamının değerlendirilmesi de söz konusu olabilmek-
tedir.
Sonuçta eğitimde değerlendirme, öğrencilerin eğitim programlarında
kazanılması ön görülen hedeflere ulaşılabilme derecesini veya düzeyinin
belirlenmesi amacıyla yapılmaktadır. Eğitimin açık bir sistem olduğu dikka-
te alındığında, sistemin hemen hemen her aşamasında değerlendirme yap-
ma zorunluluğu kendiliğinden ortaya çıkmaktadır. Eğitimdeki değerlendir-
melerin;
➣ Öğretim ile ilgili kararlar
➣ Not verme ile ilgili kararlar
➣ Süreç içinde yer alan öğrencilerin gelişim düzeylerini, belli bir ala-
na ilişkin ilgilerini ve yeteneklerinin tespit edilmesine yönelik ka-
rarlar
➣ Öğrenci seçme ile ilgili kararlar
➣ Öğrenci yerleştirme ile ilgili kararlar
➣ Rehberlik ve yönlendirme ile ilgili kararlar
➣ Öğretim Programlarının etkiliğine ilişkin kararlar ve
➣ Yönetim ile ilgili kararları içerdiği belirtilebilir.
Eğitimde gerçekleştirilen değerlendirmeler göz önünde bulunduruldu-
ğunda farklı sınıflandırmalar yapılmaktadır. Bu sınıflandırmalara göre de-
ğerlendirme türleri aşağıda verilmektedir (Ertürk,1993,s.112).
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 33

Değerlendirme
Türleri

Gelişigüzel ve Amaca Yönelik Ölçüte Dayalı


Düzenli Yapılan Değerlendirme
Değerlendirme Değerlendirme

Şekil 2.5 Ertürk’e Göre Değerlendirme türleri

Gelişigüzel ve Düzenli Değerlendirme


Düzenli değerlendirme, belli ölçütleri, planlı ve düzenli gözlemi, kont-
rollü karşılaştırmaları, standartlaştırılmış sınama yollarını gerektirir. Gelişi-
güzel değerlendirmede ise fark edilmedik ölçütler (hedefler) alttan alta ve
tutarsızca işler, subjektif yargıların baskın olarak çıktığı değerlendirmeler-
dir.

Yapılış Amacına Göre Değerlendirme


Yapılış amacına göre değerlendirme, sitemde girdiler, işlem ve çıktılar
noktasını kapsayan değerlendirmedir. Yapılış amacına göre değerlendirme
kendi içinde üçe ayrılmaktadır. Bunlar (1) tanıma yerleştirmeye yönelik, (2)
biçimlendirme yetiştirmeye yönelik ve (3) ürüne yönelik değerlendirme
olarak bilinmektedir. Bu değerlendirme türleri aşağıda kısaca açıklanmak-
tadır.

Yapılış Amacına Göre


Değerlendirme Türleri

Tanıma-Yerleştirmeye Biçimlendirme- Ürüne Yönelik


Yönelik Yetiştirmeye Yönelik Değerlendirme
Değerlendirme Değerlendirme

Şekil 2.6 Yapılış Amacına Göre Değerlendirme Türleri


34 Eğitimde Ölçme ve Değerlendirme

Tanıma-Yerleştirmeye Yönelik Değerlendirme: Bu değerlendirme, öğ-


rencilerin belirli bir programa yerleştirilmesinde kullanılan değerlendirme
türü olup, yerleştirmenin yapılacağı program açısından özellikle öğrencinin
ön koşul öğrenme düzeylerinin belirlenmesi yani hazır bulunuşluk düzeyinin
belirlenmesi amacıyla yapılan değerlendirme türüdür. Bu değerlendirme
başlangıç aşamasında yapılabildiği gibi öğrenme güçlüklerinin hissedildiği
durumlarda da yapılabilmektedir (Ertürk,1993, s.113).
Bu değerlendirmede öğrencilerin bilişsel, duyuşsal ve psiko-motor özel-
liklerinin yanında, psikolojik özelliklerinin (ilgi, tutum vb.) de değerlendi-
rilmesi söz konusudur. Değerlendirme yapılırken, ilgilenilen özelliği amaca
uygun bir şekilde (geçerlik özelliğine sahip) hazırlanmış olan standart test-
lerden yararlanılabilir.
Biçimlendirme-Yetiştirmeye Yönelik Değerlendirme: Eğitim sürecinde,
eğitim programlarında kazandırılması ön görülen davranışların kazandırıl-
ması aşamasında bir yandan öğrencilerin öğrenme hızları veya herhangi bir
içeriğe yönelik öğrenme güçlüklerinin belirlenmesi ve meydana gelen güç-
lüklerin belirlendikten sonra, belirlenen güçlüklerin giderilmesi amacıyla
yapılan değerlendirme türüdür. Yine bu değerlendirmede özellikle öğrenci-
lerin öğrenmesi beklenen davranışları dikkate alınarak değerlendirme ya-
pılması gerekmektedir. Biçimlendirme-yetiştirmeye yönelik değerlendirme,
uygulanmakta olan programın etkililiği hakkında uygulayıcılara önemli de-
recede dönüt (geri bildirim) sağlama özelliğine de sahiptir.
Ürüne (Durum Muhasebesine) Yönelik Değerlendirme: Bu değerlen-
dirmede amaç, öğrencilerin, eğitim sisteminin işlem basamağında ulaştıkları
(yetiştikleri) düzey ile eğitim programlarında yer alan hedeflere ulaşma
derecesi ve eğitim programının bunu gerçekleştirebilme gücüne yönelik
olarak yapılan değerlendirmedir. Kısacası erişiye yönelik olarak yapılan
değerlendirmeye ürüne yönelik olarak yapılan değerlendirme denilmekte-
dir. Eğer, eğitim programında kazandırılması ön görülenlerle öğrencilerin
erişileri tam üst üste örtüşüyorsa veya aradaki fark çok az ise programın
etkili olduğunu veya tam aksine bir durum söz konusu ise programın öğren-
cilere ön görülen özellikleri kazandırabilme gücünün yetersiz olduğu kanı-
sına ulaşılır. Yalnız bu düşüncenin doğruluğu, sistemin girdisi konumundaki
öğrencilerde ön koşul öğrenmelerin programın gerektirdiği düzeyde sahip
oldukları ve işlem basamağında yapılan bütün etkinliklerin de, olması ge-
rektiği şekilde yerine getirilmesi durumunda geçerlilik kazanabilir.
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 35

Bir Ölçüte Göre Yapılan Değerlendirme


Daha önceki kesimlerde ölçütün değerlendirme sürecinin vazgeçilmez
bir öğesi olduğu belirtilmişti. Ancak belirli bir özelliğe ilişkin değerlendir-
menin yapılabilmesi için, ölçmeye konu olan özelliğe karşılık gelen değerle-
rin saptanması sonucunda ortaya çıkan ölçme sonuçlarına ihtiyaç duyulmak-
tadır. Ancak elde edilen ölçme sonuçlarının da güvenirlik ve geçerlik düzey-
lerinin yüksek olması gerekmektedir. Elde edilen ölçme sonuçları ne kadar
güvenilir veya geçerli olursa olsun yapılacak değerlendirmenin doğru olması
için tek başına yeterli olmayacaktır. Yapılan değerlendirmenin doğruluğu,
güvenilir ve geçerli ölçme sonuçlarının yanında, seçilen ölçütün uygunluğu-
na da bağlıdır. Değerlendirme için seçilen ölçüt ne kadar uygun olursa de-
ğerlendirme o denli doğru olacaktır.
Eğitimde iki türlü ölçüt kullanıldığı daha öncede belirtilmişti. Değer-
lendirmeler de bu ölçütler dikkate alınarak sınıflandırılabilir. Ölçüte göre
değerlendirmeleri, (1) mutlak değerlendirme ve (2) bağıl değerlendirme
şeklinde sınıflandırmak mümkündür.
Mutlak Değerlendirme: Öncelikle mutlak ölçütün ne olduğunu hatır-
lamakta fayda vardır. Mutlak ölçüt, ölçme işlemi gerçekleştirilmeden bir
kurum veya kurum adına yetkili bir kurul tarafından ölçmeye tabi tutulan-
lardan bağımsız olarak belirlenen referans noktası olarak adlandırılabilir.
Değerlendirme, mutlak bir ölçüt tespit edilerek yapılıyorsa bu değerlendir-
meye mutlak değerlendirme denir. Örnek olarak, bir okul basketbol takı-
mına oyuncu seçimi için boy uzunluğuna ilişkin ölçüt 195 cm. olarak belir-
lenmiş olsun. Burada belirlenen boy uzunluğuna ilişkin değer ölçüt olmakla
beraber aslında yeterlilik sınırı olarak da kabul edilmektedir. Basketbol
takım seçmelerine katılan adaylardan 10 tanesi daha önceden belirlenen
ölçüte uygunluk göstermiştir. Ölçüte göre uygun boy uzunluğuna sahip olan
10 kişiye okulun basketbol takımına seçildikleri bildirilmiştir. Bu 10 kişinin
basketbol takımına seçilmeleri yönünde verilen karar mutlak değerlendir-
meye örnek olarak gösterilebilir.
Bağıl Değerlendirme: Bağıl ölçüt, ölçme işlemi gerçekleştirildikten son-
ra, değerlendirmeyi yapacak olan kişi tarafından, ölçmeye tabi tutulan bire-
ye veya gruba bağlı olarak oluşturulan ölçüte denir. Yine ölçme işleminden
elde edilen ölçme sonuçlarından hareket edilerek bir değerlendirme yapıla-
caksa ve bu değerlendirmede de bağıl bir ölçüt kullanılıyorsa bu değerlen-
dirme bağıl değerlendirme olarak adlandırılmaktadır. Kısacası, bağıl ölçüte
göre yapılan değerlendirmeye bağıl değerlendirme denir. Örneklendirilecek
olunursa, sınıfta matematik dersinden en yüksek puan alan öğrenci sınıfın
en başarılı öğrencisidir yargısına ulaşılıyorsa burada ulaşılan “en başarılı”
36 Eğitimde Ölçme ve Değerlendirme

öğrenci yargısı bağıl değerlendirmedir. Çünkü en başarılı öğrencinin başarı-


sı, diğer öğrencilerin almış oldukları matematik puanları dikkate alınarak
varılan bir yargıyı oluşturmaktadır.
Bağıl değerlendirmede bireylerin ölçmeye konu olan özelliklerine kar-
şılık gelen değerleri (ölçme sonuçları) üzerinden hareket edilerek bireyler
birbirleriyle karşılaştırılmakta, bu karşılaştırmalara bağlı olarak da onlar
hakkında bir takım kararların verilmesinde kullanılmaktadır.
Yukarıda açıklanmaya çalışılan her iki değerlendirme türünü birlikte
düşündüğümüzde mutlak değerlendirmenin, bağıl değerlendirmeye göre
daha etkili değerlendirme yapılabilmesine olanak sağladığı söylenebilir.
Bağıl değerlendirme gruba bağlı olarak yapılırken seçilen ölçüt grubun özel-
likleri dikkate alınarak tespit edilmiştir, dolayısıyla yapılan değerlendirme
grubun özelliklerinden etkilenmektedir. Buna karşılık mutlak değerlendir-
mede herhangi bir şekilde grubun yapısından etkilenme söz konusu değildir.
Bundan dolayı yapılan mutlak değerlendirmenin, bağıl değerlendirmeye
göre daha doğru kararlar, yargılar ve hükümlere ulaşılmasına olanak sağla-
dığı söylenebilir.

Özet

İnsan, biyo-kültürel ve sosyal bir varlık olarak tanımlanmaktadır. İnsanın


doğduğu haliyle kendi kendine yeterli olması, gerekli olan ihtiyaçlarının ta-
mamını karşılayabilmesi mevcut haliyle mümkün görünmemektedir. Onun
doğuştan da getirdiklerini kullanarak kendi kendine yeterli hale gelmesi için
çaba gösterilmesi gerekiyor. Bu iş, eğitim sistemi içerisinde eğitim kurumları-
na verilmiştir. Eğitim de bireylerin gelişimini sağlamak için bilişsel, duyuşsal
ve psiko-motor gelişim dönemlerinin özelliklerini dikkate alarak eğitim prog-
ramları hazırlayarak uygulamaya koymaktadır. Uygulamaya konan eğitim
programlarında yer alan hedeflerin davranışa dönüştürülmesine çalışılmak-
tadır. Ancak eğitim kurumları, eğitim programlarında ön görülenlerin ne
kadarlık kısmını gerçekleştirdiğini veya gerçekleştiremediğini bilmek zorun-
dadır. Bunun için bireylere kazandırıldığı düşünülen özelliklerin kazanılma
derecesinin saptanması yani ölçülmesi gerekiyor.
Eğitimde, belirli bir niteliği gözlemek gözlem sonuçlarını sayı veya sem-
boller kullanarak açıklama işlemine ölçme denir. İki türlü ölçme söz konusu-
dur. Bunlardan birincisi doğrudan ölçme diğeri ise dolaylı ölçmedir. Doğru-
dan ölçmede, ölçmeye konu olan değişkenlere ait bazı değerler doğrudan
doğruya gözlenmeye uygun olabilmektedir. İşte bu niteliklere yönelik yapı-
lan ölçmeye doğrudan ölçme denir. Dolaylı ölçmede ise doğrudan ölçmeye
uygun olmayan değişkenlere ait bazı niteliklerin var olma derecesini sapta-
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 37

mak için başka bir değişken yardımıyla gözleme tabi tutmak mümkündür.
Bu tip ölçmeye de dolaylı ölçme denir. Özellikle dolaylı ölçme söz konusu
olduğunda bir ölçme aracının kullanılması kaçınılmaz olmaktadır. Ölçme
aracında bulunulması istenilen özelliklere bakıldığında (1) birimlerin genel-
lik, (2) birimlerin eşitlik ve (3) birimlerin kullanışlılık özelliklerine sahip olma-
sı arzu edilmektedir. Yine bununla beraber ölçmede sıfır kavramı önemli bir
yer tutmaktadır. Ölçmede sıfır, belirli bir özelliğe ait olduğu düşünülen değe-
re ait başlangıç noktası olarak kabul edilmektedir. Ölçmede iki türlü sıfır
kullanılmaktadır. Birincisi doğal (mutlak) sıfır diğeri ise göreceli sıfırdır.
Ölçmede kullanılan ölçeklere bakıldığında dört ölçek türü olduğu gö-
rülmektedir. Bunlar sırasıyla adlandırma-sınıflama ölçeği, sıralama ölçeği,
eşit aralıklı ölçekler ve eşit oranlı ölçeklerdir. Yukarıdaki sıralanış dikkate
alındığında en basit özellikteki ölçekten başlayarak en fazla anlamlı bilginin
elde edilebileceği ölçeğe doğru yapılmıştır. Buna göre en az bilgi sınıflama
ölçeğinden en fazla anlamlı bilgi ise eşit oranlı ölçekten elde edilebilmekte-
dir.
Ölçme işlemi belirli amaçlar doğrultusunda yapılmaktadır. Bunları, öğ-
rencinin hazır bulunuşluk düzeyinin saptanması, öğrenci motivasyonunu
sağlamak, uygulanmakta olan eğitim programının etkililiğini saptamak, öğ-
retmenin kendini değerlendirmesi v.b. amaçlar doğrultusunda yapılmaktadır.
Ölçme sonuçları, uygun bir ölçütle karşılaştırılarak yukarıda sıralanan özellik-
ler hakkında kararlar verilmesine olanak sağlamaktadır. Yani ölçme sonuçla-
rına bağlı olarak bir takım değerlendirmeler yapılmaktadır. Değerlendirme,
bir ölçme işleminden elde elden ölçme sonuçlarının uygun bir ölçütle karşı-
laştırarak birey ya da nesnelerin ölçülen özellikleri hakkında bir karar verme
süreci olarak tanımlanabilir. Değerlendirme türlerine bakıldığında, amaca
yönelik değerlendirme ve ölçüte dayalı yapılan değerlendirme olarak iki
türlüdür.
Ölçüte dayalı değerlendirme de kendi içinde ikiye ayrılmaktadır. (1)
Bağıl değerlendirme ve (2) mutlak değerlendirme. Bireyin veya grubun
özellikleri dikkate alınarak belirlenen bir bağıl ölçüt kullanılarak değerlen-
dirme yapılıyorsa bu değerlendirmeye bağıl değerlendirme denir. Birey-
den veya grubun özelliğinden bağımsız olarak belirlenen ölçüte dayalı yapı-
lan değerlendirmeye mutlak değerlendirme denir.
38 Eğitimde Ölçme ve Değerlendirme

Kaynakça
Atılgan, H. (Ed.) (2006) Eğitimde Ölçme ve Değerlendirme. Anı Yayıncılık.
Ankara
Baykul, Y. (2000) Eğitimde ve Psikolojide Ölçme: Klasik Test Teorisi ve Uygulama-
sı.
ÖSYM Yayınları. Ankara
Baykul, Y. (1996) İstatistik: Metodlar ve Uygulamalar. Lazer Ofset. Ankara
Doğanay, A, E. Karip (2006) Öğretimde Planlama ve Değerlendirme. PEGEM A
Yayıncılık, Cantekin Matbaası, Ankara
Demirel, Ö. (2003) Kuramdan Uygulamaya Eğitimde Program Geliştirme.
PEGEM A
Yayıncılık. Ankara
Demirel, Ö. Ve Z. Kaya (Ed.) (2007) Eğitim Bilimine Giriş. PEGEM A Yayıncılık.
Ankara
Ertürk, S. (1993) Eğitimde “Program” Geliştirme. Meteksan Yayınları. Ankara
İşman, A. Ve A. Eskicumalı (1999) Eğitimde Ölçme ve Değerlendirme. Değişim
Yayınları. Adapazarı
Karip, E. (2007) Ölçme ve Değerlendirme. PEGEM A Yayıncılık. Ankara
Öztürk, M.(Ed.) (2005) Öğretimde Planlama ve Değerlendirme. Lisans Yayıncılık.
İstanbul
Özçelik, D. A. (1981) Okullarda Ölçme ve Değerlendirme. ÜSYM Yayınları: 3.
Ankara
Sönmez, V. (2003) Program Geliştirmede Öğretmen El Kitabı. Anı Yayıncılık.
Ankara
Tan, Ş. (2006) Öğretimi Planlama ve Değerlendirme. PEGEM A Yayıncılık. Anka-
ra
Tekin, H. (1993) Eğitimde Ölçme ve Değerlendirme. Yargı Kitap ve Yayınevi. An-
kara
Turgut, M. F. (1984) Eğitimde Ölçme ve Değerlendirme Metotları. Saydam Matba-
acılık. Ankara
Yılmaz, H. (1998) Eğitimde Ölçme ve Değerlendirme. Mikro Basım-yayım-dağıtım.
Konya
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 39

Sorular

1. Bir öğrencinin dönem sonu ortala- 4. Ölçekler birbirilerine dönüştürü-


ma başarısının saptanmasında aşa- lürken, kuramsal olarak aşağıdaki
ğıdaki ölçme türlerinden hangisi sıralamalardan hangisi kullanılma-
kullanılmalıdır? lıdır?
A) Temel Ölçme I. Eşit Aralıklı Ölçek
B) Dolaylı Ölçme II. Sınıflama Ölçeği
C) Doğrudan Ölçme III. Eşit Oranlı Ölçeği
D) Türetilmiş Ölçme IV. Adlandırma Ölçeği
E) Temel Ölçme ve Doğrudan V. Sıralama Ölçeği
Ölçme birlikte
A) I, III, V ve IV
B) III, I, V ve II
C) III, II, I ve IV
D) II, III, V ve I
2. Tilbe, “Bilimsel Araştırma Yöntem-
E) III, I, IV ve II
leri” dersinden başarılı olmuştur.
Bu ifadeyi aşağıdaki kavramlardan
hangisi karşılamaktadır?
A) Ölçme
B) Ölçek
C) Ölçüm
D) Ölçme Sonucu
E) Değerlendirme
5. Aşağıdakilerden hangisi “Mutlak
Değerlendirme”ye bir örnek olarak
gösterilebilir?
A) Yatay geçişte ilk beş sırayı alan
öğrencilerin kabul edilmesi
3. Aşağıdakilerden hangisi ölçme
sürecinde yer almaz? B) Grup ortalamasının üstünde
puan alanların başarılı olarak
A) Ölçülecek özelliğin belirlenme- kabul edilmesi
si C) Üniversite Yönetiminin, ders-
B) Uygun ölçme aracının Belir- lerde 70 ya da üstünde puan
lenmesi alanları başarılı olarak kabul
C) Değerlendirmenin hemen ya- etmesi
pılması D) İpek’in grupta en yüksek puanı
D) Ölçme işleminin gerçekleştiril- alması
mesi E) Tilbe. ölçüt puan olan 70’den
E) Ölçme sonuçlarının ifade edil- yüksek puan alarak Matematik
mesi dersinden geçmiştir.
40 Eğitimde Ölçme ve Değerlendirme

6. Aşağıdakilerden hangisi bağıl değer- 9. Aşağıdakilerden hangisi bir değer-


lendirmede kullanılan ölçüt ola- lendirmeyi ifade etmektedir?
maz?
A) Ahmet Matematik dersinden
Sınıf ortalaması 70 aldı
A) Ortalamanın bir standart sap- B) Serhat sınavda üç soruyu yanlış
ma üstü cevaplandırdı
B) Okuldaki aynı sınıf düzeyindeki C) Büroda çalışan sekreter daki-
bütün öğrencilerin ortalaması kada 120 kelime yazıyor
D) Bir dersten başarılı olmak için
C) Uygulanmakta olan eğitim
65 ve üstü puan almak gereki-
programının hedefleri
yor
D) Öğrencilerin bulunduğu bölge- E) Merve geçen yıl Hacettepe
nin ortalaması Üniversitesi Tıp Fakültesini ka-
E) Okulun ortalaması zandı

7. Öğrencilerle ilgili doğru değerlen-


dirme yapabilmek için aşağıdakiler- 10. Aşağıdakilerden hangisi doğrudan
den hangisi daha önemli görünmek- ölçme yöntemiyle ölçülmeye uygun-
tedir? dur?
A) Ölçme sonuçlarının güvenilir A) Öğrencilerin Ölçme ve Değer-
olması lendirme dersine ait başarıları-
B) Sınavların ülke düzeyinde ya- nın saptanması
pılması B) Öğrencilerin İstatistik dersine
C) Önceden uygun bir ölçütün se- yönelik tutumlarının saptanma-
çilmesi sı
D) Öğrencilerin değerlendirmeden C) Bir yazılı metin içinde yer alan
haberdar olmaması yanlış sözcüklerin saptanması
D) Öğrencilerin imla kurallarını
E) Öğrencilerin kazandıkları mev-
kullanabilme düzeylerinin sap-
cut öğrenmelerinin dikkate
tanması için yazılı yoklamaya
alınması
tabi tutulmaları
E) Fen liselerine girecek en başa-
rılı öğrencilerin saptanması
8. Aşağıdakilerden hangisi öğrencilerle
ilgili olarak yapılacak olan değer-
lendirme sonucunda verilen hükmü
etkilemez? 11. Bir termometredeki bölmelerin her
noktada aynı büyüklükte olması bi-
A) Ölçme sonuçlarının güvenirliği rimin hangi özelliğini ifade etmek-
B) Ölçme sonuçlarının geçerliği tedir?
C) Öğrencilerin öğrenme düzeyle- A) Genelliğini
ri B) Kullanışlılığını
D) Ölçme sonuçlarına karışan hata C) Eşitliğini
E) Seçilen ölçütün uygunluğu D) Güvenirliğini
E) Yordanabilirliğini
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 41

12. Başlangıç noktası doğal “0” olan 14. Bir yabancı dil kursunda kursiyerler
ölçek aşağıdakilerden hangisidir? yaşadıkları mahallenin baş harfine
A) Sınıflama ölçeği göre gruplandırılarak sınıflara yer-
leştirilmişlerdir.
B) Eşit aralıklı ölçek
C) Sıralama ölçeği Burada kursiyerlerin gruplandırıl
masını bir ölçme işlemi olarak ka-
D) Eşit oranlı ölçek
bul edildiği takdirde hangi ölçek
E) Adlandırma ölçeği kullanılmış sayılır?
A) Sınıflama ölçeği
13. Aşağıdaki özelliklerden hangisi B) Eşit aralıklı ölçek
dolaylı ölçme yöntemiyle ölçülmeye
uygundur? C) Sıralama ölçeği
D) Eşit oranlı ölçek
A) Sınıftaki kaç öğrencinin bulun-
duğunun saptanması E) Adlandırma ölçeği
B) Sahip olduğunuz kitap sayısını
belirlemeniz
C) Bir kişin boy uzunluğu
D) Herhangi bir derse ilişkin aka-
demik başarının saptanması
E) Yukarıdakilerin hepsi

Cevap Anahtarı
1-D 2-E 3-C 4-B 5-B 6-C 7-A
8-C 9-E 10-C 11-C 12-D 13-D 14-A

Yrd. Doç. Dr. Metin YAŞAR

Yaşar, ilköğretimini Iğdır-Karakoyunlu’da, orta öğretimini ise Iğdır’da


tamamladı. 1988 yılında lisans programını, 1990 yılında Yüksek Lisans
programını ve 1999 yılında ise Doktora programını Hacettepe Üniversitesi
Eğitim Fakültesi Eğitim Bilimleri Bölümü Eğitimde Ölçme ve Değerlendirme
Anabilim Dalında tamamladı.
Aynı zamanda 1989-1994 yılları arasında YÖK/Dünya Bankası II. En-
düstriyel Eğitim Projesinde Eğitim Uzmanı olarak çalıştı. Yaşar, Şubat 1994
yılından beri Pamukkale Üniversitesi Eğitim Fakültesi Eğitim Bilimleri Bölü-
mü Eğitimde Ölçme ve Değerlendirme Anabilim dalında Öğretim Üyesi ola-
rak çalışmaktadır.
216 Eğitimde Ölçme ve Değerlendirme
3. Bölüm

ÖLÇME ARAÇLARINDA
BULUNMASI İSTENEN NİTELİKLER

Özlem Yeşim ÖZBEK


Gaziosmanpaşa Üniversitesi
Kazanımlar
Bu bölümün sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir.
 Ölçme araçlarında bulunması gereken niteliklere yönelik önemli terimlerin
anlam bilgisi
 Güvenirlik ve farklı güvenirlik türlerini açıklayabilme
 Hata türlerinin bilgisi
 Güvenirliği azaltan hata kaynaklarının farkında olma
 Gerçek puan teorisinin güvenirlikle olan ilişkisini açıklayabilme
 Güvenirliği hesaplayabilmek için uygun yöntemi seçebilme
 Geçerlik ve farklı geçerlik türlerini açıklayabilme
 Testin amacına uygun geçerlik kanıtı sağlayacak yöntemi seçebilme
 Testin geçerliği azaltan hata kaynaklarının fakında olma
 Kullanışlılık kavramının bilgisi

İçindekiler
 Giriş
 Güvenirlik
 Ölçme Hataları
 Güvenirlik İndeksi ve Ölçmenin Standart Hatası
 Gerçek Puan Teorisi
 Güvenirliği Hesaplamak İçin Yöntemler
 Güvenirliği Etkileyen Faktörler
 Geçerlik
 Geçerliği Etkileyen Faktörler
 Kullanışlılık
 Özet
 Kaynakça
 Sorular
44 Eğitimde Ölçme ve Değerlendirme

Giriş

Bir test davranış evrenine ait küçük bir örneklem sağlar. Her hangi bir
testle ilgili olarak iki basit soru yöneltilmelidir. Birinci soru testin bizim ger-
çekte ilgilendiğimiz özelliği ne derece iyi temsil edip etmediğidir. Testle öl-
çülmek istenen davranışlar bizim ölçmek istediğimiz nitelik ve alan bilgisi ile
uyuşuyor mu? Bu bir geçerlik sorunu olup, testin her hangi bir amaçla kul-
lanımına karar vermek için temel oluşturur. İkinci soru ise testin ölçülmek
istenen alanı ne derece iyi (doğru ve kesin) ölçtüğü ile ilgilidir. Bu bir kesin-
lik tahminidir ve testin güvenirliğini belirler. Bir test geçerli olmadan da
güvenilir olabilir ancak amaca uygun olmayan bir ölçme aracını kullanmak
anlamsızdır. Geçerlik ve güvenirlik kadar önemli olmasa da, testin her hangi
bir amaçla kullanımına karar vermek için önemli olan diğer bir özellik de
kullanışlılıktır. Kullanışlılık ölçme aracının hazırlanması ve uygulanması
sırasında ne kadar pratik ve ekonomik olduğunu işaret eden bir kavramdır.
Testlerin insan yaşamındaki etkisi dikkate alındığında, test geliştirme
sürecinin profesyonel eğitim gerektiren uzun süreli bir süreç olduğu açıktır.
Test standartlarına göre, her testin ölçmeyi amaçladığı özelliğin güvenilir ve
geçerli kestiricisi olduğunun kanıtlanması gerekir (AERA, APA, NCME,
1966; 1974; 1986; 1999).
Bu bölümde eğitimde ve psikoloji de kullanılan ölçme araçlarında bu-
lunması gereken özelliklerden güvenirlik, geçerlik ve kullanışlılık incelen-
miştir.

Güvenirlik

Güvenirlik (reliability) bir ölçme aracının sahip olması gereken özellik-


lerden biridir (Standards of Educational and Psychological Testing: AERA,
APA, NCME, 1966; 1974; 1985; 1999). Güvenirlik test puanlarının ölçme
hatalarından ne kadar arınık olduğuna işaret eder. Testi geliştiren birey ya
da test merkezi testin amaçlanan kullanımı için yeterli güvenirlik kanıtı sağ-
lamak ve bunları yayınlamak durumundadır. Bunun yanında, testi kullanan
bireyler güvenirlik hakkındaki mevcut bilginin amaçlanan kullanım için uy-
gun olup olmadığına karar vermek, bu bilgiyi yorumlamak ve yokluğunda
gerekli kanıtı sağlamakla sorumludur.
Güvenirlik, içtutarlık (ölçme aracının aynı şeyi ölçme derecesi) ve dav-
ranışın zaman içinde tutarlığı (kararlılık) olmak üzere en az iki farklı anla-
ma gelir. Güvenirlik, Mehrens ve Lehman (1987) tarafından aynı şeyin iki
ölçümü arasındaki tutarlık dereci olarak tanımlanmıştır. Worthen ve diğer-
Ölçme Araçlarında Bulunması İstenen Nitelikler 45

leri (1993) güvenirliği, bir testin aynı şeyi her seferinde ölçmedeki kararlılı-
ğının, güvenirliğinin, doğruluğunun ve tutarlığının bir ölçüsü olarak ifade
etmişlerdir.
Belli bir ölçüde bütün psikolojik testlerin güvenilirliği tam değildir
(Crocker & Algina, 1986). Örneğin, bir zeka testi bir grup yetişkine uygula-
nır ve iki hafta sonra yeniden aynı gruba uygulanırsa, iki uygulamada her
bireyin aynı puanları alması ya da grubun içinde aynı sıralamayı koruması
mümkün değildir. Benzer şekilde ingilizce testinin paralel formları bir öğ-
renciye aynı gün verilirse, öğrenciler muhtemelen iki test üzerinden aynı
sıralamaya sahip olmayacaktır.
Bir araştırmacı ölçeğin tutarlık ya da geçerliği ile ilgileniyorsa gözlem-
lerini elde ettiği evrene ya da gruba genellemek istiyordur. Bizim temel ilgi-
lendiğimiz şey nadiren test puanlarının kendisidir. Bir test genellikle bu test
maddelerinin ait olduğu evrenin bir örneklemi olarak görülür. Bu evrende
aynı amaç için kullanılabilecek pek çok madde vardır. İngilizce kelime bilgi-
sini yoklamak için 25 kelime seçtiğimizi düşünelim, bizim buradaki ana
amacımız 25 kelime içinde öğrencinin yüzde kaçını bildiği değil, öğrencinin
bu kelimelerin geldiği evren içinde yüzde kaçını bildiğidir. Eğer ikinci bir
form için aynı evrenden rastgele 25 kelime daha seçilse öğrencilerden çok
azı birinci testte aldıklarını puanların aynısını alabilirler.
Örneklemden elde edilen gözlenen puanlar, hipotetik evrenden bütün
maddelerin uygulanması ile elde edilen puana (gerçek puan) ne derce ya-
kındır? Bu soru güvenirliğin asıl konusunu oluşturur. Testi alan bir bireyin
testteki performansı bir durumdan diğer bir duruma ölçmenin amacıyla ala-
kalı olmayan nedenler yüzünden farklılaşabilir. Bu farklılaşmanın nedenleri,
bireyin testi yeniden aldığında daha çok gayret göstermesi, daha yorgun ya
da daha heyecanlı olması, diğer test formuna göre sorulara daha aşina ol-
ması olabilir. Bu ve bunun gibi nedenlerle yüzünden bir bireyin puanları bir
durumdan diğer bir duruma aynı olmayacaktır. Hatta bir testin A ve B sek-
linde kapsamı ve güçlük düzeyi aynı olan iki eşdeğer formu oluşturulsa, bir
bireyin iki formda eşleştirilen maddelerin cevabını bilmesi halinde doğru
yapacağı garantilenemez. Puanlardaki bir uygulamadan diğer uygulamaya
farklılaşmanın nedeni ölçmenin hatasına dayandırılabilir. Bu tür hatalar
testin güvenirliğini ve genellenebilirliğini düşürür. Belli bir hatanın önemi,
ölçme hatasının büyüklüğü kadar ölçmenin spesifik amacına da bağlıdır.
Ölçme hatalarından ve çeşitli hata kaynaklarından bahsetmek güvenirlik
kavramını tam olarak anlamak için gereklidir.
46 Eğitimde Ölçme ve Değerlendirme

Ölçme Hataları

Ölçme hataları tesadüfi (random) hata ve sistematik hata olmak üzere iki
grupta incelenebilir. Tesadüfi hata, ölçmeyi tesadüfi olarak etkilen faktörler-
den kaynaklanan hatalardır. Örneğin, bir bireyin testi alırken sahip olduğu
olumlu ya da olumsuz psikoloji onun testteki başarısını artırabilir ya da azal-
tabilir. Aslında bireyin ölçülen özelliği değişmezken, bu durum gözlenen pu-
anlarında artmaya ya da azalmaya neden olacaktır. Ancak, tesadüfi hatalar
ölçme üzerinde sürekli bir etki oluşturmaz. Tesadüfi hataların dağılımı ince-
lediğinde negatif ve pozitif yöndeki hataların eşit miktarda dağıldığı ve bunla-
rın birbirinin etkisini yok ettiği görülecektir. Bir başka deyişle tesadüfi hatala-
rın dağılımının ortalaması her zaman 0 olur. Kısaca tesadüfi hata ölçme so-
nuçlarına değişkenlik katacaktır ancak grubun ortalama başarısı üzerinde bir
etkiye sahip olmayacaktır. Sonuç olarak, tesadüfi hata ortalamayı etkilemez
ancak ortalama etrafındaki değişkenliği etkiler. Bu nedenle, genellikle tesa-
düfi hata verideki kirlilik (gürültü) olarak da değerlendirilir.
Sistematik hata ölçme sonuçlarını sistematik olarak etkileyen faktörler-
den kaynaklanan hatalardır. Örneğin, sınav yapılan bir dersliğin aşırı derece
de soğuk olması o sınıfta testi alan öğrencilerin hepsinin dikkatini dağıtacak
ve test puanlarının sistematik olarak düşmesine neden olacaktır. Tesadüfi
hataların tersine, sistematik hatalar pozitif ya da negatif yönde süreklilik
gösterir. Bundan dolayı, bazen sistematik hatalar ölçmelerdeki yanlılık ola-
rak da değerlendirilir. Güvenirliği etkileyen hata kaynakları daha sonra de-
taylı olarak incelenecektir.

Güvenirlik İndeksi ve Ölçmenin Standart Hatası

Güvenirliği kestirmek için her biri farklı amaçlara hizmet eden iki yol
vardır. Güvenirlik ya güvenirlik indeksi (reliability coefficient) ya da ölçmenin
standart hatası ( Standard Error of Measurement) kullanılarak kestirilebilir.
Güvenirlik göreceli ya da mutlak olabilir. Göreceli tutarlık testin bireyin grup
içindeki durumunu ne derece doğru gösterdiği sorusuyla ilgilenir. Bu sorunun
cevabı genellikle gerçek ya da hipotetik bir testin puanlarının bir başka test
puanları ile ilişkisini kestiren korelasyon katsayısı (güvenirlik indeksi) kullanı-
larak bulunur. Mutlak tutarlık ise kişinin puanlarının bir ölçme durumdan
diğer ölçme durumuna göre ne kadar farklılaşacağı sorusu ile ilgilenir. Bu
sorunun cevabi ise ölçmenin standart hatası olarak ifade edilir. Standart hata
bireyin ölçülen özelliğinin aynı kalması koşulu ile, bireyin üzerinde yapılan
hipotetik ölçmelerin standart sapmasıdır. Bu iki kavramı tam olarak tanımla-
yabilmek için ölçmede gerçek puan teorisinden bahsetmek gerekir.
Ölçme Araçlarında Bulunması İstenen Nitelikler 47

Gerçek Puan Teorisi

Gerçek puan teorisi Spearman (1904) tarafından temelleri atılan ve da-


ha sonra Guilford (1936), Gulliksen( 1950), Magnusson (1967), Lord ve
Novick (1968) tarafından geliştirilen bir klasik test teorisidir. Bütün teoriler
gibi bu teorinin de ispatlanmadığını göz önünde bulundurmak gerekir.
Gerçek puan teorisine göre her ölçme gerçek puan (true score) ve te-
sadüfî hata (random error) olmak üzere iki bileşenin toplamına eşittir. Göz-
lenen puan sembollerle aşağıdaki gibi gösterilebilir.
X =T +E (3.1)
Burada X , bireyin gözlenen puanı; T , bireyin gerçek puanı ve E ,
ölçme işlemine karışan tesadüfi hata miktarını göstermektedir. Gerçek puan
teorik bir kavramdır ve ölçülen özelliğin hatalardan arınık olan gerçek de-
ğerini ifade eder. Dolayısıyla bizim gerçek puanları gözlememiz mümkün
değildir. Ancak gözlenen puanlardan gerçek puanları kestirebiliriz. Gözle-
nen puanların gerçek puanlara yakınlık derecesi ölçme hatalarına bağlıdır.
Klasik test teorisine göre ölçme hatası bireyin gözlenen puanları ile gerçek
puanları arasındaki farktır. Ölçme hatası tesadüfi bir değişkendir. Ölçmenin
tekrarlanması halinde bir bireyin ölçme hatalarının ortalaması sıfır olacak-
tır. Eşitliği yeniden düzenlersek
T = X −E (3.2)
olacaktır.
Bu eşitlik ölçme hatası ne kadar küçükse T ve X arasındaki farkın da o
kadar az olacağını göstermektedir. Gerçek puanın bir sabit olduğu göz
önünde tutulursa, gözlenen puanın aslında bir tesadüfi değişken olan hata
puanına bağlı başka bir tesadüfi değişken olduğu kolayca anlaşılabilir. Bu
durumda, bir grup bireyin belli bir testi alması durumunda alacakları puan-
lar birer tesadüfi değişken olarak düşünülebilir.
Yukarıda gözlenen puanların gerçek puanlar ve hata puanlarından
oluştuğu belirtilmişti. Bu durumda, gözlenen puanların değişkenliği
(varyans) gerçek puanların ve hata puanlarının değişkenliklerinin toplamına
eşit olacaktır.

σ X2 = σ T2 + σ E2 (3.3)

Burada σ X2 , gözlenen puanların varyansını; σ T2 , gerçek puanların


varyansını ve σ E2 , hata puanlarının varyansını göstermektedir.
48 Eğitimde Ölçme ve Değerlendirme

Güvenirlik kavramını tam olarak anlamamız için gerçek puan teorisinin


temel varsayımlarını da hatırlamamız gerekir. Gerçek puan teorisinin temel
varsayımları aşağıdaki gibi sıralanabilir
1. Test edilen bir grup birey için ölçme hatalarının ortalaması sıfırdır.
2. Test edilen bir grup birey için gerçek puanlarla hata puanları ara-
sındaki korelasyon sıfırdır.
3. Aynı özelliği ölçmek için bir grup bireye verilen iki ayrı testin hata
puanları arasındaki korelasyon sıfırdır.
Eşitlik 3.2 gözlenen puanların, hatalardan arınık olduğu ölçüde gerçek
puana yakın olduğunu göstermektedir. Bireyin gerçek puanları ile gözlenen
puanları arasındaki ilişki ölçme hatalarını tahmin etmek için kullanılabilir.
Gözlenen puanla gerçek puan arasındaki ilişki korelasyon katsayısı ile bulu-
nur. X ve T arasındaki korelasyon
ΣXT
ρ XT = (3.4)
Nσ X σ T
burada ρ XT , güvenirlik indeksi; σ T , gerçek puanların standart sapma-
sı;σ X , gözlenen puanların standart sapması ve N , örneklem büyüklüğü-
dür. Eşitlikte X yerine (T + E ) konursa,

ΣT 2 ΣTE
ρ XT = + (3.5)
Nσ X σ T Nσ X σ T
haline dönüşür. Gerçek puanla hata puanları arasındaki korelasyon sı-
fır olacağından eşitlikte sağdaki kısım atılır ve gerekli sadeleştirmeler yapı-
lırsa,
σT
ρ XT = (3.6)
σX
elde edilir. Burada, ρ XT , güvenirlik indeksi; σ T , gerçek puanların
standart sapması ve σ X , gözlenen puanların standart sapmasıdır. Güvenir-
lik indeksi ( ρ XT ) denilen bu eşitlik, gerçek puanların standart sapmasının
gözlenen puanların standart sapmasına oranından başka bir şey değildir.
Gerçek puanlar bilinmediğinden, bunların standart sapmasını da bulmak
mümkün değildir. Bu durumda güvenirlik indeksi teorik bir kavramdır. An-
Ölçme Araçlarında Bulunması İstenen Nitelikler 49

cak, paralel formlardan yararlanılarak gerçek puanlarla gözlenen puanlar


arasındaki ilişki ( ρ XT ) kestirilebilir. Klasik test teorisine göre, her hangi iki
testin paralel olabilmesi için bir bireyin her iki testteki gerçek puanın ve ha-
ta puanının varyanslarının eşit olması gerekir (Crocker & Algina, 1986).

Şimdi iki paralel formun bir grup bireye uygulanması ile elde edilen X 1
ve X 2 puanlarını düşünelim. X 1 ve X 2 puanları ancak gerçek puanı pay-
laştıkları ölçüde bir biri ile ilişkili olabilir.
σ (X X )
ρX X = 1 2
(3.7)
1 2
σXσX
1 2

Burada, σ X 1 , X 1 ’in standart sapmasını; σ X 2 , X 2 ’nin standart sapma-


sını ve σ ( X 1 X 2 ) , X 1 ve X 2 ’nin ortak değişkenliğini (kovaryansını) göster-
mektedir. Eşitliğin altı X 1 ve X 2 ’nin standart sapmalarının çarpımını ver-
mektedir. Formlar paralel olduğundan X 1 ve X 2 ’nin standart sapmasının
aynı olması beklenir. Bu da ölçmelerden her hangi birinin standart sapma-
sının karesini almakla aynı şeydir. Standart sapmanın karesinin de ölçmenin
varyansına ( σ X2 ) eşit olduğu düşünülürse, eşitlik

σ (X X )
ρX X = 1 2
(3.8)
1 2
σ X2
halini alır. İki ölçme arasında paylaşılan tek şey gerçek puanlar olaca-
ğından, kovaryans gerçek puanın varyansını kestirmek için kullanılabilir.
Son olarak σ ( X 1 X 2 ) yerine σ T2 yazılırsa,

σ T2
ρX X = 2 (3.9)
1 2
σX
elde edilir. Burada ρX X 1 2
, güvenirlik katsayısıdır ve aslında güvenirlik
indeksinin karesinden başka bir şey değildir. Bir özelliğin iki farklı zamanda
ölçülmesi ile elde edilen puanlar arasındaki korelasyon ρ X 1 X 2 güvenirliğin
bir kestiricisini verir. ρX X
1 2
genellikle ρ XX ' olarak gösterilir.
50 Eğitimde Ölçme ve Değerlendirme

Güvenirlik indeksi ile güvenirlik katsayısı arasındaki farkı açıklamakta


fayda vardır. güvenirlik katsayısı ρ X1 X 2 bireyin gözlenen puanlarındaki de-
ğişkenliğin gerçek puanlarla açıklanabilen kısmıdır. Güvenirlik indeksi
( ρ XT ) gerçek puanlarla gözlenen puanlar arasındaki korelasyondur. Güve-
nirlik katsayısının karesi ( ρ X X ) 2 ise paralel testlerden birinde gözlenen
1 2

puanların varyansının diğer testten tahmin edilebilen kısmıdır (Crocker &


Algina, 1986).
Örneğin, paralel iki test kullanılarak elde edilen bir güvenirlik katsayı-
sının ρ X1 X 2 = .88 olduğunu düşünelim. Bu durumda gözlenen puanlardaki
değişkenliğin % 88’inin gerçek puanlarla açıklanabileceğini ya da %
12’unun ölçme hatası yüzünden kaynaklandığı, gözlenen puanlarla gerçek
puanlar arasındaki korelasyonun .88 =.94 olduğu ve ikinci testteki göz-
lenen puanların varyansının % 77’inin (.88 ) birinci testteki gözlenen pu-
2

anlarla tahmin edildiğini söyleyebiliriz.


Güvenirlik indeksi 0 ile 1 arasında değerler alır. Eğer bir ölçme güveni-
lir, değilse σ ve σE birbirine eşittir. Başka bir deyişle, test üzerindeki bireysel
farklılıklar tamamen ölçme hatasının ürünüdür. Güvenirlik mükemmel ol-
duğunda ise puanlardaki bütün farklılıklar, tamamen gerçek puanlardaki
farklılıktan kaynaklanır. Bu iki marjinal durum arasındaki koşullar bütün
test durumlarında bulunur. Güvenirlik indeksinin mükemmele yakın olması
istendik bir durumdur. Güvenirlik indeksi .90 ve üzerinde ise testin güvenir-
liği yüksek, .80 ve üzerinde ise orta, .70 ve daha altında ise düşük olarak ka-
tegorize edilebilir.
Buraya kadar anlatılanlardan güvenirlik katsayısının aslında teorik bir
kavram olduğu görülmektedir. Çünkü gerçek yaşamda tamamıyla paralel
formlar oluşturmak çok güçtür. Ancak, güvenirlik katsayısını çeşitli alterna-
tif yöntemler kullanarak kestirmek mümkündür. İki testin farklı zamanlarda
uygulanarak aradaki korelasyonun hesaplanması ya da yaklaşık paralel
formların hazırlanarak iki formun arasındaki korelasyonun bulunması bun-
lardan sadece bazılarıdır. Bundan sonraki bölümde güvenirlik katsayısını
kestirmek için kullanılan yöntemler detaylı olarak incelenecektir.
Bu bölümü bitirmeden önce incelenmesi gereken diğer önemli bir kav-
ram ölçmenin standart hatasıdır. Bir öğrencinin bilgi düzeyinde ve teste ha-
zırlığında farklılık olmamak kaydı ile aynı testi defalarca aldığını düşünelim,
bu durumda öğrencinin aldığı puanların bazılarının gerçek bilgi ya da yete-
nek düzeyinden yüksek bazılarının ise düşük olması mümkündür. Ölçme
Ölçme Araçlarında Bulunması İstenen Nitelikler 51

hatalarının standart sapmasına ölçmenin standart hatası denir (σE ). Ölçme-


nin standart hatası gerçek puanla gözlenen puanlar arasındaki farkı göster-
diği için testin yorumlanmasında önemlidir. Güvenirlik ve ölçmenin stan-
dart hatası kavramları birbiriyle yakından ilişkilidir. Testin standart sapması
değişmiyorsa, ölçmenin standart hatası güvenirlik indeksi tarafından belir-
lenir. Daha önce, gözlenen puanların varyansının gerçek puanların varyansı
ve hata puanlarının varyansı olmak üzere iki kısımdan oluştuğundan bah-
setmiştik. Ölçmenin standart hatası bu ilişkiden yararlanılarak bulunabilir.
Eşitlik 3.3’ün her iki yanı σ X2 bölünürse

σ T2 σ E2
1= + (3.10)
σ X2 σ X2
elde edilir. Yukarda gerçek puanın varyansının gözlenen puanın
varyansına oranının güvenirlik indeksini verdiğini ( ρ XX ' ) hatırlayalım, bu
⎛ σ E2 ⎞
durumda ρXX ' kullanılarak eşitlik yeniden yazılır ⎜⎜1 = ρ XX ' + ⎟⎟ ve σ E2 ’yi
⎝ σ X2 ⎠
yalnız bırakmak için bir dizi işlem yapılırsa, ölçmenin standart hatasını he-
saplamak için formül aşağıdaki gibi elde edilir.

σ E = σ X 1 − ρ XX ' (3.11)

Eşitlikteσ E , ölçmenin standart hatası; σ X , gözlenen puanların stan-


dart sapması; ρ XX ' ise testin güvenirlik katsayısıdır. Bu durumda gözlenen
puanların güvenirlik indeksi ve standart sapması biliniyorsa belli bir gerçek
puan için ölçmenin standart hatasını hesaplanabilir. Örneğin, bir grup öğ-
rencinin ağırlığın ölçüldüğünü ve ölçmenin standart hatasının hesaplanmak
istendiğini düşünelim. Grubun ağırlıklarının standart sapması 10 ve testin
güvenirlik indeksi .99 olsun. Bu durumda ölçmenin standart hatası
σ E = 10 1 − .99 = 1 olacaktır. Ölçme hataları normal dağılım gösterir, or-
talamasının 0 ve standart sapması ise 1’dir. Bu durumda normal dağılım
teorisi kullanılarak gerçek puanlar için güven aralıkları aşağıdaki eşitlikle
elde edilebilir.
T ± zσ E (3.12)

Burada z , standart normal dağılımdaki kritik değerdir. Gerçek puan


için %68, %95 ve %99 olasılıklı güven aralıkları aşağıdaki gibidir.

%68 olasılıkla T ± 1σ E
52 Eğitimde Ölçme ve Değerlendirme

%95 olasılıkla T ± 1.96σ E

%99 olasılıkla T ± 3σ E

Ağırlıkları ölçülen öğrencilerin gerçek puanları için % 68 güven aralığı


hesaplanırsa, ölçümlerde elde edilen ağırlıkların öğrencilerin çoğunluğu için
(% 68) gerçek ağırlık puanlarına ±1 uzaklıkta olacaktır.
Bireyin gerçek puanı bilinmediğinden, gerçek puan için güven aralı-
ğını hesaplayamayız. Bunun yerine genellikle bireyin gözlenen puanı için
güven aralıkları hesaplanır. Gerçek puanın % 68 olasılıkla bu aralığa düşe-
bileceğini söyleyebiliriz. Bir bireyin gözlenen puanları için tahmin edilen
gerçek puanın güven aralıkları aşağıdaki gibidir.

% 68 olasılıkla X ± 1σ E

% 95 olasılıkla X ± 1.96σ E

% 99 olasılıkla X ± 3σ E

Örneğin, bir öğrenci güvenirlik indeksi .70 ve standart sapması 3 olan


bir testten 60 puan almıştır; bu öğrencinin çeşitli olasılık düzeylerinde pua-
nının içine düşeceği sınırları bulalım. Ölçmenin standart hatası formül 3.11
kullanılarak, yandaki gibi bulunur σ E = 3 1 − .70 = 1.64 ve güven aralıkla-
rının sınırları aşağıdaki gibi hesaplanır.

% 68 olasılıkla 60 ± 1σ E = 60 ± 1.64= (58.4 - 61.6)

% 95 olasılıkla 60 ± 2σ E = 60 ± 3.29= (56.7 - 63.3)

% 99 olasılıkla 60 ± 3σ E = 60 ± 4.93= (55.1 - 65)

Ölçmenin standart hatası, bizim test puanları hakkındaki yorumları-


mızda ne kadar esnek olmamız gerektiğine yardımcı olur. Ölçmenin stan-
dart hatası kullanılırken okuyucunun dikkatli olması gerekir. Ölçmenin
standart hatası bireyin gözlenen puanlarının gerçek puanlarına ne kadar
uzakta olduğuna dair yaklaşık bir değer verir. Ancak, gerçek puanın gözle-
nen puana dayanarak hesaplanan güven aralığı içine düşeceği garantilene-
mez. Ayrıca ölçmenin standart hatası birçok bireyin standart hatalarının bir
ortalamasını verir ve bütün bireyler için bu standart hataların miktarı aynı
olmayacaktır (Crocker & Algina, 1986).
Ölçme Araçlarında Bulunması İstenen Nitelikler 53

Güvenirliği Hesaplamak için Yöntemler

Daha önce, ölçme hatasına neden olan farklı kaynaklar olduğundan


bahsedilmişti. Testin güvenirliğini kestirmede farklı hata kaynaklarını dik-
kate alan çeşitli yöntemler vardır. Güvenirliği tahmin etmek için kullanılan
yöntemler bazı faktörlerin farklılaşmasına izin vermiyorsa (madde seçimin-
de örneklem farklılığı, uygulama zamanında farklılıklar gibi) bu faktörlerin
sabit olduğu varsayılır ve ölçme hatası olarak kategorize edilemez. Bu yüz-
den güvenirlik indeksinin bilimsel araştırmalarda açık olarak hangi yöntem-
le elde edildiği rapor edilmelidir. Güvenirliği kestirmek için kullanılan yön-
temleri birden çok uygulamaya dayalı ve tek uygulamaya dayalı yöntemler
olarak iki sınıfta incelemek mümkündür (Crocker & Algina, 1986;
Traub,1994).

Birden Çok Uygulamaya Dayalı Yöntemler


Testin birden çok kez uygulanmasını gerektiren bu yöntemler kendi
içinde Test Tekrar Test ve Paralel Formlar Yöntemi olarak ikiye ayrılır.

Test Tekrar Test Yöntemi


Bir testin bir gruba iki farklı zamanda uygulamasını gerektiren Test
Tekrar Test yöntemi (Test Re-test Method) ile güvenirlik hesaplanması da-
ha çok deneysel modellerde görülmektedir. Test tekrar test güvenirlik katsayı-
sı bir testin puanları ile daha sonra aynı testin aynı gruba tekrar uygulanma-
sı halinde elde edilen puanlar arasındaki korelasyondur.
Test tekrar test güvenirlik katsayısının bazen tutarlık katsayısı olarak da
isimlendirildiği görülmektedir. Tutarlık katsayısı bir testin aynı sorular kul-
lanılarak ikinci kez uygulanması durumunda bireylerin puanlarının ne kadar
tutarlı olduğunu gösterir (Crocker & Algina, 1986; Tekin,1994).
Davranışların örnekleminden ya da test maddelerinden kaynaklanan
varyans söz konusu değilse, bu yöntemle güvenirlik hesaplanması uygundur.
Test tekrar test yöntemiyle güvenirliğin kestirilmesinde, ikinci testte madde-
lerin yeni bir örneklemine izin verilmez. Bu yüzden test tekrar test yöntemi
ile elde edilen güvenirlik katsayısı paralel formlar yöntemi kullanılarak elde
edilen güvenirlik katsayısına göre daha yüksek çıkacaktır. Ancak, test tekrar
test yöntemi farklı testler (aynı madde evreni kullanılarak oluşturulan) ara-
sındaki tutarlığı araştırmaya izin veren paralel formlar yöntemine göre daha
az anlamlı olacaktır.
Test tekrar test yöntemi ile ilgili en önemli sorun iki uygulama arasın-
daki zamandır. İki uygulama arasındaki zaman dilimi davranışın değişmeye-
54 Eğitimde Ölçme ve Değerlendirme

ceği kadar kısa ancak bir önceki teste verilen cevapların hatırlanmayacağı
kadar da uzun olmalıdır (Crocker & Algina, 1986; Tekin, 1994). İki uygula-
ma arasındaki zamana karar verirken test puanlarının hangi amaçla kullanı-
lacağı dikkate alınmalıdır. Ölçülen özellik tutum gibi uzun süre değişmeyen
bir özellik ise iki uygulama arasındaki zaman dilimi bir kaç ay ya da daha
uzun süreli tutulabilir. Ancak, ölçülen özellik bilişsel ve psikomotor davra-
nışlar gibi kısa sürede değişebilen özelliklerse zaman mümkün olduğunca
kısa tutulmalıdır. Örneğin, 5 yaşındaki çocukların dil gelişimini ölçen bir
test düşünelim. İki uygulama arasındaki zaman çok uzun tutulursa, bu süreç
içinde çocuk kreşte ya da evde yeni kelimeler öğrenecektir ve iki uygulama
arasındaki farklılık aslında testin tutarlı olmamasından değil, ölçülen davra-
nışın aynı kalmamasından kaynaklanacaktır. Bu durumda iki uygulama bir
kaç gün ya da bir hafta arayla yapılabilir.
İki uygulama arasındaki zaman sorunundan doğabilecek sıkıntıları orta-
dan kaldırmak için çeşitli yollar önerilebilir. Örneğin, aynı testi aynı grup üze-
rinde yeniden uygulamak yerine, eşdeğer gruplar oluşturularak test bu grup-
lar üzerinde uygulanır ve daha sonra grupların puanları arasındaki korelasyon
hesaplanabilir. Ancak, bu yöntemin de kendi içinde sorunları vardır. Grupla-
rın eşdeğer olabilmesi için yaş, sosyo-ekonomik düzey ve ölçülen özellik gibi
değişkenler bakımından eşdeğer olması gerekir. Eşdeğer grupları oluşturmak
ya da bulmak ise oldukça zordur, bu yönden daha çok deneysel modellere
uygundur. Bu yöntemde hata kaynakları içine bir yenisi, grupların eşdeğer
olmaması da eklenecektir. Bu durum güvenirlik indeksinin düşük çıkması,
testin güvenirliğinin düşük olması ya da grupların yeterince eşdeğer olmaması
anlamına geleceği gibi, hem testin güvenirliğinin olmaması hem de grupların
eşdeğer olmaması anlamına da gelebilir. Başka bir deyişle, puanlar arasındaki
farkın gruplar arasındaki farktan mı, yoksa testin güvenirliğinden mi kaynak-
ladığını söylemek mümkün değildir (Tekin, 1994). Ayrıca, önceki uygulama-
daki cevapların hatırlanmaması için, araştırmacıların yaş gruplarına ve ölçü-
len özelliğe bağlı olarak, ikinci uygulamadan önce dikkat dağıtıcı etkinlikler
(oyun, fıkra gibi) yapmaları da diğer bir yol olarak önerilebilir.
Test tekrar test yönteminde bireylerin iki uygulama arasında birbirine
yakın puanlar alması yanında aynı maddelere aynı şekilde cevap vermiş ol-
maları da önemlidir. Bireyler aynı puanları her iki testte farklı maddelere
cevap vererek alabilecekleri için, bireylerin her iki uygulamada cevap ver-
dikleri doğru maddelerin de incelenmesi gerekir (Tekin, 1994).
Aynı testin ya da eş değer iki testin uzun zaman aralıklarında aynı gru-
ba uygulanması ile elde edilen güvenirlik indeksine, özelliğin zaman içeri-
sindeki kararlılığını göstermesi nedeniyle kararlılık katsayısı da denilmekte-
dir (Tekin, 1994).
Ölçme Araçlarında Bulunması İstenen Nitelikler 55

Test tekrar test yönteminde iki puan arasındaki korelasyon Pearson


Momentler Çarpımı Korelasyon katsayısı ile hesaplanır (Formül 3.13).
(ΣX )(ΣY )
ΣXY −
r= N (3.13)
⎡ 2 ( ΣX ) ⎤ ⎡ 2 (Σ Y ) 2 ⎤
2

⎢Σ X − ⎥ ⎢Σ Y − ⎥
⎣ N ⎦⎣ N ⎦

Formülde r , korelasyon katsayısını; X ve Y , ham puanları; ΣX ve


ΣY , ham puanların toplamını; ΣX 2 ve ΣY 2 , ham puanların karelerinin top-
lamını ve ΣXY , ham puanların çarpımlarının toplamını göstermektedir.
Örneğin, 11. sınıf öğrencilerine matematik dersindeki türev konusunda
geliştirilen öğretmen yapımı bir testin bir hafta ara ile yeniden uygulandığını
ve öğrencilerin aldıkları puanların Tablo 3.1’deki gibi olduğunu varsayalım.
Testin güvenirlik katsayısı Pearson korelasyon katsayısını kullanarak hesap-
layalım.
Tablo 3.1 11. Sınıf Öğrencilerinin Puan Dağılımları

I. Uygulama II. Uygulama


Öğrenciler (X) (Y) X2 Y2 XY
1 13 10 169 100 130
2 16 12 256 144 192
3 18 20 324 400 360
4 13 13 169 169 169
5 7 5 49 25 35
6 10 8 100 64 80
7 3 4 9 16 12
8 19 17 361 289 323
9 6 8 36 64 48
10 9 12 81 144 108

ΣX =114 ΣY =109 ΣX 2 =1554 ΣY 2 =1415 ΣXY =1457


(114 )(109 )
1457 −
r= 10 =.892
⎡ (114 ) ⎤ ⎡
2
(109 ) 2 ⎤
⎢1554 − ⎥ ⎢1415 − ⎥
⎣ 10 ⎦ ⎣ 10 ⎦
56 Eğitimde Ölçme ve Değerlendirme

Öğrencilerin ham puanlarının toplamı ( ΣX ve ΣY ), ham puanların ka-


relerinin toplamı ( ΣX ve ΣY ) ve ham puanların çarpımlarının toplamı
2 2

( ΣXY ) yukarıda gösterildiği gibi bulunup, 3.13 eşitliğinde yerine yerleştiril-


diğinde, iki uygulama arasındaki korelasyon katsayısı .89 olarak elde edilir.
Bu durumda 11. sınıf öğrencileri için geliştirilen öğretmen yapımı matema-
tik testinin tutarlığının yüksek olduğu söylenebilir.

Paralel (eşdeğer) Formlar Yöntemi


Test güvenirliğini kestirmek için kullanılan diğer bir yöntemde paralel
formlardır (Paralel Forms). Test tekrar test yönteminin aksine, bu yöntem-
de bir testin aynı kapsam için hazırlanmış en az iki formunun (paralel form-
lar) geliştirilmesini gerektirir. Paralel formlar güvenirlik katsayısı iki farklı
test formunun aynı öğrenci grubuna uygulanması (aynı zaman diliminde ya
da farklı zaman diliminde) ve iki formdan alınan puanlar arasındaki kore-
lasyonun hesaplanması ile bulunur. Paralel formların aynı oturumda ya da
farklı oturumlarda uygulanması araştırmacının formların eşdeğerliği ile mi
yoksa özelliğin kararlığıyla mı ilgilendiğine bağlıdır.
Eşdeğer formlar olarak da anılan bu yöntem için testlerin aynı madde
evreninden oluşturulması yeterli değildir. Paralel iki testin eşit olabilmesi
için test maddelerinin sayısının, niteliğinin ve güçlüğünün de aynı olması
gerekir. Bu ise birçok amaç için pratik değildir ve genelde bu tür eşit form-
lar üretmek güçtür. Örneğin, test hazırlayan kişinin ikinci bir form hazırla-
mak için yeterince kaynağı ve zamanı olmayabilir.
Paralel formlar yöntemi bahsedilen varyans kaynaklarının hepsinin
(madde seçiminde örneklem farklılığı, uygulama zamanında farklılıklar)
bireyin iki farklı puanı arasında farklılıklar oluşturmasına izin verir. Ayrıca,
ilgilenilen özelliğin iki farklı örnekleminin iki farklı zaman diliminde uygu-
lanması durumunda tutarlığın kestiricisini verir. Bu metot konservatif ve
geçerli bir güvenirlik kestiricisidir.
Davranışın zaman içindeki tutarlığı ile ilgilenilmiyor ve sadece testin bi-
reyin test edildiği andaki durumunu ne derece iyi betimlediği bilinmek iste-
niyorsa, paralel formlar birbiri ardına verilebilir. Fakat aynı testin arka ar-
kaya uygulanması testti alan adaylar da yorgunluğa ve algı eksikliğine neden
olarak ikinci uygulamada performansın düşmesine yol açabilir. Bu durum
dikkate alındığında tek uygulamaya dayanarak güvenirliği kestirmenin ne-
den çekici geldiği anlaşılabilir. Paralel formların aynı öğrenci grubuna aynı
oturumda uygulanması durumunda, elde edilen güvenirlik indeksine eşde-
ğerlik katsayısı da denilir ve formların eşdeğerliğini kontrol etme imkanı sağ-
lar. Diğer yandan, eşdeğer formlar farklı zamanlarda uygulandığı takdirde
Ölçme Araçlarında Bulunması İstenen Nitelikler 57

araştırmacı hem öğrencilerin puanlarının kararlılığını, hem de formların


eşdeğerliliğini kontrol edebilir (Tekin, 1994).
Bir testin X ve Y şeklinde aynı kapsam ve davranış evrenini eşit şekilde
temsil eden paralel formlarını düşünelim. Form A ve Form B'nin kapsam evre-
ninin tesadüfi örneklemleri olmasına rağmen rXY , rXX ’den maddelerin değiş-
mesine izin verilmesinden dolayı düşük olacaktır (Crocker & Algina, 1986).
Test tekrar test ve paralel formlar yöntemi iki uygulamayı gerektirir ve
test uygulama zamanı tek uygulamaya kıyasla ikiye katlanır. Ayrıca, testi
alanlar düşüldüğünde: işbirliği olmaması, motivasyon eksikliği, yorgunluk ve
testi alanların sıkılması bu metotlarla güvenirlik hesaplamalarında bir takım
pratik engeller ortaya çıkarır. Sonuç olarak, güvenirliği tahmin eden yön-
temlerden sadece tek uygulama gerektirenleri daha çok tercih edilir.

Tek Uygulamaya Dayalı Yöntemler


Bu durumda iki yöntem geliştirilmiştir. Birincisinde test iki ya da daha
çok eşit parçaya bölünür ve puanlar arasındaki korelasyon hesaplanır. İkin-
cisinde ise tek test maddelerinin içtutarlık katsayısı hesaplanır.

İki Yarı Güvenirliği


Güvenirliği hesaplamanın başka bir yolu da testi tesadüfi olarak iki eşit
parçaya bölmek ve bu iki yarı arasındaki korelasyonu (Spearman-Brown split
half coefficient) hesaplamaktır. Oluşturulan alt testlerin kapsam ve güçlük
bakımından eşit olması gerekir. Ancak orijinal testi tesadüfen iki eşit parça-
ya bölmek bu şartları sağlamayabilir. Bu sorunu gidermek ve testleri iki eş-
değer yarıya ayırmak için önerilen yollardan biri maddeleri numaralarına
göre tek ve çift olarak gruplamaktır. Eğer, maddeler belli bir kapsam ala-
nında ya da format alanında gruplandırılırsa tek ve çift sayı yöntemi madde-
leri aşağı yukarı iki eşit forma yerleştirir. Ayrıca, maddeler güçlük düzeyleri
bakımından testin başından sonuna kolaydan zora doğru sıralanırsa iki yarı
testi yaklaşık eşit güçlükte olacaktır. Yine de, orijinal testin ve iki yarı testin
ortalamalarının ve standart sapmalarının incelenmesi testlerin eşitliğine
dair şüpheleri giderme bakımından iyi bir fikirdir.
İki yarı güvenirliği madde sayısı azaldığı için daha düşük çıkacaktır. Bu
nedenle, testin tamamı için güvenirlik katsayısı Spearman-Brown tarafından
verilen aşağıdaki formülle bulunur. Sonuç olarak iki yarı test korelasyonu
iddia edildiği kadar yararlı değildir. Ancak, iki yarının makul ölçülerde bir-
birine eşit olduğu farz edilebilirse testin tamam kullanılarak elde edilebile-
cek korelasyon (Spearman-Brown Prophency Formülü kullanılarak) kestiri-
lebilir.
58 Eğitimde Ölçme ve Değerlendirme

2 ρ XY
ρxx' = (3.14)
1 + ρ XY

Formülde ρ XY iki yarı arasındaki güvenirlik indeksi ve ρxx' testin ta-


mamının kullanılması durumunda elde edilebilecek güvenirlik indeksidir.
Örneğin, 20 maddelik bir testin iki yarı güvenirliği .55 ise testin ta-
mamının kullanılmasıyla elde edilebilecek güvenirlik indeksini bulalım.
2 ρ XY 2(.55)
ρxx' = = = .71
1 + ρ XY 1 + .55
Yukarıda görüldüğü üzere testin tamamının kullanması durumunda
güvenirlik indeksi daha büyük (.71) çıkacaktır.
Bu yöntemle ilgili en önemli sorun testin tek bir güvenirlik indeksinin
bulunmamasıdır. Orijinal testten pek çok farklı alt testler oluşturmak müm-
kündür ve bu alt testlerin farklı kombinasyonları farklı güvenirlik indeksleri
verebilir (Crocker & Algina, 1986).

Cronbach Alpha (α )

Güvenirlik katsayısını tek test uygulamasından kestirmenin diğer bir


yolu da maddelerin ölçtükleri özellik bakımından homojen olmaları anla-
mına gelen yeteri derecede yakınlık varsayımına dayanır. Bunun anlamı her
hangi bir özellik ya da nitelik bir madde çiftinde ortaksa diğer madde çiftle-
rinde de ortak olacaktır ve ortak faktör dışında her madde sadece kendisini
etkileyen faktöre bağlı olacaktır. Eğer durum böyle ise güvenirliğin bütün
maddelerin altında bulunan ortak niteliğin ölçüsünün sağlıklı bir kestiricisi
olarak Alfa güvenirlik katsayısı kullanılır. Alfa katsayısı en çok kullanılan
güvenirlik indeksidir ve aşağıdaki formülle bulunur.

k ⎛ Σσ i2 ⎞
α= ⎜1 − 2 ⎟⎟ (3.15)
k − 1 ⎜⎝ σX ⎠
Formülde α , alfa güvenirlik katsayısı; k , madde sayısı; σ i2 , madde
varyansı; Σσ i2 , madde varyansları toplamı ve σ X2 , testin varyansıdır. Örne-
ğin, 5 maddelik bir testin varyansının .64 ve madde varyanslarının sırasıyla
σ 12 = .9 , σ 22 = .4 , σ 32 = .4 , σ 42 = .4 , σ 52 = .1 olduğunu varsayalım. Alfa
katsayısı kullanılarak testin güvenirlik indeksi aşağıdaki gibi bulunur.
Ölçme Araçlarında Bulunması İstenen Nitelikler 59

5 ⎛ .22 ⎞
α= ⎜1 − ⎟ = .82
5 − 1 ⎝ .64 ⎠
Testtin maddelerin aynı şeyi ölçmesi durumunda ve güvenirliğinin mü-
kemmele yakın olması halinde Alpha güvenirlik katsayısı 1’e yaklaşacak ve
aksi durumda 0’a yaklaşacaktır.

Kuder Richardson 20 (KR–20)


Testteki maddeler 1 (doğru) ve 0 (yanlış) seklinde puanlandığında alfa
güvenirlik katsayısı Kuder Richardson formülüne dönüşür. Her iki durumda
da hesaplanan güvenirlik katsayısı maddelerin içtutarlığını ölçtüğü için tes-
tin içtutarlığını gösteren güvenirliği olarak yorumlanabilir. KR-20 aşağıdaki
formül kullanılarak hesaplanır.

k ⎛ Σpi qi ⎞
KR20 = ⎜1 − 2 ⎟⎟ (3.16)
k − 1 ⎜⎝ σX ⎠
Formülde k, madde sayısı; σ X2 , testin varyansı; pi , maddeyi doğru ce-
vaplayanların yüzdesi; qi , ise maddeyi yanlış cevaplayanların yüzdesi; pi qi ,
k maddesinin varyansı ve Σpi qi , madde varyansları toplamıdır.

Örneğin, 10 öğrencinin 6 maddelik bir teste verdikleri cevapların


dağılımının aşağıdaki gibi olduğunu varsayalım. Bu test için KR 20 formü-
lünü kullanarak güvenirlik katsayısını hesaplayalım.
60 Eğitimde Ölçme ve Değerlendirme

Tablo 3.2 Matematik Dersindeki Öğrencilerin Puanlarının Dağılımları

Maddeler

Öğrenciler 1 2 3 4 5 6 X X−X (X − X )2
1 1 1 1 1 1 1 6 6-3= 3 9
2 0 0 0 1 1 0 2 2-3=-1 1
3 1 0 0 0 1 1 3 3-3= 0 0
4 0 1 1 1 1 0 4 4-3= 1 1
5 1 0 1 1 0 0 3 3-3= 0 0
6 0 0 1 0 1 1 3 3-3= 0 0
7 1 0 1 1 0 0 3 3-3= 0 0
8 0 1 0 1 0 0 2 2-3=-1 1
9 0 0 1 1 1 1 4 4-3= 1 1
10 0 0 0 0 0 0 0 0-3=-3 9

Ij: 4 3 6 7 6 4 ΣX = 30 Σ( X − X ) 2 =21

pj = I j / N .4 .3 .6 .7 .6 .4

q j = 1− p j .6 .7 .4 .3 .4 .6

Σ iN=1 X 30 Σ iN=1 ( X − X ) 2 21
X= = = 3, σ X =
ˆ 2
= = 2.1
N 10 N 10
Testin ortalaması ve standart sapması yukarıdaki gibi hesaplanarak, il-
gili değerler KR-20 formülünde yerine konulursa ve aşağıdaki sonuç elde
edilir.

k ⎛ Σpi qi ⎞ 10 ⎛ 1.38 ⎞
KR20 = ⎜⎜1 − 2 ⎟⎟ = ⎜1 − ⎟ = .38
k −1⎝ σ X ⎠ 10 − 1 ⎝ 2.1 ⎠
Altı maddelik testin KR-20 ile elde edilen güvenirlik indeksinin olduk-
ça düşük olduğu (.38) görülmektedir.

Kuder Richardson 21
Testteki maddelerin güçlük düzeylerinin birbirinden çok farklı olmadığı
ya da testteki maddelerin güçlük derecelerinin eşit olduğu düşünülmesi ha-
Ölçme Araçlarında Bulunması İstenen Nitelikler 61

linde KR-20 formülünün daha basitleştirilmiş hali olan Kuder Richardson


21 formülü kullanılır. KR-21 her zaman KR-20’den daha küçük değerler
verir, ancak test 50 ya da daha fazla maddeden oluşuyorsa aradaki fark ge-
nelde küçüktür. Maddelerin farklı güçlük düzeylerinde olması durumunda
bu formül güvenirliğin alt sınırını verir (Tekin, 1994).

k ⎛ X (k − X ) ⎞
KR21 = ⎜⎜1 − ⎟ (3.17)
k −1⎝ kσ X2 ⎟⎠

Formülde X , testin ortalaması; σˆ X2 , testin varyansı ve k, testteki madde


sayısını göstermektedir. Örneğin, 30 maddelik matematik testindeki madde-
lerin güçlük düzeylerinin eşit oldukları düşünülmektedir. Aritmetik ortala-
ması 20 ve varyansı 5 olan bu testin içtutarlık katsayısını bulalım.

30 ⎛ 20(30 − 20) ⎞ 30 ⎛ 40 ⎞
KR21 = ⎜⎜1 − ⎟⎟ = ⎜1 − ⎟ = .76
30 − 1 ⎝ 30(5) ⎠ 29 ⎝ 150 ⎠
Otuz maddeden oluşan matematik testinin KR-21 ile hesaplanan güve-
nirlik indeksinin orta düzeyde olduğu (.76) görülmektedir.
Tek test yönteminin uygun olabilmesi için daha önceden varsayılanların
yanında yerine getirilmesi gereken bir diğer varsayımda testin hız testi ol-
mamasıdır. Hız testlerinde elde edilen korelasyon olduğundan daha yüksek
çıkar. Test sonuçlarının sadece hıza bağlı olduğu ve testi alanların nadiren
yanlış yaptığı sınavlarda, tek numaralı ve çift numaralı test maddeleri ara-
sındaki korelasyon ister istemez 1’e yaklaşacak ve anlamsız olacaktır. Ayrı-
ca, bu durumda maddeler arası tutarlık iki maddenin erişilebilme ve cevap-
lanma durumlarına bağlı olacaktır. Eğer hız testinin tutarlığı bulunmak is-
teniyorsa özelliğin iki ayrı zamanlı örneklemi gereklidir. Testin zaman sını-
rının olması, puanın önemli ölçüde yapılacak işin hızına bağlı olduğu anla-
mına gelmez. Eğer maddeler güçlük düzeylerine göre sıralanırsa, makul bir
zaman sınırlaması test katılımcılarının çoğunun çözebilecekleri soruları
çözmek için çalışma fırsatı verecektir. Böylece ek süre puanlara ya çok az ya
da hiç katkıda bulunmayacaktır (Stanley & Hopkins, 1972).

Puanlayıcı Güvenirliği
İnsan, ölçme sürecinin bir parçası olarak kullandığında, sonuçların gü-
venilirliği hakkında endişelenmek gerekir. Ölçme sürecine insan kaynaklı
birçok hata karışabilir. Bireyin yorulması, dikkatinin dağılması, sıkılması bu
hataların nedenlerinden sadece bazılarıdır. Bu durumda iki puanlayıcının
62 Eğitimde Ölçme ve Değerlendirme

gözlemlerindeki tutarlığı nasıl ölçeriz? Bu durumda puanlayıcılar arasındaki


tutarlığın kestirilmesi gerekir. Bunun için iki farklı yöntem vardır.
Birinci yöntem ölçülen özelliğin süreksiz bir değişken olması ve sayılar-
la derecelendirmek mümkün olmadığı durumlarda kullanılır. Eğer puanla-
yıcının ölçme işleminin hangi kategorilere uygun olduğunu işaretlemesi ge-
rekiyorsa, puanlayıcıların puanlama benzerliklerinin (tutarlıklarının) yüzde-
si hesaplanabilir. Örneğin, Eğitim Fakültesi Resim Öğretmenliği Bölümüne
alınan 30 öğrencinin yaptıkları resimleri iki jürinin iyi, orta ve kötü olmak
üzere üç kategoride değerlendirdiklerini düşünelim. İki jüri üyesinin 30 öğ-
renciyi değerlendirirken 24’ünde öğrencilerin resimlerini aynı kategoriye
koydukları düşünülürse, iki puanlayıcı arasındaki tutarlık .80 (24/30=.80)
olacaktır. Bu, puanlayıcılar arasındaki uyuşumun kaba bir ölçüsü olmasına
rağmen yine de puanlayıcılar arasındaki uyuşumun derecesi hakkında fikir
verecektir.
Diğer yöntem ise ölçülen özellik sürekli olduğunda uygundur. Bu du-
rumda iki puanlayıcının vermiş oldukları puanlar arasındaki korelasyonun
hesaplanması yeterlidir. Örneğin, bir güzellik yarışmasında jürinin güzelleri
1 ile 10 arasındaki bir ölçekte puanladıklarını düşünelim, puanlar arasındaki
korelasyon jürilerin puanlarındaki tutarlığını kestirecektir.
Yazılı yoklamaların birden fazla hakem (puanlayıcı) tarafından puan-
lanması durumunda da benzer yöntemlerle puanlayıcılar arasındaki benzer-
liği bulmak söz konusudur. Özelliğin sürekli ya da süreksiz oluşuna göre
uygun yöntem seçilmelidir.

Güvenirliği Etkileyen Faktörler

Şimdiye kadar yapılan açıklamalar bir alanda örnekleme dayanan ölç-


me sonuçlarının bireyin o alandaki gerçek durumunun mükemmel olmayan
kestiricisi olduğunu göstermektedir. Bir bireyin belli bir özelliği bir düzine
farklı durumda ölçülürse, her zaman aynı sonuçları almayız. Farklı tartılma-
lar arasında günün saatine, son öğünümüzde ne kadar yediğimize, ne kadar
yürüyüş yaptığımıza, tartının üstünde nasıl durduğumuza ve sonuçları nasıl
okuduğumuza bağlı olarak okunan değerler yarım kilo ya da daha fazla
farklılaşabilir. Aynı şekilde test sonuçları da farklılık gösterir. Test sonuçla-
rında farklılaşmaya neden olan temel faktörler Stanley (1971) ve Thorndike
(1985) tarafından detaylı olarak incelenmiştir. Ölçme aracının özelliği, tes-
tin uygulanma koşulları, puanlamadaki objektiflik ve test edilen bireyin
özelliği ölçme sonuçlarında farklılaşmaya neden olan dört önemli faktördür
(Thorndike, 1985). Bu hata kaynaklarının incelenmesi, test sonuçlarını etki-
Ölçme Araçlarında Bulunması İstenen Nitelikler 63

leyen hata puanlarının varyansının bileşenlerinin tahmin edilmesi ve güve-


nirliğin kestirilmesinde uygun yöntemin seçilebilmesi için önemlidir.
Ölçme Aracının Özelliği: Ölçme aracının ve test maddelerinin özellikleri
güvenirliği etkileyen önemli faktörler arasındadır. Her test, özellikleri birbi-
rine göre farklılaşan farklı bir seri test maddesinden oluşur. Test maddele-
rinin her biri ölçülecek genel özelliği ölçmek için oluşturulsa da her biri bir
ölçüde spesifik öğrenmeleri ve deneyimleri de içermektedir. Madde evre-
ninden oluşturulan bir test, bireye o özelliği yoklamak için verilebilecek
maddelerin sadece bir örneklemini oluşturur. Bu durumda aynı özelliği öl-
çen iki testin farklı kapsamları farklılaşabilir ve ölçmeye madde örnekle-
minden kaynaklana hatalar karışabilir.
Test uzunluğu, güvenirlik ve ölçmenin standart hatası üzerinde önemli
etkiye sahiptir. Öğrenci performansını ve test kapsamını daha iyi temsil etti-
ğinden uzun testlerin güvenirliği daha yüksektir. Ölçülmesi hedeflenen özel-
liğin sadece bir soru ile yoklandığını düşünelim. Öğrenci soruyu bilmesi ha-
linde başarılı, bilmemesi halinde ise başarısız kabul edebilecektir. Bu du-
rumda, test öğrenci başarısını güvenilir bir şekilde kestiremeyecektir. Başka
bir deyişle, çok kısa başarı testlerinde puanlar evren puanlarının oldukça
kaba tahminini verecektir. Testte başka soruların eklenmesi halinde, test
bireyin ölçülen özelliğindeki gerçek farklılıkları daha doğru olarak yansıta-
cak ve daha tutarlı sonuçlar verecektir. Şans faktörünün etkisi test uzadıkça
azalır. Yeteri kadar uzun testlerde iyi şanstan ya da kötü şanstan kaynakla-
nan hatalar dengeli dağılarak, bunların ortalaması sıfıra yaklaşır.
Güvenirliği artırmak için teste yeni maddeler eklenebilir. Ancak, ekle-
necek maddelerin daha önce testte yer alan maddeler kadar kaliteli olması
gerekir. Sorunlu maddeleri teste eklemek ölçme hatasının oluşmasına ve
güvenirliğin düşmesine neden olur. Teste eklenebilecek madde sayısının bir
doyum noktası vardır. Teste hipotetik olarak sonsuz sayıda madde eklense
de belirli bir sınırdan sonra eklenen maddelerin test güvenirliğine sağlaya-
cağı katkı sınırlıdır (Tekin, 1994). Teste gereğinden fazla madde eklemek
testi alan bireyin yorulmasına ve testi dikkatsiz cevaplamasına neden olaca-
ğından, testin güvenirliği de düşecektir.
Testin uzunluğunu değiştirmenin testin güvenirliğine etkisi Spearman
Brown Formülü kullanılarak tahmin edilebilir.
kρ XX
ρ XX = (3.18)
1 + (k − 1) ρ XX
'
64 Eğitimde Ölçme ve Değerlendirme

Formülde ρ XX , orijinal testin güvenirlik indeksini; ρ XX ' , madde sayısı


artırılan yeni testin güvenirlik katsayısını ve k, testin kaç katı uzatılacağını
göstermektedir. Formülde eklenen maddelerin ve orijinal maddelerin aynı
madde evreninin örneklemi olduğu varsayılır. Eğer testin uzunluğu ikiye
katlanırsa Spearman Brown Formülü aşağıdaki basit forma dönüşür.
2 ρ XX
ρ XX = (3.19)
1 + ρ XX
'

Örneğin, güvenirlik indeksi .50 olan, 10 maddelik bir testin test uzunlu-
ğunun ikiye katlanması durumunda yeni test için güvenirlik katsayısını bula-
lım. Eşitlikte güvenirlik indeksini yerine konulursa,
2(.50)
ρ XX = = .67
1 + (.50)
'

testin iki katına çıkarılması halinde güvenirliğin .50’den .67’ye yüksele-


ceği görülür.
Güvenirliği etkileyen diğer bir faktör de maddenin kendisidir. Kötü ya-
zılmış, anlaşılmayan ya da birden çok cevabı olan test maddeleridir. Ne sor-
duğu net olarak anlaşılmayan test maddeleri farklı yorumlara neden olacak
ve güvenirliği düşük olacaktır.
Testin güçlük düzeyi de önemli bir etkendir. Çok zor ve çok kolay test-
lerin güvenirlik indeksi düşüktür. Bu durum çok kolay ve çok zor testlerde
bireylerin puanlarının dağılımın iki ucunda yığılmasından ve bireylerin ara-
sındaki farkın çok az olmasından kaynaklanır. Başka bir deyişle, ölçülen
özellik bakımından bireyler farklılaşmıyorsa ve dağılım homojen bir yapıya
sahipse güvenirlik indeksi düşük olacaktır. Ölçülen özelliğin değişkenliğinin
fazla olması durumunda ise güvenirlik yüksek çıkacaktır. Ayrıca, ayırıcılığı
yüksek maddelerden oluşan testlerin ve konuları sıkıca örüntülü olan testle-
rin (matematik, İngilizce) güvenirliği de daha yüksektir.
Uygulama Koşulları: Testin bütün öğrencilere standart koşullarda uygu-
lanması gerekir. Uygulama koşullarının çeşitli faktörler bakımından (ısı,
ışık, gürültü, zaman, yönergenin okunması gibi) farklılaşması öğrenci başa-
rısına hata karışmasına neden olur. Uygulama koşullarının elverişsizliği,
sınav sırasında kopya çekilmesi, sınav sırasında sınav sorumlularının yanlı
olmaları ve testi alanlara yardım etmeleri, farklı oturumlarda testi cevapla-
mak için farklı sürelerin verilmesi uygulama koşullarıyla ilgili güvenirliği
düşüren örneklerden bazılarıdır.
Ölçme Araçlarında Bulunması İstenen Nitelikler 65

Uygulama değişikliklerinden kaynaklan farklılıklar: bireylerin sağlıkla-


rında, motivasyonlarında, ilgilerinde ya da edindikleri bilgilerde günden
güne, haftadan haftaya ya da aydan aya farklılıklar olur ki bunlar aynı za-
manda test sonuçlarını da etkilemektedir. Bireyin tek bir zaman dilimi için-
deki davranışlarına mı yoksa daha uzun bir süreç içindeki davranışları ile mi
ilgilendiğimize karar vermeliyiz. Veri toplamak ve analiz etmek için seçti-
ğimiz metotlar bizim amacımıza uygun olmalıdır.
Puanlama Objektifliği: Ne zaman bir davranış örneklemi bir kişi tarafın-
dan değerlendirilse bir puanlayıcıdan diğer puanlayıcıya (hatta aynı puanla-
yıcının farklı puanlamalarında bile) örneklemin nasıl algılandığına dair fark-
lılıklar olacaktır. Puanlamalara yanlılık karışması güvenirliği düşürür. Ob-
jektif bir test bireyler arasındaki gerçek farklılığı yansıtacağından daha gü-
venilirdir. Genellikle puanlayıcı hatalarına açık olan yazılı yoklama türün-
deki testler, çoktan seçmeli testlere göre daha az güvenilirdir. Yazılı yokla-
malar puanlayıcı inisiyatifine açıktır ve çoktan seçmeli testler kadar objektif
puanlanamamaktadır.
Öğrencinin Özellikleri: Testi alan bireylerin kalıcı ya da geçici bireysel
özellikleri (yorgunluk, uykusuzluk, hastalık gibi) test sonuçlarına karışması-
na neden olur. Stanley (1971) bireyin kendi durumundan kaynaklanan fak-
törleri detaylı olarak incelemiştir. Stanley (1971) ve Tekin (1994) bireyden
kaynaklanan hata kaynaklarını bireyin sürekli ve genel karakteristikleri (hızlı
okuyabilme gibi), bireyin sürekli ve özel karakteristikleri, ( testteki maddelerle
ilgili tutumu gibi), bireyin geçici ve genel karakteristikleri (sınav günü hasta-
lanması (sınav salonundaki kötü koşullar gibi), bireyin geçici ve özel karakte-
ristikleri (test üzerinde alıştırma yapma gibi) altında dört grupta sınıflanmış-
tır.
Yukarda sayılan hata kaynaklarının dikkate alınması, testte örneklene-
cek özelliğe karar vermek ve veriyi analiz etmek için uygun yöntemi seç-
mekte önemlidir. İlgilenilen özellik bireyin belli bir zaman diliminde gös-
terdiği davranış ise zaman farklılığı göz ardı edilebilir. İlgilenilen özelliğin
sadece testte olan davranışları kapsadığını düşünürsek, işlemden isleme
farklılık göz ardı edilebilir Cevaplar tamamen objektif ise puanlayıcıdan
kaynaklanan farklılıklar göz ardı edilebilir. Aksi halde test performansında
farklılık yaratacak her kaynağın etkisini incelememize imkan veren bir yön-
temle güvenirlik kanıtı toplamamız gerekir.
Öğrencinin testteki performansını etkileyen hata kaynaklarını azaltmak
ve güvenirliği artırmak çeşitli önlemler almak mümkündür.
1. Testin asıl uygulamasını yapmadan önce bir pilot uygulama yapıla-
bilir ve ölçme aracındaki soruların özelliği (ne kadar açık ve anlaşı-
66 Eğitimde Ölçme ve Değerlendirme

lır olduğu) ve ölçme aracını uygulamak için gerekli koşullar hak-


kında (testi cevaplamak için gerekli süre v.b.) detaylı bilgi edinile-
bilir.
2. Veri toplamak amacıyla araştırmacı tarafından geliştirilen ölçeğin
çeşitli nedenlerle başkası ya da başkaları tarafından uygulanması
durumunda bu kişiler eğitilerek sınavın uygulama koşullarının testi
alanlar üzerinde farklılaşması önlenebilir.
3. Özelliğin farklı test formlarıyla ölçülmesi madde örnekleminin ge-
nişlemesine izin verecek ve bu da güvenirliğinde artmasını sağlaya-
caktır. Bu nedenle özellikle başarı testlerinde farklı test formları-
nın kullanılması gerçek puanın daha gerçekçi olarak kestirilmesini
sağlayabilir.
4. Sınav sırasında kopya çekilmesini engellemek için gerekli her türlü
önlem alınmalıdır.
5. Sınavın uygulanması sırasında, sınav sorumluları gerekmedikçe öğ-
rencilerle ve kendi aralarında konuşmamalı, yanlı davranmamalı,
öğrencinin psikolojisini bozan davranışlar sergilememeli ve dikkat
dağıtan bütün davranışlardan kaçınmalıdır. Sınav koşullarını stan-
dartlaştırmak için sınav yönergesi hazırlanmalı ve bu yönerge sınav
yapılan bütün sınıflarda okunarak öğrencilere sınav sırasında yap-
maları gereken işlemler hatırlatılmalıdır. Ayrıca, sınav sorumlula-
rının sınavda yapması gereken işlemlere dair bir yönerge oluştu-
rulmalıdır.
6. Puanlama yanlılıklarını ya da puanlama sırasındaki hataları önle-
mek için cevap anahtarının hazırlanması gereklidir.
7. Teste tek boyutlu maddelerin eklenmesi, testin iç tutarlığı artıracak
ve testin güvenirliği yükseltecektir.
8. Teste orta güçlükteki maddeler eklemek, testin güvenirliğini artır-
mak için önerilebilir. Varyansı sıfır ve sıfıra yakın olan maddeler
aynı özelliği ölçen daha kaliteli maddelerle değiştirilebilir

Geçerlik

Psikometrik testlerde geçerlik (validity) eğitimde ölçme ve değer-


lendirmenin en eski ve en tartışmalı konularından biridir. Yıllar bo-
yunca geçerliği bazı araştırmacılar (örneğin Messick, 1989) test geliş-
tirmenin dışsal bir süreci olarak görürken bazıları da (örneğin Cleary,
Ölçme Araçlarında Bulunması İstenen Nitelikler 67

1968) test geliştirmenin içsel bir süreci olarak görmüşlerdir. Geçerlik


çeşitleri ve anlamı konusundaki tartışmaların yıllar geçmesine rağmen
sonuçlanmamasına ve psikometrik test standartlarının 1960’ların ba-
şından beri sürekli değişmesine rağmen test geliştirmede geçerliğin
önemi hiç bir zaman azalmamıştır. Aksine, 1966, 1974, 1985 ve 1999
Eğitim ve Psikolojik Test Standartlarında (Standards of Educational
and Psychological Testing: AERA, APA, NCME, 1966; 1974; 1985;
1999) testlerde geçerlik çalışmalarının önemi sürekli vurgulanmıştır.
Testi ilgilendiren sorular içinde geçerlikle ilgili olanları, muhtemelen en
önemli ve cevaplanması en zor olan sorulardır. Test geçerliğiyle ilgili güvenilir
kanıtlar bulmak genellikle zaman alıcı ve pahalı bir süreçtir. Bu durum önce-
likle testin sadece bir geçerliğinin olmaması ve geçerliğin duruma ve kullanıcıya
göre değişen derecelerde olması halinde doğrudur. (Standards of Educational
and Psychological Testing: AERA, APA, NCME, 1966).
Geçerlik kavramı bir paragrafta anlatılamayacak kadar dinamik ve
karmaşıktır. Cronbach (1971) geçerliği test geliştiricilerinin ve kullanıcıları-
nın test puanlarına dayanarak yapacakları çıkarımları (kararı ya da sonucu)
desteklemek için kanıt toplama sureci olarak tanımlamıştır. Geçerlik bizim
sonuçlarımızın, çıkarımlarımızın ya da kararlarımızın gücüdür. Bir çıkarı-
mın, kararın ya da sonucun doğru ya da yanlışlığının en iyi tahminidir. Test
Standartlarına göre, her testin ölçmeyi amaçladığı davranışın geçerli bir öl-
çeği olduğunun kanıtlanması gerekir (AERA, APA, NCME, 1966; 1974;
1985; 1999). Günümüzde geçerliği tanımlamak için genellikle 1999 Test
Standartlarına (AERA, APA, NCME, 1999) başvurulmaktadır ki bu da ge-
çerlik hakkında çoğunlukla Messick’in (1989) görüşünü yansıtır. Bu görüşe
göre geçerlik, sürekli değişen ve farklı birçok kanıtın birleştirilmesini ve al-
ternatif yorumların kontrolünü gerektiren bütünleşik bir değerlendirme sü-
recidir.
Geçerlik, testin hedeflenen kullanımları için test puanlarının yorumlanma-
sının kanıtlarla ve teori ile desteklenme derecesidir. Bu nedenle geçerlik test
geliştirmede ve değerlendirmede göz önüne alınması gereken en önemli nokta-
dır. Geçerlik sureci testin hedeflenen kullanımları için gerekli bilimsel temelleri
oluşturmak amacıyla kanıt toplama surecini içerir. Değerlendirilen testin ken-
disi değil test puanlarının hedeflenen kullanımlar için yorumlanmasıdır. Test
puanları birden çok amaç için kullanıldığında ya da yorumlandığında niyetle-
nen her kullanımın geçerliği sağlanmalıdır. (AERA, APA, & NCME, 1999,
s.9).
Geçerliği tanımlamak ve değerlendirmek oldukça karmaşık bir süreçtir.
Geçerlik, belli bir kavramsal yapının belirli bir testten elde edilen puanların
68 Eğitimde Ölçme ve Değerlendirme

altında yatan açıklamaların potansiyel kaynağı olarak hipotez edilmesi şek-


linde düşünülebilir. Testin ölçmüş olduğu ana kavramsal yapı yanında, test
sonucunu etkileyebilecek diğer kavramsal yapıları da test puanlarının açık-
lamalarının potansiyel kaynakları olarak görmek ya da bunları önceden
tahmin etmek ve bu alternatif hipotezlerin kabul edilebilirliğini araştırmak
geçerlik sürecinin vazgeçilemez bir parçasıdır.
Bir ölçme aracı ölçmek istediğini ölçtüğü ölçüde geçerlidir. Bir testin
dünyanın her yerinde geçerli olduğu düşünülemez. Geçerlik testin amacına
ve test edilen grubun özelliğine bağlıdır. Yani bir test sadece spesifik kulla-
nımlar için geçerlidir ve belli bir amaç için geliştirilmiş bir test başka amaç-
lar için kullanılacaksa o kullanım için geçerlik çalışmasının yeniden yapıl-
ması gerekir. Genellikle farklı testler farklı amaçlar için kullanılır ancak bu
her zaman böyle değildir. Test çeşitleri ve bunların amaçları genellikle bir-
biri ile çakışır. Testin her bir kullanımı için ne kadar uygun olduğunu bul-
mak için yeterli geçerlik bilgisinin toplanması gerekir. Toplanılacak bilgi
testin türünden çok testin amaç ya da amaçlarına bağlıdır.
Geçerlik, test puanlarına dayanarak yapılan çıkarımların uygunluğunu,
anlamlılığını ve faydalılığına işaret eder. Test geçerliği bu tür çıkarımları
desteklemek için kanıt toplama sürecidir. Bir testten elde edilen puanlardan
birçok çıkarım yapılabilir ve her çıkarım için farklı geçerlik kanıtlarına ihti-
yaç vardır. Geçerliğinin kanıtlanması gereken testin kendisi değil, belli bir
kullanım hakkındaki çıkarımlardır.
Test kullanıcısı belli bir amaç için test seçerken testin istenilen kulla-
nımları için gerekli geçerlik kanıtını sağlamakla yükümlüdür. Bir geçerlik
çalışması, belli bir test sonucunun ya da sonuçlarının nasıl kullanılacağının
tam olarak belirlenmesi ile başlar ve daha sonra test puanlarının bu tür çı-
karımlar için uygun olup olmadığın ampirik çalışmalarla kontrol edilmesi ile
devam eder. Testin geçerliğiyle ilgili bilgi, testin belli amaçları gerçekleştir-
me derecesini işaret eder. Testler çeşitli kararlar için kullanılır ve her karar
türü için geçerliği sağlamak amacıyla farklı araştırmalara ihtiyaç vardır.
Testi geliştirirken ve muhtemel kullanım alanları için değerlendirirken
geçerlik hakkındaki sorular temel olmalıdır. Testin geçerliği hakkında elde
çok az bilgi var ise, teste dayanarak yapılan durum değerlendirmeleri ve
kararlara çok güvenilemez.
Geçerlik türleri üzerinde tam bir anlaşma olmadığından bahsedilmişti.
Örneğin, Messick’e (1989) göre geçerlik, bütünleşik bir süreçtir ve sürekli
kanıt toplamayı gerektirir. Ancak, pratikte test kullanıcılarının sürekli kanıt
toplaması çok mümkün değildir ve geçerlik türlerinin formal bir ayrımı oku-
yucunun geçerlik kavramını daha iyi anlaması ve kendine uygun kanıtı seçe-
Ölçme Araçlarında Bulunması İstenen Nitelikler 69

bilmesi için gereklidir. 1974 Test Standartlarında öngörüldüğü üzere, geçer-


lik türlerini kapsam geçerliği, kriter geçerliği ve yapı geçerliği olmak üzere
testin kullanım amacına göre üç ana grupta toplayabiliriz.
Kapsam geçerliği test kullanıcısının bireyin test puanlarından, testin
madde örnekleminin seçildiği daha büyük madde evreni hakkında çıkarım-
larda bulunmak istediğinde önemlidir. Başka bir deyişle araştırmacı testle
ölçülen benzer davranışların geldiği daha geniş alana (yetenek, başarı) iliş-
kin çıkarımlarda bulunmak isterse kapsam geçerliği incelenir. Kriter geçer-
liği, test kullanıcısının bireyin test puanlarından onun reel hayattaki bazı
değişkenler üzerinde performansını tahmin etmek istediğinde önemlidir.
Yapı geçerliği ise test kullanıcısının bireyin test puanlarından onun belli bir
kavramsal yapı üzerindeki başarısı hakkında çıkarımlarda bulunması halin-
de önemlidir.
Farklı geçerlik çalışmalarının test puanlarına dayalı farklı yorumları
desteklediğinden ve birbirinin yerine kullanılamayacağından bahsedilmişti.
O halde cevaplanması gereken önemli bir soru hangi geçerlik çalışmalarına
ihtiyaç duyulduğudur. Ne yazık ki bu sorunun net bir cevabı yoktur. Geçer-
liğin her ölçme durumu için pratik bir reçetesi olmayıp araştırmacı kendi
durumuna uygun geçerlik kanıtlarını toplamak, değerlendirmek ve kullan-
mak durumundadır. Geçerlik için hangi kanıtların gerekli olduğuna testin
amaçlanan kullanımı dikkate alınarak karar verilmelidir. Araştırmacı önce-
likle test hakkında bilgili olmalı ve testin hangi amaçla kullanılacağını ve
kimler için kullanılacağını açıkça ortaya koymalıdır. Bu süreçte geçerlik tür-
leri ve her bir geçerlik türü için kanıt toplama yollarının bilinmesi önemli-
dir.
Buraya kadar oldukça kompleks bir kavram olan geçerlik kavramı açık-
lanmaya çalışıldı, bundan sonraki kısımda ise geçerlik türlerinden ve geçer-
liği etkileyen faktörlerden bahsedilecektir.

Geçerlik Türleri

Kapsam Geçerliği
Kapsam geçerliğiyle ilgili kanıtlar test geliştirme sürecinde önemlidir.
Kapsam geçerliği (content validity) testin (maddelerinin) ölçmeye çalıştığı
yetenek ve bilgi alanını ne derece temsil ettiği ile ilgilidir. Kapsam geçerliği,
test kapsamının (madde örnekleminin) sonucun genelleneceği durum ya da
niteliğe (davranış evrenine) yakınlığını gösterir. Başka bir deyişle kapsam
geçerliği ile ilgili kanıtlar madde örnekleminin ya da testteki soruların ta-
nımlanan evren ya da davranış alanını ne kadar iyi temsil ettiğini gösterir.
70 Eğitimde Ölçme ve Değerlendirme

Bu geçerlik türü özellikle başarı ve ehliyet (yeterlilik) testleri için önemli


olmakla birlikte yetenek, eğilim, zekâ ve sosyal davranışı ölçen testler için
de uygundur.
Test maddeleri ile yoklanan yetenek ya da bilgi, daha geniş bilgi ve ye-
tenek alanını ne kadar temsil etmektedir sorusu önemlidir. Araştırmacı bir
testin ölçmeyi hedeflediği özellik için bireyin o anki gerçek durumunu bul-
mak ister. Örneğin, okullarda kullanılan birçok başarı testi öğrencilerin ba-
şarısını evren davranışlarını temsil ettiği düşünülen bir örneklem üzerinden
ölçer. Dönem sonunda verilen bir ölçme testini düşünelim. Öğrenciye dö-
nem başından sonuna kadar pek çok hedef davranış kazandırılsa da bunla-
rın hepsini aynı anda bir testle ölçmek mümkün olmayacaktır. Bunun yerine
ölçme dersinde kazandırılan hedef davranışların örnekleminden oluşan bir
test öğrencilere verilir. Testteki soruların sadece belli konulardan seçilmesi
ya da önemli konuların teste yer alınmaması öğrenci grubu hakkındaki yar-
gıların doğruluğundan kuşku duyulmasına neden olacaktır.
Test uygulayıcısı nadiren bireylerin teste cevap verdikleri spesifik mad-
delerin kendisiyle ilgilidir. Örneğin, bir İngilizce kelime testini düşünelim.
Burada amaç öğrencinin spesifik olarak test içindeki belli sayıdaki maddeyi
bilip bilmemesi değil, öğrencinin benzer maddeleri alması durumundaki
performansıdır.
Kapsam geçerliği genellikle görünüş geçerliği ile karıştırılmaktadır. Gö-
rünüş geçerliği testin görünüm olarak ölçmek istediği şeyi ölçüp ölçmediğini
gösterir. Bu geçerlik türü açık ve objektif olmaması nedeniyle çok fazla kul-
lanılmamaktadır Testin sadece görsel olarak incelenmesi çok daha karmaşık
geçerlik kavramı için yüzeysel ve tatmin edici olmayan bir yoldur. Testin
görünüşü ve içyapısı birbiri ile tutarlı olmayabilir. Geçerlik sorusunun ceva-
bı görünüşün ötesine gitmelidir. Görünüş geçerliği, test maddeleri öğret-
menlere gönderilerek ve onların görünüş hakkındaki tavsiyeleri ve düzelt-
meleri alınarak yapılabilir.
Genellikle kapsam geçerliğiyle ilgili değerlendirmeler nitel değerlen-
dirmeler olup bu süreçte program hedefleri ile test kapsamı arasındaki
uyum ve uyumsuzluk özetlenir. Cronbach (1975) korelasyonun kapsam ge-
çerliği için anlamsız olduğunu söylemiştir. Kapsam geçerliği için kanıt bul-
mak amacıyla kullanılan en basit yollardan birisi testin kapsamının incelen-
mesidir. Bu metot, genellikle alan uzmanının testin belirlenen öğeleri ile
davranış evreni arasındaki ilişkiyi değerlendirmesine dayanır. Örneğin, ölç-
me testinin kapsam geçerliğinin olup olmadığına bu alanın uzmanı olan bir
ölçmeci bakmalıdır, çünkü bu alandaki hedef davranışların hangisinin
önemli olduğunu ancak alan uzmanı bilecektir. Alan uzmanının profesyonel
Ölçme Araçlarında Bulunması İstenen Nitelikler 71

kararı ölçülecek özelliğin tanımlanmasında (davranış evreni tanımlanırken,


madde örneklemi oluşturulurken ya da seçilirken, madde formatı belirlenir-
ken ve puanlama sistemine karar verilirken) önemli bir rol oynar.
Kapsam geçerliği çalışmaları test oluşturulmaya başlamadan önce ve
sonra devam eden bir dizi eylemi gerektirir. Öncelikle ilgilenilen davranış
evreni tanımlanır, testin kapsamını değerlendirecek alan uzmanlarından
oluşan bir panel oluşturulur, test içindeki maddeleri evren davranışlarıyla
esleştirmek için bir çerçeve hazırlanır ve jürilerin eşleştirmeleri toplanarak
özetlenir. Kısaca, kapsam hakkındaki yorumlar test geliştirme sürecine ve
test geliştirildikten sonra bir kullanım için seçildiğinde kanıt toplama süre-
cine bağlıdır.
Kapsam geçerliğini araştırabilmek için program hedefleri ve test planı
açık bir şekilde hazırlanmalıdır. Eğer bu ikisi açıkça hazırlanmamışsa kap-
sam geçerliği için gerekli eşleştirme mümkün olmayacaktır. Test içindeki
maddelerin hangi hedef davranışa karşılık geldiğini gösteren bir tablo (be-
lirtke tablosu) ya da bir taslak oluşturulmalıdır. Test kapsamını seçmek için
kurallar öyle iyi tanımlanmalıdır ki örnekleme seçilecek davranışlar hakkın-
da akılda hiçbir şüphe kalmasın (Cronbach, 1975). Birbirinden bağımsız
grupların bu kuralları kullanarak bir birinin yerine kullanabilecek testler
geliştirebilmesi beklenir. Ayrıca, test kılavuzu test kapsamının temsil ettiğini
iddia ettiği davranış, durum ve uygulamaları doğrulamalıdır. Bu davranış
evrenin ya da maddelerinin testle ölçülen davranışın bir tanımını oluşturdu-
ğu düşünülebilir. Eğitimde kullanılan başarı testlerinde, test kapsamı eğitim
hedeflerinden bir ya da bir kaçı olabilir. Bir testin belli bir amaç için kapsam
geçerliğini değerlendirmek, testin tanımının yeterliliğini öznel olarak değer-
lendirmekle aynıdır. Kapsam geçerliği davranış evreninin iyi tanımlanma-
ması yüzünden sınırlanabilir.
Geliştirildiği amaç dışında başka bir amaç için kullanılacak bir testin,
orijinal test için tanımlanan kapsamın yeni kullanım için uygun olup olma-
dığı kontrol edilmelidir. Kapsam geçerliği eğitim amaçlı kararlarda test ile
program hedefleri arasındaki uyumu bulmak bakımından önemlidir.
Kapsam geçerliğini değerlendirirken ölçülmek istenen davranışın yete-
rince temsil edilmesinin yanında, test maddelerinin ölçmeyi hedeflediği dav-
ranışın dışında başka davranışları ölçüp ölçmediği, madde formatının öğ-
renci grubuna ve ölçülecek özelliğe uygunluğu ve maddenin doğru cevabı
bulabilmek için öngörülen işlem basamaklarını sağlayıp sağlamadığı da in-
celenmelidir. Ayrıca, insan hakları doğrultusunda maddelerin bir grubunun
küçümseyici ifadelerin barındırmamasına ve bundan dolayı gruplardan biri-
ne rahatsızlık ve haksız üstünlük sağlamamasına da dikkat etmek gerekir.
72 Eğitimde Ölçme ve Değerlendirme

Bunun için testi geliştiren bireylerin ve alan uzmanlarının testi alan kişilerin
özelliklerine duyarlı olması önemlidir.
Madde yazma sürecinde kapasam geçerliğini sağlamak için belirtke tab-
losunun kullanılmasının yanında çeşitli yollar izlenebilir. Örneğin, bir alanın
çeşitli konularında sistematik olarak farklılaşan maddeler oluşturarak temsil
ediciliği sağlayan kurallar ya da algoritimler geliştirilebilir ve bu kurallara
uyarak maddeler oluşturulur.

Kriter Geçerliği
Kriter geçerliği (criterion related validity ), test puanlarının, davranışın
ya da karakterin direk ölçüsü olduğu düşünülen bir ya da daha çok dış de-
ğişkenle karşılaştırılması ile elde edilir. Bu karşılaştırma test puanları ile
kriter arasındaki korelasyonun hesaplanması ile yapılabilir. Test bireyin
akademik başarısı, mesleki yeterliliği ya da başka amaçlar için kullanılabilir.
Bu gibi amaçlar için kriter oluşturacak veri testten daha ileriki bir zamanda
toplanabilir. Kriterin testle birlikte ya da ileriki bir zamanda toplanıp top-
lanmaması testin yordama amacıyla mı yoksa o günkü durumu ölçmek için
mi kullanılacağına bağlıdır.
Kriter geçerliğiyle ilgili kanıtlar test puanlarının sistematik olarak bir ya
da bir kaç dış kriterle ilişkisini gösterir. Burada kriter, testi hazırlayan ya da
kullanacak olan kişi ya da kurum tarafından belirlenen ve öncelikle ilgileni-
len değişkendir. Ölçme sürecinde kriter seçmek ya da kriter puanı sağlaya-
cak ölçme yöntemleri oldukça önemlidir. Beklendiği üzere kriterle ilgili bir
çalışmanın değeri seçilen kriterin geçerliğine bağlı olacaktır.
Bir araştırmacı ölçülen özellik için bireyin gelecekteki durumunu ya da
testle ölçülen özellikten farklı önemli bazı değişkenler için bireylerin
buğunkü durumunu tahmin etmeye çalışır. Bu iki farklı kullanım geçerlik
kanıtlarının da farklılaşmasına yol açar. Kriter geçerliği kendi içinde yorda-
ma geçerliği ve mevcut durum geçerliği olarak sınıflanabilir. Yordama geçer-
liğiyle ilgili kanıtlar kriter puanlarının bir test puanından tahmin edilmesin-
deki doğruluk derecesiyle ilgilidir. Mevcut durum geçerliği ise yordama ge-
çerliğine yakındır ancak tahmin ya da kriter hakkındaki bilgi gelecek için
değil o an için kullanılır. Yordama geçerliğinde kanıtların geleceğe dönük
mü, yoksa o güne ait mi olacağı testin tümüne, testin yapılış amacına, eko-
nomik olanaklarına ve profesyonel değerlendirmeye bağlıdır.
Yordama geçerliği (predictive validity) ölçme aracının tahmin edilmeye
(yordanmaya) çalışılan özelliği ölçmede ne derece başarılı olduğunu göste-
rir. KPSS, ÜDS, ÖSS, TUS, OKS ve KPDS bireylerin gelecekteki perfor-
mansını tahmin etmeye çalışan sınavlara örnek gösterilebilir. Öğrenci Seç-
Ölçme Araçlarında Bulunması İstenen Nitelikler 73

me ve Yerleştirme Sınavı (ÖSS) lise öğrencilerinin üniversiteye yerleştiril-


mesinde kullanılan bir sınavdır. ÖSS puanlarının üniversitedeki akademik
başarı ile .55 korelasyon gösterdiğini düşünelim. Bu durumda ÖSS puanla-
rının üniversitedeki akademik başarıyı yordadığından ve testin yordama ge-
çerliğinden bahsedebiliriz. ÖSS’de yüksek not alan bireylerin üniversitedeki
başarılarının da yüksek olacağı varsayılarak, öğrenciler aldıkları puanlar ve
tercihlerine bağlı olarak üniversitelere yerleştirilmektedir. Ancak, bu tür
kararların doğruluğu kriter ve test puanları arasındaki ilişkiye bağlı olup, bu
tür kararlar alınmadan önce test puanları ve kriter arasındaki ilişki araştı-
rılmalıdır. Bir başka deyişle bu tür testleri kullanabilmek için yordama ge-
çerliği çalışmalarına ihtiyaç vardır.
Mevcut durum geçerliği (concurrent validity) ölçme aracı ile elde edilen
sonuçların gerçeğe ne derece yakın olduğunu gösterir. Örneğin, kan basın-
cını ölçmek için iki farklı metot kullanılır ve aradaki korelasyona bakılır.
Öğretim yöntemleri dersinde öğrencilerin test puanları ile aynı dersin uygu-
lama kısmında onların öğretim yöntem, ilke ve tekniklerini kullanmadaki
gösterdikleri becerilere bağlı olarak öğretmen tarafından verilen puanlar
arasındaki korelasyon mevcut durum geçerliği için bir örnek olabilir. Teorik
bilgiye sahip öğrencinin uygulamada da başarılı olacağı varsayılırsa, test pu-
anları ile uygulama puanları arasında pozitif bir korelasyon beklenir. Her-
hangi bir aracı kullanmak için yapılan iki basamaklı ehliyet sınavlarında ya-
zılı sınavdan elde edilen puanlarla uygulama sınavından elde edilen puanlar
arasındaki korelasyonun bulunması da yine mevcut durum geçerliğini ilgi-
lendiren bir örnektir.
Kriter Göstergelerinin Türleri: Genellikle bireyin belli bir eğitim düze-
yinde aldığı notlar ve onun belli bir özelliğe sahip olma derecesini gösteren
sınıflamalar kriter olarak kullanılır. Eğer, testin amacı öğrencinin okuldaki
becerisini tahmin etmekse, okul notları kriter olarak alınır. Bir işte alınan
eğitim ve bu eğitimdeki başarı bireyin o işte nasıl başarılı olacağının bir gös-
tergesidir. Genellikle notlar her hangi bir program tarafından rutin olarak
kaydedildiği için kolaylıkla elde edilebilirler. Her zaman olmamakla birlikte
notların objektifliği ve güvenilirliği düşük olabilir. Bireyin belli bir davranışa
sahip olup olmaması başka birisi tarafından değerlendirebilir ve bu bir kri-
ter olarak kullanılabilir. Ancak bu yöntem puanlamadan doğabilecek bütün
hata kaynaklarına (puanlama yanlılığı, puanlayıcı hatası gibi) açıktır.
Kriter Geçerliğini Etkileyen Faktörler: Kriter geçerliğiyle ilgili araştırma-
ları etkileyen pek çok faktör vardır. İstenilen özellikle ilgili uygun kriter bu-
lunamaması, örneklem büyüklüğünün yeteri kadar büyük ve temsil edici
olmaması, kritere ilgilendiğimiz davranışla alakası olmayan farklı faktörle-
rin karışması, çeşitli nedenlerle puan aralıklarının sınırlanması ve kriter pu-
74 Eğitimde Ölçme ve Değerlendirme

anlarının düşük olması kriter geçerliğini etkiyen önemli faktörlerden bazıla-


rıdır (Crocker & Algina, 1986).
Kriter geçerliği çalışmalarında amaca uygun kriterin bulunması önem-
lidir. Bazı kriterler çok kolay elde edilebilir (örneğin, test puanları). Ancak,
genellikle bu tür kriterler testin geçerliği için çok önemli olmayan ya da ye-
terli olmayan değişkenlerdir. Bunun yanında pratik olarak tanımlanması ve
ölçülmesi zor olan bazı kriterler (örneğin, öğretmen yeterliliği) vardır ki
bunlar genellikle önemli olup doğrudan ölçülemeyen fakat dolaylı olarak
ölçülebilen davranışlarla ifade edilen kavramsal yapılardır (Crocker &
Algina, 1986). Bu tür kriterlerin elde edilmesi oldukça zor bazen de imkan-
sız olabilir. Bu durumu daha iyi açıklayabilmek için psikolojik danışma eği-
timi alan bir bireyi düşünelim. Bireyin psikolojik danışmadaki yeterliliğine
öğrencinin uygulama derslerindeki performans puanlarına bakılarak karar
verilebileceği gibi öğrencinin mezun olması beklenip iş bulduktan sonra psi-
kolojik danışma yaparkenki davranışları gözlenerek de değerlendirilebilir.
Ancak, ikinci seçenek çok daha zaman alıcı ve ekonomik bakımdan zorlayıcı
bir süreci gerektirir ki bu da tercih edilmesini zorlaştırır. Bu durumda araş-
tırmacı planlanan zaman ve ekonomik koşullara uygun ve ilgilenilen davra-
nışla yakından alakası olan bir kriteri seçme sorumluluğuna sahiptir.
Bir kriterin bir işle ya da öğrenme ile ilgili her şeyi kapsaması mümkün
değildir. Kriter belli bir zamandaki davranışları gösterir. Kriter genellikle
birçok açıdan eksiktir ve bu nedenle araştırmacı tarafından neyin eksik ol-
duğu, başka kriterlere gerek olup olmadığı sorgulanmalıdır. Örneğin öğren-
cinin üniversitedeki başarısını yordamak için geliştirdiğimiz testin geçerliği-
ni değerlendirirken öğrencinin üniversite 1. sınıf matematik dersindeki notu
ya da öğrencinin 1. sınıftaki genel akademik başarı notu olmak üzere iki
farklı kriter kullanılabilir. İkinci kriter daha genel bir kriterken diğeri sade-
ce matematik başarısı ile sınırlı olduğundan yanıltıcı olabilir. Yine aynı şe-
kilde öğrencinin 1. sınıftaki akademik başarısı da öğrencinin üniversite aka-
demik ortalamasına göre daha sınırlı bir kriterdir. Birçok öğrencinin 1. sınıf-
ta çeşitli nedenlerle (farklı şehre taşınmak, aileden ayrılmak gibi.) adaptas-
yon sorunu yaşadığı göz önüne alınırsa 1. sınıf notları yanıltıcı olabilir.
Örneklem büyüklüğünün yeterli olmaması ya da sonuçların genellene-
ceği evreni temsil etmemesi de kriter geçerliği bakımından önemli bir so-
rundur. Geçerlik katsayısı küçük örneklemlerden kestirildiğinde örneklem
hatası artarken, geçerlik analizinde kullanılacak anlam çıkarıcı istatistikle-
rin gücü de azalacaktır (Crocker & Algina, 1986). Testin uygulandığı grup
çok kültürlü bir yapıya sahipse ya da bir birinden farklılıklar sergiliyorsa
kriter geçerliğinin farklı gruplar için ayrıca incelenmesi önemlidir. Cinsiyet
vb. farklılıklar genellikle bu tür araştırmaların konusu olmuştur.
Ölçme Araçlarında Bulunması İstenen Nitelikler 75

Kriter puanlarında çeşitli nedenlerle kirlilik söz konusu olabilir. Bir


başka deyişle ölçülen özellik istenmeyen faktörlerden etkilenebilmektedir.
Kriter puanlarının hangi amaçla kullanılacağının öğrenciler ya da öğretmen-
ler tarafından bilinmesi halinde öğrenciler çok çalışarak, öğretmenlerde
kendi öğrenci gruplarını çok çalıştırarak kriter puanlarının farklılaşmasına
neden olabilirler (Crocker & Algina, 1986). Bush hükümeti ile birlikte yo-
ğun bir sınav sürecine giren Amerika’da eyaletlerde yapılan seviye sınavları
okulun performansını değerlendirmek ve okulun geleceği hakkında kararlar
almak için kullanılabilmektedir. Bu durumda bazı okul yöneticileri ve öğ-
retmenlerinin başarısız öğrencileri sınav günü okula gelmemeleri için teşvik
ettikleri görülmüştür.
Her hangi bir nedenle test ya da kriter puanlarının aralıkları sınırlanırsa,
gözlenen geçerlik katsayısı olduğundan daha küçük çıkacaktır. Bir testin ge-
çerliğinin araştırılmadan seçme amacıyla kullanılması, seçimin kriterle yüksek
korelasyon gösteren başka bir değişken kullanılarak yapılması, ölçme araçla-
rının bireyler arası farkı göstermeyecek şekilde zor ya da kolay maddelerden
oluşması ve öğrencilerin okuldan ayrılması ya da atılması puan aralıklarının
sınırlanmasına neden olan durumlardandır (Crocker & Algina, 1986).
Geçerlik katsayısı test puanlarının ve kriter puanlarının güvenirliği ile
sınırlıdır. Güvenirlik indeksinin etkileyen faktörler dolaylı olarak geçerlik
katsayısının da etkilemektedir. Güvenirlik indeksi ile geçerlik katsayısı ara-
sındaki ilişki ileriki bölümlerde detaylı olarak tartışılacaktır.
Kriter geçerliği ile ilgili kanıtlar çeşitli yollarla toplanabilir. Bunlardan
en çok tercih edileni geçerlik katsayısı olarak bilinen test puanları ve kriter
puanları arasındaki korelasyondur. Crocker ve Algina (1986) bir kriter ge-
çerliği araştırması için gerekli adımları aşağıdaki gibi sıralamıştır:
1. Uygun kriter davranışı ve bunu ölçme için metot belirlenmeli,
2. Testin sonuçlarının kullanılacağı grubu temsil eden bir örneklem
seçilmeli,
3. Test uygulanarak bireyin puanları bulunmalı,
4. Bireyin kriter üzerindeki performansı belirlenmeli,
5. Bireyin kriter üzerindeki performansı ile test puanları arasındaki
ilişki bulunmalıdır.
Geçerlik katsayısının yanında iki değişken arasındaki ilişkinin önemini
vurgulamak için geçerlik katsayısının karesi de geçerlik çalışmalarında sıkça
kullanılmaktadır. Bir grup öğrenci için ÖSS puanları ile üniversite birinci
sınıftaki başarı ortalamaları arasındaki ilişkinin .50 olduğunu düşünelim.
Bu durumda geçerlik katsayısının karesi bulunarak (.25), üniversite birinci
76 Eğitimde Ölçme ve Değerlendirme

sınıftaki başarı farklılıklarının %25’inin ÖSS puanları ile açıklanabileceği


söylenebilir. Birden çok değişken olması durumunda korelasyon yöntemi
yerine regresyon yöntemi kullanılarak, değişkenlerin önem dereceleri karşı-
laştırılabilir ve kriter puanları tahmin edilebilir.
Geçerlik katsayısı nasıl yorumlanmalıdır? Bununla ilgili kesin bir an-
laşma olmamakla birlikte, geçerlik katsayısı 0.35 ve üzeri ise çok iyi, 0.21 ve
0.35 arası ise iyi olarak yorumlanır. Geçerlik katsayısının 0.20 ve daha düşük
çıkması halinde ise sonuçlar yorumlanırken dikkatli olmakta fayda vardır.
Bazı durumlarda geçerlik katsayısı çok düşük olsa da kriter araştırma için
önemli olabilir.

Yapı Geçerliği
Yapı geçerliği (construct validity) en karmaşık ve de kapsamlı geçerlik
türüdür. Bir test, bireyin soyut psikolojik bir özelliğe (karakter, yetenek) ne
derece sahip olduğunu tanımlamak için kullanılıyorsa yapı geçerliğini ilgi-
lendiren bir durumdur (Cronbach & Meehl, 1955). Bu gruptaki geçerlik
kanıtları test puanlarının ilgilenilen kavramsal yapıyı ne derece iyi temsil
ettiğine yoğunlaşır.
Psikolojik kavramlar (construct) gözlenemeyen, ancak varlığı kabul edi-
len olgulardır. İlgilenilen kavram kavramsal yapı içinde ele alınmalıdır. Kav-
ramsal yapı kavramın anlamını tanımlar onu, diğer kavramlardan ayırt eder
ve kavramın ölçümlerinin diğer değişkenlerle ilişkisini tanımlar. Cronbach
ve Meehl (1955) kavramsal yapıyı bireylerin test performansına yansıdığı
varsayılan ve ispatına gerek görmeden kabul edilen özellikler olarak tanım-
lamıştır. Kavramsal yapılar direk olarak gözlenemezler ancak bunlar hak-
kında teorilerimiz ve bu karaktere sahip bireyin nasıl davranacağına dair
tahminlerimiz vardır. Kavramsal yapı ile ilgili teori, ne tür test davranışları-
nın ilgilenile karakteri göstermek için uygun olduğunu ve test ile kavramsal
yapı arasındaki ilişkiyi değerlendirmek için uygun kanıtları gösterir
(Thorndike, 1982). Zekâ, başarı, sözel ve sayısal yetenek, tutum, ilgi bu tür
soyut kavramlara örnek olarak verilebilir.
Testin yapı geçerliğini ölçebilmek için dolaylı kanıtların kullanılması
gerekir. Kavramsal yapı ve onu geliştiren teorinin tanımlanması, kavramsal
yapı hakkında doğruluğu araştırılabilecek tahminlerde bulunmamızı sağlar.
Testin ölçtüğünü iddia ettiği özelliğe sahip bireylerin birbirinden nasıl
farklılaştığı, testin ölçmek istediği özellik dışında başka faktörleri ölçüp
ölçmediği, testin kültürden ya da cinsiyetten ne kadar bağımsız olduğu, test
performansının ne kadarının soyut kavramsal yapı ile açıklanabileceği yapı
geçerliğini araştıran bireylerin sorabilecekleri sorulardan sadece bir kaçıdır.
Ölçme Araçlarında Bulunması İstenen Nitelikler 77

Aslında geçerlik çalışmaları testin geçerliğini kanıtlamak yerine, testin


ölçülen özelliğin geçerli bir ölçüsü olmadığı kanıtlamaya çalışır. Bu durum-
da testi geçerli yapan testin geçerliğini çürütecek yeterli kanıt bulunamama-
sıdır (Salvia & Ysseldyke, 1985). Testin geçerlik çalışması uzun soluklu bir
kanıt toplama sürecidir. Ancak, kanıtlar toplandıkça yapı geçerliğini hak-
kında iddiada bulunulabilir.
Araştırmacı testtin ve alt testlerin ölçülmek istenilen özelliği ölçüp ölç-
mediğine, testin hedeflediği kavramsal yapıya ve bu kavramsal yapı içindeki
ilişkilere bakarak karar vermeye çalışır. Genelde istatistiksel tekniklerle ya-
pı geçerliği kontrol edilmeye ve gözlenen puanlardan gözlenmeyen ama
varsayılan ilişkilerin doğruluğu tahmin edilmeye çalışılır.
Kavramsal yapı ile ilgili kanıt toplama süreci test geliştirme ile başlar ve
test puanları ile diğer değişkenler arasında ampirik ilişki test puanlarını des-
tekleyinceye kadar devam eder. Yapı geçerliği bakımından ayrıca testin
formatı, uygulanma koşulları, dil düzeyi de test sonuçlarını ve testin anlamı-
nı etkileyeceği için önemlidir. Yapı geçerliğiyle ilgili kanıtları farklı yöntem-
lerle toplamak mümkündür:
Gruplar Arası Fark: Genellikle bir özelliğe ya da karaktere farklı dere-
cede sahip olan bireylerin farklı davranmasını bekleriz. Ölçülen soyut yapıya
sahip olan çeşitli grupların özellik bakımından farklılaşması bekleniliyorsa
bu farklılıkların olup olmadığı test edilebilir. Farklılık bulunmaması testin
geçerliğinin yanı sıra soyut kavramın dayandığı teorinin doğruluğu konu-
sunda da şüpheler uyandıracaktır.
Korelasyon: Test puanları ile testin ilişkili olduğu düşünülen gözlenebi-
len değişkenler arasındaki korelasyon yapı geçerliği bakımından önemlidir.
Örneğin, bireyin okuldaki başarısının sayısal ve sözel yeteneğe bağlı olduğu
düşünülürse, sayısal ve sözel yeteneği ölçtüğü iddia edilen OKS test puanla-
rı ile öğrencilerin akademik başarı ortalamaları arasındaki korelasyonun
yüksek çıkması beklenir. Korelasyonun düşük çıkması testin yapı geçerliği
bakımından sorunludur. Bu tür çalışmalarda, daha önceden yapılan çalışma-
lar araştırmacıya karşılaştırma olanağı sağlayacağından önemlidir. Seçilen
ölçüt puanlarını etkileyen birden çok değişken olması durumunda, kavram-
sal yapının diğer değişkenlere oranla ölçüt üzerindeki katkısını göstermek
amacıyla çoklu regresyon kullanılabilir. Ayrıca, test puanları ile gözlenebi-
len diğer değişkenler arasındaki korelasyon katsayısını test etmek mümkün-
dür (Algina & Crocker, 1986).
G-teori: Yapı geçerliğini desteklemek için kullanılan diğer bir yöntemde
genellenebilirlik teorisine (G-theory) dayanır. Bu yöntem bireyin farklı yön-
temlerle (madde formatı, puanlayıcı gibi) ölçülmesi durumunda gözlenen
78 Eğitimde Ölçme ve Değerlendirme

puanlarının değişip değişmediğini kontrol eder. Örneğin, kavramsal yapı


farklı madde formatları ile ölçüldüğünde birey aynı puanları alıyorsa sonuç-
ların farklı madde formatları üzerine genellenebilirliğinden söz edilir.
Çoklu Yapı Çoklu Metot Matrisi (Multitrait-Multimetod Matrix): Testin
aynı kavramsal yapıyı ölçen diğer testlerle ilişki göstermesi ve farklı kavram-
sal yapıyı ölçen diğer testlerle ilişki göstermemesi kavramsal yapının tanım-
lanmasını ve diğer kavramsal yapılarla ayrımının yapılabilmesini sağlar
(Campell & Fiske, 1959). Bir başka deyişle, testin sadece ilişkili olduğu dü-
şünülen değişkenlerle ilişki göstermesi yetmez, aynı zamanda farklılaştığı
düşünülen değişkenlerle de ilişkisi önemlidir. Bunlardan birincisi birleştirici
(convergent) geçerlik, ikincisi ise ayırıcı (discriminant) geçerlik olarak sınıf-
lanmıştır. Bu yöntem iki karakterin (yetenek, başarı gibi) iki farklı metotla
ölçümünü gerektirir. Başka bir şekilde ifade edilecek olursa, aynı özelliğin
farklı metotlarla ölçülmesi durumunda elde edilecek iki puanlar arasındaki
korelasyon birleştirici geçerlik için ve farklı özelliklerin aynı ya da benzer
metotlarla ölçülmesi ile elde edilen puanlar arasındaki korelasyon ise ayırıcı
geçerlik için kanıt oluşturur. Daha önce aynı özelliğin aynı yöntemle ölçül-
mesi ile elde edilecek puanlar arasındaki korelasyona güvenirlik indeksi
denildiğinden bahsetmiştik. Birleştirici geçerlik katsayısının ve güvenirlik
indeksinin yüksek, ayırıcı geçerlik katsayısının ise düşük çıkması beklenir.
Bir test, aynı özelliği ölçmek için geliştirilen testlerle farklı özelliği ölç-
mek için geliştirilen testlerden daha çok korelasyon göstermelidir. Faktör
analizi ile bunu kontrol etmek mümkündür. Örneğin, sözel ve sayısal yete-
neği ölçtüğü iddia edilen bir sınavı düşünelim. Testin sözel bölümü Türkçe
ve sosyal bilgiler alt testlerinden ve sayısal bölümü matematik ve fen bilgisi
alt testlerinden oluşur. Sözel ve sayısal yeteneğin birbirinden farklı iki kav-
ramsal yapı olduğu göz önüne alınırsa, sözel ve sayısal yeteneğin kendi alt
testleri arasındaki ilişkisinin sözel ve sayısal yeteneğin alt testleri arasındaki
ilişkiden daha yüksek olması beklenir.
Homojenlik: Testin geçerliğini desteklemek için testin homojenliğine dair
kanıtlar da önemlidir. Maddeler arası korelasyon test maddelerinin esas ola-
rak tek bir kavramsal yapıyı ölçtüğünü işaret eder. Ancak, kavramsal yapının
dayalı olduğu teori maddeler arası yüksek korelasyonu gerektiriyorsa o za-
man maddeler arasındaki yüksek korelasyonun yapı geçerliğini desteklediğin-
den bahsedilebilir. Başka bir deyişle eğer ilgilenilen kavramsal yapının tek
boyutlu olduğu iddia ediliyorsa homojenliğe dair kanıtlar geçerliği destekle-
mek için kullanılabilir. İlgilenilen kavramsal yapı çok boyutlu ise maddeler
arası yüksek korelasyon testin geçerliğinin sorgulanmasına neden olur.
Faktör Analizi: Korelasyon matrisine dayanan bir yöntemdir. Genellikle
testin faktör yapısını ve faktör yapılarının eşitliğini kontrol etmek için kulla-
Ölçme Araçlarında Bulunması İstenen Nitelikler 79

nılır. Testin bir ya da bir kaç faktörü ölçtüğü düşünülüyorsa testteki madde-
lerin hangi faktör ya da faktörlere bağlı olduğunu bulmak için iyi bir yoldur.
Kavramsal yapının başka kavramsal yapıların bir bileşeni olduğu düşünülü-
yorsa, yine bu kavramsal yapılar arasındaki korelasyonu bulabilmek için fak-
tör analizinden faydalanılabilir. OKS örneğini yeniden hatırlayalım.
OKS’nin alt testlerinden Türkçe ve sosyal bilgiler testlerinin sözel yeteneği
ve matematik ve fen testlerinin ise sayısal yeteneği ölçtüğü iddia edilmekte-
dir. Ozbek (2004) OKS sonuçları üzerinde doğrulayıcı faktör analizi yapa-
rak, sayısal ve sözel yetenek adı verilen iki faktörün test puanlarını açıkla-
mak için yeterli olduğunu vurgulamıştır.
Faktör yapısının farklı gruplar üzerinde eşitliği konusunda birçok çalışma
bulunmaktadır (Drasgow & Kanfer, 1985; Jöreskog, 1971). Bu çalışmalar
gözlenen değişkenlerle gözlenemeyen kavramsal yapı arasında deneysel bir
ilişkinin kurulması ve faktör yapısının gruplar arasında değişiklik göster-
memesi durumunda psikometrik ölçümlerin karşılaştırılabileceğini vurgu-
lamıştır. Faktör yapısının eşitliğini ortaya çıkarmak için birçok metot kulla-
nılmaktadır. Bu metotlardan çoğu keşfedici faktör analizine (exploratory
factor analysis) dayanmaktadır. Doğrulayıcı faktör analizi (CFA) ve madde
cevap kuramına (IRT) dayanan modeller başarıyla kullanılan iki alternatif
metot olarak rapor edilmiştir (Raju, Laffitte & Byrne, 2002; Reise,
Widaman & Pugh, 1993). Doğrulayıcı faktör analizi metodu birden çok
grubun faktör yapısını aynı anda karşılaştırmak için uygundur.
Testin çok boyutlu ya da tek boyutlu bir yapıyı (dimensionality) ölçüp ölç-
mediğinin araştırılması da önemli bir geçerlik kanıtıdır. Nadiren tek bir özel-
liği ölçmek için geliştirilen bir test sadece o yeteneği ölçüyordur ve genellikle
test sonuçlarına farklı yetenekler farklı düzeylerde karışır (Stout, 1987). Ör-
neğin bir matematik sınavı sözel beceriyi gerektirdiği ölçüde, öğrencilerin
başarıları da sözel yeteneklerine bağlı olacaktır. Öğrencilerin sözel yetenekle-
rinin aynı olmaması durumunda matematik testindeki başarıları sözel yete-
nekleri ile sınırlı olacak ve puanları hem sözel yeteneklerine hem de matema-
tik alanındaki yeteneklerine bağlı olacaktır. Bu durumda testin tek boyutlulu-
ğuna dair kanıt vermeden öğrencilerin puanlarını matematik yeteneğinin gös-
tergesi olarak kabul etmek yanlış kararlar verilmesine neden olur. Bu nedenle
testin tek boyutlulukla ilgili bir özelliği ölçtüğüne dair iddialar kendi basına
yeterli değildir ve bu varsayımın kontrol edilmesi gerekir. Testin boyutlarını
araştırmak için pek çok yöntem vardır. Son zamanlarda nonlineer faktör ana-
lizine dayalı metotlar (NOHARM, TESTFACT) ve üç nonparametrik metot
(HCA/CCPROX, DIMTEST ve DETECT) lineer faktör analizine alternatif
başarılı metotlar olarak rapor edilmiştir (Bock, Gibbson, & Muraki, 1988;
Hattie et al., 1996; Kim, 1994; McDonald, 1982; Nandakumar & Stout, 1993;
Roussos et al., 1998; Stout, 1987).
80 Eğitimde Ölçme ve Değerlendirme

Son yıllarda diferansiyel madde fonksiyonu (DMF) (Differential Item


Functioning) analizleri geçerlik çalışmalarında kavramsal yapıyla ilgili ya da
ilgisiz etkenleri bulmak için gelecek vaat eden bir metot olarak tavsiye
edilmiştir (Roussos & Stout, 1996; Walker & Beretvas, 2001). DMF aynı
düzeyde yetenek / bilgi / beceri gösteren bireylerin çeşitli gruplara ayrıldık-
larında maddeyi doğru cevaplama olasılıklarının eşit olmaması durumuna
denir. Madde yanlılığı ile DMF aynı şeyler değildir. Ancak DMF gösteren
maddelerin incelenmesinden ve DMF’nin ortaya çıkma nedenlerinin araştı-
rılmasından sonra ve DMF’nin testi geliştirirken hedeflenen davranışsal
yapıdan kaynaklanmayan başka bir sebepten dolayı ortaya çıktığının tespit
edilmesi durumunda madde yanlılığından söz edilir. Bazen DMF davranış-
sal yapı dizininin iyi tanımlanamamasından da kaynaklanabilir. Eğer gruplar
farklı çok boyutlu yetenek dağılımları göstermekteyse ve testteki maddeler
bu yetenekler arasındaki farklılıkları görmek için seçilmişse, tek boyutlu
puanlama modelleri bu maddeleri DMF olarak teşhis edebilir (Ackerman,
1992). DMF gösteren maddelerin testteki oranı çok düşükse ve gruplar ara-
sında eşit dağılmışsa, DMF’nin ortaya çıkması çok sorun oluşturmaz. An-
cak, testteki yanlı maddelerin sayısının artması ve yanlı maddelerin gruplar
arasında eşit dağılmaması durumunda, testin grupları eşit olarak ölçüp ölç-
mediğinden başka bir deyişle geçerliğinden şüpheye düşülür. Bu nedenle
test geliştirme sürecinde DMF analizlerinin yapılması ve DMF gösteren
maddelerin bulunarak, DMF’ye sebep olan etkenlerin araştırılması ve bu
maddelerin ölçülmesi hedeflenen özellik dışında başka bir faktör yüzünden
DMF gösterdiğinin düşünülmesi durumunda maddelerin düzeltme yoluna
gidilmesi ve düzeltilmelerinin mümkün olmaması durumunda da testten
çıkarılması gerekmektedir. Fakat DMF gösteren maddeleri testten çıkarır-
ken, çıkarılan maddelerin testin yapı geçerliğini etkilememeye ve çıkarılan
maddeler yerine DMF göstermeyen maddeler eklemeye dikkat edilmelidir,
aksi takdirde testteki madde sayısı önemli ölçüde azalabileceği için, testin
güvenirlik ve geçerliği olumsuz yönde etkilenebilir.
Yukarıdakilere ek olarak, testi alan bireylerle testi cevaplamak için kul-
landıkları stratejiler ya da belli maddelere cevapları hakkında detaylı bir
görüşme ve jürilerle puanlamayı nasıl yaptıklarına dair benzer bir görüşme
kavramsal yapının tanımını güçlendirebilir. Kavramsal yapı için kanıt top-
lamak amacıyla kullanılabilecek yöntemlerden bir ya da bir kaçını kullan-
mak o anki geçerlik problemiyle ilgilidir. Buraya kadar anlatılanlardan gö-
rülmektedir ki yapı geçerliği en kapsamlı geçerlik türü olup diğer geçerlik
türlerini de aslında kapsamaktadır.
Ölçme Araçlarında Bulunması İstenen Nitelikler 81

Geçerliği Etkileyen Faktörler

Geçerlik kavramını tam olarak anlayabilmek için test puanlarını etkile-


yen faktörlerin incelenmesi gerekir. Test puanlarını etkileyen faktörlerin
sayısı ve çeşidi oldukça fazladır ve araştırmacı bu faktörlerin etkilerinin çok
azının farkındadır. Sistematik ve sistematik olmayan hatalar geçerliği tehdit
etmektedir. Bunlardan bazıları aşağıda incelenecektir:
Güvenirlik: Güvenirlik geçerlik için gerekli ancak tek başına yeterli ol-
mayan bir faktördür. Geçerlikle güvenirlik arasındaki ilişki aşağıdaki eşitlik-
le gösterilmiştir.
ρ xy = ρ x (t ) y (t ) ρ xx ρ yy' ' (3. 20)

Burada ρ xy , geçerlik katsayısı; ρ x ( t ) y ( t ) , iki değişkenin gerçek puanları


arasındaki korelasyon; ρ xx ' , X’in güvenirlik indeksi ve ρ yy , Y’nin güve-
'

nirlik indeksidir. Daha önce gözlenen puanların gerçek puan ve hata puan-
larından oluştuğunu belirtmiştik. Bu durumda gözlenen puanlara dayanan
ölçmelere hata karışacağından ρ xx ' ve ρ yy ' her zaman 1’den küçük çıkacak
elde edilen korelasyon katsayısı ( ρ xy ) gerçek puanlar için elde edilen kore-
lasyon katsayısından ( ρ x ( t ) y ( t ) ) her zaman daha küçük çıkacaktır. Gerçek
puanlar için korelasyon katsayısı aşağıdaki gibi elde edilebilir.
ρ xy
ρ x (t ) y (t ) = (3. 21)
ρ xx ρ yy
' '

Bu eşitlik geçerlik için düzeltme formülü (correction for attenuation)


olarak bilinir ve geçerlik katsayısını, ölçme hataları için düzeltir. Kriter ge-
çerliği için bu yöntemi kullanmak sorunlu olabilir. Sonuç olarak, güvenirli-
ğin testin geçerliğini sınırladığını söyleyebiliriz. Başka bir deyişle bir testin
geçerlik indeksi güvenirlik indeksini geçemez. Güvenilir olmayan bir test
hata ölçerken, geçerli bir test ölçmek istediği yapıyı ölçer.
Sistematik yanlılık ölçme metodundan, testi alan bireyler hakkındaki
yanlış varsayımlardan, madde seçiminden kaynaklanabilir.
Ölçme Metodu: Yeteneği ya da karakteri ölçmek için kullanılan yöntem bi-
reyin puanını belirleyicidir. Gerçek puanın ölçme yönteminden kaynaklanan
varyans ve davranışın kendisinden kaynaklanan varyans olarak iki bileşenden
oluştuğunu düşünebiliriz (Campell & Fiske, 1959). Ölçme yönteminden kay-
naklanan varyans test sonuçlarına yansıdığı ölçüde geçerlik de düşecektir.
82 Eğitimde Ölçme ve Değerlendirme

Testi Alan Bireyler Hakkında Yanlış Varsayımlar: Bir test uygulanırken


çeşitli varsayımlarda bulunulur. Öncelikle bireylerin testin hazırlandığı ve
uygulandığı dilde yeterli oldukları varsayılır. Fakat, pratikte her zaman testi
alan bireyin anadili, testin uygulandığı dil olmayabilir. Ayrıca, testi alan bi-
reyin yazılı ya da sözlü iletişim becerisinin iyi olduğu düşünülür ancak ger-
çek durum böyle olmayabilir. Bu şekilde testi hazırlayan kişi tarafından testi
cevaplamak için sahip olunduğu varsayılan gerekli davranışlar testin geçer-
liğini düşürebilir.
Madde Seçimi: Testi alan bireylerin test maddeleriyle ölçülen davranış
ya da yeterlilikle daha önce karşılaştıkları varsayılmıştır. Bu durumda test-
teki soruların birinin ya da bir bölümünün, ilgili olduğu kapsamın, çeşitli
nedenlerle öğretilmemesi testin geçerliğini düşürecektir. Kar tatili nedeniy-
le ya da öğretmenin tayini nedeniyle bu tür sorunlar sıkça yaşanabilir.
Uygulama Hatası: Eğer test standart bir şekilde uygulanmamışsa sonuç-
lar geçersiz olacaktır. Toplu kopya çekimleri, ya da bazı öğrencilere daha az
ya da daha çok süre verilmesi, test ortamındaki gürültü uygulama hatalarına
örnek verilebilir.
Norm: grubun normal dağılımdan uzaklaşması halinde, bu grubun pu-
anları ile yapılan yorumlar yanlış ve geçerlikten uzak olacaktır. Bu yüzden
geçerlik çalışması yapılan grubun özellikleri açık bir şekilde tanımlanmalı ve
örneklemin evrenden farklılaşmadığı ispatlanmalıdır.

Kullanışlılık

Bir ölçme aracında bulunması gereken diğer bir özellikte ölme aracının
kullanışlılığıdır. Kullanışlılık terimi burada testin hazırlanması, uygulanması
ve puanlama sürecindeki kolaylık ve ekonomikliğine işaret etmektedir.
Ölçme aracının kullanışlılığı ölçme aracının pratikteki sınırlılıkları ile
ilgilidir. Araştırmacı ölçme aracının hedeflenen zaman ve personel ile, mev-
cut ekonomik, yasal ve sosyal koşullara uygun olarak kullanılıp kullanılma-
yacağını sorgulamalıdır. Aynı özelliği ölçen geçerliği ve güvenirliği kanıt-
lanmış birden fazla ölçme aracının bulunması durumunda araştırmacı yu-
karda sayılan faktörleri dikkate alarak kendi olanakları ve ihtiyacına en uy-
gun olanını seçme sorumluluğuna sahiptir. Ölçme aracının kullanışlılığı
hakkında kararı verecek kişi konu alanında tecrübeli ve alternatif metotlar
hakkında bilgi sahibi olan birisi olmalıdır.
Ölçme Araçlarında Bulunması İstenen Nitelikler 83

Araştırmacı genellikle alternatif yöntemler ya da testler arasından bir se-


çim yapmak durumundadır. Bu tercih yapılırken geçerlik ve güvenirlikten
taviz verilmemek kaydığı ile aşağıdaki soruların cevaplarının aranması araş-
tırmacıya ölçe aracının kullanışlılığı hakkında fikir verebilir. Başka bir deyişle
kullanışlılık ölçme aracının birçok değişkene göre incelenmesini gerektirir:

➣ Zaman: Ölçmek istenen özelliğe uygun elde bir ölçme aracı var mı?
Amaca uygun bir ölçme aracının olmaması halinde böyle bir aracın
hazırlanması ne kadar zaman alır? Sınavın uygulanması için ne ka-
dar süre gereklidir? Sınavın puanlanması çok zaman alıcı mıdır?
Ölçme aracını uygulayabilmek için izin gerekli mi, gerekli ise bu
izinin alınması ne kadar süre alır?

➣ Puanlama: Puanlama süreci profesyonel bir eğitimi gerektiriyor


mu? Puanlama objektif olarak yapılabilir mi? Ölçe aracının objek-
tif olarak puanlanabilmesi için neler yapılmalı? Hedeflenen zaman
süresinde puanlama yapılabilecek midir?

➣ Ekonomiklik: Ölçeğin hazırlanma, uygulanma ve puanlanma mali-


yeti nedir? Araştırmacının ekonomik imkanları ile düşünülen ölç-
me aracının maliyeti uyuşmakta mıdır?

➣ Etik sorunlar ve yasallık: Ölçme aracı etik sorunlarından arınık mı?


Ölçme aracını uygulamadan önce ne tür izinler almak gerekir. Ölç-
me aracının uygulanması ve sonuçları bireylere zarar verir mi? Ve-
rir ise ne gibi bu zararları minimuma indirgemek için neler yapıl-
malıdır?

➣ Personel: Testi hazırlamak, uygulamak ve puanlamak için gerekli


eleman var mı? Gerekli eleman olmaması durumunda bu eleman-
ların temini nasıl olacaktır?

➣ Sosyal, Kültürel ve Politik Etkiler: Belli bir ölçe aracının tercih edil-
mesi durumunda bunun sosyal, kültürel ve politik etkileri nasıl ola-
caktır? Seçilen ölçme aracı grubun özelliklerine duyarlı mı?
Araştırmacı ölçme aracının uygulanacağı grup hakkında bilgili olmalı ve
onlara en uygun yöntemi seçmelidir. Bireylerin okumayı yazmayı bilmemeleri
durumunda anketör kullanılması, öğrencilerin yaşlarının çoktan seçmeli test-
ler için uygun olmaması durumunda yazılı yoklama kullanılması, standart
testlerde sınava giren kişi sayısının çok olması nedeniyle puanlama objektifli-
ğini sağlamak ve puanlama sürecini sınırlandırmak adına çoktan seçmeli test-
lerin kullanılması kullanışlılığa dair uygulamalara örnek gösterilebilir.
84 Eğitimde Ölçme ve Değerlendirme

Özet

Güvenirlik, geçerlik ve tutarlılık bir ölçme aracında bulunması gereken


üç önemli niteliktir. Güvenirlik, herhangi bir ölçme aracının ölçmek istediğini
özelliği ne derece tutarlı ölçtüğünü gösterir. Geçerlik bir ölçme aracının he-
deflediği özelliği ne derece doğru ölçtüğüyle ilgilidir. Kullanışlılık ise bir ölç-
me aracının ekonomikliğini, pratikliğini, hazırlama ve uygulama kolaylığını
işarete eder.
Bir ölçme aracı geçerli olmadan da güvenilir sonuçlar verebilir. Ancak,
bir ölçme aracında aranması gereken temel nitelik geçerliktir ve güvenirliğin
ölçeğin geçerli olduğu kanıtlanmadan incelenmesi anlamsızdır.
Güvenirliği hesaplamak için çeşitli yöntemler vardır. Bu yöntemler test
tekrar test, eşdeğer formlar ve iki yarı güvenirliği olarak sınıflanabilir. Test
tekrar test yönteminde bir test bir gruba iki kez uygulanır ve iki uygulama-
dan alınan puanlar arasındaki korelasyon hesaplanır. Bu yöntemde madde-
lerin yeni bir örneklemine izin verilmez. Eşdeğer formlar yönteminde aynı
testin iki eşdeğer formu aynı gruba verilerek iki testin puanları arasındaki
korelasyon hesaplanır. İki yari güvenirliğinde ise test iki eşdeğer yarıya bölü-
nerek, iki yarıdan alınan puanlar arasındaki korelasyon hesaplanır. Güvenir-
liği hesaplamak için ayrıca Alfa, Kuder Richardson 20 ve 21 içtutarlılık kat-
sayılarından da yararlanılır.
Güvenirlik ölçme aracının özelliğinden, testin uygulama koşullarından,
puanlayıcıların puanlama objektifliğinden ve testi alan öğrencilerin özellikle-
rinden etkilenir.
Geçerli bir test ölçmek istediği ne ise onu ölçer. Ölçtüğü varsayılan kav-
ramsal yapıyı ölçer ya da tahmin ettiğini iddia ettiği şeyi tahmin eder. Test
hedeflenen amaçlar için kullanılmalı ve başka bir amaçla kullanmadan önce
gerekli geçerlik kanıtları araştırılmalıdır.
Geçerliği kapsam geçerliği, kriter geçerliği ve yapı geçerliği olmak üzere
üç gruba ayırmak mümkündür. Kapsam geçerliliği testin (maddelerinin)
ölçmeye çalıştığı yetenek ve bilgi alanını ne derece temsil ettiği ile ilgilidir.
Kapsam geçerliliği, test kapsamının (madde örnekleminin) sonucun genelle-
neceği durum ya da niteliğe (davranış evrenine) yakınlığını gösterir. Kriter
geçerliliği test puanlarının davranışın ya karakterin direk ölçüsü olduğu dü-
şünülen bir ya da daha çok dış değişkenle karşılaştırılması ile elde edilir. Ya-
pı geçerliği ise test puanlarının ilgilenilen kavramsal yapıyı ne derece iyi tem-
sil ettiğiyle ilgilidir.
Ölçme Araçlarında Bulunması İstenen Nitelikler 85

Test puanlarını etkileyen faktörler geçerliliği de tehdit etmektedir. Ge-


çerliği etkileyen faktörlerden bazıları testi alan birey hakkındaki yanlış varsa-
yımlar, uygulama hatasın, madde seçimi, ölçme metodu ve güvenirlik olarak
sıralanabilir.
Ölçme aracında bulunması gereken diğer önemli bir özellikte bir özellik-
te kullanışlılıktır. Kullanışlılık, testin hazırlanması, uygulanması ve puanlan-
ması sırasındaki kolaylık ve ekonomikliğine işaret eder.

Kaynakça
Ackerman, T. A. (1992). A didactic explanation of item bias, item impact, and item validity
from a multidimensional perspective. Journal of Educational Measurement, 15, 1, 13-24.
American Educational Research Association, American Psychological Association, &
National Council on Measurement in Education. (1985). Standards for educational and
psychological testing. Washington, DC: American Psychological Association.
American Educational Research Association, American Psychological Association, &
National Council on Measurement in Education. (1999). Standards for educational and
psychological testing. Washington, DC: American Psychological Association.
American Psychological Association, American Educational Research Association &
National Council on Measurement in Education. (1966). Standards for educational and
psychological test and manuals. Washington, DC: American Psychological Association.
American Psychological Association, American Educational Research Association &
National Council on Measurement in Education. (1974). Standards for educational and
psychological test and manuals. Washington, DC: American Psychological Association.
Bock, R. D., Gibbons, R., & Muraki, E. (1988). Full item factor analysis. Applied Psychological
Measurement, 12, 261-280.
Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the
multitrait-multimethod matrix. Psychological Bulletin. 56:81-105.
Cleary, T. A. (1968). Test bias: prediction of grades of Negro and white students in integrated
colleges. Journal of Educational Measurement, 5, 115-124.
Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. New York:
Holt, Rinehart & Winston.
Cronbach, L.J., & Meehl, P.E. (1955). Construct validity in psychology tests. Psychological
Bulletin, 52, 281-301.
Cronbach, L. J. (1971). Test validation. R. L. Thorndike. Educational Measurement (2.
Basım). Washington, D. C.: American Council on Education.
Cronbach, L. J. (1988). Internal consistency of tests: analyses of old and new. Psychometrika,
53 (1), 63-70.
Drasgow, F., & Kanfer, R. (1985). Equivalence of psychological measurement in
heterogeneous populations. Journal of Applied Psychology, 70, 662-680.
Guilford, J. (1936). The determination of item difficulty when chance success is a factor.
Psychometrika, 1(4), 259-264.
86 Eğitimde Ölçme ve Değerlendirme

Gulliksen, H. (1950). Intrinsic validity. American Psychologist, 5, 511-517.


Stanley, J. S. & Hopkins, K. D. (1972). Educational and Psychological Measurement and
Evaluation. Englewood Cliffs: Prentice-Hall.
Jöreskog, K.G. (1971). Simultaneous factor analysis in several populations. Psychometrika, 36,
409-426.
Kim, H.(1994). New techniques for the dimensionality assessment of standardized test data.
Unpublished doctoral dissertation, University of Illinois at Urbana-Champaign,
Department of Statistics.
Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading MA:
Addison-Welsley Publishing Company.
Loveinger, J. (1948). The technique of homogenous tests. Psychological Bulletin, 45, 507-529.
Magnusson, D. (1967). Test theory. Reading, Mass.: Addison-Wesley.
McDonald, R. P. (1982). A note of the investigation of local and global Identifiability.
Psychometrika, 47 (1), 101-103.
Mehrens, W. A. & Lehmann, I. J. (1987). Using standardized tests in education. New York:
Longman.
Messick, S. (1989). Validity. Linn, Robert L. (ED). Educational Measurement (3rd ed.). The
American council on education / Macmillan series on higher education. (pp. 13-103).
Nandakumar, R., & Stout, W. (1993). Refinements of Stout’s procedure for assessing latent
trait unidimensionality. Journal of Educational Statistics, 18, 41-68.
Ozbek, O. Y. (2004) An empirical investigation of the validity of Secondary School Institutions
Student Selection and Placement Test (SSISSPT) in Turkey. Unpublished doctoral
dissertation, University of Illinois at Urbana-Champaign, Department of Education.
Raju, N.S., Laffitte. L.J., Byrne, B.M. (2002). Measurement equivalence: a comparison of
methods based on confirmatory factor analysis and items response theory. Journal of
Applied Psychology, 87 (3), 527-529.
Reise, S.P., Widaman, K.F., & Pugh, R.H. (1993). Confirmatory factor analysis and item
response theory: two approaches for exploring measurement invariance. Psychological
Bulletin, 114 (3), 552-566.
Roussos, L. A., Stout, W. F., & Marden, J. L. (1998). Using new proximity measures with
hierarchical cluster analysis to detect multidimensionality. Journal of Educational
Measurement, 35, 1-30.
Salvia, J., & Ysseldyke, J. E., (1985). Assessment in Special and Remedial Education. Boston:
Houghton Mifflin Company.
Spearman, C. (1904). General intelligence" objectively determined and measured. American
Journal of Psychology, 15, 201-293.
Stanley, J. (1971). Reliability. R. L. Thorndike. Educational measurement (2. Basım).
Washington, D.C. American Council on Education.
Stout, W. (1987). A nonparametric approach for assessing latent trait unidimensionality.
Psychometrika, 52, 589-617.
Tekin, H, (1994). Eğitimde Ölçme ve Değerlendirme.Yargı Yayınları.
Thorndike ,1985
Thorndike, R. L. (1982). Applied Psychometrics. Boston: Houghton-Mifflin.
Ölçme Araçlarında Bulunması İstenen Nitelikler 87

Traub, R. E. (1994) Reliability for the Social Sciences: Theory & Applications. Thousand Oaks:
Sage.
Walker, C. M., & Beretvas, S.N. (2001). An empirical investigation demonstrating the
multidimensional DIF paradigm: A cognitive explanation for DIF. Journal of
Educational Measurement, 38 (2), 147-163.
Worthen, B. R., Borg, W. R., & White, K. R. (1993). Measurement and evaluation in the
school. NY: Longman.

Sorular

1. Bir dağılımın standart sapmasının küçük çıkması testin güvenirliği


hakkında size ne gibi bir bilgi verir?
2. Bir ölçmeci olarak çalıştığınız dershanede son zamanlarda uygula-
nan testlerinin güvenilirliği konusunda şüpheleriniz var, güvenilir-
liği yükseltmek için test ortamıyla ilgili alınabilecek tedbirlerden
beşini sıralayınız?
3. X = 60 ve S = 9 olan bir normal dağılımda, bir öğrencinin almış
olduğu puan yüzde % 99.74’lük alanın dışında kalıyorsa, öğrenci-
nin notunun yer alabileceği puan aralıkları neler olabilir?
4. Ölçmenin standart hatası nedir? Bir örnekle açıklayınız?
5. Maddeler arası kovaryans ya da korelasyondan, testi oluştururken
nasıl faydalanırsınız, açıklayınız?
6. Tek oturumluk, zaman ve soru sınırlaması ile karşı karşıya olduğu-
nuz bir teste güvenirliği nasıl hesaplarsınız, açıklayınız?
7. Güvenirlikle geçerlik arasındaki ilişkiyi açıklayınız?
8. Mevcut durum geçerliği ve yordama geçerligi arasındaki farkı be-
lirterek, her iki geçerlik türü için birer örnek veriniz?
9. α , Sperman Brown, KR-20 ve KR-21 güvenirlik katsayılarından
her birini hangi durumlarda kullanmak uygundur?
88 Eğitimde Ölçme ve Değerlendirme

10. Aşağıda verilen madde puanları matrisi için sırasıyla α , Sperman


Brown, KR-20 ve KR-21 katsayılarını hesaplayarak, sonucu yorum-
layınız?

Birey No. Maddeler


1 2 3 4 5 6
1 0 1 1 1 0 1
2 1 0 0 0 0 0
3 1 1 1 0 1 1
4 1 1 1 1 1 1
5 1 0 1 0 1 1
6 0 1 1 1 0 1
7 1 1 1 1 0 0
8 0 1 1 0 1 1
9 0 1 0 0 1 1
10 1 1 1 1 1 1
11. Yapı geçerliğini kapsam geçerliğinden nasıl ayırırsınız, açıklayınız?
12. ÖSYM’de ölçme danışmanı olarak çalışıyor olsa idiniz, ÖSS ile il-
gili ne tür geçerlik çalışmaları önerirdiniz, nedenleriyle açıklayınız?
13. Sınıf ortamında kullanılan öğretmen yapımı testlerin güvenirlik ve
geçerliğini artırmak için neler önerirsiniz?
14. Ölçmek istediğiniz özelliği ölçen birden fazla test bulunması duru-
munda bir araştırmacı olarak neleri dikkate alırsınız ve tercihinizi
nasıl kullanırsınız açıklayınız?
15. Bir testin güvenilir olmadan geçerli olması mümkün müdür, açık-
layınız?
Ölçme Araçlarında Bulunması İstenen Nitelikler 89

Yrd. Doç. Dr. Özlem Yeşim ÖZBEK

Özlem Yeşim Özbek 18 Haziran 1973’de Kayseri’de doğdu. Hacettepe


Üniversitesi Ölçme ve Değerlendirme Bölümünden 1994’de lisans derecesini
aldı. Milli Eğitim Bakanlığı tarafından 1995’de yapılan Yurtdışı Yüksek Li-
sans Sınavında Eğitim İstatistikleri ve Ölçme Değerlendirme alanında mastır
ve doktora yapmak için burs kazandı. Eğitim İstatistikleri ve Ölçme Değer-
lendirme alanında mastır ve doktorasını sırasıyla 1998 ve 2004 yıllarında
USA’de University of İllinois, Urbana-Champaign’de tamamladı. 2004 yılın-
da Araştırma Görevlisi olarak atandığı Gaziosmanpaşa Üniversitesi Eğitim
Fakültesinde halen Yardımcı Doçent olarak geçerlik, multidimensionality ve
madde yanlılığı konularında çalışmalarını yürütmektedir.
216 Eğitimde Ölçme ve Değerlendirme
4. Bölüm

EĞİTİM SİSTEMİMİZDE YAYGIN


OLARAK KULLANILAN TEST TÜRLERİ

Mehtap ÇAKAN
Abant İzzet Baysal Üniversitesi

Kazanımlar
Bu bölümün sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir.
 Eğitim sistemimizde sıklıkla kullanılan test türlerinin neler olduğunu kav-
rayabilme.
 Sıklıkla kullanılan test türlerinin genel özelliklerinin, avantajlarının ve sı-
nırlılıklarının neler olduğunu kavrayabilme.
 Her bir test türünün hangi şartlarda, ne zaman kullanılmasının uygun ol-
duğunu kestirebilme.
 Farklı test türlerinin geçerlik ve güvenirlik özelliklerini kavrayabilme.
 Farklı türde test maddesi yazımında uyulması gereken kuralları
 kavrayabilme.
 Yazım kurallarına uygun şekilde farklı test türlerine ait madde ler yaza-
bilme.

İçindekiler
 Giriş
 Çoktan Seçmeli Maddeler
 Doğru / Yanlış Maddeleri
 Eşleştirme Maddeleri
 Kısa Cevaplı Maddeler
 Yazılı Yoklamalar
 Sözlü Sınavlar
 Ödevler
 Özet
 Kaynakça
 Sorular
92 Eğitimde Ölçme ve Değerlendirme

Giriş

Ölçme farklılıklardan doğmuş bir eylemdir. Bireylerin, nesnelerin farklı


özelliklere sahip olması bu özelliklerin ölçülmesini gerekli kılmıştır. Bu
özellikler ölçülüp daha sonra saptanan belli ölçütler göz önünde bulunduru-
larak değerlendirilmişlerdir. Bu özelliklerin ölçülmesi tek bir ölçme tekniği
ile mümkün değildir. Hangi özelliğin hangi teknikle ölçülmesi gerektiği
farklı koşullara bağlı olarak değişmektedir. Bu koşullardan en önemlisi öl-
çülecek olan özelliğin kendisidir. Hangi davranışı ya da beceriyi ölçmek
istediğinize bağlı olarak kullanacağınız ölçme aracı da değişiklik göstermek-
tedir. Doğru zamanda doğru ölçme aracını kullanmak öğrenci ve öğretim
programı hakkında verilen kararın mevcut durumu doğru yansıtan geçerli
ve güvenilir bir karar olmasını sağlayacaktır. Kullanılacak ölçme türüne
karar verirken aşağıdaki noktalara dikkat edilmelidir (Çakan, 2005):
1. Test türüne karar vermede öncelikli kriter öğretim hedefidir. Hangi
hedef davranışı, beceriyi ölçmek istediğimize göre, uygun olan sınav tü-
rü de değişecektir. Örneğin, öğrencinin “ülkelerin başkentini bilip bil-
mediğini” ölçerken çoktan seçmeli, kısa cevap, doğru yanlış gibi her-
hangi bir tür uygun olacaktır. Ancak, öğrencinin dilbilgisi kurallarına
uygun bir şekilde kendini ifade edebilme becerisini ölçmek için bu tür-
ler uygun olmayacaktır. Uygun olan teknik yazılı yoklama olacaktır. Öl-
çülmek istenen hedefin düzeyi de önemli bir ölçüttür. Örneğin sentez
düzeyindeki bir davranışı doğru /yanlış türü bir test maddesiyle ölçmek
mümkün olmayacaktır.
Yeni programlarda adına “kazanım” denen, eski programlarda ise “he-
def ve davranışlar” olarak ifade ettiğimiz terimlerin tümü öğrencide ölçmek
istediğimiz öğrenme ürünü ya da öğrenme göstergesi olan özellikleri ifade
etmektedir. Eldeki kitapta bu terimler zaman zaman geçişli olarak kulla-
nılmıştır. Adına ne denirse densin, bir özelliğin ölçülebilmesi için onun ta-
nımlanabilmesi ve bir ölçme aracı yardımıyla gözlenebilir olması gerekmek-
tedir. Ölçme araçları olan testlerin hazırlanabilmesi için neyi ölçeceğimizin
net olarak tanımlanması gerekmektedir. Eski programlarda hedef ve davra-
nışlar adı altında ölçülecek özellikler mümkün olduğunca somutlaştırılmak-
ta ve tanımlanmakta idi. Oysa yeni programlarda kazanım olarak yeniden
ifadelendirilen bu özelliklerin bir bölümümün neyi kastettiği öğretmenlerin
algısına bırakılmıştır. Buda kuşkusuz ki ölçme konusunda öğretmene daha
fazla sorumluluk yüklemektedir.
2. Kullanılacak olan test türü öğrencinin öğrenmesini destekleyecek nite-
likte olmalıdır. Öğrenmeyi yavaşlatacak ya da engelleyecek nitelikte
olmamalıdır (Nightingale, Wiata, Toohey, Ryan, Hughes ve Magin, 1996).
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 93

Ölçme öğrenmenin ne ölçüde gerçekleştiğini saptamak amacıyla yapıl-


makla beraber yapılan ölçme işi öğrencinin öğrenmesine de katkı sağ-
lamalıdır. Bu, öğrencinin önemli konulara dikkatini çekme şeklinde
olabileceği gibi ölçme sürecinde öğretme de olabilir. Örneğin, öğrenci
gelişim dosyaları öğrenciyi değerlendirmek amacıyla uygulanan bir
ölçme yöntemidir, fakat öğrenci bu dosyayı oluştururken, ortaya çıkan
ürünlerini sergilerken ve onların eleştirisini yaparken aynı zamanda öğ-
renmektedir de.
3. Öğrenci grubunun düzeyi (yaş, bilişsel, duyuşsal, psikomotor gelişimi
vb.) test türünü seçmede dikkate alınması gereken diğer bir etkendir.
İlköğretimin ilk yıllarında kağıt-kalem testleri dediğimiz çoktan seçme-
li, yazılı yoklama, kısa cevap, doğru yanlış vb. türlerin kullanımı çoğu
durumda uygun olmayacaktır. Birinci sınıf öğrencisi henüz yazı yazma,
kalem tutma becerisine sahip olmadığı için yazılı yoklama yapmak
mümkün olmayacaktır. Ayrıca yine ilköğretim ilk devresinde henüz bi-
reylere kendilerini yazılı ya da sözlü ifade etme becerisi kazandırılmaya
çalışıldığı için bir cevabı işaretlemeye dönük olan çoktan seçmeli ya da
benzeri sınavlar ve bunların yoğun kullanımı, öğrencideki bu gelişimi
engelleyebilir.
4. Bireylerin öğrenme sitilleri, bilişsel sitillileri gibi özellikler de kullanılan
test türünü etkileyebilir. Araştırmalar göstermiştir ki farklı bilişsel sitil-
lere sahip olan öğrenciler hangi test türü uygulandığına göre farklı ba-
şarılar göstermektedirler (Çakan, 2000; Lu ve Suen, 1995). Farklı öğ-
renciler bilgi ve becerilerini ifade etmede farklı test türlerini tercih et-
mektedirler. Bu tür bireysel farklılıklar göz önünde bulundurularak dö-
nem boyunca öğretim hedefleri ya da kazanımları öğrenci düzeyleri de
dikkate alınarak, söz konusu hedefleri ölçmeye uygun olması şartıyla
farklı test türleri ile ölçülmelidir. Dönem boyunca test türleri ayrı ayrı
kullanılabileceği gibi aynı testte birden çok madde türü bir arada da
kullanılabilir. Örneğin bir testde çoktan seçmeli, kısa cevaplı ve yazılı
yoklama maddeleri bir arada kullanılabilir. Genellikle kullanılan mad-
de türünün 3 ya da 4 ü geçmemesi uygun olacaktır. Çok fazla türü bir
arada kullanmak öğrenci açısından güçlük yaratacaktır. Bu durum test
puanlarının güvenirliğini ve buna bağlı olarak da geçerliğini düşürücü
bir etken olabilecektir.
Unutulmamalıdır ki her bir test türünün üstün olduğu ve sınırlı olduğu
yanlar vardır. Ölçülecek davranış, öğrenci düzeyi, öğrencinin bireysel farklı-
lıkları dikkate alınarak seçildiği taktirde her bir test türü istenilen nitelik-
lerde ölçmeler üretebilecektir. Ancak bu kriterler dikkate alınmadan kulla-
94 Eğitimde Ölçme ve Değerlendirme

nıldıkları takdirde üstün özellikleri olan bir test türü bile işlevsel olmayacak
ve doğru olmayan sonuçlar üretebilecektir.
Aşağıda, yukarıda değinilen noktalar ışığında, eğitim sistemimizde yay-
gın olarak kullanılan test türleri, genel özellikleri, avantajları, sınırlılıkları,
güvenirlik ve geçerlilikleri de dikkate alınarak tanıtılmıştır. İlköğretim prog-
ramlarında “tamamlayıcı test teknikleri” olarak adlandırabileceğimiz yeni
teknikler ya da yöntemler kullanılmaya başlanmıştır. Unutulmamalıdır ki
hiçbir ölçme aracı diğerinin alternatifi değildir, yaygın kullanılan ya da yeni
kullanılmaya başlanmış olan her bir ölçme aracının kullanılmasının uygun
olduğu gibi uygun olmadığı durumlar da bulunmaktadır. Önemli olan hangi
ölçme aracının hangi şartlarda kullanılmasının uygun olduğunu doğru tespit
etmek ve aracı kurallarına uygun olarak kullanmaktır.

Çoktan Seçmeli Maddeler

Çoktan seçmeli maddeler (sorular) madde kökü ve madde köküne ait


doğru cevap ve hatalı cevapların bulunduğu seçeneklerden meydana gelmiş
bir madde türüdür. Örneğin:

Türkiye Cumhuriyeti kaç tarihinde kurulmuştur? → Madde kokü


A) 1919
B) 1920

C) 1923 → Doğru cevap } Seçenekler


D) 1924
E) 1927

Burada sorunun yer aldığı kısım “madde kökü”, C seçeneği “doğru ce-
vap”, diğer seçenekler ise “çeldiriciler” olarak adlandırılmaktadır ( A, B, D,
ve E seçenekleri). Yanlış olan seçeneklere çeldirici denmesinin nedeni, bu
seçeneklerden doğru cevabı bilmeyen öğrencileri çeldirmesi beklenmesidir.
Yazılan çeldiriciler cevabı bilmeyen öğrencileri çekebildikleri ölçüde başarı-
lıdırlar. Doğru cevabı bilmeyen öğrenciye yanlış olduğu çok bariz gelen çel-
dirici iyi bir çeldirici değildir. Öğrencilerin sık yaptıkları yanlışlar (yanlış
öğrenmeler) çoktan seçmeli maddelerin yazımında iyi birer çeldirici olarak
kullanılabilmektedirler.
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 95

Çoktan seçmeli maddeler günümüzde en sık kullanılan madde türü ol-


ma özelliğine sahiptir. Eğitimde ve pek çok alanda sıklıkla kullanılmaktadır-
lar. Bunun çeşitli nedenleri bulunmaktadır. Çoktan seçmeli maddeler objek-
tif madde türlerinden birisidir. Çoktan seçmeli maddelerin objektif olarak
puanlanabilmesi bu maddelerin tercih edilmesinin en önemli gerekçelerin-
den birisidir. Özellikle de önemli sınavların çoğunda, bu nedenle sıklıkla
kullanılmaktadırlar. ÖSS ve KPSS sınavları buna örnektirler. Bireylerin
yaşamıyla ilgili önemli kararların alınacağı sınavlarda puanlama hatasını
sıfıra indirgemek önemli bir gereksinimdir. Çoktan seçmeli maddeler, bu ve
diğer özelliklerinden dolayı, benzer durumlarda sıklıkla tercih edilmektedir-
ler.
Çoktan seçmeli maddelerin sık kullanılmasının diğer bir nedeni ise çok
sayıda kişiyi kısa sürede sınav yapabilme olanağını tanımasıdır. Yine ÖSS ve
KPSS gibi geniş kitlelere uygulanan sınavlar bunlara örnektirler. Yüz bin-
lerce öğrenci birkaç saat içerisinde sınav yapılabilmektedir. Diğer bazı sınav
türlerini de bu tür geniş katılımlı sınavlarda kullanmak mümkündür; ancak
çoktan seçmeli maddelerin diğer türlere üstün olan tek yanı çok sayıda kişi-
ye uygulanabilir olması değil aynı zamanda farklı türlerde bilgi ve beceriyi
ayrıca üst düzey zihinsel becerileri de ölçebilir olmasıdır. Böylece çoktan
seçmeli testlerde kapsam geçerliği de çoğu durumda sağlanabilmektedir.
Bu maddelerin sık kullanılmasının diğer bir nedeni de yukarıda deği-
nildiği gibi üst düzey bilgi ve becerileri de ölçmeye elverişli olmasıdır. Bilgi
düzeyinden değerlendirme düzeyine kadar farklı türde ve üst düzey bilgi ve
beceri alanlarını ölçen sorular hazırlamak da mümkündür. ÖSS ve KPSS
gibi sınavlarda sorulan sorular buna örnek olarak verilebilir. Çok sayıda
soru sorulabilmesi kapsam geçerliğini ve test puanlarının güvenirliğini arttı-
rıcı bir etkendir.
Diğer bir önemli kullanım gerekçesi ise çoktan seçmeli maddelerin pu-
anlanmasının kolay ve çok kısa sürede yapılabilmesidir. ÖSS ve KPSS sınav-
larında olduğu gibi yüz binlerce öğrencinin cevapları optik okuyucular yar-
dımıyla kısa sürede kolaylıkla okunabilmektedir.
Çoktan seçmeli maddelerin diğer bir özelliği de her yaş düzeyinden öğ-
renciye uygulanabilmesidir. İlköğretimden yüksek öğretime kadar farklı
düzeylerde uygulanabilmektedir. Fakat ilköğretimin ilk yıllarında kullanıl-
ması uygun olmayacaktır. Bu dönemde öğrenciler henüz kendilerini ifade
etme (sözlü ya da yazılı olarak) becerisini kazanmayı öğrendikleri için çok-
tan seçmeli maddeler ilk yıllar için uygun olmayacaktır. Kullanılan seçenek
sayısı öğrencilerin yaş düzeyine göre değişmektedir. İlköğretimde 4 seçe-
nekli daha üst düzeylerde 5 seçenekli kullanılması yaygındır.
96 Eğitimde Ölçme ve Değerlendirme

Çoktan seçmeli maddelerin tüm madde ya da test türlerinde olduğu gi-


bi belli sınırlılıkları da bulunmaktadır. Bunlardan birisi şans başarısıdır.
Şans başarısı öğrencinin bilmediği bir soruya şansla cevap vermesi olarak
tanımlanmaktadır. Şans başarısı seçenek sayısı ile ilişkilidir. Beş seçenekli
bir maddeyi öğrencinin şansla doğru cevaplama olasılığı %20 (1/5) iken, 4
seçenekli olduğunda bu % 25 e yükselmektedir (1/4). Seçenek sayısı arttıkça
şansla cevaplama olasılığı azalmaktadır. Seçenek sayısının en fazla 5 ile
sınırlandırılması yaygın bir uygulamadır. Şans başarısı rasgele hatalardan
biri olduğu için öğrencinin gerçek başarısından farklı bir not almasına ne-
den olmaktadır. Buda öğrencinin aldığı puanın güvenirliğini ve dolayısıyla
geçerliğini azaltmaktadır. Şans başarısını önlemenin yaygın bir yolu olarak
öğrencilerin aldığı puanlara düzeltme formülü uygulanmaktadır. Yani öğ-
rencilerin puanlarından belli bir puan düşürülmektedir. Sonuç olarak ortaya
çıkan puana “Düzeltilmiş puan” denmektedir. Testteki soru sayısının artı-
rılması da şans başarısının toplam puana etkisini düşürücü bir tedbir olarak
düşünülmektedir.

Düzeltilmiş Puan = D – [ Y / ( a -1) ]


D: Doğru cevap sayısı
Y: Yanlış cevap sayısı
A: seçenek sayısı

Örneğin Ali 100 soruluk 4 seçenekli bir testte 70 soruyu doğru olarak
cevaplamış 30 soruyu ise yanlış cevaplamıştır. Düzeltme formülü uygulan-
madığında Ali testten 70 alacaktır. Ancak şans başarısıyla elde ettiği puan-
ları hesaba katmak istersek ve düzeltme formülü uygularsak Ali’nin aldığı
puanı şu şekilde hesaplanmaktadır:

Ali’nin düzeltilmiş puanı = 70 – [ 30 / (4-1) ]


= 70- 10
= 60
Ali bu testten 60 puan almıştır. Formül incelendiğinde bunun, 4 seçe-
nekli bir testte 3 yanlışın bir doğruyu götürmesi, 5 seçenekli bir sınavda ise 4
yanlışın bir doğruyu götürmesi şeklinde gerçekleştiği görülmektedir ki öğ-
renciler arasında düzeltme formülü bu şekilde bilinmekte ya da yorumlan-
maktadır.
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 97

Düzeltme formülünde kabul edilen varsayım şudur; öğrencinin yanlış


yaptığı tüm soruları şansla cevapladığı kabul edilmektedir. Oysa öğrencinin
o cevabı doğru sanarak işaretlemesi de mümkündür bu nedenle söz konusu
varsayımlar tartışılmaktadır. Ancak düzeltme formülünün kullanılması öğ-
rencinin emin olmadığı soruları yanıtlamasını engelleyicidir. Öğretmenler
çoktan seçmeli testlerde düzeltme formülü uygulayacaklarsa bu konuda
öğrencileri mutlaka sınavdan önce bilgilendirmelidirler. Böylece, öğrencile-
rin emin olmadıkları soruları cevaplandırmamaları büyük ölçüde sağlana-
caktır. Düzeltme formülünün kullanılması sınıf içi yapılan testlerde çok
önemli olmayabilir fakat ÖSS ya da KPSS gibi öğrencilerin geleceğini belir-
lemede birkaç puanın bile çok değerli olduğu sınavlarda test puanlarının
mutlaka şans başarısıyla elde edilen puanlardan yani rasgele hatalardan
arındırılması gerekmektedir.
Çoktan seçmeli maddelerle ilgili diğer bir sınırlılık ya da eleştiri yaratı-
cılık gücünü ölçmeye elverişli olmamasıdır. Çoktan seçmeli maddeler yapı-
landırılmış cevaplardan oluşmaktadır. Öğrenci kendisine sunulan seçenek-
lerden birini seçmekle yükümlüdür. Öğrencilerin cevaplama özgürlüğünün
olmaması orijinallik ya da yaratıcılık gücünü ölçmeye bir engeldir. Bu tür
davranışlar yazılı yoklama, sözlü yoklama ya da projeler gibi öğrenciye ce-
vaplama özgürlüğü tanıyan tekniklerle yoklanmalıdır.
Çoktan seçmeli maddeler madde köküne göre 4, maddelerin gruplanı-
şına göre de 2 türe ayrılmaktadırlar (Tekin, 2000; Turgut, 1990).

Madde köküne göre:


1. Madde kökü soru kipinde olan maddeler
a. Olumlu soru kipinde olan maddeler
b. Olumsuz soru kipinde olan maddeler
2. Kesin ve Tek doğru cevabı olan maddeler
3. En doğru cevabı isteyen maddeler
4. Madde kökü eksik cümle olan maddeler

Maddelerin gruplanışına göre:


1. Ortak bir materyale dayalı maddeler takımı (ortak köklü madde-
ler)
2. Ortak seçenekli maddeler
98 Eğitimde Ölçme ve Değerlendirme

Aşağıda bu madde türleri incelenmiştir.


1. Madde kökü soru kipinde olan maddeler
Çoktan seçmeli maddelerin çoğu bu formatta karşımıza çıkmaktadır.
Bu tür maddeler de madde kökü soru kipiyle bitmektedir. Bu tür maddeler,
soru kipinin olumlu ya da olumsuz oluşuna göre iki gruba ayrılmaktadır:
Olumlu soru kipinde olan maddeler ve olumsuz soru kipinde olan madde-
ler. Olumlu soru kipinde olan maddelere örnek olarak aşağıdaki madde
verilebilir:
Örnek:
Aşağıdakilerden hangisi bir sebzedir?
A) Armut B) Elma C) Kiraz D) Kivi E) Soğan
(E)

Bu maddeyi aşağıdaki şekilde olumsuz soru kipinde bir maddeye dö-


nüştürebiliriz:
Örnek:
Aşağıdakilerden hangisi bir sebze değildir?
A) Elma B) Marul C) Maydanoz D) Pırasa E) Soğan
(A)

Olumsuz soru kipinin kullanılması halinde olumsuzluk ifade eden keli-


menin altı çizilmeli ya da kalın yazılmalıdır. Bu şekilde öğrencilerin dikkat-
sizlik sonucu ifadeyi olumlu gibi algılaması ya da okuması engellenmelidir.

2. Kesin ve Tek doğru cevabı olan maddeler


Aynı şekilde, çoktan seçmeli maddelerin önemli bölümü bu formatta
karşımıza çıkmaktadır. Bu tür maddelerde verilen seçeneklerden yalnızca
birisi doğru diğerleri ise yanlış cevaplardır.
Örnek:
Bir tutum ölçeği öğrenci grubuna uygulanıyor. Bir ay sonra ölçek tekrar
aynı gruba uygulanıyor ve öğrencilerin puanlarının değişmediği görülüyor.
Bu durum ölçeğin hangi özelliğinin bir kanıtı olarak kabul edilebilir?
A) Geçerlik
B) Uygunluk
C) Kullanışlılık
D) Güvenirlik
(D)
Yukarıdaki maddede yalnızca D seçeneği doğru diğerleri ise yanlıştır.
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 99

3. En doğru cevabı isteyen maddeler


Bu formattaki çoktan seçmeli maddelerde verilen seçeneklerin tümü
bir miktar doğrudur ama bir tanesi belirgin olarak diğerlerinden daha fazla
doğrudur.
Örnek:
Aşağıdaki gözlemlerin hangisi bir gazın moleküllerinin hareket halinde ol-
duğuna en inandırıcı kanıtıdır?
A) Havanın basıncı vardır.
B) İki gaz çabucak birbirine karışır.
C) Sıcak hava yükselir.
D) Yeteri kadar sıkıştırılan bir gaz sıvılaşır.
E) Soğutulan bir gazın basıncı düşer.
(B)
(Turgut, 1990; s. 88)
Yukarıda tüm seçenekler doğrudur ama B seçeneği açık bir şekilde di-
ğerlerinden daha fazla doğrudur.
Bu tür maddelerin yazımında en çok dikkat edilmesi gereken nokta şu-
dur; en doğru olarak kabul edilen seçeneğin o alandaki uzmanlarca ya da
ilgili kişilerce ortak fikir oluşturabilecek bir seçenek olmasına dikkat edil-
melidir. Örneğin aşağıdaki soruda uzmanların ortak bir görüşe varması
zordur ve en doğru cevap olarak kodlanan B seçeneği tartışmaya açıktır.
Örnek:
1. Aşağıdakilerden hangisi çocuklarda sözlü dil gelişimini engelleyen en
önemli sebeptir?
A) Uyumsuz kişilik
B) Ağır işitme
C) Kusurlu ses anatomisi
D) Zeka geriliği
E) Aileden ayrı yaşama
(B)

(Turgut, 1990; s. 88)


100 Eğitimde Ölçme ve Değerlendirme

4. Madde kökü eksik cümle olan maddeler


Bu tür maddelerde madde kökü eksik cümle şeklinde verilir ve seçe-
neklerden biri cümleyi anlam ve gramer olarak tamamlar. Öğrenciden bu
seçeneğin bulunup işaretlenmesi istenir.
Örnek:

1. Genel anlamda geçerlik, bir testin


A) okutulanları örnekleyebilme derecesidir.
B) öğretim hedeflerini ölçebilme derecesidir.
C) kullanılış maksadına hizmet derecesidir.
D) kişilerin gelecekteki başarılarını yordama gücüdür.
(C)

(Tekin, 2000; s. 153).


Bu tür maddelerde, örnekte de görüldüğü gibi, seçeneklerdeki ifadeler
küçük harflerle başlamalıdır. Çünkü seçenekler madde kökündeki ifadenin
devamı niteliğindedir. Bu tip maddelerde de daha önce vurgulandığı gibi
seçeneklerin tümünün gramer ve konu olarak madde köküyle homojenlik
göstermesi önemlidir.
Gruplanışına göre maddeler aşağıda incelenmiştir:
1. Ortak bir materyale dayalı maddeler takımı (ortak köklü maddeler)
Bu tür maddeler “ortak köklü maddeler” ya da “ortak materyale dayalı
maddeler” olarak adlandırılırlar (Turgut, 1990; Tekin, 2000). Bu tür madde-
lerde cevaplayıcılara ortak bir materyal verilir. Bu bir grafik, bir paragraf,
bir harita ya da bir tablo olabilir. Daha sonra bu materyale dayalı olarak
cevaplandırılması için birden fazla sayıda madde sorulur. Pek çok sınavda
olduğu gibi ÖSS sınavlarında da bu tür maddelere rastlanmaktadır.
Örnek:
12-13. sorular aşağıdaki parçaya göre cevaplandırılacaktır.

“Öğrenciler okula test almak için değil öğrenmek için giderler. Üstelik
testler, bir öğrencinin mutlak öğrenme düzeyini belirtmekten uzaktır. Test-
ler, ancak öğrencileri başarılarına göre sıralayabilir ve bu sıralamada, tah-
min, blöf ve puanlayıcının öznel kanısı gibi başarı dışındaki etkenler de etki-
li olur. Eğer testler kullanılmaz da, öğrencileri bizzat kendilerinin değerlen-
dirmesine fırsat verilirse, öğretme-öğrenme süreci daha etkili olur.”
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 101

12. Parçanın yazarı, aşağıdakilerden hangisini gizli sayıtlı olarak kullanıyor?


A) Öğrenci, okula öğrenmek için gider.
B) Öğretmenler, ilk planda essey testler kullanır.
C) Testler, bir öğrencinin mutlak öğrenme düzeyini belirtmez.
D) Testler, öğrenmeye katkıda bulunmaz.
(D)
13. Yazarın ulaştığı son yargı nedir?
A) Kişinin kendini etkilice değerlendirmesi, testlerin
B) Kullanılmasını gerektirmez.
C) Testler, sadece öğrencileri belli bir sıraya kor.
D) Test puanlarını, başarı dışındaki etkenler de etkiler.
E) Öğrenciler, okula test almak için gitmez.
(A)

(Tekin, 2000; s.156).

2. Ortak seçenekli maddeler


Burada yukarıda bahsedilen türden farklı olarak bu kez aynı seçenekler
birden fazla sayıda ki maddenin cevaplandırılmasında kullanılmaktadır. Bu
tür sorular aynı seçenekler eğer bir çok soruda tekrar tekrar kullanılacak ise
bunların her madde için gereksiz tekrarlanmasını önler. Bu aynı zamanda
kağıttan tasarrufu da sağlamaktadır.
Örnek:
Aşağıdaki soruları (14.- 16. sorular) şu seçenekleri dikkate alarak cevap-
landırınız.
A) Öğrencinin kendisi
B) Test uygulayıcısı
C) Çevre
D) Ölçme aracı

14. Sınav sırasında kopya çekilmesi durumunda, puanlara hangi hata kaynağı
etki eder?
15. Soruların bazılarının silik çıkması nedeniyle okunamıyor olması durumun-
da puanlara hangi hata kaynağı etki eder?
16. Sınavların okunması esnasında bazı cevapların gözden kaçırılarak puan-
lanması durumunda puanlara hangi hata kaynağı etki eder?
(14:A, 15:D, 16:B)
102 Eğitimde Ölçme ve Değerlendirme

Çoktan seçmeli maddelerin yazılması diğer madde türlerine göre daha


fazla teknik bilgi, beceri ve tecrübe gerektirmektedir. Bu nedenle öğretmen-
ler bu tür maddelerin yazılmasında gerekli kurallara uymalıdırlar. Eğer
gerekli bilgi ve beceriye sahip değillerse soru yazımı daha az bilgi beceri
gerektiren diğer madde türlerini kullanmayı tercih etmelidirler. Çoktan
seçmeli maddelerin yazılmasında dikkat edilmesi gereken çeşitli kurallar
vardır ve bunlar ölçme ve değerlendirme alanında yazılmış çeşitli kaynak-
lardan edinilebilir (Tekin, 2000; Özçelik, 1992; Turgut, 1990). Söz konusu
kurallara uygun şekilde maddelerin yazılması önemlidir. Bu kurallardan
bazıları aşağıda ifade edilmiştir:
1. ►Seçenekler büyük harflerle ifade edilmelidir (A, B, C, D ve E gibi).
Bu, öğrencilerin algılamasını ve okumasını kolaylaştırır.
Örnek:
Yunanistan’ın başkenti aşağıdakilerden hangisidir?
A) Atina B) Belgrat C) Riga D) Roma E) Viyana

(A)

2. ►Seçenekler isimlerden oluşuyor ise, örneğin yazar isimleri gibi, alfa-


betik sıraya göre dizilmelidir.
Örnek:
İnce Memed’in yazarı aşağıdakilerden hangisidir?
A) Fakir Baykurt B) Kemal Tahir C) Orhan Kemal
D) Sabahattin Ali E) Yaşar Kemal

3. ►Seçenekler rakamlardan oluşuyor ise okumayı kolaylaştırmak ama-


cıyla küçükten büyüğe, ya da büyükten küçüğe doğru sıralanmalıdır.
Örnek:
5 x 6 = y işleminde “y” değeri aşağıdakilerden hangisine eşittir?
A) 15 B) 20 C) 25 D) 30 E) 35
(D)

4. ►Seçenekler konu olarak ve dil bilgisi olarak madde kökü ile aynı ol-
malıdır. Seçenekler kendi içinde de yine konu ve gramer olarak aynı
olmalıdır. Farklı olması bilmeyen öğrencilere ipucu oluşturabilir. Örne-
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 103

ğin, 5 seçenekli bir maddede seçeneklerin dördü gramer olarak kendi


aralarında ve madde kökü ile homojen fakat biri farklı ise, doğru cevabı
bilmeyen bir öğrenci bu farklılıktan dolayı o seçeneği işaretleyebilecek-
tir ve muhtemelen bu seçenek doğru seçenek olacaktır. Aynı şekilde,
konu olarak seçeneklerin farklı oluşu da benzer bir durum yaratacaktır.
Aşağıda buna yönelik bir örnek verilmiştir.
Yanlış Örnek:
Almanya’nın başkenti aşağıdakilerden hangisidir?
A) Avrupa B) Asya C) Berlin D) Roma E) Viyana

Yukarıdaki örnekte A ve B seçenekleri kıta isimlerinden oluşmakta ve


dolayısıyla içerik olarak diğer seçeneklerden farklılık göstermektedir. Bu
farklılığı gören öğrenci, bu iki seçeneği kolaylıkla eleyecek ve soruyu 3 seçe-
neğe düşürecektir. Bu nedenle bu seçeneklerin düzeltilerek yerine şehir
isimlerinin yazılması uygun olacaktır:
Doğru Örnek:
Almanya’nın başkenti aşağıdakilerden hangisidir?
A) Atina B) Belgrat C) Berlin D) Roma E) Viyana
(C )

5. ►Hiçbirisi ya da hepsi seçeneklerinin kullanımı özel bir itana ile yapıl-


malıdır. Hepsi seçeneğinin kullanıldığı durumlarda, hepsi seçeneği çel-
dirici olarak kullanılmış ise , öğrenci yanlış olan bir seçenek tespit etti-
ğinde otomatik olarak hepsi seçeneğini de eleyecektir. Benzer şekilde
hiçbiri seçeneğinin çeldirici olarak kullanıldığı pek çok durumda, dik-
katli öğrenciler doğru cevabı net olarak bilmeseler dahi doğru cevabın
hiçbiri seçeneği olamayacağı kanısına kolaylıkla varmakta ve bu çeldiri-
ciyi rahatlıkla elemektedirler. Öğretmenler bu seçenekleri genellikle
yazacak seçenek bulamadıklarında kullanırlar. Çoktan seçmelilerde ya-
zacak mantıklı bir seçenek bulunamıyorsa yanlışlığı çok bariz olan bir
seçenek yazmak yerine, sorunun 5 seçenekli olduğunu farz edelim, bazı
soruları 4 seçenekte bırakabilir. Bu durum özellikle test ve madde ista-
tistiklerinin hesaplanması yapılmayacaksa uygulanabilir.
6. ►Seçenek uzunlukları birbirine mümkün olduğunca yakın olmalıdır.
Öğretmenler doğru seçeneği daha ayrıntılı, eksiksiz yazma eğiliminde
oldukları için farkında olmadan doğru seçenekleri diğerlerinden daha
uzun yazabilmektedirler. Doğru cevabı bilmeyen öğrenciler bu durumu
104 Eğitimde Ölçme ve Değerlendirme

fark ettiğinde onlar için ipucu teşkil edecek ve diğer sorularda bilmese-
ler de uzunluğuna göre tahminde bulunma yoluna gideceklerdir.
7. ►Soruların yazımı bittiğinde bir sorunun cevabının diğer sorularda
verilmediğinden emin olmak için kontrol edilmelidir.
Örnek:
Yunanistan’ın başkenti aşağıdakilerden hangisidir?
A) Atina B) Belgrat C) Riga D) Roma E) Viyana

Örnek:
Yunanistan’ın başkenti olan Atina, nüfus yoğunluğu olarak ülkenin kaçıncı
büyük şehridir?
A)1. B) 2. C)3. D)4. E) 5.

Yukarıda görüldüğü gibi birinci sorunun cevabı ikinci soruda verilmiş-


tir. Bu nedenle ya sorulardan biri çıkarılmalıdır ya da ikinci örnekte Ati-
na’nın başkent olduğu bilgisi çıkarılarak yeniden yazılmalıdır.
8. ►Doğru cevaplar seçeneklere rastgele dağıtılmalıdır. Belli kalıplar
kullanılmamalıdır. Örneğin 3 kere A, 3 kere B vb. dağıtımlar yapıldı-
ğında dikkatli öğrencilerden bazıları bunu fark edecek ve soruları oku-
madan cevaplandırabilecektirler.
9. ►Seçeneklere düşen doğru cevap sayısı yaklaşık olarak eşit olmalıdır.
Örneğin 100 soruluk 5 seçenekli bir testte her seçeneğe yaklaşık 20
doğru cevap düşmelidir. Fakat dağıtım yukarıda bahsedildiği gibi belli
kalıplara göre değil rast gele yapılmalıdır.
10. ►Öğrencinin okumasını ve algılamasını kolaylaştırmak için soru kö-
kündeki “değildir, olamaz vb.” olumsuz sözcüklerin veya “en uygundur,
en önemlidir vb.” gibi vurgu sözcüklerinin altı çizilmelidir.
11. ►Bazı öğretmenler tarafından sıklıkla yapılan bir hata vardır. Öğret-
menler eğer yazdıkları soruda neyin istendiği anlaşılmazsa ya da ağdalı
bir ifadeyle soruyu bilmece gibi sorup öğrencilerin anlamasını zorlaştı-
rırlarsa zor soru sormuş olduklarını düşünürler. Oysa bu yanlış bir dü-
şüncedir. Hangi tür madde (çoktan seçmeli, yazılı yoklama, D/Y vb.)
olursa olsun madde yazımında kullanılan dilin son derece yalın, anlaşı-
lır ve öğrencinin düzeyine uygun olması gerekir. Ayrıca soruyu okuduk-
larında her öğrencinin aynı şeyi anlaması gerekir. Zorluk soruyu çöz-
mek için sahip olunması gereken bilgi ve becerinin düzeyiyle ilgilidir.
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 105

Her öğrenci sorulan sorunun doğru cevabını bilemeyebilir ama her öğ-
renci soruyu okuduğunda soruda neyin istendiğini anlamalıdır.
Yanlış Örnek:
Senenin en kısa gecesi hangi aydadır?
A) Mart B) Haziran C) Eylül D) Aralık
(B ve ya D)

Bu soruyu bazı öğrenciler kuzey yarım küreyi bazı öğrenciler güney ya-
rım küreyi dikkate alarak yapabilirler. Doğru cevap için hangi yarım kürenin
esas alınması gerektiği de belirtilmelidir:
Doğru Örnek:
Kuzey yarımkürede, senenin en kısa gecesi hangi aydadır?
A) Mart B) Haziran C) Eylül D) Aralık
(B)

(Tekin, 2000, s.159)

Çoktan seçmeli maddelerin yazılması zaman alıcıdır ancak uygulanması


ve puanlanmasının kolay ve kısa zaman alması, objektif puanlamayı müm-
kün kılması ve yukarıda değinilen bazı özellikler bu tür testleri pek çok du-
rum için kullanışlı hale getirmektedir. Çok soru sorulmasına elverişli oluşu
bu test türünün kapsam geçerliğini artırıcı bir özelliktir. Ayrıca üst düzey
bilişsel öğrenmeleri de (sentez düzeyi hariç) ölçmeye elverişlidir. Çok sayıda
soru sorabilme ve puanlamaya çok az hata karışması bu testlerden elde edi-
len puanların güvenirliğini artırmaktadır.
Ancak en başta da bahsedildiği gibi bu test türünün başarısı büyük öl-
çüde, yoklanmak istenen davranışın çoktan seçmeli maddelerle ölçülmeye
uygun oluşuna bağlıdır. Yani ölçülmek istenen davranış ya da kazanım bu
maddelerle ölçülmeye uygun değil ise çoktan seçmeli madde yazma da ıs-
rarcı olmamak gerekmektedir. Ayrıca iyi bir çoktan seçmeli madde yazmak
için ölçülecek davranışların ya da kazanımların bu tür maddelerle ölçülebilir
olmasına, madde yazım tekniklerinin (madde kökü ve seçenekler) çok iyi
bilinmesine ve uygulanmasına, öğrenci düzeyinin iyi bilinmesine ve dilin iyi
kullanılmasına bağlıdır.
106 Eğitimde Ölçme ve Değerlendirme

Doğru / Yanlış Maddeleri

Doğru yanlış maddeleri objektif madde türlerinden bir diğeridir. Bu tür


maddelerin puanlanması çoktan seçmeli maddelerde olduğu gibi tamamıyla
objektif olarak yapılabilmektedir. Doğru-yanlış maddeleri bazıları doğru bazı-
ları yanlış olan ifadelerden oluşmaktadır. Öğrenci verilen ifadeyi okur, doğru
ya da yanlışlığına karar verdikten sonra ifadenin doğru ya da yanlış olduğunu
belirtir. Cevaplama aşağıdaki farklı şekillerde yapılabilir: Örneğin;

1. ( ) Türkiye büyük millet meclisi 1920 yılında açılmıştır. (D)


2. Türkiye büyük millet meclisi 1920 yılında açılmıştır. (D)
( ) Doğru ( ) Yanlış

Yukarıdaki ifade doğru olduğu için öğrenciden, doğru olduğunu ifade-


nin başında verilen boşluğa yazması istenebilir. Ya da doğru ve yanlış seçe-
nekleri ifadenin altında verilerek öğrenciden bunlardan birtanesini işaret-
lemesi istenebilir. Doğru yanlış maddeler iki seçenekten oluşan bir çoktan-
seçmeli madde olarak ta düşünülebilir. Öğrenci iki seçeneğe sahiptir.
Doğru- yanlış maddelerinde dikkat edilmesi gereken en önemli nokta-
lardan birisi verilen ifadenin kesin olarak doğru ya da kesin olarak yanlış
olması gereğidir. İfadenin doğru ya da yanlışlığı tartışmalı olmamalıdır ya
da kişilere, durumlara göre değişmemelidir. Örneğin ( Tekin, 2000; s. 142):
( ) Kültür ile uygarlık arasında fark yoktur.
Bu ifade kimilerine göre doğru kimilerine göre yanlıştır. Dolayısıyla
böyle bir ifade doğru /yanlış maddesi olarak kullanılmamalıdır ya da bu
görüşün kime ait olduğu aşağıdaki şekilde belirtilmelidir:
( ) Atatürk’e göre kültür ile uygarlık arasında fark yoktur.
(D)
Bu şekilde vurgulandığında ifade kesin doğruluk kazanır.
Doğru yanlış maddeleri hazırlanması, uygulanması ve puanlaması aşa-
malarının oldukça kolay ve kısa zaman alması dolayısıyla kullanışlıdır. An-
cak, bu düzey maddelerle daha çok olgusal bilgiler yani alt düzey zihinsel
beceriler ölçülebilir. Bu nedenle dersin kazanımları arasında üst düzey zi-
hinsel beceriler var ise başka madde türlerinin kullanılması yoluna gidilme-
lidir.
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 107

Uygulanmasının, öğrenci tarafından cevaplanmasının az zaman alması


dolayısıyla çok sayıda soru sormak mümkündür. Buda kapsam geçerliğini
artırıcı bir özelliktir. Dersin hedefleri ya da kazanımları arasında üst düzey
zihinsel beceriler (uygulama, analiz, değerlendirme, sentez) var ise yalnızca
doğru/ yanlış maddelerinden oluşan bir testle kapsam geçerliğini sağlamak
mümkün olmayacaktır.
Çok sayıda soru sorulabilmesi ve puanlanmasının objektif oluşundan
dolayı puanlama güvenirliği yüksektir. Ancak aynı zamanda puanların gü-
venirliğini olumsuz etkileyen bir durum vardır; o da şans başarısıdır. Şans
başarısı nedeniyle puanlara yüksek oranda rasgele hatalar karışabilmekte-
dir. Öğrencinin verilen bir maddeyi bilmeden şansla cevaplaması olasılığı
%50’ dir. Buda çok yüksek bir orandır. Çeşitli yollarla test puanlarını şans
başarısından arındırmak mümkündür. Aşağıda bu yaklaşımlardan bahse-
dilmiştir:
1. Yaklaşım: Bunlardan bir tanesi çoktan seçmeli maddeler de olduğu
gibi düzeltme formülünü kullanmaktır.

Düzeltilmiş Puan = D – [ Y / ( a -1) ]


D: Doğru cevap sayısı
Y: Yanlış cevap sayısı
a : seçenek sayısı

Görüldüğü gibi aynı formül kullanılmaktadır ancak burada seçenek sa-


yısı 2 olduğu için payda 0 olmakta ve geriye aşağıdaki formül kalmaktadır:

Düzeltilmiş Puan = Doğru cevap sayısı – Yanlış cevap sayısı

Yukarıdaki verilen örnekte Ali’ nin 100 soruluk ve her sorunun bir pu-
an olduğu bir doğru/ yanlış testinden 70 doğru 30 yanlış yaptığını düşünür-
sek, Ali’nin bu testten alacağı puan aşağıdaki gibi hesaplanabilmektedir:

Ali’nin düzeltilmiş puanı = 70-30 = 40.


108 Eğitimde Ölçme ve Değerlendirme

Ali bu testten 40 puan almıştır. Daha önce bahsedildiği gibi eğer dü-
zeltme formülü kullanılacaksa bunun önceden öğrencilere söylenmesi ge-
rekmektedir.
2. Yaklaşım: Şans başarısını gidermenin diğer bir yolu da öğrencilerden
ifade yanlış ise yanlışlığın nerede olduğunu belirtmesini istemektir. Örne-
ğin;
Yönerge: Aşağıdaki ifadeyi okuyun ve parantez içine yanlış ise Y, doğru ise D
yazın. İfade yanlış ise yanlış olan yerin altını çizin.
( ) Test puanlarının rasgele hatalardan arınık olma derecesine geçerlik denir.

Öğrencinin, cevabını aşağıdaki gibi ifade etmesi beklenir:


(Y) Test puanlarının rasgele hatalardan arınık olma derecesine geçerlik denir.

3. Yaklaşım: Diğer bir yol ise, öğrenciye yanlış olduğunu düşündüğü


ifadede yanlışı belirtip doğrusunu yazmasıdır. Yukarıdaki örneği düşünür-
sek öğrencinin aşağıdaki şekilde cevap vermesi beklenir.

Yönerge: Aşağıdaki ifadeyi okuyun ve parantez içine yanlış ise Y, doğru ise D
yazın. İfade yanlış ise yanlış olan yerin altını çizin ve doğru olan ce-
vabı yazın..
(Y) Test puanlarının rasgele hatalardan arınık olma derecesine geçerlik denir.

“güvenirlik”

Doğru yanlış maddelerinin yazımında uyulması gereken bir takım ku-


rallar vardır. Bu kuralların en önemlilerinden birisi şudur; eğer ifade yanlış
ise yanlışlık küçük bir ayrıntıda olmamalıdır. Bu bir fark, rakam ya da nok-
talama işareti olabilir. Örneğin (Tekin, 2000; s.140 ):
( ) Fransız ihtilali 1798 de olmuştur. (Y)
Görüldüğü gibi bu yanlış bir ifadedir ve yanlışlık 8 ve 9 rakamlarının ye-
ri değiştirilerek gerçekleştirilmiştir. Doğru cevabı bilen bir öğrenci dikkat-
sizlik nedeniyle bunu 1789 olarak okuyabilir ve “D” diye işaretleyebilir. Bu
nedenle yanlışlık ifadenin küçük bir detayından öte önemli bir bölümünde
ya da ana fikrinde olmalıdır.
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 109

Diğer önemli bir nokta ise doğru/yanlış maddelerinin uzunluğu yaklaşık


olarak aynı olmalıdır. Bazen öğretmenler doğru olarak verdikleri ifadelerin
doğruluğu şüphe götürmesin diye ifadeleri çok fazla ayrıntılı yani uzun yaz-
maktadırlar. Bu durum öğrenciler tarafından fark edildiğinde bu ifadeleri
bilmeseler de doğru şekilde işaretlemelerine neden olabilmektedir.
Doğru/yanlış maddeleri alt düzüy zihinsel becerileri, olgusal bilgileri
ölçmeye elverişlidirler ve şans başarısı yüksektir. Bu nedenlerden dolayı
sınavlarda tek başına kullanılması sorunlu olacaktır. Öğretmenlerin diğer
madde türleriyle birlikte bunları kullanmaları tavsiye edilmektedir.

Eşleştirme Maddeleri

Objektif madde türlerinden bir diğeri ise eşleştirmeli maddelerdir. Bu


maddeler yardımıyla birbiriyle ilişkili olan bilgi öğeleri belli bir açıklamaya
doğrultusunda eşleştirilirler. Bir eşleştirme maddesi iki sütundan oluşmak-
tadır. Soruların verildiği sütuna “öncüller” cevapların ve çeldiricilerin veril-
diği kısma ise “seçenekler” adı verilir. Aşağıda buna bir örnek veriliştir (Te-
kin, 2000; s.131):
Yönerge: Aşağıdaki “A” sütununda, “objektif” test maddelerinin bazı özel-
likleri, “B” sütununda ise objektif test maddeleri vardır. Her bir
özellik ifadesinin solundaki çizgiye, o ifadeye en iyi uyan madde
tipinin önündeki harfi yazın. “B” sütunundaki her bir cevap, bir
kez ya da daha çok kullanılabildiği gibi, hiç kullanılmayabilir de.

“A” Sütunu “B” Sütunu


C 1. Öğrencilerin eksik ya da yanlış bilgi A. Eşleştirme sahibi oldukları yerleri maddesi
tanıma için en az kullanışlıdır.
D 2. Nesnel olarak puanlanması en güçtür B. Çoktan seçmeli madde
C 3. Doğru cevabın salt tahminle C. Doğru-yanlış maddesi
D 4. Hesaplama becerisini ölçmede en etkilidir. D. Kısa cevap bulunma olasılığı en büyütür
maddesi
B 5. Değişik türden davranışların ölçülmesinde
en kullanışlıdır.

Yukarıdaki maddede “A” Sütunu öncüller ve “B” Sütunu ise seçenek-


leri oluşturmaktadır. Yukarıda da görüldüğü üzere eşleştirme maddeleri her
zaman kısa bir yönerge ile başlarlar. Yönergede öğrencilere cevaplama iş-
lemini nasıl yapılacağı, aynı seçeneği birden fazla kullanıp kullanamayacak-
ları, gibi bilgiler verilir.
110 Eğitimde Ölçme ve Değerlendirme

Eşleştirme maddeleri daha çok yazarlar ve eserleri, ülkeler ve başkent-


leri, ülkeler ve ürettikleri tarım ürünleri gibi gruplamaya uygun olan konu-
ları ölçmeye müsaittir.
Dikkatle incelendiklerinde, eşleştirme maddeleriyle çoktan seçmeli
maddeler arasında önemli ortaklıklar görülmektedir. Örneğin yukarıdaki
madde aslında 5 tane çoktan seçmeli maddeye eşdeğerdir. Ancak benzer
konular ve davranışlar ölçüleceği zaman, özellikle de seçenek olarak hep
aynı bilgiler kullanılacak ise her bir soruda aynı seçenekleri tekrarlamak
yerine bunları birleştirip bir eşleştirme maddesi olarak kullanmak daha
uygundur. Bu sayede cevaplama zamanından ve özellikle de yerden tasarruf
edilebilir.
Puanlama işlemi yapılırken eşleştirme maddesindeki her bir öncüle ait
cevabın ayrı ayrı puanlanması gerekmektedir. Yukarıdaki örnekte her bir
öncülün bir puan olduğu varsayılırsa öğrenci toplam 6 puan alabilecektir.
Örnekte de görüldüğü gibi puanlamayı kolaylaştırmak için öğrenciler-
den cevapları her bir öncülün önünde verilen boşluğa yazması beklenir. Bu
şekilde daha kolay puanlama yapılabilir. Genel olarak öncüller için numara,
seçenekler için ise çoktan seçmelilerde olduğu gibi büyük harflerin kulla-
nılması okumayı ve algılamayı kolaylaştıracaktır.

Kısa Cevaplı Maddeler

Kısa cevaplı maddeler cevabı bir kelime, bir harf, bir işlem ya da en faz-
la bir cümle uzunluğunda olan maddelerdir. Yazılı yoklamalarla aralarında-
ki en önemli farklılıklardan birisi budur. Cevap uzunluğu bir cümleyi geçen
maddeler yazılı yoklama maddesi olarak ele alınmaktadır. İlerideki bölüm-
lerde yazılı yoklama maddelerinin diğer özellikleri üzerinde durulmaktadır.
Öğrencilerin boşluk doldurma olarak bildikleri maddeler de aslında kı-
sa cevap maddelerinin özel bir halidir. Aşağıda farklı formattaki kısa cevap
maddeleri verilmiştir.

Örnek 1.
Letonya’nın başkenti neresidir?
Riga

Örnek 2.
Atatürk samsuna kaç yılında çıkmıştır?
1919
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 111

Örnek 3.
İkinci dünya savaşı …………. yılında bitmiştir.
1918

Örnek 4.
Geçerliğin tanımı nedir?
Testin amacına hizmet etme derecesidir.

Örnek 5.
Aşağıda bir cümle verilmiştir. Verilen cümleye ait özne, nesne ve yüklemin
neler olduğunu aşağıda verilen A,B ve C seçeneklerinde bırakılan boşluk-
lara yazınız.
“Ayşe koşarak annesine sarıldı.”
A) ÖZNE:……………………………….
B) NESNE:…………………………….
C) YÜKLEM:…………………………….

Bu madde formlarının her biri kısa cevap maddesi olarak kullanılabilir.


Görüldüğü gibi cevap uzunluğu bir cümle ile sınırlandırılmıştır. Bu özelliği
madde yazımında kolaylık sağlayıcıdır. Ancak aynı zamanda üst düzey zihin-
sel becerilerinin ölçülmesini güçleştirici bir özelliktir.
Kısa cevaplı test maddelerinin yazılması, uygulanması ve puanlaması
kolay ve az zaman alıcıdır. Cevaplayıcılar açısından da, yazılı yoklamalara
kıyasla, çok daha fazla sayıdaki soru kısa sürede tamamlanabilmektedir. Bu
nedenle kalabalık öğrenci gruplarına uygulanması da mümkündür.
Kısa cevaplı testlerde, kavrama ve uygulama düzeyinde sorular hazır-
lamak mümkün olsa da cevap uzunluğunun sınırlandırılmış olmasından
dolayı değerlendirme ve sentez gibi üst düzey zihinsel becerilerin bu tür
maddelerle yoklanması uygun değildir. Çok sayıda soru sorulabilir olmasın-
dan dolayı kapsam geçerliği ve güvenirliği yüksektir. Puanlamanın nesnel
yapılabilmesi de güvenirliği artırıcı diğer bir etkendir. Yazılı yoklamalarla
kıyaslandığında kapsam geçerlikleri, az soru sormaya uygun olan yazılı yok-
lamalardan daha yüksektir. Aynı şekilde bu tür testlerin güvenirlikleri de
yazılı yoklamalardan daha yüksektir.
Puanlama objektifliği, cevabı cümle uzunluğunda olan maddelerde bir
miktar azalabilmektedir. Ancak, bu durum, puanlayıcının dikkati ve cevap
anahtarı kullanması ile büyük ölçüde önlenebilir.
112 Eğitimde Ölçme ve Değerlendirme

Kısa cevap maddelerinin yazımında dikkat edilmesi gerekli belli nokta-


lar vardır. Aşağıda bunlara değinilmiştir.
1. ►Boşluk doldurma türünde maddeler yazılırken bırakılan boşlukların
tüm maddelerde aynı uzunlukta olması gerekir. Boşluk uzunluklarının
cevaba göre uzun ya da kısa kullanılması, bilmeyen öğrencilere ipucu
oluşturacaktır.
2. ► Yine kısa cevaplı maddelerde bilmeyen öğrencilere ipucu olabilecek
diğer bazı unsurlar kullanılmamalıdır. Örneğin;
Örnek:
İnce Memed’in yazarı……………………..dir.

Burada yazarı bilmeyen öğrenci sonu “dir” ile biten yazarlardan birisini
yazması gerektiğini fark edip bilmediği halde doğru cevabı verebilecektir.
Bu soru şu şekilde verilmelidir:
Örnek:
İnce Memed……………………tarafından yazılmıştır.

Benzer şekilde aşağıdaki örnekte de ipucu teşkil eden bilgiler bulun-


maktadır:
Örnek:
1918 de biten birinci dünya savaşı ………….yıl sürmüştür.

Burada savaşın başlangıç tarihini bilen fakat kaç yıl sürdüğünü bilme-
yen bir öğrenci bitiş tarihi verildiği için doğru cevabı bulacaktır. Soru şu
şekilde yazılabilir:
Örnek:
Birinci dünya savaşı ………….yıl sürmüştür.

3. ► Tüm madde türlerinde olduğu gibi kısa cevaplı maddelerde de soru-


da neyin istendiği net, anlaşılır, yoruma açık olmayacak bir şekilde ve-
rilmelidir. Ayrıca cevabın tek ve tartışmasız olması gerekir.
Örnek:
Hangi şair Türk edebiyat dünyasında önemli izler bırakmıştır?
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 113

Bu madde hatalı yazılmıştır çünkü bu sorunun cevabı olabilecek çok sa-


yıda şair vardır. Bu nedenle soru tek bir cevabı olacak şekilde daha net ya-
zılmalıdır.
4. ► Çoktan seçmeli maddelerde de ifade edildiği gibi, biri diğerinin ce-
vabı olacak maddeler içirilmemelidir.
Örnek:
Belçika hangi kıtada yer almaktadır?

Örnek:
Bir Avrupa ülkesi olan Belçika’nın başkenti neresidir?

İkinci maddede, birinci maddenin cevabı verilmiştir. Bu nedenle ikinci


madde değiştirilerek sorulmalıdır.

5. ► Maddeler ders kitaplarından kelimesi kelimesine aynen alınarak


sorulmamalıdır. Bu durum öğrencileri kitabı ezberlemeye itecektir. Bu
durum da öğrenmeyi olumsuz etkileyen bir yaklaşımdır. Öğrenciler an-
lamadan, anlamı üzerinde düşünmeden ezberlemeye yöneleceklerdir.

6. ► Bir cümle içerisinde çok sayıda boşluk bırakılmamalıdır.


Örnek:
------------ ------------- ------------- bölmekle elde edilir.

Burada çok sayıda boşluk bırakıldığı için cevaplayıcının soruda neyin is-
tediğini anlaması mümkün değildir. Ayrıca farklı kelimelerle doldurarak
farklı cevaplar vermesi de mümkün olacaktır. Bu madde aşağıdaki şekilde
düzeltilebilir.
Örnek:
--------------- bölüneni bölene bölmekle elde edilir.

(Tekin, 2000; s. 129).


114 Eğitimde Ölçme ve Değerlendirme

7. ► Boşluk doldurma şeklinde verilen sorularda, boşluklar sayfanın bir


yanına yaslanmış olarak verilirse, sağına ya da soluna, ve alt alta gele-
cek şekilde düzenlenir ise bu, puanlamayı kolaylaştıracaktır.
8. ► Bir maddede birden fazla ayrıntı soruluyor ise her bir ayrıntıya ayrı
ayrı puan verilmelidir.
Örnek:
Aşağıda bir cümle verilmiştir. Verilen cümleye ait özne ve yüklemi boşluk-
lara yazın.
“Rüzgar, dalları bir sağa bir sola savuruyordu.”
A) ÖZNE:………………………………..
B) YÜKLEM:…………………………….

Burada özne ve yüklem olmak üzere 2 ayrı ayrıntı sorulmaktadır. Bu


nedenle her birine verilen cevap ayrı ayrı puanlanmalıdır.

Yazılı Yoklamalar

Yazılı yoklama maddeleri cevaplayıcının cevabı hatırlaması, organize


etmesi ve yazmasını gerektiren madde türüdür. Cevabı hatırlamayı ve yaz-
mayı gerektirmesi açısından kısa cevaplı maddelerle benzerlik göstermekte-
dir. Ancak ikisi arasında önemli farklılıklar vardır. Yazılı yoklamalar kısa
cevaplı maddelerden daha uzun ve daha ayrıntılı cevaplar gerektirmektedir.
Hatırlanacağı üzere kısa cevaplı maddelerde cevap uzunluğu bir cümle ile
sınırlandırılmıştı. Bir diğer önemli farklılık ise, yazılı yoklamalar kısa cevaplı
maddelerin aksine tüm üst düzey zihinsel becerileri ölçebilmektedir. Kısa
cevaplı maddelerde cevap uzunluğu sınırlandırılmış olduğu için ancak bazı
durumlarda kavrama ve uygulama düzeyi sorular hazırlanabilmektedir.
Daha üst düzey sorular için kullanışlı değildir. Oysa yazılı yoklamalarda
öğrenciye neredeyse tam bir cevap özgürlüğü tanındığı için karmaşık, zor
zihinsel beceriler çok daha etkili bir şekilde ölçülebilmektedir. Ancak bu tür
maddelerle öğrencilerden özgün, yaratıcı, kendisinden çok şey katabileceği
cevaplar alınabilmektedir.
Yazılı yoklama maddeleri yukarıda açıklanan madde türlerinin aksine
öznel madde türlerindendir. Bunun nedeni puanlanmasının objektif olarak
yapılmasının önündeki engellerdir. Çoktan seçmeli maddelerin yoğun ola-
rak kullanılmaya başlamasından önce yazılı yoklamalar en yaygın kullanılan
test türü olma özelliğine sahip idiler. Sık kullanılmasının en önemli neden-
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 115

leri hazırlanmasının kısa zaman alması, diğer maddelere göre, özellikle de


çoktan seçmeli maddeler, çok daha az teknik bilgi, beceri ve tecrübe gerek-
tirmesi ve az sayıda soru hazırlanmasının öğretmenler açısından kullanışlı
bulunmasıydı. Diğer bir deyişle tüm öğretmenler tarafından biliniyor olması
ve kullanışlılığı idi.
Yazılı yoklamalar özellikle bireyin kendisini yazılı olarak ifade etme
becerisinin ölçüldüğü Türkçe, edebiyat ya da yabancı dil dersleri için özel
bir öneme sahiptirler. Çünkü yazılı anlatım becerileri ancak yazılı yoklama
maddeleri ile ölçülebilmektedir. Bunun yanında okuduğunu anlama, sentez
yapma, muhakeme gücü gibi becerilerin ölçülmesi de yazılı yoklamalarla
ölçülmeye oldukça uygundurlar.
Yazılı yoklamaların diğer önemli bir üstünlüğü ise üst düzey zihinsel
becerileri (uygulama, analiz, değerlendirme, sentez) ölçmeye uygun olması-
dır. Öğrenciye tam bir cevap özgürlüğü tanıdığı için öğrenci, cevabı kendisi
yapılandırmakta, cevaplarına bireysel farklılıklarını, yaratıcılık ve özgünlüğü
katabilmektedir. Bu maddeler sayesinde öğrenci çeşitli alanlardaki sorunla-
ra orijinal ya da farklı çözümler üretebilme olanağı bulmaktadır. Dolayısıyla
bu tür davranışların ölçülmesi hedefleniyor ise, yazılı yoklamalar son derece
uygun sınav türlerindendir.
Örneğin;
Türkiye’nin içinde bulunduğu su sorununu çözmek için nasıl bir çözüm
önerebilirsiniz?

Bu soru şu sorununa yönelik yaratıcı, yeni çözümlerin önerilmesine


olanak sağlayacak yapıdadır. Böyle bir soru sayesinde cevaplayıcıların yara-
tıcılık güçlerini ve bilgi birikimlerini kullanarak farklı çözüm önerileri bul-
maları mümkün olacaktır.
Tüm yazılı yoklama soruları bireylere aynı oranda cevap özgürlüğü ta-
nımazlar. Yazılı yoklamalar öğrenciye verdiği cevap özgürlüğüne bağlı ola-
rak iki grupta incelenmektedirler (Tekin, 2000; Turgut, 1990):

1. Sınırlı cevap soruları


2. Serbest cevap soruları
Sınırlı cevap sorularında öğrenciler verecekleri cevabın içeriği, nasıl ya-
pılandıracağı, ne ayrıntıda olacağı, uzunluğu gibi konularda sınırlandırılır-
lar.
116 Eğitimde Ölçme ve Değerlendirme

Örneğin;
Lozan antlaşmasının maddelerini yazınız.

Burada öğrencinin vereceği cevabın içeriği, detayı belli ve sınırlıdır.


Bu tür sorular bir yanıyla kısa cevap maddelerine benzeyebilirler ancak
daha öncede değinildiği gibi kısa cevap maddeleri cevap uzunluğu bakımın-
dan en fazla bir cümle ile sınırlandırılmışlardır. Oysa sınırlı cevap soruların-
da böyle bir sınırlama yoktur. Lozan antlaşmasının madde sayısının ne ol-
duğuna göre uzunluk değişmekte, gerekirse sayfalarca da olabilmektedir.
Sınırlı cevap sorularında ana sınırlılık sayfa uzunluğundan ziyade cevabın
içeriğine ve ayrıntılarına yöneliktir.
Sınırlı cevap sorularının aksine serbest cevap sorularında, öğrenci çok
büyük ölçüde serbest bırakılmıştır. Konu bellidir ancak cevap içeriğinin
nasıl olması, ne kapsamda olması, hangi detaylara yer verilmesi gerektiği,
cevabın nasıl yapılandırılacağı gibi konular da cevaplayıcıya serbestlik ta-
nınmıştır. Yaratıcılık gücünü ölçmeye ya da sentez yaptırmaya yönelik öğ-
renme ürünlerini ölçmeye uygun sorular bu tür sorulardan oluşmaktadır.
Çünkü öğrenci bilgi ve tecrübeleri ölçüsünde orijinal fikirler, görüşler, ya da
modelleri bu tür sınavlarda ifade edebilme olanağına sahiptirler.
Örneğin;
Çöplerin geri dönüşüm yoluyla ekonomiye kazandırılması alışkanlığını
Türk insanına kazandırmak için nasıl bir proje önerirsiniz.

Bu soru öğrenciye cevabı konusunda tam bir serbestlik tanımıştır. Öğ-


renciye yazması gereken konu verilmiştir ancak önereceği model, bu mode-
lin hangi öğelerden oluşacağı, hangi kaynakları, sosyal kültürel ya da eko-
nomik etmenleri kullanacağı, bütün bunları bir araya nasıl getirip yapılandı-
racağı gibi pek çok konuda ve ne uzunlukta yazacağı konusunda öğrenci
tam bir serbestliğe sahiptir. Bu nedenle de öğrenci yaratıcılık gücünü kul-
lanmada özgürdür. Burada öğrenci daha önce düşünülmemiş olan orijinal
çözüm yolları ya da önerileri sunabilmektedir.
Yazılı yoklama maddelerinin çeşitli sınırlılıkları vardır. Bu sınırlılıklar-
dan birisi soru sayısının azlığıdır. Kapsam geçerliği ölçülmesi gereken kaza-
nımların testte yeterince içirilmesine bağlıdır. Oysa soru sayısı azaldığı za-
man pek çok kazanımın ölçülmesi mümkün olmamaktadır. Bu durum yazılı
yoklamaların kapsam geçerliğini düşürmektedir.
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 117

Diğer önemli bir sınırlılık ise puanlanmasının objektif yapılmasındaki


güçlüklerdir. Verilen cevaplar çoktan seçmeli maddeler de olduğu gibi ta-
mamıyla doğru ya da yanlış olmayacağı için, cevabın doğruluk derecesine
puanlayıcı karar vermek zorundadır. Bu nedenle, bir cevaba farklı puanlayı-
cıların farklı puanlar vermesi mümkündür. Aynı puanlayıcının farklı iki
zamanda aynı maddeyi farklı puanlaması da mümkündür. Bundan dolayı
puanların güvenirliği ve geçerliği olumsuz etkilenmektedir.
Bunlara ek olarak, puanlayıcı, puanlama esnasında uyulması gereken
kurallardan habersiz olur ise cevaplayıcının cevabını puanlarken isminden,
yazısının güzelliğinden, kağıt düzeninden, öğrencinin sınıf içi davranışların-
dan, aile özelliklerinden ve akla gelebilecek pek çok etmenden etkilenebilir.
Dolayısıyla, yazılı yoklamalar çoğu zaman sistematik hatalara açıktır.
Bunları önlemek ya da en aza indirgemek puanlayıcının yani öğretme-
nin elindedir. Öğretmenin yapacağı her türlü yanlı puanlama sistematik
hataları oluşturmaktadır. Bunlar yukarıda bahsedildiği gibi yazı güzelliğin-
den öğrencinin kişisel ya da aile özelliklerine kadar ders dışı pek çok faktör
olabilir. Söz konusu ders Türkçe dersi ise yazı güzelliği aranan bir özelliktir
fakat bu özelliğin dersin hedefi ya da kazanımı olmadığı diğer derslerde yazı
güzelliği için not kırılması sistematik bir hatayı oluşturmaktadır. Öğretmen-
lerin puanlama sırasında bunların bilincinde olması gerekmektedir.
Bu tür hataları önlemenin ve yazılı yoklamaların geçerlik ve güvenirli-
ğini artırmanın çeşitli yolları vardır. Bunlar:
1. ► Yazılı yoklama soruları hazırlanmadan önce bir test planı yapılmalı-
dır. Bu bütün test türleri için geçerlidir. Yani ne tür bir test hazırlanırsa
hazırlansın (yazılı yoklama, çoktan seçmeli, kısa cevaplı, vb.) öncesinde
mutlaka bir test planı yapılmalıdır. Burada sınavın ne amaçla yapıldığı,
hangi kazanımların (ya da hedef ve davranışın) ölçülmesinin planlandı-
ğı, bu kazanımların hangi konuyla bağlantılı olarak ölçüleceği (belirtke
tablosu), madde sayısı, her bir maddenin kaç puan olacağı gibi konular
netleştirilmelidir.
2. ► Yazılı yoklamalarda zamanın önemli bir kısmı cevapları yazmaya
ayrılır bu nedenle de çok soru sorulamaz. Bu, testin geçerlik ve güvenir-
liğini düşürücü bir etkendir. Elde edilen puanların geçerliğini artırmak
için test hazırlanırken dersteki kritik, önemli olan kazanımlara ilişkin
sorulara öncelik verilmelidir.
Ayrıca, uzun cevaplı az soru yerine kısa cevaplı çok soru sorularak tes-
tin kapsam geçerliği artırılabilir. Soru sayısı arttığı için testin güvenirliği de
artacaktır.
118 Eğitimde Ölçme ve Değerlendirme

3. ► Puanlama hatasını aza indirmenin en etkili yollarından biri cevapla-


rın önceden hazırlanmış bir cevap anahtarı yardımıyla puanlamasıdır.
Cevap anahtarı öğrenciden istenen cevapları içeren bir puanlama kıla-
vuzudur. Cevap anahtarında nelerin istendiği, hangi ayrıntıların isten-
diği, cevabın nasıl organize edilmesi gerektiği, hangi ayrıntıya kaç puan
verileceği gibi öğretmene puanlama sırasında yol gösterici olacak tüm
detaylar belirtilmelidir. Cevap anahtarı öğretmenin işini kolaylaştırıcı,
muhtemel hataları azaltıcı, öğretmene okumada zaman kazandırıcı bir
kılavuzdur.
Cevap anahtarı hazırlamak özellikle sınırlı cevap sorularında kolaydır.
Örneğin, yukarıda verilen örnekte “Lozan antlaşmasının maddelerini yazı-
nız.” sorulmuş idi. Öğretmen cevap anahtarı hazırlarken antlaşma maddele-
rini alt alta yazar ve öğrencinin bu maddelerin kaç tanesini yazdığına, doğru
yazıp yazmadığı gibi noktalara dikkat ederek öğrenciye bir not verir.
Cevap anahtarını serbest cevap maddeleri için hazırlamak daha zordur.
Çünkü, bu tür sorularda kesin bir cevap yoktur. Öğrenciler doğru kabul
edilebilecek farklı farklı cevaplar verebilirler. Bu tür soruların önemli bir
bölümü kompozisyon formatında yazıldığı içinde bunlara muhtemel cevap-
lar hazırlamak zordur. Örneğin “Sanatı eğitim sistemimize nasıl entegre edebi-
liriz, tartışınız” sorusunda olduğu gibi. Öğrenciler çok farklı fakat hepside
kendi içinde mantıklı, olan cevaplar verebilirler. Bu nedenle öğretmenin
muhtemel her cevabı anahtara yazması olanaklı değildir. Fakat bunun yeri-
ne, cevapta istenen belli özellikleri göz önünde bulundurarak, cevap kağıtla-
rı en iyiden en kötüye doğru sınıflandırılarak puanlanabilirler. Tekin (2000)
sınıflamada üçlü ya da beşli bir sınıflama önermiştir. Yani kâğıtlar İyi-orta-
kötü gibi üç sınıfa ayrılabilirler ya da çok iyi-iyi-orta-kötü ve çok kötü gibi
beşli bir sınıfa ayrılabilirler. 5’ li bir not sistemi kullanıldığını farz edelim (A,
B, C, D ve E gibi). Bu durumda, “çok iyi” olanlara A, “iyi” olanlara B, “or-
ta” olanlara C, “kötü olanlara” D ve “çok kötü” olanlara E verilebilir.
Peki, bu sınıflara ayırırken hangi kriterler göz önünde bulundurulmalı?
Bu kriterler yukarıda da belirtildiği gibi cevabın soruna bir çözüm getirip
getirmediğine, düşüncenin orijinalliğine, mantıklı, uygulanabilir bir öneri
olup olmadığına, cevabın kendi içinde tutarlı olup olmadığına vb. ölçütlere
bakılarak öğrencinin bu ölçütlerin her birinde ne kadar başarılı olduğuna
bakılır ve her bir ölçüt için ayrı ayrı puanlanabilir. Bu puanların toplamı, o
öğrencinin bu sorudan alacağı toplam puanı verir. Bu şekilde detaylı bir
puanlama yerine, cevabın bütünü için tek bir not verilerek de puanlama
yapılabilir. Ancak bu şekilde yapılırsa, her bir öğrencinin yukarıda bahsedi-
len her bir ölçüt için ne denli başarılı olduğu saptanamaz. O öğrencinin
hangi noktaları iyi yaptığı hangi noktalarda yetersiz olduğu saptanmamış
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 119

olur. Detaylı puanlamada, öğretmen her bir öğrenciye ayrıntılı olarak geri
bildirim verebilir ya da öğretimde gerekli düzeltmeleri yapabilir.
4. ► Cevapların okunması sırasında isim bölümleri kapatılarak okunma-
lıdır. Bu, öğretmenin öğrencilerin kimliklerinden etkilenmesini önler.
5. ► Cevaplar okunurken önce tüm öğrencilerin birinci soruya verdikleri
cevap okunmalı sonra aynı şey diğer sorular içinde yapılmalıdır. Bunun
sağladığı çeşitli yararlar vardır:
a) Öğretmenlerin cevapları okurken öğrencinin ilk cevabından etki-
lendikleri gözlenmiştir. Şöyle ki, öğretmen, öğrencinin ilk soruya
verdiği cevap çok iyi ise sonraki cevaplar kötü dahi olsa daha iyim-
ser notlar verme eğilimi gösterebilmektedirler. Aynı şekilde öğren-
cinin ilk cevabı kötü ise sonraki sorulara verdiği cevaplar iyi bile ol-
sa daha kötümser notlar verebilmektedirler. Önce tüm öğrenciler
için birinci soruyu okuma ve diğerlerini de aynı şekilde okuma bu
olumsuzluğu büyük ölçüde engelliyecektir.
b) Öğretmen farklı farklı soruları okuyarak puanlama yaptığında, her
defasında farklı bir konu ya da ayrıntıya yoğunlaşmak zorundadır.
Bu nedenle hangi noktalara dikkat edilmesi gerektiği konularında
daha fazla hata yapacaktır. Tüm öğrenciler için aynı soruya verilen
cevabı okumada öğretmen daha az hata yapacaktır ve okuma hızı
artacaktır.
6. ►Öğretmen puanlama yaparken, eğer Türkçe ya da Yabancı dil beceri-
lerinin ölçüldüğü bir ders değil ise, yazı güzelliği, akıcılık, sayfa düzeni,
dilbilgisi gibi noktalardan etkilenmemesi gerektiğini aklında bulundur-
malıdır. Örneğin, coğrafya dersinde sorulan aşağıdaki soruda verilen
cevabın doğruluğu önemlidir ama yazı güzelliği, dilbilgisi vb. etkenler
önemsizdir çünkü o soruda ölçülmek istenen öğrenmeler onlar değildir.
Örnek
Dicle ve Fırat nehirlerinin, Türkiye’nin su politikası açısından taşıdığı öne-
mi tartışın.

Yukarıda da belirtildiği gibi yazılı yoklamaların okunması çok zaman


alıcı bir iştir. Bu nedenle hangi durumlarda yazılı yoklama türü testlerin
uygun olacağına iyi karar verilmelidir. Buna karar verirken şu noktalara
dikkat edilebilir:
1. ► Ölçülecek kazanım ancak bu tür bir testle ölçülüyorsa o zaman kul-
lanılması kaçınılmazdır. Örneğin yukarıda “Sanatı eğitim sistemimize
120 Eğitimde Ölçme ve Değerlendirme

nasıl entegre edebiliriz, tartışınız” sorusunda öğrencilerin konuyu tartış-


ması ve mümkün olduğunca özgün bir takım önerilerde bulunması is-
tenmektedir. Dolayısıyla burada söz konusu olan, ölçülmek istenen be-
ceri en iyi yazılı yoklama ile ölçülebilecektir. Çünkü öğrenciler kendile-
rine özgü fikirleri ya da önerileri ancak bu şekilde ifade edebilecekler-
dir. Oysa daha önce verilen “Lozan altlaşmasının maddelerini yazınız”
sorusu bir çoktan seçmeli madde olarak da sorulmaya uygundur. Örne-
ğin: Aşağıdakilerden hangisi Lozan Antlaşmasının maddelerinden birisi
değildir? Bu soruda öğrenci antlaşma maddelerini bilmelidir ki hangisi-
nin bunlardan biri olmadığına karar verebilsin. Dolayısıyla ısrarla yazılı
yoklama sorusu formatında sorulması gerekmez.
2. ► Eğer öğrenci sayısı az ise, yazılı yoklama yapılabilir. Öğrenci sayısı
kalabalık ise okuması zaman alacağından öğretmen açısından kullanışlı
olmaz. Elbette, yukarıda bahsedildiği gibi ölçülecek kazanımların ne
olduğu test türüne karar vermede birincil ölçüttür.
3. ► Eğer öğretmenin soru hazırlamaya vakti yok fakat sınavdan sonra
okumaya ayıracak zamanı var ise yine yazılı yoklama yapılabilir. Örne-
ğin, bir çoktan seçmeli test için uzun bir hazırlama zamanının olması
gerekir.
4. ► Eğer sınav sonuçları öğrenciler için çok önemli bir amaç için kullanı-
lacaksa (örneğin; lise ya da üniversiteye öğrenci seçme gibi) o zaman
mutlaka objektif test türleri kullanılmalıdır. Bu durumlar için yazılı
yoklama uygun olmayacaktır. Çünkü bir çoktan seçmeliyle kapsam ge-
çerliği ve güvenirliği daha yüksek bir test hazırlanabilir. Böyle bir test-
ten elde edilen puanlar öğrenci hakkında daha gerçekçi bilgiler verebi-
lir.
Her test türü gibi yazılı yoklamalar da, ancak uygun durumlarda ve ha-
zırlanmasında, uygulanmasında ve puanlanmasında uyulması gereken kural-
lar dikkate alınarak gerçekleştirilirse güvenilir ve geçerli puanlar üretebile-
ceklerdir.

Sözlü Sınavlar

Sözlü yoklamalar, özellikle öğrencinin kendisini sözel olarak ifade etme


becerisinin ölçüldüğü dil derslerinde çok önemli bir yere sahiptir. Çoğu
zaman öğrencinin tahtaya kaldırılıp, bir ya da bir kaç sorunun sorulup öğ-
renciden sözel olarak cevabın alınması şeklinde gerçekleştirilir. Matematik
vb. gibi derslerde ise öğrencinin cevabı tahtaya çözmesinden sonra sözel
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 121

olarak açıklama yapması şeklinde gerçekleştirilir. Sözlü sınavlar kullanılan


en eski sınav türüdür. Çok eski çağlardan günümüze değin kullanılmaktadır.
Sözlü sınavlar da yazılı yoklamalar gibi sübjektif test türlerindendir.
Puanlamanın objektif yapılmasının önünde güçlükler bulunmaktadır. Sözlü
yoklamalar ile yazılı yoklamalar arsında pek çok ortak özellik vardır. Her
ikisinde de öğrenciye belli oranda cevap özgürlüğü verilmiştir. Öğrenciden
cevabını kendisinin yapılandırıp sunması beklenir.
Sözlü sınavlarda sorulan soru sayısı çoğu zaman 1 ya da 2 ile sınırlıdır.
Bu da sınavın kapsam geçerliğini ve güvenirliğini düşürücü en önemli özel-
liklerden birisidir. Yine puanlamayı, yazılı yoklamada bahsedilen başarı dışı
bazı faktörler etkileyebilmektedir. Buna öğrencinin sınav sırasında ki heye-
canından kaynaklanan hatalar eklendiğinde puanların geçerlik ve güvenirli-
ği daha fazla sorgulanır hale gelmektedir.
Bunları en aza indirmenin değişik yolları vardır. Öncelikle öğretmenin
başarı dışı etmenlerden ( öğrencinin kimlik özellikleri, cinsiyeti, aile özellik-
leri, vb.) etkilenmemesi gerektiğinin farkında olması gerekir. Yine hangi
soruların sorulacağı derse gelmeden önce saptanmalıdır. Az sayıda soru
sorulabileceği için bunların kritik davranışlar ile ilişkili sorular olması gere-
kir. Ancak her bir öğrencinin tek tek sözlü yapıldığı düşünülürse her bir
öğrenciye sorulan sorunun düzeyi, niteliği değişiklik göstermektedir. Bu
durum, iki ayrı öğrenci aynı notu alsalar bile bu notları çok farklı bilgilerden
almaları dolayısıyla onların kıyaslanamaması durumunu da doğurmaktadır.
Sözlü sınavından önce küçük bir cevap anahtarının hazırlanması ve
hangi soruların sorulacağı, hangi ayrıntıların isteneceği, hangi ayrıntıya kaç
puan verileceğinin belirtilmesi puanlama hatalarını en aza indirecektir.
Sözlü sınavlarının geçerlik ve güvenirliği çoğu durumda düşük olduğu
için tek bir sözlü yapıp not vermek yerine dönem boyunca birden fazla sözlü
yapıp bunların toplamını tek bir not şeklinde vermek daha doğru olacaktır.
Ayrıca geçerlik ve güvenirlik zaafından dolayı sözlü notunun yüzdelik değeri
diğer sınavlara kıyasla daha düşük tutulmalıdır. Bunun farklı olmasının ge-
rektiği özel durumlar olabilir.

Ödevler

Ödevler de öğrenci başarısının ölçülmesi, izlenmesi ve öğrenmelerin


pekişmesi amacıyla yoğun olarak kullandığımız ölçme yöntemlerinden biri-
sidir. Ödevler öğretimi yapılan bir dersin uygulaması ya da pekiştirilmesi
amacıyla verildiği gibi, öğrenciyi çeşitli bilgileri keşfetmeye, araştırmaya
122 Eğitimde Ölçme ve Değerlendirme

itmek amacıyla da kullanılmaktadır. Ödev verilmesinde en çok dikkat edil-


mesi gereken hususlardan birisi ödevlerin derste kazandırılmak istenen
kritik davranış ya da becerilerle ilişkili olması gereğidir. Bu durum aslında
yukarıda bahsedilen test türleri içinde geçerlidir.
Ödevlerin niteliği kadar niceliği de önemlidir. Ülkemizde ödev verme
sıklığına baktığımızda çok fazla sayıda olduğu görülmektedir. Öğrenmenin
önemli bir bölümü okullardaki aktivitelerle, buralarda gerçekleştirilmelidir.
Öğrenciler, evde geçirdikleri zamanın önemli bir bölümünü oyun, sosyal-
leşme, hobiler yerine ödevler ile geçirmek zorunda kalmaktadırlar. Bu, öğ-
rencileri gelişimleri için gerekli olan diğer aktivitelerden alıkoymakta ve
okuldan uzaklaştırmaktadır. Bu durum, öğretmenler hiç ödev vermemeli ya
da gereğinden az ödev vermeli anlamına gelmemelidir. Öğretmenler vere-
cekleri ödevleri seçerken, bu ödevlerin söz konusu öğrenmeler için gerçek-
ten önemli ve gerekli ödevler olduğundan emin olmalıdırlar. Ayrıca verilen
ödevler öğrenciye evde başka etkinliklere zaman ayırma imkânı verecek
yoğunlukta olmalıdır.
Yukarıda bahsedildiği gibi verilen ödevin niteliği çok önemlidir. Öğ-
renciyi araştırmaya, okumaya sevk eden ödevler bir yerden direk alıntı vb.
şekilde yapmayı gerekli kılan ödevlerden çok daha değerlidir. Ödevler ders-
te öğretilen bilgi ve becerilerin pekişmesi kadar öğrenciyi araştırmaya, yara-
tıcılığa sevk eder nitelikte de olmalıdır. Bu şeklide verilen ödevler bu etkin-
liklerden alınan puanların daha güvenilir ve geçerli olmasına katkı sağlaya-
caktır.
Ödevlerin puanlanmasında bazı noktalar göz önünde bulundurulmalı-
dır. Dönem boyunca öğrenciler ders içi ve ders dışı pek çok akademik etkin-
lik gerçekleştirmektedirler. Çeşitli sınavlar, ödevler ve projeler gibi etkinlik-
lerden alınan notlar öğrencilerin geçme notunu oluşturmaktadır. Bu etkin-
liklere ya da sınavlara not verirken geçerlik ve güvenirliği yüksek olan etkin-
liklere diğerlerine kıyasla daha fazla ağırlık verilmelidir. Örneğin dikkatli
hazırlanmış bir yazılı yoklama sınavının güvenirliği ve kapsam geçerliği, 1 ya
da 2 soru sorularak yapılmış bir sözlü sınavından çoğu zaman daha yüksek-
tir. Çünkü bir yazılı sınavda daha çok soru sorulabilir (kapsam geçerliği) ve
özellikle bir cevap anahtarı kullanılarak ve belli hususlara dikkat edilerek
yapılmışsa, puanlamasına daha az hata karışır.
Benzer şekilde, verilen bir ödev üzerindeki öğretmen kontrolü çoğu
zaman azdır. Çünkü öğrenci ödevin önemli bir bölümünü ya da tamamını
okul dışında tamamlamaktadır. Verilen ödevin içeriğine, niteliğine bağlı
olmakla beraber öğretmen ödevin öğrenci tarafından yapıldığından dahi
emin olamayabilmektedir. Bu ve benzer nedenlerden dolayı , ödevin niteli-
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 123

ğine göre değişmekle birlikte, ödevlerin güvenirlik ve geçerlikleri düşük


olabilmektedir. Bu nedenle öğrenciye yalnızca bir ödev vermek yerine, dö-
nem boyunca birden fazla ödev verip bunların toplamını tek bir nota dönüş-
türmek ya da her bir ödevin not ağırlığını düşük tutarak geçme notunu çok
fazla etkilemesini engellemek yerinde olacaktır. Elbette ki ödevin hangi
kazanımları ya da davranışları ölçtüğü, kapsamı, özgünlüğü, zorluğu gibi
etkenlere göre ödevin not ağırlığının ne olması gerektiği konusuna karar
verilmelidir.

Özet
Özetle ifade etmek gerekirse hangi tür ölçme aracı olursa olsun bir ölç-
me aracı ya da testi hazırlamadan önce mutlaka bir test planı yapılması ge-
reklidir. Bu planda aşağıdaki noktalar aydınlatılmalıdır:
➣ Testin ne amaçla yapıldığı netleştirilmelidir. Bu öğrenme eksiğini ve
yanlışlarını giderme, öğrenciyi uygun kura ya da sınıfa yerleştirme
(formatif değerlendirme) olduğu gibi öğretimi yapılan konulardan
not verme de (summatif değerlendirme) olabilir.
➣ Ayrıca planda hangi kazanım ya da davranışın hangi konularla iliş-
kili olarak ölçüleceği bir belirtke tablosuyla netleştirilmelidir.
➣ Kaç soru sorulacağı kararlaştırılmalıdır. Bu belirtke tablosuna bakı-
larak ta netleştirilebilir.
➣ Hangi tür maddelerin kullanılacağı netleştirilmelidir.
➣ Hangi soruya kaç puan verileceği belirtilmelidir.
➣ Düzeltme formülü uygulanıp uygulanmayacağına karar verilmelidir.
➣ Test süresi netleştirilmelidir.
Yapılacak olan bir test planı güvenirliği ve geçerliği olan bir testin hazır-
lanmasını büyük ölçüde sağlayacaktır. Sınavın uygulanması ve puanlanması
sırasında alınacak olan diğer tedbirlerle birlikte geçerli ve güvenilir bir sınav
büyük ölçüde garantilenmiş olacaktır.
Yukarıda da belirtildiği gibi her bir test türünün taşıdığı avantajlar ve sınır-
lılıklar bulunmaktadır. Kullanım esnasında bunlar göz önünde bulundurulma-
lıdır. Her test türünün ideal olduğu yer ve durumlar vardır. Hangi tür kazanım
ya da davranışların ölçüleceği sınav türünü belirlemede ki en önemli etkendir.
Bunun dışında öğrenci sayısı, zaman, ölçülecek kazanım sayısı, öğrencinin yaşı
ve düzeyi gibi faktörlerde düşünülerek hangi sınav türünün uygun olduğuna
karar verilmelidir. Hangi tür test kullanılacak olursa olsun bu türün hazırlan-
ması, puanlamasına ilişkin kurallar mutlaka izlenmelidir.
124 Eğitimde Ölçme ve Değerlendirme

Kullanılan farklı test türlerinin ne derece güvenilir ve geçerli oldukları


dikkate alınarak farklı yüzdelikler halinde değerlendirmeye katılmalıdırlar.
Örneğin sözlü sınavlar dikkatli yapılan bir yazılı yoklamadan daha az güveni-
lir ve geçerlidir. Dolayısıyla öğrencinin geçme notuna daha az etki etmelidir.
Elbette sözlü sınavın çok daha önemli olduğu alan ve durumlar olabilir.
Ölçülecek davranış ya da becerilerin çeşitliliği yanında öğrencilerin öğ-
renme ya da bilişsel sitilleri de bizim dönem boyunca aynı test türü yerine
farklı test türlerini dönüşümlü kullanmamızı gerektirir. Unutulmaması gere-
ken bir nokta da aynı testte bir den fazla madde türünü kullanabileceğimiz-
dir. Aynı sınavda bazı soruları çoktan seçmeli, bazılarını kısa cevap, bazılarını
yazılı yoklama sorusu şeklinde sorabiliriz. Bu sayede hem farklı davranış
türlerini, düzeylerini ölçmüş, hem de testin geçerlik ve güvenirliğini artırmış
ve farklı öğrencilere hitap etmiş oluruz. Hangi test ya da madde türü kullanı-
lırsa kullanılsın önemli olan ortaya çıkacak puanların o öğrencilerin gerçek
başarı durumlarını yansıtabilir nitelikte olmasıdır. Bu da ancak yukarıda de-
ğinilen hususlara dikkat edilmesi durumunda mümkün olacaktır.
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 125

Kaynakça
Çakan, M. (2000). Interaction between cognitive style and assessment
approaches. Unpublished Dissertaion, Louisiana State University.
Çakan, M. (2005). Eğitimde Ölçme - Değerlendirme ve Bu Alandaki Yeni
Yönelimler. A. Altun ve S . Oklun. (Eds).
Özçelik, D.A. (1992). Ölçme ve Değerlendirme. (2. Baskı). ÖSYM Yayınları, Ankara.
Lu, C. & Suen, H. K. (1995). Assessment approaches and cognitive styles. Journal of
Educational Measurement, 32, 1-17.
Nightingale P, Wiata IT, Toohey S, Ryan G, Hughes C, Magin D. (1996). Assessing
Learning in Universities. Sydney: University of New
South Wales Press.
Tekin, H. (2000). Eğitimde Ölçme ve Değerlendirme. (14. Baskı). Yargı Yayınevi,
Ankara.
Turgut, F. (1990). Eğitimde Ölçme ve Değerlendirme Metotları. (7. Baskı). Saydam
Matbaacılık, Ankara.

Sorular

1. Test türlerinden hangileri öğrencilerin yaratıcılık gücünü ölçmek


açısından daha etkilidir? Neden?
2. Test türlerini geçerlikleri açısından tartışınız.
3. Test türlerini güvenirlikleri açısından tartışınız.
4. Test hazırlayan bir öğretmen geçerliği ve güvenirliği yüksek bir test
hazırlamak için hangi tedbirleri almalıdır? Açıklayınız.
5. Hangi test türünün kullanılması gerektiğine karar vermede hangi
ölçütler göz önünde bulundurulmalıdır? Açıklayınız
126 Eğitimde Ölçme ve Değerlendirme

Doç. Dr. Mehtap ÇAKAN

Lisans derecesini 1991 yılında Hacettepe Üniversitesi Eğitimde Ölçme


ve Değerlendirme Anabilim dalında tamamladı. Yüksek lisans ve doktora
derecesini 1994- 2000 yılları arasında ABD de bulunan Louisiana State
University, Educational Measurement and Evaluation bölümünde tamamla-
dı. 2000 yılında Abant İzzet Baysal Üniversitesi, Eğitimde Ölçme ve Değer-
lendirme Anabilim dalında yardımcı doçent olarak görev yapmaya başladı.
2006 yılında doçentlik ünvanını aldı. Yazarın öğrenci başarıları, geniş ölçekli
başarı tesleri, öğrenme sitilleri ve akademik başarı arasındaki etkileşim ve
ölçme ve değerlendirme alanına ilişkin diğer konularda çeşitli yabancı ve
yerli makaleleri, kongre bildirileri ve kitap çalışmaları bulunmaktadır. Yazar
halen Abant İzzet Baysal Üniversitesi, Eğitimde Ölçme ve Değerlendirme
Anabilim dalında öğretim üyeliği görevine devam etmektedir.
5. Bölüm

ÖĞRENCİ PERFORMANSININ
DEĞERLENDİRİLMESİNDE
KULLANILAN DİĞER ÖLÇME
ARAÇ VE YÖNTEMLERİ
Devrim ALICI
Mersin Üniversitesi

Kazanımlar
Bu bölümün sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir:
 Öğrencilerin öğrenmelerini ve gelişimlerini izlemek amacıyla
performans görevleri hazırlayabilme; proje örnekleri sunabilme
 Öğrencilerin öğrenmelerini ve gelişimlerini izlemek amacıyla gözlem
ve görüşmeler yapabilme
 Öğrencilerin performans görevlerini, araştırma projelerini ve gelişim
dosyalarını değerlendirmek için hangi ölçme araçlarını
kullanabileceğine karar verebilme ve bu araçları ölçme tekniklerine
uygun bir biçimde geliştirebilme
 Öğrencilerin değerlendirme sürecine katılımının önemini
kavrayabilme
 Öğrencilerin değerlendirme sürecine katılımını sağlamak üzere,
öğrencilerle birlikte ilgili kazanım ve becerilerin değerlendirme
ölçütlerini belirleyebilme; belirlenen bu ölçütleri kullanarak öz
değerlendirme, akran değerlendirme ve grup değerlendirme
formlarını geliştirebilme
 Kontrol listeleri ve dereceleme ölçekleri arasındaki temel farklılıkları
kavrayabilme.
 Amacına uygun olarak kontrol listeleri ve dereceleme ölçekleri
hazırlayabilme
128 Eğitimde Ölçme ve Değerlendirme

 Başka bir eğitimci tarafından hazırlanan bir ölçme değerlendirme


formunu, ilgili ölçme aracında bulunması gereken nitelikler
bakımından inceleyerek değerlendirebilme

Konu Başlıkları

 Giriş
 Öğrenci Performansının Değerlendirilmesi
 Öğrenci Performansını İzlemeye Yönelik Çalışmalar
 Gözlem
 Öğrencilerin Değerlendirme Sürecine Katılımı
 Öz Değerlendirme
 Öğrenci Performansının Değerlendirmede Kullanılabilecek Ölçme
Araçları
 Özet
 Kaynakça
 Sorular
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 129

Giriş
Bir sistemin sürdürülebilirliği, ilgili sistemin kendini ne kadar
tanıyabildiği, eksikliklerini ve yanlışlıklarını ne oranda tanımlayabildiği ve
düzeltebildiği, kendini ne kadar güncelleyebildiği, yeni gelişmelere ne kadar
uyum sağlayabildiği, kısacası kendini ne kadar onarabildiği ve
yenileyebildiği ile doğrudan ilişkilidir. Sistemdeki eksiklik ve yanlışlıkların
ortaya konmasını ve bu yolla sistemin varlığını etkin bir biçimde devam
ettirebilmesini sağlayan mekanizma, sistemin “kontrol” mekanizmasıdır.
Sistemler kendilerini etkili bir biçimde kontrol ettikleri oranda varlıklarını
sürdürürler; kendi kendini kontrol edemeyen sistemler mutlaka çöker.
“Bu sistem (eğitim) çökmüş” cümlesi, günlük hayatımızda, eğitimle ilgili
sohbetlerde, konuşmalarda, toplantılarda, basın ve yayın organlarında vb.
sıklıkla karşılaştığımız, öğretmenlerinden öğrencilerine, tüm eğitimciler
arasında da kullanılagelen (belki de kullandığımız) bir cümledir. “Bir sistem
neden çöker?” sorusunun yüzlerce cevabı olabilecekken, aslında
verilebilecek öncelikli cevap şudur: kontrol mekanizması düzenli ve doğru
bir biçimde işlemezse sistem çöker. Sistemin kontrol mekanizmasının
düzenli ve doğru bir biçimde işlememesi, sorunun kaynağının
(kaynaklarının) belirlenmesini ve giderilmesini engeller; bu engeller
biriktikçe, sistemde tökezlemeler başlar ve bir süre sonra çarklar durur.
Eğitim sisteminde kontrol mekanizmasını ölçme ve değerlendirme
çalışmalarının sağladığı düşünüldüğünde, “eğitim sistemi neden çöker?”
sorusunun ilk cevabı, “ölçme ve değerlendirme çalışmalarının nitelikli bir
biçimde gerçekleştirilmemesi nedeniyle” şeklinde olmalıdır. Eğitim
sisteminin nitelikli bir biçimde kendini sürdürebilmesi, öncelikle nitelikli
ölçme ve değerlendirme çalışmalarının yapılmasına bağlıdır.
Eğitim sürecinde farklı değerlendirme amaçlarına yönelik olarak ölçme
çalışmaları gerçekleştirilir. Eğitimde daha çok psikolojik özelliklerin
ölçümüyle ilgilenilmesi, farklı ölçme araçlarının kullanımını beraberinde
getirir. Ölçme araçlarının güvenirliği ve geçerliği, yapılan ölçümlerin ve
dolayısıyla bu ölçme sonuçlarına bağlı olarak yapılan değerlendirmelerin
güvenirliğini ve geçerliğini belirler. O halde, eğitimle ilgili isabetli kararların
alınması, (sistemin etkili bir biçimde varlığını sürdürebilmesi), güvenilir ve
geçerli ölçümlerin sağlanmasına; güvenilir ve geçerli ölçümlerin sağlanması
da bu ölçümlerin elde edilmesinde kullanılan ölçme araçlarının
güvenirliğine ve geçerliğine doğrudan bağlıdır.
Eğitimde farklı amaçlarla kullanılan çeşitli ölçme araçları vardır. Bu
araçların genel olarak testler (çoktan seçmeli, kısa cevaplı-boşluk
130 Eğitimde Ölçme ve Değerlendirme

doldurmalı, uzun cevaplı- açık uçlu, doğru-yanlış, eşleştirmeli vb.), kontrol


listeleri ve dereceleme ölçekleri şeklinde adlandırılması mümkündür. Her
ölçme aracının diğerine göre daha üstün olduğu kullanım alanları olduğu
gibi, daha az kullanılması ya da kullanılmamasını gerektiren alanlar da
vardır. Ölçme ve değerlendirme çalışmalarının temel amaçlarından biri,
öğrencilerin neyi bilmediğinden çok, neyi bildiğinin ortaya çıkarılmasıdır.
Hiçbir ölçme aracının ve buna bağlı olarak yapılan değerlendirme
çalışmalarının tek başına öğrencilerin öğrendiklerini ve yapabileceklerini
kapsayamayacağı artık genel bir ilke olarak kabul edilmektedir. Diğer
ifadeyle, eğitimde ölçme ve değerlendirme çalışmalarında tek bir ölçme
değerlendirme yöntemine bağlı kalmak yerine, çoklu ölçme değerlendirme
çalışmalarının yapılması ön plana çıkmıştır. Dikkat edilmesi gereken, amaca
en uygun yöntemin ya da yöntemlerin neler olduğuna karar vermek ve o
yöntemi ya da yöntemleri kullanarak ölçme ve değerlendirme çalışmalarını
gerçekleştirmektir.

Öğrenci Performansının Değerlendirilmesi


Öğrencilerin aktif öğrenme yoluyla süreç içerisinde gerçekleştirdikleri
çalışmaların, etkinliklerin ve süreç sonunda ortaya koydukları ürünlerin
değerlendirilmesi Performans Değerlendirme olarak adlandırılır. Performans
değerlendirme, sürecin değerlendirilmesinden oluşabileceği gibi, sadece
ürünün ya da hem süreç hem de ürünün değerlendirilmesini kapsayabilir.
Performans değerlendirmenin yabancı ya da yerli çeşitli kaynaklarda
(Anderson, 1998; Walsh ve Betz, 2001; Baki ve Birgin, 2002; Chatterji, 2003;
Atılgan, 2006; Berberoğlu, 2006; Karakuş, 2006; Olkun ve Toluk Uçar,
2006; Tan, 2006; Yanpar Yelken, 2006; Karip, 2007; Erkan ve Gömleksiz,
2008; Kutlu, Doğan ve Karakaya, 2008; vd). “Alternatif Değerlendirme”,
“Tamamlayıcı Değerlendirme”, “Otantik Değerlendirme”, gibi adlarla
adlandırıldığı; çoktan seçmeli testler, kısa cevaplı testler, uzun cevaplı
sınavlar gibi ölçme araçlarının “Geleneksel Ölçme Yöntemleri/Yaklaşımları”
adı altında, yapılandırmacı yaklaşımla birlikte ilköğretimde kullanılmaya
başlanan kontrol listeleri ve dereceleme ölçeklerinin ise “Yeni/Çağdaş
Ölçme Yöntemleri/Yaklaşımları” adı altında sınıflandığı ve “çağdaş” olan bu
yöntemlerin de ancak öğrenci performansının değerlendirilmesinde
kullanılabilecek yöntemler olarak sunulduğu gözlenmektedir. Alıcı ve
Gözen Çıtak’ın (2008) yaptığı bir araştırma, çeşitli üniversitelerin eğitimde
ölçme ve değerlendirme alanlarında çalışan uzmanların bu adlandırmalar ve
sınıflandırmalar konusunda farklı görüşlere sahip olduğunu ortaya
koymaktadır. Ölçme ve değerlendirme araç ve yöntemleriyle ilgili
kullanılmaya başlanan farklı adlandırmaların ve sınıflandırmaların alanla
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 131

ilgili uzmanlar arasında dil ayrılığına ve yanlış anlamalara neden olduğu


gözlenmekte; bu anlamda bir kavram kargaşası olduğu görülmektedir. Bu
kavramların tartışma yeri bu bölüm olmamakla birlikte, burada sadece bu
tür sınıflandırmaların alanda terim birliği oluşturmada sorunlar yarattığını
söylemek mümkündür.
İster süreç, ister ürün, isterse hem süreç hem de ürün değerlendirilsin;
bu değerlendirmeler ister testler, isterse kontrol listeleri ya da dereceleme
ölçekleri aracılığıyla gerçekleştirilsin; değerlendirme çalışmalarında ister öz
değerlendirme, ister akran değerlendirme ve/veya grup değerlendirme
formlarından yararlanılsın, temelde tüm bu çalışmalar öğrenci
performansının değerlendirilmesine hizmet eder. Bu anlamda, öğrenci
performansının değerlendirilmesinde tüm ölçme değerlendirme araç ve
yöntemleri kullanılabilir.

Öğrenci Performansını İzlemeye Yönelik Çalışmalar


Öğrenci performansının gözlenmesi amacıyla çeşitli öğrenme
etkinliklerinin gerçekleştirilmesi mümkündür. Bu etkinlikler arasında,
performans görevleri, araştırma kağıtları, araştırma projeleri ve öğrenci
ürün dosyaları, yapılandırmacı yaklaşıma dayalı programlarla birlikte ön
plana çıkmıştır. Gözlem ve görüşme teknikleri ise, öğrenci performansının
izlenmesinde eğitim sistemimizde yıllardır kullanılan teknikler arasında yer
almaktadır. Tüm bu çalışma ve tekniklerin ortak özelliği, öğrencilerin üst
düzey düşünme becerilerinin gözlenmesine olanak sağlamasıdır.

Performans Görevleri
Milli Eğitim Bakanlığı’nın yayınladığı “Proje ve Performans Görevleri”
konulu genelgede (MEB, 2008) performans görevleri, “programda
öngörülen eleştirel düşünme, problem çözme, yaratıcılık, araştırma gibi
öğrencilerin bilişsel, duyuşsal ve devinimsel becerilerini kullanmasını,
geliştirmesini ve bir ürün ortaya koymasını gerektiren çalışmalar” olarak
tanımlanmaktadır. Genelgeye göre performans görevleri, öğrencilerin
öğretmen tarafından belirlenen bir konuda araştırma ve veri toplama
çalışmalarını sınıf dışında gerçekleştirdikten sonra, bu konuda bir ürün
oluşturma çalışmalarını sınıf içerisinde tamamladıkları etkinlikler şeklinde
düzenlenmelidir.
Bir ders kapsamında gerçekleştirilecek performans görevi sayısının
öğrencilerin gelişim düzeylerine, ilgilerine ve isteklerine, öğrenme
eksikliklerine ve ihtiyaçlarına, okul ve çevrenin olanaklarına göre, öğretmen
132 Eğitimde Ölçme ve Değerlendirme

tarafından belirlenmesi gerekir. Görsel sanatlar, müzik, beden eğitimi,


teknoloji ve tasarım derslerinde öğrenci başarısının belirlenmesi öğretim
programlarındaki ölçme ve değerlendirme etkinliklerine göre
gerçekleştirilirken, notla değerlendirilmeyen seçmeli derslerde performans
görevi öğrencinin isteğine bağlı olarak gerçekleştirilmektedir (MEB, 2007).
Performans görevleri, öğrencilerin ders kitaplarında yer alan ve rutin
bir biçimde ev ödevi olarak çözdükleri “alıştırma sorularından” çok daha
fazlasını ifade eder. Bir performans görevini günlük ev ödevinden ayıran en
önemli özellik, derste edinilen bilgi ve becerileri üst düzey zihinsel
becerilerle ilişkilendirerek yeni bir problemi çözmeyi gerektiren bir etkinlik
olmasıdır. Bir performans görevinin hazırlanmasında genel olarak izlenmesi
gereken adımlar aşağıdaki gibi sıralanabilir:
1. Performans görevinin hangi sınıf düzeyine ait olduğunun
belirlenmesi,
2. Performans görevinin ilgili olduğu dersin adının belirlenmesi,
3. Performans görevinin ilgili olduğu dersin konusunun/konularının
belirlenmesi
4. Performans görevinin hangi kazanımlara yönelik olarak
düzenlendiğinin belirlenmesi,
5. Performans görevine ilişkin problem durumunun ortaya konması,
6. Performans görevinin yerine getirilmesinde öğrencinin izleyeceği
yönergenin düzenlenmesi,
7. Performans görevinin nasıl değerlendirileceğinin açıklanması.
Yukarıdaki adımlar dikkate alınarak oluşturulan bir performans görevi,
öğrenciyi, performans görevini gerçekleştirmesinin öğrenmelerine ne tür bir
yarar sağlayacağı, bu görevi gerçekleştirmedeki sorumluluğunun ne olduğu,
performans görevi kapsamında neleri hangi koşullarla yapması gerektiği ve
performans görevi kapsamında yaptıklarının hangi ölçütlerle
değerlendirileceği konusunda aydınlatır. Bu tür bir hazırlık, performans
görevlerinin öğrenci için daha anlamlı hale gelmesine olanak sağlar.
İlköğretim programlarındaki ölçme ve değerlendirme çalışmalarında
performans görevlerinin kullanılmaya başlamasıyla birlikte, internet
ortamındaki pek çok paylaşım sitesinde öğretmenler ve/veya öğrencilerin
yararlanabilmesi için çeşitli performans görevi örnekleri yer almaya
başlamıştır. Bu tür paylaşımlar sadece performans görevleri için değil,
ölçme ve değerlendirme amacıyla yapılan diğer çalışmalar (gözlem ve
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 133

görüşme formları), ölçme araçları (kontrol listeleri, dereceleme ölçekleri)


ve değerlendirme türleri (öz değerlendirme formları, akran değerlendirme
formları vb.) için de gerçekleşmektedir. Çeşitli web sitelerinde yer alan ve
öğretmenler ve /veya öğrencilerin kullanımına açık olan bu örnekler
incelendiğinde, çoğunun ölçme ve değerlendirme araçlarının
geliştirilmesinde dikkat edilmesi gereken ilkelere uygun olmadığı;
güvenirlik ve geçerlik çalışmalarının hemen hemen hiç yapılmadığı
gözlenmektedir. Bu anlamda öğretmenlerin, internet ortamından hazır
olarak elde edilen bu tür formları kullanmadan önce ölçme ve
değerlendirme ilkeleri açısından incelemesi, gerekli düzenleme/
değişiklikleri yaptıktan sonra kullanması önemlidir. Aksi halde, istenilen
nitelikte olmayan bu araç ve yöntemler aracılığıyla yapılacak ölçme
çalışmalarının ve bu çalışmalara bağlı olarak yapılacak değerlendirmelerin
niteliğinden şüphe etmek gerekir. Aşağıda, bir performans görevi örneğine
yer verilmiştir:

7. Sınıf Matematik Dersi Performans Ödevi*


Adı Soyadı:
Sınıfı:
Ödev Konusu: Cahit Arf’in hayatı ve matematiğe kazandırdıkları hakkında
sunum
Ödevin Veriliş Tarihi:
Yönerge: Performans ödevinizi gerçekleştirirken aşağıdaki adımları
izleyebilirsiniz.
1. Cahit Arf’in öğrenim hayatını araştırınız.
2. Matematiğe yaptığı katkıları anlaşılır bir şekilde izah ediniz.
3. Resimle ödevinizi destekleyebilirsiniz.
4. Çalışmalarınızı rapor halinde yazıp sınıfta sunum şeklinde anlatınız.

* http://www.ilkokuma.com adlı siteden alınmıştır (22.05.2008).

Yukarıdaki örnekte yer alan performans görevi,


• öğrencinin öğrendiklerini doğrudan aktarmasını gerektiren nitelikte
olması ve üst düzey zihinsel süreçlerle bir çalışma yapmayı
gerektirmemesi;
• görevin hangi kazanımlara yönelik olarak hazırlandığına ilişkin bir
bilginin yer almaması; dolayısıyla öğrenciyi, ilgili performans
134 Eğitimde Ölçme ve Değerlendirme

görevini yerine getirirse, hangi kazanımları gerçekleştirmiş olacağı


konusunda haberdar etmemesi;
• yönergede yer alan ifadelerin açık ve net olmaması (“anlaşılır bir
şekilde izah etmek” ne anlama gelmektedir?);
• yönergede raporun ne zaman teslim edileceği, sunumun ne zaman
ve nasıl yapılacağı ve raporun ve sunumun nasıl değerlendirileceği
(rapor ve sunum için ayrı ayrı değerlendirme mi yapılacak, raporun
ve sunumun değerlendirmeye katkıları aynı ağırlıkta mı olacak,
raporun ve sunumun değerlendirilmesinde hangi ölçütler dikkate
alınacak vb.; puanlamanın nasıl yapılacağı vb.) konusunda herhangi
bir bilginin yer almaması; dolayısıyla öğrencinin yaptığı çalışmanın
hangi ölçütlerle değerlendirileceği konusunda bilgilendirilmemesi
gibi nedenlerle, bir performans görevinin düzenlenmesinde dikkat
edilmesi gereken adımlar ve ilkeler açısından uygun olmayan bir örnektir ve
bu şekliyle kullanılmaması gerekir.
Aşağıda, bir başka performans görevi örneğine yer verilmiştir:
Performans Görevi*
Ders: Türkçe
Tema: Atatürk
Konu: Sizden Atatürk’ün eğitime verdiği önemi araştırmanız isteniyor.
Yönerge: Çalışmanızı yaparken aşağıdaki adımları izleyin.
1. Çalışmayı nasıl yapacağınızı planlayınız.
2. Atatürk’ün eğitim alanında yaptıklarını araştırınız.
3. Atatürk’ün eğitimle ilgili söylediği sözleri araştırınız.
4. Atatürk’ün eğitime önem vermesi sonucu Türk toplumunun neler
kazandığını araştırınız.
5. Konuyla ilgili çeşitli resim ve fotoğraflar kullanabilirsiniz.
6. İnternet, kaynak kitaplar ve dergilerden yararlanınız.
7. Yaptığınız araştırmaları rapor haline getiriniz.
8. Ödevinizi bilgisayarda ya da kalemle yazabilirsiniz.
9. Faydalandığınız kaynakları çalışma sonunda belirtiniz.
10. Çalışmalarınızı 7 gün içerisinde teslim ediniz.
11. Yaptığınız araştırmanın sonucunu sınıfta arkadaşlarınıza sözlü olarak
sunabilirsiniz.
* http://www.ilkokuma.com adlı siteden alınmıştır (22.05.2008).
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 135

Yukarıdaki örnekte yer alan performans görevi de çeşitli ilkeler açısından


incelendiğinde bazı hataları ve eksiklikleri içermektedir. Örneğin; (1) bu
performans görevi örneğinde de kazanımlara yer verilmemiştir; (2) performans
görevinin konusu çok geneldir ve kapsamlıdır; (3) öğrenci, ancak yararlandığı
kaynaklardan doğrudan alıntılama yapmaz ise, yönergenin 4. maddesinde yer
alan çalışmada üst düzey zihinsel becerilerini kullanabilecektir; bunun dışında
bu performans görevi, öğrencinin öğrendiklerini-okuduklarını doğrudan kağıda
aktardığı bir ödevden ileriye gidemeyecektir (4) performans görevinin hangi
ölçütlerle değerlendirileceği ve nasıl puanlanacağı belirsizdir; (5) Yönergenin
11. maddesinde yer alan “sunabilirsiniz” ifadesi belirsiz bir ifadedir; öğrencinin
çalışmasını isterse sunmayabileceği gibi bir anlam da çıkarılabilir, ki bu
durumda da sunum yapmanın değerlendirmeye dahil olup olmayacağına ilişkin
bir karışıklık sözkonusu olacaktır; (6) Yönergenin 1. maddesinde yer alan
planlamanın nasıl yapılması gerektiğine ilişkin bir bilgi (örneğin, bir çalışma
planı oluşturulacak ve bu plan araştırma raporuna eklenecek midir ve bu
çalışma planının hazırlanıp hazırlanmaması nasıl değerlendirilecektir?)
bulunmamaktadır.
Görüldüğü gibi, performans görevleri çok kısa zaman içerisinde
hazırlanıveren basit çalışmalar değildir. Öğretmenlerin performans görevi
hazırlarken daha titiz ve dikkatli hareket etmeleri gerekmektedir. Bu
anlamda öğretmenlerin performans görevi hazırlarken aşağıda yer alan
formu kendi amaçlarına göre geliştirerek kullanmaları önerilebilir:

Performans Görevi
Sınıf: (Sınıf düzeyini yazınız)
Ders: (Dersin adını yazınız)
Ünite/Tema: (Ünitenin/Temanın adını yazınız)
Kazanımlar: (Performans görevinin yapılmasıyla gerçekleşmesi beklenen tüm
kazanımları yazınız)
Performans Görevinin Konusu: (Performans görevinin adını, kapsamını
belirtiniz. Gerekli ise şekil, grafik, resim vb. de kullanarak performans görevinin
açık ve net bir biçimde anlaşılması için açıklama yapınız. Performans görevinin
öğrencilerin düzeyine, ilgilerine ve ihtiyaçlarına uygun olmasına dikkat ediniz)
Yönerge: (Çalışmanın nasıl planlanacağı, hangi kaynaklardan
yararlanılabileceği, teslim tarihi, raporun nasıl hazırlanacağı, sunum yapılıp
yapılmayacağı,şekil, grafik, tablo vb. kullanılıp kullanılamayacağı; ses ve video
dosyalarından yararlanılıp yararlanılamayacağı vb. konularda bilgi veriniz.)
Değerlendirme: (Değerlendirmede kullanılacak ölçütlerin neler olduğu, bu
ölçütlerin nasıl puanlanacağı hakkında bilgi veriniz)
136 Eğitimde Ölçme ve Değerlendirme

Performans görevlerinin gerçekleştirilmesinde temel bazı sorunlarla


karşılaşılmaktadır. Bu sorunlar, öğretmenlerin bu konuda öğrencilere
yeterince rehberlik yapmaması; öğrencilerin internet üzerinden ulaşılabilen
hazır çalışmaları performans görevi olarak sunması; velilerin öğrenciye
verilen performans görevlerini kendilerinin yapması; performans görevinin
zaman alıcı olması, öğrenci düzeyine, ilgi ve ihtiyaçlarına ve dersteki ilgili
beceri ve kazanımlara uygun olmaması şeklinde sıralanabilir.

Öğrenci Gelişim (Seçki- Ürün) Dosyaları - Portfolyolar


Portfolyolar, bireylerin belirli bir alanda belli amaçlarla
gerçekleştirdikleri çalışmaları, etkinlikleri vb. kronolojik bir biçimde
kapsayan ve o çalışma sürecinde bireyin performansının ve gelişiminin genel
bir fotoğrafını ortaya koymayı amaçlayan kişisel dosyalar olarak
düşünülebilir. Geleneksel olarak, sanatçılar, fotoğrafçılar ve mimarlar yeni
ürünleri tanıtmak için portfolyoları kullanırlar. Son yıllarda eğitim alanında
öğrencilerin zaman içindeki gelişimlerini kaydetmek ya da becerilerini
sergilemek için özellikle yazma gibi alanlarda portfolyolar sıklıkla
kullanılmaya başlanmıştır (Chatterji, 2003).
Portfolyoların dilimizdeki karşılığı, “gelişim dosyaları”, “ürün
dosyaları”, “seçki dosyaları” ya da “portföy” gibi çeşitli sözcüklerle ifade
edilmektedir. Burada portfolyo sözcüğünü tam karşılayan ifadenin hangisi
olacağının belirlenmesi gerekir. Belirli bir süre içerisindeki öğrenmelerin
hem süreç hem de ürün açısından gözlenmesi amacıyla, öğrencinin yaptığı
tüm çalışmaları kapsayan bir dosyadan bahsediliyorsa, bunun en uygun
karşılığının “gelişim dosyası” olacağı söylenebilir. “Ürün dosyası” ifadesi
daha çok öğrencilerin öğrenme ürünlerinin yer aldığı dosya anlamını; “seçki
dosyası” ifadesi ise, öğrencilerin öğrenme sürecini ve öğrenme ürünlerini
yansıtan çalışmaları arasından “seçilmiş” çalışmaların yer aldığı dosya
anlamını taşımaktadır. “Portföy” sözcüğü ise, Türkçe bir kelime olmaması
nedeniyle tercih edilmeyen ya da kullanılması önerilmeyen bir sözcüktür.
Bu bölümde, portfolyo sözcüğünün karşılığı olarak “gelişim dosyaları”
ifadesi kullanılmıştır.
Gelişim dosyaları, öğrencinin öğrenme süreci içerisinde gerçekleştirdiği
çalışmaların ve ortaya koyduğu ürünlerin, öğretmen ve velilerin öğrencinin
bu çalışmalarıyla ilgili değerlendirmeleriyle ve öğrencinin öz
değerlendirmeleriyle birlikte yer aldığı dosyalardır. Öğrenci gelişim
dosyaları belirli bir konu alanının (dersin) tüm boyutlarında öğrencinin
gelişimini ve başarısını yansıtır. Böylelikle, öğrencinin gelecekteki öğrenme
süreçlerine rehberlik edecek zengin bir gelişim tablosu elde edilmiş olur.
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 137

Öğrenci gelişim dosyaları, karmaşık düşünme becerilerini ve üst düzey


bilişsel etkinlikleri yansıtır ve öğretmenlerin öğrencilerinin neyi
öğrendiklerini anlamaları için bir fırsat sunar. Gelişim dosyaları,
öğrencilerin çalışmasını yorumlamak, diğer çalışmalarla bağlantısını kurmak
ve geniş kapsamlı çalışmaları ilişkilendirmek için kullanılır.
Gelişim dosyalarının incelenmesi yoluyla, bir öğrencinin ilerlemesi ile
ilgili yapılan değerlendirmeler, öğrencinin başarısızlıklarından çok
başarılarının izlenmesi olarak açıklanabilir. Gelişim dosyalarından elde
edilen bilgiler, öğrenciler tarafından sunulan belgelere dayalı olarak,
öğretimin etkililiğinin ve öğrenci performansının değerlendirilmesinde
kullanılabileceği gibi, öğretim amaçları ve hedeflerini geliştirmede de
kullanılabilir (Barootchi ve Keshavarz 2002). Gelişim dosyaları yardımıyla
öğrenci performansının değerlendirilmesi, öğrencinin bir dersteki bireysel
gelişimini değerlendirme ya da tüm eğitim sürecindeki genel performansını
değerlendirme şeklinde yapılabilir.
İlköğretim programlarında gelişim dosyası kullanımının temel amacı,
öğrencilerin gelişim düzeylerinin belirlenmesi, öğrenci başarısı hakkında
öğrenciye, veliye, öğretmene ve okula geribildirimlerde bulunulması ve bu
yolla öğretim sürecinde gerekli önlemlerin alınmasının sağlanması şeklinde
belirlenmiştir. Buna göre, 1-5. sınıflarda farklı derslere ilişkin çalışmaların
yer aldığı tek bir gelişim dosyasının hazırlanması; 6-8. sınıflarda ise
öğrencilerin ilgi duydukları derslerle ilgili gelişim dosyaları
hazırlayabilecekleri kararlaştırılmıştır (MEB, 2007).
Öğrenci gelişim dosyaları (Rogers ve Chow, 2000),
• öğrencilerin zaman içindeki çalışmalarının çoklu örneklerini sunar,
• öğrencinin becerilerine, bilgisine, öğrenmesine ve gelişimine geniş
ve derinlemesine bir bakış oluşturur,
• eğitim programının çoklu bileşenlerini eşzamanlı olarak
değerlendirmeye izin verir,
• öğretmen kadrosuna değişim ve gelişim, eğitim programlarının
amaçlarını ve hedeflerini tartışma, not verme kriterlerini yeniden
gözden geçirme ve programa geri bildirim verme konusunda fırsat
sunar,
• tüm düzeylerde anlamlı olabilecek (örneğin bireysel olarak öğrenci,
program veya enstitü) sonuçlar sağlar ve tanı amaçlı ya da diğer
amaçlar için kullanılabilir.
138 Eğitimde Ölçme ve Değerlendirme

Tüm bunların yanında öğrenci gelişim dosyaları, öğrencilerin kendi


öğrenmelerinin sorumluluklarını üstlenmelerine yardımcı olur.
Gelişim dosyalarında hangi çalışmaların yer alacağına öğretmen ve
öğrenci birlikte karar verir. Bir gelişim dosyasında nelerin yer alabileceğine
ilişkin kararların, gelişim dosyası kullanmanın amacına bağlı olarak
verilmesi gerekir. Aksi halde gelişim dosyası, öğrenci çalışmalarının basit bir
klasörü olmaktan ileri gidemeyecektir. Gelişim dosyalarında yer alabilecek
ögelerden bazıları şu şekilde örneklenebilir:
• araştırma yazıları, kompozisyonlar, şiir, hikaye vb.
• resimler, fotoğraflar, video ve ses kayıtları
• gözlemler, röportajlar
• Öğrenciyle ilgili değerlendirme formları (öz değerlendirme, akran
değerlendirme, veli ve öğretmen değerlendirme formları)
Öğrenci gelişim dosyalarının sahip olması gereken temel bazı özellikler
aşağıdaki gibi özetlenebilir (Hanson ve Gilkerson, 1999):
• Gelişim dosyaları mutlaka eğitim programının hedefleriyle
ilişkilendirilmelidir. Aksi halde gelişim dosyası, değerlendirme veya
gelecek eğitim süreci açısından çok da değerli olmayan çalışmaların
bir araya gelmesinden başka bir şey olmayacaktır.
• Gelişim dosyaları için sürekli bir değerlendirme sistemi olmalıdır.
Bu durum, öğretmenlere öğrencilerin sürekli ve dinamik gelişim
hareketlerini gözlemleme imkanı verir.
• Gelişim dosyaları, öğretmenin meydana getirdiği bir
dokümantasyon olmaktan uzak olmalıdır. Büyüme ve gelişimi analiz
etmek için, hem öğrenciler hem de veliler dosyalarda yer alacak
çalışmalar konusunda söz sahibi olmalıdır.
• Gelişim dosyaları performans temelli olmalı; hedefe dayalı
öğrenmeyi vurgulamalıdır; okul, ev ve toplumun tüm kültürel
boyutlarında devam etmelidir; bir çocuğun gelişim ve öğrenmesini
takdir etmeli, desteklemeli ve onu cesaretlendirmelidir.
İyi düzenlenmiş gelişim dosyaları, temel beceriler ve kazanımlarla ilgili
öğrenci çalışmalarından oluşmalıdır. Böylelikle, programın hedefleri
doğrultusunda öğrenci öğrenmelerinde değişiklikler meydana getirilmiş ve
ilgili becerilerde öğrenci başarısı ortaya konmuş olacaktır. Gelişim
dosyalarında yer alan çalışmaların tarih sırasında düzenlenmesi, dosyadaki
her bileşenin tarihinin belirlenmesini kolaylaştıracaktır.
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 139

Öğrenci gelişim dosyalarının,


• değerlendirilmesinin zaman alıcı olması
• değerlendirilmesine ilişkin puanlayıcı güvenirliği
• nasıl saklanacağı,
• dosyada yer alan çalışmaların gerçekten öğrencinin kendisi
tarafından yapılıp yapılmadığının tam olarak belirlenememesi
önemli sorunlar arasındadır. Öğretmenler gelişim dosyalarını
geliştirme, yürütme ve puanlamada çok zamana ihtiyaç duysalar da,
kullanımları hem öğrenmede hem de öğretimde olumlu sonuçlar
vermektedir. Araştırmalar, bu tür çalışmaların öğrenci becerilerinin,
başarısının ve öğrenme motivasyonunun artmasına rehberlik ettiğini ortaya
koymaktadır (Baki ve Birgin, 2002).
Gelişim dosyalarının değerlendirilmesi, öğrenme sürecinin önemli bir
parçasını oluşturmaktadır. Bu değerlendirmeler, öğrencilere ve eğitimcilere
bilgi ve becerilerini ne kadar geliştirdiklerini ve daha da geliştirmek için
neye ihtiyaçları olduklarını söyler. Calvin (1993), öğrencilerin gelişim
dosyaları yoluyla değerlendirilmesi durumunda yanlılığın azaldığını ileri
sürmektedir (akt. Cook-Benjamin, 2001).

Araştırma Projeleri
Araştırma projeleri, “öğrencilerin grup halinde ya da bireysel olarak
istedikleri bir alan veya konuda inceleme, araştırma ve yorum yapma, görüş
geliştirme, yeni bilgilere ulaşma, özgün düşünce üretme ve çıkarımda
bulunmaları amacıyla ders öğretmeni rehberliğinde yapacağı çalışmaları
(MEB, 2008) ifade etmektedir. Buna göre öğrenciler, bir ders yılında
istedikleri ders veya derslerden bireysel ya da grup çalışması şeklinde en az
bir proje hazırlarlar.
Projeler, birkaç hafta hatta birkaç ayda tamamlanabilen genişletilmiş
performans görevleri olarak düşünülebilir. Proje çalışmalarında, öğrenciler
problemi ortaya koyar, seçenekler üzerinde düşünür, çözümleri planlar ve
kendi çözümlerini gösterir.
Araştırma projeleri bireysel olarak gerçekleştirilebileceği gibi, gruplar
halinde de gerçekleştirilebilir. Buradaki “gruplar” ifadesi, her zaman bir
sınıftaki öğrencilerden oluşturulan en az iki kişilik gruplar anlamına
gelmeyebilir. Bir sınıftaki öğrencilerin tamamı bir araştırma projesini
yürütebileceği gibi, aynı sınıf düzeyinde farklı şubelerde okuyan öğrencilerin
140 Eğitimde Ölçme ve Değerlendirme

bir araya gelerek oluşturduğu gruplarla da araştırma projelerinin


yürütülmesi mümkündür. Yine, araştırma projelerinin br bölümünde
öğrenciler bireysel olarak çalışmalarını gerçekleştirirken, projenin en
azından bir bölümünde grup olarak çalışabilirler.
Araştırma projelerinin seçiminde, öğrencilerin düzeyi, ilgi ve
ihtiyaçları, hangi beceri ve kazanımları gerçekleştirmek üzere projenin
yürütüleceği, projenin maliyeti ve ne kadar sürede gerçekleştirilebileceği
gibi kriterlerin gözönünde bulundurulması gerekir. Öğrencilerden
beklenen, bu kriterleri gözönünde bulundururak proje önerileri üretmeleri,
öğretmenlerden beklenen ise, öğrencilerle birlikte proje önerilerini
inceleyerek bu projelerin gerçekleştirilebilirliğine karar vermeleri ve
öğrencileri projenin çeşitli aşamalarında ya da ihtiyaç duydukları anlarda
yönlendirmeleridir.
Araştırma projelerinin planlanması, gerçekleştirilmesi, sunulması ve
değerlendirilmesinde aşağıdaki ilkeler gözönünde bulundurulmalıdır:
1. Proje kapsamı açık bir biçimde belirlenmelidir.
2. Her grubun ya da öğrencinin farklı projelerde yer alması
sağlanmalıdır.
3. Aynı projede yer alan öğrencilerin projenin çeşitli aşamalarında
aktif rol almaları sağlanmalıdır.
4. Projenin gerçekleştirilme aşamaları ile ilgili bir çalışma planı
oluşturulmalıdır.
5. Projelerin değerlendirilmesinde kullanılacak ölçme araçları
önceden hazırlanmalı (kararlaştırılmalı) ve öğrenciler bu ölçme
araçlarında yer alan ölçütlerden haberdar edilmelidir.
6. Öğrencilerin gerçekleştirdikleri projelerle ilgili öz değerlendirme,
akran değerlendirme ve/veya grup değerlendirme yapmasına olanak
sağlanmalıdır.
7. Tamamlanan projeler, öğretmen ve sınıftaki öğrenciler dışındaki
gruplarla (diğer sınıflardaki öğrenciler, veliler, başka okullardaki
öğrenciler vb.) paylaşılmalı; öğrencilerin deneyimlerini ve
heyecanlarını paylaşmaları sağlanmalıdır.
Aşağıda, sınıf öğretmenlerinin farklı dersler için önerdikleri proje
konuları ile ilgili örneklere yer verilmiştir. İlgili konuların proje ödevi olarak
kabul edilip edilemeyeceği ve bir proje ödevinin nasıl planlanıp
düzenlenebileceği, bu örnekler üzerinden tartışılmıştır.
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 141

PROJE ÖDEVİ LİSTESİ*


1. En sevdiğiniz arkadaşınıza doğum gününde vermek üzere bir
oyuncak tasarlayın.Tasarladığınız oyuncağı çizerek
gösterin.Arkadaşınıza oyuncağı nasıl kullanacağını anlatın.Oyuncağı
ile oynarken nelere dikkat etmesi gerektiğini
açıklayınız.Tasarladığınız oyuncağın özelliklerini yazınız.TÜRKÇE
2. Türkiye’nin en merak ettiğiniz ili ile ilgili kapsamlı bir araştırma
yapınız.Tarihi,turistik yerleri,doğal güzellikleri,geçim
kaynakları,eğitim düzeyi,nüfusu vb. Her türlü resim,fotoğraf,
yazı,şiirle zenginleştirerek sunumu aktarın.TÜRKÇE
3. Atatürk’ün okul hayatını anlatan bir araştırma yapın.Drama yoluyla
araştırmanızı arkadaşlarınıza sunun.Ulaştığınız bilgileri yazılı olarak
sınıf panosunda sergileyin.HAYAT BİLGİSİ
4. Türkiye’de son 10 yılda olan büyük depremleri anlatan bir
araştırma yapınız.Nerelerde olmuştur?Kaç insanımız
olmuştur?Maddi hasar ne kadar olmuştur?Depremlerle ilgili
resimler bulun.Depremden korunma yollarıyla ilgili arkadaşlarınıza
açıklamalar sunun.HAYAT BİLGİSİ
5. Kirli ve Temiz çevre başlıklı iki ayrı resim
oluşturun.Çalışmalarınızda dilediğiniz boya türünü
kullanabilirsiniz.Resminizi hangi duygularla oluşturduğunuzu
arkadaşlarınıza açıklayın.GÖRSEL SANATLAR
6. Geometrik şekilleri tanıtıcı bir afiş hazırla.Arkadaşlarına sun ve
sınıfta sergile.MATEMATİK
7. Çarpma konusunu öğrencilerine öğretmek amacıyla çeşitli
etkinlikler hazırla.Öğretmen edasıyla arkadaşlarına
anlat.MATEMATİK
8. Beden Eğitimi dersi için yapılması gereken ısınma hareketlerini
sırasıyla öğrenerek arkadaşlarına öğret.BEDEN EĞİTİMİ
* http://www.ilkokuma.com adlı siteden alınmıştır (22.05.2008). Alıntılama olması nedeniyle,
örneklerde gözlenen dilbilgisi ve imla hatalarında herhangi bir düzeltme yapılmamıştır

Yukarıda çeşitli dersler için verilen proje örneklerini incelediğimizde, 1


no’lu proje konusu dışındaki hiçbir konunun aslında bir proje olarak
adlandırılamayacağı; ya bir performans görevi ya da günlük bir ev ödevi
142 Eğitimde Ölçme ve Değerlendirme

olarak öğrencilere verilebileceği gözlenmektedir. Bunun yanında, her proje


için ayrı ayrı hazırlanması beklenen, proje adı, konusu, amacı, sınıfı
(düzeyi), beceri ve kazanımlar, süre, projede yer alacak öğrenci ya da
öğrenciler, projenin aşamaları, proje kapsamında yanıtlanması hedeflenen
sorular, vb. açıklamaların hiçbir örnekte yer almadığı ve örneklerdeki
ifadelerin dil bilgisi ve gramer açısından uygun olmadığı görülebilir. Yine
araştırma projelerinde, proje konularının doğrudan öğretmen tarafından
belirlenerek öğrencilere paylaştırılması yerine, öğrencilerden gelecek
önerilerin değerlendirilmesinin önemli olduğu gözden kaçırılmamalıdır.
Araştırma projesine ilişkin önerilerin hazırlanmasında dikkat edilmesi
gereken ilkeler gözönünde bulundurulduğunda, proje önerecek öğrencilerin
veya öğretmenlerin aşağıdaki örnek formu geliştirerek kullanmaları
önerilebilir:
Araştırma Projesi
Sınıf: (Sınıf düzeyini yazınız)
Ders: (Dersin adını yazınız)
Ünite/Tema: (Ünitenin/Temanın adını yazınız)
Kazanımlar: (Projenin hangi kazanımlara yönelik olarak yapılacağını
belirleyiniz. )
Projenin Adı: (Proje adının, projenin kapsamını temsil edecek biçimde
belirleyiniz. Proje adının, açık, anlaşılır, net olmasına dikkat ediniz.)
Araştırma Projesinin Konusu: (Projenin konusunu ve kapsamını
açıklayınız. Proje kapsamında hangi sorulara cevap aranacağını belirleyiniz. )
Projenin Amacı ve Önemi: (Projenin amacını ve önemini kısaca
açıklayınız.)
Proje ekibi: (Projede yer alacak öğrencilerin adını soyadını ve projedeki
görev tanımlarını yazınız)
Çalışma Planı: (Projenin aşamalarını, ve süresini gösteren bir plan
oluşturunuz.)
Teknik İhtiyaçlar: (Projenin gerçekleştirilmesinde ihtiyaç duyulan teknik
malzemelerin listesini oluşturunuz. Bu malzemelerin nasıl temin edileceği ve
maliyeti hakkında bilgi veriniz.)
Projenin Tahmini Maliyeti: (Projenin maliyetini gösteren tahmini bir gelir
gider tablosu düzenleyiniz.)
Yararlanılacak Kaynaklar: Projenin gerçekleştirilmesinde
yararlanılacak kaynakların (ders kitapları, internet ortamı vb.) oluşturunuz.
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 143

Gözlem
Gözlem, öğrencilerin öğrenmelerini ve gelişimlerini izlemek ve
değerlendirmek amacıyla yararlanılan tekniklerdendir.
Gözlem yoluyla öğrencilerin öğrenme ve gelişimlerinin izlenebilmesi
için öncelikle öğretmenin gözlemek istediği özelliği tanımlaması ve daha
sonra da bu özelliğin varlığını ya da yokluğunu ifade eden davranışsal
göstergeleri (ölçütleri) tanımlaması gerekir.
Bir sonraki aşamada, belirlenen ölçütlerin gözlenerek kaydedilmesinde
hangi ölçme aracından yararlanılacağının belirlenmesi gerekir. Gözlem
sonuçlarının kaydedilmesinde çoğunlukla kontrol listelerinden
yararlanılmaktadır.
Üçüncü aşamada öğretmen, gözlemi nasıl yapacağını belirlemelidir.
Gözlem, katılımlı veya katılımsız gözlem olmak üzere iki şekilde
gerçekleştirilebilir. Katılımlı gözlemde öğretmen, gözlemek istediği
koşulların içinde kendisi de doğrudan yer alır. Örneğin, öğrencilerinin
grupla çalışma alışkanlıklarını gözlemek isteyen bir öğretmen, her grupta,
grubun doğal bir üyesi olarak yer alabilir; grup içerisindeki çalışmalarda
aktif olarak görev alabilir. Katılımsız gözlemde ise öğretmenin, aktif
katılımcı olmaksızın dışarıdan gözlem yapması söz konusudur. Örneğin,
öğrencilerinin motor becerilerindeki gelişimlerini belirlemek isteyen bir
anasınıfı öğretmeni belirli zaman aralıklarında bu konuda gözlemler
yaparak ve gözlem sonuçlarını kaydedebilir. Aşağıda, bir anasınıfı
öğretmeninin öğrencilerinin küçük motor becerilerindeki gelişimlerini
gözlemek üzere hazırladığı bir gözlem formu örneğine yer verilmiştir.

Çocuk Gelişimi Kontrol Listesi- Küçük Motor Beceriler (61-72 ay)*


Öğrencinin adı-soyadı:
Görev Gözlem Tarihi Yorum
1. Üçgen, daire, kare gibi basit
şekilleri kesme.
2. Adını kopyalayarak yazma.
3. 1’den 5’e kadar rakamları
yazma.
4.Çizgileri taşırmadan boyama
yapma.
5.Tutkal ya da zamk yardımıyla,
uygun bir biçimde yapıştırma.
* Elliott’tan (2002:99) alınmıştır.
144 Eğitimde Ölçme ve Değerlendirme

Gözlem tekniğinin uygulanmasında, gözlemin hangi sıklıkla ve kaç kez


tekrarlanacağının ve gözlem süresinin de önceden belirlenmiş olması
gerekir.

Görüşme
Öğrencilerin öğrenmelerini gözlemenin yollarından biri de
görüşmelerdir. Özgüven’e (1980) göre görüşme, en az iki kişi arasında sözlü
olarak sürdürülen bir iletişim sürecidir. Görüşme tekniği, bireylerin tutum,
duygu, düşünce ve inançlarına ilişkin bilgilerin elde edilmesinde etkili bir
yöntem olması nedeniyle, sosyal bilimlerdeki araştırmalarda sıklıkla kullanılır.
Görüşmeler, yapılandırılmış, yarı yapılandırılmış ya da
yapılandırılmamış olmak üzere üç farklı biçimde gerçekleştirilebilir.
Yapılandırılmış görüşmelerde, görüşmenin yapıldığı her öğrenciye aynı
sorular, aynı formatla sorulur. Bu tür görüşmelerde çoğunlukla açık uçlu
sorulara yer verilmez. Yarı yapılandırılmış görüşmeler önceden planlanan
sorulardan oluşmakla birlikte, görüşme sırasında cevapların ayrıntılı olarak
verilmesine olanak sağlamak amacıyla, ek soruların da sorulması söz
konusudur. Yapılandırılmamış görüşme ise, herhangi bir görüşme
protokolü olmaksızın spontane gerçekleştirilen görüşme şeklidir. Bu
görüşme tekniğinde, görüşülen kişinin verdiği cevaplara göre yeni soruların
üretilmesi ve sorulması söz konusudur (Türnüklü, 2000).
Görüşmeyi yapan kişinin önceden belirlenen soruların yanında ek
sorular sorabilmesi ya da soruların sıralarında değişiklik yapabilmesi; net
bir cevap alınamaması ya da sorunun anlaşılamaması durumunda sorunun
farklı bir biçimde yeniden sorulabilmesi ve bu yolla konu ile ilgili
derinlemesine bilgi alınabilmesi; görüşme sürecinin ses ya da video kayıtları
yoluyla kaydedilebilmesi (Yıldırım ve Şimşek, 2004) gibi özellikler görüşme
tekniğinin güçlü yanlarını ortaya koymaktadır Görüşme tekniğinin zayıf
yanlarından bazıları ise, görüşmenin süresi, görüşmenin maliyeti, soruların
standart olmayışı, görüşmeyi yapan kişinin verilen cevapları yanlış anlaması
nedeniyle ya da kendi düşünce süzgecinden geçirmesi nedeniyle yanlı
kaydetme olasılığı (Yıldırım ve Şimşek, 2004) şeklinde sıralanabilir.
Görüşme tekniği kullanılırken, görüşmenin hangi sıklıkla ve kaç kez
tekrarlanacağının, hangi koşullarda gerçekleştirileceğinin, nasıl
kaydedileceğinin ve süresinin önceden planlanması gerekir. Aşağıda,
öğrencilerin aileleriyle ilişkileri hakkında görüşme yapmak isteyen bir
öğretmenin hazırlayacağı bir görüşme formu örneğine yer verilmiştir.
Görüşme formunda yer alan sorular örnek amaçlı düzenlenmiş olup,
görüşmenin amacına bağlı olarak ekleme ve çıkarmalar yapılabilir.
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 145

Öğrenci Görüşme Formu


Görüşme Tarihi: ……………………………………………………………
Görüşme Yeri: ……………………………………………………………
Öğrencinin Adı Soyadı: ……………………………………………………
Sınıfı ve Numarası: …………………………………………………………
Görüşmeyi yapan: …………………………………………………………

Annenin Adı:
Babanın Adı:
Anne ( ) yaşıyor ( ) yaşamıyor
Baba ( ) yaşıyor ( ) yaşamıyor
Annenin mesleği: ……………………………………………………………
Babanın mesleği: ……………………………………………………………
Ailedeki çocuk sayısı (öğrenci dahil) : ……………………………………
Ailenle ilişkilerin genel olarak nasıl?
………………………………………………………………………………...
…………………………………………………………………………………
Ailende kendini en yakın bulduğun kişi kim? Kendini ona daha yakın hissetmenin
nedenleri neler olabilir?
………………………………………………………………………………...
…………………………………………………………………………………
(varsa) Kardeşlerinle ilişkilerin nasıl?
………………………………………………………………………………...
…………………………………………………………………………………
Derslerinde sana yardımcı olan biri var mı?
………………………………………………………………………………...
…………………………………………………………………………………
Annenle ve babanla çoğunlukla neleri paylaşırsın?
………………………………………………………………………………...
…………………………………………………………………………………
Anne babanın seni anladıklarını ya da anlamaya çalıştıklarını düşünüyor musun?
………………………………………………………………………………...
…………………………………………………………………………………
Anne babanla (varsa) ne tür konularda anlaşamıyorsunuz? Anlaşamamanızın
nedenlerini nelere bağlıyorsun?
………………………………………………………………………………...
…………………………………………………………………………………
Evde, ailece birlikte yapmaktan hoşlandığınız şeyler neler?
………………………………………………………………………………...
…………………………………………………………………………………
146 Eğitimde Ölçme ve Değerlendirme

Öğrencilerin Değerlendirme Sürecine Katılımı


Eğitim sisteminde değerlendirme çalışmaları çoğunlukla öğretmen
tarafından yapılmasına karşın, yapılandırmacı yaklaşımla birlikte öğrenci ve
velinin de değerlendirme sürecine katılımı ön plana çıkmıştır. Öğrencinin
değerlendirme sürecine katılımı üç yolla olabilir: Öz değerlendirme, akran
değerlendirme ve grup değerlendirme.
Bu tür değerlendirmeler, öğrencilere not verme amacıyla yapılmaz;
görece maliyetli ve zaman alıcı olmalarına karşın, öğrencilerin
öğrenmelerine, öğretmenin mesleki gelişimine, velilerin sürece katılımına
ve bölgesel değerlendirmelere katkıda bulunmak amacıyla
gerçekleştirilirler.
Her üç değerlendirmenin de nesnel bir biçimde gerçekleştirilebilmesi
için, hangi öğrenme çıktılarının değerlendirileceği öğretmen ve öğrenciler
arasında tartışılarak belirlenmeli ve değerlendirme ölçütleri konusunda bir
uyum sağlanmalıdır.
Öz değerlendirme, akran değerlendirme ve grup değerlendirmelerin
hangi sıklıkta yapılacağı öğretmenler tarafından belirlenmelidir. Yapılan
araştırmalar, ilköğretim birinci kademeden itibaren rutin bir biçimde
gerçekleştirilen öz değerlendirme, akran değerlendirme ve grup
değerlendirmelerin öğrencilerin eleştirel düşünme becerilerine önemli
katkıları olduğunu ortaya koymaktadır. Başlangıçta bu tür
değerlendirmeleri yapmak öğrenciler için güç olsa ve nesnel olmayan
değerlendirmeler gerçekleşse de, değerlendirmelerin belirli sıklıklarla
sürdürülmesi durumunda öğrencilerin kendilerine yönelik özeleştiri
yapabilme ve arkadaşlarını nesnel bir biçimde eleştirebilme becerilerinde
önemli gelişmeler olduğu gözlenmektedir.

Öz Değerlendirme
Öz değerlendirme, öğrencilerin kendi çalışmalarının uygunluğuna
ilişkin ölçütleri belirledikleri ve bu ölçütlerin ne kadarını karşıladıklarına
ilişkin kararları kendilerinin verdikleri değerlendirme türü olarak
tanımlanabilir. Bu tanıma göre öz değerlendirme, öğrencinin kendi
çalışmasını derecelendirmesinden çok daha fazlasıdır, öğrencilerin “iyi”
çalışmanın ne olduğunu belirleme sürecine dahil olmasını da gerektirir
(Lomas, Hill ve MacGregor, 2004).
Brown ve Knight (1994) öz değerlendirmenin temel özelliğini şu şekilde
açıklamaktadır: “o halde değerlendirme, öğrencilere uygulanan bir süreç
değildir, ancak kendilerinin dahil olduğu katılımcı bir süreçtir. Bu,
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 147

öğrencileri motive eder” (Akt. Lomas, Hill ve MacGregor, 2004). Öz


değerlendirme, öğrencilerin, sürece daha eşit katılımcılar olarak katılmaları
nedeniyle, yapılan değerlendirmelere güvenmelerini sağlar ve
değerlendirme sonuçlarını bir “kader” ya da “tesadüf” gibi yorumlamalarını
engeller (Lomas, Hill ve MacGregor, 2004).
Herhangi bir öz değerlendirmenin başarısı, öğrencinin kendi
performansını ve güçlü ve zayıf yönlerini doğru bir biçimde değerlendirme
yeteneğine dayanır (Woods, Marshall ve Hrymak, 1988). Öz değerlendirme
(kendini değerlendirme), öğrencilerin kendi öğrenmelerine ilişkin kararlar
vermede aktif katılımlarını gerektirir. Öğrencilerin neyi bildiklerini ve
bilmediklerini, neyi öğrenmek istediklerini belirlemelerini ve kendilerine
kolay ve zor gelen çalışmaları keşfetmelerini sağlar. Bu durum, öğrencilerin
kendileriyle ilgili farkındalıklarını arttırır. Öğrencilere kendi öğrenme
süreçlerini yürütme sorumluluğu kazandırır. Öğrenciler, biraz öğretmen
desteğiyle, verilen görevler, karşılaşılan güçlükler ve sıkıntılar bakımından
neyi iyi yapabildiklerini ve neyi yapamadıklarını değerlendirebilir.
Öz değerlendirmenin yapılmasındaki ilk adım, öğrencileri, nasıl
değerlendirileceklerine karar vermeleri konusunda teşvik etmektir. Bu
durum, öğrenme süreci sonunda gerçekleşmesi hedeflenen öğrenme
çıktılarının ve onlara ulaşıldığının göstergesi kabul edilebilecek ölçütlerin
belirlenmesine öğrencilerin katılımını gerektirir. Ancak, öğrencilerin
ölçütleri çok net bir biçimde anlaması ve öz değerlendirmeyi nasıl
yapacaklarının açıklanması önemlidir. Değerlendirme ölçütlerinin kesinlikle
net olması gerekir; çünkü öğretmenler ve öğrenciler ölçütleri farklı
yorumlayabilirler. Öğrencilerin aynı zamanda ölçütlerin anlamlarına açıklık
getirmeleri gerekir. Bu farklılıklar üzerinde uzlaşılmalıdır, çünkü aktif
katılım olmaksızın, standartlar ve düzeylerine ilişkin genel bir görüşün
gelişimi hem öğrenciler hem de öğretmenler için sorunlu olacaktır (Rust,
Price, ve O’donovan, 2003).
Öğrencinin, kendi öğrenmelerini değerlendirmede yanlı davranması;
kendi yeteneklerinin farkında olmadığı için öz değerlendirme yapamaması;
kendisini, öz değerlendirme yapma konusunda yeterli görmemesi veya
değerlendirme işinin sadece öğretmen tarafından yapılması gerektiğine
inanması, öz değerlendirmenin sağlıklı bir biçimde yapılmasını engelleyen
faktörler arasında sıralanabilir. Bu sorunun çözümünde, öğrencilere, öz
değerlendirmeyi nasıl yapabileceklerinin net bir biçimde açıklanması ve öz
değerlendirme yapmaları konusunda kendilerinin teşvik edilmesi önem
kazanmaktadır.
148 Eğitimde Ölçme ve Değerlendirme

Aşağıda, açık uçlu sorular yardımıyla oluşturulan bir öz değerlendirme


formu örneğine yer verilmiştir. Verilen örnekte yer alan soruların,
öğrencinin ilgili etkinlik kapsamında kendi öğrenmelerini ve çabasını
değerlendirebilmesi açısından iyi hazırlanmış sorular olduğu söylenebilir.

ÖZ DEĞERLENDİRME FORMU
Etkinlik : Tarih : ______________________________________________
Öğrenci : ____________________________________________________
Sınıfı :_______________________________________________________
Numarası : ___________________________________________________

1. Bu etkinlikte ne öğrendim?
____________________________________________________________
____________________________________________________________
2. Neyi iyi yaptım? Neden?
____________________________________________________________
____________________________________________________________
3. Hangi konuda zorlandım? Neden?
____________________________________________________________
____________________________________________________________
4. Nerede yardıma ihtiyacım oldu?
____________________________________________________________
____________________________________________________________
5. Hangi alanda kendimi daha çok geliştirmeliyim?
____________________________________________________________
____________________________________________________________
6. Kuvvetli ve zayıf yönlerim neler?
____________________________________________________________
____________________________________________________________
7. Daha sonraki çalışmalarda neleri farklı yapacağım?
____________________________________________________________
____________________________________________________________

* http://www.turkbilim.org adlı siteden alınmıştır (05.05.2008).


Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 149

Akran Değerlendirme
Akran değerlendirme, öğrencilerin birbirlerinin yaptıkları çalışmaları
değerlendirmelerini ifade eder. Öğrencilerin akran değerlendirme yoluyla
diğer öğrenciler tarafından değerlendirilmesi ve geribildirim alması,
öğrenme süreçlerine çok önemli katkıda bulunur. Akran değerlendirme
çoğunlukla hem ürünün hem de sürecin değerlendirildiği durumlarda ve
grup çalışmaları söz konusu olduğunda gerçekleştirilmektedir.
Akran değerlendirmenin yararları aşağıdaki gibi ifade edilebilir:
1. Öğrencileri daha eleştirel düşünmeleri konusunda destekler.
2. Öğrenme sorumluluğunu öğrencilere bırakır.
3. Diğerlerinin başarılı ve zayıf yönlerinden öğrenmeler gerçekleşir.
4. Öğrencilerin konu ile ilgili neye ihtiyacı oldukları konusunda
farkındalıkları artar.
5. Büyük sınıflarda tüm öğrencilere uygun geribildirimler verilmesine
olanak sağlar.
6. Öğrencilerin topluluğun bir parçası oldukları inancını destekler.
Öz değerlendirme ve akran değerlendirme genellikle birlikte kullanılır.
Akran değerlendirme, öz değerlendirmeye yardımcı olur. Diğerlerinin
performanslarını değerlendiren öğrenciler, kendi performanslarına ilişkin
bir anlayış kazanırlar.
Akran değerlendirmenin yapılabilmesi için değerlendirme ölçütlerinin
önceden belirlenmiş olması gerekir. Değerlendirme ölçütlerini gerekirse
öğretmen kendi belirler, ya da bu ölçütlere öğrencilerle birlikte karar verilir.
Akran değerlendirmenin başlangıçta nesnel bir biçimde
gerçekleştirilmesi güç olabilir. Öğrencilerin sevdikleri, yakın buldukları
arkadaşlarını değerlendirirken öznel davranma olasılıkları yüksektir.
Öğretmenin akran değerlendirmenin önemini ve nasıl yapılması gerektiğini
öğrencilerine açıklaması gerekir. Öz değerlendirmede olduğu gibi, akran
değerlendirme çalışmaları da belirli aralıklarla rutin olarak
gerçekleştirildiğinde, öğrencilerin bir süre sonra nesnel bir biçimde akran
değerlendirme yapmaya başladıkları görülecektir. Aşağıda, grup
çalışmalarında yararlanılabilecek bir akran değerlendirme formu örneğine
yer verilmiştir. Form, yeni ölçütler eklenerek geliştirilebilir.
150 Eğitimde Ölçme ve Değerlendirme

GRUP ÇALIŞMASI AKRAN DEĞERLENDİRME FORMU

Grubun Adı: ______________________________________________


Çalışmanın Adı: ___________________________________________
Değerlendirilen öğrencinin adı soyadı : _________________________
Değerlendirmeyi yapan öğrencinin adı soyadı: ___________________
Tarih: ___________________________________________________

1: Çok kötü 2: Kötü 3: Orta 4: İyi 5: Çok iyi

1. Grup toplantılarına düzenli olarak 1 2 3 4 5


katılma
2. Grup tartışmalarına düzenli olarak 1 2 3 4 5
katılma
3. Grup etkinliklerine düzenli olarak 1 2 3 4 5
katılma
4. Grubun ihtiyaçlarına katkıda bulunma 1 2 3 4 5
5. Fikir üretme 1 2 3 4 5
6. Diğerlerinin düşüncelerini dinleme 1 2 3 4 5
7. Toplantılarda alınan kararlara uyma 1 2 3 4 5
8. Çalışmanın paylaşımında adil davranma 1 2 3 4 5
9. Gruptaki sorumluluklarını yerine 1 2 3 4 5
getirme
10. Gruptaki diğer öğrencilere 1 2 3 4 5
çalışmalarında destek olma
11. Grup üyeleriyle iletişim kurma 1 2 3 4 5
12. Grup çalışmalarına katılmada isteklilik 1 2 3 4 5
13. Gerektiğinde gruba liderlik yapabilme 1 2 3 4 5
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 151

Grup Değerlendirme
Grup değerlendirme, grup çalışmalarının yapıldığı durumlarda, grup
üyelerinin hem kendilerini hem de grubun diğer üyelerini
değerlendirmesidir. Böylece öğrenciler birbirlerinin grup içerisindeki
çalışmalarını değerlendirmiş ve bu konuda birbirlerinin düşüncelerini
öğrenmiş olmaktadır.
Grup değerlendirmede, grup üyelerinin bireysel olarak yaptıkları
değerlendirmelerde ne kadar adil davrandığı ve her üyenin bireysel olarak
çalışmaya katkısının ne kadar farkında olduğu önemlidir.
Grup değerlendirme hem öz değerlendirme hem de akran
değerlendirmeyi içerdiğinden, her iki değerlendirmenin öğrencilerin
öğrenmelerine ve gelişimlerine katkıları bu değerlendirme için de geçerlidir.
Aşağıda, açık uçlu sorular yardımıyla oluşturulan bir grup
değerlendirme formu örneğine yer verilmiştir.

GRUP DEĞERLENDİRME FORMU


Grubun adı : ______________________________________________
Çalışmanın adı : ___________________________________________

1. Bu çalışmada, hangi çalışma yöntemlerini benimsediniz, neden?


____________________________________________________________
____________________________________________________________
2. Grubunuzu nasıl oluşturdunuz? Üyeler hangi rolleri benimsedi, neden?
____________________________________________________________
____________________________________________________________
3. Grubunuzda karşılaştığınız iki önemli olayı açıklayın. Bu olayların önemi nedir?
____________________________________________________________
____________________________________________________________
4. Grubunuzun çalışması ne kadar etkili oldu?
____________________________________________________________
____________________________________________________________
5. Aynı grupla bir başka çalışma gerçekleştirmeniz durumunda, farklı olarak nasıl
davranırdınız, neden?
____________________________________________________________
____________________________________________________________

* www.swap//aboutnew/layout.asp adlı siteden alınmıştır (05.05.2008).


152 Eğitimde Ölçme ve Değerlendirme

Öğrenci Performansını Değerlendirmede Kullanılabilecek


Ölçme Araçları
Değerlendirme ister süreç, ister ürün, isterse her ikisi için
gerçekleştirilsin; ister öğretmen, ister öğrencinin kendisi veya akranları,
isterse öğrenci velisi tarafından yapılsın; performansın izlenmesinde ister
gözlem, görüşme teknikleri kullanılsın, isterse öğrenciye performans
görevleri, projeler ya da araştırma kağıtları verilsin, değerlendirmenin
yapılmasında kullanılabilecek ölçme araçları testler, kontrol listeleri,
dereceleme ölçekleri vb. araçlardır.
Performans ödevleri, araştırma kağıtları, araştırma projeleri, gelişim
dosyaları ya da gözlem veya görüşme yoluyla öğrencilerin öğrenmelerinin
izlenmesinde karşılaşılan temel sorunlardan biri, standart kriterler olmadığı
sürece bu çalışmaların puanlanmasının öznel olmasıdır. Tüm bu
çalışmaların ve gözlem ve görüşme kayıtlarının nesnel ölçütlere göre
puanlanabilmesi, bu amaçla hazırlanan ölçme araçlarının (testler, kontrol
listelerinin ve dereceleme ölçeklerinin) güvenirlik ve geçerlikleriyle
doğrudan ilişkilidir.
Testler (çoktan seçmeli, kısa cevaplı vb.) önceki bölümlerde anlatıldığı
için, bu bölümde sadece kontrol listeleri ve dereceleme ölçekleri
açıklanacaktır.

Kontrol Listeleri
Kontrol listeleri, istenen davranış değişikliğinin öğrencide gerçekleşip
gerçekleşmediğini (var/yok, evet/hayır vb.) ortaya koymak amacıyla
kullanılan ölçme araçlarıdır. Kontrol listeleri, sadece ilgili davranışın
öğrencide bulunup bulunmadığı ile ilgili bilgi sunarlar; davranışın hangi
sıklıkta ve hangi düzeyde gösterildiğine ilişkin herhangi bir bilgi vermezler.
Bu nedenle kontrol listeleri, öğretmenlerin bir grup öğrenci hakkında genel
bilgilere ihtiyaç duyduklarında daha yararlıdır.
Kontrol listeleri, iyi düzenlendikleri taktirde eğitim hedeflerinin ve
amaçlarının belirlenmesi, dersin gerekliliklerinin ve beklentilerinin ortaya
konması, öğrencilerin öğrenme deneyimlerini inceleme, bu deneyimlere
odaklanma ve rehberlik etme, öğrencilere sınıf içi ya da sınıf dışı projelerini
gerçekleştirmede rehberlik etme ya da referans oluşturma, öğrencilere
geribildirim verme, öğretim etkinlikleri ve materyalleri geliştirme,
öğrencilerin öğrenmelerini olabildiğince nesnel bir biçimde değerlendirme,
öğrencilerin öğrenmelerini ve düşünmelerini destekleme gibi amaçlarla
eğitimde sıklıkla kullanılmaktadır (Hurst, 1979).
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 153

Kontrol listeleri, hazırlanması çok uzun zaman almayan ve kullanımı


basit ölçme araçları olmakla birlikte, davranışın sadece varlığı ya da yokluğu
ile ilgilenildiği için, öğrencinin gelişimine ilişkin genel durumun göz ardı
edilmesine neden olabilir.
Kontrol listelerinin oluşturulmasında, ölçülecek davranışların açık bir
biçimde tanımlanması ve bu davranışların göstergelerinin eksiksiz olarak listede
yer alması gerekir. Kontrol listesinde yer alan davranış göstergelerinin
değerlendirmede aynı ağırlığa sahip olup olmayacağının da önceden
kararlaştırılmış olması gerekmektedir. Aşağıda, öğrencilerin gerçekleştirdiği bir
performans görevinin değerlendirilmesi amacıyla dersin öğretmeni tarafından
hazırlanmış bir kontrol listesi örneği verilmiş ve bu örnek üzerinden, bir kontrol
listesinin hazırlanmasında dikkat edilmesi gereken ilkeler tartışılmıştır.

Performans Görevi Değerlendirme Formu


Öğrencilere yönelik performans görevlerini değerlendirirken aşağıdaki ifadeleri
kullanabilirsiniz.
Öğrencinin
Adı soyadı:
Numarası:
Kazanım ile ilgili ifadeler: Evet Hayır
1. Araştırmanın amacını ve konusunu belirlemiş
midir?
2. Araştırmayı nerelerde ve nasıl yapacağını saptamış
mı?
3. Araştırmayı yaparken kimlerden yardım alacağını
belirlemiş mi?
4. Araştırma sonucunda elde ettiği bilgileri not etmiş
mi?
5. Araştırma amacına ulaşabilmiş mi?
6. Araştırmada kendisine yardımcı olanlara teşekkür
etmiş midir?
7.
8.

Formu “Evet” veya “Hayır” bölümlerine “X” koyarak doldurunuz. “Hayır” bölümündeki
“X” işaretleriniz bir ya da daha fazlaysa öğrencinizin bu konudaki eksikliklerini
gidermesine yardımcı olunuz.
* http://www.dersimiz.com adlı siteden alınmıştır (22.05.2008).
154 Eğitimde Ölçme ve Değerlendirme

Yukarıda verilen kontrol listesi örneği bir ölçme aracında bulunması


gereken nitelikler bakımından incelendiğinde, listenin bir performans
görevinin değerlendirilmesinde kullanılmak üzere hazırlanmakla birlikte, bu
konuda dikkate alınacak ölçütlerin tamamını kapsamadığı gözlenmektedir.
Kontrol listesinde yer alan 6 ölçütün/davranış göstergesinin bir performans
görevinin değerlendirilebilmesi için yeterli olduğu söylenemez. Bununla
birlikte, listenin devamında 7, 8, şeklinde boş bırakılan alanlar,
değerlendirmecilerin buraya yeni ölçütler ekleyebileceği olarak
algılanmaktadır. Bu durumda da her değerlendirmecinin performans
görevini değerlendirmede farklı ölçütleri baz alabileceği düşünülebilir.
Standart bir listenin olmayışı, aynı amaç için farklı farklı kontrol listelerine
bağlı olarak gerçekleştirilen değerlendirmelerin güvenirliğinin ve
geçerliğinin sorgulanmasını beraberinde getirecektir.
Kontrol listeleri, anlık durumların ölçülmesinde daha kullanışlı
oldukları ve önerildikleri halde, yukarıdaki örnekte, gerçekleştirilme
düzeyinin de önemli olabileceği davranış göstergelerinin yer aldığı (örneğin;
“Araştırma amacına ulaşabilmiş mi?” ifadesi) gözlenmektedir. Bu durumda,
bir performans görevinin değerlendirilmesinde kontrol listesinden çok bir
dereceleme ölçeğinin kullanılmasının daha uygun olduğu görülebilir. Bu
anlamda hazırlanan bu kontrol listesi, bu performans görevinin
değerlendirilmesi için uygun bir ölçme aracı olmayacaktır.
Örnek kontrol listesinin incelenmesinde karşılaşılan bir diğer sorun,
“kazanım ile ilgili ifadeler” ifadesinin yanlış olmasıdır. Bunun yerine
“ölçütler” ya da “davranış göstergeleri” ifadesi daha uygundur. Yine,
“araştırmada kendisine yardımcı olanlara teşekkür etmek” bir performans
görevinin değerlendirilmesinde yer alması gereken olmazsa olmaz ölçütler
arasında mıdır, diğer bir ifadeyle bir araştırmanın gerçekleştirilmesinde
önemli bir davranış göstergesi midir ya da performans görevinin
değerlendirilmesinde diğer ölçütlerle aynı ağırlığa mı sahip olmalıdır,
tartışılması gerekir.

Dereceleme (Değerlendirme) Ölçekleri


Dereceleme ölçekleri, performans ödevleri, araştırma kağıtları,
araştırma projeleri ya da öğrenci gelişim dosyalarının değerlendirilmesinde;
gözlem ve görüşmelerin kaydedilmesinde; öz değerlendirme, akran
değerlendirme ya da grup değerlendirme çalışmalarının
gerçekleştirilmesinde sıklıkla kullanılan ölçme araçlarıdır. Kontrol
listelerinde, sadece ilgilenilen davranışın öğrencide bulunup
bulunmadığının belirlenmesi söz konusu iken, dereceleme ölçeklerinde bu
davranışın hangi düzeyde olduğu (sıklığı) önem taşır. Bu anlamda, kontrol
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 155

listeleri iki kategorili (evet/hayır, var/yok vb.) olarak düzenlenirken,


dereceleme ölçekleri en az 3 kategori olmak üzere farklı düzeylere sahip
olabilirler.
Dereceleme ölçeklerinde, ölçülmek istenen özelliğin davranışsal
göstergesi olacak ölçütler (boyutlar) ve (varsa) alt ölçütler (alt boyutlar) ile
bu ölçütlere (boyutlara) karşılık gelen tepki kategorileri yer alır. Her ölçüt,
aynı tepki kategorilerine göre derecelendirilir. Tepki kategorilerinin
sayısının ve bu kategorilerde kullanılacak ifadelerin ölçülmek istenen
özellikle uyumlu olması gerekir.
Aşağıda, öğrencilerin okuma becerilerini değerlendirmek amacıyla
hazırlanan bir gözlem formuna yer verilmiştir. Bu formu, bir ölçme aracının
düzenlenmesinde dikkat edilmesi gereken ilkeler bakımından inceleyelim.

Okuma Becerileri Gözlem Formu

Öğrencinin adı- soyadı: E K H


1. Okuma için hazırlık yaptı.
2. Okurken dikkat etmesi gereken kuralları
biliyor.
3. Okuyacağı metinle ilgili resimleri ve başlığı
inceledi.
4. Okuyacağı metin hakkında tahminlerde
bulundu.
5. Metni uygun ses tonuyla okudu.
6. Okurken noktalama işaretlerini dikkate aldı.
7. Kelimeleri ve cümleleri doğru olarak okudu.
8. Okuduğu metin hakkında sorulanları
cevapladı.
9. Okuduğu metinde anlatılmak istenen
düşünceyi söyledi.
10. Okuduklarını özetleyebildi.
11. Okuduklarıyla ilgili gerçek yaşamdan
örnekler verdi.

* http://www.dersimiz.com adlı siteden alınmıştır (16.05.2008).


156 Eğitimde Ölçme ve Değerlendirme

Yukarıda verilen gözlem formunda, okuma becerisinin davranışsal


göstergesi olduğu düşünülen 11 ölçüte yer verilmiş ve her bir ölçüt Evet-
Kısmen-Hayır olarak ifade edilen 3’lü tepki kategorisiyle
derecelendirilmiştir. Bu yönüyle hazırlanan formun 3 düzeyli bir
dereceleme ölçeği olduğu söylenebilir. Ancak bu durum, hazırlanan bu
formun ölçme tekniği açısından “nitelikli” bir form olarak kabul edilmesi
için yeterli değildir. Burada formun ölçme araçlarında bulunması gereken
nitelikler (güvenirlik ve geçerlik) bakımından gözden geçirilmesi gerekir.
Öncelikle, örnekteki gözlem formunda yer alan 11 ölçütün okuduğunu
anlama becerisinin değerlendirilmesi için mutlaka gerekli ve/veya yeterli
ölçütler olup olmadığı incelenmelidir. Bunun belirlenebilmesi, “okuduğunu
anlama becerisinin” kuramsal ve işevuruk tanımının yapılmasına bağlıdır.
Gözlem formunun birinci ölçütü “Okuma için hazırlık yaptı” olarak
belirlenmiştir. Bu ölçütün (ve diğer tüm ölçütlerin) okuduğunu anlama
becerisinin kanıtı sayılabilecek ve gözlenmesi önemli bir davranışsal bir
gösterge olup olmadığının tartışılmasına ihtiyaç vardır. Okuduğunu
anlamada okumaya hazırlık yapmak önemli bir ölçüt olabilir ancak
“okumaya hazırlık yaptı” davranışsal bir gösterge olarak kabul edilemez.
Okumaya hazırlık yapmak, öğrencinin okuyacağı metni önceki bir zaman
diliminde birkaç kez okuyarak alıştırma yapmasını mı, ses tonunu
ayarlamasını mı yoksa bir başka hazırlığı mı ifade etmektedir, bir belirsizlik
söz konusudur. Bu nedenle ifadenin farklı değerlendirmeciler tarafından
farklı şekillerde yorumlanması ve bu yorumlara bağlı olarak farklı
değerlendirmeler yapılması kaçınılmazdır. O halde bu ifade, okuduğunu
anlama becerisinin davranışsal göstergesi olarak bu şekliyle gözlem
formunda yer almamalı; okumaya hazırlık yapmakla ne ifade edilmek
isteniyorsa, doğrudan o ifadeler forma dahil edilmelidir.
Formun ikinci ölçütü olarak “Okurken dikkat etmesi gereken kuralları
biliyor” ifadesinde de benzer bir sorunun olduğu söylenebilir. Öğrencilerin
bir metni okurken dikkat etmesi gereken kurallar nelerdir? Bu kuralların
hepsinin bu ölçütle değerlendirilmesi mümkün müdür? Gözlem formunda
“evet” tepki kategorisinin işaretlenmesi, tüm bu kuralların yerine getirildiği
ya da “hayır” kategorisinin işaretlenmesi bu kuralların hiçbirinin yerine
getirilmediği anlamında yorumlanabilir mi? Tüm bu sorular, bu ölçütün bu
şekliyle kullanımının uygun olmadığını ve yeniden düzenlenmesi gerektiğini
göstermektedir. Üstelik aynı ölçüt, formda yer alan 5. ve 6. ölçütleri de
kapsamaktadır. Bir metin okunurken dikkat edilmesi gereken tüm kurallar
genel olarak ikinci ölçüt altında değerlendirirken, metni uygun ses tonuyla
okumak ve okurken noktalama işaretlerini dikkate almak ayrı birer ölçüt
olarak yeniden değerlendirilmektedir. Bu durum, bir ölçme aracında yer
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 157

alan maddelerin (ifadeler ya da sorular) birbirinden bağımsız olması


gerektiği ilkesine ters düşmektedir. Bu sorunu gidermek için, ölçüt ve alt
ölçütler oluşturulabilir. Ölçüt, “metnin okunmasında dikkat edilmesi
gereken kurallar” olarak ifade edilebilir. Bu ölçütün altında bu kuralların
her biri (eksiksiz olmak üzere) alt ölçüt olarak yerleştirilir ve her alt ölçütün
karşısında da tepki kategorileri yer alır. Burada, ölçütün değil alt ölçütlerin
derecelendirildiğine dikkat edilmelidir. Böyle bir düzenlemenin formdaki
görünümü aşağıdaki gibi olacaktır:

ÖLÇÜTLER E K H
1. …
2. …
3. Metnin okunmasında dikkat edilmesi gereken kurallar:
3.1. Noktalama işaretlerine uygunluk
3.2. Ses tonunun ayarlanması
3.3. Vurgulamaların yerinde yapılması
4. …
5. …

Örnek olarak verilen gözlem formundaki diğer ölçütlerde de benzer


sorunların olduğu görülebilir. Bu sorunlar, hazırlanan bu ölçme aracının
güvenirliği ve geçerliğinin tartışmalı olduğunu ortaya koyar. Bu tür bir form
kullanılarak yapılacak değerlendirmelerin de güvenirliği ve geçerliği
tartışmalı olacaktır.
Dereceleme ölçekleri genellikle 3-5 kategoriden oluşmaktadır. Grup
değerlendirme yapmak amacıyla, aşağıdaki gibi 5 kategorili bir dereceleme
ölçeği hazırlanabilir. Ölçekte yer alan ifadeler sadece örnek amacıyla
verilmiş olup, yeni ifadelerin eklenmesi yoluyla daha ayrıntılı bir düzenleme
yapmak mümkündür.
158 Eğitimde Ölçme ve Değerlendirme

Grubun adı:
Çalışmanın adı:

Grubunuzun çalışmasını, aşağıda verilen ifadelere katılma derecenizi 1-5


arasında işaretleyerek değerlendiriniz.

1: Kesinlikle katılmıyorum 2: Katılmıyorum 3: Kararsızım


4: Katılıyorum 5: Kesinlikle katılıyorum

1. Grup arkadaşlarım projeye eşit oranda 1 2 3 4 5


katkıda bulundular.
2. Gruptaki arkadaşlarım sorumluluklarını 1 2 3 4 5
yerine getirdi.
3. Gruptaki arkadaşlarım projedeki 1 2 3 4 5
çalışmada beni desteklediler.
4. Gruptaki arkadaşlarım çalışmalarının 1 2 3 4 5
sonuçlarını birbiriyle paylaştı.
5. Gruptaki arkadaşlarım birbirinin 1 2 3 4 5
düşüncelerini dinledi.
6. Bu grupla yeniden çalışmak isterim. 1 2 3 4 5
7. Grubumuz projeyi zamanında 1 2 3 4 5
tamamladı.
8. …

Kullanılan ölçme aracından elde edilen sonuçlar, araca en uygun


puanlama sisteminden yararlanılarak puanlanmalıdır. Puanlamanın
nesnelliği, ne kadar analitik bir puanlama yapılabildiğiyle ilişkilidir.
Dereceleme ölçeklerinde kullanılan tepki kategorilerinin sayısı arttıkça ve
tepki kategorilerinin tanımları ayrıntılandırıldıkça, analitik (ayrıntılı)
puanlama gerçekleşir. Genel izlenime dayalı bir puanlamadan (holistik
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 159

puanlama) daha ayrıntılı bir puanlamaya (analitik puanlama) gidildikçe,


puanlamanın nesnelliği dolayısıyla da güvenirliği artacaktır. Aşağıda, tepki
kategorilerinin her ölçüt için ayrıntılı olarak tanımlandığı bir dereceleme
ölçeğine yer verilmiştir.

GRUP ÇALIŞMASI DEĞERLENDİRME FORMU (işbirliği, sorumluluk, roller)*


Ölçütler Gelişmesi Yeterli İyi Mükemmel
gerek
Diğer insanların Nadiren Doğruyu Doğruyu Doğruyu
görüşlerini aktif ya da açıklayarak açıklayarak açıklayarak
dinlemek pasif olarak bazen aktif sıklıkla aktif düzenli olarak
dinler ve pasif ve pasif aktif ve pasif
olarak olarak dinler olarak dinler
dinler
Düşüncelerini ve Nadiren Bazen Sıklıkla Rutin olarak
kaynakları düşünceleri düşünceleri düşünceleri düşünceleri ve
paylaşmak ve ve ve kaynakları kaynakları
kaynakları kaynakları paylaşır paylaşır
paylaşır paylaşır
Çalışmayı Çalışmak Çalışmak Çalışmak için Çalışmaları öz-
paylaşmada için sürekli için nadiren teşvik yönetim
gönüllülük teşvik teşvik gerekmiyor biçiminde ve
edilmeli edilmeli diğerlerini teşvik
eder
Grup süresinin Nadiren bir Bazen bir Sıklıkla bir Her zaman bir
kullanımı görevde görevde görevde kalır görevde kalır ve
kalır ve kalır ve ve bazen görevdeki grubu
sıklıkla grubu görevdeki yönlendirir
grubu meşgul gruba
meşgul eder odaklanır
eder
Rollerini grubun Grupta bir Bağımsız Liderliği de Liderliği ve grup
ihtiyaçlarına rol olarak içeren farklı organizasyonuna
uyarlamak verilmesi belirli rolleri kabul yardımı da
için bekler roller kabul eder içeren farklı
eder rolleri rutin
olarak kabul
eder.
* İndirildi: http://www.englishbulldogs.ca/scienceguy/pdf/Learning%20Skills%20Rubric.pdf, 28.04.2008
160 Eğitimde Ölçme ve Değerlendirme

Örnekte görüldüğü gibi, grup çalışmasının göstergesi sayılabilecek 4


temel ölçüt belirlenmiş bu ölçütler de “gelişmesi gerek”, “yeterli”, “iyi” ve
“mükemmel” olarak adlandırılan 4 tepki kategorisiyle derecelendirilmiştir.
Ölçeğin diğer dereceleme ölçeklerinden temel farkı, her ölçüt için ayrı ayrı
olmak üzere tepki kategorilerinin ayrıntılı tanımlarının yapılmış olmasıdır.
Bu tür dereceleme ölçekleri “analitik rubrik” olarak da adlandırılmaktadır.
Bu tür ölçeklerin hazırlanması zaman alıcı olmakla birlikte, gözlenmek
istenen davranışın düzeyleri ayrıntılı olarak tanımlandığından daha tutarlı
derecelemeler yapılmasına olanak sağlamaktadır.
Bu tür ölçeklerin hazırlanmasında, gözlenmek istenen davranışın tüm
göstergelerinin (ölçütlerinin) ölçekte yer alıp almadığına, tepki
kategorilerinin sayısının ve adlandırmalarının gözlenmek istenen davranışa
uygun olup olmadığına ve aynı ölçüt için oluşturulan tepki kategorilerinin
tanımlarının birbirinden bağımsız ve ilgili tepki kategorisini karşılayacak
biçimde düzenlenip düzenlenmediğine dikkat edilmesi gerekmektedir.
Örneğin, “diğer insanların görüşlerini dinlemek” ölçütü için “gelişmesi
gerek”, tepki kategorisinde yer alan “nadiren aktif ya da pasif olarak dinler”
ifadesi hem diğer kategorilerde yer alan ifadelerden bağımsız bir ifade
olmalı, hem de “gelişmesi gerek” kategorisini tam olarak karşılayacak bir
tanım olmalıdır.

Özet
Öğrencilerin öğrenme sürecinde gerçekleştirdikleri çalışma ve
etkinliklerle, süreç sonunda ortaya koydukları ürünlerin değerlendirilmesi
Performans Değerlendirme olarak adlandırılır. Performans
değerlendirmeler, öğrencinin süreç içerisindeki gelişimi ve kazandığı
beceriler belgelenmesine; öğrenme sürecini engelleyen durumlarla ilgili
geribildirim vererek gerekli düzenlemelerin gerçekleştirilmesine olanak
sağlar. Değerlendirme aynı zamanda, velilerin de kendi çocuklarının
gelişimini ve kapasitelerini anlamalarına ve çocuklarının öğrenme sürecine
etkin bir biçimde katkıda bulunmalarına yardımcı olur.
Performans görevleri, araştırma kağıtları, araştırma projeleri ve öğrenci
gelişim dosyaları, öğrenci performansının izlenmesi amacıyla yararlanılan
çalışma ve etkinlikler arasında yer alır. Bunun yanında öğrenci performansı,
gözlem ve görüşme teknikleri yoluyla da izlenebilmektedir.
Yapılandırmacı yaklaşımla birlikte, öğrenci performansının
değerlendirilmesinde, öğretmenin yaptığı değerlendirmelerin yanında
öğrencilerin ve velilerin değerlendirmeleri de önem kazanmıştır.
Öğrencilerin değerlendirme sürecine katılımı, öz değerlendirme, akran
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 161

değerlendirme ve grup değerlendirme yoluyla gerçekleşmektedir. Bu tür


değerlendirmeler, öğrencilerin gelişimlerine ve öğrenmelerine bulundukları
katkı nedeniyle önem taşımaktadır.
Öğrenci performansının izlenmesinde yararlanılan çalışma, etkinlik ve
yöntemlerin değerlendirilmesinde çoğunlukla kontrol listeleri ve dereceleme
ölçeklerinden yararlanılır. Öğrencinin değerlendirme sürecine katılımı için
hazırlanan öz değerlendirme, akran değerlendirme ya da grup
değerlendirme formları da çoğunlukla açık uçlu sorulardan ya da kontrol
listeleri veya dereceleme ölçeklerinden oluşturulan formlardır. Kontrol
listeleri ile dereceleme ölçekleri arasındaki temel fark, kontrol listelerinin
gözlenen davranışın sadece varlığı ya da yokluğuyla ilgilenmesi; dereceleme
ölçeklerinin ise gözlenen davranışın sıklığı ya da düzeyini de dikkate
almasıdır. Dereceleme ölçeklerinde kullanılan tepki kategorilerinin sayısı
arttıkça ve tepki kategorilerinin tanımları ayrıntılandırıldıkça, analitik
(ayrıntılı) puanlama gerçekleşir; puanlama ne kadar ayrıntılı (analitik)
yapılırsa, yapılan puanlamanın nesnelliği, dolayısıyla da güvenirliği
artacaktır.
Öğrenci performansının değerlendirilmesinde yararlanılan kontrol
listeleri ve dereceleme ölçeklerinin hazırlanmasında dikkat edilmesi gereken
temel bazı ilkeler vardır. Bu ilkeler, bir ölçme aracında bulunması gereken
ilkelerden farklı değildir. Ölçme araçlarının bu ilkeler doğrultusunda
hazırlanması, güvenirlik ve geçerliklerinin de sağlanmasına hizmet edecektir.
Burada dikkat edilmesi gereken nokta, çoktan seçmeli, kısa cevaplı, açık uçlu
vb. testlerin hazırlanmasında güvenirlik ve geçerlik çalışmaları ne derece
önemliyse, kontrol listeleri ve dereceleme ölçeklerinin hazırlanmasında da
aynı düzeyde önemli olduğu ve bu niteliklerin hiçbir ölçme aracında göz ardı
edilmemesi gerektiğidir.
162 Eğitimde Ölçme ve Değerlendirme

Kaynakça
Alıcı, D., Gözen Çıtak, G. (2008). “Değerlendirme Yaklaşımlarında Kavram
Tartışmaları”, I. Ulusal Eğitimde ve Psikolojide Ölçme ve Değerlendirme
Kongresi, Ankara Üniversitesi Eğitim Bilimleri Fakültesi, 14-16 Mayıs 2008.
Ankara.
Anderson, R. S. (1998). Why Talk About Different Ways to Grade? The Shift From
Traditional Assessment to Alternative Assessment. New Directions for
Teaching and Learning, 74, 5-16.
Atılgan, H. (2006). Değerlendirme ve not verme. H. Atılgan (Ed.). Eğitimde ölçme
ve değerlendirme. Ankara: Anı Yayıncılık.
Baki, A., Birgin, O., Güven, B., Karataş, İ. (2004). “Bilgisayar destekli bireysel
gelişim dosyası (portfolio) uygulaması”. Eğitimde İyi Örnekler Konferansı,
İstanbul: Sabancı Üniversitesi, 17 Ocak 2004.
Baki, A. ve Birgin, O. (2002). Matematik Eğitiminde Alternatif Bir Değerlendirme
Olarak Bireysel Gelişim Dosyası Uygulaması. ODTÜ V. Ulusal Fen Bilimleri
ve Matematik Eğitimi Kongresi, 16-18 Eylül, ANKARA.
Barootchi, N. ve Keshavarz, M.H. (2002). Assessment of achievement through
portfolios and tescher-made tests. Educational Research, 44(3), 279-288.
Berberoğlu, G. (2006). Sınıf içi ölçme ve değerlendirme teknikleri. İstanbul: Morpa
Kültür Yayınları.
Chatterrji, M. (2003). Designing and using tools for educational assessment. Boston:
Pearson Education, Inc.
Cook-Benjamin, L. (2001). Portfolio assessment: benefits, issues of implementation,
and reflections on its use. Assessment Update, 13(4), 6-8.
Erkan, S. ve Gömleksiz, M. (2008). Eğitimde ölçme ve değerlendirme. Ankara: Nobel
Yayın Dağıtım.
Elliot, B. (2002). Measuring performance. Columbia: Delmar, Thomson Learning.
Hanson, M.F. and Gilkerson, D. (1999). Portfolio assessment: more than ABCs and
123s. Early Childhood Education Journal, 27(2), 81-86.
Hurst, J.B. (1979). Product and performance checklists in social studies education.
Social Studies, 70(4), 158-162.
Karakuş, F. (2006). Sosyal bilgiler öğretiminde yapıcı öğrenme ve otantik
değerlendirme yaklaşımlarının öğrencilerin akademik başarı, kalıcılık ve
sosyal bilgiler dersine yönelik tutumlarına etkisi. Yayınlanmamış doktora tezi.
Adana: Çukurova Ün. Sosyal Bilimler Enstitüsü.
Karip, E. (2007). Ölçme ve Değerlendirme. Ankara: PegemA Yayıncılık.
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 163

Kutlu, Ö., Doğan, C.D., Karakaya, İ. (2008). Öğrenci başarısının belirlenmesi:


Performansa ve portfolyoya dayalı durum belirleme. Ankara: Pegem Akademi
Yayıncılık.
Lomas, L., Hill, Y., MacGregor, J. (2004). Are students good judges of their
assessment performance? Paper presented at the European Conference on
Educational Research, University of Crete, 22-25 September 2004.
MEB (2007). Ölçme ve değerlendirmede tereddüt edilen hususlar konulu genelge.
İndirildi: 01.05.2008: http://www.meb.gov.tr
MEB (2008). Proje ve performans görevleri konulu genelge. İndirildi: 01.05.2008:
http://www.meb.gov.tr
Olkun, S. ve Toluk Uçar Z. (2006). İlköğretimde Matematik Öğretiminde Çağdaş
Yaklaşımlar. Ankara: Ekinoks Yayınları.
Özgüven, İ.E. (1980). Görüşme İlke ve Teknikleri . Ankara: İleri Matbaası.
Rust C., Price, M. and O’donovan, B. (2003) Improving students learning by
Developing their understanding of assessment criteria and processes.
Assessment and Evaluation in Higher Education, 28(2), 147-164.
Tan, Ş. (2006). Öğretimi Planlama ve Değerlendirme. Ankara: PegemA Yayıncılık.
Türnüklü, A.(2000). Eğitimbilim araştırmalarında etkin olarak kullanılabilecek nitel
bir araştırma tekniği: görüşme. Kuram ve Uygulamada Eğitim Yönetimi
Dergisi. Sayı:24.
Walsh, W.B., Betz, N.E. (2001). Tests and Assessment. (Fourth Edition). New
Jersey: Prentice Hall, Inc.
Woods, D., Marshall, R. and Hrymak, A. (1988). Self-assessment in the context of
the master problem-solving programme. Assessment and Evaluation in Higher
Education, 13, 107-127.
Yanpar Yelken, T. (2006). İlköğretim Sınıf Öğretmeni Adaylarının Sosyal Bilgiler
Dersinde Tamamlayıcı Değerlendirme Yaklaşımları Konusundaki Görüşleri.
Sosyal Bilimler Araştırmaları Dergisi, 2, 58-75.
Yıldırım, A., Şimşek, H. (2004). Sosyal bilimlerde nitel araştırma yöntemleri. Ankara:
Seçkin Yayıncılık.
164 Eğitimde Ölçme ve Değerlendirme

Sorular
1. Bir ilköğretim 2. sınıf öğretmeni, Hayat Bilgisi dersinde öğrencilerinden
“Atatürk’ün Hayatı” konulu bir proje hazırlamalarını istemiştir. Öğretmen,
öğrencilerinin hazırladığı projeleri değerlendirmek üzere bir dereceleme ölçeği
geliştirmiştir. Öğretmenin geliştirdiği dereceleme ölçeği aşağıdaki gibidir.

Orta Üst
düzeyde
ÖLÇÜTLER Geliştirilebilir Yeterli düzeyde
(2)
(1) (3) (4)
Araştırma
Yeterli düzeyde yapılmış
Araştırmalardan Çıkarımda
Bulunma Atatürk’ün hayatı ile
ilgili bilgileri yansıtılmış

Çalışmanın Niteliği
Resim, fotoğraf, model vb.
kullanılarak özgün bir çalışma
ortaya konmuş

Verilen dereceleme ölçeğinde yer alan ölçütler, aşağıdaki ilkelerden hangilerine


uygun değildir?
I. Kapsamın örneklenmesi
II. Ana ve alt ölçütlerin kapsayıcılığı
III. İfadelerin dil bilgisi ve yazım kurallarına uygunluğu
A) Yalnız I B) I ve II C) I ve III D) II ve III E) I, II ve III

2. Aşağıdaki önlemlerden hangileri, bir dereceleme ölçeğinden elde edilebilecek


puanların güvenirliğini arttırır?
I. Ayrıntılı puanlama yapmak
II. Kapsamın temsil edilebilirliğini sağlamak
III. Birden fazla değerlendiriciden yararlanmak
A) Yalnız I B) I ve II C) I ve III D) II ve III E) I, II ve III
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 165

3. “Grup çalışmalarında yer almaktan hoşlanır” şeklindeki bir ifadenin


derecelendirilmesinde, aşağıdaki tepki kategorilerinden hangisinin kullanılması
uygundur?
A) Evet-Ara Sıra-Hayır
B) Her zaman- Genellikle-Bazen-Hiçbir zaman
C) Çok Kötü-Kötü-Orta-İyi-Çok İyi
D) Bilmiyorum-Kararsızım-Olabilir-Kesinlikle
E) Tamamen Katılıyorum- Bazen Katılıyorum- Hiç Katılmıyorum

4. Bir öğrenci, internetteki bir ödev sitesinden hazır elde ettiği performans görevini,
öğretmenine kendi çalışması olarak sunmuştur. Öğrencinin bu davranışı,
aşağıdakilerden hangileri bakımından uygun değildir?
I. Değerlendirmenin güvenirliği
II. Değerlendirmenin geçerliği
III. Teknolojiden etkili bir biçimde yararlanma
A) Yalnız I B) Yalnız II C) I ve II D) I ve III E) I, II ve III

5. Aşağıdaki örnek durumlardan hangisinde, kontrol listesinin kullanılması daha


uygun olur?
A) İlköğretim 8. sınıf öğrencilerinin evcil hayvanlara ilişkin tutumlarının
ölçülmesinde
B) Öğrencilerin grup içerisindeki sorumluluklarını yerine getirme düzeylerinin
incelenmesinde
C) Öğrencilerin sınıf içerisinde derse etkin katılımının hangi sıklıkla
gerçekleştirdiğinin ortaya konmasında
D) Öğrencilerin ders çalışma alışkanlıklarının çeşitli ölçütlere göre
derecelendirilmesinde
E) Çocukların diş fırçalamada belirli kuralları yerine getirip getirmediklerinin
belirlenmesinde
166 Eğitimde Ölçme ve Değerlendirme

6. Öğrencilerin bağımsız çalışma becerilerinin değerlendirilmesi amacıyla oluşturulan


bir dereceleme ölçeğinde, ölçeğin performans düzeyleri ve ilk ölçüte karşılık gelen
performans tanımları aşağıdaki şekilde yapılmıştır.

Ölçütler Gelişmesi Yeterli düzeyde İyi Mükemmel


gerek
(2) (3) (4)
(1)
Ölçüt 1 Çalışması için Çalışmak için Çalışmak Çalışmak için
sürekli teşvik cesaretlendirmeye için biraz en ufak
etmek gerek ihtiyacı var desteğe teşvik
ihtiyacı gerekmiyor
olabilir
… … … … …

Bu tanımlara göre, “Ölçüt 1” de yer alabilecek ifade aşağıdakilerden hangisidir?


A) Çalışmaya isteklilik
B) Çalışmasını etkili bir biçimde sürdürme
C) Çalışma planı oluşturma
D) Gerekli olduğunda çalışma planını değiştirme
E) Çalışma süresini etkili kullanma

7. Öğrencinin sınıf içinde yaptığı sunum, aşağıdakilerden hangisi tarafından


değerlendirilemez?
A) öğrencinin kendisi
B) diğer öğrenciler
C) sınıf öğretmeni
D) okul müdürü
E) öğrencinin velisi
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 167

8. Araştırma projelerinin değerlendirilmesinde aşağıdakilerden hangilerinin yapılması


güvenirlik ve geçerliği sağlamada önemlidir?
I. Değerlendirme ölçütlerinin önceden belirlenmesi
II. Birden fazla değerlendiriciden yararlanılması
III. Değerlendirmenin hangi ölçme aracıyla yapılacağının belirlenmesi
A) Yalnız I B) Yalnız II C) I ve II D) I ve III E) I, II ve III

9. Öğrencilerin matematik dersiyle ilgili çalışma alışkanlıklarını ortaya koymak


amacıyla geliştirilen bir dereceleme ölçeği, bu tür ölçekleri geliştirme ilkelerine
uygunluk bakımından değerlendirilmek isteniyor.
Değerlendirmenin yapılması için hazırlanan formda, aşağıdaki sorulardan hangisi
yer almaz?
A) Ölçütler uygun mudur?
B) Ölçütler birbirinden bağımsız mıdır?
C) Ölçütler, ölçülecek davranışı temsil etmekte midir?
D) Ölçülecek davranışın kuramsal açıklamaları yapılmış mıdır?
E) Performans düzeylerinin sayısı uygun mudur?

10. Bir ilköğretim 1.sınıf öğretmeni, öğrencilerinin öz bakım becerilerini


değerlendirmek istiyor. Öğretmen, öğrencilerinin öz bakımlarıyla ilgili belirli
davranışları gösterip göstermedikleriyle ilgilendiğine göre, değerlendirme
çalışmasında aşağıdaki ölçme araçlarından hangisinden yararlanması en uygun
olur?
A) Dereceleme Ölçeği
B) Kontrol Listesi
C) Doğru-yanlış testi
D) Açık uçlu sınav
E) Çoktan seçmeli test

Cevap Anahtarı
1 2 3 4 5 6 7 8 9 10
B C B E E A E E D B
168 Eğitimde Ölçme ve Değerlendirme

Yrd. Doç. Dr. Devrim ALICI

Lisans derecesini 1991 yılında Hacettepe Üniversitesi Eğitimde Ölçme


ve Değerlendirme Anabilim dalında tamamladı. Yüksek lisans ve doktora
derecesini 1994- 2000 yılları arasında ABD de bulunan Louisiana State
University, Educational Measurement and Evaluation bölümünde
tamamladı. 2000 yılında Abant İzzet Baysal Üniversitesi, Eğitimde Ölçme ve
Değerlendirme Anabilim dalında yardımcı doçent olarak görev yapmaya
başladı. 2006 yılında doçentlik ünvanını aldı. Yazarın öğrenci başarıları,
geniş ölçekli başarı tesleri, öğrenme sitilleri ve akademik başarı arasındaki
etkileşim ve ölçme ve değerlendirme alanına ilişkin diğer konularda çeşitli
yabancı ve yerli makaleleri, kongre bildirileri ve kitap çalışmaları
bulunmaktadır. Yazar halen Abant İzzet Baysal Üniversitesi, Eğitimde Ölçme
ve Değerlendirme Anabilim dalında öğretim üyeliği görevine devam
etmektedir.
6. Bölüm

ÖLÇME SONUÇLARI
ÜZERİNDE YAPILABİLECEK
İSTATİSTİKSEL İŞLEMLER
Erol Karaca
Dumlupınar Üniversitesi

Kazanımlar
Bu bölüm sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir:
 Verileri sıralayıp frekans tablosunu hazırlayabilme
 Verileri gruplandırabilme
 Veriler üzerinde yürütülebilecek istatistiksel işlemleri
sınıflandırabilme
 En sık kullanılan merkezi yığılma ölçülerini sıralayabilme
 Aritmetik ortalama kavramını tanımlayıp özelliklerini
açıklayabilme
 Ağırlıklı ortalama kavramını tanımlayıp özelliklerini açıklayabilme
 Mod kavramını tanımlayıp özelliklerini açıklayabilme
 Ortanca kavramını tanımlayıp özelliklerini açıklayabilme
 En sık kullanılan dağılım ölçülerini sıralayabilme
 Ranj kavramını tanımlayıp özelliklerini açıklayabilme
 Standart sapma kavramını tanımlayıp özelliklerini açıklayabilme
 Varyans kavramını tanımlayıp özelliklerini açıklayabilme
 Çeyrek sapma kavramını tanımlayıp özelliklerini açıklayabilme
 Bağıl değişkenlik katsayısı kavramını tanımlayıp özelliklerini
açıklayabilme
170 Eğitimde Ölçme ve Değerlendirme

 Normal dağılım kavramını tanımlayıp özelliklerini açıklayabilme


 Çarpıklık katsayısı kavramını tanımlayıp özelliklerini açıklayabilme
 Basıklık katsayısı kavramını tanımlayıp özelliklerini açıklayabilme
 Standart puan kavramını tanımlayıp özelliklerini açıklayabilme
 Yaygın olarak kullanılan korelasyon tekniklerini sıralayabilme
 Pearson Momentler Çarpımı Korelasyon katsayısı kavramını
tanımlayıp özelliklerini açıklayabilme
 Spearman Brown Sıra Farkları Korelasyon katsayısı kavramını
tanımlayıp, özelliklerini açıklayabilme
 Verilen örnekler üzerinde, istatistiksel işlemler yapabilme
 Verileri bir bütün olarak analiz edip değerlendirebilme

Konu Başlıkları
 Giriş
 Verilerin Düzenlenmesi
 Veriler Üzerinde İstatistiksel İşlemlerin Yapılması
• Merkezi Yığılma Ölçüleri
• Dağılım Ölçüleri
• İlişki Ölçüleri
 Özet
 Kaynakça
 Sorular
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 171

Giriş
Sınav sonuçları puanlandıktan sonra, eğitim-öğretim etkinliğinin
yürütülmesinin sağlanmasında yararlanılmak üzere, puanların bir bütün
olarak analiz edilip değerlendirilmesi gerekir. Bu amaçla sınavın
uygulandığı gruptan elde edilen veriler üzerinde istatistiksel işlemler yapılır.
Ancak, sınav sonuçlarının bütününe ait özellikleri ortaya koymada
yararlanılan istatistiksel işlemlerin yapılabilmesi, yorumlanabilmesi ve sınav
hakkında bazı kanaatlere ulaşılabilmesi için, verilerin düzenlenmesi ve
frekans tablosunun hazırlanması gerekmektedir.

Verilerin Düzenlenmesi

Verilerin Sıraya Dizilmesi


Verilerin düzenlenmesi, puanların büyükten küçüğe ya da küçükten
büyüğe doğru sıralanması yoluyla yapılır (Tekin, 1977). Örnek olarak 60
öğrencinin 40 soruluk kimya sınavından aldıkları ham puanların küçükten
büyüğe doğru sıralanmış hali Tablo 6.1’de gösterilmiştir.

Tablo 6.1:60 Öğrencinin 40 Soruluk Kimya Sınavından Aldıkları


Ham Puanların Sıralanmış Hali
5 27 30
15 27 30
19 27 30
19 27 32
22 28 32
22 28 33
22 28 33
22 28 33
22 28 33
22 28 34
25 28 34
25 28 34
25 29 35
26 29 35
26 29 35
26 29 35
26 30 37
26 30 37
26 30 38
26 30 39
172 Eğitimde Ölçme ve Değerlendirme

Puanlar sıralandıktan sonra, puan dizisinin üst ve alt sınırları kolayca


belirlenir (Turgut, 1988). Tablo 6.1’deki veriler incelendiğinde, 60
öğrencinin 40 soruluk kimya sınavından aldıkları ham puanların 5 ile 39
arasında değiştiği ve saptanan alt ve üst sınırlar arasındaki puanların
bazılarının birden fazla olduğu, bazılarının ise hiç mevcut olmadığı
görülmektedir.

Verilerin Tablolaştırılması (Frekans Tabloları)


Ham puanların sıralanarak alt ve üst sınırlarının belirlenmesi, yalnız
başına verilerin yorumlanması için yeterli değildir. Verilerden daha fazla
bilgi elde etmek için ayrıca verilerin tablolaştırılmasına, başka bir deyişle
frekans tablosunun hazırlanmasına gereksinim vardır. Tablo 6.1’de sıralı
halde verilmiş olan verilerin frekans tablosu Tablo 6.2’de verilmiştir.

Tablo 6.2:60 Öğrencinin 40 Soruluk Kimya Sınavı Puanlarının Frekans


Tablosu
Puanlar Frekans Toplamlı Yüzde Toplamlı
(X) (f) Frekanslar (%) Yüzdeler
(tf) (ty)

5 1 1 1,70 1,70
15 1 2 1,70 3,30
19 2 4 3,30 6,70
22 6 10 10,00 16,70
25 3 13 5,00 21,70
26 7 20 11,70 33,30
27 4 24 6,70 40,00
28 8 32 13,30 53,30
29 4 36 6,70 60,00
30 7 43 11,70 71,70
32 2 45 3,30 75,00
33 4 49 6,70 81,70
34 3 52 5,00 86,70
35 4 56 6,70 93,30
37 2 58 3,30 96,70
38 1 59 1,70 98,30
39 1 60 1,70 100,00
Toplam 60 100,00
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 173

Frekans tablosunda birinci sütuna ölçme konusu olan verilerin


değerleri yazılır. Tablo 6.2’de ölçme konusu olan veriler 60 öğrencinin 40
soruluk kimya sınavından aldıkları puanlardır. Bu veriler, X ile
gösterilmiştir. Frekans tablosunun ikinci sütununa ise ölçme konusu olan
verilerin frekansı yazılır ve f ile gösterilir. Frekans verilerin herhangi bir
değerinin tekrar sayısıdır. Tablo 6.2’ye göre frekans, her X puanından kaç
öğrencinin almış olduğunu gösterir. Örneğin, Tablo 6.2’de 60 öğrenciden 1’i
5, 7’si 26 ve 1’i 3 puan almıştır.
Tablo 6.2’de üçüncü sütunda yer alan toplamlı frekanslar (tf),
frekanslar toplamının alınmasında ve verilerin tabloya geçirilmesinde bir
hatanın yapılıp yapılmadığını gösterir. Bu yüzden frekanslar toplamının veri
sayısına eşit olması gerekmektedir. Tablo 6.2’de verilerin toplam sayısı ve
frekanslar toplamının 60 olduğu görülmektedir.
Yüzde, bir veriye ait frekansın toplam frekansa bölünüp 100 ile
çarpılması ile elde edilir. Yüzde değerlerinin toplamının Tablo 6.2’de
olduğu gibi, 100 olması gerekir. Yüzde ve toplamlı yüzdeler eklenerek
veriler hakkında daha fazla yorum yapılabilir. Öğrencilerin grup içindeki
yeri belirlenebilir.

Verilerin Gruplandırılması
Frekans tablosunda hem puanlar sıralanır, hem de puandan kaç tane
olduğu sayılarak frekanslar bulunur. Ancak hem puan dağılımının genel
gidişini daha iyi görebilmek ve hem de hesaplamaları kolaylaştırmak için
verilerin gruplandırılması gerekmektedir.
Veriler gruplandırılırken öncelikle grup sayısı saptanır. Grup sayısının
puan dağılımının gerçek özelliklerinin kaybolmaması için küçük
seçilmemesine ve hesaplama işlemlerinin kolaylığı için büyük seçilmemesine
dikkat edilmelidir. Ayrıca grup sayısının tek olması, puan dağılımında
simetri sağladığı için, puanların 7, 9, 11 ve 13 gibi tek sayıda gruba ayrılması
da uygun olacaktır (Turgut, 1988).
Grup sayısı saptandıktan sonra, dizi genişliği grup sayısına bölünerek
aralık genişliği (aralık ölçüsü) bulunur. Tablo 6.3’te grup sayısı 7 olarak
saptandığına göre, aralık genişliği (39-5)/7≈5 bulunur. Hesaplama
işlemlerinin kolaylığı açısından gruplamada aralıkların eşit genişlikte
olmasına dikkat edilmelidir (Akhun, 1988). Tablo 6.3’te 5 puanlık eşit
aralıklarla Tablo 6.2’deki puanlar gruplandırılmıştır.
174 Eğitimde Ölçme ve Değerlendirme

Tablo 6.3:60 Öğrencinin 40 Soruluk Kimya Sınavından Aldıkları


Gruplandırılmış Puanların Frekans Tablosu
Ondalık
Toplamlı Basamaklarda
Puan Aralığı (f) Frekanslar Aralık Sınırları

5-9 1 1 4,50-9,50
10-14 0 1 9,50-14,50
15-19 3 4 14,50-19,50
20-24 6 10 19,50-24,50
25-29 26 36 24,50-29,50
30-34 16 52 29,50-34,50
35-39 8 60 34,50-39,50
Toplam 60

Aralık sınırları Tablo 6.3’ün sol sütununda olduğu gibi tam sayılarla
saptanabilir. Ortancanın ve diğer yüzdeliklerin bulunmasında tam puanın
kesirlerine inileceği için, Tablo 6.3’ün sağ sütununda olduğu gibi, aralık
sınırlarının kesirli sayılarla da saptanabilmesi mümkündür (Turgut, 1988).
Bazen frekans tablosunda frekanslarla birlikte, dizinin altından itibaren
frekanslar toplanarak bulunan toplamlı (yığmalı) frekanslar da gösterilir.
Frekanslar bu şekilde sayı ile gösterildiği gibi, Tablo 6.4’teki gibi çetele
ile de gösterilebilir:
Tablo 6.4:60 Öğrencinin 40 Soruluk Kimya Sınavından Aldıkları
Gruplandırılmış Puanların Frekansının Çetele ile Gösterilmesi
PuanAralığı Çetele (f)
5-9 / 1
10-14 - 0
15-19 /// 3
20-24 ////// 6
25-29 ////////////////////////// 26
30-34 //////////////// 16
35-39 //////// 8
Toplam 60
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 175

Verilerin düzenlenmesinde ve özetlenmesinde başvurulan yollardan


biri olarak tablolardan yararlanılabileceği gibi, grafiklerden de
yararlanılabilir. Grafik, bir değişkene veya birbiriyle ilgili birden çok
değişkene ait verilerin şekillerle gösterilmesidir. Grafikler tablolardan daha
fazla bilgi vermedikleri halde anlaşılmaları daha kolaydır. Ayrıca tablolara
göre önemli bazı hususların vurgulanmasında da daha etkili olarak
kullanılabilmektedir. Grafikler verilerin ölçek özelliklerine göre, bar grafiği
(sütun grafiği, çubuk grafiği), histogram, çizgi grafiği ve frekans poligonu
gibi değişik adlar alır (Baykul, 1997).
Bar grafiği, her puanın veya puan aralığının frekansının bir sütun ile
gösterildiği, verileri grafik ile göstermenin yaygın olarak kullanılan
yollarından biridir (Akhun, 1988). Örneğin, Şekil 6.1’de 60 öğrencinin 40
Soruluk kimya sınavından aldıkları gruplandırılmış puanların bar grafiği
gösterilmektedir.

30

20
Frekans

10

0
7,00 12,00 17,00 22,00 27,00 32,00 37,00
Puan

Şekil 6.1:60 Öğrencinin 40 Soruluk Kimya Sınavından Aldıkları Puanların


Gruplandırılmış Halini Gösteren Bar Grafiği
176 Eğitimde Ölçme ve Değerlendirme

Bar grafiğinde yatay eksen ham puan ekseni, dikey eksen ise frekans
eksenidir. Yatay eksende puan aralıklarının sınırları veya her aralığın orta
değeri gösterilir. Bar grafiğinde her aralık, frekansıyla oranlı bir sütunla
gösterilir.
Verileri şekil ile göstermenin yaygın olarak kullanılan yollarından bir
diğeri ise, yüzdelik bağıl frekans dağılımlarını göstermek için kullanılan
histogram grafiğidir.
Histogram, bar grafiğine benzemekle birlikte, bar grafiğinden farklı
olarak sürekli grup aralıklarıyla çizilmektedir. Yatay eksende değişkene ait
sürekli hale getirilmiş grup aralıkları, dikey eksende frekanslar gösterilir.
Örneğin, Şekil 6.2’de 60 öğrencinin 40 soruluk kimya sınavından almış
oldukları, gerçek grup aralıklarıyla gruplandırılmış puanlarının histogram
grafiği gösterilmektedir.

30

20
Frekans

10

0
0,00 10,00 20,00 30,00 40,00
Puan

Şekil 6.2:60 Öğrencinin 40 Soruluk Kimya Sınavından Aldıkları Puanların


Gruplandırılmış Halini Gösteren Histogram Grafiği

Çizgi grafiği de verileri grafik ile göstermenin yaygın olarak kullanılan


yollarından biridir. Frekans dağılımına ait grafiğin çizilmesinde, yatay
eksende bu grupların orta noktalarına ait değerler alınırsa, çizgi grafiği elde
edilir (Baykul, 1997). Örneğin, Şekil 6.3’te 60 öğrencinin 40 soruluk kimya
sınavından almış oldukları gruplandırılmış puanların çizgi grafiği
gösterilmektedir.
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 177

Frekans

30

20

10

0 Puan
0 10 20 30 40
Şekil 6.3:60 Öğrencinin 40 Soruluk Kimya Sınavından Aldıkları Puanların
Gruplandırılmış Halini Gösteren Çizgi Grafiği

Frekans dağılımını şekille ifade etmenin bir başka yolu da frekans


poligonu çizmektir. Frekans poligonu, frekansların dağılımını göstermek
için çizilebileceği gibi bağıl frekansların dağılımının gösterilmesi için de
kullanılabilir. Örneğin, Şekil 6.4’te 60 öğrencinin 40 soruluk kimya
sınavından almış oldukları gruplandırılmış puanların frekans poligonu
gösterilmektedir.
Frekans

30

20

10

Puan
0
0 10 20 30 40

Şekil 6.4:60 Öğrencinin 40 Soruluk Kimya Sınavından Aldıkları


Puanların Gruplandırılmış Halini Gösteren Frekans Poligonu
178 Eğitimde Ölçme ve Değerlendirme

Veriler Üzerinde İstatistiksel İşlemlerin Yapılması

Verilerin bütününe ait özellikleri ortaya koymada veri istatistiklerinden


yararlanılmaktadır. Veri istatistikleri “merkezî yığılma ölçüleri”, “dağılım
ölçüleri” ve “ilişki ölçüleri” olarak kategorize edilebilir.

Merkezî Yığılma Ölçüleri


Puanların, dağılımın ortasında yığılma eğilimi göstermesi merkezî
yığılma olarak ifade edilir. En sık kullanılan merkezî yığılma ölçüleri
“aritmetik ortalama”, “ağırlıklı ortalama”, “mod” (tepe değer) ve “ortanca”
(medyan) dır.

Aritmetik Ortalama
Aritmetik ortalama, en çok kullanılan merkezî yığılma ölçüsüdür.
Çünkü aritmetik ortalama, daha çok verinin kullanılabileceği ileri düzeydeki
analizler için çok elverişlidir.
Aritmetik ortalama, verilerin toplamının veri sayısına bölünmesiyle
bulunur. Aritmetik ortalama 6.1’de verilen formüllü hesaplanabilir.

X=
X 1 + X 2 + X 3 + .....X N
X=
∑X
N N
X : Aritmetik ortalama (6.1)

ƩX : Verilerin toplamı
N : Veri sayısı

Örneğin, 10 öğrencinin herhangi bir dersin sınavından almış oldukları


ham puanlar sırasıyla 80, 75, 60, 55, 50, 40, 35, 30, 25 ve 20 ise, söz konusu
sınavın aritmetik ortalaması;

80 + 75 + 60 + 55 + 50 + 40 + 35 + 30 + 25 + 20
X = = 47,00' dir.
10
Tablo 6.2’de frekans tablosunda yer alan 60 öğrencinin 40 Soruluk
kimya sınavı puanlarının aritmetik ortalaması, aynı tabloya Tablo 6.5’deki
gibi, (fX) sütunu açılarak şu şekilde hesaplanır.
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 179

X = 1694/60 = 28,23’dür.
Bu sınavın amacının öğrenme düzeylerine göre öğrencileri birbirinden
ayırt etmek olduğu varsayılırsa, sınavdan alınabilecek en yüksek puan 40
olduğuna göre, aritmetik ortalamanın bu sınavdan alınabilecek en yüksek
puanın yarısının üzerinde olması (28,23) olması, sınavın ayırt edici özelliğe
sahip olduğunu göstermektedir.

Tablo 6.5:60 Öğrencinin 40 Soruluk Kimya Sınavı Puanlarının


Aritmetik Ortalamasının Hesaplanmasıyla İlgili Çalışma Tablosu
Puanlar (X) Frekans (f) fX
5 1 5
15 1 15
19 2 38
22 6 132
25 3 75
26 7 182
27 4 108
28 8 224
29 4 116
30 7 210
32 2 64
33 4 132
34 3 102
35 4 140
37 2 74
38 1 38
39 1 39
Toplam 60 1694

Gruplandırılmış verilere ait aritmetik ortalamanın hesaplanmasında


değişkenin değerleri olarak grup aralıklarının orta noktalarına karşı gelen
değerler, frekans olarak da grupların frekansları alınır. Tablo 6.3’teki 60
öğrencinin 40 soruluk kimya sınavı puanlarına ait gruplamaya ilişkin
aritmetik ortalama şu şekilde hesaplanabilir.
180 Eğitimde Ölçme ve Değerlendirme

Tablo 6.6:60 Öğrencinin 40 Soruluk Kimya Sınavı Puanlarının


Gruplandırılmış Haline Ait Aritmetik Ortalamasının Hesaplanması İçin
Çalışma Tablosu
Orta Nokta (f) (fX)
7,50 1 7,50
12,50 0 0
17,50 3 52,50
22,50 6 135,00
27,50 26 715,00
32,50 16 520,00
37,50 8 300,00
Toplam 60 1730,00

X = 1730/60 = 28,83’dür.
Görülebileceği üzere, Tablo 6.5’deki verilere dayalı olarak hesaplanan
aritmetik ortalama ile Tablo 6.6’daki verilere dayalı olarak hesaplanan
aritmetik ortalama aynı değildir. Bu farklılığın nedeni, Tablo 6.6’daki
verilerin gruplanması sırasındaki bilgi kaybıdır. Bu bakımdan Tablo 6.5’teki
verilere dayalı olarak bulunan aritmetik ortalama, Tablo 6.6’daki verilere
dayalı olarak bulunan aritmetik ortalamadan gerçeğe daha yakındır.

Ağırlıklı Ortalama
Birden çok veri kümesinin bulunduğu durumlarda, bunların farklı
katsayılarla ağırlıklandırılması gerekir. Örneğin, bir yarıyılda herhangi bir
dersten yapılan ölçme işlemlerinin farklı katsayılarla çarpıldıktan sonra
ortalamalarının hesaplanması gerekir (Baykul, 1989). Bu şekilde
hesaplanan ortalamaya ağırlıklı ortalama denir. Ağırlıklı ortalama 6.2’de
verilen formülle hesaplanabilir.
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 181

a 1 X 1 + a 2 X 2 + a 3 X 3 .....a N X N
X=
a 1 + a 2 + a 3 .....a N (6.2)
X : Ağırlıklı ortalama
a N X N : Her bir verinin kendi ağırlıklandırma katsayısı ile
çarpımının toplamı
aN : Ağırlıklandırma katsayısı toplamı

Örneğin, ikinci yarıyılda aldığı fizik dersi proje/ödevinden 90 puan,


yazılı sınavından 55 puan ve sözlü sınavından 90 puan alan bir öğrencinin
fizik dersi ağırlıklı puan ortalaması, proje/ödev, yazılı sınav ve sözlü sınav
puanlarına verilmek istenen ağırlığa, başka bir deyişle söz konusu puanlar
için öngörülen katsayıya bağlıdır. Sırasıyla bu puanlara verilmek istenen
ağırlık ya da katsayı %50, %30 ve %20 şeklinde belirlenmişse, o derse
ilişkin öğrencinin ağırlıklı puan ortalaması (6.2) formülü ile şu şekilde
hesaplanır:
50 x90 + 30x 55 + 20x90
X= = 79,50
50 + 30 + 20
Oysaki söz konusu derse ilişkin aritmetik ortalama ise,
90 + 55 + 90
X= = 78,33 ’dür.
3
Aritmetik ortalama, ağırlıklı ortalamanın, bütün ağırlıkların 1’e eşit
olması durumuna ait özel halidir (Baykul, 1997). Verilerin toplamının veri
sayısına bölümü olarak tanımlanan ve verilerin ağırlık merkezi olan
aritmetik ortalamanın hesaplanmasında bir gruptaki verilerin tamamı
kullanılmaktadır. Bu durum aritmetik ortalamayı, veri grubunu temsil
ediciliği yönünden diğer merkezî yığılma ölçülerine göre üstün kıldığı gibi,
verilerdeki değişikliklere karşı da daha duyarlı kılmaktadır. Ayrıca aritmetik
ortalama, diğer merkezî yığılma ölçülerine göre matematiksel işlemlere
daha uygundur. Bu nedenle verilerle ileri analizler yapılacaksa, aritmetik
ortalamanın kullanılması uygun olur. Buna karşın aritmetik ortalamanın
verilerin ağırlık merkezi olması, diğer merkezî yığılma ölçülerine göre,
ölçme sonuçları arasındaki, özellikle uçlardaki kopmalardan daha fazla
etkilenmesine yol açar. Bu nedenle kopmaların bulunduğu veri gruplarında
diğer merkezî yığılma ölçülerine göre, aritmetik ortalamanın kullanılması
uygun olmaz (Baykul, 1997).
182 Eğitimde Ölçme ve Değerlendirme

Mod
Mod, bir veri grubunda frekansı en büyük olan değerdir. Verilerden, en
çok kişi tarafından alınmış olan değer hangisi ise, o değer mod’dur.
Mod frekansı en büyük olan veri olduğundan modu bulmak için sadece
frekansı en yüksek olan değeri bulmak yeterlidir (Erdoğan-Ural-Tüzün,
1984). Örneğin; bir sınavdan 15 öğrencinin aldıkları puanlar sırasıyla 25, 30,
30, 40, 45, 45, 45, 50, 50, 55, 55, 60, 65, 70 ve 70’dir. Bu sıralamaya göre, 25,
40, 60 ve 65 puanı 1 öğrenci; 30, 50, 55 ve 70’i 2 öğrenci; 45 puanı ise 3
öğrenci almıştır. Bu veri grubunda en çok tekrar eden değer 45 olduğu için,
bu verilere ait mod 45’tir.
Tablo 6.2’deki verilere dayalı olarak, 60 öğrencinin 40 soruluk kimya
sınavı puanlarının modu ise, 28’dir. Çünkü bu veri grubunda en çok tekrar
eden değer 28’dir.
Gözlem sonunda elde edilen verilerin her birinin tekrar sayısı birbirine
eşitse, bu durumda mod olmaz (Arıcı, 1981). Örneğin; 30, 30, 50, 50, 70, 70,
80, 80, 95 ve 95 şeklindeki veri grubunda mod yoktur. Çünkü bu veri
grubunda verilerin hepsi eşit sayıda tekrarlanmıştır.
Ardışık iki veri birbirine eşit sayıda ve diğer verilerden daha çok
tekrarlanmışsa, bu gibi durumlarda mod, iki verinin orta noktasıdır (Arıcı,
1981). Örneğin; 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 30, 30, 31 ve 31
şeklindeki bir veri grubunda mod, 28,50’dir. Çünkü 28 ve 29 eşit sayıda ve
diğer verilerden daha çok tekrarlanmıştır. Bunların orta noktası da
28,50’dir.
Ardışık olmayan iki ya da daha çok veri eşit sayıda ve diğer verilerden
çok tekrarlanırsa, bu verilerin hepsi mod sayılır ve veri grubunun çift ya da
çok modlu olduğu kabul edilir (Arıcı, 1981). Bir veri grubunun birden çok
modlu olması, verilerin hangi değer etrafında toplandığı hakkında sağlıklı
bilgi vermez. Bu gibi durumlarda mod kullanılmaz (Baykul, 1997). Örneğin,
30, 35, 43, 43, 45, 60, 57, 70, 72, 72, 80 ve 95 şeklindeki bir veri grubunda
mod, 43 ve 72’dir. Çünkü bu veri grubunda ardışık olmayan iki veri eşit
sayıda ve diğer verilerden çok tekrarlanmıştır. Bu yüzden bu veri grubu çift
modludur. Veri grubunun iki modlu olması, verilerin çok heterojen
olduğunu, başka bir deyişle çok fazla yayılmış olduğunu, bu yayılmanın iki
veri etrafında ayrı gruplar oluşturacak şekilde toplandığını ifade eder
(Baykul, 1997).
Bir veri grubunda en çok tekrarlanan veri olarak modun
hesaplanmasında, söz konusu veri grubundaki verilerin aritmetik
ortalamaya kıyasla daha az sayıdaki kısmı kullanılmaktadır. Bu durum,
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 183

modu, verileri temsil ediciliği yönünden aritmetik ortalama ve ortancaya


göre daha zayıf kılar.

Ortanca
Ortanca, dizideki veriler kendi aralarında büyüklük sırasına
konduğunda bu verilerden yarısını altta, diğer yarısını da üstte bırakan
değerdir. Başka bir deyişle ortanca, büyüklük sırasına dizilmiş puanlardan,
dizinin tam ortasına düşen puandır.
Ortanca gruplandırılmamış ve sıralanmış verilerde (N+1)/2 formülüyle
hesaplanır (Akhun, 1988-a).
Dizideki veri ya da ölçü sayısı tek ise ortanca, sıralamada ortada yer
alan verinin değeridir (Baykul, 1997). Örneğin; bir sınavdan 17 öğrencinin
aldıkları puanlar sırasıyla; 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 30,
30, 31 ve 31’dir. Bu verilere ait ortanca 28’dir. Bu örnekte ortanca direkt
olarak üstünde ve altında eşit sayıda kişi bırakan 9. kişinin aldığı puandır.
Ortancanın hesaplanmasında asıl nokta tam ortadaki ölçümün
bulunmasıdır. Örnekte 9. kişi, 17 kişi içinde tam ortada olduğu için, bu
kişinin puanı ortancadır. Yapılan açıklamalardan da anlaşılabileceği üzere,
ortancanın kullanılabilmesi için verilerin en az sıralama ölçeğinde olması
gerekir (Baykul, 1997).
Dizideki veriler her zaman yukarıdaki örnekte olduğu gibi ortancanın
kolayca bulunması için elverişli olmaz. Bu durumda ortancanın bulunması,
verilerin tek veya çift sayıda olmasına, tam ortaya düşen ölçme sonucunun
tekrarlanmış olup olmamasına ve verilerin gruplandırılmış olup olmamasına
göre farklılaşır.
Dizideki veri ya da ölçü sayısı çift ise ortanca, sıralamada ortada yer
alan iki verinin ya da ölçünün orta noktasıdır (Tekin, 1977). Örneğin; bir
sınavdan 12 öğrencinin aldıkları puanlar sırasıyla; 40, 45, 45, 50, 55, 60, 65,
70, 70, 75, 80 ve 90’dır. Bu verilere ait ortanca 62,50’dir. Oysaki hiç kimse
62,5 puanını almamıştır. 12 kişiye ait puanların ortası, ne 6. kişinin ne de 7.
kişinin aldığı puandır. Bu durumda ortaya yakın olan 6. ve 7. kişilerin
puanları toplanıp ikiye bölünür. Verilen örneğe göre bu işlem yapılırsa
verilere ait ortanca (60+65)/2=62,50 bulunur.
Tablo 6.2’deki verilere dayalı olarak, 60 öğrencinin 40 soruluk kimya
sınavı puanlarının ortancası ise, dizideki veri sayısı çift olduğu için,
sıralamada ortada yer alan iki verinin orta noktasıdır. Buna göre söz konusu
verilere ait ortanca, 30. ve 31. öğrencinin puanlarının orta noktası olan
28’dir.
184 Eğitimde Ölçme ve Değerlendirme

Ortanca gruplandırılmış verilerde ise, frekans dağılımdan hesaplanır.


Puanlar gruplandırılmış ve yığmalı frekanslar bulunmuş ise, ortancanın
hesaplanmasında 6.3’te verilen formül kullanılır.

⎡n ⎤
⎢ 2 − tf A ⎥
X ort = A ort + ⎢ ⎥⋅a (6.3)
⎢ f ort ⎥
⎣⎢ ⎦⎥
Xort : Ortancanın değeri
Aort : Ortancanın bulunduğu aralığın alt sınırı
tfA : Ortancanın bulunduğu aralığa kadar olan frekanslar toplamı
fort : Ortancanın bulunduğu aralığın frekansı
n : Veri sayısı
a : Grup aralık katsayısı

Gruplandırılmış verilerde frekans dağılımından ortanca hesaplanırken,


izlenmesi gereken aşamalar şu şekilde sıralanabilir (Akhun, 1988):
• Öncelikle frekanslar toplamının yarısı bulunur.
• Frekanslar toplamının yarısına göre ortancanın düştüğü puan
aralığı saptanır.
• Puan aralığına göre alt ve üst sınır belirlenir.
• Puan aralığının alt ve üst sınırına göre aralık ranjı belirlenir.
• Puan aralığının alt sınırına kadar olan frekanslar toplamı ve bu
aralığın frekansı saptanır.
• Saptanan bu değerler 6.3’te verilen formülde yerine konulur.
Örneğin, Tablo 6.3’te gruplandırılmış olan, 60 öğrencinin 40 soruluk
kimya sınavı puanlarının frekans dağılımından ortancası şu şekilde
hesaplanabilir:
Yukarıda verilen sıralamaya göre, frekanslar toplamının yarısı, n/2
=60/2 =30 bulunmuştur. Buna göre bu dizinin ortancası 24,50-29,50
aralığına düşer. Çünkü bu aralığın alt sınırına kadar olan frekanslar toplamı
(tfA) =10 ve bu aralığın frekansının (fort)=26 olduğu görülmektedir.
Frekanslar toplamının yarısı, 10’dan büyük, 10+26=36’dan küçüktür. 24,50-
29,50 aralığının alt sınırı (Aort) 24,50 ve aralık ranjı a=5’dir. Bu değerler
6.3’te verilen formülde yerine konulursa ortanca;
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 185

⎡ 30 − 10 ⎤
X ort = 24,5 + ⎢ ⎥ x5
⎣ 26 ⎦
= 28,35 bulunur.
Bir veri grubunda verilerin tam ortasına düşen ortancanın
hesaplanmasında, modun hesaplanmasında olduğu gibi, söz konusu veri
grubundaki verilerin aritmetik ortalamaya kıyasla daha az sayıdaki kısmı
kullanılmaktadır. Bu durum, ortancayı, verileri temsil ediciliği yönünden
aritmetik ortalamaya göre daha zayıf kılar. Ortanca, bir sıra sayısına dayalı
olduğundan toplama işlemine uygun değildir. Bu nedenle verilerle ileri
analizler yapılacaksa, ortancanın kullanılması uygun değildir. Buna karşın,
sıralanmış verilerin tam ortasına düştüğünden ortanca, ölçme sonuçları
arasındaki özellikle uçlardaki kopmalardan etkilenmez. Dolayısıyla ortanca
verilerin yığıldığı noktayı, aritmetik ortalamaya göre daha iyi temsil eder.
Bu durumda kopmaların bulunduğu veri gruplarında, daha ileri analizler
yapılmayacaksa merkezî yığılma ölçüsü olarak ortancanın kullanılması
uygun olur.

Dağılım Ölçüleri
Puanlar dağılımın ortasında, başka bir deyişle merkezî yığılma eğilimi
gösterdiği gibi, dağılma veya değişkenlik eğilimi de gösterebilir.
Dağılım ölçülerine değişme ya da yayılma ölçüleri de denilmektedir. En
sık kullanılan dağılım ölçüleri “ranj”, “standart sapma”, “varyans”, “çeyrek
sapma”, “bağıl değişkenlik katsayısı”, “normal dağılım”, “çarpıklık katsayısı”,
“basıklık katsayısı” ve “standart puan” dır.
Ranj
Ranj, bir veri grubunda bulunan en büyük veri ile en küçük veri arasındaki
farktır. Başka bir deyişle ranj, bir veri grubunda en büyük ölçme sonucu ile en
küçük ölçme sonucu arasındaki farktır (Baykul, 1997). Örneğin; bir ara sınav
puanlarının en büyük değerde olanı 90, en küçük değerde olanı 25 ise, ara
sınav puanlarının ranjı; 90-25=65 puandır. Bu sonuca göre, ara sınavı
puanları 65 puanlık bir aralığa dağılmaktadır.
Tablo 6.2’deki verilere göre, 60 öğrencinin 40 soruluk kimya sınavı
puanlarının ranjı, en yüksek puan 39, en düşük puan 5 olduğu için 39-5=34
puandır. Bu sonuca göre, 40 soruluk sınav puanları 34 puanlık bir aralığa
dağılmaktadır.
186 Eğitimde Ölçme ve Değerlendirme

Sınavın puanlarından hesaplanan ranjın (dizi veya seri genişliği) büyük


olması, sınavın ayırt ediciliğinin bir göstergesidir. Bu bakımndan bir sınavın
ranjı ne kadar yüksekse, o sınavın ayırt ediciliği ve dolayısıyla geçerliği de o
oranda yüksektir. Bu nedenle ayırtediciliği yüksek bir sınav için hesaplanan
ranjın en azından beklenen ranja, başka bir deyişle sınavdan elde edilmesi
mümkün en yüksek puanın yarısına yakın olması beklenir. Hesaplanan ranj
beklenen ranja yakın ise, sınavın ayırcılık gücünün yüksek olduğu kabul
edilir (Yılmaz, 1998). Örneğin, 60 öğrencinin 40 soruluk kimya sınavı
puanlarının ranjı 34, beklenen ranj ise; 39/2=19,50’dir. Bu sonuca göre,
hesaplanan ranjın beklenen ranjın üzerinde büyük olduğu dolayısıyla
sınavın ayırıcılık gücünün yüksek olduğu söylenebilir.
Yapılan açıklamalardan anlaşılabileceği üzere, ranj verilerin sadece en
büyük ve en küçüğüne dayalı olarak bulunur. Dolayısıyla ranj, sadece bu uç
değerlerden etkilenir. Diğer verilerin değerlerinden etkilenmez, başka bir
deyişle onlardaki bilgiyi kullanmaz. Bu nedenle yığılma ölçüsü olarak mod
gibi, oldukça kaba ve basit bir dağılım ölçüsü olarak ranj da verilerin
yayılması hakkında fazla bilgi verici değildir. Bu bakımdan ranjın veriler
hakkında sadece kaba bir izlenim edinmek için kullanılması uygun olur
(Özçelik, 1992-2; Baykul, 1997).

Standart Sapma
Dağılım ölçüleri arasında en çok kullanılan standart sapma, bir veri
grubundaki verilerin aritmetik ortalamadan ne derecede uzaklara yayıldıklarını
puan biriminde gösteren bir ortalamadır. Standart sapmaya başlangıç noktası
olarak aritmetik ortalama alınmaktadır. Bir veri grubundaki veriler ile bu
verilerin aritmetik ortalaması arasındaki farkların karelerinin bir çeşit
ortalamasının karekökü alınarak bulunan standart sapma evrende
hesaplanmış ise bir parametre, örneklemde hesaplanmış ise bir istatistiktir.
Gruplandırılmamış ve her biri bir kez tekrarlanan ölçümler için
standart sapma, evrende hesaplanmış ise aşağıdaki σ eşitliği ile örneklemde
hesaplanmış ise aşağıdaki S eşitliği ile hesaplanır (Arıcı, 1981).
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 187

σ=
∑ ( X − μ) 2

S=
∑ (X − X) 2

=
∑x 2

(6.4)
N n −1 n −1

σ : Evrende hesaplanmış standart sapma


S : Örneklemde hesaplanmış standart sapma
μ : Evrenin aritmetik ortalaması
X : Örneklemin aritmetik ortalaması
X − X : Her ölçümün aritmetik ortalamadan olan farkı
∑ x 2 : Her ölçümün aritmetik ortalamadan olan farklarının karelerinin
toplamı
n : Veri sayısı
Gruplandırılmamış ve her biri bir kez tekrarlanan ölçümler için
standart sapma hesaplanırken, öncelikle dağılımın aritmetik ortalaması
bulunur. Daha sonra her ölçümün aritmetik ortalamadan farkı bulunarak
farkların kareleri alınır ve toplanır. Son olarak bulunan değerler 6.4’te
verilen formülde yerine konulur.
Örneğin, Tablo 6.7’deki verileri kullanarak, 15 öğrencinin Fizik
testinden aldıkları puanların standart sapması şu şekilde hesaplanabilir:
Tablo 6.7:15 Öğrencinin Fizik Sınavından Aldıkları Puanların Standart
Sapmasının Hesaplanması
Puanlar (Χ − Χ) (x) (Χ− Χ)2 (x ) 2
(X)
60 26,47 700,66
55 21,47 460,96
53 19,47 379,08
51 17,47 305,20
50 16,47 271,26
40 16,60 275,56
35 11,60 134,56
30 6,60 43,56
25 1,60 2,56
22 -1,40 1,96
20 -3,40 11,56
19 -4,40 19,36
18 -5,40 29,16
15 -8,40 70,56
10 -13,40 179,56
ΣX=503,00
X =33,53 Σx2=2885,58
188 Eğitimde Ölçme ve Değerlendirme

Tablo 6.7’de bulunan değerler standart sapmanın hesaplanması için


6.4’te verilen formülde yerine konulursa;

2885,58
σ= = 13,87 bulunur.
15

2885,58
S= = 14,36 bulunur .
14
Gruplandırılmamış ve bazıları tekrarlanan ölçümler için standart
sapma, aşağıdaki S eşitliği ile hesaplanır (Arıcı 1981):

S=
∑ f (X − X) 2

=
∑ fx 2

n −1 n −1 (6.5)
S : Standart sapma
X : Dağılımın aritmetik ortalaması
X−X : Her ölçümün aritmetik ortalamadan olan farkı
f : Frekans
∑ fx 2
: Her ölçümün aritmetik ortalamadan olan farklarının
karelerinin frekansla çarpımının toplamı
n : Veri sayısı

Gruplandırılmamış ve bazıları tekrarlanan ölçümler için standart sapma


hesaplanırken, öncelikle dağılımın aritmetik ortalaması bulunur. Daha
sonra her ölçümün aritmetik ortalamadan farkı bulunarak farkların kareleri
alınır. Her bir puanın karşısındaki (x2) değerleri, (f) değerleri ile çarpılarak
(fx2) sütunu oluşturulur ve toplamı alınır. Son olarak bulunan değerler
6.5’te verilen formülde yerine konulur.
Örneğin, Tablo 6.5’deki verileri kullanarak, 60 öğrencinin 40 soruluk
kimya sınavı puanlarının standart sapması şu şekilde hesaplanabilir:
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 189

Tablo 6.8:60 Öğrencinin 40 Soruluk Kimya Sınavı Puanlarının Standart


Sapmasının Hesaplanması

Puanlar Frekans (Χ − Χ) ( Χ − Χ) 2 f (Χ − Χ) 2
(X) (f)
(x) (x2) (fx2)
5 1 -23,23 539,63 539,63
15 1 -13,23 175,03 175,03
19 2 -9,23 85,19 170,38
22 6 -6,23 38,81 232,86
25 3 -3,23 10,43 31,29
26 7 -2,23 4,97 37,79
27 4 -1,23 1,51 6,04
28 8 -0,23 0,05 0,4
29 4 0,77 0,59 2,36
30 7 1,77 3,13 21,91
32 2 3,77 14,21 28,42
33 4 4,77 22,75 91
34 3 5,77 33,29 99,87
35 4 6,77 45,83 183,32
37 2 8,77 76,91 153,82
38 1 9,77 95,45 95,45
39 1 10,77 115,99 115,99
ΣX=1694

X =28,23 60 Σx2=1263,7 Σfx2=1985,56


7

Tablo 6.8’deki bulunan değerler standart sapmanın hesaplanması için


6.5’te verilen formülde yerine konulursa;
190 Eğitimde Ölçme ve Değerlendirme

1985,56
σ= = 5,75 bulunur.
60

1985,56
S= = 5,80 bulunur.
59
Bir sınavdan elde edilen puanların standart sapması büyüdükçe, o
sınavın güvenirliği düşer. Geçerliği ve güvenirliği yüksek bir sınavın
puanlarından hesaplanan ranj değeri, standart sapma değerine
bölündüğünde “4-6” arasında bir sayı elde edilmelidir. Eğer elde edilen sayı
“4-6” arasında bir sayı değilse, sınavın güvenirliği ve geçerliği düşüktür
(Yılmaz, 1998). Örneğin, yukarıda 60 öğrencinin 40 soruluk kimya sınavı
puanlarının ranjı 34, standart sapması ise 5,80 bulunmuştur. Hesaplanan
ranj değeri, standart sapma değerine bölündüğünde 34⁄5,80=5,86 şeklinde,
“4-6” arasına yakın bir sayı elde edilmektedir. Bu sonuç, 60 öğrenciye
uygulanan 40 soruluk kimya sınavının güvenirliği ve geçerliğinin yüksek
olduğunu göstermektedir.
Gruplandırılmış ölçümler için standart sapma ise, aşağıdaki S eşitliği ile
hesaplanır:

∑ fx' ∑
2
⎡ fx ' ⎤
2

S=a⋅ −⎢ ⎥
n −1 ⎢⎣ n ⎥⎦
(6.6)
S : Standart sapma
f : Frekans
x´ : Tahmini ortalamanın grup aralıklarının orta nokta
değerlerinden farkının aralık katsayısına bölüm değeri
∑ fx' : Tahmini ortalamının grup aralıklarının orta nokta
değerlerinden farkının aralık katsayısına bölüm değerinin
frekansla çarpımının toplamı
n : Veri sayısı

Gruplandırılmış ölçümler için standart sapma hesaplanırken, öncelikle


(f), (x´), (fx´), (x´2) ve (fx´2) sütunlarının yer aldığı frekans tablosu
hazırlanır. Her bir puan aralığının karşısındaki (x´) değeri, tablodaki bütün
aralıkların orta noktaları tahmini ortalama olarak kabul edilen sayıdan
çıkarılarak, kalanın aralık katsayısı olan sayıya bölünmesiyle bulunur. Her
bir puan aralığının karşısındaki (x´) değerleri, (f) değerleri ile çarpılarak
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 191

(fx´) sütunu oluşturulur ve toplamı alınır. (x´) değerlerinin karesi alınarak


(f) değerleri çarpılır ve çıkan sonuçlardan (fx´2) sütunu oluşturularak
toplamı alınır. Son olarak bulunan değerler 6.6’da verilen formülde yerine
konulur.
Örneğin, Tablo 6.3 ve Tablo 6.6’daki verileri kullanarak 60 öğrencinin
40 soruluk kimya sınavından aldıkları gruplandırılmış puanların standart
sapması şu şekilde hesaplanabilir:
Tablo 6.9:60 Öğrencinin 40 Soruluk Kimya Sınavından Aldıkları
Gruplandırılmış Puanların Standart Sapmasının Hesaplanması
Puanlar Orta
(X) (f) Nokta (x´) (fx´) (x´2) (fx´2)
(X0)

5-9 1 7,50 0 0 0 0
10-14 0 12,50 1 0 1 0
15-19 3 17,50 2 6 4 12
20-24 6 22,50 3 18 9 54
25-29 26 27,50 4 104 16 416
30-34 16 32,50 5 80 25 400
35-39 8 37,50 6 48 36 288
60 Σf Σfx´2=117
x´=256 0

2
1170 ⎡ 256 ⎤
S = 5⋅ −⎢ = 6,32 bulunur.
59 ⎣ 60 ⎥⎦

Hesaplanan ranj değeri, bulunan standart sapma değerine


bölündüğünde 34⁄6,32=5,38 şeklinde, “4-6” arasına yakın bir sayı elde
edilmektedir. Bu sonuç, 60 öğrenciye uygulanan 40 soruluk kimya sınavının
güvenirliği ve geçerliğinin yüksek olduğunu göstermektedir.
192 Eğitimde Ölçme ve Değerlendirme

Varyans
Bir veri grubunda ölçme sonuçlarının aritmetik ortalamadan farklarının
karelerinin aritmetik ortalamasına, başka bir deyişle, standart sapmanın
karesine varyans denir. Bir dizi puanının varyansı o dizideki değişkenliğin bir
ölçüsüdür. Varyans, evrende hesaplanmış ise aşağıdaki σ 2 eşitliği ile
örneklemde hesaplanmış ise aşağıdaki S2 eşitliği ile hesaplanır.

∑ ( X − μ) ∑ (X − X)
2 2
2
σ = S2 = (6.7)
N n −1
σ2 : Evrende hesaplanmış varyans
S2 : Örneklemde hesaplanmı varyans
μ : Evrenin aritmetik ortalaması
X : Örneklemin aritmetik ortalaması
X − X : Her ölçümün aritmetik ortalamadan olan farkı
∑x 2
: Her ölçümün aritmetik ortalamadan olan farklarının
karelerinin toplamı
n : Veri sayısı

Örneğin, Tablo 6.7’de verilen gruplandırılmamış ve her biri bir kez


tekrarlanan verilerin standart sapması evren için 13,87, örneklem için 14,36
bulunmuş ise, aynı verilerin varyansı evren için 192,38, örneklem için 206,21
bulunur. Tablo 6.8’de verilen gruplandırılmamış ve bazıları tekrarlanan
ölçümlerin standart sapması evren için 5,75, örneklem için 5,80 hesaplanmış
ise, aynı verilerin varyansı evren için 33,06, örneklem için 33,64 olur. Son
olarak Tablo 6.9’da verilen gruplandırılmış ölçümlerin standart sapması
6,32 bulunmuş ise, aynı ölçümlerin varyansı 39,94 bulunur.
Çeyrek Sapma
Ranjın aşırı uç değerlerden daha fazla etkilenmesi, uçlardaki aşırı
ölçümleri hesaba katmayan bir dağılım ölçüsünü gerektirmiştir. Bu dağılım
ölçüsü, ranja göre daha sık kullanılan, üçüncü çeyrekle (Q3) birinci çeyrek
(Q1) arasındaki genişliğin yarısına eşit olan çeyrek sapma (Q) dır (Tekin,
1977). Çünkü çeyrek sapma, grubun iki ucunda bulunan %25’lik kısımlarını
dikkate almayan bir işlemle hesaplanır ve uçlardaki puanlardan etkilenmez
(Erdoğan-Ural-Tüzün, 1984). Bu nedenle yalnız iki uçtaki ölçümleri dikkate
alan ranjdan daha istikrarlıdır. Ancak ölçümlerin yalnız ortada kalan
%50’sini dikkate alarak hesaplanan bir dağılım ölçüsü olan çeyrek sapma
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 193

da, ölçümlerin tümünün gösterdiği dağılım hakkında yeteri kadar bilgi


vermez. Bir dizi ölçümün merkezî yığılma ölçüsü olarak ortanca
kullanıldığında, dağılım ölçüsü olarak da çeyrek sapma kullanılmalıdır.
Çünkü bu iki ölçü de, ölçümlerin sıralarına göre belirlenir ve uçlardaki
puanlardan etkilenmezler (Tekin, 1977). Yine özellikle bir ucunda aşırı
ölçümlerin bulunduğu durumlarda, çeyrek sapmanın dağılım ölçüsü olarak
kullanılması uygun olur (Yılmaz, 1998).
Çeyrek sapmayı hesaplamada 6.8’de verilen formül kullanılır.

Y − Y25
Q = 75 (6.8)
2
Q : Çeyrek Sapma
Y75 : %75’inci nokta değeri (Üçüncü çeyrek)
Y25 : %25’inci nokta değeri (Birinci çeyrek)

Çeyrek sapma, üçüncü çeyrek ve birinci çeyreğin farkının yarısı


olduğuna göre öncelikle birinci ve üçüncü çeyreğin hesaplanması
gerekmektedir.
Birinci çeyrek, küçükten büyüğe doğru sıralanmış verilerin %25’ini
solunda ve %75’ini sağında bırakan noktaya karşılık gelen değerdir. Birinci
çeyreğin hesaplanması 6.9’da verilen formülle yapılır.

⎡ n ⎤
⎢ 100 ⋅ 25 − tf A (25) ⎥
Y25 = A 25 + ⎢ ⎥⋅a (6.9)
⎢ f 25 ⎥
⎢⎣ ⎥⎦
Y25 : %25’inci nokta değeri (Birinci çeyrek)
A25 : Birinci çeyreğin bulunduğu aralığın alt sınırı
tfA(25) : Birinci çeyreğin bulunduğu aralığa kadar olan toplam frekans
f25 : Birinci çeyreğin bulunduğu aralığın frekansı
n : Veri sayısı
a : Aralık Katsayısı

Örneğin, Tablo 6.3’teki verileri kullanarak 60 öğrencinin 40 soruluk


kimya sınavı puanları dağılımının birinci çeyreği şu şekilde hesaplanabilir:
194 Eğitimde Ölçme ve Değerlendirme

(n/100)25 =(60/100)25 =15 bulunur.


Bulunan 15 sırasındaki öğrenci birinci çeyrektir. Bu öğrencinin
bulunduğu aralık 25-29 aralığına düşmektedir. Buna göre, A25=24,50,
tf25=10, f25=26, n=60’dır. Bu değerler birinci çeyreğin hesaplanması için
6.9’da verilen formülde yerine konulursa;

⎡ 60 ⎤
⎢ 100 x 25 − 10 ⎥
Y25 = 24.50 + ⎢ ⎥ x 5 = 25,46 bulunur .
⎢ 26 ⎥
⎣⎢ ⎦⎥
Üçüncü çeyreğe yetmiş beşinci yüzdelik de denir. Üçüncü çeyrek küçükten
büyüğe doğru sıralanmış verilerin %75’ini solunda %25’ini sağında bırakan
noktaya karşılık gelen değerdir. Üçüncü çeyreğin hesaplanması 6.10’da
verilen formülle yapılır.

⎡ n ⎤
⎢ 100 ⋅ 75 − tf A (75) ⎥
Y75 = A 75 + ⎢ ⎥⋅a
⎢ f 75 ⎥
⎣⎢ ⎦⎥
Y75 : %75’inci nokta değeri (Üçüncü çeyrek) (6.10)
A75 : Üçüncü çeyreğin bulunduğu aralığın alt sınırı
tfA(75) : Üçüncü çeyreğin bulunduğu aralığa kadar olan toplam frekans
f75 : Üçüncü çeyreğin bulunduğu aralığın frekansı
n : Veri sayısı

Örneğin, Tablo 6.3’teki verileri kullanarak 60 öğrencinin 40 soruluk


kimya sınavı puanları dağılımının üçüncü çeyreği şu şekilde hesaplanabilir:
(n/100)x75 =(60/100)x75 =45 bulunur.
Bulunan 45 sırasındaki öğrenci üçüncü çeyrektir. Bu öğrencinin
bulunduğu aralık 30-34 aralığına düşmektedir. Buna göre, A75=29,50,
tf75=36, f75=16, n=60’dır. Bu değerler üçüncü çeyreğin hesaplanması için
6.10’da verilen formülde yerine konulursa;

⎡ 60 ⎤
⎢ 100 x 75 − 36 ⎥
Y75 = 29,50 + ⎢ ⎥ x 5 = 32,31 bulunur.
⎢ 16 ⎥
⎢⎣ ⎥⎦
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 195

Bulunan birinci ve üçüncü çeyrek değerleri, 6.8’de verilen çeyrek sapma


formülünde yerine konulursa, çeyrek sapma;
32,31 − 25,46
Q= = 3,43 bulunur.
2
Çeyrek sapma, her zaman standart sapmadan daha küçüktür. Nitekim
60 öğrencinin 40 soruluk kimya sınavı puanlarının standart sapması 5,80,
çeyrek sapması da 3,43 bulunmuştur. Standart sapmada olduğu gibi, bir
sınavdan elde edilen puanların çeyrek sapması küçüldükçe, o sınavın
güvenirliği artar.

Bağıl Değişkenlik Katsayısı


Bağıl değişkenlik katsayısı, standart sapmanın aritmetik ortalamaya
bölünerek, yüzle çarpımı sonucunda elde edilen bir yüzdedir. Bu yüzde,
hem aritmetik ortalamayı ve hem de standart sapmayı içeren, daha çok bilgi
verici bir değişkenlik katsayısıdır. Bağıl değişkenlik katsayısı aşağıdaki V
eşitliği ile hesaplanır.

S
V= ⋅ 100 (6.11)
X

V : Bağıl değişkenlik katsayısı


S : Standart sapma
X : Aritmetik ortalama

Örneğin, 60 öğrencinin 40 soruluk kimya sınavı puanlarının bağıl


değişkenlik katsayısının hesaplanması için, Tablo 6.5 ve Tablo 6.8’de
bulunan değerler 6.11’de verilen formülde yerine konulursa;

5,80
V= ⋅ 100 = 20,55 bulunur.
28,23
Normal dağılımlı bir veri grubunda bağıl değişkenlik katsayısı 20-25
arasında değişir. Bağıl değişkenlik katsayısının 20’den küçük çıkması,
standart sapmanın aritmetik ortalamaya göre küçük olması, 25’den büyük
çıkması ise standart sapmanın aritmetik ortalamaya göre büyük olması
anlamına gelir. Standart sapma aritmetik ortalamaya göre küçükse, puanları
196 Eğitimde Ölçme ve Değerlendirme

birbirine yakın, başka bir deyişle dağılım homojen ve sivridir. Standart


sapma aritmetik ortalamaya göre büyükse, puanlar birbirine uzak, başka bir
deyişle puan dağılımı heterojen ve basıktır. Bağıl değişkenlik katsayısı,
dağılımın basıklığı ya da sivriliği için bir gösterge olsa bile, basıklık
katsayısının hesaplanması daha doğru olur (Atılgan, 2006).
Yukarıda hesaplanan bağıl değişkenlik katsayısına (V=20,55) göre,
Tablo 6.8’de yer alan puan dağılımının normal olduğu söylenebilir.

Normal Dağılım
Eğitimde, psikolojide ve diğer pek çok alanda, üzerinde çalışılan
değişkenlerin evrendeki dağılımları normaldir. Normal dağılım bir sürekli
dağılımdır. Sürekli değişkenlerin hemen hemen hepsi normal bir dağılım
gösterir. Hatta normal dağılım dışındaki dağılımların da örneklemdeki
eleman sayısı arttığında normale yaklaştığı görülür. Bu yüzden eğitimde
ölçme ve değerlendirmede normal dağılım eğrisine dayalı birçok istatistikî
işlem kullanılmaktadır. Kullanılan bu istatistikî işlemlerin daha net bir
şekilde anlaşılması için, kuramsal bir dağılım olan standart normal dağılımın
özelliklerinin bilinmesi gerekmektedir.

Şekil 6.5’te görülebileceği üzere, standart normal dağılımın


özellikleri, şu şekilde sıralanabilir (Çağlar, 1970; Tekin, 1977):
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 197

• Normal dağılım eğrisi, simetriktir.


Normal dağılım, çan biçiminde sağ ve sol alanları birbirine eşit,
simetrik bir eğiridir. Bu özelliği nedeniyle normal dağılım eğrisine çan eğrisi
de denilmektedir. Bu eğri üzerinde, dağılımın aritmetik ortalama, ortanca
ve modu aynı noktada çakışırlar. Aritmetik ortalama, ortanca ve modun
birbirine eşit olduğu durumda normal dağılım ile karşılaşılır. Aritmetik
ortalamanın altında ve üzerinde puan alan öğrenci sayısı birbirine eşittir.
Ölçme sonuçlarının büyük bir çoğunluğu ortada toplanır. Orta kısımdan
sağa ve sola, her iki yöne doğru gidildikçe, yığılmalar önce yavaş yavaş,
sonra da hızlıca düşerek iki uçta uzun bir kuyruk oluşturur (Akhun, 1988).
• Normal dağılım eğrisinin temel çizgisi, standart sapma birimleriyle
işaretlenmiştir. Bu çizgi üzerinde, aritmetik ortalamanın
bulunduğu noktaya 0 (sıfır) değeri verilir ve çizgi bu noktanın
sağına +1S, +2S, +3S; soluna doğru ise -1S, -2S, -3S olmak üzere,
standart sapma birimi kullanılarak alanlara ayrılır.
• Normal dağılım eğrisi, kuramsal olarak aritmetik ortalamanın iki
yanında sınırsız uzanır. Temeldeki çizgi ile hiçbir zaman birleşmez.
Ancak uygulamada aritmetik ortalamanın 3S üstüne ve 3S altına
dek uzanıyor olarak düşünülür.
• Normal dağılımda ölçümlerin belli yüzdeleri belli sınırlar içine
düşer.

− X ± 1S alanı içine tüm ölçümlerin %68,26’sı düşer.

− X ± 2S alanı içinde tüm ölçümlerin %95,44’ü bulunur.

− X ± 3S alanı içinde tüm ölçümlerin %99,74’ü kapsanır.

Örneğin, bir sınıfta uygulanan bir sınavdan alınan puanların aritmetik


ortalaması X =64 ve standart sapması S=6,70 ise; aritmetik ortalamanın bir
standart sapma altı 64-6,70=57,30 sınırını, bir standart sapma üstü
64+6,70=70,70 sınırını verir. O sınıfta puanların normal dağıldığı
varsayılırsa, puanları 57,30’dan büyük ancak 70,70’den küçük olan
öğrencilerin, tüm sınıfın %68,26’sını oluşturduğu sonucuna varılır.
Tablo 6.5 ve Tablo 6.8’de bulunan değerlere göre, 60 öğrencinin 40
soruluk kimya sınavı puanlarının aritmetik ortalaması X =28,23 ve standart
sapması S=5,80’dir. Aritmetik ortalamanın bir standart sapma altı 28,23-
5,80=22,43 sınırını, bir standart sapma üstü ise 28,23+5,80=34,03 sınırını
198 Eğitimde Ölçme ve Değerlendirme

verir. O sınıfta puanların normal dağıldığı varsayılırsa, puanları 22,43’ten


büyük ancak 34,03’ten küçük olan öğrencilerin, tüm sınıfın %68,26’sını
oluşturduğu sonucuna varılır.

Çarpıklık Katsayısı
Çarpıklık, bir dağılımı betimleyen özelliklerden biridir. Bir dağılımda
veriler daha çok solda, sağda veya merkezde olmak üzere değişik biçimlerde
yığılmış olabilir. Dağılım üzerinde ortalama ve ortanca ayrı ayrı noktalar
üzerinde ise, bu gibi dağılımlara çarpık veya kayışlı denir.
Çarpıklık katsayısı, pozitif ve negatif değerler alabileceği gibi, 0 (sıfır)
da olabilir. Bu katsayının pozitif olması, dağılımın sağı çarpık (pozitif
kayışlı) ve ortalamanın ortancadan büyük olduğunu; negatif olması,
dağılımın solu çarpık (negatif kayışlı) ve ortancanın ortalamadan büyük
olduğunu; 0 (sıfır) olması da dağılımın ortalamaya oranla oldukça simetrik
olduğunu ifade eder (Arıcı, 1981; Baykul, 2000).

Mod Ort. X
Şekil 6.6:Sağı Çarpık veya Pozitif Kayışlı Bir Dağılım
Aritmetik ortalamadan küçük puanların tüm frekansların yarısından
fazla olması, puanların ortalamanın altında yığıldığının göstergesidir. Bu
durumda frekans dağılımı Şekil 6.6’da görüldüğü gibi olur ve merkeze
yığılma ölçüleri arasında Mod<Ortanca< X ilişkileri gözlenir. Böyle bir
durumda ortalamadan büyük puanların frekansları gittikçe düşer ve yüksek
puanlar sağa doğru dağılır. Böyle bir dağılıma sağı çarpık (pozitif kayışlı)
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 199

dağılım denir. Sağı çarpık dağılım, sınıf ortalamasının düşük olduğu


durumlarda gözlenir (Turgut, 1988; Baykul, 2000).

X Ort.Mod
Şekil 6.7:Solu Çarpık veya Negatif Kayışlı Bir Dağılım

Aritmetik ortalamadan büyük puanların tüm frekansların yarısından


fazla olması, puanların ortalamanın üstünde yığıldığının göstergesidir. Bu
durumda frekans dağılımı Şekil 6.7’de görüldüğü gibi olur ve merkeze
yığılma ölçüleri arasında X <Ortanca<Mod ilişkileri gözlenir. Böyle bir
dağılıma solu çarpık (negatif kayışlı) denir. Solu çarpık dağılım başarılı bir
sınıf dağılımının göstergesi olabileceği gibi, yapılan sınavın çok kolay
olduğunun da bir göstergesi olabilir (Turgut, 1988).
Sınav puanlarının aritmetik ortalaması, standart sapması ve ortancası
kullanılarak, sınavın puan dağılımının çarpıklığı hakkında bilgi edinilebilir.
Bir dağılımın simetrikliğinin ölçüsü olan, çarpıklık katsayısı 6.12’de verilen
formülle hesaplanır.

3( X − Ortanca )
ÇK =
S (6.12)

Ç K : Çarpıklık katsayısı
X : Aritmetik ortalama
S : Standart sapma
200 Eğitimde Ölçme ve Değerlendirme

Tablo 6.5 ve Tablo 6.8’deki verilere dayalı olarak hesaplanan, 60


öğrencinin 40 soruluk kimya sınavı puanları dağılımının çarpıklık katsayısı
aritmetik ortalama, standart sapma ve ortanca değerlerine göre ( X =28,23,
S=5,80, Ortanca=28), 6.12’de verilen formülle şu şekilde hesaplanabilir:
3(28,23 − 28)
ÇK =
5,80
= 0,12’dir.
Çarpıklık katsayısının pozitif olması (0,12), 60 öğrencinin 40 soruluk
kimya sınavı puan dağılımının sağı çarpık ve ortalamanın ortancadan büyük
olduğunu göstermektedir.
Çarpıklık katsayısını hesaplamada, sınav puanlarının aritmetik
ortalaması, standart sapması ve ortancasının kullanıldığı 6.12’de verilen
formül, uygulama kolaylığı yönünden kullanışlıdır. Ancak daha güvenilir
sonuç elde etmek için çarpıklık katsayısını hesaplamada 6.13’te verilen
formülden de yararlanılabilir:

ÇK =
∑ (X − X) 3
n
3
S (6.13)

Ç K : Çarpıklık katsayısı
X : Aritmetik ortalama
X − X : Her ölçümün aritmetik ortalamadan farkı
S : Standart sapma
n : Veri sayısı

Örneğin, Tablo 6.5 ve Tablo 6.8’deki veriler kullanılarak, Tablo 6.10’da


bulunan değerlere göre, 60 öğrencinin 40 soruluk kimya sınavı puanları
dağılımının çarpıklık katsayısı şu şekilde hesaplanabilir.
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 201

Tablo 6.10: 60 Öğrencinin 40 Soruluk Kimya Sınavı Puanları Dağılımının


Çarpıklık ve Basıklık Katsayısının Hesaplanması

Puanlar Frekans
(X) (f) (X- X ) f(X- X )3 f(X- X )4

5 1 -23,23 12535,60 291200,53


15 1 -13,23 2315,65 30635,50
19 2 -9,23 1572,60 14514,67
22 6 -6,23 1450,72 9037,30
25 3 -3,23 101,07 326,35
26 7 -2,23 77,58 172,91
27 4 -1,23 7,43 9,12
28 8 -0,23 0,09 0,02
29 4 0,77 1,82 1,39
30 7 1,77 38,78 68,58
32 2 3,77 107,14 403,85
33 4 4,77 434,07 2070,25
34 3 5,77 576,25 3324,67
35 4 6,77 1241,08 8401,56
37 2 8,77 1349,00 11830,30
38 1 9,77 932,55 9110,70
39 1 10,77 1249,21 13453,68
ΣX=169
4 60 ΣfX3=23990,64 ΣfX4=394561,3
X =28,2 8
3

23990.64 60
ÇK =
5,803
= 2,05 bulunur.
Çarpıklık katsayısının pozitif olması (2,05), sınav puanlarının aritmetik
ortalaması, standart sapması ve ortancası kullanılarak hesaplanan çarpıklık
katsayısında (0,12) olduğu gibi, 60 öğrencinin 40 soruluk kimya sınavı puan
202 Eğitimde Ölçme ve Değerlendirme

dağılımının sağı çarpık, ortalamanın ise ortancadan büyük olduğunu


göstermektedir.
Çarpıklık katsayısı aynı zamanda sınavın güçlük düzeyinin de bir
göstergesidir. Tablo 6.11’de görülebileceği üzere, çarpıklık katsayısı formülü
uygulanarak bulunan değere göre, sınavın güçlük düzeyi değişir.
Tablo 6.11:Çarpıklık Katsayısı ve Sınavın Güçlük Düzeyi
Çarpıklık Katsayısı Sınavın Güçlük Düzeyi
Negatif Kolay
Pozitif Zor
0,10’dan küçük Hafif Zor
0,10–0,25 arası Orta Güçlükte
0,25’den büyük Çok Zor
Kaynak: Tekin, 1977, 211;Yılmaz, 1998, 189.

Tablo 6.11’e göre, 60 öğrencinin 40 soruluk kimya sınavı puan


dağılımının çarpıklık katsayısının pozitif (2,05) olması, sınavın güçlük
düzeyinin çok zor olduğunu göstermektedir.

Basıklık Katsayısı
Çarpıklık katsayısı gibi basıklık katsayısı da, bir dağılımın
simetrikliğinin ölçüsüdür. Çarpıklık katsayısına benzer şekilde, bu katsayı
da, negatif, pozitif değerler alabileceği gibi, 0 (sıfır) da olabilir. Basıklık
katsayısının negatif olması halinde dağılım, normalden daha basık; pozitif
olması halinde normalden daha sivridir. Basıklık katsayısının 0 (sıfır) olması
halinde ise dağılım normal ya da normale yakındır (Arıcı, 1981; Baykul,
2000).
Bir dağılımın basıklık katsayısı, 6.14’te verilen formülle hesaplanır:

BK =
∑ (X − X) 4
n
−3
4
S
B K : Basıklık katsayısı
X : Aritmetik ortalama (6.14)
X − X : Her ölçümün aritmetik ortalamadan farkı
S : Standart sapma
n : Veri sayısı
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 203

Örneğin, Tablo 6.5 ve Tablo 6.8’deki veriler kullanılarak, Tablo 6.10’da


bulunan değerlere göre, 60 öğrencinin 40 soruluk kimya sınavı puanları
dağılımının basıklık katsayısı şu şekilde hesaplanabilir.
394561,38 60
BK = −3
5,80 4
= 2,81 bulunur.

Basıklık katsayısının pozitif olması (2,81), 60 öğrencinin 40 soruluk


kimya sınavı puan dağılımının normalden daha sivri olduğunu
göstermektedir.

Standart Puan
Belli bir dağılımdaki herhangi bir ölçümün, o dağılımın ortalaması ile olan
farkının aynı dağılımın standart sapmasına bölümü standart puanı verir. Bu
yolla elde edilen değerlerle her ölçümün grup içindeki yeri
belirlenmektedir.
Hem betimsel hem de vardamlı istatistiğin anlaşılmasında önemli bir
yere sahip olan standart puanlar arasında en çok kullanılanı Z puanıdır. Bu
puan 6.15’te verilen formülle hesaplanır.

X−X
Z=
S (6.15)

Z : Z- puanı
X : Herhangi bir kişinin puanı
X : Dağılımın aritmetik ortalaması
S : Dağılımın standart sapması

Herhangi bir ölçümün Z puanı, o ölçümle, o ölçümün geldiği grubun


ortalaması arasındaki farkın aynı grubun standart sapmasına bölümüne
eşittir. Ölçümler standart Z dağılımı ile ortalaması sıfır ve standart sapması
1 olan bir kuramsal dağılım özelliklerine dönüştürülmektedir. Böylece
herhangi bir ortalama ve standart sapma ikilisini kullanacak yeni bir
standart puan geliştirilebilir (Binbaşıoğlu, 1983). Ortalaması 50 ve standart
204 Eğitimde Ölçme ve Değerlendirme

sapması 10 olan T puanı buna örnektir. T puanı 6.16’da verilen formülle


hesaplanır.

⎡X − X⎤
T = 50 + ⎢ ⎥ x10
⎣ S ⎦ (6.16)

Eğer önceden Z puanları hesaplanmış ise, Z puanlarını T puanına


dönüştürmek daha kolaydır. Bu durumda aşağıdaki eşitlik kullanılabilir:

T = 10Z + 50

T standart puanı ile yapılan işlemlerin genellikle negatif çıkmaması ve


puanların kullanılırken tam sayıya yuvarlanabilmesi kullanım kolaylığı
sağlar (Yılmaz, 1998).
Standart puanlarla, ortalaması ve standart sapması farklı gruplardan
elde edilmiş ölçümler aynı ölçüte indirgendiği için, ayrı gruplardan elde
edilen ölçümler arası karşılaştırmalar da yapılabilir. Örneğin, bir sınıfta
matematik ve fizik derslerinde alınan notlar genelde ve iki öğrenci için
aşağıdaki gibi olsun:

MatematikFizik

Grup Ortalaması ( X ):5,57


Grup Standart Sapma (S):0,71
Metin’in Notu ( x ):78M

Fırat’ın Notu ( x ):7,57,5


F

Metin’in her iki dersten aldığı nota bakılarak, fizik dersinde matematik
dersine göre daha başarılı olduğu söylenebilir. Oysaki Metin’in her iki
dersten aldığı notlar, Z puanına çevirelecek olursa, fizik dersine göre
matematik dersinden daha başarılı olduğu sonucuna ulaşılacaktır.
7 − 5,5 8−7
Z M −M = = 2,14 Z M − F = =1
0,7 1
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 205

Metin’in matematik dersi standart puanı 2,14; fizik dersi standart puanı
ise 1’dir. Bu sonuca göre matematik dersi standart puanı fizik dersi standart
puanından yüksek olduğu için, Metin fizik dersine göre matematik dersinde
daha başarılıdır.
Metin gibi Fırat’ın da her iki dersten aldığı nota bakılacak olursa,
Fırat’ın her iki derste de eşit başarıya sahip olduğu söylenebilir. Oysaki her
iki dersten alınan notlar Z puanına çevrildiğinde, Fırat’ın da fizik dersine
göre matematik dersinde daha başarılı olduğu sonucuna ulaşılmaktadır.
7,5 − 5,5 7,5 − 7
Z F− M = = 2,85 Z F − F = = 0,5
0,7 1
Matematik ve fizik dersine ilişkin Z puanlarına göre, matematik
dersinde Fırat; fizik dersinde ise Metin daha başarılıdır.
Sadece not toplamlarına bakılacak olursa, Metin ve Fırat’ın not
toplamları 15 olduğundan durumları eşit sayılacaktır. Oysaki Z ve T
puanları hesaplanırsa, not toplamlarının eşit olmadığı, Fırat’ın Metin’e göre
daha başarılı olduğu görülecektir.
Metin için;
ZT=2,14+1=3,14
T=50+(3,14)10=81,4
Fırat için;
ZT=2,85+0,5=3,35
T=50+(3,35)10=83,5

İlişki Ölçüleri
Araştırmacının ulaşmaya çalıştığı hedeflerin başındaki istenen sonuçları
elde edebilmek için, olayları kontrol altına almak gelir. Olayların kontrol
altına alınabilmesi, olaylar arasındaki ilişkinin bilinmesini gerektirir. Böyle
olmakla birlikte bilimsel araştırmalarda, olaylar arasındaki ilişkinin
saptanması ciddi bir sorundur. Çünkü karşılaşılan sorunların birçoğu iki ya
da daha çok değişken arasında bir ilişki olup olmadığının, varsa bu ilişkinin
derecesinin saptanması ile ilgilidir. Bu değişkenler bir grup bireyin iki
özelliği, iki dersten aldıkları puanlar ya da zekâ testleri ile başarı testleri
puanları olabilir (Çağlar, 1970).
206 Eğitimde Ölçme ve Değerlendirme

Değişkenler arasındaki ilişkilerin incelenmesi ile ilgili olarak


geliştirilmiş olan, “regresyon” ve “ki-kare (χ2) dağılımı” gibi birçok istatistikî
yöntem olmakla birlikte, burada sınav sonuçlarının bütününe ait özellikleri
ortaya koymada yaygın olarak kullanılan korelasyon teknikleri üzerinde
durulmuştur.
Korelasyon, iki bazen de daha çok sayıda değişken arasındaki ilişkiyi
betimlemek amacıyla başvurulan tekniktir. Korelasyon sayısal bir değerle
ifade edilir. Bu sayı, korelasyon katsayısı ya da ilişki katsayısı olarak
adlandırılır (Arıcı, 1981). Buna göre korelasyon katsayısı, iki değişken
arasındaki ilişkinin derecesini gösteren sayısal değer olarak tanımlanabilir.
Korelasyon katsayısı, +1,00 ile -1,00 arasında değer alır. Bu katsayı
+0,00’a doğru yaklaştıkça iki değişken arasındaki ilişkinin derecesi düşük;
+1,00’a doğru yaklaştıkça, iki değişken arasındaki ilişkinin derecesi
yüksektir. Korelasyon katsayısı aralarında ilişki aranan değişkenlerin
benzerlik derecelerine göre yüksek veya düşük, olumlu (+) veya olumsuz (-
) olur. Değişkenler birlikte azalıp çoğalan değerler alıyorsa, ilişki olumlu
yönde; biri artarken diğeri azalıyorsa veya biri azalırken diğeri artıyorsa,
ilişki olumsuz yönde çıkar (Çağlar, 1970; Yılmaz, 1998).
Değişkenler arasındaki ilişki saptanırken kullanılacak teknik, değişken
sayısına ve kontrol durumuna, değişkenlerin ölçme yapısına, dağılımın
özelliklerine, aralarındaki ilişkinin doğrusal olup olmamasına başka bir
deyişle ilişkinin biçimine göre değiştiği gibi, aralarında ilişki bulunacak
değişkenlerin sürekli ya da süreksiz oluşlarına göre de değişir. İki değişken
arasındaki ilişkiyi saptamada kullanılan korelasyon tekniklerine “ikili ya da
basit korelasyon teknikleri”; aralarında ilişki aranacak değişken sayısı üç ya
da daha çoksa, bu durumda kullanılabilecek tekniklere “bileşik ya da kısmî
korelasyon teknikleri” denir (Arıcı, 1981; Büyüköztürk, 2002).
Korelasyon katsayısı, değişkenler arasındaki ilişkinin düzeyini ya da
miktarını ve yönünü açıklayan bir sayıdır. Korelasyon katsayısı, iki değişken
arasındaki ilişkinin miktarını bulup yorumlamak amacıyla kullanılır. İki
değişken de sürekli ve birlikte normal dağılım gösteriyorlarsa Pearson
Momentler Çarpımı Korelasyonu katsayısı kullanılır. Değişkenlere ait değerlerin
puan yerine sıra değeri olarak verildiği ve değişkenlerin sürekli olmakla birlikte
normal dağılım göstermediği durumlarda, iki değişken arasındaki ilişkiyi
açıklamak için Spearman Brown Sıra Farkları Korelasyon katsayısı ya da Sıra
Farkları Korelasyon katsayısı kullanılır (Büyüköztürk, 2002).
Pearson Momentler Çarpımı Korelasyonu Tekniği ile Spearman Sıra
Farkları Korelasyon Tekniği dışında, “Dörtlü Korelasyon Tekniği, Çift
Serili Korelasyon Tekniği, Nokta Çift Serili Korelasyon Tekniği, Tetrakorik
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 207

Korelasyon Tekniği ve Korelasyon Oranı” gibi başkaca basit korelasyon


teknikleri de kullanılmaktadır (Arıcı, 1981).

Pearson Momentler Çarpımı Korelasyon Katsayısı


Sürekli iki değişken arasındaki doğrusal ilişki miktarını gösteren
Pearson Momentler Çarpımı Korelasyon katsayısı, +1,00 ile -1,00 arasında
değişen değerler alabilir. Değişkenlerin ikisi de aynı yönde değişme
gösterirse aralarındaki ilişki pozitif; korelasyon katsayısının işareti de (+)
dır. Değişkenlerden biri bir yönde değişirken, diğeri ters yönde değişirse,
başka bir deyişle biri azalırken diğeri çoğalırsa, bu durumda ilişki negatif;
korelasyon katsayının işareti de (-) dir. Değişkenler arasında ne pozitif ne
de negatif yönde birlikte bir değişme yoksa, korelasyon katsayısı sıfırdır. Bu
durum değişkenler arasında hiçbir ilişki olmadığını gösterir (Arıcı, 1981).
Pearson Momentler Çarpımı korelasyon katsayısı, gruplandırılmamış
ölçümler için 6.17’de verilen formülle hesaplanır:

(∑ X).(∑ Y)
∑ XY − N
rxy =
⎡ ( ∑ X) 2 ⎤ ⎡ ( ∑ Y) 2 ⎤
⎢∑ − ⎥ ⎢∑ −
2 2
X . Y ⎥
⎢⎣ N ⎥⎦ ⎢⎣ N ⎥⎦
(6.17)

rxy : Korelasyon katsayısı

∑ XY : Her iki veri grubundaki ham puanların çarpımlarının toplamı


N : Veri sayısı

Korelasyon katsayıları arasında miktar yönünden bir karşılaştırma


yapılırken, katsayıların sayısal değerleri yerine mutlak değerleri dikkate
alınır (Arıcı, 1981). Tablo 6.12’de görülebileceği üzere, 6.17’de verilen
Pearson Momentler Çarpımı Korelasyon katsayısı formülü uygulanarak
bulunan mutlak değere göre, değişkenler arasındaki ilişkinin düzeyi değişir.
208 Eğitimde Ölçme ve Değerlendirme

Tablo 6.12:Pearson Momentler Çarpımı Korelasyon Katsayısı ve


Değişkenler Arasındaki İlişkinin Düzeyi
Pearson Momentler Çarpımı Değişkenler Arasındaki İlişkinin
Korelasyon Katsayısı
Düzeyi
0,70-1,00 arasında Yüksek
0,30-0,69 arasında Orta
0,00-0,29 arasında Düşük
Kaynak: Büyüköztürk, 2002, 32.
Örneğin, Tablo 6.13’teki verileri kullanarak, 15 öğrencinin fizik sınavı
ile matematik sınavı puanlarının Pearson Momentler Çarpımı Korelasyon
katsayısı şu şekilde hesaplanabilir:
Tablo 6.13:15 Öğrencinin Fizik Sınavı ile Matematik Sınavı Puanlarının
Pearson Momentler Çarpımı Korelasyon Katsayısının Hesaplanması
Fizik Matematik
Sınavı Sınavı Puanı X2 Y2 XY
Puanı (X) (Y)
60 21 3600 441 1260
55 20 3025 400 1100
53 33 2809 1089 1749
51 38 2601 1444 1938
50 42 2500 1764 2100
40 30 1600 900 1200
35 40 1225 1600 1400
30 51 900 2601 1530
25 50 625 2500 1250
22 53 484 2809 1166
20 10 400 100 200
19 11 361 121 209
18 16 324 256 288
15 13 225 169 195
10 35 100 1225 350
ΣX=503 ΣY=463
X =33,53 Y =30,87 ΣX2=20779 ΣY2=17419 ΣXY=15935
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 209

Tablo 6.13’te bulunan değerler Pearson Momentler Korelasyon


katsayısının hesaplanması için 6.17’de verilen formülde yerine konulursa;
(503).(463)
15935 −
rxy = 15
⎡ (503) ⎤ ⎡
2
(463) 2 ⎤
⎢ 20779 − .
⎥⎢ 17419 − ⎥
⎣ 15 ⎦ ⎣ 15 ⎦

409,07
=
(3911,73)(. 3127,73)
409,07 409.07
= =
12234835.28 3497.83
= 0,12 bulunur.
İlişkinin yönünün pozitif olduğunu ifade eden bu sonuç, Tablo 6.12’ye
göre, fizik sınavı ile matematik sınavı puanları arasında düşük bir ilişki
olduğunu göstermektedir.
Spearman Brown Sıra Farkları Korelasyon Katsayısı
Spearman Brown Sıra Farkları Korelasyonu ya da Sıra Farkları
Korelasyonu, Pearson Momentler Çarpımı Korelasyonun özel bir halidir.
Sıraya konmuş iki dizi ölçüm arasındaki ilişki miktarını gösteren Momentler
Çarpımı Korelasyon katsayısına sıra farkları ya da Spearman Sıra Farkları
Korelasyon katsayısı denir. Spearman Brown Sıra Farkları Korelasyonu
katsayısı hesaplanırken, bir veri grubundaki ölçümlerin birden fazlasının
aynı olması halinde, birbirine eşit ölçümlere aynı sıra numarası verilir
(Arıcı, 1981).
Spearman Brown Sıra Farkları Korelasyon katsayısı 6.18’de verilen
formülle hesaplanır:

ρ =1−
6 ∑D 2

=1−
∑D 6 2

N3 −N N (N − 1) 2
(6.18)

ρ : Korelasyon katsayısı
D : Sıra sayıları farkları
N : Veri sayısı
210 Eğitimde Ölçme ve Değerlendirme

Örneğin, Tablo 6.13’teki verileri kullanarak, Tablo 6.14’e göre, 15


öğrencinin fizik sınavı ile matematik sınavı puanlarının Spearman Brown
Sıra Farkları Korelasyon katsayısı şu şekilde hesaplanabilir:
Tablo 6.14:15 Öğrencinin Fizik Sınavı ile Matematik Sınavı Puanlarının
Spearman Brown Sıra Farkları Korelasyon Katsayısının Hesaplanması

Fizik Sıra Matematik Sıra (Sıra X)-(Sıra


Sınavı (X) Sınavı Puanı (Y) Y) D2
Puanı (X) (Y) (D)
60 1 21 10 -9 81
55 2 20 11 -9 81
53 3 33 8 -5 25
51 4 38 6 -2 4
50 5 42 4 1 1
40 6 30 9 -3 9
35 7 40 5 2 4
30 8 51 2 6 36
25 9 50 3 6 36
22 10 53 1 9 81
20 11 10 15 -4 16
19 12 11 14 -2 4
18 13 16 12 1 1
15 14 13 13 1 1
10 15 35 7 8 64
ΣD2=444

Tablo 6.14’te bulunan değerler Spearman Brown Sıra Farkları


Korelasyon katsayısının hesaplanması için 6.18’de verilen formülde yerine
konulursa;
6( 444)
ρ = 1−
15(15 2 − 1)
= 1 − 0,79
= 0,21 bulunur.
İlişkinin yönünün pozitif olduğunu ifade eden bu sonuç, Tablo 6.12’ye
göre, fizik sınavı ile matematik sınavı puanları arasında düşük bir ilişki
olduğunu göstermektedir.
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 211

Özet

Verilerin puanlanması işlemi bittikten sonra, veriler üzerinde istatistiksel


işlemlerin yapılabilmesi için, öncelikle puanların büyükten küçüğe ya da
küçükten büyüğe doğru sıralanarak düzenlenmesi gerekir. Ancak ham
puanların sıralanarak alt ve üst sınırlarının belirlenmesi, yalnız başına
verilerin yorumlanması için yeterli değildir. Verilerin yorumlanması için
ayrıca verilerin frekans tablosunun hazırlanmasına gereksinim vardır.
Frekans tablosunda puanlar sıralanıp, bir puandan kaç tane olduğu sayılarak
frekanslar bulunduğu halde, puan dağılımının genel gidişini daha iyi
görebilmek ve hesaplamaları kolaylaştırmak için ayrıca verilerin
gruplandırılması gerekmektedir.
Veriler gruplandırıldıktan sonra, veriler üzerinde istatistiki işlemler
yapılabilir. Bu işlemlerden verilerin bütününe ait özellikleri ortaya koymada
yararlanılır. Veri istatistikleri merkezî yığılma ölçüleri, dağılım ölçüleri ve
ilişki ölçüleri olarak kategorize edilebilir.
Puanların, dağılımın ortasında yığılma eğilimi göstermesi merkezî
yığılma olarak ifade edilir. En sık kullanılan merkezî yığılma ölçüleri
aritmetik ortalama, ağırlıklı ortalama, mod ve ortancadır.
Puanlar merkezî yığılma eğilimi gösterdiği gibi, dağılma eğilimi de
gösterebilir. En sık kullanılan dağılım ölçüleri ranj, standart sapma, varyans,
çeyrek sapma, bağıl değişkenlik katsayısı, normal dağılım, çarpıklık katsayısı,
basıklık katsayısı ve standart puandır.
Araştırmacının ulaşmaya çalıştığı hedeflerin başındaki istenen sonuçları
elde edebilmek için, olayları kontrol altına almak gelir. Olayların başka bir
deyişle değişkenlerin kontrol altına alınabilmesi, değişkenler arasındaki
ilişkinin bilinmesini gerektirir. Değişkenler arasındaki ilişkilerin incelenmesi
ile ilgili olarak geliştirilmiş olan birçok istatistikî yöntem olmakla birlikte,
sınav sonuçlarının bütününe ait özellikleri ortaya koymada yaygın olarak
kullanılan korelasyon teknikleri; Pearson Momentler Çarpımı Korelasyonu
Tekniği ile Spearman Sıra Farkları Korelasyon Tekniğidir. Bu tekniklerin
dışında ayrıca sınav sonuçlarının bütününe ait özellikleri ortaya koymada
Dörtlü Korelasyon Tekniği, Çift Serili Korelasyon Tekniği, Nokta Çift Serili
Korelasyon Tekniği, Tetrakorik Korelasyon Tekniği ve Korelasyon Oranı gibi
başkaca basit korelasyon teknikleri de kullanılmaktadır.
212 Eğitimde Ölçme ve Değerlendirme

Kaynakça

Akhun, İ. (1988). Temel İstatistiksel Kavramlar. 3. Baskı, Ankara.


Akhun, İ. (1988-a). İstatistiksel Formüller ve Tablolar. Geliştirilmiş Üçüncü Baskı,
Ankara.
Arıcı, H. (1981). İstatistik Yöntem ve Uygulamalar. Ankara: Meteksan Baskı Tesisleri.
Atılgan, H. (2006). “Ölçme ve Değerlendirme”. Öğretmen Adayları İçin Tamamı Konu
Anlatımlı Eğitim Bilimleri KPSS (Editör Sönmez, V.). Ankara: Çağdaş Öğretmen
Yayınları.
Baykul, Y. (1989). Test Geliştirme. Ankara: Hacettepe Üniversitesi Eğitim Fakültesi
Ders Notu.
Baykul, Y. (1997). İstatistik. Yenilenmiş 2. Baskı, Ankara: Anı Yayıncılık.
Baykul, Y. (2000). Eğitimde ve Psikolojide Ölçme: Klasik Test Teorisi ve Uygulaması.
Ankara: ÖSYM Yayınları.
Binbaşıoğlu, C. (1983). Eğitimde Ölçme ve Değerlendirme. Ankara: Binbaşıoğlu
Yayınevi.
Büyüköztürk, Ş. (2002). Veri Analizi El Kitabı. 1. Baskı, Ankara: Pegem A Yayıncılık.
Çağlar, D. (1970). Başarının Ölçülmesi ve İstatistik Metotlarla Değerlendirme. Çağdaş
Eğitim Kitapları, Ankara: Ayyıldız Matbaası.
Erdoğan, H., Ural, M. ve Tüzün, M. (1984). Eğitimde Ölçme ve Değerlendirme
(İstatistik Uygulamalı). Geliştirilmiş 2. Baskı, Ankara: Emel Matbaacılık.
Özçelik, D. A. (1992-2). Ölçme ve Değerlendirme. Genişletilmiş İkinci Baskı, Ankara:
ÖSYM Yayınları
Tekin, H. (1977). Eğitimde Ölçme ve Değerlendirme. Ankara: Mars Matbaası.
Turgut, M. F. (1988). Eğitimde Ölçme ve Değerlendirme Metotları. Altıncı Baskı,
Ankara: Saydam Matbaacılık.
Yılmaz, H. (1998). Eğitimde Ölçme ve Değerlendirme. Genişletilmiş ve
Güncelleştirilmiş 3. Baskı, Ankara: Mikro Yayınları.
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 213

Sorular

İlk 4 soruyu aşağıdaki metne göre yanıtlayınız.


Sekiz öğrencinin bir dersin ara sınavından almış olduğu ham puanlar sırasıyla
85, 80, 80, 75, 70, 65, 55 ve 50’dir.
1. Söz konusu derse ilişkin veri 4. Söz konusu derse ilişkin veri
grubunun aritmetik ortalaması grubunun ranjı kaçtır?
kaçtır?
A) 15
A) 40
B) 20
B) 50
C) 25
C) 60
D) 30
D) 70
E) 35
E) 80

2. Söz konusu derse ilişkin veri


grubunun modu kaçtır?
A) 40

B) 50

C) 60
5. Metin fizik dersi ara sınavından 90,
D) 70
yıl sonu sınavından ise 60 almıştır.
E) 80 Okulun sınav yönetmeliğine göre,
ara sınavın %40’ı, yıl sonu
sınavının %60’ı öğrencilerin geçme
notu olacaktır. Bu durumda
Metin’in fizik dersine ilişkin
3. Söz konusu derse ilişkin veri ağırlıklı not ortalaması kaçtır?
grubunun ortancası kaçtır?
A) 68
A) 65
B) 72
B) 67,5
C) 74
C) 72,5
D) 76
D) 75
E) 80
E) 77,5
214 Eğitimde Ölçme ve Değerlendirme

6. Bir veri grubunda en çok tekrar 9. Aşağıdakilerden hangisi, sınav


eden ölçme sonucu sonuçlarının bütününe ait
aşağıdakilerden hangisidir? özellikleri ortaya koymada yaygın
olarak kullanılan bir ilişki
A) Mod
ölçüsüdür?
B) Aritmetik ortalama
A) Regresyon
C) Ortanca
B) Ki-kare
D) Ağırlıklı ortalama
C) Standart puan
E) Ranj
D) Pearson Momentler Çarpımı
Korelasyonu
E) Varyans

7. Bir sınavın çarpıklık katsayısı


pozitif bulunmuş ise, güçlük
düzeyi nedir?
A) Kolay

B) Zor

C) Hafif zor

D) Orta güçlükte

E) Çok zor
10. Öğrencilerin fizik sınavı ile kimya
sınavı puanlarının Pearson
8. Bir veri grubunda ölçme Momentler Çarpımı Korelasyon
sonuçlarının aritmetik Katsayısı 0,50 bulunmuş ise, fizik
ortalamadan farklarının sınavı ile kimya sınavı puanları
karelerinin aritmetik arasındaki ilişkinin düzeyi
ortalamasına ne ad verilir? nasıldır?
A) Varyans A) Çok yüksek

B) Çeyrek sapma B) Yüksek

C) Standart sapma C) Orta

D) Basıklık katsayısı D) Düşük

E) Standart puan E) Çok düşük


Cevap Anahtarı
1-D 2-E 3-C 4-E 5-B
6-A 7-B 8-A 9-D 10-C
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 215

Yrd. Doç. Dr. Erol KARACA


1968 yılında Malatya’nın Hekimhan ilçesinde doğdu. İlk ve orta
öğrenimini Malatya’da tamamladı. 1991 yılında Hacettepe Üniversitesi
Eğitim Bilimleri Bölümü Ölçme ve Değerlendirme Anabilim Dalından mezun
oldu. 1994 yılında Anadolu Üniversitesi Açık Öğretim Fakültesine araştırma
görevlisi olarak atandı. 1996 yılında Hacettepe Üniversitesi Sosyal Bilimler
Enstitüsü Ölçme ve Değerlendirme Anabilim Dalında “Çoktan Seçmeli, Kısa
Cevaplı ve Doğru-Yanlış Testlerinin Madde ve Test İstatistiklerinin
Karşılaştırılması” başlıklı teziyle Yüksek Lisansını tamamladı. 2003 yılında
Ankara Üniversitesi Eğitim Bilimleri Enstitüsü Eğitim Bilimleri Anabilim Dalı
Ölçme ve Değerlendirme Programında “Öğretmen Adaylarının Ölçme ve
Değerlendirme Yeterliklerine İlişkin Algıları” başlıklı teziyle doktorasını
tamamladı. 2004 yılından bu yana Dumlupınar Üniversitesi Eğitim Fakültesi
Eğitim Bilimleri Bölümünde Yardımcı Doçent olarak görev yapan Karaca,
evli ve iki çocuk babasıdır.
216 Eğitimde Ölçme ve Değerlendirme
7. Bölüm

ÖĞRENME ÇIKTILARINI
DEĞERLENDİRME ve NOT VERME
Gülşah BAŞOL
Gaziosmanpaşa Üniversitesi
Kazanımlar
Bu bölümün sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir.
 Değerlendirmenin eğitim sistemindeki önemini kavrayabilme
 Değerlendirmenin amaçlarının bilgisi
 Değerlendirme türlerinin bilgisi
 Kriter referanslı (mutlak) ve norm referanslı (bağıl) değerlendirme arasındaki
farkı kavrayabilme
 Otantik değerlendirme türlerinden kişisel gelişim dosyalarının önemini kavra-
yabilme
 Öğretimi değerlendirmenin önemini kavrayabilme
 Gerektiğinde uygun ölçüt seçerek kriter referanslı değerlendirmeyi yapabilme
 Gerektiğinde bağıl değerlendirmeyi uygulayabilme

İçindekiler
 Giriş
 Değerlendirme
 Değerlendirmenin Amacı
 Kriter Referanslı (Mutlak) Değerlendirme
• Norm-Referanslı (Bağıl) Değerlendirme
• Karşılaştırma
• Kişisel Gelişim Dosyaları (Portfolio)
 Öğretimi Değerlendirme
 Öğretim Programını Değerlendirme
 Öğretim Hizmetini Değerlendirme
 Özet
 Kaynakça
 Sorular
218 Eğitimde Ölçme ve Değerlendirme

Giriş

Eğitim gelişigüzel bir aktivite değildir. Örgün eğitim, sonucu şansa bırakı-
lamayacak kadar değerli emek ve yatırımlar üzerine kurulmuştur. Verdiğimiz
eğitimden ne beklediğimiz verilen notla her ne kadar yakından ilgili olsa da,
değerlendirme olmaksızın başarı veya başarısızlığı yordama olasılığı düşüktür.
Eğitim araştırmalarının temelinde eğitimin kalitesini artırmak ve başa-
rıyı sürekli kılmanın olduğu düşünülürse, belirtildiği gibi gelişigüzel bir akti-
vite olmayan eğitimin kalitesi ve standartlarını tartışmak da pekâlâ müm-
kündür. Değerlendirme, nicel formdaki ölçme sonuçlarının (70, 80 vs) nite-
lik belirtir ifadelere dönüştürülmesi (iyi, pekiyi vb. gibi) yoluyla, başarı veya
başarısızlığın yordanmasını mümkün kılar. Değerlendirmenin olmadığı veya
değerlendirmeye gereken önemin verilmediği bir eğitim sisteminin başarılı
olacağını düşünmek olanaksızdır. İyi bir değerlendirme sisteminde sistemin
amacı ve nasıl işleyeceği açık bir yönergeyle ortaya konulmalıdır ki ilgili
olan taraflar, öncelikle öğrenciler ve öğretmenler olmak üzere, bilgi sahibi
olsunlar. Gerek ÖSS, SBS, KPSS gibi sınavlarda gerekse öğretmen yapımı
sınavlarda öğrenciler girecekleri sınavın kapsamı, soru tipi, soru sayısı ve
geçme/kalma kararının verilmesinde nasıl bir yol izleneceğini merak eder-
ler. Öğrenci başarısında belirleyici bir unsur olarak karşımıza çıkan bu ce-
vaplar öğrenci çalışmalarına büyük ölçüde yön verir.
Değerlendirmenin yapılabilmesi için öğrenmenin gerçekleşmiş olup
olmadığının davranış formunda ölçülmüş olması gerekmektedir. Değerlen-
dirme yönteminin kararlaştırılması öğretim elemanının eğitime bakış açısı
ve sunduğu dersten ne beklediği ile yakından ilintilidir. Bazı durumlarda
değerlendirmenin nasıl yapılacağı yönetmeliklerle belirlenirken bazı uygu-
lamalarda ise değerlendirme öğretim elemanı ya da öğretmenin inisiyatifin-
dedir. Ülkemizde ilköğretim ve ortaöğretim kurumlarında kriter referanslı
değerlendirmeler yaygın olarak kullanılmaktayken, yüksek öğretim kurum-
larında değerlendirme uygulamalarının daha geniş bir yelpazede uygulandı-
ğını görmekteyiz. Yurtdışında öğretim elemanları bireysel olarak kendi de-
ğerlendirme anlayışı doğrultusunda verdiği notları harf notuna dönüştürür-
ken, ülkemizde öğretim elemanları bağlı bulundukları üniversitelerin sena-
toları tarafından belirlendiği şekilde değerlendirme yapmak durumundadır-
lar. Pek çok durumda ders öğretim programında öğretim elemanı değerlen-
dirmenin nasıl yapılacağını belirtir. Bağıl ve kriter referanslı değerlendirme
notların nasıl anlamlandırılacağı üzerinde odaklaşmaktadır. Kriter ve bağıl
referanslı değerlendirme içinde uygulanabilecek otantik ve performans de-
ğerlendirme ise değerlendirmeye öğrenmenin bir parçası olarak bütünsel
bir süreçte gerçekleşen bir aktiviteler zinciri olarak yaklaşmaktadır.
Öğrenme Çıktılarını Değerlendirme ve Not Verme 219

Değerlendirme

Değerlendirme ölçme sonuçlarının bir ölçüt ya da ölçütler takımı ile


karşılaştırılarak birey ya da objeler hakkında yargıda bulunma işlemidir
(Baykul, 2000; Tekin, 2004; Turgut, 1995).
Değerlendirme eğitim-öğretim faaliyetlerinin önemli bir parçasıdır.
Değerlendirme olmaksızın öğretim hedeflerinin amacına ulaşıp ulaşmadığı-
nın yoklanmasına imkan yoktur. Değerlendirmenin nasıl yapılacağı ise başlı
başına bir sorundur. Öğrenme hedeflerinin nasıl yoklanacağı öğretmen için
önemli olduğu kadar öğrenciler için de önem taşır. Ülkemizde uygulanacak
değerlendirme türü yönetmeliklerle belirlenmiştir. Örneğin Milli Eğitim
Bakanlığı bünyesinde kriter referanslı değerlendirmelerin uygulanması teş-
vik edilmektedir. 2005-2006 eğitim-öğretim yılıyla birlikte ilköğretimde ya-
pılandırıcı yaklaşım, çoklu zeka, sosyal öğrenme, kubaşık öğrenme ve çoklu
değerlendirmeyi esas alan bir anlayış öngörülmüştür. Bu anlayışa göre öğ-
renme içsel bir süreçtir ve öğrenmeler bireyin önceki öğrenmeleri üzerine
temellenir. Her öğrencinin her ders ya da her konuda başarılı olmasını bek-
leyemeyiz. Gardner’ın çoklu zeka teorisine göre zeka çok boyutludur ve her
bireyin güçlü ve zayıf noktaları olabilir. Kiminin sözel yönü güçlü iken bir
diğer öğrenci Matematikte, Fizikte, Müzik ya da Resimde daha yetenekli
olabilir. O halde öğretmenin görevi farklı zeka türlerine sahip olan, ilgi
alanları ve yetenekleri kadar öğrenme türleri de çeşitlilik gösteren öğrenci-
leri iyi tanıyarak farklı etkinliklerle stimüle etmek ve öğrenmelerini sağla-
mak yönünde onları motive etmektir. Piaget’ nin yapılandırmacı anlayışının
yanı sıra Vygotski’nin sosyal öğrenmesi yeni anlayışın temel taşlarından bi-
ridir. Çevresinin parçası olan bireyin öğrenmesinde sosyal etkileşim de
önem taşır. Öğrenmedeki çoklu etkinliklerin çoklu değerlendirmeyi gerekli
kılması kaçınılmazdır. Öğrenmeyi üretim odaklı algılayan ve kuru bilgi öğre-
timi ve ölçülmesinden ziyade uygulama düzeyinde performans göstermeyi
ve ürün ortaya koymayı hedefleyen bir öğrenmede değerlendirme anlayışı
da geleneksel kağıt-kalem testlerinden farklıdır. Portfolio (kişisel gelişim
dosyası) değerlendirmesi gibi sonuçtan çok süreç üzerinde odaklanan per-
formans değerlendirme etkinlikleri ile, değerlendirme uygulamaları çeşit-
lenmiştir. Bireyin kişisel gelişimi ve beceri düzeylerinin ön planda olduğu bu
anlayışta değerlendirme anlayışı da beklenildiği gibi kriter referanslıdır. So-
nuç olarak yapılandırmacı yaklaşımı temel alan ilköğretim okullarındaki
değerlendirme uygulamalarının kriter referanslı olduğunu söyleyebiliriz. Bu
durumda OKS, SBS gibi aynı öğrencileri sınırlı sayıdaki programlara yerleş-
tirme amacı taşıyan sınavlarda bağıl değerlendirmenin kullanılması
ironiktir. Milli Eğitim Bakanlığı tarafından benimsenen not çizelgesine göre
220 Eğitimde Ölçme ve Değerlendirme

öğrencinin bir dersten başarılı sayılabilmesi için yıl sonu notunun en az 45


olması gerekmektedir. Geçer, Orta, İyi ve Pekiyi notları için gerekli olan
aralıklar da çizelgede belirlendiği şekildedir ve bu aralıklara karşılık gelen
notlar kişiden kişiye, sınıftan sınıfa, okuldan okula değişiklik göstermez.
Ayrıca öğrencileri çeşitli kriterlere göre değerlendirip davranış notu giril-
mesi uygulaması da e-okul uygulamasıyla hayata geçirilen yeniliklerden bi-
ridir.
Diğer yandan üniversiteler bağıl, kriter referanslı veya her iki değerlen-
dirme anlayışını birlikte ya da iç içe kullanmaktadır. Öyle ki fakülteler ara-
sında bile farklılaşmalar görmek mümkündür. Bağıl değerlendirmenin uy-
gulandığı üniversitelerde kriter referanslı değerlendirmenin hakim olduğu
Tıp Fakültelerinin bağıl değerlendirme uygulamasının dışında tutulduğu
bilinmektedir. Dolayısıyla öğrencileri sıralayarak notların takdir edilmesi
eksik öğrenmelerin insan hayatına mal olabileceği tıp eğitiminde tercih
edilmemektedir. Tıp fakültelerinin yanısıra öğrenci performans düzeyinin
belirli bir seviyenin üzerinde olmasını esas alan Müzik, Resim ve Beden
Eğitimi bölümlerinde ve staj derslerinde kriter referanslı değerlendirmenin
uygulanması daha doğru bir tercih olacaktır. Bununla birlikte bağıl değer-
lendirme uygulamalarında düşük notlarla geçmeyi ve en yüksek harf notuna
kolay erişilmesini önlemek üzere bir baraj not belirlendiği de bilinmektedir.
Öyle ki 70 puanın altındaki notlara A harf notu verilmesini önleyen bağıl
değerlendirme uygulamalarının olduğu da görülmektedir. Bu durumda uy-
gulanan sisteme yapılan müdahaleler sonrasında kriter dayanaklı bağıl de-
ğerlendirme uygulandığını söylemek mümkündür.

Değerlendirmenin Amacı

Değerlendirme türleri, değerlendirmenin amacına göre farklılaşır. Uy-


gulamaya konulan değerlendirme sistemi, değerlendirme sonuçlarının kul-
lanım amacına uygun olmalıdır. Sınıf içi değerlendirmelerin amacı öğrenci-
lerin öğrenme eksikliklerini belirlemek olabileceği gibi, geçme-kalma kara-
rı vermek de olabilir. Ayrıca bir kuruma eleman seçmek ya da bir okula ye-
tenekleri doğrultusunda öğrenci seçmek de değerlendirmenin amacı olabi-
lir. Öğretmenin amacı not vermek ya da öğrenme eksiklerini belirlemek
olabileceği gibi değerlendirme yoluyla öğretimdeki eksikleri belirlemek de
mümkündür. Örneğin, öğrencileri birbirleriyle kıyaslamak, erişi düzeylerine
göre sıralamak esas olduğunda norm-referanslı (bağıl) değerlendirme man-
tıklı bir seçim olacaktır. Ancak, örneklemi dezavantajlı öğrencilerin oluş-
turduğu, sınav sorularının çok zor ya da çok kolay sorulardan oluştuğu, gru-
bun kendi içinde fazlasıyla homojen olduğu küçük gruplarda kriter referans-
Öğrenme Çıktılarını Değerlendirme ve Not Verme 221

lı değerlendirmeye başvurmak daha doğrudur. Benzerliklerden dolayı not-


larda farklılaşma az olacağından sağlıklı bir şekilde öğrencileri sınıflamak ya
da sıralamak mümkün olmayacaktır. Bazı durumlarda ise amaç sınırlı kon-
tenjanı olan bir programa öğrenci seçmek ve yerleştirmektir. Üniversitele-
rin Müzik, Resim ve Beden Eğitimi bölümleri öğrencilerini bu şekilde belir-
lemektedirler. Bu tür değerlendirmelerin amacı başarılı öğrencilerin seçil-
mesi olduğu kadar öğrenme problemlerinin tespit edilerek çözülmesi yö-
nünde önlemlerin alınmasıdır. Değerlendirme öğrencilerin öğrenme du-
rumlarını izleme, hazır bulunuşluk düzeylerini tespit etme, öğrenme eksik-
liklerini ve olası yanlışları belirlemeyi mümkün kılar. Bunların en önemlisi
değerlendirmenin öğrenme düzeyini belirlemeye olan katkısıdır. Değerlen-
dirme sayesinde öğrencilere ölçme sonrasında verilen notlar anlam kazanır.
Başarı durumu hakkında bilgi edinen öğrenci bu sayede motive olur ve güç-
lü ve zayıf yönleri konusunda fikir edinir. Aynı şekilde öğretmen de, öğren-
me eksiklerini ortaya koyarak giderme fırsatı yakalar. Veliler içinse öğrenci-
lerinin başarı durumlarını bilmek olası sorunları büyümeden gidermeleri ve
önlem almaları bakımından önem taşır.
Öğrenilenlerin değerlendirilmesi iki başlık altında ele alınmaktadır.
Bunlar:
1. Kriter Referanslı (Mutlak) Değerlendirme,
2. Norm-Referanslı (Bağıl) Değerlendirme.

Kriter Referanslı (Mutlak) Değerlendirme

Kriter-referanslı (mutlak) değerlendirmenin literatüre girişi Glaser ve


Klaus’un 1962 yayını ile başlar. Mutlak değerlendirme, norm-referanslı de-
ğerlendirmeye diğer adıyla “eğri üzerinden” yapılan değerlendirmeye alter-
natif olarak doğmuştur. Mutlak değerlendirmenin güçlü yönü, öğrencinin
başarısının diğer öğrencilerden soyutlanarak durumdan duruma değişmeyen
sabit, ortak bir ölçüt alınarak ya da belirli derecede bir performans kriter
alınarak yapılmasıdır. Böylelikle içinde bulunulan grubun performansına
bakılmaksızın değerlendirme yapılır. Mutlak değerlendirmede öğrencilerin
bir programda ne derece başarılı olduklarına karar verirken, norm grubuna
göre ya da testi aldığı grubun nasıl performans gösterdiğine göre değil, öğ-
rencinin belirlenmiş bir standarta ulaşıp ulaşmadığına ya da öğrenme kriter-
lerinin neresinde olduğuna göre karar verilir. Mutlak değerlendirme yapı-
lırken öğrencinin mutlak başarısı ölçüt alındğından bu değerlendirme mut-
lak değerlendirme olarak da anılır. Bu değerlendirme anlayışında öğrencile-
re program hedef ve hedef davranışlarının ne kadarına ulaşıldığında hangi
222 Eğitimde Ölçme ve Değerlendirme

notun alınacağını belirten önceden belirlenmiş bir çizelgeye göre not takdir
edilir. Test puanları pekiyi-iyi-orta-geçer-zayıf, 1-2-3-4-5 ya da A-B-C-D ve
F şeklinde nota çevrilebilir. Burada dikkat çekilmesi gereken nokta bu not-
lara karşılık gelen puanların durumdan duruma, sınıftan sınıfa değişim gös-
termemesidir. Örneğin 90 ve üzeri Pekiyi, 5, ya da A’ ya; 49 ve aşağısı zayıf,
1, ya da F’ e karşılık gelmektedir.
Mutlak değerlendirmede öğrencinin başarı yüzdesi, öğrencinin sınav-
dan aldığı puanın sınavdan alınabilecek en yüksek puana bölünmesi ile elde
edilir. Mutlak başarı yüzdesi

Mutlak Başarı Yüzdesi (MBY) = Öğrencinin sınav puanı (7.1)

Sınavdan alınabilecek en yüksek puan olarak bulunabilir.


Formülden elde edilen sonuç yüzle çarpıldığında öğrencinin yüz üze-
rinden puanı elde edilir. Mutlak başarı yüzdesinin alabileceği en yüksek de-
ğer 1 ve en düşük değer ise 0’dır.
Mutlak değerlendirmenin karakteristik özellikleri aynı zamanda bu de-
ğerlendirme sistemini güçlü kılan noktalardır. Bunların en önemlisi, mutlak
değerlendirme sisteminde başarıya mutlak gözle bakılmamasıdır. Öğrenci-
lerin seviyesi tabii ki görecelidir, ancak mutlak değerlendirmenin öğrencileri
değerlendirmedeki yaklaşımında görecelilik yoktur. Dolayısıyla mutlak olan
öğrenci başarısı değil, her sınıfta ve her öğrenci için değişmeyen not ölçeği
ve öğrencilerin nasıl değerlendirilecekleridir. Öğrencinin her derste başarılı
olması tabii ki beklenemez, performans dersten derse, hatta günden güne
farklılaşabilir, dolayısıyla pek çok şey gibi, notların ifade ettiği başarı da gö-
recelidir. Ancak kriter-referanslı değerlendirmede öğrenciler birbiriyle ya-
rışmaya zorlanmaz, herkes için kurallar aynıdır ve bir öğrencinin başarısı
sınavı alan diğer öğrencilerin başarı veya başarısızlığından bağımsız olarak
değerlendirilir.
Popham’a göre (1976) kriter-referanslı bir test geliştirilirken veya öğ-
rencinin test performansını anlamaya çalışırken anahtar nokta ilgili ders ya
da konunun davranış içeriğinin çok iyi tanımlanmasıdır. Her konunun so-
nunda, ünite sonunda ya da her ay değerlendirme yapılacaksa her bölümün
içeriğini kapsar nitelikte testler geliştirilmelidir. İlgili ünite ya da konuda
verilmesi amaçlanan kazanımlar, hedef ya da hedef davranış olarak belirle-
nir. Ardından, bunların ağırlığına göre sayıları belirlenerek test maddelerine
dönüştürülür. Bunun yanısıra testin uzunluğunun ne olacağı ve ünite bo-
yunca toplam kaç testin hazırlanması gerektiğine önceden karar verilmeli-
dir. Kriter referanslı test maddeleri hiyerarşik bir yapı gösteren hedefler
Öğrenme Çıktılarını Değerlendirme ve Not Verme 223

doğrultusunda hazırlanır. Öğrencilerin hedefleri açık olarak bilmeleri ve


bilinçli hazırlanmaları için her sınıf ya da derece için program doğrultusun-
da taraflar bilgilendirilir. Öğretmenin öğretmesi gereken ve öğrencinin kav-
raması gerekenler önceden belirlenmiştir.
Norm-referanslı (bağıl) değerlendirme literatürde geleneksel değerlen-
dirme olarak adlandırılırken, mutlak değerlendirme bu tür geleneksel yak-
laşımlara alternatif olarak sunulan değerlendirme sistemi olarak karşımıza
çıkar. Mutlak değerlendirme tam öğrenme modelleri, bireyselleştirilmiş öğ-
renme, yetenek temelli öğretme (competency-based instruction) gibi öğ-
renme modellerinin de başvurduğu değerlendirme sistemidir. Bloom’un
Tam Öğrenme (Mastery Learning) modeli ve Keller’ın Bireyselleştirilmiş
Öğrenme Modeli (PSI = Personalized System of Instruction) kriter refe-
ranslı değerlendirmeyi kullanan tam öğrenme modelleridir. Öğretimi izleme
ve eksikleri tesbit amaçlı kullanılan formatif değerlendirme araçları tam
öğrenme modellerinde kritiktir ve not vermeyi değil öğrenmeyi sağlamayı
amaçladıklarından kriter-referanslıdırlar. Bu modellere göre dersin içeriği-
nin çok özenle seçilmesi ve öğrenciye öğretilmesi gereklidir ve bununla da
kalmayıp aşama aşama öğrenmelerin gerçekleşip gerçekleşmediği sık uygu-
lanan anlık kısa sınavlar (quiz) yardımıyla değerlendirilir. Sonuçlar doğrul-
tusunda öğrenme eksikliği olan konularda ek çalışmalar yoluyla takviyeler
yapılır ve ilgili konu tekrar değerlendirilir. O halde bu iki tam öğrenme mo-
delinin ortak noktası değerlendirmenin öğrenmeyi zenginleştirmek ve tam
öğrenmeyi sağlamak amacıyla yapılmasıdır.
Genellikle kağıt-kalem testleri olan ve öğrencilerin performansını ölç-
meyi hedefleyen performans temelli testler de kriter referanslı değerlen-
dirmeden faydalanır. Bu testler öğrencinin yazma becerisi, bilgisayar kulla-
nımı ve sanat becerisini ortaya koymasına gerek duyulan alanlardaki başarı-
nın değerlendirilmesi amaçlı kullanılırlar (Miller-Whitehead, 2001).
Mutlak değerlendirmeyi kullanan bireyselleştirilmiş öğretimde ise öğ-
renciye sınıf listesinde bir numara olarak değil, güçlü ve zayıf noktaları olan,
farklı zaman sürecinde kavrayan bireyler olarak yaklaşılır. Norm-referanslı
değerlendirme öğrencileri sıralamayı öngördüğünden diğerlerine göre başa-
rısız olmanın doğuracağı stres ve psikolojik baskıdan dolayı bireyselleştiril-
miş öğretimde bağıl değerlendirme söz konusu olamaz. Mutlak değerlen-
dirme öğrenciyle ve öğrencinin bireysel performansı ile ilgilenir, öğrencinin
göreceli performansını bilmek kişiselleştirilmiş öğretim yaklaşımı çerçeve-
sinden bakıldığında öğrencinin öğrenmesine katkı sağlamaz.
Breese (1976)’e göre öğrencinin bir konuyu ya da davranışı öğrenip öğ-
renmediği hakkındaki yeterliliği diğer öğrencilerin başarı ya da başarısızlı-
224 Eğitimde Ölçme ve Değerlendirme

ğından bağımsız olarak ölçülmelidir. Mutlak değerlendirmede test madde-


lerinin dersin hedefleri ile örtüşmesi gerekmektedir (Mione, 1977). Testin
kapsam geçerliliğinin olması kriter referanslı bir testin vazgeçilmez özelliği-
dir (Linehan, 1976). Mutlak değerlendirme sınıfta kullanıldığında, onu uy-
gulayacak öğretmenin becerikli bir eğitimci olması, hedefleri iyi belirleyip o
hedefleri gerçekleştirmeye dönük öğretim ortamları hazırlayabilmesi ve test
maddelerinin hedeflerle örtüşür nitelikte olması gerekir. Yapılması gereken
teste göre öğretim değil, tersine testin öğretileni ölçer nitelikte olmasıdır.
Mutlak değerlendirmenin en çok üzerinde durulan konusu kapsam geçerli-
liğinin sağlanmasıdır. Çünkü test maddeleri dersin hedeflerini ve içeriği
kapsar nitelikte hazırlanmadığı durumda, sonuçlar geçerli olmayacaktır.
Norm-referanslı testlerin tercih edilme sebeplerinden en önemlisi so-
nuçların yordanmasında istatistiğin kullanılmasına olanak tanımasıdır.
Norm-referanslı bir testin sonucuna göre ögrencinin sınıf ortalamasının al-
tında ya da üzerinde olduğunu söylemek mümkündür. Öyleki sonuçlar
standart değerler olarak ifade edildiğinde öğrencinin sınıf ortalamasının kaç
standart sapma altında veya üstünde olduğunu belirtmek de mümkündür.
Mutlak değerlendirme, öğrencinin kapsamın ne kadarını başardığına dönük
bilgi verirken, norm-referanslı değerlendirme öğrencinin diğerlerine göre
nasıl olduğu hakkında bilgi verir. Ancak Epstein ve Knerr (1976) ‘e göre
aynı istatistik yöntemlerin, istenildiği takdirde, kriter-referanslı bir teste uy-
gulanması pekala mümkündür. Öğrencinin notu tespit edilirken kullanıl-
mamak kaydıyla, öğrenci diğer öğrencilere göre performansı hakkında bilgi-
lendirilebilir. Aritmatik ortalama ve standart sapmayı hesaplamak, sınav
sonrasında sınıfa birbirlerine göre ne durumda olduklarını bir çan eğrisi
üzerinde göstermek mümkündür. Ancak bu dağılım notları üzerinde belir-
leyici bir etkiye sahip olmayacaktır.

Norm-Referanslı (Bağıl) Değerlendirme


Norm-referanslı değerlendirme sınavda birkaç öğrencinin iyi yapacağı,
çoğunluğun ortalama düzeyde olacağı ve yine sınırlı sayıda öğrencinin çok
zayıf olacağı varsayımı üzerinden hareket eder (Brandt, 2003).
Norm-referanslı değerlendirmede, insana özgü birçok özelliğin normal
dağılım gösterdiğinin kabul edilmesinden hareketle insanların başarılarının
da normal bir dağılım göstereceği düşüncesi temel alınmıştır. Bu nedenledir
ki çoğu zaman yüksek öğrenimde norm-referanslı değerlendirme eğri üze-
rinden değerlendirme olarak anılagelmiştir (Aviles, 1999). Oysa ki küçük bir
sınıfta normal diye adlandırabileceğimiz bir dağılımı yakalamamız zor ola-
caktır. Norm-referanslı değerlendirme ile Mutlak değerlendirme arasındaki
temel fark mutlak değerlendirmede amaç her öğrencinin önceden belirlen-
Öğrenme Çıktılarını Değerlendirme ve Not Verme 225

miş standartların ne kadarına ulaştığının incelenmesiyken, norm-referanslı


değerlendirmede hedef öğrencileri sıraya koymak, kategorilere ayırmaktır.
Salt mutlak ya da bağıl değerlendirme sisteminde karar kılındığı durumları
ele aldığımızda, görürüz ki her ders ve bölümde öğretim elemanlarının tek
bir değerlendirme sistemi ile sınırlanmaları, değerlendirme sisteminin ideal
amacı ile bağdaşmaz.
Aviles (1999) ‘e göre öğrenciye “A” veya “B” vermek kolaydır. Ancak
“A” ile “B” arasında ne fark olduğunu açıklamak o kadar kolay değildir.
Norm-referanslı değerlendirme bir bakıma bu işin yükünü öğretim elema-
nından değerlendirme sistemine doğru değiştirir. Eğri “A” diyorsa öğrenci-
nin notu “A” , “B” diyorsa “B” ’dir. Ancak notlar öyle bir şekilde verilmeli-
dir ki hem “A” ile “B” arasındaki fark anlamlı olsun, hem de “A” ‘nın ken-
disine yüklediğimiz değerden birşey eksilmesin. Örneğin kesme noktası 50
olarak kabul edildiğinde kriter-referanslı değerlendirmede 50 ve üzerini
başarılı sayarken, 49 ve altı başarısız sayılır. Bu durumda 49 ile 50 arasında-
ki farkı açıklamak zor olabilir.
Norm-referanslı (bağıl) değerlendirmenin temelinde öğrencilerin bu-
lundukları grup içinde kıyaslanması ve başarılarının göreceli olarak ifade
edilmesi söz konusudur. Bağıl değerlendirmede öğrencilerin başarısı göre-
celi olarak değerlendirilir.
İdeal bir norm-referanslı değerlendirmede pilot testi geliştiren kişi ya
da ekip temsil edici bir öğrenci grubuna testi uygular ve testin sonraki uygu-
lamalarının sonuçları norm-grup test sonuçları ile kıyaslama yapılarak de-
ğerlendirilir (Miller-Whitehead, 2001). Norm-grup test sonuçlarının ulaşıla-
bilir olduğu durumlarda orta düzeyde bir öğrencinin o testte alacağı puan
daha öğrenci testi almadan kestirilebilir. Ancak sınıf içi değerlendirmeler
gibi norm-grup uygulamasının mümkün olmadığı durumlarda, aynı sınıftaki
öğrenciler birbirleriyle kıyaslanarak bağıl değerlendirme yapılır.
Bağıl değerlendirmede değerlendirme ölçeği, istatistiğin gücünden ya-
rarlanarak oluşturulur. Childs (1976) notları standart puanlara dönüştür-
menin, bir gruba ait standart sapmayı aritmatik ortalamayı bilmenin önemi-
ne işaret ederek, standart “z” puanlarının öğrencinin notunu her durumda
karşılaştırılabilir hale getirdiğini vurgular. Childs (1976) ayrıca bağıl değer-
lendirme yapabilmek için notların normal bir dağılım göstermesinin önemi-
ni de belirtmektedir. Sonuçları önem taşıyan bir sınavda tüm öğrencilerin
en yüksek notu alması beklenemez. Testte ortalama güçlükteki maddeler
çoğunlukta olmak üzere, başarı durumu zayıf öğrencileri güdülemek için
kolay maddelere ve başarılı öğrencileri ayırdedebilmek için de zor maddele-
re yer verilir. Bu sayede notların normal dağılımını elde etmek mümkün
226 Eğitimde Ölçme ve Değerlendirme

olacaktır. Soruların güçlük düzeyinde çeşitlenme sağlamanın yanı sıra aynı


dersin birden çok şubesinin olduğu durumlarda notlarda normal dağılımı
sağlamak mümkün olacaktır. Ancak sınıf mevcudunun 30-50 arasında oldu-
ğu bir durumda notların normal dağılım göstermesi olasılığı da hayli düşük-
tür.
Norm-referanslı (bağıl) değerlendirme hedef tahtasını, okların en çok
haraket ettiği noktaya kaldırmaya veya indirmeye benzer. Yani ölçüt sabit
değildir ve grubun performansına göre farklılaşır. Mutlak değerlendirmede
ise ölçüt olarak belirlenen hedef tahtası sabittir. Norm-referanslı değerlen-
dirmede bir sınıfa ait notlar sıralanır, ortalama ve standart sapması hesapla-
nır ve puanların ortalama etrafında dağılımlarına göre harf notları takdir
edilir. Bağıl değerlendirmenin ne olduğunu ve nasıl işlediğini anlayabilmek
için temel istatistik bilgisi şarttır. Notların bir eğri üzerinde gösterildiği dü-
şünülürse, sınıfın başarı düzeyine göre eğrideki kesme noktaları değişir. Or-
talama, durumdan duruma ya da sınıftan sınıfa değişeceğine göre, alınan
harf notları da öğrencinin ortalamanın neresinde olduğuna göre farklılık
gösterir. Aynı testin farklı uygulamaları yapıldığını varsayalım. İlkinde sınıf
ortalaması 50 iken ikincisinde 80 ve üçüncüsünde 30 olabilir. Dolayısıyla ilk
sınıfta ortalama bir not olan 50, ikincisinde çok düşük ya da üçüncü uygu-
lamadaki gibi çok yüksek bir not olabilir.
Norm-referanslı (bağıl) değerlendirmede öğrencinin sınıfın aritmetik
ortalamasının üzerinde performans göstermesi yeterince iyi kabul edilir.
Dolayısıyla öğrencinin belli notları almak için belli derecede erişi gösterme-
sine, kalıp geçmesi için sınır puanın üzerinde olması gibi önceden belirlen-
miş kriterlere göre performans sergilemesine gerek yoktur. Ancak norm
referanslı (bağıl) değerlendirmeyi uygulayan üniversitelerimizin yönetmelik-
lerini inceleyecek olursak görürüz ki pek çoğunda kesme puan uygulaması
mevcuttur. Yani eğri üzerinden değerlendirmeye dahil olabilmek için öğ-
rencinin önceden belirlenmiş bir puan alması gerekmektedir. Ayrıca sınır
puanlarıyla (80 ve üzeri olmayan notlara sınıf ortalaması ne olursa olsun A
verilmemesi gibi) yüksek notlara erişmeyi nispeten zorlaştıran uygulamalar
da görmekteyiz. Böyle bir uygulamada sınıftaki en yüksek puan 79 olsa da
sistem A vermez. Diğer yandan öğrencilerin çoğunluğunun 90 üzerinde not
aldığı bir derste 85 alan öğrencinin notu D olabilmektedir. Kesme puan ve
sınır puan uygulamalarıyla öğrencilerin bağıl sistemi maniple etmesinin ve
not enflasyonunun önüne geçilmeye çalışılmaktadır. Dolayısıyla ülkemizde
uygulanan bağıl değerlendirmenin mutlak sınırları olması dikkat çekicidir.
Öğrenciler sistemi maniple etmeye çalışabileceği gibi öğretmenler zor soru-
lar sorarak başarı düzeyleri zayıf olan öğrencilerin geçme barajını aşıp bağıl
değerlendirmeye dahil olmalarını engelleyebilir. Diğer yandan çok kolay
Öğrenme Çıktılarını Değerlendirme ve Not Verme 227

sorular sorarak başarıyı olduğundan yüksek göstermek de mümkündür. Bu


da bağıl sistemin öğrenciler tarafından olduğu kadar öğretmenler tarafın-
dan da maniple edilmeye açık olduğunu göstermektedir. Mutlak değerlen-
dirme de benzer şekilde öğretmenler tarafından maniple edilmeye açıktır.
Ancak SBS, ÖSS gibi ulusal sınavlar öğrencilerin ve okulların gerçek seviye-
lerini ortaya koyacağından bu tür manipleler ancak kaçınılmaz olanı erte-
lemekten öteye gidemeyecektir.
Notları farklı renklerde ve büyüklüklerde dilimlere ayrılmış bir pasta
olarak düşünürsek, bağıl değerlendirme testi alan öğrencilere pastanın bö-
lüştürülmesi işine benzer. Kimin, pastanın hangi diliminden ne kadar alaca-
ğına karar verilirken önceden hazırlanmış bir standart ölçek uygulanır. Öl-
çeğe göre sınıfın yüzde kaçının en yüksek harf notu “A” ile ödüllendirilece-
ğine göre belli sayıda öğrenci “A” ile ödüllendirilir. Mutlak değerlendirme-
de hangi puan aralığına hangi harf notunun karşılık geleceği sabitken bağıl-
da notlar sıralanır ve yukarıdan başlayarak yüzde kaçına A, B ve diğer not-
lar verileceği kararlaştırılan çizelgeye uygun olarak verilir.
Mutlak değerlendirmeye göre değerlendirilse aynı öğrencilerin “B”
alacakları puana, bağıl değerlendirmede “A” verilebilmektedir. Önemli
olan test maddelerinin kaçına doğru cevap verildiği değil, öğrencinin sınıfın
not dağılımının neresinde olduğu ve sınıfın çoğunluğuna göre daha iyi per-
formans gösterip göstermediğidir.
Bağıl değerlendirme yapmak üzere geliştirilmiş dört farklı metot bura-
da kısaca tanıtılacaktır. Bunlar; değişim aralığı metodu, kopma metodu,
normal dağılım eğrisine göre not verme metodu ve ortalama metodudur.
1. Değişim Aralığı Metodu: Değişim aralığı metodunda en yüksek ve en
düşük puan arasındaki fark bulunur ve bulunan değer F notunun ağırlığı
ve diğer notların ağırlıkları toplamına bölünerek her not arasındaki puan,
yani not dilimi bulunur. Notlar A, A-, B+, B-, C, D, ve F olsun. F’ in
ağırlığını 4 kabul edersek, diğer notların adedi 6’ dır ve 6 + 4 = 10 eder.
En yüksek puanın 90 en düşük puanın 30 olduğu bir durumda fark 60
(90-30=60)’ dır. Not dilimlerinin kaçar puan olacağı puan ranjının dilim
sayısına bölünmesiyle bulunur (60 /10= 6). Böylece her not dilimi 6 puan
olacaktır. Dikkati çeken nokta mutlak değerlendirmede sabit bir ölçek
üzerinden değerlendirme yapılırken, bağıl değerlendirmede notların
kesme noktalarının değişim göstermesidir. En yüksek puanın 80 en dü-
şük puanın 40 olduğu durumda değişim aralığı daraldığından, yukarıdaki
örnekten farklı olarak dilimler de küçülecektir. Bu ise farklı notlara
biribirine yakın puanlar ile erişileceği anlamına gelir. Bu durumda notla-
rın ranjının geniş olması farklı harf notlarına erişmek için gerekli olan sı-
nır puanlarının da farklılaşacağı anlamına gelir.
228 Eğitimde Ölçme ve Değerlendirme

2. Kopma Yöntemi: Diğer bir yöntem kopmalara göre not takdir edilme-
sidir. Kabaca anlatmak istersek, bu yöntemde testten alınması mümkün
olan puanlar yüksekten düşüğe sıralanır ve her puanı alan öğrenci sayı-
sınca o puanın yanına çentik atılır. En düşük puanı alan öğrenci sayısın-
ca da çentik atıldıktan sonra ortaya çıkan şekle bakılır ve bu şekildeki
kopmaların yerlerine göre not takdirinde bulunulur. Diğer bir deyişle
puanların frekans dağılımlarına bakarak dağılımın şekline göre notlar
belirlenir. Puanlarda fakrlılaşmaların az olması ve yığılmaların olduğu
bir dağılımda kopma yöntemini kullanarak not takdiri mümkün olmaz.
O halde puanların ranjının geniş olması ve öğrenci puanlarının hetero-
jen bir yapı sergilemeleri kopma yöntemini kullanmak için istendik bir
durumdur diyebiliriz.
3. Eğri Üzerinden Not Verme: Eğri üzerinden not verme bağıl değerlen-
dirme yöntemlerinden en sık kullanılanıdır. Bu yönteme göre puanların
dağılımı normal dağılım eğrisine uygunsa eğri altında kalan alanlara gö-
re not takdirinde bulunulur. Dikkat edilmesi gereken nokta geç-
me/kalma noktasının tayinidir. Diğer notlar bu kesme sınırı ile en yük-
sek puan arasında bölüştürülür. Buradaki önemli nokta, notlar farklılık
gösterdiği müddetçe her durumda öğrencilerin belirlenen oranlarda
harf notlarını almalarıdır. Ancak sınıf mevcudunun az olduğu durum-
larda not dağılımının normal olması ihtimali çok düşük olacağından,
öğrencilerin sınıf ortalaması etrafında puanlar alması beklenen bir so-
nuçtur. Puanların farklılaşma göstermemesinin notlara nasıl yansıyaca-
ğı düşünüldüğünde problemin ciddiyeti daha iyi anlaşılabilir. Puanların
belli notlar etrafında sınırlı düzeyde bir genişlik gösterdiği durumlarda
notlar birbirine yakın puanlara karşılık gelecektir. Bu yüzden pek çok
üniversitemiz duruma göre not ölçeği uygulama yoluna gitmiştir. Sınıf
ortalamasına bakılarak farklı kesme noktaları kullanılan sistemin deza-
vantajı, düşük ortalamalı sınıflarda durumu zayıf olan öğrencilerin ken-
dilerini olduğundan daha başarılı algılamalarıdır. Burada bağıl değer-
lendirmeyi kullanan okullardan mezun olan öğrenciler lehine bir avan-
tajı gözlemlememiz mümkündür. Biri bağıl sistemle değerlendirilmiş,
diğeri mutlak sistemle değerlendirilmiş aynı seviyede olan iki öğrenci-
den bağıl sistemde değerlendirilmiş olanın notu daha yüksek olacaktır.
Ancak bu, kullanılan değerlendirme sisteminin notlar üzerinde olan et-
kisinden başka birşey değildir. Buradaki problem aynı seviyedeki iki öğ-
rencinin öğrenmelerinin farklı harf notları ile derecelendirilmesidir. O
halde yapılması gereken, öğrencileri değerlendirirken sırf nota bağlı ka-
lınmaması ve başarının geçerli başka kriterlere de dayandırılmasıdır.
Öğrenme Çıktılarını Değerlendirme ve Not Verme 229

4. Ortalama Temelli Değerlendirme: Son olarak ortalamayı temel alan


değerlendirmede ortalama dikkate alınarak sınıftaki puan dağılımına
göre not verilir. Örneğin, ortalamadan az not alanlar kalır, “A almak
için ortalamanın en az 1 SS ya da 2 SS üzerinde puan almak gerekir”
diye baştan belirleme yapılır. Kalma sınırını ortalamanın çok altında
belirleyen bir değerlendirme sistemi başarıyı olduğundan yüksek gös-
termemize neden olur. Bağıl değerlendirmenin en büyük dezavantajı
değerlendirme ölçeğinin subjektif olması, durumdan duruma farklılık-
lar göstermesidir (Hunt, 1997). Bağıl değerlendirmenin en çok eleştiri
aldığı nokta, not enflasyonuna yol açmasıdır.

Testin çok zor olduğu ve sınıfın notlarının çok düşük olduğu durumlar-
da sınavın zorluğundan kaynaklanan başarısızlığı manipüle etmek ve öğren-
cilere notlarını biraz yükseltme şansı tanımak için eğrinin uygulandığı du-
rumlar vardır (Doolittle, 1999). Öğretim elemanının sınıfın düzeyini göre-
memesi, sınıf düzeyine uygun ders anlatmaması ya da sınıf düzeyine uygun
sınav yapmaması gibi durumlarda bu olumsuzluklardan dolayı öğrenci mağ-
dur olmamalıdır. Böyle bir durumda bağıl değerlendirme faydalı olabilir.
Öğretim kaynaklı başarısızlığı bağıl değerlendirme yaparak bir nebze önle-
mek mümkündür, diyebiliriz. Yani eğri üzerinden not vermenin pek çok
durumda daha yüksek notlarla sonuçlandığı bilinen bir gerçektir. Bağıl sis-
temde üst dilimdeki öğrencilerin A alabilmesi için çok yüksek bir perfor-
mans sergilemelerine gerek yoktur. Ortalamanın bazen bir buçuk, bazen bir
standart sapma yukarısında olmaları çoğu zaman yeterlidir. Diğer yandan
bu sistemde notların çoğunlukla yüksek olduğu bir durumda 90 ile CC veya
DC alınması da mümkündür. Gaziosmanpaşa Üniversitesinde uygulanan bir
sınavın notları hem bağıl hem mutlak değerlendirmeye göre belirlendikten
sonra ortaya konulan çizelge karşılaştırma amacıyla aşağıda verilmiştir. Da-
ğılımda aynı sınıfın notlarına bağıl ve kriter değerlendirme uygulandığında
alınan harf notlarının sayıları karşılaştırılmıştır. Çizelgede koyu renk sütun-
lar bağıl, açık renk sütunlar mutlak değerlendirmeye karşılık gelmektedir.
230 Eğitimde Ölçme ve Değerlendirme

14

12

10

4
Frekans

2 Bagil

0 Mutlak
AA BA BB CB CC DC DD FD FF

Notlar

Şekil 7.1 Bir Sınavın Notlarının Bağıl ve Mutlak Değerlendirme Sonuçları


Görülüyor ki aynı sınıfın notları kriter referanslı değerlendirmeye tabii
tutulduğunda AA ve BA notunun olmadığı, bağıl değerlendirmeyle 11 kişi-
ye takdir edilen BB notunun 4’e düştüğü, düşük notlarda artış olduğu ve
yüksek notların nadiren takdir edildiği bulunmuştur. Ayrıca kesme puan
uygulamasıyla (50 barajı) kalan öğrenci sayısının aynı olduğu dikkat çekici-
dir. Bu da gösteriyor ki bağıl uygulamayla yüksek notlara erişilmesi kolay-
laşmakta ve genel olarak notlar olduğundan yüksek seyretmektedir. Bağıl
değerlendirmede ortalama değer ve standart sapmanın derecesine bağlı ola-
rak sınıfın not dağılımı, notların belirlenmesinde önem taşır. Diyelim ki pu-
anlar fazla dağılım göstermesin ve herkes 50-70 arasında puan alsın. Bu du-
rumda, farklı derecede performansı nitelediği varsayılan notlar, dar bir ara-
lıkta yığılacaktır. Öğrenciler, düşük performans gösterdikleri durumlarda
bile ortalamanın üzerinde olmaları şartıyla yüksek harf notları ile ödüllendi-
rildiklerinden, daha iyi performans göstermelerine gerek kalmayacak sonuç
olarak öğrencilerde motivasyon düşmesi ve nihayetinde standartların düş-
mesi ile karşı karşıya kalınacaktır. Bağıl değerlendirmede öğrencinin alacağı
notun belirleyicisi kendi performansı olduğu kadar, sınıfın genel performan-
sı da belirleyici olabilir. Bir grup öğrencinin kasıtlı olarak aralarında anlaşa-
rak sınavda orta düzey kağıt vermesi durumunda aritmatik ortalama düşe-
cek ve yüksek notlara ulaşmak kolaylaşacaktır. Diğer yandan arkadaşlarının
iyi performans göstermesi durumunda A almasının zorlaşacağını bilen öğ-
renciler birbirlerine sınav öncesinde yardım etmekten kaçınmakta notlarını
paylaşmamayı yeğlemektedir. İşbirliğini ve ekip çalışmasını her alanda gör-
düğümüz günümüz dünyasında bu tür bir yaklaşımla yetişen bireylerin şansı
çok olmasa gerektir.
Öğrenme Çıktılarını Değerlendirme ve Not Verme 231

Karşılaştırma
Sınıf içi değerlendirmeler eğri üzerinden not vererek yapıldığında sınıf
ortalaması not dağılımını belirlediğinden öğrencilerin bu sistemde gevşeme-
leri ve performanslarının düşmesi muhtemeldir. Öyle ki internet üzerinden
“the grades will not be assigned on the curve” (bu derste notlar eğri üzerin-
den verilmeyecektir) cümlesi yazılarak bir tarama yapıldığında ulaşılan
2.320.000 ders öğretim programında bu notun eklendiği görülür. Bununla
yapılmak istenen öğrencileri yüksek not almak için ya da geçmek için çalış-
maları gerektiği sınıfın performansının onların değerlendirilmesinde rol
oynamayacağı konusunda bilgilendirmektir. Başarı ya da başarısızlık göre-
celi değildir. Aslı’nın notu sınıf ortalamasının neresinde olduğuna göre de-
ğil, Aslı’nın tüm sorulardan kaçına doğru cevap verdiğine göre belirlenecek-
tir. Bağıl değerlendirmeyi savunanların en önemli savı bu değerlendirme
sisteminin öğretme eksikliğinden doğabilecek başarısızlıktan dolayı öğrenci-
yi cezalandırmadığıdır. Ancak geçer not alacak standartta öğrenmeyi ger-
çekleştiremeyen öğrencileri, çoğunluk aynı durumda diye hakettiklerinden
daha yüksek bir not vererek ödüllendirmek öğrenme eksikliğinin üzerine
sünger çekmektir.
Norm referanslı değerlendirme, alanın literatüründe sık olarak katı
eleştiriler almıştır. Gentile (1971) ‘a göre standart testler sadistik, etik ol-
mayan, istatistik olarak sağduyulu olmayan, ve dersin hedefleriyle bağlantısı
kopuk olan testlerdir. Gentile (1971) kriter-referanslı testleri bu tip yanlış-
ları olmayan bir değerlendirme aracı olarak norm-referanslı testlere alter-
natif olarak sunar.
Bağıl değerlendirme ile mutlak değerlendirme arasında tercih yapılaca-
ğı zaman asıl olan değerlendirme sonuçlarının ne amaçla kullanılacağına
karar verilmesidir. Hiç kuşkusuz ki öğrencilerin kıyasıya yarışmasını, per-
formanslarının en iyisini sergılemelerini istediğimiz durumlar olacaktır. Bu
durumda bağıl değerlendirme kullanılabilir. Ancak sınıf içi değerlendirme-
ler bu kapsam dışında tutulmalıdır. Bağıl değerlendirmeyi uygulamak için
gerekli olan puanların normal dağılım göstermesi şartını, mevcudu pek çok
durumda 50 ‘yi geçmeyen sınıflarda sağlamak mümkün değildir. Öğrencile-
ri, tek bir sınavla kendilerinin en iyisini göstermeleri için olumlu yönde mo-
tive etmek zorken, her sınavda böyle bir motivasyonla performans göster-
meleri akıl karı değildir. Sistemi kavrayan öğrenciler bir süre sonra ortala-
ma civarında performans göstermekle yetinecekler ve bu da standartların
düşmesi ile sonuçlanacaktır. Norm-referanslı değerlendirme yarışmayı teş-
vik eder ve öğrencileri diğerlerinden daha iyi performans göstermeye moti-
ve eder, sayıltısına dayanır.
232 Eğitimde Ölçme ve Değerlendirme

Pimsleur (1975) mutlak değerlendirme ile norm-referanslı değerlen-


dirmeyi karşılaştırdığı çalışmasında tercihini öğrencinin performansını du-
rumdan duruma değişmeyen bir standarta göre kıyaslayan mutlak değerlen-
dirme yönünde kullanmıştır. Mutlak değerlendirme öğrencileri birbirleriyle
yarışmaya değil (yarışmaya da), herkesi yapabileceğinin en iyisini sergileme-
ye teşvik eder. Başkalarından daha iyi yapma arzusu öğrenciyi kamçılar, an-
cak strese de neden olduğu bilinmektedir. Mutlak değerlendirme özellikle
özel ihtiyaçlı öğrenciler için daha az stresli olması ve öğretmenin onların
ulaşabileceği daha realistik hedefler tesbit etmesine olanak sağlaması açı-
sından da faydalıdır (Pimsleur, 1975).
Bağıl değerlendirme ve mutlak değerlendirme kıyaslandığında bu iki
değerlendirmenin temel aldığı felsefelere göz atmak gerekecektir. Hively
(1974)’ye göre mutlak değerlendirme temelini öğrenme teorilerinden alır ve
gelişmeyi değerlendirmeye dönük çıktılar üzerinden çalışır. Bağıl değerlen-
dirmede ise öğrenciler arasındaki farklılıklar temel alınır ve içeriğin yapı-
sından ziyade, asıl belirleyici öğrenciler arasındaki farklılıkların sonuca yan-
sımasıdır. Mutlak değerlendirmede öğrenci daha dersi almaya başlamadan
öncelikle ders içeriğinin seçimi ve nasıl öğretileceğinin planlanması büyük
önem taşır. Öğrenciye yüklenilecek bilgi ve bu bilginin dozu çok önemlidir.
Uygulanacak testler özenle belirlenen içeriği ve hedef davranışları kapsar
nitelikte olmalıdır. Verilen cevaplara göre içeriğin ne kadarına ulaşıldığı
tesbit edilebilir ve dönem içinde ve sonrasında gerekli konular ve hedefler
daha dikkatle gözden geçirilebilir. Hively’ye göre (1974) bağıl değerlendir-
me başarıyı yordama ve daha iyi olanları seçme gibi durumlarda etkili olabi-
lir ancak öğretimi değerlendirme amaç olduğunda mutlak değerlendirme
daha etkili bir araçtır. Kriter veya norm-referanslı değerlendirme sık sık
kullanılmakla birlikte norm-referans değerlendirme bunlardan geleneksel
olarak anılagelenidir ve modern akımların büyük çoğunluğu kriter-
referanslı değerlendirmelerin kullanımını teşvik eder.
Duffey (1978) normları referans alan değerlendirmenin öğretmeyi ge-
liştirmek üzere öğretimdeki eksiklikleri belirlemek amaçlı yoğun olarak kul-
lanımı sonucunda, özel ihtiyaçları olan öğrencilerin dezavantajlı duruma
düştüklerini belirtmektedir. Duffey’ye göre, mutlak değerlendirme bu ama-
ca doğası gereği daha iyi hizmet edeceğinden, kriter-referanslı modeller
üzerinde yoğunlaşılmalıdır. Anastasi (1988)’ye göre normları referans alan
değerlendirme bir öğrencinin performansını diğer öğrencilerin performansı
ile kıyaslamaya yararken, mutlak değerlendirme testi alan öğrencilerin baş-
kalarına göre nasıl oldukları üzerinde değil, neyi yapabilecekleri, ne bildik-
leri üzerinde odaklanır.
Öğrenme Çıktılarını Değerlendirme ve Not Verme 233

Bilindiği üzere ACT, SAT, GRE, TOEFL gibi norm-referanslı dünyaca


tanınmış, geçerliliği ve güvenilirliğiyle kendini kabul ettirmiş testler vardır.
Ancak bu demek değildir ki mutlak standart testler yoktur. Bond’a (1995)
göre, sonuçların tüm öğrenciler ve okullar için aynı şekilde yorumlanabil-
mesi amacıyla ister norm, ister mutlak olsun her iki değerlendirme siste-
minde de testler standartlaştırılabilir. Burada önemsenmesi gereken nokta
standart test ile standartları temel alan test arasındaki farkın vurgulanması-
dır. Ilkinde hedef öğrencileri sıraya koyup nerede olduklarını tesbit etmek-
ken, ikinci de amaç öğrencinin testin belirlediği standartlardan ne kadarına
ulaştığını bulmaktır. Hazırlanırmasında norm-referanslı testlerin içeriği
maddelerin öğrencileri erişi düzeylerine göre ne kadar iyi sıraladığına göre
belirlenirken, kriter-referanslı testlerde maddelerin ne derece önem
arzeden öğrenme hedeflerini yansıtır nitelikte olduklarına göre yani yıllık
plan içindeki önemine göre belirlenir. Bond (1995) norm-referanslı testlerin
son yıllarda basit ve temel becerileri ölçtükleri gerekçesiyle eleştiri aldığını
belirtmektedir. Diğer yandan kriter-referanslı testler yıllık plana bağlı ola-
rak işlemekte ve öğrencinin öğretilmek istenenin ne kadarına ulaştığı yo-
lunda bilgi vermektedir. Bond’un tespiti tamamen yanlış olmasa da açıkla-
ma desteğiyle daha iyi anlaşılabilir. Norm-referanslı testlerde zaman zaman
çok basit sorular sorulduğu ve bu yüzden notların bu basit sorulardan kolay-
ca kazanılmış puanlardan dolayı şişirilmiş olacağı doğrudur. Ancak norm-
referanslı bir test hazırlarken hedef puanları normal dağılım gösterecek bir
test hazırlanır. Sorular aynı seviyede olursa bunu sağlamak güç olacağından,
normal ve üzeri seviyede ve kolay sorular da teste dahil edilmektedir.
Norm-referanslı testlerin sonuçlarının normal dağılım göstermesi için testi
oluşturan maddelerin de güçlük seviyelerinin normal dağılım göstermesi
gereklidir. Güçlük derecesi normal olan bir testte maddelerin çoğunluğu
orta güçlükteyken, az sayıda zor ve kolay maddelere yer verilir. Buradaki
amaç öğrencileri sıralamak, bilenleri bilmeyenlerden ayırt etmektir. Testin
ayırt ediciliğini artıralım derken, kapsamı tam olarak ifade etmeyen öğre-
tilmemiş noktaları test eden sorular hazırlamak mümkün olduğu gibi, nor-
mal dağılım oluşturmaya çalışırken ayırtediciliği olmayan ancak sınıf orta-
lamasını artırarak başarıyı olduğundan yüksek gösteren sorular sormak da
mümkündür. Her iki durum da norm-referanslı değerlendirmenin problem-
leri arasında yer alır.
Bond (1995) ABD’ de eyaletlerin 1994’te norm ve kriter referanslı de-
ğerlendirme oranlarını sunmuştur. Buna göre 31 eyalet norm-referanslı de-
ğerlendirmeyi, 33 eyalet kriter referanslı değerlendirmeyi ve 22 eyalet ise
her ikisini de kullanmaktadır. Bond eyaletlerin değerlendirme stratejilerini
belirtmekle birlikte, değerlendirmenin amaçlarına, değerlendirilecek içeriğe
234 Eğitimde Ölçme ve Değerlendirme

ve değerlendirme sonuçlarının nasıl kullanılacağına göre ve bu değerlen-


dirmelerden ne tür çıkarımlar yapılmak istendiği düşünülerek yapılması ge-
rektiğini vurgular.
Ülkemiz üniversitelerine baktığımızda norm referanslı bağıl değerlen-
dirme ya da kriter referanslı mutlak değerlendirmenin tercih edildiği gö-
rülmüştür. Ancak bağıl değerlendirmeler kendi içinde kriterler belirlenme-
siyle farklı şekillerde uygulanmaktadır. Y.Ö.K.’ un internet sayfasında listesi
verilen 111 üniversiteden öğrencisi ve yönetmeliği olanlar incelendiğinde,
bunlardan 46’sında mutlak değerlendirme uygulamasının kullanıldığını ve
29’unda ise bağıl ve mutlak karışımı bir değerlendirmeye gidildiği görülmüş-
tür. 67 devlet üniversitesine bakıldığında ise bunlardan 30’unda mutlak de-
ğerlendirmenin 22’sinde ise yine bağıl mutlak karışımı bir değerlendirmenin
uygulandığı görülmüştür. Görülen o ki ülkemizde son on yılda bağıl değer-
lendirme hızlı bir tırmanışa geçmiştir.
Bağıl değerlendirmenin ülkemiz üniversitelerinde kullanımı Avrupa
Birliği ile uyum çalışmalarıyla ivme kazanmıştır. Bunda bağıl değerlendir-
menin kredili sistemin bir unsuru olarak görülmesinin de etkisi vardır. Bü-
yük kitelerin katıldığı SBS, KPSS ve ÖSS gibi standart sınavların değerlen-
dirilmesinde kullanılan bağıl değerlendirmenin küçük sınıflarda etkili ola-
rak kullanılabileceği yanılgısı pekçok üniversitenin bağıl değerlendirmeye
geçmesinde etkili olmuştur. İlköğretim ve orta öğretim seviyesinde bakıldı-
ğında mutlak değerlendirmenin tercih edildiği görülecektir.
Modern yaklaşımlara göre eğitim sürekli bir aktivitedir ve test verme-
deki amaç eksiği görmek ve takviye yaparak gidermektir ve mutlak değer-
lendirme bu amaca en iyi hizmet eden değerlendirme yaklaşımıdır.

Kişisel Gelişim Dosyaları (Portfolio)


Norm-referanslı değerlendirmelerde çoktan seçmeli testler, kriter refe-
ranslı değerlendirmelerde yazılı sınavlar yaygın olarak kullanılırken otantik de-
ğerlendirmeler (Bak: Bu kitap beşinci bölüm) otantik öğrenmeler üzerinden
alışılagelmiş değerlendirmelerden farklı olarak gerçekleştirilir. Otantik değer-
lendirmeler bireyin yaratıcılığını sergilemesine izin verdiğinden önem taşır. Öğ-
renmeleri bir süreçte değerlendirmeyi amaçlayan kişisel gelişim dosyaları otan-
tik değerlendirmelerden birisidir. Kişisel gelişim dosyalarını otantik kılan hiçbi-
rinin diğerine benzememsidir. Buna göre, öğrenmeler bir süreçte gerçekleştiği-
ne göre yine aynı anlayışla süreçte değerlendirmeye alınmalıdırlar. Öğrenci ge-
lişim dosyaları (protfolio) bu amaçla hazırlanır ve öğrencinin öğrenmelerini
ifade eden çalışmalarının örneklerinin periyodik şekilde öğrenmedeki gelişimi
gösterir şekilde düzenlenmesi ile oluşturulan dosyaların üzerinden değerlen-
Öğrenme Çıktılarını Değerlendirme ve Not Verme 235

dirme yapılması söz konusudur. Dosyaların oluşturulmasında öğrencinin de


etkin olduğu bu anlayış öğrenci başarısının bir süreçte değerlendirilmesine ola-
nak tanıması açısından önemlidir. Bu anlayışta öğrencinin sınav stresi gibi başa-
rısını gölgeleyecek olumsuz etmenlerin olası etkisi söz konusu değildir. Oysa ki
ara sınav, final sınavı ile geçti/kaldı kararının verildiği değerlendirme anlayışın-
da sınav stresinin yanı sıra öğrenci başarısında sınav anında gösterilen perfor-
mans belirleyici olmaktadır. Kalabalık sınıflarda kişisel gelişim dosyalarının
hazırlanması zor olmakla birlikte ilköğretimde ve özellikle Müzik, Resim gibi
özel bir yetenek gerektiren derslerindeki faydaları yadsınamayacak kadar çok-
tur. Ayrıca yapılandırıcı yaklaşımın uygulanmaya konulmasıyla birlikte öğret-
menler akran değerlendirme, öz değerlendirme gibi değerlendirme metotlarını
kullanmaya teşvik edilmişlerdir.

Öğretimi Değerlendirme

Öğretimin değerlendirilmesi öğretim programını değerlendirme ve öğ-


retim hizmetlerinin değerlendirilmesi olmak üzere iki başlıkta ele alınabilir.

Öğretim Programını Değerlendirme

Değerlendirmede amaç öğrenci başarısını ortaya koymak olduğu gibi öğ-


retim programını değerlendirmek de olabilir. Değerlendirme yoluyla hangi
konuya ne kadar ağırlık verilmesi gerektiği netleşir. Örneğin öğrenilme prob-
lemi olan konulara bir sonraki yıl daha çok zaman ayırırken tam öğrenmenin
gerçekleştiği konulara daha az zaman ayrılması yönünde karar verebiliriz.
Değerlendirme öğretime ayrılacak zamanı belirlemede etkili olduğu gibi, öğ-
retim yöntemlerinin belirlenmesinde de rol oynar. Değerlendirme yoluyla
öğretmen güçlü ve zayıf olduğu konuları görme fırsatı yakalar. Bu ise öğreti-
min sonucu olan öğrenci başarısını yordamak kadar önemlidir.

Öğretim Hizmetini Değerlendirme

Değerlendirme yoluyla eğitim politikalarına yön vermek mümkün ola-


caktır. Okul idaresi, öğretmenlerinin öğretim yöntemlerini ne derece etkili
olarak kullanıp kullanmadıklarını öğrencilerin öğrenim düzeylerine bakarak
yordayabilir. İyi bir değerlendirme anlayışında orta düzeyde ya da başka
deyişle orta düzeyde öğrenmeye işaret eden notların çoğunlukta olması ve
düşük ve yüksek notların bunlara göre daha az sayıda olması beklenir. Salt
yüksek ya da salt düşük notların çoğunlukta olduğu ya da tüm notların orta-
lama civarında olduğu bir test ayırıcı değildir. Böyle bir sonuca işaret eden
bir öğretimin de başarısından söz edemeyiz.
236 Eğitimde Ölçme ve Değerlendirme

Özet

Literatürde “geleneksel” olarak anıla gelmiş olan norm-referanslı değer-


lendirme uygulamalarından biri olan “bağıl değerlendirme” ülkemiz üniver-
sitelerinde son yıllarda yoğun olarak kullanılmaya başlanmıştır. Norm-
referanslı (bağıl) değerlendirmenin çok sayıda öğrencinin katıldığı standart
bir sınavın sonucunu değerlendirmekte kullanıldığında başarılı sonuçlar ver-
diği kuşku götürmez. Ancak küçük sınıflarda uygulanan öğretmen yapımı bir
testten elde edilen puanları bağıl değerlendirmeyle nota çevirmek yanıltıcı
olabilir. Değerlendirmenin norm-referanslı (bağıl) veya mutlak yollardan
yapılması, erişi düzeyini değiştirmez. Ancak bağıl değerlendirme yüksek not-
lara erişmeyi kolaylaştırarak ve kalmayı zorlaştırarak başarısızlığı maniple
edebilir. Ancak eğitimin çıktısı olan öğrenciler iş hayatına atıldığında, gerçek
anlamda verilen eğitimin kalitesi ortaya çıkacaktır. Bağıl değerlendirmeler
standart testlerin sonuçlarının değerlendirilmesinde tercih edilmektedir.
Dünyanın eğilimi her iki değerlendirme türünü birlikte kullanmak veya
kullanımı amacına göre tercihi öğretim üyesine bırakmak yönündedir.
Norm-referanslı değerlendirmenin nahoş sonuçları mutlak değerlendirmenin
önünü açmıştır ve dolayısıyla modern ve sürekli gelişen sınıf düzeyindeki
değerlendirmeler için biçilmiş kaftan olan kriter referanslı değerlendirmeler
her alanda gelişerek kendini ispatlamaya devam etmektedir. Normları refe-
rans alan değerlendirme çoğu durumda binlerce kişinin katıldığı sınavlarda
sınırlı kontenjanlara öğrenci yerleştirmek, öğrencilerin sınıf geçmek ya da bir
programa girmek için belli koşulları sağlayıp sağlamadıklarını yordamak
amacıyla kullanılmaya elverişlidir ve ancak bu koşullarda kullanıldığında alı-
nan sonuçlar normale yakın bir dağılım gösterecek ve yapılacak istatistiksel
yordamalar ancak ve ancak bu koşullarda manidar olacaktır. Sınıf içi değer-
lendirmenin öncelikli amacı hiçbir zaman belli bir oranda A, B, C vermek
olmamıştır. Yapılandırıcı yaklaşımla öğrenciyi kendi sınırlarını aşma ve he-
deflerine ulaşma yönünde cesaretlendirmek amaçlandığından mutlak değer-
lendirmelerin kullanımı daha doğru olacaktır. Yapılandırıcı yaklaşımda sıklık-
la gördüğümüz çizelgeler (rubrics) üzerinden değerlendirme ve kişisel geli-
şim dosyalarının değerlendirilmesinde kriter referanslı bir anlayış hakimdir.
Eğitimciler olarak her öğrenciye yapabileceğinin en iyisini öğretmek ve öğre-
tilen materyalin ne kadarına erişildiğini kontrol etmenin asıl hedefimiz oldu-
ğu unutulmamalıdır.
Öğrenme Çıktılarını Değerlendirme ve Not Verme 237

Kaynakça
Aviles, C. B. (2001). Grading with norm-referenced or criterion-referenced
measurements: to curve or not to curve, that is the question. Social Work
Education, 20 (5), 603-609.
Baykul, Y. (2000). Eğitimde ve psikolojide ölçme: Klasik test teorisi ve uygulaması.
Ankara: ÖSYM.
Bond, L. A. (1995). Norm-Referenced testing and Criterion-Referenced testing: The
differences in purpose, content, and interpretation of results. ERIC Number:
ED402327.
Bresee, Clyde W. (1976). On "grading on the curve". Clearing House, 50(3), 108-118.
Brandt, R. (2003). Don’t blame the bell curve. Leadership, 32 (3), 18-20.
Childs, R. (1976). Norm-referenced testing and the standard scores. ERIC
Number:ED169099.
Doolittle, P. E. (1999). Assessment, grading, and student achievement. Virginia
Ploytechnic and State University.
http://edpsychserver.ed.vt.edu/resources/pdf/assessment7.pdf.
Duffey, J. B. (1978). Educational diagnosis with instructional use. Exceptional Children,
44(4), 246-251.
Epstein, K. I. & Knerr, C. S. (1976). Criterion-referenced test Interpretations of
"Classical" Measurement Theory. ERIC Number: ED126154.
Gentile, J. R. (1971). Toward excellence in teaching: Grading practices. ERIC Number:
ED061264.
Glaser, R. & Klaus, D. (1962). Proficiency measurement: Assessing human
performance. In: R. Gagne (Ed.), Psychological principles in system development.
New York: Holt, Rinehart, and Winston.
Hively, W. (1974). Introduction to domain-referenced testing. Educational Technology,
14(6), 5- 10.
Hunt, K. (1997). The evils of grading on a curve. University of Phoenix Nevada Campus.
http://www.drkenhunt.com/pubs/15.htm.
Linehan, M. M.(1976). Content validity in behavioral assessment. ERIC Number:
ED152850.
Miller-Whitehead, M. (2001). Practical considerations in the measurement of student
achievement. ERIC Number: ED457244.
Mione, S. A. (1977). Criterion-referenced testing: A critical perspective. ERIC Number:
ED147757.
Pimsleur, P. (1975). Criterion vs. norm-referenced testing. Language Association Bulletin
, 27(1), 21-24.
Popham, W. J. (1976). The development of criterion-referenced tests: Technical
considerations. ERIC Number: ED173383.
Tekin, H. (2004). Eğitimde ölçme ve değerlendirme. 17. Baskı, Ankara: Yargı Yayınları.
Turgut, F. (1990). Eğitimde ölçme ve değerlendirme metodları. Ankara: Saydam Matba-
acılık.
238 Eğitimde Ölçme ve Değerlendirme

Sorular

1. Öğretimin değerlendirilmesi neden önem taşır?


2. Başlıca değerlendirme türleri nelerdir?
3. Hangi durumlarda ne tür değerlendirme uygulamaları kullanılır?
4. Mutlak ve bağıl değerlendirme ne anlama gelir? İkisinin arasındaki
başlıca fark nedir?
5. Yapılandırıcı yaklaşımda önemle üzerinde durulan kişisel gelişim
dosyaları nasıl bir yaklaşımla (mutlak/bağıl) değerlendirilmelidir?

Yrd. Doç. Dr. Gülşah BAŞOL

1972 yılında Yozgat’ta doğdu. İlk, orta ve lise öğretimini Ankara’da


tamamladı. 1989-1993 yılları arasında Hacettepe Üniversitesi, Eğitim
Fakültesi, Eğitim Bilimleri Bölümü, Ölçme ve Değerlendirme Anabilim
dalında Lisans öğretimi aldı. 1994 yılında YÖK burslusu olarak yurtdışında
yüksek lisans ve doktora öğretimi yapmak üzere Gaziosmanpaşa
Üniversitesinde araştırma görevlisi kadrosuna atandı. 1997 yılında Ohio
University, College of Education, Department of Educational Studies,
Educational Research and Evaluation programında Yüksek Lisans ve aynı
alanda 2003 yılında Doktora programını tamamladı. 2004 yılında
Gaziosmanpaşa Üniversitesi, Eğitim Fakültesi, Ölçme ve Değerlendirme
Anabilimdalında “yardımcı doçent” ünvanını alan yazar, anabilimdalı
başkanı olarak halen görevine devam etmektedir.
8. Bölüm

ÖLÇME ARACI GELİŞTİRME

Adnan KAN
Gazi Üniversitesi

Kazanımlar
Bu bölümün sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir
 Test geliştirme ile ilgili temel kavramların anlam bilgisi
 Bir başarı testini geliştirirken izlenmesi gereken aşamaların neler ol-
duğunun bilgisi
 Test geliştirmenin eğitim süreci içindeki yerini ve önemini kavraya-
bilme
 Denemelik test formu hazırlamayabilme
 Testi uygulama, puanlama ve madde puanları matrisi oluşturabilme
 Madde puanları matris üzerinden madde ve seçenek analizleri yapa-
bilme
 Analiz sonuçlarına dayalı olarak istenilen maddeleri seçebilme
 Nihai test formunu oluşturabilme

İçindekiler
 Giriş
 Test Geliştirme
 Özet
 Kaynakça
 Sorular
240 Eğitimde Ölçme ve Değerlendirme

Giriş

Hemen her zaman günlük işlerimize ilişkin bir çok kararlar alırız. Bu
kararların çoğu ölçme sonuçlarına dayanır. Yine bir çok şeyin miktarı ya da
sayısal büyüklüğü hakkında fikir sahibi olmak için ölçmeye, ölçme araçları-
na ve onun standart birimlerine başvururuz.

Test Geliştirme

Eğitimde bireylerin bazı özellikleri gözlemlenmek ve onların bu özellik-


lere sahip olma dereceleri sayıya dökülmek (betimlenmek) istenir. Bireyle-
rin öncelikle bilişsel, duyuşsal ve psikomotor özellikler açısından tanınması
ve daha sonra çevreleriyle ve birbirleriyle dengeli iletişim kurabilmeleri vb.
için belli başlı istendik becerilerle donatılması eğitim açısından son derece
önemlidir. Bu amaçla gözlenemeyen özellikleri gözlenebilir hale getirmek
ve eğitimde kazandırılmak istenen davranışların kazanılıp kazanılmadığını
ortaya çıkarmak için ölçme araçlarına özelliklede testlere başvurulur. Örne-
ğin; bireylerin belli bir derse ilişkin başarıları ölçülmek istenebilir bunun
için başarı testi, ya da başarısızlıkların sebebi araştırılırken o derse yönelik
tutumları, ilgi ve istekleri araştırılabilir (tutum ölçekleri, ilgi envanteri), ya
da bireyler sosyal açılardan tanınmak istenebilir. Bireyler kişilik özellikleri
itibarıyla tanınmak istenebilir (kişilik ölçekleri), öğrencilerin, okul ya da
çevrelerinde karşılaştıkları problemler belirlenmek istenebilir (problem
tarama listeleri). Eğitimde gözlenmeye ya da ölçülmeye çalışılan değişken-
ler genellikle; başarı, ilgi, motivasyon yetenek vb. gibi psikolojik değişken-
lerdir. Bu değişkenlerin bir çoğunun fiziksel nitelikleri bilinmez ve bu ne-
denle fiziksel boyutları tanımlanamaz. Bu değişkenleri ölçmek ve tanımla-
mak için çeşitli ölçme araç, yöntem ve tekniklerinden yararlanılır. Ölçme
aracı hazırlama oldukça teknik bir iş olup planlı ve sistematik çalışmayı
gerektiren bir süreçtir. Test geliştirme süreci aşağıda sistematik bir biçimde
açıklanmıştır.

Testin Amacının Belirlenmesi


Test geliştirmeye başlamadan önce ne tür bir test geliştirileceği, testin
ve maddelerinin özelliklerinin ne olacağına kaynaklık eden test puanlarının
kullanım amacının belirlenmesi gereklidir. Eğitimde çeşitli amaçlar doğrul-
tusunda ölçme ve değerlendirme yapılır. İlgilenilen amaç doğrultusunda,
yapılacak ölçme ve değerlendirme türüne göre farklı ölçme araç ve gereçleri
kullanılır. Buna dayalı olarak ta bu ölçme araçları farklı teknik özelliklere
sahip olabilirler. Örneğin; testin amacı bireyleri ilgi ve yetenekleri açısından
Ölçme Aracı Geliştirme 241

tanımak, öğrenme eksikliklerini ortaya çıkarmak ya da başarı düzeylerini


belirlemek olabilir. Tanımlanan bu üç amaç için hazırlanacak ölçme araçla-
rının türü ve teknik özellikleri, yapılacak işlemler, madde seçme ve analiz
süreçleri hatta yorumları bile farklılık gösterecektir. Yukarıda bahsedilen
birinci amaç için ilgi envanteri ve yetenek testi geliştirmek, ikinci amaç için
izleme testi, üçüncü amaç için ise düzey belirleme ya da diğer adıyla başarı
testi geliştirmek gerekmektedir. Her bir amaç doğrultusunda geliştirilecek
bu testlerin, kapsamı, madde tipleri ve formatları, cevaplanış biçimleri, pu-
anlanışları, hesaplanacak madde istatistikleri ve yorumlanması değişiklik
gösterecektir. Bu sebepledir ki; bir testin yukarıda belirtilen bir çok teknik
özelliği ne tür bir test geliştirileceğine, ne tür bir test geliştirileceği ise test
puanlarının ne amaçla kulanılacağına bağlıdır. Bunun için öncelikle testin
amacının belirlenmesi çok önemlidir. Burada bir başarı testinin geliştirilme-
sine ilişkin basamaklar üzerinde durulmuştur.

Ölçülecek Özelliğin Tanımlanması, Kapsamının Belirlenmesi


ve Belirtke Tablosunun Oluşturulması
Her ne amaca hizmet ederse etsin test geliştirme süreci, testle ölçüle-
cek olan özelliğin kapsamlı bir biçimde tanımlanması ve sınırlarının belir-
lenmesi ile başlar. Eğitimde öğrencilere bir çok istendik özellik kazandırıl-
maya çalışılır ve bu özelliklerin öğrenciler tarafından kazanılıp kazanılmadı-
ğı testlerle yoklanır. Eğitimde kapsam ve ölçülecek olan özellikler hedef
olarak ifade edilir. Hedefler gözlenemediği için onların gözlenebilir işaretçi-
leri hedef davranışlar yazılır ve bu hedef davranışlar evreni ölçmeye konu
olan özelliğin kapsamını temsil eder. İyi bir ölçme aracı ölçtüğü özelliğin
kapsamına giren bütün ögeleri temsil etmelidir. Hazırlanacak test ölçülecek
özelliğin kapsamına giren tüm davranışları temsil etmelidir. Eğitimde öl-
çülmek istenen kapsama giren davranış sayısı çok fazla olduğu için bu dav-
ranışların tamamının testte bir madde (soru) ile temsil edilmesi zaman,
para, emek v.b olanaklar açısından imkansız gözükmektedir. Bu sebeple,
içinde birkaç hedef davranışın kazanıldığını gösterebilecek kritik davranışla-
rı içeren tüm kapsamı temsil edici hedef davranış örnekleminin belirlenmesi
gerekir. Başarı testlerinde kapsam geçerliğini garanti altına almak için baş-
vurulacak önlemlerden biri belirtke tablosu hazırlamaktır. Belirtke tablosu,
bir boyutunda bir derse ya da alana ait konu ve içerik diğer boyutunda bu
içeriğe bağlı öğrencilere kazandırılacak hedef ve davranışların yer aldığı iki
boyutlu bir tablodur. Belirtke tabloları, hangi konudan hangi düzeyde kaç
soru sorulacağını gösteren bir tablodur.
242 Eğitimde Ölçme ve Değerlendirme

Test Maddelerinin Oluşturulması


Ölçülecek olan özellik, kapsamı ve bunu temsil eden hedef davranış ör-
neklemi (kritik davranışlar) belirlendikten sonra yapılacak ilk iş bu davra-
nışları temsil eden sorular yazmaktır. Denemelik test oluşturulurken her bir
davranışa birbirinin alternatifi olacak üç madde (soru) yazılmalıdır. Hedef
davranışları temsil eden maddeler oluşturulurken çeşitli madde tiplerinden
faydalanılabilir. Test geliştirilirken maddelerin mümkün olduğunca etkili
olması istenir. Ölçülecek davranışa en uygun ve etkili madde tipini bulmak
ve kullanmak son derece önemli bir konudur. Hangi madde tipinin kullanı-
lacağına karar verilirken, ölçülecek davranışın doğası göz önüne alınmalı ve
en açık ve anlaşılabilir olan ve şans başarısını ve tahmini mümkün olduğun-
ca elemine eden madde formu tercih edilmelidir. Örneğin; eğer derinleme-
sine, detay bilgi yoklanmak isteniyorsa, cevabı en doğru olan madde tipi,
seçenek bulmakta zorluk çekiliyorsa ortak seçenekli madde formu, öğrenci-
lerin sorunun cevabını seçeneklere bakarak hatırlamaları ya da seçenekte
görüp tanımaları istenmiyorsa doğru cevabı gizli madde formu ya da kısa
cevap gerektiren sorular kullanılabilir.
Madde tipi belirlendikten sonra seçilen madde tipine ilişkin dikkat
edilmesi gereken kurallar gözönünde tutularak (bkz. Bölüm XX) maddeler
yazılmalıdır.

Denemelik Maddelerin Gözden Geçirilmesi (Qualitative İtem


Analysis)
Denemelik test maddeleri yazıldıktan sonra, hazırlanan soruların özel-
likle aşağıdaki açılardan gözden geçirilmesi gereklidir.
1. Dil ve anlatım (ifade); soruların türkçe yazım kurallarına uygunlu-
ğu, yalın ve doğrudan bir anlatıma sahip oluşu, anlatım biçiminin
yaş düzeyine uygunluğu açısından
2. Bilimsel yönden doğruluk; soru kökünde verilen bilgilerin doğrulu-
ğu, sorunun, açıklığı, belirginliği ve cevaplanabilirliği, çeldiricilerin
uygunluğu ve açıklığı
3. Test ve maddelerin teknik açıdan hatalı olup olmadığının, soru
yazma tekniğine uygunluğunun incelenmesi gereklidir. Bunun için
aşağıda verilen çoktan seçmeli test inceleme formu kullanılabilir1

1
D.A. Özçelik “Seçmeli Soru Yazma ve İncelemede Göz Önünde Tutulacak Noktalar” Test Hazırlama
Kılavuzu. S: 36-37
Ölçme Aracı Geliştirme 243

Tüm bunların dışında, eğitimde kullanılan testlerin ve maddelerinin bi-


reylerin sosyo-kültürel geçmişlerine ya da genetik ve biyolojik faktörlere
göre yanlılık taşımaması, bir diğer ifade ile herhangi bir grup lehine avantaj
sağlamaması istenen bir durumdur. Bu sebeple, test maddelerinin ve testin
tamamının testi alan tüm bireylere eşit davranması için maddelerin testi
alan grupların çeşitli özellikleri (sosyo-kültürel geçmiş, cinsiyet vb.gibi)
gözönünde tutularak incelenmesi gereklidir. Eğer test maddeleri testi alan
gruplardan biri ya da bir kaçının aşina olduğu içerik, kavram, vb. özelliklere
sahipse, maddeyi cevaplamada onlara diğerlerine göre avantaj sağlayacak-
tır. Bu sebeple, test geliştiriciler test maddelerini testi alan grupların kültü-
rel geçmişleri, cinsiyetleri vb. gibi özelliklere göre gözden geçirmeli ve bu
açıdan uygun olmayan, testi alan gruplardan biri ya da birkaçı lehine avantaj
sağlayabilecek sorular testten çıkarılmalıdır.
244 Eğitimde Ölçme ve Değerlendirme

Tablo 8. 1 Çoktan Seçmeli Test Maddelerini İnceleme Formu


GÖZLENECEK KRİTER LİSTESİ Gözlenme
Durumları
1. SORU YAZMA TEKNİĞİ Evet Hayır
1. A) Sorunun Tümü ile İlgili Olarak;
• Soru ile yoklanan davranış önemli midir?
• Davranışın en geçerli yoklanma yolu bu mudur?
• Sorunun cevaplanma kolaylığı, yoklanan davranışın öğrenilme derecesine
uygun mudur?
1. B) Soru Köküyle İlgili Olarak;
• Anlatım açık, seçik ve sınırlı mıdır?
• Gerekli bilgiler tam verilmiş, gereksiz bilgilerden kaçınılmış mıdır?
• Soruda okuma güçlüğü, ilgili yaş-sınıf seviyesine uygun mudur?
1. C) Sorunun Seçenekleriyle İlgili Olarak;
• Anlatım paralelliği sağlanmış mıdır?
• Anlatım, açık seçik ve sınırlı mıdır?
• Anlatım köke bağlantılı mıdır?
• Birbirinden bağımsızlık sağlanmış mıdır?
1. D)Doğru Cevapla İlgili Olarak;
• Belli ve tek doğru cevap var mıdır?
• Doğru cevap olarak sorunun bu cevabı mı belirlenmiştir?
• Çeldiriciler, doğru cevap olmayacak ifadeler midir?
• Doğru cevabı bulma kolaylığı, yoklanan davranışta aranacak
• düzeye uygun mudur?
1. E) Çeldiricilerle İlgili Olarak;
• Çeldiricilerin elenmesi, yoklanan davranışın öğrenilmiş olmasını gerekti-
riyor mu?
• Çeldiriciler, doğru cevaba ipucu vermeyecek şekilde midir?
2. ANLATIM (İFADE)
• Soru, Türkçe yazım kurallarına uygun biçimde sunulmuş mudur?
• Soru olabildiğince yalın ve doğrudan bir anlatımla sunulmuş mudur?
• Soruda yararlanılan anlatım biçimi, ilgili yaş ve sınıf düzeyine uygun mu-
dur?
3. BİLİMSEL DOĞRULUK
• Soru kökünde verilen bilgiler doğru mudur?
• Soru kökünde, açık belirgin ve cevaplanabilir bir soru mu sorulmaktadır?
• Kökte sorulan sorunun cevabı tek midir; bu cevap seçenekler arasında
verilerek doğru cevap şeklinde belirlenmiş midir?
• Çeldiricilerin tümü kendi başlarına doğru fakat kökteki sorunun cevabı
olmayan ifadeler midir?
• Çeldiriciler, soruyla yoklanan davranışı öğrenmemiş olanlara doğru gö-
zükebilecek nitelikte midir?
Ölçme Aracı Geliştirme 245

Denemelik Test Formunun Hazırlanması


Her bir davranışı temsil eden sorular hazırlandıktan sonra tüm madde-
leri bir araya getirerek test formunun oluşturulması gereklidir. Test formu
hazırlanması üç ana başlık altında incelenebilir.
1. Test yönergesinin hazırlanması; test formu hazırlanırken, testin kaç
maddeden oluştuğu, nasıl cevaplanacağı, amacı, süresi, yanlış cevapla-
rın doğru cevapları etkileyip etkilemediği, puanlanışı vb. gibi test hak-
kında cevaplayıcılara, testi cevaplamalarını ve algılamalarını kolaylaştı-
racak bir çok bilgi verilmelidir. Test yönergesi, test formunda testin ba-
şında yer alır. Test yönergesinin mümkün olduğunca kısa, açık ve anla-
şılır olmasına özen gösterilmelidir. Aşağıda test yönergesine ait bir kaç
örnek sunulmuştur.
Tablo 8.2 KPSS’ye ait test yönergesi
A
KAMU PERSONEL SEÇME SINAVI (KPSS)
LİSANS DÜZEYİ (A Grubu ve Öğretmenlik)

GENEL YETENEK TESTİ - GENEL KÜLTÜR TESTİ


DİKKAT!
SINAVA BAŞLAMADAN ÖNCE AŞAĞIDAKİ UYARILARI MUTLAKA OKUYUNUZ.
1. Adınızı, soyadınızı, T.C. kimlik numaranızı ve sınav salon numaranızı aşağıya yazınız.

ADINIZ : ...........................................
SOYADINIZ : ...........................................
T.C. KİMLİK NUMARANIZ : ...........................................
SINAV SALON NO. : ...........................................

2. Soru kitapçığınızın türü A dır. Bunu cevap kâğıdınızdaki ilgili yere aşağıda gösterildiği şekilde
aynen kodlayınız ve salon görevlisinin de ilgili yere kodladığınız bilgiyi onaylamasını sağlayınız.
Bu kodlamayı cevap kâğıdınıza yapmadığınız veya yanlış yaptığınız takdirde sınavınızın
değerlendirilmesi mümkün değildir.
3. Genel Yetenek Testi ve Genel Kültür Testi için verilen toplam cevaplama süresi 120 dakikadır
(2 saat).
4. Genel Yetenek ve Genel Kültür Testlerinin her birinde 60 soru vardır.
Bu testlerin başladıkları sayfalar şöyledir:
Genel Yetenek Testi 1
Genel Kültür Testi 15
5. Cevaplamaya istediğiniz testten ve sorudan başlayabilirsiniz. Her soru ile ilgili cevabınızı, cevap
kâğıdında o soru için ayrılmış olan yere işaretlemeyi unutmayınız.
6. Testler puanlanırken her testteki doğru cevaplarınızın sayısından yanlış cevaplarınızın
sayısının dörtte biri düşülecek ve kalan sayı o testle ilgili ham puanınız olacaktır. Bu ne-
denle hakkında hiçbir fikrinizin olmadığı soruları boş bırakınız. Ancak, soruda verilen se-
çeneklerden birkaçını eleyebiliyorsanız kalanlar arasından doğru cevabı kestirmeye ça-
lışmanız yararınıza olabilir.
7. Sınavda uyulacak diğer kurallar bu kitapçığın arka kapağında verilmiştir.
246 Eğitimde Ölçme ve Değerlendirme

Yukarıdaki örnekte KPSS’ye ait test yönergesi verilmiştir. Her test yö-
nergesi testin uygulanış amacına, maddelerin puanlanmasına, test puanları-
nın kullanımına vb. sebeplere göre farklılıklar gösterebilir. Aşağıda ÜDS’ye
ait test yönergesi verilmiştir.
Tablo 8. 3 ÜDS’ye ait test yönergesi
ÖSYM
A
ÜNİVERSİTELERARASI KURUL YABANCI DİL SINAVI
(ÜDS)
ALMANCA
ADI : ...........................................................
SOYADI : ...........................................................
T.C. KİMLİK NUMARASI : ...........................................................
SALON NUMARASI : ...........................................................

1. Bu soru kitapçığı Fen Bilimleri, Sağlık Bilimleri ve Sosyal Bilimler olmak üzere üç ayrı alandaki Al-
manca testlerini içermektedir. Testlerin cevap anahtarları birbirinden farklıdır. Bu testlerden başvurunu-
za uygun olanını seçerek cevaplayınız.
Bu testlerin başladıkları sayfalar şöyledir:
Fen Bilimleri Testi 1
Sağlık Bilimleri Testi 18
Sosyal Bilimler Testi 35

2. Bu soru kitapçığının türü A’dır. Bunu cevap kâğıdınızdaki ilgili yere aşağıda gösterilen şekilde aynen
kodlayınız ve Salon Görevlisinin de ilgili yere kodladığınız bilgiyi onaylamasını sağlayınız.
Bu kodlamayı cevap kâğıdınıza yapmadığınız veya yanlış yaptığınız takdirde, sınavınızın değer-
lendirilmesi mümkün değildir.
3. Bu test için verilen cevaplama süresi 180 dakikadır (3 saat).
4. Cevaplamaya istediğiniz sorudan başlayabilirsiniz.
5. Test kitapçığındaki her sorunun yalnızca bir doğru cevabı vardır. Bir soru için birden fazla cevap yeri
işaretlenmişse o soru yanlış cevaplanmış sayılacaktır.
6. Bu kitapçıktaki soruların cevapları, kitapçıkla birlikte verilen cevap kâğıdında ayrılmış olan yerlere,
kurşun kalemle işaretlenecektir. Cevap kâğıdı buruşturulmayacak, üzerine gereksiz hiçbir işaret konul-
mayacaktır.
7. Bu sınavın değerlendirilmesi doğru cevap sayısı üzerinden yapılacak, yanlış cevaplar dikkate
alınmayacaktır. Bu nedenle, her soruda size en doğru görünen cevabı işaretleyerek cevapsız soru
bırakmamanız yararınıza olacaktır.

8. Sınavda uyulacak diğer kurallar bu kitapçığın arka kapağında belirtilmiştir.

Yukarıda verilen KPSS’ye ait test yönergesi ile karşılaştırıldığında, bu


iki yönergenin bazı açılardan farklılıklaştığı görülebilir. Örneğin; KPSS’ye
ait yönergenin 6. maddesi ile ÜDS’ye ait yönergenin 7. maddesi maddelerin
puanlanışı ile ilgilidir ve farklılıklar göstermektedir.
2. Maddelerin test formu içindeki dağılımının düzenlenmesi; maddeler test
formu içerisinde dağıtılırken aynı davranışı ölçen soruların ardışık bir şe-
kilde arka arkaya gelmemesine ve testin ilk maddelerinin nispeten daha
kolay sorulardan oluşacak biçimde yerleştirilmesine dikkat edilmelidir.
Ölçme Aracı Geliştirme 247

3. Testin biçimsel özelliklerinin düzenlenmesi; test formu hazırlanırken,


yazı karakteri, yazı büyüklüğü (kaç punto olduğu), satır aralıkları, her
bir soru arasında ne kadar boşluk bırakılacağı belirlenmeli ve dikkat
edilmelidir. Bu tür biçimsel özellikler düzenlenirken öğrencilerin fizik-
sel ve psikolojik özellikleri gözönünde tutulmalıdır. Test formu, öğren-
cilerin yaşlarına, öğrenme ve gelişim düzeylerine göre soruları en kolay
algılayabilecekleri ve okuyabilecekleri şekilde düzenlenmelidir. (Aşağı-
da biçimsel özelliklere ilişkin bazı açıklamalar verilmiştir.)
Tablo 8. 4 Teste ait Bazı Biçimsel Özellikler
Öğrenim Düzeyi Sınıf Düzeyi Yazı Büyüklüğü Satır Aralığı
1 20-24 Punto
İLKÖĞRETİM I. KA- 2 18 Punto 1,5 Satır
DEME
3 14 Punto
4 12 Punto Tek Satır
5 11 Punto
İLKÖĞRETİM II. KA- 6
DEME 7 10-11 Punto Tek Satır
8

ORTA VE YÜKSEK 9
ÖĞRETİM 10 10-11 Punto Tek Satır
11 ve Üstü

Denemelik Test Formunun Uygulanması ve Puanlanması


Denemelik test formu yukarıda belirtilen özelliklere dikkat edilerek
hazırlandıktan sonra, madde ve test istatistiklerini belirleyebilmek için asıl
uygulamanın yapılacağı grubun tüm özelliklerini taşıyan ve onu temsil eden
büyükçe bir grup üzerinde uygulanır ve puanlanır. Denemelik uygulamanın
hizmet ettiği amaçlar şu şekilde sıralanabilir.
1. Madde seçmek, işlemeyen (bilenle bilmeyeni ayıramayan) madde-
leri testten çıkarmak ya da yeniden düzenlemek; maddelerin güç-
lük düzeylerini belirleme, belirlenen güçlük düzeylerine göre,
maddelerin test içindeki sırasını belirlemek, atlanan ve erişileme-
yen maddeleri tespit etmek, eğer maddeler çoktan seçmeli formata
sahipse çeldiricilerin ne derece işlediğini belirlemek, madde
ayırdedicilik gücünü (madde geçerliği) belirlemek.
2. Teste alınacak madde sayısını belirlemek,
3. Test için ideal olan cevaplama süresini belirleme,
248 Eğitimde Ölçme ve Değerlendirme

Bu aşamada üç önemli unsura dikkat edilmelidir. Bunlar;


1. uygulamanın yapılacağı grubun büyüklüğü: Deneme uygulamasının
yapılacağı grubun büyüklüğüne ilişkin olarak çeşitli görüşler mev-
cuttur. Guilford (1956) ve Kline (1986) minimum örneklem büyük-
lüğünün 200 olması gerektiğini, Nunally (1978) bu sayının 300 ol-
ması gerektiğini, Thorndike ve Hagen (1977) ve Baykul (2000) bu
sayının en az 300-400 olması gerektiğini belirtmektedir.
2. testi yanıtlamak için bireylere verilecek sürenin belirlenmesi,
3. sınav ortamının düzenlenmesi
Denemelik uygulamanın ardından maddelere ait puan matrisini elde
edebilmek için her bir doğru cevaba 1 puan, yanlış ya da boş bırakılan, doğ-
ru cevap dışında kalan seçeneklere 0 puan vermek suretiyle aşağıda verilen
madde puanları matrisi oluşturulur. Madde puanları matrisi yatay eksenin-
de maddeler dikey ekseninde ise bireylerin yer aldığı iki boyutlu bir tablo-
dur. 10 bireye uygulanmış 5 maddelik bir teste ait madde-puan matrisi Tab-
lo 8.1’de verilmiştir.
Tablo 8. 5 Maddelik bir teste ait madde-puan matrisi
Ölçme Aracı Geliştirme 249

Madde- puan matrisinin son sutununda bireylerin her birinin, tüm


maddelere verdikleri doğru cevap sayısı toplanarak elde edilen test puanla-
rı, son satırında ise tüm bireylerin her bir maddeye verdikleri doğru cevap
sayısının toplanması yoluyla elde edilen madde puanları yer alır. Örneğin;
matriste yer alan A bireyi, testte yer alan 5 maddeden 4’ünü doğru cevapla-
dığı için (M1, M2, M3 ve M5) bu bireye ait test puanı 4’tür. 1. maddeye 10
bireyden 9’u doğru cevap verdiği için, bu maddenin puanı 9’dur.

Madde Analizi (Quantitative İtem Analysis)


Nicel analiz, test geliştirmenin önemli bir parçasıdır. Deneme uygula-
masından hemen sonra test geliştirici her bir test maddesinin madde seçi-
mine kaynaklık eden iki önemli standardı karşılayıp karşılamadığını kontrol
etmelidir. Bunlar; (1) her bir maddenin, testin ölçtüğü kabul edilen özelliği
ne derece temsil ettiğinin (ölçtüğü) derecesini veren, madde ayırıcılık gücü
indeksi, (2) her bir maddenin zorluk derecesini ve uygun güçlük düzeyine
sahip olup olmadığını gösteren, madde güçlük indeksidir. Madde istatistik-
leri ya tüm grup üzerinden, ya ölçüt gruplar (alt-üst grup) üzerinden ya da
pratik tablolar (Fan tablosu) aracılığıyla kolayca belirlenebilir. Aşağıda bu
yöntemlere ilişkin açıklamalar verilmiştir.

Madde Güçlük İndeksi


Madde güçlük indeksi, testi alan grubun test maddelerini doğru ya da
yanlış cevaplandırmalarıyla ilgili bir indekstir. Madde güçlük indeksi, mad-
deyi doğru cevaplayanların tüm gruba oranıdır ve ND; Maddeyi doğru ce-
vaplayan birey sayısı, N; tüm gruptaki birey sayısını ifade etmek üzere, aşa-
ğıdaki formül aracılığıyla hesaplanır.
ND
pj = (8.1)
N
Bu indeks, maddenin gruba göre ne kadar zor ya da kolay olduğu konu-
sunda bilgi verir. İndeksin değeri 1.00’e yaklaştıkça maddeyi grubun çoğu-
nun doğru cevapladığı ve kolay olduğu, 0.00’a yaklaştıkça maddeyi grubun
çoğunun yanlış cevapladığı ya da cevaplayamadığı ve zor olduğu anlamına
gelir. Bir başka ifade ile bir maddeyi testi alan gruptan ne kadar çok birey
doğru cevaplarsa maddenin o derece kolay olduğu, ne kadar az birey cevap-
larsa maddenin o derece zor olduğu anlamına gelir. Örneğin, 100 kişilik bir
sınıfta, bir maddeyi 80 kişi doğru cevaplamışsa,
ND 80
pj = = = 0.80 olacaktır.
N 100
250 Eğitimde Ölçme ve Değerlendirme

Başka bir deyişle, grubun % 80’i maddeyi doğru cevaplamıştır. Dolayı-


sıyla bu maddenin kolay bir madde olduğu söylenebilir. Bir testi oluşturan
maddelerin güçlük indeksleri testin güçlüğünü doğrudan etkiler. Çünkü
testin güçlüğü, onu oluşturan maddelerin güçlüğünün bir fonksiyonudur.
Eğer testi oluşturan maddeler zor olursa test güç bir test olacak, eğer seçi-
len maddeler kolay olursa test kolay bir test olacaktır. Bir testin geniş ranjda
puan dağılımına sahip olması için (tercihen normal dağılım) testin bütün
güçlük düzeylerinde soruları içermesi istenilen bir durumdur. Eğer test ge-
niş ranjda bir puan dağılımına sahip olmazsa ölçmeye konu olan özellik
açısından bireyler arası farklılıklara ilişkin fazla bir bilgi sağlanamayacaktır.
Madde güçlüğünün test puanının özelliklerini nasıl etkilediğini açıkla-
mak için testimizdeki bir maddeyi, testin uygulandığı gruptaki tüm bireyle-
rin doğru cevapladığını farzedelim. Bu durumda grubun tamamı soruyu
doğru cevapladığı için, madde güçlük indeksi 1.00 olacaktır. Bu madde grup
için çok kolay maddedir ve ölçülen özellik açısından bireyler arası farklılık-
lara ilişkin fazla bilgi vermeyecektir. Eğer test buna benzer şekilde çok ko-
lay maddelerden oluşturulursa, teste ait puan dağılımı çarpık olacak ve da-
ğılımın diğer ucunda yer alabilecek üst gruptaki bireyleri ayırma ya da bir
diğer ifade ile ölçülen özellik açısından bireyler arası farklılıkları görmek
için çok az bilgi sağlayacaktır. Ölçülen özellik açısından bireyler arası farklı-
lıkları ortaya çıkarmak başarı testleri için son derece önemli bir konudur.
Bu sebeple başarı testleri yapılandırılırken test içinde yer alan maddelerin
madde güçlük indekslerinin ortalaması 0.50 olacak şekilde ve bütün yetenek
düzeylerine hitap edecek biçimde geniş bir ranjda dağılım göstermesine
özen gösterilmelidir. Walsh & Betz (2004)’e göre bir testi oluşturan madde
güçlük indeksleri 0.10 ile 0.90 arasında, Kline (1986) ya göre ise 0.20 ile 0.80
arasında dağılım göstermelidir. Bu dağılım mümkün olduğunca normal
olmalıdır. Testi oluşturan soruların çoğu orta güçlükte olmalı, güçlük düzeyi
azaldıkça ve çoğaldıkça soru sayısı da azaltılmalıdır.
Madde güçlük indeksinin madde-puan matrisi üzerinden nasıl hesap-
landığını anlamak için Tablo 8.1’de verilen 5. maddeye ait madde güçlük
indeksini hesaplayalım. Bu maddeyi grupta yer alan 10 (N=10) bireyden 5’i
doğru cevapladığı için madde puanı ( ND)=5’tir. Verilenleri eşitlik 8.1’de
yerine koyarsak, madde güçlük indeksi;
5
pj = = 0,50 olarak bulunur.
10
Bulunan bu sonuca göre 5. maddenin orta güçlükte bir madde olduğu
söylenebilir.
Ölçme Aracı Geliştirme 251

Yukarıda tüm grup üzerinden madde güçlük indeksinin hesaplanması-


na dayalı yöntem üzerinde durulmuştur. Fakat madde istatistikleri her za-
man tüm grup üzerinden hesaplanmayabilir. Grup farklılıklarına dayalı olan
Alt-Üst grup yöntemi kullanılabilir. Bu durumda madde güçlük indeksinin
nasıl hesaplanacağına ilişkin örnek ve açıklamalar grup farklılıklarına dayalı
madde ayırıcılık gücü kısmında verilmiştir.

Madde Ayırıcılık Gücü İndeksi


Bu indeks her bir test maddesinin, testle ölçülmek istenen özelliği yan-
sıttığı mantığına dayalıdır. Örneğin test okuduğunu anlama becerisini ölç-
meyi amaçlıyorsa her bir maddenin bu özelliğe dönük olması bir diğer ifade
ile bu özelliği yansıtması gerekir. Bireylerin belli bir özelliği ölçmeye dönük
yazılmış maddelere verdikleri tepkilerin (cevapların) bu yapıyı temsil eden
testin tümünden elde edilen puanlarla ne derece ilişkili olduğunu ifade
eden önemli bir indekstir. Eğer maddeye verilen tepkilerle (madde puanla-
rı) testin tamamından elde edilen puanlar arasında ilişki yok ya da çok za-
yıfsa maddenin testle ölçülmek istenen özelliği ölçtüğü şüphelidir.
Madde ayırıcılık gücü indeksi, test geliştiricilere ölçülmek istenen özel-
liği ölçebilen, testle ölçülmek istenen özelliğe sahip olanla olmayanı ayırabi-
lecek düzeyde iyi ve kaliteli maddelerin seçilmesine, kötü ve amaca hizmet
etmeyen maddelerin elenerek teste alınmamasına olanak sağlar. Aşağıda
verilen yöntemlerden herhangi biriyle elde edilen madde ayırıcılık gücü
indeksi korelasyona dayalı bir indeks olduğu için +1 ile –1 arasında değer
alır. Bu indeks +1’e yaklaştığı ölçüde maddenin testle ölçülmek istenen
özelliği ölçtüğü, 0’ a yaklaştığı ölçüde maddenin testle ölçülen özelliği ölçe-
mediği, indeksin – (negatif) değerler alması durumunda ise maddenin testle
ölçülen özellikten başka bir özelliği ölçtüğü şeklinde yorumlanır. Düşük
düzeyde ayırıcılık gücüne sahip maddelerin mutlaka incelenmesi gerekir. Bu
maddelerin ayırıcı olmamasının muhtemel sebepleri arasında sorunun iyi
ifade edilememesi, muğlak ifade edilmesi ve farklı yorumlara açık olması ya
da maddenin ölçülen özellik dışında başka bir değişkeni ölçmesi vb. sayılabi-
lir. Madde ayırıcılık gücü indeksi, iç tutarlık anlamındaki güvenirlikle (KR-
20) doğrudan ilişkilidir. Daha önceki bölümlerde bahsedildiği üzere KR-20
güvenirliği maddelerin birbirleriyle ilişkisine dayalı bir indekstir. Test puan-
larının madde puanlarının bir fonksiyonu olduğu düşüncesinden hareketle,
her bir madde birbirleriyle ne derece ilişkiliyse, test puanlarıyla da madde-
nin o derece ilişkili olduğu söylenebilir. Bu sebeple yüksek ayırıcılık gücüne
sahip maddelerden oluşan bir test güvenilirdir.
252 Eğitimde Ölçme ve Değerlendirme

Madde ayırıcılık gücünü hesaplamanın bir çok yolu vardır. Bunlar te-
melde iki gruba ayrılır.
1. Korelasyona dayalı madde ayırıcılık gücü: Bu yöntem madde puanları
ile test puanları arasındaki korelasyonu hesaplamaya ve bu yolla mad-
denin madde ile ölçülmek istenen özelliği ölçme derecesini belirlemek
üzerine kuruludur. Madde-test korelasyonunu hesaplamanın çeşitli yol-
ları vardır. Madde geçerliğine ilişkin kanıt sağlamak üzere hangi kore-
lasyon kat sayısının hesaplanacağı, maddenin puanlanış biçimi (iki ka-
tegorili-dichotomous, ve çok kategorili-polytomous), madde ile ölçül-
mek istenen değişkenin doğası ve türü gibi özelliklere bağlıdır. Tüm bu
özellikler göz önünde tutulduğunda madde-test korelasyonu aşağıda
belirtilen yöntemlerden birisi aracılığıyla belirlenebilir.

Pearson Momentler Çarpımı Korelasyon Kat Sayısı (PMÇK)


Bu yöntem Nunally (1978) tarafından çoklu puanlanabilen
(polytomous) maddelere sahip testlerde madde geçerlik (madde ayırıcılık
gücü) indeksini belirlemek üzere önerilmiştir. Eğer test maddeleriyle öl-
çülmek istenen özellik doğası itibariyle sürekli değişken özelliğine sahipse
ve bu sebeple test maddeleri çoklu (polytomously) puanlanıyorsa madde
puanları ve test puanları arasındaki ilişki PMÇK kat sayısını hesaplamak
suretiyle belirlenebilir. Kısmi puanlanabilen testler ve tutum, motivasyon
vb. gibi psikolojik özellikleri ölçmeye dönük testlerde madde-test korelas-
yonunu belirlemek için PMÇK kat sayısı kullanılabilir.

Phi Kat Sayısı


İki kategorili gerçek süreksiz iki değişken arasındaki ilişkinin derecesini
belirlemek üzere kullanılan korelasyon kat sayısıdır. Test puanları geçti-
kaldı ya da ortalamanın altı ve üstü şeklinde iki kategorili hale getirilerek
madde puanları ve test puanları gerçek süreksiz değişken olarak kabul edi-
lirse (burada madde puanları ve test puanlarının iki kategorili gerçek kesikli
değişken olduğu varsayılır), madde puanları ile test puanları arasındaki
ilişkiyi incelemek üzere Phi kat sayısı hesaplanabilir ve madde geçerlik in-
deksi olarak kullanılabilir.

Tetrakorik Korelasyon Kat Sayısı


İki kategorili yapay süreksiz iki değişken arasındaki ilişkinin derecesini
belirlemek üzere kullanılan korelasyon kat sayısıdır. Phi kat sayısının yerine
kullanılabilir. Gerçekte sürekli olan fakat geçti-kaldı ya da benzer şekillerde
yapay olarak iki kategorili hale getirilen test puanları ile yapay süreksiz ka-
Ölçme Aracı Geliştirme 253

bul edilen madde puanları arasındaki ilişkiyi belirlemek üzere kullanılabilir


fakat tetrakorik korelasyon kat sayısının standart hatasının yüksek olması
önemli bir problemdir. PMÇKK ile karşılaştırıldığında iki kat daha fazla
hata içerir.

Çift Serili Korelasyon Kat Sayısı (ÇSKK)


Madde ile ölçülmek istenen özellik doğası itibarıyla sürekli bir değişken
iken yapay olarak iki kategorili kesikli hale getirilen madde puanları ile,
sürekli değişken olma özelliğine sahip olan test puanları arasındaki ilişki
PMÇK kat sayısının özel bir hali olan ÇSKK ile belirlenebilir. Objektif pu-
anlanabilen testlerde madde geçerlik indeksini belirlemek için en sık kulla-
nılan teknik olma özelliğine sahip olan ÇSK kat sayısı aşağıda verilen for-
mül aracılığıyla hesaplanabilir.

X JD − X X p j
rçift = r jx = . (8.2)
SX yj

r jx = madde ayırıcılık gücü indeksi

X JD = maddeyi doğru cevaplayanların test puanları ortalaması

X X = Test puanları ortalaması


S X = Test puanlarının standart sapması
p j = Madde güçlük indeksi

y j = Standart normal dağılımda maddenin p j ’sini q j ’den ayıran or-


dinat değerini ifade etmektedir.
Formülde yer alan maddeyi doğru cevaplayan bireylerin test puanı or-
talaması ( X JD );

X JD =
∑X D
(8.3)
ND
eşitliği aracılığıyla belirlenebilir. Eşitlik 8.3’te yer alan;
X D = Maddeyi doğru cevaplayan bireylerin test puanlarını,
N D = Maddeyi doğru cevaplayan birey sayısını ifade etmektedir.
254 Eğitimde Ölçme ve Değerlendirme

Madde ayırıcılık gücü (madde geçerlik) indeksinin madde-puan matrisi


üzerinden nasıl hesaplandığını anlamak için Tablo 8.1’de verilen 5. maddeye
ait madde ayırıcılık gücü indeksini ÇSKK yöntemi aracılığıyla, eşitlik
8.2’den yararlanarak hesaplayalım. Öncelikle Eşitlik 8.2’de yer alan ve for-
mülün bileşenlerini oluşturan X JD , X X , S X , p j , y j değerlerini hesapla-
yalım.
5. maddeyi doğru cevaplayan birey sayısı 5’tir ve bu bireylerin test pu-
anları sırasıyla, 4, 1, 5, 2 ve 3’tür. Bu değerler eşitlik 8.3’te yerine konularak;
4 + 1 + 5 + 2 + 3 15
X JD = = =3
5 3
olarak bulunur. Eşitlik 8.10 aracılığıyla test puanlarının aritmetik orta-
laması;

4 + 1 + 2 + 1 + 5 + 2 + 3 + 4 + 3 + 3 28
X = = = 2,8
10 10
olarak bulunur. Eşitlik 14 aracılığıyla test puanlarının standart sapması;

∑ (X − X )
2

SX = =
N −1
(4−2,8)2 +(1−2,8)2 +(2−2,8)2 +(1−2,8)2 +(5−2,8)2 +(2−2,8)2 +(3−2,8)2 +(4−2,8)2 +(3−2,8)2 +(3−2,8)2
9
S X = 1,32
olarak bulunur. Eşitlik 8.1 kullanılarak 5. maddeye ait güçlük indeksi;
5
pj = = 0,50
10
olarak bulunur ve son olarak ek xx’de verilen tablodan p= 0,50’ye kar-
şılık gelen y j değeri; 0,3989 olarak bulunur ve bulunan tüm bu değerler
eşitlik 8.2’de yerine konarak madde ayırıcılık gücü indeksi;

3 − 2,8 0,50
rçift = r jx = . = 0,1515.1,253 = 0,189
1,32 0,3989
Ölçme Aracı Geliştirme 255

olarak bulunur. Bulunan bu değer, bir maddenin nihai teste alınabilme-


si için gereken ölçüt değerden (ölçüt değerler için bkz. Tablo 8.7) oldukça
düşüktür. Bu durumda, bu maddenin testle ölçülmek istenen özelliği ölçtü-
ğü şüphelidir. Bu madde teste alınmamalıdır.

Nokta-Çift Serili Korelasyon (NÇSK)


Madde ile ölçülmek istenen özellik gerçek süreksiz kabul edilerek, iki
kategorili (1-0) madde puanları ile test puanları arasındaki ilişki NÇSK kat
sayısı ile belirlenebilir. Madde ile ölçülen değişkenin (başarı) doğası
gözönünde tutulduğunda, bu değişkenin gerçek süreksiz olduğunu kabul
etmek çok doğru bir yaklaşım değildir. Bu sebeple, doğası itibarıyla sürekli
bir değişken olan başarıyı eğer öğrenciler doğru seçeneği işaretlemişse, 1
puan, boş bırakmış ya da yanlış seçeneği işaretlemişse 0 puan vermek sure-
tiyle yapay olarak iki kategorili kesikli değişken haline getirilmektedir. As-
len bireylerin yanlış cevabı işaretlemeleri gerçekte kesin bir şekilde hiçbir
şey bilmedikleri anlamına gelmez. Bu açıklamalar ışığında madde geçerlik
indeksinin nokta-çift serili korelasyon yerine çift serili korelasyonla hesap-
lanması önerilir. Magnusson (1967) nokta çift serili korelasyonun, çift serili
korelasyondan yaklaşık % 25 daha düşük çıkma eğiliminde olduğunu be-
lirtmektedir.

X JD − X X p j
rn −çift = r jx = . (8.4)
SX qj

Tablo 8.1’de verilen 5. maddeye ait madde ayırıcılık gücü indek-


sini NÇSKK yöntemi aracılığıyla, eşitlik 8.4’den yararlanarak hesap-
layalım. Eşitlik 8.4’de yer alan ve formülün bileşenlerini oluşturan
X JD , X X , S X , p j , değerleri ÇSKK yöntemi ile madde geçerlik in-
deksi hesaplanırken belirlenmişti. Maddeyi yanlış cevaplama oranı; q=
1-p eşitliği aracılığıyla,
qj=1-0,50=0,50
olarak bulunur ve bulunan bu değerler eşitlik 4’de yerine konarak;

3 − 2,8 0,50
rn −çift = r jx = . = 0,1515.1,00 = 0,1515
1,32 0,50
olarak bulunur. Çift serili korelasyon kat sayısının Nokta çift serili kore-
lasyondan daha yüksek çıktığına dikkat ediniz.
256 Eğitimde Ölçme ve Değerlendirme

Madde Analiz Yönteminin Seçilmesi


Madde ayırıcılık gücü indeksini belirlemek için önerilen indeks, ölçüt
durumdaki toplam test puanlarını doğasına uygun bir şekilde sürekli kabul
eden ve madde puanlarını da gerçekte sürekli iken puanlanışı itibarıyla ya-
pay süreksiz kabul ederek, madde puanları ve test puanları arasındaki ilişki-
yi incelemeye olanak sağlayan ÇSKK’dır. Sürekli değişken konumundaki
test puanlarını yüksek-düşük, geçti–kaldı şeklinde iki kategorili kesikli de-
ğişken haline getirmek önemli düzeyde bilgi kaybına sebep olur ve analizin
gücünü zayıflatır.
2. Grup farklılıklarına (Alt-üst grup) dayalı madde ayırıcılık gücü: Bu
yöntem ölçülen özellik açısından birbirinden farklı grupların (alt ve üst
grup) maddeye verdikleri tepkilerin karşılaştırılması ve bu yolla mad-
denin ölçülen özelliğe sahip olanla (bilen-üst grup) olmayanı (bilme-
yen-alt grup) ayırıp ayırmadığını belirlemek üzerine kuruludur. Alt ve
üst gruplar bir başka ifade ile testle ölçülen özelliğe sahip olan ve olma-
yan grupları belirlemek için test puanları ölçüt olarak alınır. Bu prose-
düre ilişkin işlem basamakları aşağıda verilmiştir.
1. Testten elde edilen ölçme sonuçları (puanlar) büyükten küçüğe doğru
sıraya dizilir.
2. N x0.27 formülü aracılığıyla %27’lik gruplar belirlenir. Örneğin: 100
kişilik bir grubun %27’si 100 x0,27=27 olarak bulunur.
3. En yüksek puandan başlayarak grubun %27’lik kısmı ayrılarak üst
grup oluşturulur ve bu grup testle ölçülmek istenen özelliğe sahip olan
grup olarak (başarılı), en düşük puandan başlayarak grubun %27’lik
kısmı ayrılarak alt grup oluşturulur ve bu grupta testle ölçülmek iste-
nen özelliğe sahip olmayan grup olarak (başarısız) kabul edilir.
4. Alt ve üst grupta hangi seçeneği kaç kişinin işaretlediğini saymak sure-
tiyle, alt ve üst grupta yer alan bireylerin her bir madde ve seçenekleri-
ne verdikleri tepkilere ilişkin frekanslar belirlenir. Bu işlem için her bir
soruya ait aşağıdaki gibi bir tablo oluşturulur.
Tablo 8.6: 1 No’lu Maddeye Ait Madde-Cevap Frekans Tablosu

Seçenekler
Grup A B* C D E Boş Toplam
Üst grup 20 30 20 15 10 5 100
Alt grup 20 15 20 20 15 10 100
Toplam 40 45 40 35 25 15 200
* Doğru cevap seçeneği (B)
Ölçme Aracı Geliştirme 257

5. Oluşturulan bu tablolardan yararlanarak, madde ayırıcılık gücü in-


deksi;
ndü − n da
r jx = (8.5)
n
formülü aracılığıyla belirlenir. Formülde yer alan;
ndü = maddeye üst grupta doğru cevaplayan birey sayısını,
nda = maddeyi alt grupta doğru cevaplayan birey sayısını,
n = alt ya da üst grupta yer alan toplam birey sayısını ifade etmektedir.
Madde ayırıcılık gücü (madde geçerlik) indeksinin madde-cevap fre-
kans tabloları yardımıyla ve alt-üst grup farklarına dayalı yöntemle nasıl
hesaplandığını anlamak için Tablo 8.2’de verilen 1 no’lu maddeye ait madde
ayırıcılık gücü indeksini hesaplayalım. Doğru cevaba ait “B” seçeneğinin
bulunduğu sütun aracılığıyla 1 no’lu maddeyi üst grupta doğru cevaplayan
bireylerin sayısı: 30, alt grupta doğru cevaplayan bireylerin sayısı: 15 ve Tab-
lo 8.2’nin en sonunda yer alan toplam sütunu aracılığıyla alt ya da üst grupta
yer alan toplam birey sayısı: 100 olarak bulunur ve bulunan bu değerler
eşitlik 8.5’te yerine konarak madde ayırıcılık gücü indeksi;
30 − 15 15
r jx = = = 0,15
100 100
olarak bulunur.
Alt-üst grup farklarına dayalı yöntem üzerinden ve madde-cevap fre-
kans tabloları yardımıyla diğer bir madde istatistiği olan madde güçlük in-
deksi de belirlenebilir. Bu yöntem kullanıldığında ve yukarıda Tablo 8.2 gibi
bir tablo düzenlenirse madde güçlük indeksi;
ndü + n da
pj = (8.6)
N
formülü aracılığıyla belirlenir. Formülde yer alan;
N= alt ve üst grupta yer alan toplam birey sayısını ifade etmektedir.
Madde güçlük indeksinin madde-cevap frekans tabloları yardımıyla ve
alt-üst grup farklarına dayalı yöntemle nasıl hesaplandığını anlamak için
Tablo 8.2’de verilen 1 no’lu maddeye ait madde güçlük indeksini hesaplaya-
lım. Madde ayırıcılık gücü hesaplanırken 8.2 no’lu tablo yardımıyla doğru
cevaba ait “B” seçeneğinin bulunduğu sütun aracılığıyla 1 no’lu maddeyi üst
grupta doğru cevaplayan bireylerin sayısı: 30, alt grupta doğru cevaplayan
bireylerin sayısı: 15 olarak belirlenmişti. Tablo 8.2’nin en sonunda yer alan
258 Eğitimde Ölçme ve Değerlendirme

toplam sütunu aracılığıyla alt ve üst grupta yer alan toplam birey sayısı: 200
olarak bulunur ve bulunan bu değerler eşitlik 8.6’da yerine konarak madde
güçlük indeksi;
30 + 15 45
pj = = = 0,225
200 200
olarak bulunur.

Çeldirici Seçenek Analizi


Test geliştirmede doğru cevap ve soru kökü kadar doğru cevap dışında-
ki çeldirici seçenekler de oldukça önemli bir yere sahiptir. Bir başarı testin-
de soru kökü ve doğru cevap ne kadar iyi düzenlenirse düzenlensin eğer
çeldirici seçenekler bilgisi olmayanları (başarısız) çekecek kadar cazip değil-
se maddenin bilenle bilmeyeni ayırması beklenemez. Bu sebeple çeldirici
seçenekler, bilgisi olmayanları çekecek onlara cazip gelecek biçimde yapı-
landırılmalıdır. Bilen-bilmeyen, bir başka ifade ile başarılı-başarısız sınıfla-
rını oluşturmak için en uygun büyüklük alt-üst %27’lik gruplardır. Çeldirici-
lerin değerlendirilmesinde bu gruplardan yararlanılır. Beklenen durum, üst
%27’lik grupta yer alan test puanı yüksek olan başarılı bireylerin tamamının
ya da çoğunun doğru cevabı bilmesi, Alt %27’lik grupta yer alan test puanı
düşük olan başarısız bireylerin tamamının ya da çoğunun doğru cevabı bi-
lememesi ve diğer çeldirici seçeneklere yönelmesidir. Çeldiricilerin her
birinin alt grupta yer alan bireyleri eşit miktarda çekmesi istenen ve ideal
bir durumdur. Bu durum, çeldiricilerin iyi yazıldığını gösterir. Konunun
daha iyi anlaşılabilmesi için çeldirici analizini 4 olası durum üzerinde ince-
lemek faydalı olur.
Durum Grup A B *C D E Toplam
1 Üst 0 0 100 0 0 100
Alt 25 25 0 25 25 100
*Doğru Cevap
Yukarıda verilen maddenin 1. olası durumu istenen ve ideal durumu
yansıtmaktadır. Üst gruptakilerin (başarılı) tamamı soruyu doğru cevapla-
mış, alt gruptakilerin tamamı eşit düzeyde çeldirici seçeneklere yönelmiştir.
Bu durum çeldiricilerin çok iyi işlediğini gösterir fakat pratikte böylesi bir
dağılım hemen hemen hiç gerçekleşmez.
Durum Grup A B C D E Toplam
2 Üst 4 6 80 6 4 100
Alt 20 22 18 19 21 100
Ölçme Aracı Geliştirme 259

Yukarıda verilen maddenin 1. olası durumunda, Üst gruptakilerin (ba-


şarılı) çoğu soruyu doğru cevaplamış, alt gruptakilerin çoğu da yanlış cevap-
lamıştır. Alt ve üst grupta çeldirici seçeneklere dağılım oldukça dengelidir.
Üst grupta çok az birey çeldiricilere yönelmiş alt grupta ise bireylerin çoğu
çeldirici seçeneklere yönelmiş ve alt grupta yer alan bireylerin çeldirici se-
çeneklere dağılımı hemen hemen birbirine eşittir.
Durum Grup A B C D E Toplam
3 Üst 18 19 20 26 17 100
Alt 8 9 12 60 13 100

Yukarıda verilen 3. olası durumda ise, “D” seçeneği hem üst grupta
hem de alt grupta doğru cevap seçeneğinden daha fazla bireyi çekmiştir.
“D” çeldirici seçeneği incelenmelidir. Muhtemelen bu seçenek doğru ceva-
ba çok yakın ya da kısmen doğru cevabı içeriyor olabilir. Bu durumda dikkat
edilmesi gereken diğer bir husus ise çeldirici seçenekler üst gruptakilere
daha cazip gelmiştir. Çeldirici bilmeyen öğrencileri çelmeli, bilenleri değil.
Bu sebeple bu ve buna benzer cevap dağılımına sahip doğru cevap ve çeldi-
rici seçeneklerin tekrar dikkatle gözden geçirilmesi gerekir.
Durum Grup A B C D E Toplam
4 Üst 21 18 22 19 20 100
Alt 19 23 20 17 21 100
Yukarıda verilen 4. olası durumda, cevapların doğru cevapla birlikte
diğer çeldiricilere de neredeyse eşit miktarda dağıldığı görülmektedir. Bu
maddenin doğru cevabı olmayabilir. Bu sebeple bu ve buna benzer durum-
larda doğru cevapla birlikte diğer seçenekler de gözden geçirilmelidir.

Diğer Madde İstatistikleri


Madde seçim sürecine kaynaklık eden iki önemli istatistik madde güç-
lük indeksi ve ayırıcılık gücüdür. Fakat bunun dışında maddeye ait başkaca
istatistikler de vardır. Bu istatistiklere aşağıda kısaca değinilmiştir.

Madde Varyansı ve Standart Sapması


Doğru cevaba 1, boş ve yanlış cevaba 0 puan vermek suretiyle puanla-
nan objektif bir test maddesine ait varyans;
2
s j = p.q (8.7)
eşitliği yardımıyla hesaplanabilir. Eşitlikte yer alan p = madde güçlük
indeksini, q = maddeyi yanlış cevaplama oranını (1 - p) ifade etmektedir.
260 Eğitimde Ölçme ve Değerlendirme

Madde standart sapması ise madde varyansının karekökünü almak su-


retiyle aşağıda verilen eşitlik yardımıyla hesaplanabilir.
sj = p.q (8.8)
madde varyansı ya da madde standart sapması maddenin ölçülen özel-
lik açısından bireyler arası farklılıkları ne derece ortaya koyabildiğinin ölçü-
sünü verir. Madde varyansı ya da standart sapması büyüdükçe maddenin,
ölçülmek istenen özellik açısından bireyler arası farklılıkları ortaya çıkarma
gücü artar.
Tablo 8.1’de verilen 5. maddeye ait madde varyansı ve standart sapma-
sını hesaplayalım. 5. maddeye ait madde güçlük indeksi daha önce 0,50 ola-
rak ve maddeyi yanlış cevaplama oranı ise yine 0,50 olarak bulunmuştu bu-
lunan bu değerler eşitlik 8.6’da yerine konularak 5. maddeye ait varyans;
2
s j = 0,50.0,50 = 0,25
olarak bulunur ve eşitlik 8.7 kullanılarak 5. maddeye ait standart sap-
ma;
s j = 0,50.0,50 = 0,50
olarak bulunur. Bulunan bu madde varyansı ve standart sapma bir
maddenin alabileceği maksimum varyans ve standart sapma değeridir. Bir
testte yer alan maddelerin varyanslarının maksimum olması istenen bir du-
rumdur. Bu değere bakarak, bu test maddesinin bireyler arası farkları çok
iyi görebildiği söylenebilir.

Madde Güvenirlik Kat Sayısı


madde güvenirliğine ilişkin bilgi veren madde güvenirlik kat sayısı mad-
de ayırıcılık gücü ile madde standart sapmasının çarpımına eşittir. Madde
güvenirlik indeksi;
r j = r jx .s j (8.9)
eşitliği aracılığıyla hesaplanabilir. Eşitlikten de rahatlıkla görülebileceği
gibi madde güvenirlik indeksi madde ayırıcılık gücü ve madde standart
sapmasının bir fonksiyonudur. Bu sebeple madde standart sapması ve mad-
de ayırıcılık gücü büyüdükçe madde güvenirliği de artar.
Şimdi daha iyi anlaşılması açısından Tablo 8.1’de verilen 5. maddeye ait
madde güvenirlik kat sayısını hesaplayalım. 5. maddeye ait madde ayırıcılık
gücü indeksi daha önce 0,189 olarak ve maddeye ait standart sapma ise 0,50
olarak bulunmuştu bulunan bu değerler eşitlik 8.8’de yerine konularak 5.
maddeye ait güvenirlik kat sayısı;
Ölçme Aracı Geliştirme 261

r j = 0,189.0,50 = 0,0945
olarak bulunur. Bu kat sayı ne kadar yüksek olursa, madde o kadar gü-
venilir demektir. Bu kat sayının alacağı maksimum değer madde standart
sapması ve ayırıcılık gücününe bağlı olarak 0,50’dir. Bulunan bu sonuca
göre maddenin güvenirliği oldukça düşüktür. Madde güvenirliğini düşüren
sebep ise madde ayırıcılık gücünün düşük olmasıdır. Eşitlik 8.9 dikkatle
incelenirse, madde güvenirlik indeksi madde ayırıcılık gücü ve madde stan-
dart sapmasının bir fonksiyonudur ve bu iki istatistiğin değeri arttıkça mad-
denin güvenirliği de artar. Tüm bu açıklamalar ışığında bu maddenin testin
güvenirliğini tehdit edeceği ve düşüreceği söylenebilir.
Test geliştirme ve madde seçme prosedürüne ilişkin tüm bu açıklamalar
ışığında test geliştirirken göz önünde tutulması gereken en önemli ölçütler
aşağıdaki gibi özetlenebilir.
1. Testin Uzunluğu: özellikle güvenirlik için son derece önemlidir.
Güvenilir bir test oluşturabilmek için testteki madde sayısının 20-
30’dan az olmamasına özen gösterilmelidir.
2. Kapsam: Test ölçülecek olan kapsamın tümünü temsil edecek şe-
kilde yapılandırılmalıdır. Bir başka ifade ile programda yer alan
tüm hedef ve davranışları temsil etmelidir.
3. Madde-test korelasyonları: Bu en önemli ölçütlerden birisidir. Bu
kat sayı ne kadar yüksekse madde o kadar iyi ve kaliteli demektir.
Bir başka ifade ile madde testle ölçülmek istenen özelliği ölçüyor
ya da temsil ediyor demektir. Nihai teste madde seçimi için bu kat
sayıya ilişkin ölçütler aşağıdaki gibi tanımlanmıştır (Crocker ve
Algina, 1986; Ebel, 1965).

Tablo 8.7 Madde-Test Korelasyonlarına Göre Madde Seçme Ölçütleri

Madde –Toplam test Karar


korelasyonu
0,40 ve Üstü Madde olduğu gibi teste alınabilir. Ayırdedici bir madde.
0,30-0,39 Düzeltme yapmadan ya da küçük düzeltmelerle teste alınabilir.
0,20-0,29 Madde gözden geçirilerek, düzeltildikten sonra teste alınmalı-
dır.
0,19 ve altı Mümkünse teste alınmamalı, eğer zorunlu ise madde tamamen
düzenlenmeli.

4. Madde güçlük indeksi: Ölçülen özellik açısından bireyler arası


farklılıkları ortaya çıkarmak başarı testleri için son derece önemli
262 Eğitimde Ölçme ve Değerlendirme

bir konudur. Bu sebeple başarı testleri yapılandırılırken test içinde


yer alan maddelerin madde güçlük indekslerinin, ortalama 0.50
olacak şekilde ve bütün yetenek düzeylerine hitap edecek biçimde
geniş bir ranjda dağılım göstermesine özen gösterilmelidir. Testi
oluşturan maddelerin güçlük indeksleri 0,20 ile 0,80 arasında olma-
lıdır. Bu dağılım mümkün olduğunca normal olmalıdır. Testi oluş-
turan soruların çoğu orta güçlükte olmalı, güçlük düzeyi azaldıkça
ve çoğaldıkça soru sayısı da azaltılmalıdır.
Şimdi Tablo 8.1’de verilen madde–puan matrisini tekrar ele alalım ve
tüm maddelere ait madde istatistiklerini hesaplayalım. (Hesaplanan madde
istatistiklerini sizler de yukarıda verilen formülleri kullanarak elde etmeye
çalışınız.)
Tablo 8.8 5 Maddelik Bir Testte Ait Madde-Puan Matrisi Ve Madde İstatistikleri

Madde M1 M2 M3 M4 M5 Test
Puanı
Birey
A 1 1 1 0 1 4
B 1 0 0 0 0 1
C 1 1 0 0 0 2
D 0 0 0 0 1 1
E 1 1 1 1 1 5
F 1 0 0 0 1 2
G 1 1 1 0 0 3
H 1 1 1 1 0 4
I 1 1 0 0 1 3
J 1 0 1 1 0 3
Toplam 9 6 5 3 5 28
p 0,90 0,60 0,50 0,30 0,50 2,8
q 0,10 0,40 0,50 0,70 0,50
2
p.q ( s j )
0,09 0,24 0,25 0,21 0,25

p.q ( s j ) 0,3 0,49 0,5 0,46 0,5


rçift 0,78 0,82 0,95 0,78 0,19
rn-çift 0,45 0,65 0,76 0,60 0,15
rj* 0,23 0,40 0,48 0,36 0,095
X = 2,8 S X2 = 1,73 S X = 1,32
*rj değerleri, rçift değerleri göz önüne alınarak hesaplanmıştır.
Ölçme Aracı Geliştirme 263

Test İstatistiklerinin Belirlenmesi


Bir testin en küçük birimine madde denir. Belli bir özelliği ölçen mad-
delerin bir form üzerinde bir araya getirilerek oluşturulan bütüne test denir.
Bir başka ifade ile test, maddelerinin bir fonksiyonudur. Bu durum test =
ƒ(madde) şeklinde ifade edilebilir. Test kavramının bu tanımından hareket-
le, eğer madde istatistikleri kontrol altında tutulursa, test istatistiklerinin de
kontrol altında tutulabileceği söylenebilir. Bir diğer ifade ile eğer test mad-
deleri geçerli ve güvenilirse test de geçerli ve güvenilir olacaktır. Fakat tes-
tin tümünün niteliklerine ilişkin bilgi edinilmek istendiğinde tek tek madde-
leri incelemek yerine daha pratik ve özet bilgi edinmek için test istatistikle-
rine başvurulur. Bir testin uygulandığı gruba dayalı olarak elde edilen sayı-
sal özelliklerine test istatistiği adı verilir. Başlıca test istatistikleri aşağıda
verilmiştir.

Testin Aritmetik Ortalaması


Bir testin aritmetik ortalaması, testi alan bireylerin testten aldıkları pu-
anların toplamının, gruptaki birey sayısına bölünmesiyle elde edilebilir ve;

X =
∑X (8.10)
N
ya da madde istatistikleri kullanılarak;
X = ∑ pj (8.11)

formülü aracılığıyla kestirilebilir.

Aritmetik ortalama, grubu testle ölçülmek istenen özellik açısından


temsil eden tipik değerdir ve bireylerin hangi değer etrafında toplandığını,
bir diğer ifade ile ölçümlerin ağırlık noktasını ifade eder.
Şimdi Tablo 8.8’de verilen bilgilerden yararlanarak, testin aritmetik or-
talamasını hesaplayalım. Ham puanlar aracılığıyla testin ortalaması eşitlik
8.10’dan yararlanarak;
4 + 1 + 2 + 1 + 5 + 2 + 3 + 4 + 3 + 3 28
X = = = 2,8
10 10
olarak, maddegüçlük istatistikleri kullanılarak eşitlik 8.11 aracılığıyla;

X = 0,9 + 0,6 + 0,5 + 0,3 + 0,5 = 2,8


olarak elde edilebilir.
264 Eğitimde Ölçme ve Değerlendirme

Test Varyansı ve Standart Sapması


Bireylerin testten elde ettikleri puanların grubu temsil eden tipik değer
(aritmetik ortalama) etrafında nasıl bir dağılım ya da yayılım gösterdiğini
belirlemek amacıyla; eğer test varyansı örneklem üzerinden kestirilecekse;

∑ (X − X )
2

S 2
X = (8.12)
N −1
formülü kullanılır fakat eğer varyans evrenden kestirilecekse;

∑ (X − X )
2

S 2
X = (8.13)
N
formülü aracılığıyla ya da madde istatistikleri aracılığıyla,

S X2 = (∑ rj )
2
(8.14)

formülü aracılığıyla yaklaşık olarak kestirilebilir. Test standart sapması


ise örneklem üzerinden kestirilecekse;

∑ (X − X )
2

SX = (8.15)
N −1
formülü aracılığıyla, fakat eğer standart sapma evrenden kestirilecekse;

∑ (X − X )
2

SX = (8.16)
N
formülü kullanılarak kestirilebilir ya da madde istatistikleri aracılığıyla,

S X = ∑ rj (8.17)

formülü kullanılarak kestirilebilir.


Test varyansı ya da standart sapması ölçülen özellik açısından gruptaki
bireyler arası farklılaşmanın düzeyi hakkında bilgi verir. Test varyansı, ya da
standart sapmasının küçüklüğü ölçüsünde bireylerin ölçülen özellik açısın-
dan birbirine benzediği, büyüklüğü ölçüsünde de farklılaştığı söylenebilir.
Şimdi tablo 8.3’te verilen bilgilerden yararlanarak, testin varyansını ve
standart sapmasını eşitlik 8.12-8.17 ‘yi kullanarak hesaplayalım.
Ölçme Aracı Geliştirme 265

Testin varyansını örneklem üzerinden ham puanlar aracılığıyla ve eşit-


lik 12’yi kullanarak kestirirsek;

( 4 − 2,8 ) + (1 − 2,8 ) + ( 2 − 2,8 ) + (1 − 2,8 ) + ( 5 − 2,8 ) + ( 2 − 2,8 ) + ( 3 − 2,8 ) + ( 4 − 2,8 ) + ( 3 − 2,8 ) + ( 3 − 2,8 )
2 2 2 2 2 2 2 2 2 2

S 2X = = 1,73
10 − 1

olarak elde edilir.


Tablo 8.8’de hesaplanan madde istatistikleri aracılığıyla ve eşitlik
8.14’ten yararlanarak test varyansı;

S X2 = (0,23 + 0,40 + 0,48 + 0,36 + 0,095) = (1,56 ) = 2,44


2 2

olarak kestirilir. Test varyansı eşitlik 8.12 kullanılarak kestirilirse, eşitlik


8.14’den elde edilecek sonuçlardan biraz farklı olabilir fakat en azından bu
değerlerin birbirine yakın olması gereklidir.
Testin standart sapması örneklem üzerinden eşitlik 8.15 aracılığıyla;

∑ (X − X )
2

SX = =
N −1
( 4 − 2,8) + (1− 2,8) + ( 2 − 2,8) + (1− 2,8) + ( 5 − 2,8) + ( 2 − 2,8) + ( 3 − 2,8) + ( 4 − 2,8) + ( 3 − 2,8) + ( 3 − 2,8)
2 2 2 2 2 2 2 2 2 2

= 1,32
9

olarak kestirilebilir.
Tablo 8.8’de hesaplanan madde istatistikleri aracılığıyla ve eşitlik
8.17’den yararlanarak test standart sapması;

S X = (0,23 + 0,40 + 0,48 + 0,36 + 0,095) = 1,56


olarak kestirilebilir.

Testin Ortalama Güçlüğü


Testin ne derece zor ya da kolay olduğu;

X
P= (8.18)
K
ya da madde istatistikleri kullanılarak,

P=
∑p j
(8.19)
K
266 Eğitimde Ölçme ve Değerlendirme

eşitliği aracılığıyla belirlenebilir. Bir test geliştirilirken, ölçülen özellik


açısından bireyler arası farklılıkları daha iyi ortaya koyabilmesi açısından,
orta güçlükte olmasına özen gösterilmelidir.
Şimdi Tablo 8.8’de verilen bilgilerden yararlanarak, testin ortalama
güçlüğünü hesaplayalım. Testin ortalama güçlüğünü test istatistiklerinden
yararlanarak, eşitlik 8.18 aracılığıyla;
2,8
P= = 0,56 olarak, madde güçlük istatistikleri kullanılarak eşitlik
5
8.19 aracılığıyla;
0,9 + 0,6 + 0,5 + 0,3 + 0,5 2,8
P= = = 0,56 olarak bulunur.
5 5
Bu sonuç ışığında testin orta güçlükte olduğu söylenebilir.
Tüm bu istatistikler dışında, test geliştirilirken, test puanlarına ilişkin
güvenirlik kat sayısı, standart hata ve test puanlarına ilişkin geçerlik kanıtla-
rının da sunulması gereklidir. Bu istatistiklere ilişkin geniş açıklamalar Bö-
lüm 3’de Ölçme araçlarında bulunması gereken nitelikler kısmında açıklan-
dığı için burada kısaca bahsedilecektir.

Testin Güvenirliği
Testin ne derece güvenilir olduğu;

K ⎛⎜ ∑ p.q ⎞⎟
KR − 20 = . 1− (8.20)
K − 1 ⎜⎝ S X ⎟⎠
2

ya da tamamen madde istatistiklerine dayanarak;

KR − 20 =
K ⎛⎜
. 1−
∑ p.q ⎞
⎟ (8.21)
K − 1 ⎜ (∑ rJ )2 ⎟
⎝ ⎠
ya da tamamen test istatistiklerine dayalı olarak;
K ⎛⎜ K .X − ( X ) 2 ⎞

KR-21= 1− (8.22)
K − 1 ⎜⎝ K .S X
2 ⎟

formülleri aracılığıyla kestirilebilir.
Testin güvenirliği, ölçme sonuçlarının hatasızlığının göstergesi olarak
kullanılır. KR-20 ya da KR-21 güvenirliği, testin maddelerinin birbiriyle ne
derece tutarlı olduğunun ölçüsünü verir. Bir diğer ifade ile testin iç tutarlı-
ğının ölçüsüdür. Bu kat sayı 1,00’e yaklaştığı ölçüde maddelerin birbiriyle
Ölçme Aracı Geliştirme 267

tutarlı sonuçlar ürettiği ve testin iç tutarlığa sahip olduğu, 0,00’a yaklaştığı


ölçüde testin maddelerin birbiriyle tutarlı sonuçlar üretmediği ve testin gü-
venilir olmadığı anlamına gelir.
Şimdi tablo 8.8’de verilen bilgilerden yararlanarak, testin KR-20 güve-
nirliğini eşitlik 8.20 aracılığıyla hesaplayalım.
5 ⎛ 0,09 + 0,24 + 0,25 + 0,21 + 0,25 ⎞
KR − 20 = .⎜1 − ⎟ = 0,498
5 −1 ⎝ 1,73 ⎠
tamamen test istatistiklerinden yararlanarak, KR-21 güvenirliğini ise
eşitlik 8.20 aracılığıyla belirleyecek olursak;
5 ⎛ 5.2,8 − (2,8) 2 ⎞
KR-21= ⎜1 − ⎟⎟ =0,359
5 − 1 ⎜⎝ 5.1,73 ⎠
olarak bulunur.
Bu sonuçlar ışığında testin iç tutarlığının çok zayıf olduğu diğer bir ifa-
de ile testin güvenirliğinin düşük olduğu söylenebilir. Fakat sonuçların böyle
çıkmasındaki asıl sebep burada örnek verildiği için madde sayısının çok az
olmasıdır. Daha önceki bölümlerde bahsedildiği gibi testteki madde sayısı
KR-20 üzerinde formülden de görülebileceği gibi etkili bir faktördür (Ay-
rıntılı bilgi için bkz. Bölüm III). KR20’nin KR21 den daha yüksek çıktığına
dikkat ediniz. KR21 güvenirliğin alt sınırıdır ve daima KR20 den düşük çıkma
eğilimindedir.

Testin Standart Hatası


Test sonuçlarına karışan hata miktarı bir oran olarak değilde, test puanı
cinsinden belirlenmek istenebilir. Bu durumda test puanlarına karışan hata
miktarı eşitlik 8.23 aracılığıyla belirlenebilir.
SH = SX − (1 − rxx ) (8.23)
formülde yer alan SH; Standart hatayı, rxx; herhangi bir yöntemle hesap-
lanan test puanlarına ait güvenirliği ifade eder.
Şimdi Tablo 8.8’de matrisi, madde ve test istatistikleri verilen teste ait
standart hatayı hesaplayalım. Hatırlanacağı gibi testin standart sapması
eşitlik 8.15 aracılığıyla, 1,32 ve eşitlik 8.20 aracılığıyla da test sonuçlarına ait
KR20 güvenirliği ise 0,498 olarak bulunmuştu. Bulunan bu değerler eşitlik
8.23’de yerine konularak test sonuçlarına ait standart hata;
S H = 1,32 − (1 − 0,498) =0,6115
olarak elde edilir.
268 Eğitimde Ölçme ve Değerlendirme

Nihai Test Formunun Oluşturulması ve Nihai Testin


Psikometrik Özelliklerinin Kestirilmesi
Daha önce testle ölçülmek istenen özelliğe ilişkin hedef ve davranışları
yoklayan her bir davranışa birbirinin alternatifi olabilecek üç adet olmak
üzere sorular yazılması gerektiği belirtilmişti. Bu aşamada madde analizi
yapıldıktan sonra daha önce belirtilen standartları (madde ayırıcılık gücü,
güçlük indeksi vb.) karşılayan ya da en iyi karşılayan her bir davranışı yokla-
yan maddeler seçilerek nihai test formu oluşturulur. Böylece geçerli, güve-
nilir ve istenilen güçlüğe sahip sorular seçilerek oluşturulan formun nihai
test istatistikleri daha önce yukarıda belirtildiği gibi hesaplanır. Şimdi nihai
testin oluşturulması ve test istatistiklerinin kestirilmesine örnek teşkil etme-
si amacıyla, 10 davranışın ölçülmesine yönelik 30 maddelik (her bir davranı-
şa 3 soru yazılmıştır) bir denemelik test oluşturulduğunu ve madde istatis-
tiklerinin Tablo 8.9 da ki gibi olduğunu varsayalım ve nihai teste madde
seçim süreci ve test istatistiklerinin kestirilmesini açıklayalım.
Tablo. 8.9 Denemelik teste ait madde istatistikleri

MADDE MADDE
Davranış

Davranış

Güçlük Ayırıcılık Güçlük Ayırıcılık


No İndeksi Gücü İndeksi No İndeksi Gücü İndeksi
(pj) (rjx) (pj) (rjx)
1 0,80 0,25 11* 0,78 0,54
1 9* 0,47 0,45 6 16 0,87 0,28
17 0,75 0,28 25 0,92 0,21
3* 0,55 0,60 4 0,88 0,35
2 7 0,66 0,20 7 13 0,92 0,30
20 0,81 0,22 27* 0,35 0,60
5* 0,50 0,77 12 0,40 0,38
3 19 0,52 0,70 8 22 0,42 0,45
21 0,65 0,45 29* 0,44 0,66
2 0,70 0,27 6 0,88 0,26
4 14* 0,52 0,62 9 18* 0,67 0, 52
24 0,80 0,19 30 0,99 0,00
8 0,28 0,58 10* 0,57 0,54
5 15 0,25 0,48 10 23 0,70 0,18
26* 0,45 0,55 28 0,82 0,29
* Nihai teste seçilen maddeler
Ölçme Aracı Geliştirme 269

Nihai test oluşturulurken, Tablo 8.9’da verilen her bir davranışa ait so-
ruların madde istatistikleri incelenir. Madde seçme prosedürün de ilk göz
önüne alınması gereken indeks madde ayırıcılık gücüdür. Denemelik form-
da yer alan maddelerden her davranış için ayrıcılık gücü en az 0,30 ve üze-
rinde olan maddeler belirlenir. Bir davranış için ayırt edicilik gücü indeksi
uygun olan birden fazla madde olması durumunda; ayırt edicilik gücü en
yüksek olan seçilebilir. Madde Seçim sürecinde ikinci göz önüne alınması
gereken indeks madde güçlük indeksidir. Denemelik formda yer alan mad-
delerden her davranış için madde güçlük indeksi en az 0,20 ile 0,80 arasında
değişen maddeler belirlenerek , nihai testte yer alacak maddelerin, madde
güçlük indekslerinin ortalaması 0.50 olacak şekilde ve bütün yetenek düzey-
lerine hitap edecek biçimde geniş bir ranjda dağılım göstermesine özen
gösterilmelidir. Bu dağılım mümkün olduğunca normal olmalıdır. Testi
oluşturan soruların çoğu orta güçlükte olmalı1, güçlük düzeyi azaldıkça ve
çoğaldıkça soru sayısı da azaltılmalıdır. Çok kolay ve çok zor soruların teste
alınması önerilmemektedir. Ancak bu aşamada az sayıda kolay sorunun
teste alınması ve testin ilk soruları olarak kullanılması, öğrencilerin teste
yönelik moral ve motivasyonlarının yükseltilmesi açısından önemlidir.
Eğer bir davranışa yönelik, tüm maddelerin madde ayırt edicilik güçleri
oldukça veya yeterince yüksek ise; madde güçlük indeksi orta güçlükte veya
orta güçlüğe en yakın olan maddelerin teste seçilmesi önerilebilir. Çünkü bu
tür maddelerin madde varyansları daha yüksek olacağından bireyler arası
farkları daha iyi görecektir.
Yukarıda belirtilen kriterlere uygun bir şekilde madde seçim işlemi ya-
pıldıktan sonra, seçilmiş olan maddeler bir araya getirilerek nihai testin
psikometrik özellikleri (test istatistikleri) kestirilir. Bunun için öncelikle
Tablo 8.9 üzerinde belirtilen seçilmiş maddeler bir araya getirilir ve madde
seçimine kaynaklık eden iki önemli istatistiği (madde güçlük indeksi ve
madde ayırıcılık gücü indeksi) kullanmak suretiyle diğer madde istatistikleri
de (madde güvenirliği, madde varyansı ve standart sapması) eşitlik 8.7, 8.8,
8.9 aracılığıyla hesaplanarak aşağıdaki gibi bir Tablo oluşturulur.

1
Orta güçlükte olan maddelerin seçilmesinin sebebi, maksimum madde
varyanslarına bu tür maddelerin sahip olmasıdır. Madde varyanslarının maksimum
olması demek maddenin ölçülmek istenen özellik açısından bireyler arası farklılıkla-
rı daha iyi görmesi anlamına gelmektedir.
270 Eğitimde Ölçme ve Değerlendirme

Tablo 8.10. Nihai Teste Ait Madde İstatistikleri


MaddeNo MADDEİSTATİSTİKLERİ
Güçlük Ayırıcılık Gücü Madde Madde Stan- Madde Güve-
Dene- Nihai İndeksi İndeksi Varyansı dart Sapması nirlik Kat
2 sayısı (rj)
melik Test (pj) (rjx) (sj ) (sj )
Test
9 1 0,47 0,45 0,249 0,499 0,225
3 2 0,55 0,60 0,248 0,497 0,298
5 3 0,50 0,77 0,250 0,500 0,385
14 4 0,52 0,62 0,250 0,500 0,310
26 5 0,45 0,55 0,248 0,497 0,274
11 6 0,78 0,54 0,172 0,414 0,224
27 7 0,35 0,60 0,228 0,477 0,286
29 8 0,44 0,66 0,246 0,496 0,328
18 9 0,67 0,52 0,221 0,470 0,245
10 10 0,57 0,54 0,245 0,495 0,267
Toplam 5,30 5,85 2,36 4,85 2,84

Tablo 8.10 yardımıyla, madde istatistiklerinden ve 8.11, 8.14, 8.17, 8.19,


8.20 ya da 8.21 ve 8.23 no’lu eşitliklerden yararlanarak nihai test istatistikle-
ri aşağıdaki gibi kestirilebilir.
Test puanları ortalaması, eşitlik 8.11 aracılığıyla,
X = 0,47 + 0,55 + 0,50 + 0,52 + 0,45 + 0,78 + 0,35 + 0,44 + 0,67 + 0,57 = 5,30
olarak bulunur.
Testin puanları varyansı, eşitlik 8.14 aracılığıyla,
S X2 = (0,225 + 0,298 + 0,385 + 0,310 + 0,274 + 0,224 + 0,286 + 0,328 + 0,245 + 0,267 ) = (2,84 ) = 8,07
2 2

olarak ve Testin puanlarının standart sapması eşitlik 8.17 aracılığıyla;


S X = (0,225 + 0,298 + 0,385 + 0,310 + 0,274 + 0,224 + 0,286 + 0,328 + 0,245 + 0,267 ) = 2,84
olarak bulunur.
Testin ortalama güçlüğü, eşitlik 8.19 aracılığıyla,
0,47 + 0,55 + 0,50 + 0,52 + 0,45 + 0,78 + 0,35 + 0,44 + 0,67 + 0,57 5,30
P= = = 0,53
10 10
olarak bulunur. Bulunan bu sonuca göre nihai testin istenilen ve bir ba-
şarı testinde arzu edilen şekilde orta güçlük düzeyine sahip olduğu söylene-
bilir.
Ölçme Aracı Geliştirme 271

Testin güvenirlik kat sayısı (KR-20), eşitlik 8.20 veya 8.21 aracılığıyla;

10 ⎛ 2,36 ⎞
KR − 20 = .⎜1 − ⎟ = 0,786
10 − 1 ⎝ 8,07 ⎠
olarak bulunur. Bulunan bu güvenirlik kat sayısı, nihai testin maddele-
rinin birbirleriyle yüksek derecede ilişkili olduğunu ve buna dayalı olarak ta
testin yeterince güvenilir olduğunu göstermektedir. Bu kat sayı, nihai testin
ölçmeyi amaçladığı özelliği hatasız olarak ölçebileceğine ilişkin kanıt olarak
kullanılabilir.
Testin standart hatası, eşitlik 8.21 aracılığıyla,

S H = 2,84. (1 − 0,786 ) = 1,31


olarak bulunur. Bulunan bu sonuç test puanları birimi cinsinden ölçme
sonuçlarına karışan hata miktarını göstermektedir. Bulunan bu sonucun
normal dağılıma göre yorumlanması gerekir. Hata puanlarının normal da-
ğıldığı varsayımı altında, % 68 olasılıkla nihai testten elde edilen ölçme so-
nuçlarına ± 1,31 puanlık hata karışmıştır.

Özet

Eğitimle ilgili değişkenleri ölçmek ve tanımlamak için çeşitli ölçme araç,


yöntem ve tekniklerinden yararlanılır. Ölçme aracı hazırlama oldukça teknik
bir iş olup planlı ve sistematik çalışmayı gerektiren bir süreçtir. Sağlıklı bir
test geliştirmek için öncelikle (1) testin ve maddelerinin özelliklerinin ne ola-
cağına kaynaklık eden test puanlarının kullanım amacının belirlenmesi ge-
reklidir. İlgilenilen amaç doğrultusunda, yapılacak ölçme ve değerlendirme
türüne göre farklı ölçme araç ve gereçleri kullanılır. Buna dayalı olarak da
bu ölçme araçları farklı teknik özelliklere sahip olabilirler. Bu aşamadan
sonra, (2) Ölçülecek özelliğin tanımlanması, kapsamının belirlenmesi ve bu
kapsamı temsil eden belirtke tablosunun oluşturulması gereklidir. İyi bir
ölçme aracı ölçtüğü özelliğin kapsamına giren bütün öğeleri temsil etmelidir.
Hazırlanacak test ölçülecek özelliğin kapsamına giren tüm davranışları temsil
etmelidir. Kapsamı garanti altına alabilmek için ölçülecek olan özelliğin de-
taylı bir biçimde tanımlanması ve gözlenebilir kritik işaretçilerinin listelenme-
si gereklidir. Eğitimde, bunu sağlamanın en pratik yolu, bir boyutunda bir
derse ya da alana ait konu ve içerik, diğer boyutunda bu içeriğe bağlı öğren-
cilere kazandırılacak hedef ve davranışların yer aldığı iki boyutlu belirtke
tabloları hazırlamaktır. Belirtke tablosu oluşturulduktan sonra bu tabloda
belirtilen kritik davranışları temsil eden (3) Test maddeleri yazılır. Denemelik
272 Eğitimde Ölçme ve Değerlendirme

test oluşturulurken her bir davranışa birbirinin alternatifi olacak üç madde


(soru) yazılmalıdır. Hedef davranışları temsil eden maddeler oluşturulurken
çeşitli madde tiplerinden faydalanılabilir. Hangi madde tipinin kullanılacağı-
na karar verilirken, ölçülecek davranışın doğası göz önüne alınmalı ve en
açık ve anlaşılabilir olan ve şans başarısını ve tahmini mümkün olduğunca
elemine eden madde formu tercih edilmelidir. Denemelik test maddeleri
oluşturulduktan sonra, uygulama yapılmadan önce (4) denemelik maddeler
uzmanlar tarafından dil ve anlatım (ifade), bilimsel yönden doğruluk ve tek-
nik açılardan gözden geçirilir. Uzman denetiminden geçen maddeler daha
sonra (5) test formuna dönüştürülür. Bir test formunda öncelikle öğrencilerin
testi anlamaları ve algılamalarını kolaylaştıracak kısa ve öz test yönergesi yer
almalıdır. Bu aşamada ayrıca yazı karakteri, yazı büyüklüğü (kaç punto ol-
duğu), satır aralıkları, her bir soru arasında ne kadar boşluk bırakılacağı vb.
gibi biçimsel özelliklerin ve maddelerin test içerisindeki dağılımının da dü-
zenlenmesi gereklidir. Bu özellikler dikkate alınarak hazırlanan (6) deneme-
lik test formu, ilgili evren ya da örneklem üzerinde uygulanır ve her bir
maddeye verilen doğru cevaplar sayılarak puanlanır. Bu aşamadan sonra
oluşturulan ölçme aracının geçerlik ve güvenirliğine kanıt sağlamak üzere (7)
madde ve test istatistikleri hesaplanır. Deneme uygulamasından hemen son-
ra test geliştirici her bir test maddesinin madde seçimine kaynaklık eden iki
önemli standardı karşılayıp karşılamadığını kontrol etmelidir. Bunlar; (1) her
bir maddenin, testin ölçtüğü kabul edilen özelliği ne derece temsil ettiğinin
(ölçtüğü) derecesini veren, madde ayırıcılık gücü indeksi, (2) her bir madde-
nin zorluk derecesini ve uygun güçlük düzeyine sahip olup olmadığını göste-
ren, madde güçlük indeksidir. Bunların dışında madde hakkında detaylı bilgi
sağlayan madde varyansı ve güvenirliği de belirlenir. Tüm bu istatistikler
doğrultusunda maddenin güçlük derecesi, nihai teste alınıp alınmayacağı,
kaliteli olup olmadığı konusunda karara varılır. Madde istatistikleri belirlen-
dikten sonra, aritmetik ortalama, varyans, standart sapma gibi test puanlarını
betimleyen istatistikler ve uygulanan testin kullanılabilir bir test olup olmadı-
ğına ilişkin karara varmayı sağlayan KR 20-21 güvenirlik kat sayıları ve testin
standart hatası belirlenir. Tüm bu işlemler sonunda, yeterli güvenirliğe ve
geçerliğe sahip, ön koşul kriterleri sağlayan maddeler seçilerek nihai test
formu oluşturulur ve oluşturulan bu nihai test formunun özellikleri kestirilir.
Ölçme Aracı Geliştirme 273

Kaynakça
Aiken, L., R. (2000). Psychological testing and assesment (10th ed). Massachusetts:
Allyn and Bacon.
Atılgan, H., Kan, A., ve Doğan, N. (2007). Eğitimde ölçme ve değerlendirme (2. Bas-
kı). Ankara: Anı Yayıncılık.
Baykul, Y. (2000). Eğitimde ve psikolojide ölçme: klasik test teorisi ve uygulaması.
Ankara: ÖSYM Yayınları.
Baykul, Y., Gelbal, S. ve Kelecioğlu, H. (2001). Eğitimde ölçme ve değerlendirme.
Ankara: MEB Yayınları.
Cohen J., R. ve Swerdlik E., M. (2002). Psychological testing and assesment (5th.
Ed.). New York: McGraw-Hill Book Co.
Crocker, L. ve Algina, J. (1986). Introduction to classical and modern test theory. New
York: Holt, Rinehart and Winston Inc.
DeVellis, F. (2003). Scale development: Theory and applications (2nd. Ed.).
California: Sage Publications.
Erkuş, A. (2003). Psikometri üzerine yazılar. Ankara: Türk Psikologlar Derneği Ya-
yınları.
Guilford, J., P. (1954). Psychometric methods (2nd. Ed.). New York: McGraw-Hill
Book Co.
Kan, A. (2007). Test yansızlığı: H.Ü. Yabancı dil muafiyet sınavının cinsiyete ve
bölümlere göre DMF analizi. Eğitim Araştırmaları, 29, 45-58.
Kline, P. (1986). A handbook of test construction. New York: Methuen Co. Ltd.
Magnusson, D. (1967). Test theory. massachusetts: Addison-Wesley Pub. Co.
Murphy, R., K. ve Davidshofer, O., C. (2001). Psychological testing: principles and
applications. New Jersey: Printice-Hall Inc.
Nunnally, J., C., ve Bernstein, I., H. (1994). Psychometric theory. New York:
McGraw-Hill, Inc.
Özçelik, D., A. (1998). Ölçme ve değerlendirme. Ankara: ÖSYM Yayınları.
Thorndike, L., R. ve Hagen E. (1977). Measurement and evaluation in psychologhy
and education. New York: Chapman and Hall Ltd.
Turgut, M., F. (1995). Eğitimde ölçme ve değerlendirme Metotları (10. Baskı). Anka-
ra: Yargıcı Matbaası.
Walsh, W., B. ve Betz, N., E. ( ). Tests and assessment. New Jersey: Printice-Hall.
Inc.
274 Eğitimde Ölçme ve Değerlendirme

Sorular
1. Çoktan seçmeli bir soruyu 25 öğrenci doğru cevaplamış, 25 öğrenci yanlış cevap-
lamıştır. Bu sorunun güçlük düzeyi nedir?
A) 0,45 B) 0,50 C) 0,60 D) 0,65 E) 0,70

2. Çoktan seçmeli bir maddeye ait güçlük indeksi 0,30 olarak bulunmuştur. Bu mad-
de için aşağıdaki ifadelerden hangisi doğrudur?
A) Maddeyi sınıfın %30’u doğru cevaplamıştır.
B) Maddeyi sınıfın %70’i doğru cevaplamıştır
C) Sınıfın %30’u maddeyi şansla cevaplamıştır.
D) Sınıfın %30’u maddeyi yanlış cevaplamıştır.
E) Sınıfın %70’i maddeyi boş bırakmıştır.

AŞAĞIDA BEŞ SORUYA İLİŞKİN MADDE GÜÇLÜK İNDEKSLERİ VE AYIRICI-


LIK GÜCÜ İNDEKSLERİ VERİLMİŞTİR. 3, 4, 5 VE 6. SORULARI BU BİLGİLERİ
GÖZÖNÜNE ALARAK CEVAPLAYINIZ.

Soru pj rjx
1 0,85 0,19
2 0,50 -0,10
3 0,30 0,50
4 0,20 0,20
5 0,80 0,45

3. Yukarıda verilen maddelerden hangisi kolay ve ayırdedici bir maddedir?


A) 1 B) 2 C) 3 D) 4 E) 5

4. Yukarıdaki sorulardan hangisi testten kesinlikle çıkarılmalıdır?


A) 1 B) 2 C) 3 D) 4 E) 5

5. Başvuran sayısının çok, seçilecek birey sayısının az olması durumunda hazırlana-


cak olan testteki soruların çoğunun yukarıdaki sorulardan hangisine benzer nite-
likte olmalıdır?
A) 1 B) 2 C) 3 D) 4 E) 5
Ölçme Aracı Geliştirme 275

6. 4. madde için aşağıdakilerden hangisi söylenebilir?


A) Madde zor ve bilenle bilmeyeni ayırıcı bir maddedir.
B) Madde kolay ve bilenle bilmeyeni ayırıcı bir maddedir
C) Madde zor ve bilenle bilmeyeni ayırmayan bir maddedir
D) Madde kolay ve bilenle bilmeyeni ayırmayan bir maddedir
E) Madde orta güçlükte ve bilenle bilmeyeni ayırmayan bir maddedir

BİR BAŞARI TESTİ GELİŞTİRME AŞAMASINDA YER ALAN BAZI İŞLEMLER,


ÖNCELİK SIRASINA GÖRE AŞAĞIDA VERİLMİŞTİR.

1. Testin amacının belirlenmesi


2. Yoklanacak davranışların belirlenmesi
3. ................................................
4. Kullanılacak madde tipinin belirlenmesi
5. Test maddelerinin yazılması

7. Bu sıralamada 3 numaralı boşluğa aşağıdaki işlemlerden hangisi getirilmelidir?


A) Test yönergesinin yazılması
B) Maddelerin test düzenine sokulması
C) Belirtke tablosunun hazırlanması
D) Cevapları puanlama şeklinin belirlenmesi
E) Cevaplama süresinin belirlenmesi

8-9. SORULARI AŞAĞIDAKİ TABLOYU GÖZÖNÜNDE TUTARAK CEVAPLAYINIZ.

Gruplar A B C* D E Toplam

Üst grup 20 20 30 10 20 100


Alt grup 20 20 20 15 25 100
Toplam 40 40 50 25 45 200
* Doğru cevap

8. Bu maddenin ayırdedicilik gücü kaçtır?


A) 0,10 B) 0,20 C) 0,30 D) 0,40 E) 0,50
276 Eğitimde Ölçme ve Değerlendirme

9. Bu maddenin güçlük indeksi kaçtır?


A) 0,20 B) 0,25 C) 0,30 D) 0,40 E) 0,50

50 MADDELİK BİR TESTE AİT MADDE GÜÇLÜK İNDEKSLERİ TOPLAMI 30


OLARAK BULUNMUŞTUR. BU BİLGİLERDEN YARARLANARAK 10 VE 11.
SORULARI YANITLAYINIZ.

10. Bu testin aritmetik ortalaması kaçtır?


A) 20 B) 30 C) 40 D) 50 E) 60

11. Bu testin ortalama güçlüğü kaçtır?


A) 0,30 B) 0,40 C) 0,50 D) 0,60 E) 0,70

12. Madde varyansları toplamı 2,20, test varyansı 9,40 olan 10 maddelik bir testin
güvenirliği kaçtır?
A) 0,70 B) 0,75 C) 0,80 D) 0,85 E) 0,90

Cevap Anahtarı
1 2 3 4 5 6 7 8 9 10 11 12
B A E B C C C A D B D D

Doç. Dr. Adnan KAN

Lisans, Yüksek Lisans ve Doktora Eğitimini Hacettepe Üniversitesi Eği-


timde Ölçme ve Değerlendirme anabilim dalında tamamladı. MEB’de öğret-
menlik, Dershane ve Özel okullarda Ölçme ve Değerlendirme Uzmanlığı ve
Ölçme ve Değerlendirme servisi Yöneticiliği yapmıştır. 2002-2007 yılları ara-
sında Mersin Üniversitesi, Eğitim Fakültesi, Ölçme ve Değerlendirme anabilim
dalında araştırma görevlisi ve öğretim Üyesi olarak çalıştı. Halen Gazi Üniver-
sitesi, Gazi Eğitim Fakültesi, Eğitim Bilimleri Bölümü, Psikolojik Danışma ve
Rehberlik Anabilim dalında öğretim üyesi olarak görev yapmaktadır.
EK

A- Standart Normal Dağılım Tablosu

z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09


0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
278 Eğitimde Ölçme ve Değerlendirme

(Ek-A’nın Devamı)

z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09


-3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
-3 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
-2 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
-1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
-1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
-1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
-1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
-1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
-1 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
-0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
-0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
-0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
-0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
-0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
-0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
-0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
-0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641

You might also like