Professional Documents
Culture Documents
Devrim ALICI
Gülşah BAŞOL
EĞİTİMDE
Mehtap ÇAKAN
Adnan KAN
ÖLÇME VE
Erol KARACA
Editör: Satılmış
Özlem Yeşim TEKİNDAL
ÖZBEK
DEĞERLENDİRME
Metin YAŞAR
3. Baskı
Editör: Prof. Dr. Satılmış Tekindal
ISBN 978-605-5885-16-8
iii
İkinci Baskının Önsözü
Son yıllarda eğitim bilimlerinde ortaya çıkan yönelimler, örneğin çoklu ze-
kâ, yaratıcılık, yapılandırmacılık vb. ölçme ve değerlendirme alanında da yeni
anlayışları getirmiştir. Geleneksel ölçme araçları olan testlerin yanı sıra
portfolyo, anekdot, akran değerlendirme vb. araçların kullanılması; değerlen-
dirmeye öğrencilerin dahil edilmesi (not vermek için değil), ona velilerin katıl-
ması ve değerlendirmenin sosyal çevreden bağımsız olmaması önerilmektedir.
Eldeki kitap, alanındaki bu gelişmelere paralel olarak yazılmış ve birinci baskısı
bittiği için bazı bölümleri revize edilerek ikinci baskının yapılmasına ihtiyaç
doğmuştur.
Bu eserin öğrencilere, öğretim elemanlarına, öğretmenlere, alanda çalışan
bilim insanlarına ve diğer ilgililere faydalı olacağı düşünülmektedir.
Kocaeli -2010
Editör
Prof. Dr. Satılmış TEKİNDAL
iv
Bölümler ve Yazarları
v
İÇİNDEKİLER
Önsöz...................................................................................................................... iii
Bölümler ve Yazarları ............................................................................................... v
İçindekiler................................................................................................................ vi
1. Bölüm
ÖLÇME VE DEĞERLENDİRMENİN ÖNEMİ
(ss: 1/8)
Giriş ......................................................................................................................... 2
Eğitimde Ölçme ve Değerlendirmenin Önemi .......................................................... 2
Özet ......................................................................................................................... 7
Kaynakça ................................................................................................................. 7
Sorular ..................................................................................................................... 8
2. Bölüm
ÖLÇME VE DEĞERLENDİRME İLE İLGİLİ TEMEL KAVRAMLAR
(ss: 9/41)
Giriş ....................................................................................................................... 10
Ölçme .................................................................................................................... 12
Değişken ................................................................................................................ 14
Sürekli ve Süreksiz Değişken ............................................................................. 15
Nicel ve Nitel Değişkenler.................................................................................. 15
Bağımsız ve Bağımlı Değişkenler ....................................................................... 16
Ölçme Türleri ......................................................................................................... 18
Ölçme İşlemine Ait Sonuçların Gösterilmesi ...................................................... 20
Ölçmede Birim .................................................................................................. 20
Ölçmede Kullanılan Ölçekler .................................................................................. 22
Ölçmede Sıfır ..................................................................................................... 23
Ölçmede Ölçekler.............................................................................................. 24
Değerlendirme ....................................................................................................... 29
Değerlendirme Türleri ............................................................................................ 32
Özet ....................................................................................................................... 36
Kaynakça ............................................................................................................... 38
Sorular ................................................................................................................... 39
vi
3. Bölüm
ÖLÇME ARAÇLARINDA BULUNMASI İSTENEN NİTELİKLER
(ss: 43/89)
Giriş ....................................................................................................................... 44
Güvenirlik .............................................................................................................. 44
Ölçme Hataları ....................................................................................................... 46
Güvenirlik İndeksi ve Ölçmenin Standart Hatası .................................................... 46
Gerçek Puan Teorisi............................................................................................... 47
Güvenirliği Hesaplamak için Yöntemler ................................................................. 53
Güvenirliği Etkileyen Faktörler ............................................................................... 62
Geçerlik ................................................................................................................. 66
Geçerliği Etkileyen Faktörler................................................................................... 81
Kullanışlılık ............................................................................................................. 82
Özet ....................................................................................................................... 84
Kaynakça ............................................................................................................... 85
Sorular ................................................................................................................... 87
4. Bölüm
EĞİTİM SİSTEMİMİZDE YAYGIN OLARAK KULLANILAN
TEST TÜRLERİ
(ss: 91/126)
Giriş ....................................................................................................................... 92
Çoktan Seçmeli Maddeler ...................................................................................... 94
Doğru / Yanlış Maddeleri...................................................................................... 106
Eşleştirme Maddeleri ............................................................................................ 109
Kısa Cevaplı Maddeler ......................................................................................... 110
Yazılı Yoklamalar ................................................................................................. 114
Sözlü Sınavlar ...................................................................................................... 120
Ödevler ................................................................................................................ 121
Özet ..................................................................................................................... 123
Kaynakça ............................................................................................................. 125
Sorular ................................................................................................................. 125
vii
5. Bölüm
ÖĞRENCİ PERFORMANSININ DEĞERLENDİRİLMESİNDE
KULLANILAN DİĞER ÖLÇME ARAÇ VE YÖNTEMLERİ
(ss: 127/168)
6. Bölüm
ÖLÇME SONUÇLARI ÜZERİNDE YAPILABİLECEK
İSTATİSTİKSEL İŞLEMLER
(ss: 169/215)
viii
7. Bölüm
ÖĞRENME ÇIKTILARINI DEĞERLENDİRME VE NOT VERME
(ss: 217/238)
8. Bölüm
ÖLÇME ARACI GELİŞTİRME
(ss: 239/276)
Giriş ..................................................................................................................... 240
Test Geliştirme ..................................................................................................... 240
Testin Amacının Belirlenmesi.......................................................................... 240
Ölçülecek Özelliğin Tanımlanması, Kapsamının Belirlenmesi ve Belirtke
Tablosunun Oluşturulması .............................................................................. 241
Test Maddelerinin Oluşturulması..................................................................... 242
Denemelik Maddelerin Gözden Geçirilmesi (Qualitative İtem Analysis) .......... 242
Denemelik Test Formunun Hazırlanması ........................................................ 245
Denemelik Test Formunun Uygulanması ve Puanlanması .............................. 247
Madde Analizi (Quantitative İtem Analysis)..................................................... 249
Madde Güçlük İndeksi .................................................................................... 249
Madde Ayırıcılık Gücü İndeksi ........................................................................ 251
Madde Analiz Yönteminin Seçilmesi ............................................................... 256
Çeldirici Seçenek Analizi................................................................................. 258
Diğer Madde İstatistikleri................................................................................. 259
Madde Varyansı ve Standart Sapması ............................................................ 259
Madde Güvenirlik Kat Sayısı........................................................................... 260
Test İstatistiklerinin Belirlenmesi ..................................................................... 263
Testin Aritmetik Ortalaması............................................................................. 263
Test Varyansı ve Standart Sapması................................................................. 264
Testin Ortalama Güçlüğü................................................................................ 265
Testin Güvenirliği............................................................................................ 266
ix
Testin Standart Hatası .................................................................................... 267
Nihai Test Formunun Oluşturulması ve Nihai Testin Psikometrik
Özelliklerinin Kestirilmesi ................................................................................ 268
Özet ..................................................................................................................... 271
Kaynakça ............................................................................................................. 273
Sorular ................................................................................................................. 274
x
1. Bölüm
ÖLÇME VE
DEĞERLENDİRMENİN ÖNEMİ
Metin YAŞAR
Pamukkale Üniversitesi
Kazanımlar
Konu Başlıkları
Giriş
Eğitimde Ölçme ve Değerlendirmenin Önemi
Özet
Kaynakça
Sorular
2 Eğitimde Ölçme ve Değerlendirme
Giriş
Bugün, milli eğitim sistemi içinde yer alan eğitim kurumları (okullar) ve
eğitim kurumlarında görev yapmakta olan eğitimciler sistem içinde birçok
alanda karar vermek zorunda kalmaktadırlar. Bu kararlar davranış
değişikliğine maruz kalan öğrencilerin akademik başarıları (öğrencilerin
güçlü veya eksik yanları) ile ilgili olabilir veya onların ihtiyaç duydukları
rehberlik hizmetleri hakkında, öğrencilerle ilgili olarak velileri
bilgilendirmek, uygulanmakta olan öğretim programlarının uygulama
aşamalarında karşılaşılan problemlerin tespit edilmesi ve çözümü için karar
vermek durumundadırlar. Bu durumlara ilişkin verecekleri kararların
doğruluğu eldeki ölçme sonuçlarının doğruluğuna ve kıyas için seçilen
ölçütün uygunluğuna bağlıdır. Ölçme sonuçları ne kadar güvenilir ve geçerli
ise verilecek kararlar da o denli doğru ve geçerli olacaktır. Tutarlı ve geçerli
kararlar verebilmek için ölçme sonuçları önemli görünmekle beraber asıl
olan ölçme sonuçlarının elde edildiği ölçme araçlarının güvenilir, geçerli ve
kullanışlılık özelliklerine sahip olmasıyla ilişkilendirilmektedir.
Hakkında değerlendirme yapılacak özelliklerin var olan büyüklüklerine
ait miktarları belirleyebilmek için onların ortaya çıkarılmasında kullanılacak
ölçme araçlarının oluşturulması, uygulanması ve uygulamadan elde edilecek
sonuçların yorumlanması ölçme ve değerlendirme alanına ait uzmanlık ve
becerileriyle çok yakından ilişkilidir.
Eğitim sisteminin sağlıklı işleyişi için çok önem arz eden değerlendirme
öğesi bir karar verme, yargıda bulunma bir hükümde bulunma sürecidir.
Turgut (1977) değerlendirmeyi, ölçme sonuçları ile bir ölçütü kıyaslayarak
bir karara varma işlemi olarak tanımlamaktadır. Turgut’un değerlendirmeye
ilişkin tanımlamasına bakıldığında, değerlendirme sürecinin üç öğeden
oluştuğu görülmektedir. Bunlar sırasıyla ölçme (dolayısıyla ölçme
işleminden elde edilen ölçme sonuçları), ölçüt ve karar olduğu
görülmektedir. Ölçme, değerlendirmenin ön koşuludur. Ölçme işlemi,
dolayısıyla ölçme işleminden elde edilen ölçme sonuçları olmadan
değerlendirme olmaz.
Turgut (1977) ölçmeyi, bir niteliğin gözlenip gözlem sonuçlarının
sayılarla veya başka sembollerle gösterilmesidir. Ölçme, bir nesnenin, bir
bireyin belli bir niteliğe veya özelliğe ne derece sahip olduğunun
belirlenmesi amacına dayalı olarak yapılmaktadır (Kan, 2006). Ölçme
tanımı içinde geçen özellik kavramı bireyde bulunmasını istediğimiz ve
öğretim programı çerçevesinde oluşturmayı düşündüğümüz bilişsel,
duyuşsal ve devinişsel alanlarına özgü nitelikler olarak düşünülmektedir.
Ölçülen değişkenlerin objelerin kendileri değil, bireylerde var olduğu kabul
edilen özelliklerin belirlenmesi işlemi olarak kabul edilmektedir. Bireylerin
sahip oldukları bu özellikler durumdan duruma, zamandan zamana veya
bireyden bireye farklılıklar gösterebilir. Ölçmenin, bu özelliklerin bireylerde
var olan büyüklüklerine ilişkin miktarları arasındaki farklılıkları belirlemek
amacıyla ortaya çıktığını söylemek her halde yanlış olmasa gerek. Yani
ölçme farka dayalı olarak ortaya çıkmıştır denilebilir.
Eğitimde ölçmenin önemi bir bilim olma uğraşısının yanı sıra pratikte
verilecek olan kararlara bir dayanak sağlaması noktasında kendini
göstermektedir. Bu dayanak noktasının güçlü, tutarlı ve geçerli olabilmesi
onun bilim olma çabalarının yanı sıra bu alanda gün geçtikçe güçlü ölçme
araçlarının ve metotlarının geliştirilerek uygulamaya konma çabaları
bakımından da önem kazanmaktadır. Geliştirilen her güçlü ölçme aracı ve
metodunun uygulanmasıyla elde edilecek ölçme sonuçlarının güvenirlik ve
geçerlik düzeyinin yüksek olması, ölçmeye konu olan nitelik hakkında daha
doğru ve geçerli değerlendirmeler yapılmasına olanak sağlayacaktır.
Daha önce de ifade edildiği gibi bir sistem olarak dikkate alındığında
eğitim sistemi içinde yer alan ve her hangi bir durumda karar verme
noktasında bulunan kişilerin verecekleri muhtemel kararlar şöyle olabilir:
• Seçme ve yerleştirme ile ilgili kararlar
• Öğretim ile ilgili kararlar
Ölçme ve Değerlendirmenin Önemi 5
Özet
Kaynakça
Sorular
Kazanımlar
Bu bölümün sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir.
Açık sistem olarak eğitim sisteminin öğelerinin işlevlerini açıklayabilme
Eğitimde ölçme ve değerlendirme kavramının anlamını açıklayabilme
Öğretimde ölçme ve değerlendirmenin rolünü ifade edebilme
Ölçme türlerini sınıflandırabilme
Değerlendirme türlerini sınıflandırabilme
Değerlendirme türlerinin işlevlerini açıklayabilme
Ölçmede değişken kavramının anlamını örneklerle açıklayabilme
Değişkenleri özelliklerine göre sınıflandırabilme
Ölçme sürecini açıklayabilme
Ölçmede sıfır kavramının anlamını kavrayabilme
Ölçmede kullanılan ölçeklerin sınıflandırılmalarına ilişkin özellikleri
kavrayabilme
Öğretimde değerlendirmenin gerekliliğini anlayabilme
Değerlendirme türlerini örneklendirerek açıklayabilme
Konu Başlıkları
Giriş
Ölçme
Değişken
Değerlendirme
Değerlendirme Türleri
Özet
Kaynakça
Sorular
10 Eğitimde Ölçme ve Değerlendirme
Giriş
Ertürk (1993), İnsanı, biyo-kültürel ve sosyal bir varlık olarak tanımla-
maktadır. Ertürk’ün insan tanımına bakıldığında, insan denilen varlığa ait
üç özelliği vurguladığı görülmektedir. Birinci özelliği onun biyolojik boyu-
tunu, ikinci özelliğine bakıldığında ise onun kültürel boyutunu ve son olarak
üçüncü özelliği ise onun sosyal boyutunu oluşturmaktadır. Ancak Ertürk’ün
insana ilişkin vurguladığı bu üç özellik dikkate alındığında, dünyaya ilk gel-
diği haliyle kendi kendine yeterli olabilmesi ve yaşantısını idame ettirmesi
pek olası görünmemektedir. Tekin’in de (1993) söylediği gibi, dünyaya gö-
zünü açan insan yavrusunun, yaşamını sürdürebilmesi ve yaşamın gerekleri-
ni yerine getirebilmesi açısından, göreli de olsa, kendi kendine yeterli hale
gelebilmesi uzun zaman alır.
İnsanın kendi kendine yeterli hale gelebilmesi için bir sürece ihtiyaç
duyulduğu gerçeği ile karşı karşıyayız. Bireylerin gelişim dönemlerinin özel-
likleri de dikkate alınarak, insanın bilişsel, devinimsel ve duyuşsal özellikle-
rin geliştirilmesi gerekmektedir. Buradan çıkarılması gereken anlam, birey-
lerde istendik yönde davranış oluşturma veya davranış değişikliği meydana
getirmenin kaçınılmazlığıyla karşı karşıya kalmaktayız. Bireylerde davranış
değişikliğinin informal veya formal anlamda oluşturulması olanaklıdır.
İnformal anlamda davranış oluşturma, herhangi bir plana programa dayan-
mayan öğrenmeleri ifade eder. Bu tür davranış değişikliği (öğrenme) en
yakın çevre olan aile veya bireyin etkileşim içinde olduğu sosyal çevreyle
oluşturduğu yaşantılara dayalı olarak gerçekleşebilir. Formal anlamda dav-
ranış oluşturma ise eğitim sistemi içinde yer alan eğitim kurumları tarafın-
dan yani okullar tarafından gerçekleştirilmektedir. Kurumlarda veya okul-
larda belli bir plan ve program (eğitim programı) çerçevesinde gerçekleşti-
rilmeye çalışılan davranış değişikliğini veya davranış oluşturma çabası
formal anlamda davranış oluşturma olarak nitelendirilebilir.
İster informal anlamda olsun ister formal anlamda olsun davranış oluş-
turma veya istenmeyen davranışların ortadan kaldırılması veya davranış
değişikliği meydana getirme süreci, eğitim kavramıyla karşılanmaktadır.
Eğitim, bireyin davranışlarında kendi yaşantısı yoluyla kasıtlı olarak istendik
değişme oluşturma süreci olarak tanımlanmaktadır (Özçelik, 1981; Ertürk,
1993; Tekin, 1993; Demirel, 2005; Demirel ve Kaya, 2007).
Sönmez (2003) ise eğitimi; fiziksel uyarımlar sonucu, beyinde istendik
biyo-kimyasal değişiklikler oluşturma süreci olarak tanımlamaktadır. Yukarı-
da verilen tanımlara bakıldığında iki kritik kavramla karşılaşılmaktadır.
Bunlardan birincisi istendiklik diğeri ise süreç kavramlarıdır. İstendikliğin
ölçüsü nedir? Hangi özelliklerin istendik olduğu nasıl ve neye göre belirle-
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 11
➣ Öğrenci sayısı, yaşı, cinsiyeti Eğitim Programlarında ➣ Öğrenci sayısı, yaşı, cinsiyeti
➣ Öğrencinin hazır bulunuşluk kazandırılması öngörülen ➣ Öğrencilerin bilişsel,
düzeyi özelliklerin kazandırılması için devinişsel ve duyuşsal olarak
gerekli olan her türlü zihinsel ve ulaşabildikleri erişi
➣ Yatırım
devinimsel etkinlikler, zaman
➣ Araç-gereç ve Donanım ➣ Okulda üretilen mal ve
hizmet karşılığında elde
➣ Sisteme dahil olan yeni bilgi
edilen kazanç
vb.
➣ Kazanılan kurumsal
anlamda deneyim
Ölçme
Yukarıda yer alan örneklerin her birinde belirli bir nitelik gözlenmiştir.
Sınıftaki öğrenci sayısı, Türkiye’deki 2007 yılına ait ortalama sıcaklık,
Sevilay’ın 2006 ÜDS’den aldığı puan, Ümit Yaşar’ın matematik dersindeki
başarısı, Tilbe Yaşar’ın ilköğretim okulundan pekiyi derecesi ile mezun
olması, beden eğitimi dersinde öğretmenin öğrencilerini cinsiyetlerini dik-
katte alarak kız ve erkek öğrencilere farklı hareketler yaptırması ve Batu-
han Obaoğlu’nun sınıfında 12 erkek ve 14 kız öğrencinin bulunması gibi
özelliklere bakıldığına birbirinden farklı özellikleri ifade etmekte oldukları
görülmektedir.
Yukarıdaki örneklere bakıldığında geniş anlamda birer ölçme belirtil-
mektedirler. Bunlar herhangi bir değişkenin belirli bir niteliğini ifade et-
mektedirler. Ölçme sonuçları sayı veya başka bir sembol ile gösterilmiştir. O
halde ölçme çok geniş anlamda niteliklerin nicelendirilmesi veya semboller-
le gösterilme işlemi olarak ifade edilebilir. Bu açıklamadan hareket edilerek
şu sonuca ulaşılabilir; ölçme bireylerin, nesnelerin veya olayların kendisini
değil onlara ait olduğu düşünülen niteliklerin saptanmasını kendine konu
edinmektedir.
Gerçekte ölçülen şey bireylerin kendileri değil onlara ait olan veya on-
larda bulunduğu düşünülen bir takım özelliklerin var olma derecesi veya
miktarıdır. Kısacası ölçmede değişkenlerin belirli bir niteliğinin saptanma-
sına çalışılmaktadır. Bu durumda değişken kavramının açıklanması yerinde
olacaktır.
Değişken
Değişken, durumdan duruma, gözlemden gözleme farklı değerler alabi-
len özelliklere denir. Bunun da ötesinde değişken, en az iki sonucu olan
veya değişebilme özelliğine sahip olan her şey olarak ifade edilebilir.
Değişkenlere ilişkin yapılan sınıflamalara bakıldığında;
➣ Sürekli ve süreksiz değişken,
➣ Nicel ve nitel değişken,
➣ Bağımlı ve bağımsız değişken olarak sınıflandırılmaktadır. Burada-
ki sınıflandırılması yapılan değişkenlere ilişkin küçük açıklamaların
yapılmasında yarar olacağı düşünülmektedir.
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 15
rin çalışılmasına imkân sağlar. Değişkenlerin nitel veya nicel olmaları, onla-
rın aldıkları değerlere uygulanabilen işlemlere yani sayı ve sıfatlara uygula-
nabilen işlemlerle ilgilidir. Bu sayı ve sıfatlara ölçme sonuçları denildiğine
göre, değişkenin nicel veya nitel olması onun değerlerine uygulanabilen
işlemlere daha iyi bir değişle ölçme sonuçlarının ölçek değerleri ile ilgilidir (
Turgut ve Baykul, 1992; Baykul, 1996, s. 14).
ÖLÇME SÜRECİ
Ölçme Türleri
Ölçme kavramı, daha önce bir niteliği gözlemek ve gözlem sonuçlarının
sayı veya sembollerle ifade edilmesi olarak tanımlanmıştı. Ölçme türü ise,
ölçülen veya ölçülmesi düşünülen özelliğe ait bir niteliğin ortaya çıkarılma
(gözlenme) şekline ve izlenen yönteme (ne şekilde yapıldığına) bağlı olarak
sınıflandırılmaktadır. Kan tarafından yapılan sınıflandırmada, üç türlü öl-
çeme olduğu belirtilmektedir. Bu ölçme türleri sırasıyla (1) doğrudan ölçme
(2) dolaylı ölçme ve (3) türetilmiş ölçme olarak ifade edilmektedir. Buna
karşılık (Turgut,1984;Tekin,1993, Bahar ve diğerleri, 2006) ise ölçme türü-
nü, (1) doğrudan ölçme ve (2) dolaylı ölçme olarak sınıflandırmaktadırlar.
Onlara göre ancak dolaylı ölçme de kendi içinde,(a) göstergeyle ölçme (b)
türetilmiş ölçme olarak ikili sınıflandırmaya tabi tutulmuştur.
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 19
Ölçme Türleri
Ölçmede Birim
Ölçme işlemi, ölçme yapan kişiye, ölçmeye konu olan değişkenin ilgile-
nilen niteliğinin var olma derecesini veya miktarının ne olduğu hakkında,
tutarlı ve mümkün olduğunca geçerli bilgi sağlama çabasıdır. Ancak ölçme
işleminden elde edilen sonuçların daha fazla anlamlı hale getirilebilmesi
için, onların, anlaşılır bir birimle ifade edilmesi gerekmektedir. Örnek ver-
mek gerekirse, 6 Fen A şubesindeki Ümit Yaşar, matematik dersinde çok
başarılıdır. Burada öğrencinin matematik dersinde çok başarılı olduğu ifade
edilmekle beraber çok başarılı kavramına ilişkin insanların algıları birbirin-
den farklı olabilir. Her bireyin kendine özgü bir başarı anlayışı olduğundan
başarı kavramına ilişkin anlamlandırmalar da farklılaşacaktır. Yukarıdaki
öğrenciye ait örnek “6 Fen A şubesindeki Ümit Yaşar matematik dersinde
100 alarak sınıfında birinci olmuştur” şeklinde verilse idi buradan çıkarıla-
cak anlam hemen hemen herkes tarafından aynı olacaktır.
Yukarıdaki örneklerden de anlaşılacağı üzere herhangi bir değişkene
ait ölçme sonuçlarının ifade edilmesinde bir birimin kullanılması gerekliliği
ortaya çıkmaktadır. Çünkü ölçme sonuçlarının ifade edilmesi, ölçme sonuç-
larına ait anlamın anlaşılırlığını etkileme özelliğine sahiptir.
Ölçmede belirli bir birimin kullanılması ölçme işleminin objektifliğini
sağlamaya olanak vermektedir. Objektif olarak gerçekleştirilebilen ölçme
işleminden elde edilen ölçme sonuçlarının güvenirliği ve geçerliliği daha
yüksek olacağından, ölçme sonuçlarına karışabilecek hata düzeyinin az ol-
duğunu kabul edilmektedir. Bunun da ötesinde ölçmelerde birimlerin kul-
lanılması, ölçmede standart sağlanmasına katkı sağlamaktadır. Bu da ölç-
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 21
maktadır. Klasik test teorisine göre ölçme araçları, ölçülecek olan özelliğin
büyüklüğündeki değişmelere duyarlı olduğundan, bireyden bireye, örnek-
lemden örnekleme, durumdan duruma ölçülecek özellikteki değişimlerin
gözlenip, ölçülmesine imkân vermektedir.
Ölçme araçları sadece ölçme işleminin gerçekleştirilip ölçülen özellik-
lere karşılık gelen değerleri vermenin dışında, ölçeklerin birimlendirilerek
tanımlanmasında da işe yaramaktadır. Bir sınıfta yer alan yazı tahtasının
yüksekliğini ölçmek için belli bir uzunluğa sahip olan dal parçası kullanılabi-
lir. Bu dal parçası kullanılarak tahtanın yüksekliği ölçülebilir. Ancak tahta
yüksekliğine karşılık gelen büyüklük sayısal bir değer olarak belirlenemez.
Tahta yüksekliğinin sayısal bir değer olarak gösterilmesi için kullanılacak
ölçme aracının bir başlangıç noktasının bulunması gerekmektedir. Araçta
başlangıç noktasıyla birlikte; araç kendi içinde daha küçük ve eşit büyüklük-
te aralıklar şeklinde bölmelendirilerek ki bunlar belli kurallara göre yapılır,
araç ölçeklendirilmiş olur. Ölçme aracının küçük ve eşit büyüklükte aralık-
lar şeklinde bölmelere ayrılmasının gerekçesi, ölçülecek olan özelliğin karşı-
lığı olan değerlerin daha duyarlı bir şekilde elde edilmesine katkı sağlayacak
olmasıdır. Ölçekleri önemli kılan özellik olarak belki de bir başlangıç (sıfır)
noktasına sahip olmasıdır. Ölçmede veya ölçeklerde başlangıç noktasının
önemli bir özellik olduğu bilinmektedir. O halde ölçmede başlangıç noktası
veya sıfır önemli bir yere sahiptir. Öyle ise sıfır kavramının açıklanmasında
fayda vardır.
Ölçmede Sıfır
Ölçmeye konu olan bir özelliğin veya ölçmede kullanılan birimlerin
başlangıç noktası olarak sıfır alınır. Ölçme açısından bakıldığında sıfırın
önemli bir kavram olduğu görülmektedir. Ölçmede, kullanılan bir sıfır nok-
tası varsa, bu sıfırın ölçülen özelliğin sıfır değerine karşılık gelmesi gerek-
mektedir. Eğer ölçmede elde edilen sayı ve sembollerin sıfır değeri ölçülen
özelliğin sıfır değerine karşılık gelmiyorsa elde edilen ölçme sonuçlarıyla
oranlama yapılamaz. Matematiksel bağlamda oranlama mümkün olarak
görünse de sonuçların anlamsız olacağı kuşku götürmez bir gerçektir. Ölç-
mede iki farklı anlam içeren sıfır bulunmaktadır. Bunlardan birincisi Doğal
sıfır diğeri ise Tanımlanmış sıfırdır.
Doğal Sıfır: Ölçmede ölçülecek olan özelliğin sıfır değerinin belirlene-
bilmesi ve bu sıfır değerinin sıfır sayısı ile gösterilmesi çok istenen bir özel-
liktir (Turgut,1984,s.14). Bazı değişkenlerin doğal sıfırı bulunmaktadır. Do-
ğal sıfır ölçmeye konu olan bir değişkenin (ilgilenilen niteliğin miktar ola-
rak) gerçek anlamda yokluğunu ifade eden sıfırdır (Tan,2006, s.218). Bir
sınıfta yer alan öğrenciler arasında herhangi bir futbol takımında oynayan
24 Eğitimde Ölçme ve Değerlendirme
Ölçmede Ölçekler
Ölçme işleminde, daha önce de açıklanmaya çalışıldığı gibi ölçme, bi-
reylerin, olayların veya nesnelerin kendilerini değil onlara ait olduğu düşü-
nülen özelliklere karşılık gelen büyüklüklere ait değerlerin saptanması ve
saptanan bu büyüklüklere ait değerler kullanılarak söz konusu özelliklerin
açıklanmasına çalışılmaktadır. Ölçme sonucunda elde edilen sayıların (ölç-
me sonuçları) matematiksel özellikleri ölçek niteliklerini ifade eder; bu
bağlamda, ölçek, ölçme sonuçlarının matematiksel özellikleri şeklinde ifade
edilebilir (Turgut ve Baykul, 1992; Baykul, 2000; Kan, 2006).
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 25
Eşit Oranlı Var ve Mut- Var ve Eşit Var Var Var Var
Ölçekler laktır
Değerlendirme
Değerlendirmenin
Öğeleri
Ölçme
Sonuçları Ölçüt
Değerlendirme Türleri
Değerlendirme
Türleri
Özet
mak için başka bir değişken yardımıyla gözleme tabi tutmak mümkündür.
Bu tip ölçmeye de dolaylı ölçme denir. Özellikle dolaylı ölçme söz konusu
olduğunda bir ölçme aracının kullanılması kaçınılmaz olmaktadır. Ölçme
aracında bulunulması istenilen özelliklere bakıldığında (1) birimlerin genel-
lik, (2) birimlerin eşitlik ve (3) birimlerin kullanışlılık özelliklerine sahip olma-
sı arzu edilmektedir. Yine bununla beraber ölçmede sıfır kavramı önemli bir
yer tutmaktadır. Ölçmede sıfır, belirli bir özelliğe ait olduğu düşünülen değe-
re ait başlangıç noktası olarak kabul edilmektedir. Ölçmede iki türlü sıfır
kullanılmaktadır. Birincisi doğal (mutlak) sıfır diğeri ise göreceli sıfırdır.
Ölçmede kullanılan ölçeklere bakıldığında dört ölçek türü olduğu gö-
rülmektedir. Bunlar sırasıyla adlandırma-sınıflama ölçeği, sıralama ölçeği,
eşit aralıklı ölçekler ve eşit oranlı ölçeklerdir. Yukarıdaki sıralanış dikkate
alındığında en basit özellikteki ölçekten başlayarak en fazla anlamlı bilginin
elde edilebileceği ölçeğe doğru yapılmıştır. Buna göre en az bilgi sınıflama
ölçeğinden en fazla anlamlı bilgi ise eşit oranlı ölçekten elde edilebilmekte-
dir.
Ölçme işlemi belirli amaçlar doğrultusunda yapılmaktadır. Bunları, öğ-
rencinin hazır bulunuşluk düzeyinin saptanması, öğrenci motivasyonunu
sağlamak, uygulanmakta olan eğitim programının etkililiğini saptamak, öğ-
retmenin kendini değerlendirmesi v.b. amaçlar doğrultusunda yapılmaktadır.
Ölçme sonuçları, uygun bir ölçütle karşılaştırılarak yukarıda sıralanan özellik-
ler hakkında kararlar verilmesine olanak sağlamaktadır. Yani ölçme sonuçla-
rına bağlı olarak bir takım değerlendirmeler yapılmaktadır. Değerlendirme,
bir ölçme işleminden elde elden ölçme sonuçlarının uygun bir ölçütle karşı-
laştırarak birey ya da nesnelerin ölçülen özellikleri hakkında bir karar verme
süreci olarak tanımlanabilir. Değerlendirme türlerine bakıldığında, amaca
yönelik değerlendirme ve ölçüte dayalı yapılan değerlendirme olarak iki
türlüdür.
Ölçüte dayalı değerlendirme de kendi içinde ikiye ayrılmaktadır. (1)
Bağıl değerlendirme ve (2) mutlak değerlendirme. Bireyin veya grubun
özellikleri dikkate alınarak belirlenen bir bağıl ölçüt kullanılarak değerlen-
dirme yapılıyorsa bu değerlendirmeye bağıl değerlendirme denir. Birey-
den veya grubun özelliğinden bağımsız olarak belirlenen ölçüte dayalı yapı-
lan değerlendirmeye mutlak değerlendirme denir.
38 Eğitimde Ölçme ve Değerlendirme
Kaynakça
Atılgan, H. (Ed.) (2006) Eğitimde Ölçme ve Değerlendirme. Anı Yayıncılık.
Ankara
Baykul, Y. (2000) Eğitimde ve Psikolojide Ölçme: Klasik Test Teorisi ve Uygulama-
sı.
ÖSYM Yayınları. Ankara
Baykul, Y. (1996) İstatistik: Metodlar ve Uygulamalar. Lazer Ofset. Ankara
Doğanay, A, E. Karip (2006) Öğretimde Planlama ve Değerlendirme. PEGEM A
Yayıncılık, Cantekin Matbaası, Ankara
Demirel, Ö. (2003) Kuramdan Uygulamaya Eğitimde Program Geliştirme.
PEGEM A
Yayıncılık. Ankara
Demirel, Ö. Ve Z. Kaya (Ed.) (2007) Eğitim Bilimine Giriş. PEGEM A Yayıncılık.
Ankara
Ertürk, S. (1993) Eğitimde “Program” Geliştirme. Meteksan Yayınları. Ankara
İşman, A. Ve A. Eskicumalı (1999) Eğitimde Ölçme ve Değerlendirme. Değişim
Yayınları. Adapazarı
Karip, E. (2007) Ölçme ve Değerlendirme. PEGEM A Yayıncılık. Ankara
Öztürk, M.(Ed.) (2005) Öğretimde Planlama ve Değerlendirme. Lisans Yayıncılık.
İstanbul
Özçelik, D. A. (1981) Okullarda Ölçme ve Değerlendirme. ÜSYM Yayınları: 3.
Ankara
Sönmez, V. (2003) Program Geliştirmede Öğretmen El Kitabı. Anı Yayıncılık.
Ankara
Tan, Ş. (2006) Öğretimi Planlama ve Değerlendirme. PEGEM A Yayıncılık. Anka-
ra
Tekin, H. (1993) Eğitimde Ölçme ve Değerlendirme. Yargı Kitap ve Yayınevi. An-
kara
Turgut, M. F. (1984) Eğitimde Ölçme ve Değerlendirme Metotları. Saydam Matba-
acılık. Ankara
Yılmaz, H. (1998) Eğitimde Ölçme ve Değerlendirme. Mikro Basım-yayım-dağıtım.
Konya
Ölçme ve Değerlendirmenin ile İlgili Temel Kavramlar 39
Sorular
12. Başlangıç noktası doğal “0” olan 14. Bir yabancı dil kursunda kursiyerler
ölçek aşağıdakilerden hangisidir? yaşadıkları mahallenin baş harfine
A) Sınıflama ölçeği göre gruplandırılarak sınıflara yer-
leştirilmişlerdir.
B) Eşit aralıklı ölçek
C) Sıralama ölçeği Burada kursiyerlerin gruplandırıl
masını bir ölçme işlemi olarak ka-
D) Eşit oranlı ölçek
bul edildiği takdirde hangi ölçek
E) Adlandırma ölçeği kullanılmış sayılır?
A) Sınıflama ölçeği
13. Aşağıdaki özelliklerden hangisi B) Eşit aralıklı ölçek
dolaylı ölçme yöntemiyle ölçülmeye
uygundur? C) Sıralama ölçeği
D) Eşit oranlı ölçek
A) Sınıftaki kaç öğrencinin bulun-
duğunun saptanması E) Adlandırma ölçeği
B) Sahip olduğunuz kitap sayısını
belirlemeniz
C) Bir kişin boy uzunluğu
D) Herhangi bir derse ilişkin aka-
demik başarının saptanması
E) Yukarıdakilerin hepsi
Cevap Anahtarı
1-D 2-E 3-C 4-B 5-B 6-C 7-A
8-C 9-E 10-C 11-C 12-D 13-D 14-A
ÖLÇME ARAÇLARINDA
BULUNMASI İSTENEN NİTELİKLER
İçindekiler
Giriş
Güvenirlik
Ölçme Hataları
Güvenirlik İndeksi ve Ölçmenin Standart Hatası
Gerçek Puan Teorisi
Güvenirliği Hesaplamak İçin Yöntemler
Güvenirliği Etkileyen Faktörler
Geçerlik
Geçerliği Etkileyen Faktörler
Kullanışlılık
Özet
Kaynakça
Sorular
44 Eğitimde Ölçme ve Değerlendirme
Giriş
Bir test davranış evrenine ait küçük bir örneklem sağlar. Her hangi bir
testle ilgili olarak iki basit soru yöneltilmelidir. Birinci soru testin bizim ger-
çekte ilgilendiğimiz özelliği ne derece iyi temsil edip etmediğidir. Testle öl-
çülmek istenen davranışlar bizim ölçmek istediğimiz nitelik ve alan bilgisi ile
uyuşuyor mu? Bu bir geçerlik sorunu olup, testin her hangi bir amaçla kul-
lanımına karar vermek için temel oluşturur. İkinci soru ise testin ölçülmek
istenen alanı ne derece iyi (doğru ve kesin) ölçtüğü ile ilgilidir. Bu bir kesin-
lik tahminidir ve testin güvenirliğini belirler. Bir test geçerli olmadan da
güvenilir olabilir ancak amaca uygun olmayan bir ölçme aracını kullanmak
anlamsızdır. Geçerlik ve güvenirlik kadar önemli olmasa da, testin her hangi
bir amaçla kullanımına karar vermek için önemli olan diğer bir özellik de
kullanışlılıktır. Kullanışlılık ölçme aracının hazırlanması ve uygulanması
sırasında ne kadar pratik ve ekonomik olduğunu işaret eden bir kavramdır.
Testlerin insan yaşamındaki etkisi dikkate alındığında, test geliştirme
sürecinin profesyonel eğitim gerektiren uzun süreli bir süreç olduğu açıktır.
Test standartlarına göre, her testin ölçmeyi amaçladığı özelliğin güvenilir ve
geçerli kestiricisi olduğunun kanıtlanması gerekir (AERA, APA, NCME,
1966; 1974; 1986; 1999).
Bu bölümde eğitimde ve psikoloji de kullanılan ölçme araçlarında bu-
lunması gereken özelliklerden güvenirlik, geçerlik ve kullanışlılık incelen-
miştir.
Güvenirlik
leri (1993) güvenirliği, bir testin aynı şeyi her seferinde ölçmedeki kararlılı-
ğının, güvenirliğinin, doğruluğunun ve tutarlığının bir ölçüsü olarak ifade
etmişlerdir.
Belli bir ölçüde bütün psikolojik testlerin güvenilirliği tam değildir
(Crocker & Algina, 1986). Örneğin, bir zeka testi bir grup yetişkine uygula-
nır ve iki hafta sonra yeniden aynı gruba uygulanırsa, iki uygulamada her
bireyin aynı puanları alması ya da grubun içinde aynı sıralamayı koruması
mümkün değildir. Benzer şekilde ingilizce testinin paralel formları bir öğ-
renciye aynı gün verilirse, öğrenciler muhtemelen iki test üzerinden aynı
sıralamaya sahip olmayacaktır.
Bir araştırmacı ölçeğin tutarlık ya da geçerliği ile ilgileniyorsa gözlem-
lerini elde ettiği evrene ya da gruba genellemek istiyordur. Bizim temel ilgi-
lendiğimiz şey nadiren test puanlarının kendisidir. Bir test genellikle bu test
maddelerinin ait olduğu evrenin bir örneklemi olarak görülür. Bu evrende
aynı amaç için kullanılabilecek pek çok madde vardır. İngilizce kelime bilgi-
sini yoklamak için 25 kelime seçtiğimizi düşünelim, bizim buradaki ana
amacımız 25 kelime içinde öğrencinin yüzde kaçını bildiği değil, öğrencinin
bu kelimelerin geldiği evren içinde yüzde kaçını bildiğidir. Eğer ikinci bir
form için aynı evrenden rastgele 25 kelime daha seçilse öğrencilerden çok
azı birinci testte aldıklarını puanların aynısını alabilirler.
Örneklemden elde edilen gözlenen puanlar, hipotetik evrenden bütün
maddelerin uygulanması ile elde edilen puana (gerçek puan) ne derce ya-
kındır? Bu soru güvenirliğin asıl konusunu oluşturur. Testi alan bir bireyin
testteki performansı bir durumdan diğer bir duruma ölçmenin amacıyla ala-
kalı olmayan nedenler yüzünden farklılaşabilir. Bu farklılaşmanın nedenleri,
bireyin testi yeniden aldığında daha çok gayret göstermesi, daha yorgun ya
da daha heyecanlı olması, diğer test formuna göre sorulara daha aşina ol-
ması olabilir. Bu ve bunun gibi nedenlerle yüzünden bir bireyin puanları bir
durumdan diğer bir duruma aynı olmayacaktır. Hatta bir testin A ve B sek-
linde kapsamı ve güçlük düzeyi aynı olan iki eşdeğer formu oluşturulsa, bir
bireyin iki formda eşleştirilen maddelerin cevabını bilmesi halinde doğru
yapacağı garantilenemez. Puanlardaki bir uygulamadan diğer uygulamaya
farklılaşmanın nedeni ölçmenin hatasına dayandırılabilir. Bu tür hatalar
testin güvenirliğini ve genellenebilirliğini düşürür. Belli bir hatanın önemi,
ölçme hatasının büyüklüğü kadar ölçmenin spesifik amacına da bağlıdır.
Ölçme hatalarından ve çeşitli hata kaynaklarından bahsetmek güvenirlik
kavramını tam olarak anlamak için gereklidir.
46 Eğitimde Ölçme ve Değerlendirme
Ölçme Hataları
Ölçme hataları tesadüfi (random) hata ve sistematik hata olmak üzere iki
grupta incelenebilir. Tesadüfi hata, ölçmeyi tesadüfi olarak etkilen faktörler-
den kaynaklanan hatalardır. Örneğin, bir bireyin testi alırken sahip olduğu
olumlu ya da olumsuz psikoloji onun testteki başarısını artırabilir ya da azal-
tabilir. Aslında bireyin ölçülen özelliği değişmezken, bu durum gözlenen pu-
anlarında artmaya ya da azalmaya neden olacaktır. Ancak, tesadüfi hatalar
ölçme üzerinde sürekli bir etki oluşturmaz. Tesadüfi hataların dağılımı ince-
lediğinde negatif ve pozitif yöndeki hataların eşit miktarda dağıldığı ve bunla-
rın birbirinin etkisini yok ettiği görülecektir. Bir başka deyişle tesadüfi hatala-
rın dağılımının ortalaması her zaman 0 olur. Kısaca tesadüfi hata ölçme so-
nuçlarına değişkenlik katacaktır ancak grubun ortalama başarısı üzerinde bir
etkiye sahip olmayacaktır. Sonuç olarak, tesadüfi hata ortalamayı etkilemez
ancak ortalama etrafındaki değişkenliği etkiler. Bu nedenle, genellikle tesa-
düfi hata verideki kirlilik (gürültü) olarak da değerlendirilir.
Sistematik hata ölçme sonuçlarını sistematik olarak etkileyen faktörler-
den kaynaklanan hatalardır. Örneğin, sınav yapılan bir dersliğin aşırı derece
de soğuk olması o sınıfta testi alan öğrencilerin hepsinin dikkatini dağıtacak
ve test puanlarının sistematik olarak düşmesine neden olacaktır. Tesadüfi
hataların tersine, sistematik hatalar pozitif ya da negatif yönde süreklilik
gösterir. Bundan dolayı, bazen sistematik hatalar ölçmelerdeki yanlılık ola-
rak da değerlendirilir. Güvenirliği etkileyen hata kaynakları daha sonra de-
taylı olarak incelenecektir.
Güvenirliği kestirmek için her biri farklı amaçlara hizmet eden iki yol
vardır. Güvenirlik ya güvenirlik indeksi (reliability coefficient) ya da ölçmenin
standart hatası ( Standard Error of Measurement) kullanılarak kestirilebilir.
Güvenirlik göreceli ya da mutlak olabilir. Göreceli tutarlık testin bireyin grup
içindeki durumunu ne derece doğru gösterdiği sorusuyla ilgilenir. Bu sorunun
cevabı genellikle gerçek ya da hipotetik bir testin puanlarının bir başka test
puanları ile ilişkisini kestiren korelasyon katsayısı (güvenirlik indeksi) kullanı-
larak bulunur. Mutlak tutarlık ise kişinin puanlarının bir ölçme durumdan
diğer ölçme durumuna göre ne kadar farklılaşacağı sorusu ile ilgilenir. Bu
sorunun cevabi ise ölçmenin standart hatası olarak ifade edilir. Standart hata
bireyin ölçülen özelliğinin aynı kalması koşulu ile, bireyin üzerinde yapılan
hipotetik ölçmelerin standart sapmasıdır. Bu iki kavramı tam olarak tanımla-
yabilmek için ölçmede gerçek puan teorisinden bahsetmek gerekir.
Ölçme Araçlarında Bulunması İstenen Nitelikler 47
σ X2 = σ T2 + σ E2 (3.3)
ΣT 2 ΣTE
ρ XT = + (3.5)
Nσ X σ T Nσ X σ T
haline dönüşür. Gerçek puanla hata puanları arasındaki korelasyon sı-
fır olacağından eşitlikte sağdaki kısım atılır ve gerekli sadeleştirmeler yapı-
lırsa,
σT
ρ XT = (3.6)
σX
elde edilir. Burada, ρ XT , güvenirlik indeksi; σ T , gerçek puanların
standart sapması ve σ X , gözlenen puanların standart sapmasıdır. Güvenir-
lik indeksi ( ρ XT ) denilen bu eşitlik, gerçek puanların standart sapmasının
gözlenen puanların standart sapmasına oranından başka bir şey değildir.
Gerçek puanlar bilinmediğinden, bunların standart sapmasını da bulmak
mümkün değildir. Bu durumda güvenirlik indeksi teorik bir kavramdır. An-
Ölçme Araçlarında Bulunması İstenen Nitelikler 49
Şimdi iki paralel formun bir grup bireye uygulanması ile elde edilen X 1
ve X 2 puanlarını düşünelim. X 1 ve X 2 puanları ancak gerçek puanı pay-
laştıkları ölçüde bir biri ile ilişkili olabilir.
σ (X X )
ρX X = 1 2
(3.7)
1 2
σXσX
1 2
σ (X X )
ρX X = 1 2
(3.8)
1 2
σ X2
halini alır. İki ölçme arasında paylaşılan tek şey gerçek puanlar olaca-
ğından, kovaryans gerçek puanın varyansını kestirmek için kullanılabilir.
Son olarak σ ( X 1 X 2 ) yerine σ T2 yazılırsa,
σ T2
ρX X = 2 (3.9)
1 2
σX
elde edilir. Burada ρX X 1 2
, güvenirlik katsayısıdır ve aslında güvenirlik
indeksinin karesinden başka bir şey değildir. Bir özelliğin iki farklı zamanda
ölçülmesi ile elde edilen puanlar arasındaki korelasyon ρ X 1 X 2 güvenirliğin
bir kestiricisini verir. ρX X
1 2
genellikle ρ XX ' olarak gösterilir.
50 Eğitimde Ölçme ve Değerlendirme
σ T2 σ E2
1= + (3.10)
σ X2 σ X2
elde edilir. Yukarda gerçek puanın varyansının gözlenen puanın
varyansına oranının güvenirlik indeksini verdiğini ( ρ XX ' ) hatırlayalım, bu
⎛ σ E2 ⎞
durumda ρXX ' kullanılarak eşitlik yeniden yazılır ⎜⎜1 = ρ XX ' + ⎟⎟ ve σ E2 ’yi
⎝ σ X2 ⎠
yalnız bırakmak için bir dizi işlem yapılırsa, ölçmenin standart hatasını he-
saplamak için formül aşağıdaki gibi elde edilir.
σ E = σ X 1 − ρ XX ' (3.11)
%68 olasılıkla T ± 1σ E
52 Eğitimde Ölçme ve Değerlendirme
%99 olasılıkla T ± 3σ E
% 68 olasılıkla X ± 1σ E
% 95 olasılıkla X ± 1.96σ E
% 99 olasılıkla X ± 3σ E
ceği kadar kısa ancak bir önceki teste verilen cevapların hatırlanmayacağı
kadar da uzun olmalıdır (Crocker & Algina, 1986; Tekin, 1994). İki uygula-
ma arasındaki zamana karar verirken test puanlarının hangi amaçla kullanı-
lacağı dikkate alınmalıdır. Ölçülen özellik tutum gibi uzun süre değişmeyen
bir özellik ise iki uygulama arasındaki zaman dilimi bir kaç ay ya da daha
uzun süreli tutulabilir. Ancak, ölçülen özellik bilişsel ve psikomotor davra-
nışlar gibi kısa sürede değişebilen özelliklerse zaman mümkün olduğunca
kısa tutulmalıdır. Örneğin, 5 yaşındaki çocukların dil gelişimini ölçen bir
test düşünelim. İki uygulama arasındaki zaman çok uzun tutulursa, bu süreç
içinde çocuk kreşte ya da evde yeni kelimeler öğrenecektir ve iki uygulama
arasındaki farklılık aslında testin tutarlı olmamasından değil, ölçülen davra-
nışın aynı kalmamasından kaynaklanacaktır. Bu durumda iki uygulama bir
kaç gün ya da bir hafta arayla yapılabilir.
İki uygulama arasındaki zaman sorunundan doğabilecek sıkıntıları orta-
dan kaldırmak için çeşitli yollar önerilebilir. Örneğin, aynı testi aynı grup üze-
rinde yeniden uygulamak yerine, eşdeğer gruplar oluşturularak test bu grup-
lar üzerinde uygulanır ve daha sonra grupların puanları arasındaki korelasyon
hesaplanabilir. Ancak, bu yöntemin de kendi içinde sorunları vardır. Grupla-
rın eşdeğer olabilmesi için yaş, sosyo-ekonomik düzey ve ölçülen özellik gibi
değişkenler bakımından eşdeğer olması gerekir. Eşdeğer grupları oluşturmak
ya da bulmak ise oldukça zordur, bu yönden daha çok deneysel modellere
uygundur. Bu yöntemde hata kaynakları içine bir yenisi, grupların eşdeğer
olmaması da eklenecektir. Bu durum güvenirlik indeksinin düşük çıkması,
testin güvenirliğinin düşük olması ya da grupların yeterince eşdeğer olmaması
anlamına geleceği gibi, hem testin güvenirliğinin olmaması hem de grupların
eşdeğer olmaması anlamına da gelebilir. Başka bir deyişle, puanlar arasındaki
farkın gruplar arasındaki farktan mı, yoksa testin güvenirliğinden mi kaynak-
ladığını söylemek mümkün değildir (Tekin, 1994). Ayrıca, önceki uygulama-
daki cevapların hatırlanmaması için, araştırmacıların yaş gruplarına ve ölçü-
len özelliğe bağlı olarak, ikinci uygulamadan önce dikkat dağıtıcı etkinlikler
(oyun, fıkra gibi) yapmaları da diğer bir yol olarak önerilebilir.
Test tekrar test yönteminde bireylerin iki uygulama arasında birbirine
yakın puanlar alması yanında aynı maddelere aynı şekilde cevap vermiş ol-
maları da önemlidir. Bireyler aynı puanları her iki testte farklı maddelere
cevap vererek alabilecekleri için, bireylerin her iki uygulamada cevap ver-
dikleri doğru maddelerin de incelenmesi gerekir (Tekin, 1994).
Aynı testin ya da eş değer iki testin uzun zaman aralıklarında aynı gru-
ba uygulanması ile elde edilen güvenirlik indeksine, özelliğin zaman içeri-
sindeki kararlılığını göstermesi nedeniyle kararlılık katsayısı da denilmekte-
dir (Tekin, 1994).
Ölçme Araçlarında Bulunması İstenen Nitelikler 55
⎢Σ X − ⎥ ⎢Σ Y − ⎥
⎣ N ⎦⎣ N ⎦
2 ρ XY
ρxx' = (3.14)
1 + ρ XY
Cronbach Alpha (α )
k ⎛ Σσ i2 ⎞
α= ⎜1 − 2 ⎟⎟ (3.15)
k − 1 ⎜⎝ σX ⎠
Formülde α , alfa güvenirlik katsayısı; k , madde sayısı; σ i2 , madde
varyansı; Σσ i2 , madde varyansları toplamı ve σ X2 , testin varyansıdır. Örne-
ğin, 5 maddelik bir testin varyansının .64 ve madde varyanslarının sırasıyla
σ 12 = .9 , σ 22 = .4 , σ 32 = .4 , σ 42 = .4 , σ 52 = .1 olduğunu varsayalım. Alfa
katsayısı kullanılarak testin güvenirlik indeksi aşağıdaki gibi bulunur.
Ölçme Araçlarında Bulunması İstenen Nitelikler 59
5 ⎛ .22 ⎞
α= ⎜1 − ⎟ = .82
5 − 1 ⎝ .64 ⎠
Testtin maddelerin aynı şeyi ölçmesi durumunda ve güvenirliğinin mü-
kemmele yakın olması halinde Alpha güvenirlik katsayısı 1’e yaklaşacak ve
aksi durumda 0’a yaklaşacaktır.
k ⎛ Σpi qi ⎞
KR20 = ⎜1 − 2 ⎟⎟ (3.16)
k − 1 ⎜⎝ σX ⎠
Formülde k, madde sayısı; σ X2 , testin varyansı; pi , maddeyi doğru ce-
vaplayanların yüzdesi; qi , ise maddeyi yanlış cevaplayanların yüzdesi; pi qi ,
k maddesinin varyansı ve Σpi qi , madde varyansları toplamıdır.
Maddeler
Öğrenciler 1 2 3 4 5 6 X X−X (X − X )2
1 1 1 1 1 1 1 6 6-3= 3 9
2 0 0 0 1 1 0 2 2-3=-1 1
3 1 0 0 0 1 1 3 3-3= 0 0
4 0 1 1 1 1 0 4 4-3= 1 1
5 1 0 1 1 0 0 3 3-3= 0 0
6 0 0 1 0 1 1 3 3-3= 0 0
7 1 0 1 1 0 0 3 3-3= 0 0
8 0 1 0 1 0 0 2 2-3=-1 1
9 0 0 1 1 1 1 4 4-3= 1 1
10 0 0 0 0 0 0 0 0-3=-3 9
Ij: 4 3 6 7 6 4 ΣX = 30 Σ( X − X ) 2 =21
pj = I j / N .4 .3 .6 .7 .6 .4
q j = 1− p j .6 .7 .4 .3 .4 .6
Σ iN=1 X 30 Σ iN=1 ( X − X ) 2 21
X= = = 3, σ X =
ˆ 2
= = 2.1
N 10 N 10
Testin ortalaması ve standart sapması yukarıdaki gibi hesaplanarak, il-
gili değerler KR-20 formülünde yerine konulursa ve aşağıdaki sonuç elde
edilir.
k ⎛ Σpi qi ⎞ 10 ⎛ 1.38 ⎞
KR20 = ⎜⎜1 − 2 ⎟⎟ = ⎜1 − ⎟ = .38
k −1⎝ σ X ⎠ 10 − 1 ⎝ 2.1 ⎠
Altı maddelik testin KR-20 ile elde edilen güvenirlik indeksinin olduk-
ça düşük olduğu (.38) görülmektedir.
Kuder Richardson 21
Testteki maddelerin güçlük düzeylerinin birbirinden çok farklı olmadığı
ya da testteki maddelerin güçlük derecelerinin eşit olduğu düşünülmesi ha-
Ölçme Araçlarında Bulunması İstenen Nitelikler 61
k ⎛ X (k − X ) ⎞
KR21 = ⎜⎜1 − ⎟ (3.17)
k −1⎝ kσ X2 ⎟⎠
30 ⎛ 20(30 − 20) ⎞ 30 ⎛ 40 ⎞
KR21 = ⎜⎜1 − ⎟⎟ = ⎜1 − ⎟ = .76
30 − 1 ⎝ 30(5) ⎠ 29 ⎝ 150 ⎠
Otuz maddeden oluşan matematik testinin KR-21 ile hesaplanan güve-
nirlik indeksinin orta düzeyde olduğu (.76) görülmektedir.
Tek test yönteminin uygun olabilmesi için daha önceden varsayılanların
yanında yerine getirilmesi gereken bir diğer varsayımda testin hız testi ol-
mamasıdır. Hız testlerinde elde edilen korelasyon olduğundan daha yüksek
çıkar. Test sonuçlarının sadece hıza bağlı olduğu ve testi alanların nadiren
yanlış yaptığı sınavlarda, tek numaralı ve çift numaralı test maddeleri ara-
sındaki korelasyon ister istemez 1’e yaklaşacak ve anlamsız olacaktır. Ayrı-
ca, bu durumda maddeler arası tutarlık iki maddenin erişilebilme ve cevap-
lanma durumlarına bağlı olacaktır. Eğer hız testinin tutarlığı bulunmak is-
teniyorsa özelliğin iki ayrı zamanlı örneklemi gereklidir. Testin zaman sını-
rının olması, puanın önemli ölçüde yapılacak işin hızına bağlı olduğu anla-
mına gelmez. Eğer maddeler güçlük düzeylerine göre sıralanırsa, makul bir
zaman sınırlaması test katılımcılarının çoğunun çözebilecekleri soruları
çözmek için çalışma fırsatı verecektir. Böylece ek süre puanlara ya çok az ya
da hiç katkıda bulunmayacaktır (Stanley & Hopkins, 1972).
Puanlayıcı Güvenirliği
İnsan, ölçme sürecinin bir parçası olarak kullandığında, sonuçların gü-
venilirliği hakkında endişelenmek gerekir. Ölçme sürecine insan kaynaklı
birçok hata karışabilir. Bireyin yorulması, dikkatinin dağılması, sıkılması bu
hataların nedenlerinden sadece bazılarıdır. Bu durumda iki puanlayıcının
62 Eğitimde Ölçme ve Değerlendirme
Örneğin, güvenirlik indeksi .50 olan, 10 maddelik bir testin test uzunlu-
ğunun ikiye katlanması durumunda yeni test için güvenirlik katsayısını bula-
lım. Eşitlikte güvenirlik indeksini yerine konulursa,
2(.50)
ρ XX = = .67
1 + (.50)
'
Geçerlik
Geçerlik Türleri
Kapsam Geçerliği
Kapsam geçerliğiyle ilgili kanıtlar test geliştirme sürecinde önemlidir.
Kapsam geçerliği (content validity) testin (maddelerinin) ölçmeye çalıştığı
yetenek ve bilgi alanını ne derece temsil ettiği ile ilgilidir. Kapsam geçerliği,
test kapsamının (madde örnekleminin) sonucun genelleneceği durum ya da
niteliğe (davranış evrenine) yakınlığını gösterir. Başka bir deyişle kapsam
geçerliği ile ilgili kanıtlar madde örnekleminin ya da testteki soruların ta-
nımlanan evren ya da davranış alanını ne kadar iyi temsil ettiğini gösterir.
70 Eğitimde Ölçme ve Değerlendirme
Bunun için testi geliştiren bireylerin ve alan uzmanlarının testi alan kişilerin
özelliklerine duyarlı olması önemlidir.
Madde yazma sürecinde kapasam geçerliğini sağlamak için belirtke tab-
losunun kullanılmasının yanında çeşitli yollar izlenebilir. Örneğin, bir alanın
çeşitli konularında sistematik olarak farklılaşan maddeler oluşturarak temsil
ediciliği sağlayan kurallar ya da algoritimler geliştirilebilir ve bu kurallara
uyarak maddeler oluşturulur.
Kriter Geçerliği
Kriter geçerliği (criterion related validity ), test puanlarının, davranışın
ya da karakterin direk ölçüsü olduğu düşünülen bir ya da daha çok dış de-
ğişkenle karşılaştırılması ile elde edilir. Bu karşılaştırma test puanları ile
kriter arasındaki korelasyonun hesaplanması ile yapılabilir. Test bireyin
akademik başarısı, mesleki yeterliliği ya da başka amaçlar için kullanılabilir.
Bu gibi amaçlar için kriter oluşturacak veri testten daha ileriki bir zamanda
toplanabilir. Kriterin testle birlikte ya da ileriki bir zamanda toplanıp top-
lanmaması testin yordama amacıyla mı yoksa o günkü durumu ölçmek için
mi kullanılacağına bağlıdır.
Kriter geçerliğiyle ilgili kanıtlar test puanlarının sistematik olarak bir ya
da bir kaç dış kriterle ilişkisini gösterir. Burada kriter, testi hazırlayan ya da
kullanacak olan kişi ya da kurum tarafından belirlenen ve öncelikle ilgileni-
len değişkendir. Ölçme sürecinde kriter seçmek ya da kriter puanı sağlaya-
cak ölçme yöntemleri oldukça önemlidir. Beklendiği üzere kriterle ilgili bir
çalışmanın değeri seçilen kriterin geçerliğine bağlı olacaktır.
Bir araştırmacı ölçülen özellik için bireyin gelecekteki durumunu ya da
testle ölçülen özellikten farklı önemli bazı değişkenler için bireylerin
buğunkü durumunu tahmin etmeye çalışır. Bu iki farklı kullanım geçerlik
kanıtlarının da farklılaşmasına yol açar. Kriter geçerliği kendi içinde yorda-
ma geçerliği ve mevcut durum geçerliği olarak sınıflanabilir. Yordama geçer-
liğiyle ilgili kanıtlar kriter puanlarının bir test puanından tahmin edilmesin-
deki doğruluk derecesiyle ilgilidir. Mevcut durum geçerliği ise yordama ge-
çerliğine yakındır ancak tahmin ya da kriter hakkındaki bilgi gelecek için
değil o an için kullanılır. Yordama geçerliğinde kanıtların geleceğe dönük
mü, yoksa o güne ait mi olacağı testin tümüne, testin yapılış amacına, eko-
nomik olanaklarına ve profesyonel değerlendirmeye bağlıdır.
Yordama geçerliği (predictive validity) ölçme aracının tahmin edilmeye
(yordanmaya) çalışılan özelliği ölçmede ne derece başarılı olduğunu göste-
rir. KPSS, ÜDS, ÖSS, TUS, OKS ve KPDS bireylerin gelecekteki perfor-
mansını tahmin etmeye çalışan sınavlara örnek gösterilebilir. Öğrenci Seç-
Ölçme Araçlarında Bulunması İstenen Nitelikler 73
Yapı Geçerliği
Yapı geçerliği (construct validity) en karmaşık ve de kapsamlı geçerlik
türüdür. Bir test, bireyin soyut psikolojik bir özelliğe (karakter, yetenek) ne
derece sahip olduğunu tanımlamak için kullanılıyorsa yapı geçerliğini ilgi-
lendiren bir durumdur (Cronbach & Meehl, 1955). Bu gruptaki geçerlik
kanıtları test puanlarının ilgilenilen kavramsal yapıyı ne derece iyi temsil
ettiğine yoğunlaşır.
Psikolojik kavramlar (construct) gözlenemeyen, ancak varlığı kabul edi-
len olgulardır. İlgilenilen kavram kavramsal yapı içinde ele alınmalıdır. Kav-
ramsal yapı kavramın anlamını tanımlar onu, diğer kavramlardan ayırt eder
ve kavramın ölçümlerinin diğer değişkenlerle ilişkisini tanımlar. Cronbach
ve Meehl (1955) kavramsal yapıyı bireylerin test performansına yansıdığı
varsayılan ve ispatına gerek görmeden kabul edilen özellikler olarak tanım-
lamıştır. Kavramsal yapılar direk olarak gözlenemezler ancak bunlar hak-
kında teorilerimiz ve bu karaktere sahip bireyin nasıl davranacağına dair
tahminlerimiz vardır. Kavramsal yapı ile ilgili teori, ne tür test davranışları-
nın ilgilenile karakteri göstermek için uygun olduğunu ve test ile kavramsal
yapı arasındaki ilişkiyi değerlendirmek için uygun kanıtları gösterir
(Thorndike, 1982). Zekâ, başarı, sözel ve sayısal yetenek, tutum, ilgi bu tür
soyut kavramlara örnek olarak verilebilir.
Testin yapı geçerliğini ölçebilmek için dolaylı kanıtların kullanılması
gerekir. Kavramsal yapı ve onu geliştiren teorinin tanımlanması, kavramsal
yapı hakkında doğruluğu araştırılabilecek tahminlerde bulunmamızı sağlar.
Testin ölçtüğünü iddia ettiği özelliğe sahip bireylerin birbirinden nasıl
farklılaştığı, testin ölçmek istediği özellik dışında başka faktörleri ölçüp
ölçmediği, testin kültürden ya da cinsiyetten ne kadar bağımsız olduğu, test
performansının ne kadarının soyut kavramsal yapı ile açıklanabileceği yapı
geçerliğini araştıran bireylerin sorabilecekleri sorulardan sadece bir kaçıdır.
Ölçme Araçlarında Bulunması İstenen Nitelikler 77
nılır. Testin bir ya da bir kaç faktörü ölçtüğü düşünülüyorsa testteki madde-
lerin hangi faktör ya da faktörlere bağlı olduğunu bulmak için iyi bir yoldur.
Kavramsal yapının başka kavramsal yapıların bir bileşeni olduğu düşünülü-
yorsa, yine bu kavramsal yapılar arasındaki korelasyonu bulabilmek için fak-
tör analizinden faydalanılabilir. OKS örneğini yeniden hatırlayalım.
OKS’nin alt testlerinden Türkçe ve sosyal bilgiler testlerinin sözel yeteneği
ve matematik ve fen testlerinin ise sayısal yeteneği ölçtüğü iddia edilmekte-
dir. Ozbek (2004) OKS sonuçları üzerinde doğrulayıcı faktör analizi yapa-
rak, sayısal ve sözel yetenek adı verilen iki faktörün test puanlarını açıkla-
mak için yeterli olduğunu vurgulamıştır.
Faktör yapısının farklı gruplar üzerinde eşitliği konusunda birçok çalışma
bulunmaktadır (Drasgow & Kanfer, 1985; Jöreskog, 1971). Bu çalışmalar
gözlenen değişkenlerle gözlenemeyen kavramsal yapı arasında deneysel bir
ilişkinin kurulması ve faktör yapısının gruplar arasında değişiklik göster-
memesi durumunda psikometrik ölçümlerin karşılaştırılabileceğini vurgu-
lamıştır. Faktör yapısının eşitliğini ortaya çıkarmak için birçok metot kulla-
nılmaktadır. Bu metotlardan çoğu keşfedici faktör analizine (exploratory
factor analysis) dayanmaktadır. Doğrulayıcı faktör analizi (CFA) ve madde
cevap kuramına (IRT) dayanan modeller başarıyla kullanılan iki alternatif
metot olarak rapor edilmiştir (Raju, Laffitte & Byrne, 2002; Reise,
Widaman & Pugh, 1993). Doğrulayıcı faktör analizi metodu birden çok
grubun faktör yapısını aynı anda karşılaştırmak için uygundur.
Testin çok boyutlu ya da tek boyutlu bir yapıyı (dimensionality) ölçüp ölç-
mediğinin araştırılması da önemli bir geçerlik kanıtıdır. Nadiren tek bir özel-
liği ölçmek için geliştirilen bir test sadece o yeteneği ölçüyordur ve genellikle
test sonuçlarına farklı yetenekler farklı düzeylerde karışır (Stout, 1987). Ör-
neğin bir matematik sınavı sözel beceriyi gerektirdiği ölçüde, öğrencilerin
başarıları da sözel yeteneklerine bağlı olacaktır. Öğrencilerin sözel yetenekle-
rinin aynı olmaması durumunda matematik testindeki başarıları sözel yete-
nekleri ile sınırlı olacak ve puanları hem sözel yeteneklerine hem de matema-
tik alanındaki yeteneklerine bağlı olacaktır. Bu durumda testin tek boyutlulu-
ğuna dair kanıt vermeden öğrencilerin puanlarını matematik yeteneğinin gös-
tergesi olarak kabul etmek yanlış kararlar verilmesine neden olur. Bu nedenle
testin tek boyutlulukla ilgili bir özelliği ölçtüğüne dair iddialar kendi basına
yeterli değildir ve bu varsayımın kontrol edilmesi gerekir. Testin boyutlarını
araştırmak için pek çok yöntem vardır. Son zamanlarda nonlineer faktör ana-
lizine dayalı metotlar (NOHARM, TESTFACT) ve üç nonparametrik metot
(HCA/CCPROX, DIMTEST ve DETECT) lineer faktör analizine alternatif
başarılı metotlar olarak rapor edilmiştir (Bock, Gibbson, & Muraki, 1988;
Hattie et al., 1996; Kim, 1994; McDonald, 1982; Nandakumar & Stout, 1993;
Roussos et al., 1998; Stout, 1987).
80 Eğitimde Ölçme ve Değerlendirme
nirlik indeksidir. Daha önce gözlenen puanların gerçek puan ve hata puan-
larından oluştuğunu belirtmiştik. Bu durumda gözlenen puanlara dayanan
ölçmelere hata karışacağından ρ xx ' ve ρ yy ' her zaman 1’den küçük çıkacak
elde edilen korelasyon katsayısı ( ρ xy ) gerçek puanlar için elde edilen kore-
lasyon katsayısından ( ρ x ( t ) y ( t ) ) her zaman daha küçük çıkacaktır. Gerçek
puanlar için korelasyon katsayısı aşağıdaki gibi elde edilebilir.
ρ xy
ρ x (t ) y (t ) = (3. 21)
ρ xx ρ yy
' '
Kullanışlılık
Bir ölçme aracında bulunması gereken diğer bir özellikte ölme aracının
kullanışlılığıdır. Kullanışlılık terimi burada testin hazırlanması, uygulanması
ve puanlama sürecindeki kolaylık ve ekonomikliğine işaret etmektedir.
Ölçme aracının kullanışlılığı ölçme aracının pratikteki sınırlılıkları ile
ilgilidir. Araştırmacı ölçme aracının hedeflenen zaman ve personel ile, mev-
cut ekonomik, yasal ve sosyal koşullara uygun olarak kullanılıp kullanılma-
yacağını sorgulamalıdır. Aynı özelliği ölçen geçerliği ve güvenirliği kanıt-
lanmış birden fazla ölçme aracının bulunması durumunda araştırmacı yu-
karda sayılan faktörleri dikkate alarak kendi olanakları ve ihtiyacına en uy-
gun olanını seçme sorumluluğuna sahiptir. Ölçme aracının kullanışlılığı
hakkında kararı verecek kişi konu alanında tecrübeli ve alternatif metotlar
hakkında bilgi sahibi olan birisi olmalıdır.
Ölçme Araçlarında Bulunması İstenen Nitelikler 83
➣ Zaman: Ölçmek istenen özelliğe uygun elde bir ölçme aracı var mı?
Amaca uygun bir ölçme aracının olmaması halinde böyle bir aracın
hazırlanması ne kadar zaman alır? Sınavın uygulanması için ne ka-
dar süre gereklidir? Sınavın puanlanması çok zaman alıcı mıdır?
Ölçme aracını uygulayabilmek için izin gerekli mi, gerekli ise bu
izinin alınması ne kadar süre alır?
➣ Sosyal, Kültürel ve Politik Etkiler: Belli bir ölçe aracının tercih edil-
mesi durumunda bunun sosyal, kültürel ve politik etkileri nasıl ola-
caktır? Seçilen ölçme aracı grubun özelliklerine duyarlı mı?
Araştırmacı ölçme aracının uygulanacağı grup hakkında bilgili olmalı ve
onlara en uygun yöntemi seçmelidir. Bireylerin okumayı yazmayı bilmemeleri
durumunda anketör kullanılması, öğrencilerin yaşlarının çoktan seçmeli test-
ler için uygun olmaması durumunda yazılı yoklama kullanılması, standart
testlerde sınava giren kişi sayısının çok olması nedeniyle puanlama objektifli-
ğini sağlamak ve puanlama sürecini sınırlandırmak adına çoktan seçmeli test-
lerin kullanılması kullanışlılığa dair uygulamalara örnek gösterilebilir.
84 Eğitimde Ölçme ve Değerlendirme
Özet
Kaynakça
Ackerman, T. A. (1992). A didactic explanation of item bias, item impact, and item validity
from a multidimensional perspective. Journal of Educational Measurement, 15, 1, 13-24.
American Educational Research Association, American Psychological Association, &
National Council on Measurement in Education. (1985). Standards for educational and
psychological testing. Washington, DC: American Psychological Association.
American Educational Research Association, American Psychological Association, &
National Council on Measurement in Education. (1999). Standards for educational and
psychological testing. Washington, DC: American Psychological Association.
American Psychological Association, American Educational Research Association &
National Council on Measurement in Education. (1966). Standards for educational and
psychological test and manuals. Washington, DC: American Psychological Association.
American Psychological Association, American Educational Research Association &
National Council on Measurement in Education. (1974). Standards for educational and
psychological test and manuals. Washington, DC: American Psychological Association.
Bock, R. D., Gibbons, R., & Muraki, E. (1988). Full item factor analysis. Applied Psychological
Measurement, 12, 261-280.
Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the
multitrait-multimethod matrix. Psychological Bulletin. 56:81-105.
Cleary, T. A. (1968). Test bias: prediction of grades of Negro and white students in integrated
colleges. Journal of Educational Measurement, 5, 115-124.
Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. New York:
Holt, Rinehart & Winston.
Cronbach, L.J., & Meehl, P.E. (1955). Construct validity in psychology tests. Psychological
Bulletin, 52, 281-301.
Cronbach, L. J. (1971). Test validation. R. L. Thorndike. Educational Measurement (2.
Basım). Washington, D. C.: American Council on Education.
Cronbach, L. J. (1988). Internal consistency of tests: analyses of old and new. Psychometrika,
53 (1), 63-70.
Drasgow, F., & Kanfer, R. (1985). Equivalence of psychological measurement in
heterogeneous populations. Journal of Applied Psychology, 70, 662-680.
Guilford, J. (1936). The determination of item difficulty when chance success is a factor.
Psychometrika, 1(4), 259-264.
86 Eğitimde Ölçme ve Değerlendirme
Traub, R. E. (1994) Reliability for the Social Sciences: Theory & Applications. Thousand Oaks:
Sage.
Walker, C. M., & Beretvas, S.N. (2001). An empirical investigation demonstrating the
multidimensional DIF paradigm: A cognitive explanation for DIF. Journal of
Educational Measurement, 38 (2), 147-163.
Worthen, B. R., Borg, W. R., & White, K. R. (1993). Measurement and evaluation in the
school. NY: Longman.
Sorular
Mehtap ÇAKAN
Abant İzzet Baysal Üniversitesi
Kazanımlar
Bu bölümün sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir.
Eğitim sistemimizde sıklıkla kullanılan test türlerinin neler olduğunu kav-
rayabilme.
Sıklıkla kullanılan test türlerinin genel özelliklerinin, avantajlarının ve sı-
nırlılıklarının neler olduğunu kavrayabilme.
Her bir test türünün hangi şartlarda, ne zaman kullanılmasının uygun ol-
duğunu kestirebilme.
Farklı test türlerinin geçerlik ve güvenirlik özelliklerini kavrayabilme.
Farklı türde test maddesi yazımında uyulması gereken kuralları
kavrayabilme.
Yazım kurallarına uygun şekilde farklı test türlerine ait madde ler yaza-
bilme.
İçindekiler
Giriş
Çoktan Seçmeli Maddeler
Doğru / Yanlış Maddeleri
Eşleştirme Maddeleri
Kısa Cevaplı Maddeler
Yazılı Yoklamalar
Sözlü Sınavlar
Ödevler
Özet
Kaynakça
Sorular
92 Eğitimde Ölçme ve Değerlendirme
Giriş
nıldıkları takdirde üstün özellikleri olan bir test türü bile işlevsel olmayacak
ve doğru olmayan sonuçlar üretebilecektir.
Aşağıda, yukarıda değinilen noktalar ışığında, eğitim sistemimizde yay-
gın olarak kullanılan test türleri, genel özellikleri, avantajları, sınırlılıkları,
güvenirlik ve geçerlilikleri de dikkate alınarak tanıtılmıştır. İlköğretim prog-
ramlarında “tamamlayıcı test teknikleri” olarak adlandırabileceğimiz yeni
teknikler ya da yöntemler kullanılmaya başlanmıştır. Unutulmamalıdır ki
hiçbir ölçme aracı diğerinin alternatifi değildir, yaygın kullanılan ya da yeni
kullanılmaya başlanmış olan her bir ölçme aracının kullanılmasının uygun
olduğu gibi uygun olmadığı durumlar da bulunmaktadır. Önemli olan hangi
ölçme aracının hangi şartlarda kullanılmasının uygun olduğunu doğru tespit
etmek ve aracı kurallarına uygun olarak kullanmaktır.
Burada sorunun yer aldığı kısım “madde kökü”, C seçeneği “doğru ce-
vap”, diğer seçenekler ise “çeldiriciler” olarak adlandırılmaktadır ( A, B, D,
ve E seçenekleri). Yanlış olan seçeneklere çeldirici denmesinin nedeni, bu
seçeneklerden doğru cevabı bilmeyen öğrencileri çeldirmesi beklenmesidir.
Yazılan çeldiriciler cevabı bilmeyen öğrencileri çekebildikleri ölçüde başarı-
lıdırlar. Doğru cevabı bilmeyen öğrenciye yanlış olduğu çok bariz gelen çel-
dirici iyi bir çeldirici değildir. Öğrencilerin sık yaptıkları yanlışlar (yanlış
öğrenmeler) çoktan seçmeli maddelerin yazımında iyi birer çeldirici olarak
kullanılabilmektedirler.
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 95
Örneğin Ali 100 soruluk 4 seçenekli bir testte 70 soruyu doğru olarak
cevaplamış 30 soruyu ise yanlış cevaplamıştır. Düzeltme formülü uygulan-
madığında Ali testten 70 alacaktır. Ancak şans başarısıyla elde ettiği puan-
ları hesaba katmak istersek ve düzeltme formülü uygularsak Ali’nin aldığı
puanı şu şekilde hesaplanmaktadır:
“Öğrenciler okula test almak için değil öğrenmek için giderler. Üstelik
testler, bir öğrencinin mutlak öğrenme düzeyini belirtmekten uzaktır. Test-
ler, ancak öğrencileri başarılarına göre sıralayabilir ve bu sıralamada, tah-
min, blöf ve puanlayıcının öznel kanısı gibi başarı dışındaki etkenler de etki-
li olur. Eğer testler kullanılmaz da, öğrencileri bizzat kendilerinin değerlen-
dirmesine fırsat verilirse, öğretme-öğrenme süreci daha etkili olur.”
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 101
14. Sınav sırasında kopya çekilmesi durumunda, puanlara hangi hata kaynağı
etki eder?
15. Soruların bazılarının silik çıkması nedeniyle okunamıyor olması durumun-
da puanlara hangi hata kaynağı etki eder?
16. Sınavların okunması esnasında bazı cevapların gözden kaçırılarak puan-
lanması durumunda puanlara hangi hata kaynağı etki eder?
(14:A, 15:D, 16:B)
102 Eğitimde Ölçme ve Değerlendirme
(A)
4. ►Seçenekler konu olarak ve dil bilgisi olarak madde kökü ile aynı ol-
malıdır. Seçenekler kendi içinde de yine konu ve gramer olarak aynı
olmalıdır. Farklı olması bilmeyen öğrencilere ipucu oluşturabilir. Örne-
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 103
fark ettiğinde onlar için ipucu teşkil edecek ve diğer sorularda bilmese-
ler de uzunluğuna göre tahminde bulunma yoluna gideceklerdir.
7. ►Soruların yazımı bittiğinde bir sorunun cevabının diğer sorularda
verilmediğinden emin olmak için kontrol edilmelidir.
Örnek:
Yunanistan’ın başkenti aşağıdakilerden hangisidir?
A) Atina B) Belgrat C) Riga D) Roma E) Viyana
Örnek:
Yunanistan’ın başkenti olan Atina, nüfus yoğunluğu olarak ülkenin kaçıncı
büyük şehridir?
A)1. B) 2. C)3. D)4. E) 5.
Her öğrenci sorulan sorunun doğru cevabını bilemeyebilir ama her öğ-
renci soruyu okuduğunda soruda neyin istendiğini anlamalıdır.
Yanlış Örnek:
Senenin en kısa gecesi hangi aydadır?
A) Mart B) Haziran C) Eylül D) Aralık
(B ve ya D)
Bu soruyu bazı öğrenciler kuzey yarım küreyi bazı öğrenciler güney ya-
rım küreyi dikkate alarak yapabilirler. Doğru cevap için hangi yarım kürenin
esas alınması gerektiği de belirtilmelidir:
Doğru Örnek:
Kuzey yarımkürede, senenin en kısa gecesi hangi aydadır?
A) Mart B) Haziran C) Eylül D) Aralık
(B)
Yukarıdaki verilen örnekte Ali’ nin 100 soruluk ve her sorunun bir pu-
an olduğu bir doğru/ yanlış testinden 70 doğru 30 yanlış yaptığını düşünür-
sek, Ali’nin bu testten alacağı puan aşağıdaki gibi hesaplanabilmektedir:
Ali bu testten 40 puan almıştır. Daha önce bahsedildiği gibi eğer dü-
zeltme formülü kullanılacaksa bunun önceden öğrencilere söylenmesi ge-
rekmektedir.
2. Yaklaşım: Şans başarısını gidermenin diğer bir yolu da öğrencilerden
ifade yanlış ise yanlışlığın nerede olduğunu belirtmesini istemektir. Örne-
ğin;
Yönerge: Aşağıdaki ifadeyi okuyun ve parantez içine yanlış ise Y, doğru ise D
yazın. İfade yanlış ise yanlış olan yerin altını çizin.
( ) Test puanlarının rasgele hatalardan arınık olma derecesine geçerlik denir.
Yönerge: Aşağıdaki ifadeyi okuyun ve parantez içine yanlış ise Y, doğru ise D
yazın. İfade yanlış ise yanlış olan yerin altını çizin ve doğru olan ce-
vabı yazın..
(Y) Test puanlarının rasgele hatalardan arınık olma derecesine geçerlik denir.
“güvenirlik”
Eşleştirme Maddeleri
Kısa cevaplı maddeler cevabı bir kelime, bir harf, bir işlem ya da en faz-
la bir cümle uzunluğunda olan maddelerdir. Yazılı yoklamalarla aralarında-
ki en önemli farklılıklardan birisi budur. Cevap uzunluğu bir cümleyi geçen
maddeler yazılı yoklama maddesi olarak ele alınmaktadır. İlerideki bölüm-
lerde yazılı yoklama maddelerinin diğer özellikleri üzerinde durulmaktadır.
Öğrencilerin boşluk doldurma olarak bildikleri maddeler de aslında kı-
sa cevap maddelerinin özel bir halidir. Aşağıda farklı formattaki kısa cevap
maddeleri verilmiştir.
Örnek 1.
Letonya’nın başkenti neresidir?
Riga
Örnek 2.
Atatürk samsuna kaç yılında çıkmıştır?
1919
Eğitim Sistemimizde Yaygın Olarak Kullanılan Test Türleri 111
Örnek 3.
İkinci dünya savaşı …………. yılında bitmiştir.
1918
Örnek 4.
Geçerliğin tanımı nedir?
Testin amacına hizmet etme derecesidir.
Örnek 5.
Aşağıda bir cümle verilmiştir. Verilen cümleye ait özne, nesne ve yüklemin
neler olduğunu aşağıda verilen A,B ve C seçeneklerinde bırakılan boşluk-
lara yazınız.
“Ayşe koşarak annesine sarıldı.”
A) ÖZNE:……………………………….
B) NESNE:…………………………….
C) YÜKLEM:…………………………….
Burada yazarı bilmeyen öğrenci sonu “dir” ile biten yazarlardan birisini
yazması gerektiğini fark edip bilmediği halde doğru cevabı verebilecektir.
Bu soru şu şekilde verilmelidir:
Örnek:
İnce Memed……………………tarafından yazılmıştır.
Burada savaşın başlangıç tarihini bilen fakat kaç yıl sürdüğünü bilme-
yen bir öğrenci bitiş tarihi verildiği için doğru cevabı bulacaktır. Soru şu
şekilde yazılabilir:
Örnek:
Birinci dünya savaşı ………….yıl sürmüştür.
Örnek:
Bir Avrupa ülkesi olan Belçika’nın başkenti neresidir?
Burada çok sayıda boşluk bırakıldığı için cevaplayıcının soruda neyin is-
tediğini anlaması mümkün değildir. Ayrıca farklı kelimelerle doldurarak
farklı cevaplar vermesi de mümkün olacaktır. Bu madde aşağıdaki şekilde
düzeltilebilir.
Örnek:
--------------- bölüneni bölene bölmekle elde edilir.
Yazılı Yoklamalar
Örneğin;
Lozan antlaşmasının maddelerini yazınız.
olur. Detaylı puanlamada, öğretmen her bir öğrenciye ayrıntılı olarak geri
bildirim verebilir ya da öğretimde gerekli düzeltmeleri yapabilir.
4. ► Cevapların okunması sırasında isim bölümleri kapatılarak okunma-
lıdır. Bu, öğretmenin öğrencilerin kimliklerinden etkilenmesini önler.
5. ► Cevaplar okunurken önce tüm öğrencilerin birinci soruya verdikleri
cevap okunmalı sonra aynı şey diğer sorular içinde yapılmalıdır. Bunun
sağladığı çeşitli yararlar vardır:
a) Öğretmenlerin cevapları okurken öğrencinin ilk cevabından etki-
lendikleri gözlenmiştir. Şöyle ki, öğretmen, öğrencinin ilk soruya
verdiği cevap çok iyi ise sonraki cevaplar kötü dahi olsa daha iyim-
ser notlar verme eğilimi gösterebilmektedirler. Aynı şekilde öğren-
cinin ilk cevabı kötü ise sonraki sorulara verdiği cevaplar iyi bile ol-
sa daha kötümser notlar verebilmektedirler. Önce tüm öğrenciler
için birinci soruyu okuma ve diğerlerini de aynı şekilde okuma bu
olumsuzluğu büyük ölçüde engelliyecektir.
b) Öğretmen farklı farklı soruları okuyarak puanlama yaptığında, her
defasında farklı bir konu ya da ayrıntıya yoğunlaşmak zorundadır.
Bu nedenle hangi noktalara dikkat edilmesi gerektiği konularında
daha fazla hata yapacaktır. Tüm öğrenciler için aynı soruya verilen
cevabı okumada öğretmen daha az hata yapacaktır ve okuma hızı
artacaktır.
6. ►Öğretmen puanlama yaparken, eğer Türkçe ya da Yabancı dil beceri-
lerinin ölçüldüğü bir ders değil ise, yazı güzelliği, akıcılık, sayfa düzeni,
dilbilgisi gibi noktalardan etkilenmemesi gerektiğini aklında bulundur-
malıdır. Örneğin, coğrafya dersinde sorulan aşağıdaki soruda verilen
cevabın doğruluğu önemlidir ama yazı güzelliği, dilbilgisi vb. etkenler
önemsizdir çünkü o soruda ölçülmek istenen öğrenmeler onlar değildir.
Örnek
Dicle ve Fırat nehirlerinin, Türkiye’nin su politikası açısından taşıdığı öne-
mi tartışın.
Sözlü Sınavlar
Ödevler
Özet
Özetle ifade etmek gerekirse hangi tür ölçme aracı olursa olsun bir ölç-
me aracı ya da testi hazırlamadan önce mutlaka bir test planı yapılması ge-
reklidir. Bu planda aşağıdaki noktalar aydınlatılmalıdır:
➣ Testin ne amaçla yapıldığı netleştirilmelidir. Bu öğrenme eksiğini ve
yanlışlarını giderme, öğrenciyi uygun kura ya da sınıfa yerleştirme
(formatif değerlendirme) olduğu gibi öğretimi yapılan konulardan
not verme de (summatif değerlendirme) olabilir.
➣ Ayrıca planda hangi kazanım ya da davranışın hangi konularla iliş-
kili olarak ölçüleceği bir belirtke tablosuyla netleştirilmelidir.
➣ Kaç soru sorulacağı kararlaştırılmalıdır. Bu belirtke tablosuna bakı-
larak ta netleştirilebilir.
➣ Hangi tür maddelerin kullanılacağı netleştirilmelidir.
➣ Hangi soruya kaç puan verileceği belirtilmelidir.
➣ Düzeltme formülü uygulanıp uygulanmayacağına karar verilmelidir.
➣ Test süresi netleştirilmelidir.
Yapılacak olan bir test planı güvenirliği ve geçerliği olan bir testin hazır-
lanmasını büyük ölçüde sağlayacaktır. Sınavın uygulanması ve puanlanması
sırasında alınacak olan diğer tedbirlerle birlikte geçerli ve güvenilir bir sınav
büyük ölçüde garantilenmiş olacaktır.
Yukarıda da belirtildiği gibi her bir test türünün taşıdığı avantajlar ve sınır-
lılıklar bulunmaktadır. Kullanım esnasında bunlar göz önünde bulundurulma-
lıdır. Her test türünün ideal olduğu yer ve durumlar vardır. Hangi tür kazanım
ya da davranışların ölçüleceği sınav türünü belirlemede ki en önemli etkendir.
Bunun dışında öğrenci sayısı, zaman, ölçülecek kazanım sayısı, öğrencinin yaşı
ve düzeyi gibi faktörlerde düşünülerek hangi sınav türünün uygun olduğuna
karar verilmelidir. Hangi tür test kullanılacak olursa olsun bu türün hazırlan-
ması, puanlamasına ilişkin kurallar mutlaka izlenmelidir.
124 Eğitimde Ölçme ve Değerlendirme
Kaynakça
Çakan, M. (2000). Interaction between cognitive style and assessment
approaches. Unpublished Dissertaion, Louisiana State University.
Çakan, M. (2005). Eğitimde Ölçme - Değerlendirme ve Bu Alandaki Yeni
Yönelimler. A. Altun ve S . Oklun. (Eds).
Özçelik, D.A. (1992). Ölçme ve Değerlendirme. (2. Baskı). ÖSYM Yayınları, Ankara.
Lu, C. & Suen, H. K. (1995). Assessment approaches and cognitive styles. Journal of
Educational Measurement, 32, 1-17.
Nightingale P, Wiata IT, Toohey S, Ryan G, Hughes C, Magin D. (1996). Assessing
Learning in Universities. Sydney: University of New
South Wales Press.
Tekin, H. (2000). Eğitimde Ölçme ve Değerlendirme. (14. Baskı). Yargı Yayınevi,
Ankara.
Turgut, F. (1990). Eğitimde Ölçme ve Değerlendirme Metotları. (7. Baskı). Saydam
Matbaacılık, Ankara.
Sorular
ÖĞRENCİ PERFORMANSININ
DEĞERLENDİRİLMESİNDE
KULLANILAN DİĞER ÖLÇME
ARAÇ VE YÖNTEMLERİ
Devrim ALICI
Mersin Üniversitesi
Kazanımlar
Bu bölümün sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir:
Öğrencilerin öğrenmelerini ve gelişimlerini izlemek amacıyla
performans görevleri hazırlayabilme; proje örnekleri sunabilme
Öğrencilerin öğrenmelerini ve gelişimlerini izlemek amacıyla gözlem
ve görüşmeler yapabilme
Öğrencilerin performans görevlerini, araştırma projelerini ve gelişim
dosyalarını değerlendirmek için hangi ölçme araçlarını
kullanabileceğine karar verebilme ve bu araçları ölçme tekniklerine
uygun bir biçimde geliştirebilme
Öğrencilerin değerlendirme sürecine katılımının önemini
kavrayabilme
Öğrencilerin değerlendirme sürecine katılımını sağlamak üzere,
öğrencilerle birlikte ilgili kazanım ve becerilerin değerlendirme
ölçütlerini belirleyebilme; belirlenen bu ölçütleri kullanarak öz
değerlendirme, akran değerlendirme ve grup değerlendirme
formlarını geliştirebilme
Kontrol listeleri ve dereceleme ölçekleri arasındaki temel farklılıkları
kavrayabilme.
Amacına uygun olarak kontrol listeleri ve dereceleme ölçekleri
hazırlayabilme
128 Eğitimde Ölçme ve Değerlendirme
Konu Başlıkları
Giriş
Öğrenci Performansının Değerlendirilmesi
Öğrenci Performansını İzlemeye Yönelik Çalışmalar
Gözlem
Öğrencilerin Değerlendirme Sürecine Katılımı
Öz Değerlendirme
Öğrenci Performansının Değerlendirmede Kullanılabilecek Ölçme
Araçları
Özet
Kaynakça
Sorular
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 129
Giriş
Bir sistemin sürdürülebilirliği, ilgili sistemin kendini ne kadar
tanıyabildiği, eksikliklerini ve yanlışlıklarını ne oranda tanımlayabildiği ve
düzeltebildiği, kendini ne kadar güncelleyebildiği, yeni gelişmelere ne kadar
uyum sağlayabildiği, kısacası kendini ne kadar onarabildiği ve
yenileyebildiği ile doğrudan ilişkilidir. Sistemdeki eksiklik ve yanlışlıkların
ortaya konmasını ve bu yolla sistemin varlığını etkin bir biçimde devam
ettirebilmesini sağlayan mekanizma, sistemin “kontrol” mekanizmasıdır.
Sistemler kendilerini etkili bir biçimde kontrol ettikleri oranda varlıklarını
sürdürürler; kendi kendini kontrol edemeyen sistemler mutlaka çöker.
“Bu sistem (eğitim) çökmüş” cümlesi, günlük hayatımızda, eğitimle ilgili
sohbetlerde, konuşmalarda, toplantılarda, basın ve yayın organlarında vb.
sıklıkla karşılaştığımız, öğretmenlerinden öğrencilerine, tüm eğitimciler
arasında da kullanılagelen (belki de kullandığımız) bir cümledir. “Bir sistem
neden çöker?” sorusunun yüzlerce cevabı olabilecekken, aslında
verilebilecek öncelikli cevap şudur: kontrol mekanizması düzenli ve doğru
bir biçimde işlemezse sistem çöker. Sistemin kontrol mekanizmasının
düzenli ve doğru bir biçimde işlememesi, sorunun kaynağının
(kaynaklarının) belirlenmesini ve giderilmesini engeller; bu engeller
biriktikçe, sistemde tökezlemeler başlar ve bir süre sonra çarklar durur.
Eğitim sisteminde kontrol mekanizmasını ölçme ve değerlendirme
çalışmalarının sağladığı düşünüldüğünde, “eğitim sistemi neden çöker?”
sorusunun ilk cevabı, “ölçme ve değerlendirme çalışmalarının nitelikli bir
biçimde gerçekleştirilmemesi nedeniyle” şeklinde olmalıdır. Eğitim
sisteminin nitelikli bir biçimde kendini sürdürebilmesi, öncelikle nitelikli
ölçme ve değerlendirme çalışmalarının yapılmasına bağlıdır.
Eğitim sürecinde farklı değerlendirme amaçlarına yönelik olarak ölçme
çalışmaları gerçekleştirilir. Eğitimde daha çok psikolojik özelliklerin
ölçümüyle ilgilenilmesi, farklı ölçme araçlarının kullanımını beraberinde
getirir. Ölçme araçlarının güvenirliği ve geçerliği, yapılan ölçümlerin ve
dolayısıyla bu ölçme sonuçlarına bağlı olarak yapılan değerlendirmelerin
güvenirliğini ve geçerliğini belirler. O halde, eğitimle ilgili isabetli kararların
alınması, (sistemin etkili bir biçimde varlığını sürdürebilmesi), güvenilir ve
geçerli ölçümlerin sağlanmasına; güvenilir ve geçerli ölçümlerin sağlanması
da bu ölçümlerin elde edilmesinde kullanılan ölçme araçlarının
güvenirliğine ve geçerliğine doğrudan bağlıdır.
Eğitimde farklı amaçlarla kullanılan çeşitli ölçme araçları vardır. Bu
araçların genel olarak testler (çoktan seçmeli, kısa cevaplı-boşluk
130 Eğitimde Ölçme ve Değerlendirme
Performans Görevleri
Milli Eğitim Bakanlığı’nın yayınladığı “Proje ve Performans Görevleri”
konulu genelgede (MEB, 2008) performans görevleri, “programda
öngörülen eleştirel düşünme, problem çözme, yaratıcılık, araştırma gibi
öğrencilerin bilişsel, duyuşsal ve devinimsel becerilerini kullanmasını,
geliştirmesini ve bir ürün ortaya koymasını gerektiren çalışmalar” olarak
tanımlanmaktadır. Genelgeye göre performans görevleri, öğrencilerin
öğretmen tarafından belirlenen bir konuda araştırma ve veri toplama
çalışmalarını sınıf dışında gerçekleştirdikten sonra, bu konuda bir ürün
oluşturma çalışmalarını sınıf içerisinde tamamladıkları etkinlikler şeklinde
düzenlenmelidir.
Bir ders kapsamında gerçekleştirilecek performans görevi sayısının
öğrencilerin gelişim düzeylerine, ilgilerine ve isteklerine, öğrenme
eksikliklerine ve ihtiyaçlarına, okul ve çevrenin olanaklarına göre, öğretmen
132 Eğitimde Ölçme ve Değerlendirme
Performans Görevi
Sınıf: (Sınıf düzeyini yazınız)
Ders: (Dersin adını yazınız)
Ünite/Tema: (Ünitenin/Temanın adını yazınız)
Kazanımlar: (Performans görevinin yapılmasıyla gerçekleşmesi beklenen tüm
kazanımları yazınız)
Performans Görevinin Konusu: (Performans görevinin adını, kapsamını
belirtiniz. Gerekli ise şekil, grafik, resim vb. de kullanarak performans görevinin
açık ve net bir biçimde anlaşılması için açıklama yapınız. Performans görevinin
öğrencilerin düzeyine, ilgilerine ve ihtiyaçlarına uygun olmasına dikkat ediniz)
Yönerge: (Çalışmanın nasıl planlanacağı, hangi kaynaklardan
yararlanılabileceği, teslim tarihi, raporun nasıl hazırlanacağı, sunum yapılıp
yapılmayacağı,şekil, grafik, tablo vb. kullanılıp kullanılamayacağı; ses ve video
dosyalarından yararlanılıp yararlanılamayacağı vb. konularda bilgi veriniz.)
Değerlendirme: (Değerlendirmede kullanılacak ölçütlerin neler olduğu, bu
ölçütlerin nasıl puanlanacağı hakkında bilgi veriniz)
136 Eğitimde Ölçme ve Değerlendirme
Araştırma Projeleri
Araştırma projeleri, “öğrencilerin grup halinde ya da bireysel olarak
istedikleri bir alan veya konuda inceleme, araştırma ve yorum yapma, görüş
geliştirme, yeni bilgilere ulaşma, özgün düşünce üretme ve çıkarımda
bulunmaları amacıyla ders öğretmeni rehberliğinde yapacağı çalışmaları
(MEB, 2008) ifade etmektedir. Buna göre öğrenciler, bir ders yılında
istedikleri ders veya derslerden bireysel ya da grup çalışması şeklinde en az
bir proje hazırlarlar.
Projeler, birkaç hafta hatta birkaç ayda tamamlanabilen genişletilmiş
performans görevleri olarak düşünülebilir. Proje çalışmalarında, öğrenciler
problemi ortaya koyar, seçenekler üzerinde düşünür, çözümleri planlar ve
kendi çözümlerini gösterir.
Araştırma projeleri bireysel olarak gerçekleştirilebileceği gibi, gruplar
halinde de gerçekleştirilebilir. Buradaki “gruplar” ifadesi, her zaman bir
sınıftaki öğrencilerden oluşturulan en az iki kişilik gruplar anlamına
gelmeyebilir. Bir sınıftaki öğrencilerin tamamı bir araştırma projesini
yürütebileceği gibi, aynı sınıf düzeyinde farklı şubelerde okuyan öğrencilerin
140 Eğitimde Ölçme ve Değerlendirme
Gözlem
Gözlem, öğrencilerin öğrenmelerini ve gelişimlerini izlemek ve
değerlendirmek amacıyla yararlanılan tekniklerdendir.
Gözlem yoluyla öğrencilerin öğrenme ve gelişimlerinin izlenebilmesi
için öncelikle öğretmenin gözlemek istediği özelliği tanımlaması ve daha
sonra da bu özelliğin varlığını ya da yokluğunu ifade eden davranışsal
göstergeleri (ölçütleri) tanımlaması gerekir.
Bir sonraki aşamada, belirlenen ölçütlerin gözlenerek kaydedilmesinde
hangi ölçme aracından yararlanılacağının belirlenmesi gerekir. Gözlem
sonuçlarının kaydedilmesinde çoğunlukla kontrol listelerinden
yararlanılmaktadır.
Üçüncü aşamada öğretmen, gözlemi nasıl yapacağını belirlemelidir.
Gözlem, katılımlı veya katılımsız gözlem olmak üzere iki şekilde
gerçekleştirilebilir. Katılımlı gözlemde öğretmen, gözlemek istediği
koşulların içinde kendisi de doğrudan yer alır. Örneğin, öğrencilerinin
grupla çalışma alışkanlıklarını gözlemek isteyen bir öğretmen, her grupta,
grubun doğal bir üyesi olarak yer alabilir; grup içerisindeki çalışmalarda
aktif olarak görev alabilir. Katılımsız gözlemde ise öğretmenin, aktif
katılımcı olmaksızın dışarıdan gözlem yapması söz konusudur. Örneğin,
öğrencilerinin motor becerilerindeki gelişimlerini belirlemek isteyen bir
anasınıfı öğretmeni belirli zaman aralıklarında bu konuda gözlemler
yaparak ve gözlem sonuçlarını kaydedebilir. Aşağıda, bir anasınıfı
öğretmeninin öğrencilerinin küçük motor becerilerindeki gelişimlerini
gözlemek üzere hazırladığı bir gözlem formu örneğine yer verilmiştir.
Görüşme
Öğrencilerin öğrenmelerini gözlemenin yollarından biri de
görüşmelerdir. Özgüven’e (1980) göre görüşme, en az iki kişi arasında sözlü
olarak sürdürülen bir iletişim sürecidir. Görüşme tekniği, bireylerin tutum,
duygu, düşünce ve inançlarına ilişkin bilgilerin elde edilmesinde etkili bir
yöntem olması nedeniyle, sosyal bilimlerdeki araştırmalarda sıklıkla kullanılır.
Görüşmeler, yapılandırılmış, yarı yapılandırılmış ya da
yapılandırılmamış olmak üzere üç farklı biçimde gerçekleştirilebilir.
Yapılandırılmış görüşmelerde, görüşmenin yapıldığı her öğrenciye aynı
sorular, aynı formatla sorulur. Bu tür görüşmelerde çoğunlukla açık uçlu
sorulara yer verilmez. Yarı yapılandırılmış görüşmeler önceden planlanan
sorulardan oluşmakla birlikte, görüşme sırasında cevapların ayrıntılı olarak
verilmesine olanak sağlamak amacıyla, ek soruların da sorulması söz
konusudur. Yapılandırılmamış görüşme ise, herhangi bir görüşme
protokolü olmaksızın spontane gerçekleştirilen görüşme şeklidir. Bu
görüşme tekniğinde, görüşülen kişinin verdiği cevaplara göre yeni soruların
üretilmesi ve sorulması söz konusudur (Türnüklü, 2000).
Görüşmeyi yapan kişinin önceden belirlenen soruların yanında ek
sorular sorabilmesi ya da soruların sıralarında değişiklik yapabilmesi; net
bir cevap alınamaması ya da sorunun anlaşılamaması durumunda sorunun
farklı bir biçimde yeniden sorulabilmesi ve bu yolla konu ile ilgili
derinlemesine bilgi alınabilmesi; görüşme sürecinin ses ya da video kayıtları
yoluyla kaydedilebilmesi (Yıldırım ve Şimşek, 2004) gibi özellikler görüşme
tekniğinin güçlü yanlarını ortaya koymaktadır Görüşme tekniğinin zayıf
yanlarından bazıları ise, görüşmenin süresi, görüşmenin maliyeti, soruların
standart olmayışı, görüşmeyi yapan kişinin verilen cevapları yanlış anlaması
nedeniyle ya da kendi düşünce süzgecinden geçirmesi nedeniyle yanlı
kaydetme olasılığı (Yıldırım ve Şimşek, 2004) şeklinde sıralanabilir.
Görüşme tekniği kullanılırken, görüşmenin hangi sıklıkla ve kaç kez
tekrarlanacağının, hangi koşullarda gerçekleştirileceğinin, nasıl
kaydedileceğinin ve süresinin önceden planlanması gerekir. Aşağıda,
öğrencilerin aileleriyle ilişkileri hakkında görüşme yapmak isteyen bir
öğretmenin hazırlayacağı bir görüşme formu örneğine yer verilmiştir.
Görüşme formunda yer alan sorular örnek amaçlı düzenlenmiş olup,
görüşmenin amacına bağlı olarak ekleme ve çıkarmalar yapılabilir.
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 145
Annenin Adı:
Babanın Adı:
Anne ( ) yaşıyor ( ) yaşamıyor
Baba ( ) yaşıyor ( ) yaşamıyor
Annenin mesleği: ……………………………………………………………
Babanın mesleği: ……………………………………………………………
Ailedeki çocuk sayısı (öğrenci dahil) : ……………………………………
Ailenle ilişkilerin genel olarak nasıl?
………………………………………………………………………………...
…………………………………………………………………………………
Ailende kendini en yakın bulduğun kişi kim? Kendini ona daha yakın hissetmenin
nedenleri neler olabilir?
………………………………………………………………………………...
…………………………………………………………………………………
(varsa) Kardeşlerinle ilişkilerin nasıl?
………………………………………………………………………………...
…………………………………………………………………………………
Derslerinde sana yardımcı olan biri var mı?
………………………………………………………………………………...
…………………………………………………………………………………
Annenle ve babanla çoğunlukla neleri paylaşırsın?
………………………………………………………………………………...
…………………………………………………………………………………
Anne babanın seni anladıklarını ya da anlamaya çalıştıklarını düşünüyor musun?
………………………………………………………………………………...
…………………………………………………………………………………
Anne babanla (varsa) ne tür konularda anlaşamıyorsunuz? Anlaşamamanızın
nedenlerini nelere bağlıyorsun?
………………………………………………………………………………...
…………………………………………………………………………………
Evde, ailece birlikte yapmaktan hoşlandığınız şeyler neler?
………………………………………………………………………………...
…………………………………………………………………………………
146 Eğitimde Ölçme ve Değerlendirme
Öz Değerlendirme
Öz değerlendirme, öğrencilerin kendi çalışmalarının uygunluğuna
ilişkin ölçütleri belirledikleri ve bu ölçütlerin ne kadarını karşıladıklarına
ilişkin kararları kendilerinin verdikleri değerlendirme türü olarak
tanımlanabilir. Bu tanıma göre öz değerlendirme, öğrencinin kendi
çalışmasını derecelendirmesinden çok daha fazlasıdır, öğrencilerin “iyi”
çalışmanın ne olduğunu belirleme sürecine dahil olmasını da gerektirir
(Lomas, Hill ve MacGregor, 2004).
Brown ve Knight (1994) öz değerlendirmenin temel özelliğini şu şekilde
açıklamaktadır: “o halde değerlendirme, öğrencilere uygulanan bir süreç
değildir, ancak kendilerinin dahil olduğu katılımcı bir süreçtir. Bu,
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 147
ÖZ DEĞERLENDİRME FORMU
Etkinlik : Tarih : ______________________________________________
Öğrenci : ____________________________________________________
Sınıfı :_______________________________________________________
Numarası : ___________________________________________________
1. Bu etkinlikte ne öğrendim?
____________________________________________________________
____________________________________________________________
2. Neyi iyi yaptım? Neden?
____________________________________________________________
____________________________________________________________
3. Hangi konuda zorlandım? Neden?
____________________________________________________________
____________________________________________________________
4. Nerede yardıma ihtiyacım oldu?
____________________________________________________________
____________________________________________________________
5. Hangi alanda kendimi daha çok geliştirmeliyim?
____________________________________________________________
____________________________________________________________
6. Kuvvetli ve zayıf yönlerim neler?
____________________________________________________________
____________________________________________________________
7. Daha sonraki çalışmalarda neleri farklı yapacağım?
____________________________________________________________
____________________________________________________________
Akran Değerlendirme
Akran değerlendirme, öğrencilerin birbirlerinin yaptıkları çalışmaları
değerlendirmelerini ifade eder. Öğrencilerin akran değerlendirme yoluyla
diğer öğrenciler tarafından değerlendirilmesi ve geribildirim alması,
öğrenme süreçlerine çok önemli katkıda bulunur. Akran değerlendirme
çoğunlukla hem ürünün hem de sürecin değerlendirildiği durumlarda ve
grup çalışmaları söz konusu olduğunda gerçekleştirilmektedir.
Akran değerlendirmenin yararları aşağıdaki gibi ifade edilebilir:
1. Öğrencileri daha eleştirel düşünmeleri konusunda destekler.
2. Öğrenme sorumluluğunu öğrencilere bırakır.
3. Diğerlerinin başarılı ve zayıf yönlerinden öğrenmeler gerçekleşir.
4. Öğrencilerin konu ile ilgili neye ihtiyacı oldukları konusunda
farkındalıkları artar.
5. Büyük sınıflarda tüm öğrencilere uygun geribildirimler verilmesine
olanak sağlar.
6. Öğrencilerin topluluğun bir parçası oldukları inancını destekler.
Öz değerlendirme ve akran değerlendirme genellikle birlikte kullanılır.
Akran değerlendirme, öz değerlendirmeye yardımcı olur. Diğerlerinin
performanslarını değerlendiren öğrenciler, kendi performanslarına ilişkin
bir anlayış kazanırlar.
Akran değerlendirmenin yapılabilmesi için değerlendirme ölçütlerinin
önceden belirlenmiş olması gerekir. Değerlendirme ölçütlerini gerekirse
öğretmen kendi belirler, ya da bu ölçütlere öğrencilerle birlikte karar verilir.
Akran değerlendirmenin başlangıçta nesnel bir biçimde
gerçekleştirilmesi güç olabilir. Öğrencilerin sevdikleri, yakın buldukları
arkadaşlarını değerlendirirken öznel davranma olasılıkları yüksektir.
Öğretmenin akran değerlendirmenin önemini ve nasıl yapılması gerektiğini
öğrencilerine açıklaması gerekir. Öz değerlendirmede olduğu gibi, akran
değerlendirme çalışmaları da belirli aralıklarla rutin olarak
gerçekleştirildiğinde, öğrencilerin bir süre sonra nesnel bir biçimde akran
değerlendirme yapmaya başladıkları görülecektir. Aşağıda, grup
çalışmalarında yararlanılabilecek bir akran değerlendirme formu örneğine
yer verilmiştir. Form, yeni ölçütler eklenerek geliştirilebilir.
150 Eğitimde Ölçme ve Değerlendirme
Grup Değerlendirme
Grup değerlendirme, grup çalışmalarının yapıldığı durumlarda, grup
üyelerinin hem kendilerini hem de grubun diğer üyelerini
değerlendirmesidir. Böylece öğrenciler birbirlerinin grup içerisindeki
çalışmalarını değerlendirmiş ve bu konuda birbirlerinin düşüncelerini
öğrenmiş olmaktadır.
Grup değerlendirmede, grup üyelerinin bireysel olarak yaptıkları
değerlendirmelerde ne kadar adil davrandığı ve her üyenin bireysel olarak
çalışmaya katkısının ne kadar farkında olduğu önemlidir.
Grup değerlendirme hem öz değerlendirme hem de akran
değerlendirmeyi içerdiğinden, her iki değerlendirmenin öğrencilerin
öğrenmelerine ve gelişimlerine katkıları bu değerlendirme için de geçerlidir.
Aşağıda, açık uçlu sorular yardımıyla oluşturulan bir grup
değerlendirme formu örneğine yer verilmiştir.
Kontrol Listeleri
Kontrol listeleri, istenen davranış değişikliğinin öğrencide gerçekleşip
gerçekleşmediğini (var/yok, evet/hayır vb.) ortaya koymak amacıyla
kullanılan ölçme araçlarıdır. Kontrol listeleri, sadece ilgili davranışın
öğrencide bulunup bulunmadığı ile ilgili bilgi sunarlar; davranışın hangi
sıklıkta ve hangi düzeyde gösterildiğine ilişkin herhangi bir bilgi vermezler.
Bu nedenle kontrol listeleri, öğretmenlerin bir grup öğrenci hakkında genel
bilgilere ihtiyaç duyduklarında daha yararlıdır.
Kontrol listeleri, iyi düzenlendikleri taktirde eğitim hedeflerinin ve
amaçlarının belirlenmesi, dersin gerekliliklerinin ve beklentilerinin ortaya
konması, öğrencilerin öğrenme deneyimlerini inceleme, bu deneyimlere
odaklanma ve rehberlik etme, öğrencilere sınıf içi ya da sınıf dışı projelerini
gerçekleştirmede rehberlik etme ya da referans oluşturma, öğrencilere
geribildirim verme, öğretim etkinlikleri ve materyalleri geliştirme,
öğrencilerin öğrenmelerini olabildiğince nesnel bir biçimde değerlendirme,
öğrencilerin öğrenmelerini ve düşünmelerini destekleme gibi amaçlarla
eğitimde sıklıkla kullanılmaktadır (Hurst, 1979).
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 153
Formu “Evet” veya “Hayır” bölümlerine “X” koyarak doldurunuz. “Hayır” bölümündeki
“X” işaretleriniz bir ya da daha fazlaysa öğrencinizin bu konudaki eksikliklerini
gidermesine yardımcı olunuz.
* http://www.dersimiz.com adlı siteden alınmıştır (22.05.2008).
154 Eğitimde Ölçme ve Değerlendirme
ÖLÇÜTLER E K H
1. …
2. …
3. Metnin okunmasında dikkat edilmesi gereken kurallar:
3.1. Noktalama işaretlerine uygunluk
3.2. Ses tonunun ayarlanması
3.3. Vurgulamaların yerinde yapılması
4. …
5. …
Grubun adı:
Çalışmanın adı:
Özet
Öğrencilerin öğrenme sürecinde gerçekleştirdikleri çalışma ve
etkinliklerle, süreç sonunda ortaya koydukları ürünlerin değerlendirilmesi
Performans Değerlendirme olarak adlandırılır. Performans
değerlendirmeler, öğrencinin süreç içerisindeki gelişimi ve kazandığı
beceriler belgelenmesine; öğrenme sürecini engelleyen durumlarla ilgili
geribildirim vererek gerekli düzenlemelerin gerçekleştirilmesine olanak
sağlar. Değerlendirme aynı zamanda, velilerin de kendi çocuklarının
gelişimini ve kapasitelerini anlamalarına ve çocuklarının öğrenme sürecine
etkin bir biçimde katkıda bulunmalarına yardımcı olur.
Performans görevleri, araştırma kağıtları, araştırma projeleri ve öğrenci
gelişim dosyaları, öğrenci performansının izlenmesi amacıyla yararlanılan
çalışma ve etkinlikler arasında yer alır. Bunun yanında öğrenci performansı,
gözlem ve görüşme teknikleri yoluyla da izlenebilmektedir.
Yapılandırmacı yaklaşımla birlikte, öğrenci performansının
değerlendirilmesinde, öğretmenin yaptığı değerlendirmelerin yanında
öğrencilerin ve velilerin değerlendirmeleri de önem kazanmıştır.
Öğrencilerin değerlendirme sürecine katılımı, öz değerlendirme, akran
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 161
Kaynakça
Alıcı, D., Gözen Çıtak, G. (2008). “Değerlendirme Yaklaşımlarında Kavram
Tartışmaları”, I. Ulusal Eğitimde ve Psikolojide Ölçme ve Değerlendirme
Kongresi, Ankara Üniversitesi Eğitim Bilimleri Fakültesi, 14-16 Mayıs 2008.
Ankara.
Anderson, R. S. (1998). Why Talk About Different Ways to Grade? The Shift From
Traditional Assessment to Alternative Assessment. New Directions for
Teaching and Learning, 74, 5-16.
Atılgan, H. (2006). Değerlendirme ve not verme. H. Atılgan (Ed.). Eğitimde ölçme
ve değerlendirme. Ankara: Anı Yayıncılık.
Baki, A., Birgin, O., Güven, B., Karataş, İ. (2004). “Bilgisayar destekli bireysel
gelişim dosyası (portfolio) uygulaması”. Eğitimde İyi Örnekler Konferansı,
İstanbul: Sabancı Üniversitesi, 17 Ocak 2004.
Baki, A. ve Birgin, O. (2002). Matematik Eğitiminde Alternatif Bir Değerlendirme
Olarak Bireysel Gelişim Dosyası Uygulaması. ODTÜ V. Ulusal Fen Bilimleri
ve Matematik Eğitimi Kongresi, 16-18 Eylül, ANKARA.
Barootchi, N. ve Keshavarz, M.H. (2002). Assessment of achievement through
portfolios and tescher-made tests. Educational Research, 44(3), 279-288.
Berberoğlu, G. (2006). Sınıf içi ölçme ve değerlendirme teknikleri. İstanbul: Morpa
Kültür Yayınları.
Chatterrji, M. (2003). Designing and using tools for educational assessment. Boston:
Pearson Education, Inc.
Cook-Benjamin, L. (2001). Portfolio assessment: benefits, issues of implementation,
and reflections on its use. Assessment Update, 13(4), 6-8.
Erkan, S. ve Gömleksiz, M. (2008). Eğitimde ölçme ve değerlendirme. Ankara: Nobel
Yayın Dağıtım.
Elliot, B. (2002). Measuring performance. Columbia: Delmar, Thomson Learning.
Hanson, M.F. and Gilkerson, D. (1999). Portfolio assessment: more than ABCs and
123s. Early Childhood Education Journal, 27(2), 81-86.
Hurst, J.B. (1979). Product and performance checklists in social studies education.
Social Studies, 70(4), 158-162.
Karakuş, F. (2006). Sosyal bilgiler öğretiminde yapıcı öğrenme ve otantik
değerlendirme yaklaşımlarının öğrencilerin akademik başarı, kalıcılık ve
sosyal bilgiler dersine yönelik tutumlarına etkisi. Yayınlanmamış doktora tezi.
Adana: Çukurova Ün. Sosyal Bilimler Enstitüsü.
Karip, E. (2007). Ölçme ve Değerlendirme. Ankara: PegemA Yayıncılık.
Öğrenci Per. Değer. Kullanılan Diğer Ölçme Araç ve Yöntemleri 163
Sorular
1. Bir ilköğretim 2. sınıf öğretmeni, Hayat Bilgisi dersinde öğrencilerinden
“Atatürk’ün Hayatı” konulu bir proje hazırlamalarını istemiştir. Öğretmen,
öğrencilerinin hazırladığı projeleri değerlendirmek üzere bir dereceleme ölçeği
geliştirmiştir. Öğretmenin geliştirdiği dereceleme ölçeği aşağıdaki gibidir.
Orta Üst
düzeyde
ÖLÇÜTLER Geliştirilebilir Yeterli düzeyde
(2)
(1) (3) (4)
Araştırma
Yeterli düzeyde yapılmış
Araştırmalardan Çıkarımda
Bulunma Atatürk’ün hayatı ile
ilgili bilgileri yansıtılmış
Çalışmanın Niteliği
Resim, fotoğraf, model vb.
kullanılarak özgün bir çalışma
ortaya konmuş
4. Bir öğrenci, internetteki bir ödev sitesinden hazır elde ettiği performans görevini,
öğretmenine kendi çalışması olarak sunmuştur. Öğrencinin bu davranışı,
aşağıdakilerden hangileri bakımından uygun değildir?
I. Değerlendirmenin güvenirliği
II. Değerlendirmenin geçerliği
III. Teknolojiden etkili bir biçimde yararlanma
A) Yalnız I B) Yalnız II C) I ve II D) I ve III E) I, II ve III
Cevap Anahtarı
1 2 3 4 5 6 7 8 9 10
B C B E E A E E D B
168 Eğitimde Ölçme ve Değerlendirme
ÖLÇME SONUÇLARI
ÜZERİNDE YAPILABİLECEK
İSTATİSTİKSEL İŞLEMLER
Erol Karaca
Dumlupınar Üniversitesi
Kazanımlar
Bu bölüm sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir:
Verileri sıralayıp frekans tablosunu hazırlayabilme
Verileri gruplandırabilme
Veriler üzerinde yürütülebilecek istatistiksel işlemleri
sınıflandırabilme
En sık kullanılan merkezi yığılma ölçülerini sıralayabilme
Aritmetik ortalama kavramını tanımlayıp özelliklerini
açıklayabilme
Ağırlıklı ortalama kavramını tanımlayıp özelliklerini açıklayabilme
Mod kavramını tanımlayıp özelliklerini açıklayabilme
Ortanca kavramını tanımlayıp özelliklerini açıklayabilme
En sık kullanılan dağılım ölçülerini sıralayabilme
Ranj kavramını tanımlayıp özelliklerini açıklayabilme
Standart sapma kavramını tanımlayıp özelliklerini açıklayabilme
Varyans kavramını tanımlayıp özelliklerini açıklayabilme
Çeyrek sapma kavramını tanımlayıp özelliklerini açıklayabilme
Bağıl değişkenlik katsayısı kavramını tanımlayıp özelliklerini
açıklayabilme
170 Eğitimde Ölçme ve Değerlendirme
Konu Başlıkları
Giriş
Verilerin Düzenlenmesi
Veriler Üzerinde İstatistiksel İşlemlerin Yapılması
• Merkezi Yığılma Ölçüleri
• Dağılım Ölçüleri
• İlişki Ölçüleri
Özet
Kaynakça
Sorular
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 171
Giriş
Sınav sonuçları puanlandıktan sonra, eğitim-öğretim etkinliğinin
yürütülmesinin sağlanmasında yararlanılmak üzere, puanların bir bütün
olarak analiz edilip değerlendirilmesi gerekir. Bu amaçla sınavın
uygulandığı gruptan elde edilen veriler üzerinde istatistiksel işlemler yapılır.
Ancak, sınav sonuçlarının bütününe ait özellikleri ortaya koymada
yararlanılan istatistiksel işlemlerin yapılabilmesi, yorumlanabilmesi ve sınav
hakkında bazı kanaatlere ulaşılabilmesi için, verilerin düzenlenmesi ve
frekans tablosunun hazırlanması gerekmektedir.
Verilerin Düzenlenmesi
5 1 1 1,70 1,70
15 1 2 1,70 3,30
19 2 4 3,30 6,70
22 6 10 10,00 16,70
25 3 13 5,00 21,70
26 7 20 11,70 33,30
27 4 24 6,70 40,00
28 8 32 13,30 53,30
29 4 36 6,70 60,00
30 7 43 11,70 71,70
32 2 45 3,30 75,00
33 4 49 6,70 81,70
34 3 52 5,00 86,70
35 4 56 6,70 93,30
37 2 58 3,30 96,70
38 1 59 1,70 98,30
39 1 60 1,70 100,00
Toplam 60 100,00
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 173
Verilerin Gruplandırılması
Frekans tablosunda hem puanlar sıralanır, hem de puandan kaç tane
olduğu sayılarak frekanslar bulunur. Ancak hem puan dağılımının genel
gidişini daha iyi görebilmek ve hem de hesaplamaları kolaylaştırmak için
verilerin gruplandırılması gerekmektedir.
Veriler gruplandırılırken öncelikle grup sayısı saptanır. Grup sayısının
puan dağılımının gerçek özelliklerinin kaybolmaması için küçük
seçilmemesine ve hesaplama işlemlerinin kolaylığı için büyük seçilmemesine
dikkat edilmelidir. Ayrıca grup sayısının tek olması, puan dağılımında
simetri sağladığı için, puanların 7, 9, 11 ve 13 gibi tek sayıda gruba ayrılması
da uygun olacaktır (Turgut, 1988).
Grup sayısı saptandıktan sonra, dizi genişliği grup sayısına bölünerek
aralık genişliği (aralık ölçüsü) bulunur. Tablo 6.3’te grup sayısı 7 olarak
saptandığına göre, aralık genişliği (39-5)/7≈5 bulunur. Hesaplama
işlemlerinin kolaylığı açısından gruplamada aralıkların eşit genişlikte
olmasına dikkat edilmelidir (Akhun, 1988). Tablo 6.3’te 5 puanlık eşit
aralıklarla Tablo 6.2’deki puanlar gruplandırılmıştır.
174 Eğitimde Ölçme ve Değerlendirme
5-9 1 1 4,50-9,50
10-14 0 1 9,50-14,50
15-19 3 4 14,50-19,50
20-24 6 10 19,50-24,50
25-29 26 36 24,50-29,50
30-34 16 52 29,50-34,50
35-39 8 60 34,50-39,50
Toplam 60
Aralık sınırları Tablo 6.3’ün sol sütununda olduğu gibi tam sayılarla
saptanabilir. Ortancanın ve diğer yüzdeliklerin bulunmasında tam puanın
kesirlerine inileceği için, Tablo 6.3’ün sağ sütununda olduğu gibi, aralık
sınırlarının kesirli sayılarla da saptanabilmesi mümkündür (Turgut, 1988).
Bazen frekans tablosunda frekanslarla birlikte, dizinin altından itibaren
frekanslar toplanarak bulunan toplamlı (yığmalı) frekanslar da gösterilir.
Frekanslar bu şekilde sayı ile gösterildiği gibi, Tablo 6.4’teki gibi çetele
ile de gösterilebilir:
Tablo 6.4:60 Öğrencinin 40 Soruluk Kimya Sınavından Aldıkları
Gruplandırılmış Puanların Frekansının Çetele ile Gösterilmesi
PuanAralığı Çetele (f)
5-9 / 1
10-14 - 0
15-19 /// 3
20-24 ////// 6
25-29 ////////////////////////// 26
30-34 //////////////// 16
35-39 //////// 8
Toplam 60
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 175
30
20
Frekans
10
0
7,00 12,00 17,00 22,00 27,00 32,00 37,00
Puan
Bar grafiğinde yatay eksen ham puan ekseni, dikey eksen ise frekans
eksenidir. Yatay eksende puan aralıklarının sınırları veya her aralığın orta
değeri gösterilir. Bar grafiğinde her aralık, frekansıyla oranlı bir sütunla
gösterilir.
Verileri şekil ile göstermenin yaygın olarak kullanılan yollarından bir
diğeri ise, yüzdelik bağıl frekans dağılımlarını göstermek için kullanılan
histogram grafiğidir.
Histogram, bar grafiğine benzemekle birlikte, bar grafiğinden farklı
olarak sürekli grup aralıklarıyla çizilmektedir. Yatay eksende değişkene ait
sürekli hale getirilmiş grup aralıkları, dikey eksende frekanslar gösterilir.
Örneğin, Şekil 6.2’de 60 öğrencinin 40 soruluk kimya sınavından almış
oldukları, gerçek grup aralıklarıyla gruplandırılmış puanlarının histogram
grafiği gösterilmektedir.
30
20
Frekans
10
0
0,00 10,00 20,00 30,00 40,00
Puan
Frekans
30
20
10
0 Puan
0 10 20 30 40
Şekil 6.3:60 Öğrencinin 40 Soruluk Kimya Sınavından Aldıkları Puanların
Gruplandırılmış Halini Gösteren Çizgi Grafiği
30
20
10
Puan
0
0 10 20 30 40
Aritmetik Ortalama
Aritmetik ortalama, en çok kullanılan merkezî yığılma ölçüsüdür.
Çünkü aritmetik ortalama, daha çok verinin kullanılabileceği ileri düzeydeki
analizler için çok elverişlidir.
Aritmetik ortalama, verilerin toplamının veri sayısına bölünmesiyle
bulunur. Aritmetik ortalama 6.1’de verilen formüllü hesaplanabilir.
X=
X 1 + X 2 + X 3 + .....X N
X=
∑X
N N
X : Aritmetik ortalama (6.1)
ƩX : Verilerin toplamı
N : Veri sayısı
80 + 75 + 60 + 55 + 50 + 40 + 35 + 30 + 25 + 20
X = = 47,00' dir.
10
Tablo 6.2’de frekans tablosunda yer alan 60 öğrencinin 40 Soruluk
kimya sınavı puanlarının aritmetik ortalaması, aynı tabloya Tablo 6.5’deki
gibi, (fX) sütunu açılarak şu şekilde hesaplanır.
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 179
X = 1694/60 = 28,23’dür.
Bu sınavın amacının öğrenme düzeylerine göre öğrencileri birbirinden
ayırt etmek olduğu varsayılırsa, sınavdan alınabilecek en yüksek puan 40
olduğuna göre, aritmetik ortalamanın bu sınavdan alınabilecek en yüksek
puanın yarısının üzerinde olması (28,23) olması, sınavın ayırt edici özelliğe
sahip olduğunu göstermektedir.
X = 1730/60 = 28,83’dür.
Görülebileceği üzere, Tablo 6.5’deki verilere dayalı olarak hesaplanan
aritmetik ortalama ile Tablo 6.6’daki verilere dayalı olarak hesaplanan
aritmetik ortalama aynı değildir. Bu farklılığın nedeni, Tablo 6.6’daki
verilerin gruplanması sırasındaki bilgi kaybıdır. Bu bakımdan Tablo 6.5’teki
verilere dayalı olarak bulunan aritmetik ortalama, Tablo 6.6’daki verilere
dayalı olarak bulunan aritmetik ortalamadan gerçeğe daha yakındır.
Ağırlıklı Ortalama
Birden çok veri kümesinin bulunduğu durumlarda, bunların farklı
katsayılarla ağırlıklandırılması gerekir. Örneğin, bir yarıyılda herhangi bir
dersten yapılan ölçme işlemlerinin farklı katsayılarla çarpıldıktan sonra
ortalamalarının hesaplanması gerekir (Baykul, 1989). Bu şekilde
hesaplanan ortalamaya ağırlıklı ortalama denir. Ağırlıklı ortalama 6.2’de
verilen formülle hesaplanabilir.
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 181
a 1 X 1 + a 2 X 2 + a 3 X 3 .....a N X N
X=
a 1 + a 2 + a 3 .....a N (6.2)
X : Ağırlıklı ortalama
a N X N : Her bir verinin kendi ağırlıklandırma katsayısı ile
çarpımının toplamı
aN : Ağırlıklandırma katsayısı toplamı
Mod
Mod, bir veri grubunda frekansı en büyük olan değerdir. Verilerden, en
çok kişi tarafından alınmış olan değer hangisi ise, o değer mod’dur.
Mod frekansı en büyük olan veri olduğundan modu bulmak için sadece
frekansı en yüksek olan değeri bulmak yeterlidir (Erdoğan-Ural-Tüzün,
1984). Örneğin; bir sınavdan 15 öğrencinin aldıkları puanlar sırasıyla 25, 30,
30, 40, 45, 45, 45, 50, 50, 55, 55, 60, 65, 70 ve 70’dir. Bu sıralamaya göre, 25,
40, 60 ve 65 puanı 1 öğrenci; 30, 50, 55 ve 70’i 2 öğrenci; 45 puanı ise 3
öğrenci almıştır. Bu veri grubunda en çok tekrar eden değer 45 olduğu için,
bu verilere ait mod 45’tir.
Tablo 6.2’deki verilere dayalı olarak, 60 öğrencinin 40 soruluk kimya
sınavı puanlarının modu ise, 28’dir. Çünkü bu veri grubunda en çok tekrar
eden değer 28’dir.
Gözlem sonunda elde edilen verilerin her birinin tekrar sayısı birbirine
eşitse, bu durumda mod olmaz (Arıcı, 1981). Örneğin; 30, 30, 50, 50, 70, 70,
80, 80, 95 ve 95 şeklindeki veri grubunda mod yoktur. Çünkü bu veri
grubunda verilerin hepsi eşit sayıda tekrarlanmıştır.
Ardışık iki veri birbirine eşit sayıda ve diğer verilerden daha çok
tekrarlanmışsa, bu gibi durumlarda mod, iki verinin orta noktasıdır (Arıcı,
1981). Örneğin; 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 30, 30, 31 ve 31
şeklindeki bir veri grubunda mod, 28,50’dir. Çünkü 28 ve 29 eşit sayıda ve
diğer verilerden daha çok tekrarlanmıştır. Bunların orta noktası da
28,50’dir.
Ardışık olmayan iki ya da daha çok veri eşit sayıda ve diğer verilerden
çok tekrarlanırsa, bu verilerin hepsi mod sayılır ve veri grubunun çift ya da
çok modlu olduğu kabul edilir (Arıcı, 1981). Bir veri grubunun birden çok
modlu olması, verilerin hangi değer etrafında toplandığı hakkında sağlıklı
bilgi vermez. Bu gibi durumlarda mod kullanılmaz (Baykul, 1997). Örneğin,
30, 35, 43, 43, 45, 60, 57, 70, 72, 72, 80 ve 95 şeklindeki bir veri grubunda
mod, 43 ve 72’dir. Çünkü bu veri grubunda ardışık olmayan iki veri eşit
sayıda ve diğer verilerden çok tekrarlanmıştır. Bu yüzden bu veri grubu çift
modludur. Veri grubunun iki modlu olması, verilerin çok heterojen
olduğunu, başka bir deyişle çok fazla yayılmış olduğunu, bu yayılmanın iki
veri etrafında ayrı gruplar oluşturacak şekilde toplandığını ifade eder
(Baykul, 1997).
Bir veri grubunda en çok tekrarlanan veri olarak modun
hesaplanmasında, söz konusu veri grubundaki verilerin aritmetik
ortalamaya kıyasla daha az sayıdaki kısmı kullanılmaktadır. Bu durum,
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 183
Ortanca
Ortanca, dizideki veriler kendi aralarında büyüklük sırasına
konduğunda bu verilerden yarısını altta, diğer yarısını da üstte bırakan
değerdir. Başka bir deyişle ortanca, büyüklük sırasına dizilmiş puanlardan,
dizinin tam ortasına düşen puandır.
Ortanca gruplandırılmamış ve sıralanmış verilerde (N+1)/2 formülüyle
hesaplanır (Akhun, 1988-a).
Dizideki veri ya da ölçü sayısı tek ise ortanca, sıralamada ortada yer
alan verinin değeridir (Baykul, 1997). Örneğin; bir sınavdan 17 öğrencinin
aldıkları puanlar sırasıyla; 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 30,
30, 31 ve 31’dir. Bu verilere ait ortanca 28’dir. Bu örnekte ortanca direkt
olarak üstünde ve altında eşit sayıda kişi bırakan 9. kişinin aldığı puandır.
Ortancanın hesaplanmasında asıl nokta tam ortadaki ölçümün
bulunmasıdır. Örnekte 9. kişi, 17 kişi içinde tam ortada olduğu için, bu
kişinin puanı ortancadır. Yapılan açıklamalardan da anlaşılabileceği üzere,
ortancanın kullanılabilmesi için verilerin en az sıralama ölçeğinde olması
gerekir (Baykul, 1997).
Dizideki veriler her zaman yukarıdaki örnekte olduğu gibi ortancanın
kolayca bulunması için elverişli olmaz. Bu durumda ortancanın bulunması,
verilerin tek veya çift sayıda olmasına, tam ortaya düşen ölçme sonucunun
tekrarlanmış olup olmamasına ve verilerin gruplandırılmış olup olmamasına
göre farklılaşır.
Dizideki veri ya da ölçü sayısı çift ise ortanca, sıralamada ortada yer
alan iki verinin ya da ölçünün orta noktasıdır (Tekin, 1977). Örneğin; bir
sınavdan 12 öğrencinin aldıkları puanlar sırasıyla; 40, 45, 45, 50, 55, 60, 65,
70, 70, 75, 80 ve 90’dır. Bu verilere ait ortanca 62,50’dir. Oysaki hiç kimse
62,5 puanını almamıştır. 12 kişiye ait puanların ortası, ne 6. kişinin ne de 7.
kişinin aldığı puandır. Bu durumda ortaya yakın olan 6. ve 7. kişilerin
puanları toplanıp ikiye bölünür. Verilen örneğe göre bu işlem yapılırsa
verilere ait ortanca (60+65)/2=62,50 bulunur.
Tablo 6.2’deki verilere dayalı olarak, 60 öğrencinin 40 soruluk kimya
sınavı puanlarının ortancası ise, dizideki veri sayısı çift olduğu için,
sıralamada ortada yer alan iki verinin orta noktasıdır. Buna göre söz konusu
verilere ait ortanca, 30. ve 31. öğrencinin puanlarının orta noktası olan
28’dir.
184 Eğitimde Ölçme ve Değerlendirme
⎡n ⎤
⎢ 2 − tf A ⎥
X ort = A ort + ⎢ ⎥⋅a (6.3)
⎢ f ort ⎥
⎣⎢ ⎦⎥
Xort : Ortancanın değeri
Aort : Ortancanın bulunduğu aralığın alt sınırı
tfA : Ortancanın bulunduğu aralığa kadar olan frekanslar toplamı
fort : Ortancanın bulunduğu aralığın frekansı
n : Veri sayısı
a : Grup aralık katsayısı
⎡ 30 − 10 ⎤
X ort = 24,5 + ⎢ ⎥ x5
⎣ 26 ⎦
= 28,35 bulunur.
Bir veri grubunda verilerin tam ortasına düşen ortancanın
hesaplanmasında, modun hesaplanmasında olduğu gibi, söz konusu veri
grubundaki verilerin aritmetik ortalamaya kıyasla daha az sayıdaki kısmı
kullanılmaktadır. Bu durum, ortancayı, verileri temsil ediciliği yönünden
aritmetik ortalamaya göre daha zayıf kılar. Ortanca, bir sıra sayısına dayalı
olduğundan toplama işlemine uygun değildir. Bu nedenle verilerle ileri
analizler yapılacaksa, ortancanın kullanılması uygun değildir. Buna karşın,
sıralanmış verilerin tam ortasına düştüğünden ortanca, ölçme sonuçları
arasındaki özellikle uçlardaki kopmalardan etkilenmez. Dolayısıyla ortanca
verilerin yığıldığı noktayı, aritmetik ortalamaya göre daha iyi temsil eder.
Bu durumda kopmaların bulunduğu veri gruplarında, daha ileri analizler
yapılmayacaksa merkezî yığılma ölçüsü olarak ortancanın kullanılması
uygun olur.
Dağılım Ölçüleri
Puanlar dağılımın ortasında, başka bir deyişle merkezî yığılma eğilimi
gösterdiği gibi, dağılma veya değişkenlik eğilimi de gösterebilir.
Dağılım ölçülerine değişme ya da yayılma ölçüleri de denilmektedir. En
sık kullanılan dağılım ölçüleri “ranj”, “standart sapma”, “varyans”, “çeyrek
sapma”, “bağıl değişkenlik katsayısı”, “normal dağılım”, “çarpıklık katsayısı”,
“basıklık katsayısı” ve “standart puan” dır.
Ranj
Ranj, bir veri grubunda bulunan en büyük veri ile en küçük veri arasındaki
farktır. Başka bir deyişle ranj, bir veri grubunda en büyük ölçme sonucu ile en
küçük ölçme sonucu arasındaki farktır (Baykul, 1997). Örneğin; bir ara sınav
puanlarının en büyük değerde olanı 90, en küçük değerde olanı 25 ise, ara
sınav puanlarının ranjı; 90-25=65 puandır. Bu sonuca göre, ara sınavı
puanları 65 puanlık bir aralığa dağılmaktadır.
Tablo 6.2’deki verilere göre, 60 öğrencinin 40 soruluk kimya sınavı
puanlarının ranjı, en yüksek puan 39, en düşük puan 5 olduğu için 39-5=34
puandır. Bu sonuca göre, 40 soruluk sınav puanları 34 puanlık bir aralığa
dağılmaktadır.
186 Eğitimde Ölçme ve Değerlendirme
Standart Sapma
Dağılım ölçüleri arasında en çok kullanılan standart sapma, bir veri
grubundaki verilerin aritmetik ortalamadan ne derecede uzaklara yayıldıklarını
puan biriminde gösteren bir ortalamadır. Standart sapmaya başlangıç noktası
olarak aritmetik ortalama alınmaktadır. Bir veri grubundaki veriler ile bu
verilerin aritmetik ortalaması arasındaki farkların karelerinin bir çeşit
ortalamasının karekökü alınarak bulunan standart sapma evrende
hesaplanmış ise bir parametre, örneklemde hesaplanmış ise bir istatistiktir.
Gruplandırılmamış ve her biri bir kez tekrarlanan ölçümler için
standart sapma, evrende hesaplanmış ise aşağıdaki σ eşitliği ile örneklemde
hesaplanmış ise aşağıdaki S eşitliği ile hesaplanır (Arıcı, 1981).
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 187
σ=
∑ ( X − μ) 2
S=
∑ (X − X) 2
=
∑x 2
(6.4)
N n −1 n −1
2885,58
σ= = 13,87 bulunur.
15
2885,58
S= = 14,36 bulunur .
14
Gruplandırılmamış ve bazıları tekrarlanan ölçümler için standart
sapma, aşağıdaki S eşitliği ile hesaplanır (Arıcı 1981):
S=
∑ f (X − X) 2
=
∑ fx 2
n −1 n −1 (6.5)
S : Standart sapma
X : Dağılımın aritmetik ortalaması
X−X : Her ölçümün aritmetik ortalamadan olan farkı
f : Frekans
∑ fx 2
: Her ölçümün aritmetik ortalamadan olan farklarının
karelerinin frekansla çarpımının toplamı
n : Veri sayısı
Puanlar Frekans (Χ − Χ) ( Χ − Χ) 2 f (Χ − Χ) 2
(X) (f)
(x) (x2) (fx2)
5 1 -23,23 539,63 539,63
15 1 -13,23 175,03 175,03
19 2 -9,23 85,19 170,38
22 6 -6,23 38,81 232,86
25 3 -3,23 10,43 31,29
26 7 -2,23 4,97 37,79
27 4 -1,23 1,51 6,04
28 8 -0,23 0,05 0,4
29 4 0,77 0,59 2,36
30 7 1,77 3,13 21,91
32 2 3,77 14,21 28,42
33 4 4,77 22,75 91
34 3 5,77 33,29 99,87
35 4 6,77 45,83 183,32
37 2 8,77 76,91 153,82
38 1 9,77 95,45 95,45
39 1 10,77 115,99 115,99
ΣX=1694
1985,56
σ= = 5,75 bulunur.
60
1985,56
S= = 5,80 bulunur.
59
Bir sınavdan elde edilen puanların standart sapması büyüdükçe, o
sınavın güvenirliği düşer. Geçerliği ve güvenirliği yüksek bir sınavın
puanlarından hesaplanan ranj değeri, standart sapma değerine
bölündüğünde “4-6” arasında bir sayı elde edilmelidir. Eğer elde edilen sayı
“4-6” arasında bir sayı değilse, sınavın güvenirliği ve geçerliği düşüktür
(Yılmaz, 1998). Örneğin, yukarıda 60 öğrencinin 40 soruluk kimya sınavı
puanlarının ranjı 34, standart sapması ise 5,80 bulunmuştur. Hesaplanan
ranj değeri, standart sapma değerine bölündüğünde 34⁄5,80=5,86 şeklinde,
“4-6” arasına yakın bir sayı elde edilmektedir. Bu sonuç, 60 öğrenciye
uygulanan 40 soruluk kimya sınavının güvenirliği ve geçerliğinin yüksek
olduğunu göstermektedir.
Gruplandırılmış ölçümler için standart sapma ise, aşağıdaki S eşitliği ile
hesaplanır:
∑ fx' ∑
2
⎡ fx ' ⎤
2
S=a⋅ −⎢ ⎥
n −1 ⎢⎣ n ⎥⎦
(6.6)
S : Standart sapma
f : Frekans
x´ : Tahmini ortalamanın grup aralıklarının orta nokta
değerlerinden farkının aralık katsayısına bölüm değeri
∑ fx' : Tahmini ortalamının grup aralıklarının orta nokta
değerlerinden farkının aralık katsayısına bölüm değerinin
frekansla çarpımının toplamı
n : Veri sayısı
5-9 1 7,50 0 0 0 0
10-14 0 12,50 1 0 1 0
15-19 3 17,50 2 6 4 12
20-24 6 22,50 3 18 9 54
25-29 26 27,50 4 104 16 416
30-34 16 32,50 5 80 25 400
35-39 8 37,50 6 48 36 288
60 Σf Σfx´2=117
x´=256 0
2
1170 ⎡ 256 ⎤
S = 5⋅ −⎢ = 6,32 bulunur.
59 ⎣ 60 ⎥⎦
Varyans
Bir veri grubunda ölçme sonuçlarının aritmetik ortalamadan farklarının
karelerinin aritmetik ortalamasına, başka bir deyişle, standart sapmanın
karesine varyans denir. Bir dizi puanının varyansı o dizideki değişkenliğin bir
ölçüsüdür. Varyans, evrende hesaplanmış ise aşağıdaki σ 2 eşitliği ile
örneklemde hesaplanmış ise aşağıdaki S2 eşitliği ile hesaplanır.
∑ ( X − μ) ∑ (X − X)
2 2
2
σ = S2 = (6.7)
N n −1
σ2 : Evrende hesaplanmış varyans
S2 : Örneklemde hesaplanmı varyans
μ : Evrenin aritmetik ortalaması
X : Örneklemin aritmetik ortalaması
X − X : Her ölçümün aritmetik ortalamadan olan farkı
∑x 2
: Her ölçümün aritmetik ortalamadan olan farklarının
karelerinin toplamı
n : Veri sayısı
Y − Y25
Q = 75 (6.8)
2
Q : Çeyrek Sapma
Y75 : %75’inci nokta değeri (Üçüncü çeyrek)
Y25 : %25’inci nokta değeri (Birinci çeyrek)
⎡ n ⎤
⎢ 100 ⋅ 25 − tf A (25) ⎥
Y25 = A 25 + ⎢ ⎥⋅a (6.9)
⎢ f 25 ⎥
⎢⎣ ⎥⎦
Y25 : %25’inci nokta değeri (Birinci çeyrek)
A25 : Birinci çeyreğin bulunduğu aralığın alt sınırı
tfA(25) : Birinci çeyreğin bulunduğu aralığa kadar olan toplam frekans
f25 : Birinci çeyreğin bulunduğu aralığın frekansı
n : Veri sayısı
a : Aralık Katsayısı
⎡ 60 ⎤
⎢ 100 x 25 − 10 ⎥
Y25 = 24.50 + ⎢ ⎥ x 5 = 25,46 bulunur .
⎢ 26 ⎥
⎣⎢ ⎦⎥
Üçüncü çeyreğe yetmiş beşinci yüzdelik de denir. Üçüncü çeyrek küçükten
büyüğe doğru sıralanmış verilerin %75’ini solunda %25’ini sağında bırakan
noktaya karşılık gelen değerdir. Üçüncü çeyreğin hesaplanması 6.10’da
verilen formülle yapılır.
⎡ n ⎤
⎢ 100 ⋅ 75 − tf A (75) ⎥
Y75 = A 75 + ⎢ ⎥⋅a
⎢ f 75 ⎥
⎣⎢ ⎦⎥
Y75 : %75’inci nokta değeri (Üçüncü çeyrek) (6.10)
A75 : Üçüncü çeyreğin bulunduğu aralığın alt sınırı
tfA(75) : Üçüncü çeyreğin bulunduğu aralığa kadar olan toplam frekans
f75 : Üçüncü çeyreğin bulunduğu aralığın frekansı
n : Veri sayısı
⎡ 60 ⎤
⎢ 100 x 75 − 36 ⎥
Y75 = 29,50 + ⎢ ⎥ x 5 = 32,31 bulunur.
⎢ 16 ⎥
⎢⎣ ⎥⎦
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 195
S
V= ⋅ 100 (6.11)
X
5,80
V= ⋅ 100 = 20,55 bulunur.
28,23
Normal dağılımlı bir veri grubunda bağıl değişkenlik katsayısı 20-25
arasında değişir. Bağıl değişkenlik katsayısının 20’den küçük çıkması,
standart sapmanın aritmetik ortalamaya göre küçük olması, 25’den büyük
çıkması ise standart sapmanın aritmetik ortalamaya göre büyük olması
anlamına gelir. Standart sapma aritmetik ortalamaya göre küçükse, puanları
196 Eğitimde Ölçme ve Değerlendirme
Normal Dağılım
Eğitimde, psikolojide ve diğer pek çok alanda, üzerinde çalışılan
değişkenlerin evrendeki dağılımları normaldir. Normal dağılım bir sürekli
dağılımdır. Sürekli değişkenlerin hemen hemen hepsi normal bir dağılım
gösterir. Hatta normal dağılım dışındaki dağılımların da örneklemdeki
eleman sayısı arttığında normale yaklaştığı görülür. Bu yüzden eğitimde
ölçme ve değerlendirmede normal dağılım eğrisine dayalı birçok istatistikî
işlem kullanılmaktadır. Kullanılan bu istatistikî işlemlerin daha net bir
şekilde anlaşılması için, kuramsal bir dağılım olan standart normal dağılımın
özelliklerinin bilinmesi gerekmektedir.
Çarpıklık Katsayısı
Çarpıklık, bir dağılımı betimleyen özelliklerden biridir. Bir dağılımda
veriler daha çok solda, sağda veya merkezde olmak üzere değişik biçimlerde
yığılmış olabilir. Dağılım üzerinde ortalama ve ortanca ayrı ayrı noktalar
üzerinde ise, bu gibi dağılımlara çarpık veya kayışlı denir.
Çarpıklık katsayısı, pozitif ve negatif değerler alabileceği gibi, 0 (sıfır)
da olabilir. Bu katsayının pozitif olması, dağılımın sağı çarpık (pozitif
kayışlı) ve ortalamanın ortancadan büyük olduğunu; negatif olması,
dağılımın solu çarpık (negatif kayışlı) ve ortancanın ortalamadan büyük
olduğunu; 0 (sıfır) olması da dağılımın ortalamaya oranla oldukça simetrik
olduğunu ifade eder (Arıcı, 1981; Baykul, 2000).
Mod Ort. X
Şekil 6.6:Sağı Çarpık veya Pozitif Kayışlı Bir Dağılım
Aritmetik ortalamadan küçük puanların tüm frekansların yarısından
fazla olması, puanların ortalamanın altında yığıldığının göstergesidir. Bu
durumda frekans dağılımı Şekil 6.6’da görüldüğü gibi olur ve merkeze
yığılma ölçüleri arasında Mod<Ortanca< X ilişkileri gözlenir. Böyle bir
durumda ortalamadan büyük puanların frekansları gittikçe düşer ve yüksek
puanlar sağa doğru dağılır. Böyle bir dağılıma sağı çarpık (pozitif kayışlı)
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 199
X Ort.Mod
Şekil 6.7:Solu Çarpık veya Negatif Kayışlı Bir Dağılım
3( X − Ortanca )
ÇK =
S (6.12)
Ç K : Çarpıklık katsayısı
X : Aritmetik ortalama
S : Standart sapma
200 Eğitimde Ölçme ve Değerlendirme
ÇK =
∑ (X − X) 3
n
3
S (6.13)
Ç K : Çarpıklık katsayısı
X : Aritmetik ortalama
X − X : Her ölçümün aritmetik ortalamadan farkı
S : Standart sapma
n : Veri sayısı
Puanlar Frekans
(X) (f) (X- X ) f(X- X )3 f(X- X )4
23990.64 60
ÇK =
5,803
= 2,05 bulunur.
Çarpıklık katsayısının pozitif olması (2,05), sınav puanlarının aritmetik
ortalaması, standart sapması ve ortancası kullanılarak hesaplanan çarpıklık
katsayısında (0,12) olduğu gibi, 60 öğrencinin 40 soruluk kimya sınavı puan
202 Eğitimde Ölçme ve Değerlendirme
Basıklık Katsayısı
Çarpıklık katsayısı gibi basıklık katsayısı da, bir dağılımın
simetrikliğinin ölçüsüdür. Çarpıklık katsayısına benzer şekilde, bu katsayı
da, negatif, pozitif değerler alabileceği gibi, 0 (sıfır) da olabilir. Basıklık
katsayısının negatif olması halinde dağılım, normalden daha basık; pozitif
olması halinde normalden daha sivridir. Basıklık katsayısının 0 (sıfır) olması
halinde ise dağılım normal ya da normale yakındır (Arıcı, 1981; Baykul,
2000).
Bir dağılımın basıklık katsayısı, 6.14’te verilen formülle hesaplanır:
BK =
∑ (X − X) 4
n
−3
4
S
B K : Basıklık katsayısı
X : Aritmetik ortalama (6.14)
X − X : Her ölçümün aritmetik ortalamadan farkı
S : Standart sapma
n : Veri sayısı
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 203
Standart Puan
Belli bir dağılımdaki herhangi bir ölçümün, o dağılımın ortalaması ile olan
farkının aynı dağılımın standart sapmasına bölümü standart puanı verir. Bu
yolla elde edilen değerlerle her ölçümün grup içindeki yeri
belirlenmektedir.
Hem betimsel hem de vardamlı istatistiğin anlaşılmasında önemli bir
yere sahip olan standart puanlar arasında en çok kullanılanı Z puanıdır. Bu
puan 6.15’te verilen formülle hesaplanır.
X−X
Z=
S (6.15)
Z : Z- puanı
X : Herhangi bir kişinin puanı
X : Dağılımın aritmetik ortalaması
S : Dağılımın standart sapması
⎡X − X⎤
T = 50 + ⎢ ⎥ x10
⎣ S ⎦ (6.16)
T = 10Z + 50
MatematikFizik
Metin’in her iki dersten aldığı nota bakılarak, fizik dersinde matematik
dersine göre daha başarılı olduğu söylenebilir. Oysaki Metin’in her iki
dersten aldığı notlar, Z puanına çevirelecek olursa, fizik dersine göre
matematik dersinden daha başarılı olduğu sonucuna ulaşılacaktır.
7 − 5,5 8−7
Z M −M = = 2,14 Z M − F = =1
0,7 1
Ölçme Sonuçları Üzerinde Yapılabilecek İstatistiksel İşlemler 205
Metin’in matematik dersi standart puanı 2,14; fizik dersi standart puanı
ise 1’dir. Bu sonuca göre matematik dersi standart puanı fizik dersi standart
puanından yüksek olduğu için, Metin fizik dersine göre matematik dersinde
daha başarılıdır.
Metin gibi Fırat’ın da her iki dersten aldığı nota bakılacak olursa,
Fırat’ın her iki derste de eşit başarıya sahip olduğu söylenebilir. Oysaki her
iki dersten alınan notlar Z puanına çevrildiğinde, Fırat’ın da fizik dersine
göre matematik dersinde daha başarılı olduğu sonucuna ulaşılmaktadır.
7,5 − 5,5 7,5 − 7
Z F− M = = 2,85 Z F − F = = 0,5
0,7 1
Matematik ve fizik dersine ilişkin Z puanlarına göre, matematik
dersinde Fırat; fizik dersinde ise Metin daha başarılıdır.
Sadece not toplamlarına bakılacak olursa, Metin ve Fırat’ın not
toplamları 15 olduğundan durumları eşit sayılacaktır. Oysaki Z ve T
puanları hesaplanırsa, not toplamlarının eşit olmadığı, Fırat’ın Metin’e göre
daha başarılı olduğu görülecektir.
Metin için;
ZT=2,14+1=3,14
T=50+(3,14)10=81,4
Fırat için;
ZT=2,85+0,5=3,35
T=50+(3,35)10=83,5
İlişki Ölçüleri
Araştırmacının ulaşmaya çalıştığı hedeflerin başındaki istenen sonuçları
elde edebilmek için, olayları kontrol altına almak gelir. Olayların kontrol
altına alınabilmesi, olaylar arasındaki ilişkinin bilinmesini gerektirir. Böyle
olmakla birlikte bilimsel araştırmalarda, olaylar arasındaki ilişkinin
saptanması ciddi bir sorundur. Çünkü karşılaşılan sorunların birçoğu iki ya
da daha çok değişken arasında bir ilişki olup olmadığının, varsa bu ilişkinin
derecesinin saptanması ile ilgilidir. Bu değişkenler bir grup bireyin iki
özelliği, iki dersten aldıkları puanlar ya da zekâ testleri ile başarı testleri
puanları olabilir (Çağlar, 1970).
206 Eğitimde Ölçme ve Değerlendirme
(∑ X).(∑ Y)
∑ XY − N
rxy =
⎡ ( ∑ X) 2 ⎤ ⎡ ( ∑ Y) 2 ⎤
⎢∑ − ⎥ ⎢∑ −
2 2
X . Y ⎥
⎢⎣ N ⎥⎦ ⎢⎣ N ⎥⎦
(6.17)
409,07
=
(3911,73)(. 3127,73)
409,07 409.07
= =
12234835.28 3497.83
= 0,12 bulunur.
İlişkinin yönünün pozitif olduğunu ifade eden bu sonuç, Tablo 6.12’ye
göre, fizik sınavı ile matematik sınavı puanları arasında düşük bir ilişki
olduğunu göstermektedir.
Spearman Brown Sıra Farkları Korelasyon Katsayısı
Spearman Brown Sıra Farkları Korelasyonu ya da Sıra Farkları
Korelasyonu, Pearson Momentler Çarpımı Korelasyonun özel bir halidir.
Sıraya konmuş iki dizi ölçüm arasındaki ilişki miktarını gösteren Momentler
Çarpımı Korelasyon katsayısına sıra farkları ya da Spearman Sıra Farkları
Korelasyon katsayısı denir. Spearman Brown Sıra Farkları Korelasyonu
katsayısı hesaplanırken, bir veri grubundaki ölçümlerin birden fazlasının
aynı olması halinde, birbirine eşit ölçümlere aynı sıra numarası verilir
(Arıcı, 1981).
Spearman Brown Sıra Farkları Korelasyon katsayısı 6.18’de verilen
formülle hesaplanır:
ρ =1−
6 ∑D 2
=1−
∑D 6 2
N3 −N N (N − 1) 2
(6.18)
ρ : Korelasyon katsayısı
D : Sıra sayıları farkları
N : Veri sayısı
210 Eğitimde Ölçme ve Değerlendirme
Özet
Kaynakça
Sorular
B) 50
C) 60
5. Metin fizik dersi ara sınavından 90,
D) 70
yıl sonu sınavından ise 60 almıştır.
E) 80 Okulun sınav yönetmeliğine göre,
ara sınavın %40’ı, yıl sonu
sınavının %60’ı öğrencilerin geçme
notu olacaktır. Bu durumda
Metin’in fizik dersine ilişkin
3. Söz konusu derse ilişkin veri ağırlıklı not ortalaması kaçtır?
grubunun ortancası kaçtır?
A) 68
A) 65
B) 72
B) 67,5
C) 74
C) 72,5
D) 76
D) 75
E) 80
E) 77,5
214 Eğitimde Ölçme ve Değerlendirme
B) Zor
C) Hafif zor
D) Orta güçlükte
E) Çok zor
10. Öğrencilerin fizik sınavı ile kimya
sınavı puanlarının Pearson
8. Bir veri grubunda ölçme Momentler Çarpımı Korelasyon
sonuçlarının aritmetik Katsayısı 0,50 bulunmuş ise, fizik
ortalamadan farklarının sınavı ile kimya sınavı puanları
karelerinin aritmetik arasındaki ilişkinin düzeyi
ortalamasına ne ad verilir? nasıldır?
A) Varyans A) Çok yüksek
ÖĞRENME ÇIKTILARINI
DEĞERLENDİRME ve NOT VERME
Gülşah BAŞOL
Gaziosmanpaşa Üniversitesi
Kazanımlar
Bu bölümün sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir.
Değerlendirmenin eğitim sistemindeki önemini kavrayabilme
Değerlendirmenin amaçlarının bilgisi
Değerlendirme türlerinin bilgisi
Kriter referanslı (mutlak) ve norm referanslı (bağıl) değerlendirme arasındaki
farkı kavrayabilme
Otantik değerlendirme türlerinden kişisel gelişim dosyalarının önemini kavra-
yabilme
Öğretimi değerlendirmenin önemini kavrayabilme
Gerektiğinde uygun ölçüt seçerek kriter referanslı değerlendirmeyi yapabilme
Gerektiğinde bağıl değerlendirmeyi uygulayabilme
İçindekiler
Giriş
Değerlendirme
Değerlendirmenin Amacı
Kriter Referanslı (Mutlak) Değerlendirme
• Norm-Referanslı (Bağıl) Değerlendirme
• Karşılaştırma
• Kişisel Gelişim Dosyaları (Portfolio)
Öğretimi Değerlendirme
Öğretim Programını Değerlendirme
Öğretim Hizmetini Değerlendirme
Özet
Kaynakça
Sorular
218 Eğitimde Ölçme ve Değerlendirme
Giriş
Eğitim gelişigüzel bir aktivite değildir. Örgün eğitim, sonucu şansa bırakı-
lamayacak kadar değerli emek ve yatırımlar üzerine kurulmuştur. Verdiğimiz
eğitimden ne beklediğimiz verilen notla her ne kadar yakından ilgili olsa da,
değerlendirme olmaksızın başarı veya başarısızlığı yordama olasılığı düşüktür.
Eğitim araştırmalarının temelinde eğitimin kalitesini artırmak ve başa-
rıyı sürekli kılmanın olduğu düşünülürse, belirtildiği gibi gelişigüzel bir akti-
vite olmayan eğitimin kalitesi ve standartlarını tartışmak da pekâlâ müm-
kündür. Değerlendirme, nicel formdaki ölçme sonuçlarının (70, 80 vs) nite-
lik belirtir ifadelere dönüştürülmesi (iyi, pekiyi vb. gibi) yoluyla, başarı veya
başarısızlığın yordanmasını mümkün kılar. Değerlendirmenin olmadığı veya
değerlendirmeye gereken önemin verilmediği bir eğitim sisteminin başarılı
olacağını düşünmek olanaksızdır. İyi bir değerlendirme sisteminde sistemin
amacı ve nasıl işleyeceği açık bir yönergeyle ortaya konulmalıdır ki ilgili
olan taraflar, öncelikle öğrenciler ve öğretmenler olmak üzere, bilgi sahibi
olsunlar. Gerek ÖSS, SBS, KPSS gibi sınavlarda gerekse öğretmen yapımı
sınavlarda öğrenciler girecekleri sınavın kapsamı, soru tipi, soru sayısı ve
geçme/kalma kararının verilmesinde nasıl bir yol izleneceğini merak eder-
ler. Öğrenci başarısında belirleyici bir unsur olarak karşımıza çıkan bu ce-
vaplar öğrenci çalışmalarına büyük ölçüde yön verir.
Değerlendirmenin yapılabilmesi için öğrenmenin gerçekleşmiş olup
olmadığının davranış formunda ölçülmüş olması gerekmektedir. Değerlen-
dirme yönteminin kararlaştırılması öğretim elemanının eğitime bakış açısı
ve sunduğu dersten ne beklediği ile yakından ilintilidir. Bazı durumlarda
değerlendirmenin nasıl yapılacağı yönetmeliklerle belirlenirken bazı uygu-
lamalarda ise değerlendirme öğretim elemanı ya da öğretmenin inisiyatifin-
dedir. Ülkemizde ilköğretim ve ortaöğretim kurumlarında kriter referanslı
değerlendirmeler yaygın olarak kullanılmaktayken, yüksek öğretim kurum-
larında değerlendirme uygulamalarının daha geniş bir yelpazede uygulandı-
ğını görmekteyiz. Yurtdışında öğretim elemanları bireysel olarak kendi de-
ğerlendirme anlayışı doğrultusunda verdiği notları harf notuna dönüştürür-
ken, ülkemizde öğretim elemanları bağlı bulundukları üniversitelerin sena-
toları tarafından belirlendiği şekilde değerlendirme yapmak durumundadır-
lar. Pek çok durumda ders öğretim programında öğretim elemanı değerlen-
dirmenin nasıl yapılacağını belirtir. Bağıl ve kriter referanslı değerlendirme
notların nasıl anlamlandırılacağı üzerinde odaklaşmaktadır. Kriter ve bağıl
referanslı değerlendirme içinde uygulanabilecek otantik ve performans de-
ğerlendirme ise değerlendirmeye öğrenmenin bir parçası olarak bütünsel
bir süreçte gerçekleşen bir aktiviteler zinciri olarak yaklaşmaktadır.
Öğrenme Çıktılarını Değerlendirme ve Not Verme 219
Değerlendirme
Değerlendirmenin Amacı
notun alınacağını belirten önceden belirlenmiş bir çizelgeye göre not takdir
edilir. Test puanları pekiyi-iyi-orta-geçer-zayıf, 1-2-3-4-5 ya da A-B-C-D ve
F şeklinde nota çevrilebilir. Burada dikkat çekilmesi gereken nokta bu not-
lara karşılık gelen puanların durumdan duruma, sınıftan sınıfa değişim gös-
termemesidir. Örneğin 90 ve üzeri Pekiyi, 5, ya da A’ ya; 49 ve aşağısı zayıf,
1, ya da F’ e karşılık gelmektedir.
Mutlak değerlendirmede öğrencinin başarı yüzdesi, öğrencinin sınav-
dan aldığı puanın sınavdan alınabilecek en yüksek puana bölünmesi ile elde
edilir. Mutlak başarı yüzdesi
2. Kopma Yöntemi: Diğer bir yöntem kopmalara göre not takdir edilme-
sidir. Kabaca anlatmak istersek, bu yöntemde testten alınması mümkün
olan puanlar yüksekten düşüğe sıralanır ve her puanı alan öğrenci sayı-
sınca o puanın yanına çentik atılır. En düşük puanı alan öğrenci sayısın-
ca da çentik atıldıktan sonra ortaya çıkan şekle bakılır ve bu şekildeki
kopmaların yerlerine göre not takdirinde bulunulur. Diğer bir deyişle
puanların frekans dağılımlarına bakarak dağılımın şekline göre notlar
belirlenir. Puanlarda fakrlılaşmaların az olması ve yığılmaların olduğu
bir dağılımda kopma yöntemini kullanarak not takdiri mümkün olmaz.
O halde puanların ranjının geniş olması ve öğrenci puanlarının hetero-
jen bir yapı sergilemeleri kopma yöntemini kullanmak için istendik bir
durumdur diyebiliriz.
3. Eğri Üzerinden Not Verme: Eğri üzerinden not verme bağıl değerlen-
dirme yöntemlerinden en sık kullanılanıdır. Bu yönteme göre puanların
dağılımı normal dağılım eğrisine uygunsa eğri altında kalan alanlara gö-
re not takdirinde bulunulur. Dikkat edilmesi gereken nokta geç-
me/kalma noktasının tayinidir. Diğer notlar bu kesme sınırı ile en yük-
sek puan arasında bölüştürülür. Buradaki önemli nokta, notlar farklılık
gösterdiği müddetçe her durumda öğrencilerin belirlenen oranlarda
harf notlarını almalarıdır. Ancak sınıf mevcudunun az olduğu durum-
larda not dağılımının normal olması ihtimali çok düşük olacağından,
öğrencilerin sınıf ortalaması etrafında puanlar alması beklenen bir so-
nuçtur. Puanların farklılaşma göstermemesinin notlara nasıl yansıyaca-
ğı düşünüldüğünde problemin ciddiyeti daha iyi anlaşılabilir. Puanların
belli notlar etrafında sınırlı düzeyde bir genişlik gösterdiği durumlarda
notlar birbirine yakın puanlara karşılık gelecektir. Bu yüzden pek çok
üniversitemiz duruma göre not ölçeği uygulama yoluna gitmiştir. Sınıf
ortalamasına bakılarak farklı kesme noktaları kullanılan sistemin deza-
vantajı, düşük ortalamalı sınıflarda durumu zayıf olan öğrencilerin ken-
dilerini olduğundan daha başarılı algılamalarıdır. Burada bağıl değer-
lendirmeyi kullanan okullardan mezun olan öğrenciler lehine bir avan-
tajı gözlemlememiz mümkündür. Biri bağıl sistemle değerlendirilmiş,
diğeri mutlak sistemle değerlendirilmiş aynı seviyede olan iki öğrenci-
den bağıl sistemde değerlendirilmiş olanın notu daha yüksek olacaktır.
Ancak bu, kullanılan değerlendirme sisteminin notlar üzerinde olan et-
kisinden başka birşey değildir. Buradaki problem aynı seviyedeki iki öğ-
rencinin öğrenmelerinin farklı harf notları ile derecelendirilmesidir. O
halde yapılması gereken, öğrencileri değerlendirirken sırf nota bağlı ka-
lınmaması ve başarının geçerli başka kriterlere de dayandırılmasıdır.
Öğrenme Çıktılarını Değerlendirme ve Not Verme 229
Testin çok zor olduğu ve sınıfın notlarının çok düşük olduğu durumlar-
da sınavın zorluğundan kaynaklanan başarısızlığı manipüle etmek ve öğren-
cilere notlarını biraz yükseltme şansı tanımak için eğrinin uygulandığı du-
rumlar vardır (Doolittle, 1999). Öğretim elemanının sınıfın düzeyini göre-
memesi, sınıf düzeyine uygun ders anlatmaması ya da sınıf düzeyine uygun
sınav yapmaması gibi durumlarda bu olumsuzluklardan dolayı öğrenci mağ-
dur olmamalıdır. Böyle bir durumda bağıl değerlendirme faydalı olabilir.
Öğretim kaynaklı başarısızlığı bağıl değerlendirme yaparak bir nebze önle-
mek mümkündür, diyebiliriz. Yani eğri üzerinden not vermenin pek çok
durumda daha yüksek notlarla sonuçlandığı bilinen bir gerçektir. Bağıl sis-
temde üst dilimdeki öğrencilerin A alabilmesi için çok yüksek bir perfor-
mans sergilemelerine gerek yoktur. Ortalamanın bazen bir buçuk, bazen bir
standart sapma yukarısında olmaları çoğu zaman yeterlidir. Diğer yandan
bu sistemde notların çoğunlukla yüksek olduğu bir durumda 90 ile CC veya
DC alınması da mümkündür. Gaziosmanpaşa Üniversitesinde uygulanan bir
sınavın notları hem bağıl hem mutlak değerlendirmeye göre belirlendikten
sonra ortaya konulan çizelge karşılaştırma amacıyla aşağıda verilmiştir. Da-
ğılımda aynı sınıfın notlarına bağıl ve kriter değerlendirme uygulandığında
alınan harf notlarının sayıları karşılaştırılmıştır. Çizelgede koyu renk sütun-
lar bağıl, açık renk sütunlar mutlak değerlendirmeye karşılık gelmektedir.
230 Eğitimde Ölçme ve Değerlendirme
14
12
10
4
Frekans
2 Bagil
0 Mutlak
AA BA BB CB CC DC DD FD FF
Notlar
Karşılaştırma
Sınıf içi değerlendirmeler eğri üzerinden not vererek yapıldığında sınıf
ortalaması not dağılımını belirlediğinden öğrencilerin bu sistemde gevşeme-
leri ve performanslarının düşmesi muhtemeldir. Öyle ki internet üzerinden
“the grades will not be assigned on the curve” (bu derste notlar eğri üzerin-
den verilmeyecektir) cümlesi yazılarak bir tarama yapıldığında ulaşılan
2.320.000 ders öğretim programında bu notun eklendiği görülür. Bununla
yapılmak istenen öğrencileri yüksek not almak için ya da geçmek için çalış-
maları gerektiği sınıfın performansının onların değerlendirilmesinde rol
oynamayacağı konusunda bilgilendirmektir. Başarı ya da başarısızlık göre-
celi değildir. Aslı’nın notu sınıf ortalamasının neresinde olduğuna göre de-
ğil, Aslı’nın tüm sorulardan kaçına doğru cevap verdiğine göre belirlenecek-
tir. Bağıl değerlendirmeyi savunanların en önemli savı bu değerlendirme
sisteminin öğretme eksikliğinden doğabilecek başarısızlıktan dolayı öğrenci-
yi cezalandırmadığıdır. Ancak geçer not alacak standartta öğrenmeyi ger-
çekleştiremeyen öğrencileri, çoğunluk aynı durumda diye hakettiklerinden
daha yüksek bir not vererek ödüllendirmek öğrenme eksikliğinin üzerine
sünger çekmektir.
Norm referanslı değerlendirme, alanın literatüründe sık olarak katı
eleştiriler almıştır. Gentile (1971) ‘a göre standart testler sadistik, etik ol-
mayan, istatistik olarak sağduyulu olmayan, ve dersin hedefleriyle bağlantısı
kopuk olan testlerdir. Gentile (1971) kriter-referanslı testleri bu tip yanlış-
ları olmayan bir değerlendirme aracı olarak norm-referanslı testlere alter-
natif olarak sunar.
Bağıl değerlendirme ile mutlak değerlendirme arasında tercih yapılaca-
ğı zaman asıl olan değerlendirme sonuçlarının ne amaçla kullanılacağına
karar verilmesidir. Hiç kuşkusuz ki öğrencilerin kıyasıya yarışmasını, per-
formanslarının en iyisini sergılemelerini istediğimiz durumlar olacaktır. Bu
durumda bağıl değerlendirme kullanılabilir. Ancak sınıf içi değerlendirme-
ler bu kapsam dışında tutulmalıdır. Bağıl değerlendirmeyi uygulamak için
gerekli olan puanların normal dağılım göstermesi şartını, mevcudu pek çok
durumda 50 ‘yi geçmeyen sınıflarda sağlamak mümkün değildir. Öğrencile-
ri, tek bir sınavla kendilerinin en iyisini göstermeleri için olumlu yönde mo-
tive etmek zorken, her sınavda böyle bir motivasyonla performans göster-
meleri akıl karı değildir. Sistemi kavrayan öğrenciler bir süre sonra ortala-
ma civarında performans göstermekle yetinecekler ve bu da standartların
düşmesi ile sonuçlanacaktır. Norm-referanslı değerlendirme yarışmayı teş-
vik eder ve öğrencileri diğerlerinden daha iyi performans göstermeye moti-
ve eder, sayıltısına dayanır.
232 Eğitimde Ölçme ve Değerlendirme
Öğretimi Değerlendirme
Özet
Kaynakça
Aviles, C. B. (2001). Grading with norm-referenced or criterion-referenced
measurements: to curve or not to curve, that is the question. Social Work
Education, 20 (5), 603-609.
Baykul, Y. (2000). Eğitimde ve psikolojide ölçme: Klasik test teorisi ve uygulaması.
Ankara: ÖSYM.
Bond, L. A. (1995). Norm-Referenced testing and Criterion-Referenced testing: The
differences in purpose, content, and interpretation of results. ERIC Number:
ED402327.
Bresee, Clyde W. (1976). On "grading on the curve". Clearing House, 50(3), 108-118.
Brandt, R. (2003). Don’t blame the bell curve. Leadership, 32 (3), 18-20.
Childs, R. (1976). Norm-referenced testing and the standard scores. ERIC
Number:ED169099.
Doolittle, P. E. (1999). Assessment, grading, and student achievement. Virginia
Ploytechnic and State University.
http://edpsychserver.ed.vt.edu/resources/pdf/assessment7.pdf.
Duffey, J. B. (1978). Educational diagnosis with instructional use. Exceptional Children,
44(4), 246-251.
Epstein, K. I. & Knerr, C. S. (1976). Criterion-referenced test Interpretations of
"Classical" Measurement Theory. ERIC Number: ED126154.
Gentile, J. R. (1971). Toward excellence in teaching: Grading practices. ERIC Number:
ED061264.
Glaser, R. & Klaus, D. (1962). Proficiency measurement: Assessing human
performance. In: R. Gagne (Ed.), Psychological principles in system development.
New York: Holt, Rinehart, and Winston.
Hively, W. (1974). Introduction to domain-referenced testing. Educational Technology,
14(6), 5- 10.
Hunt, K. (1997). The evils of grading on a curve. University of Phoenix Nevada Campus.
http://www.drkenhunt.com/pubs/15.htm.
Linehan, M. M.(1976). Content validity in behavioral assessment. ERIC Number:
ED152850.
Miller-Whitehead, M. (2001). Practical considerations in the measurement of student
achievement. ERIC Number: ED457244.
Mione, S. A. (1977). Criterion-referenced testing: A critical perspective. ERIC Number:
ED147757.
Pimsleur, P. (1975). Criterion vs. norm-referenced testing. Language Association Bulletin
, 27(1), 21-24.
Popham, W. J. (1976). The development of criterion-referenced tests: Technical
considerations. ERIC Number: ED173383.
Tekin, H. (2004). Eğitimde ölçme ve değerlendirme. 17. Baskı, Ankara: Yargı Yayınları.
Turgut, F. (1990). Eğitimde ölçme ve değerlendirme metodları. Ankara: Saydam Matba-
acılık.
238 Eğitimde Ölçme ve Değerlendirme
Sorular
Adnan KAN
Gazi Üniversitesi
Kazanımlar
Bu bölümün sonunda aşağıdaki kazanımları edinmiş olmanız beklenmektedir
Test geliştirme ile ilgili temel kavramların anlam bilgisi
Bir başarı testini geliştirirken izlenmesi gereken aşamaların neler ol-
duğunun bilgisi
Test geliştirmenin eğitim süreci içindeki yerini ve önemini kavraya-
bilme
Denemelik test formu hazırlamayabilme
Testi uygulama, puanlama ve madde puanları matrisi oluşturabilme
Madde puanları matris üzerinden madde ve seçenek analizleri yapa-
bilme
Analiz sonuçlarına dayalı olarak istenilen maddeleri seçebilme
Nihai test formunu oluşturabilme
İçindekiler
Giriş
Test Geliştirme
Özet
Kaynakça
Sorular
240 Eğitimde Ölçme ve Değerlendirme
Giriş
Hemen her zaman günlük işlerimize ilişkin bir çok kararlar alırız. Bu
kararların çoğu ölçme sonuçlarına dayanır. Yine bir çok şeyin miktarı ya da
sayısal büyüklüğü hakkında fikir sahibi olmak için ölçmeye, ölçme araçları-
na ve onun standart birimlerine başvururuz.
Test Geliştirme
1
D.A. Özçelik “Seçmeli Soru Yazma ve İncelemede Göz Önünde Tutulacak Noktalar” Test Hazırlama
Kılavuzu. S: 36-37
Ölçme Aracı Geliştirme 243
ADINIZ : ...........................................
SOYADINIZ : ...........................................
T.C. KİMLİK NUMARANIZ : ...........................................
SINAV SALON NO. : ...........................................
2. Soru kitapçığınızın türü A dır. Bunu cevap kâğıdınızdaki ilgili yere aşağıda gösterildiği şekilde
aynen kodlayınız ve salon görevlisinin de ilgili yere kodladığınız bilgiyi onaylamasını sağlayınız.
Bu kodlamayı cevap kâğıdınıza yapmadığınız veya yanlış yaptığınız takdirde sınavınızın
değerlendirilmesi mümkün değildir.
3. Genel Yetenek Testi ve Genel Kültür Testi için verilen toplam cevaplama süresi 120 dakikadır
(2 saat).
4. Genel Yetenek ve Genel Kültür Testlerinin her birinde 60 soru vardır.
Bu testlerin başladıkları sayfalar şöyledir:
Genel Yetenek Testi 1
Genel Kültür Testi 15
5. Cevaplamaya istediğiniz testten ve sorudan başlayabilirsiniz. Her soru ile ilgili cevabınızı, cevap
kâğıdında o soru için ayrılmış olan yere işaretlemeyi unutmayınız.
6. Testler puanlanırken her testteki doğru cevaplarınızın sayısından yanlış cevaplarınızın
sayısının dörtte biri düşülecek ve kalan sayı o testle ilgili ham puanınız olacaktır. Bu ne-
denle hakkında hiçbir fikrinizin olmadığı soruları boş bırakınız. Ancak, soruda verilen se-
çeneklerden birkaçını eleyebiliyorsanız kalanlar arasından doğru cevabı kestirmeye ça-
lışmanız yararınıza olabilir.
7. Sınavda uyulacak diğer kurallar bu kitapçığın arka kapağında verilmiştir.
246 Eğitimde Ölçme ve Değerlendirme
Yukarıdaki örnekte KPSS’ye ait test yönergesi verilmiştir. Her test yö-
nergesi testin uygulanış amacına, maddelerin puanlanmasına, test puanları-
nın kullanımına vb. sebeplere göre farklılıklar gösterebilir. Aşağıda ÜDS’ye
ait test yönergesi verilmiştir.
Tablo 8. 3 ÜDS’ye ait test yönergesi
ÖSYM
A
ÜNİVERSİTELERARASI KURUL YABANCI DİL SINAVI
(ÜDS)
ALMANCA
ADI : ...........................................................
SOYADI : ...........................................................
T.C. KİMLİK NUMARASI : ...........................................................
SALON NUMARASI : ...........................................................
1. Bu soru kitapçığı Fen Bilimleri, Sağlık Bilimleri ve Sosyal Bilimler olmak üzere üç ayrı alandaki Al-
manca testlerini içermektedir. Testlerin cevap anahtarları birbirinden farklıdır. Bu testlerden başvurunu-
za uygun olanını seçerek cevaplayınız.
Bu testlerin başladıkları sayfalar şöyledir:
Fen Bilimleri Testi 1
Sağlık Bilimleri Testi 18
Sosyal Bilimler Testi 35
2. Bu soru kitapçığının türü A’dır. Bunu cevap kâğıdınızdaki ilgili yere aşağıda gösterilen şekilde aynen
kodlayınız ve Salon Görevlisinin de ilgili yere kodladığınız bilgiyi onaylamasını sağlayınız.
Bu kodlamayı cevap kâğıdınıza yapmadığınız veya yanlış yaptığınız takdirde, sınavınızın değer-
lendirilmesi mümkün değildir.
3. Bu test için verilen cevaplama süresi 180 dakikadır (3 saat).
4. Cevaplamaya istediğiniz sorudan başlayabilirsiniz.
5. Test kitapçığındaki her sorunun yalnızca bir doğru cevabı vardır. Bir soru için birden fazla cevap yeri
işaretlenmişse o soru yanlış cevaplanmış sayılacaktır.
6. Bu kitapçıktaki soruların cevapları, kitapçıkla birlikte verilen cevap kâğıdında ayrılmış olan yerlere,
kurşun kalemle işaretlenecektir. Cevap kâğıdı buruşturulmayacak, üzerine gereksiz hiçbir işaret konul-
mayacaktır.
7. Bu sınavın değerlendirilmesi doğru cevap sayısı üzerinden yapılacak, yanlış cevaplar dikkate
alınmayacaktır. Bu nedenle, her soruda size en doğru görünen cevabı işaretleyerek cevapsız soru
bırakmamanız yararınıza olacaktır.
ORTA VE YÜKSEK 9
ÖĞRETİM 10 10-11 Punto Tek Satır
11 ve Üstü
Madde ayırıcılık gücünü hesaplamanın bir çok yolu vardır. Bunlar te-
melde iki gruba ayrılır.
1. Korelasyona dayalı madde ayırıcılık gücü: Bu yöntem madde puanları
ile test puanları arasındaki korelasyonu hesaplamaya ve bu yolla mad-
denin madde ile ölçülmek istenen özelliği ölçme derecesini belirlemek
üzerine kuruludur. Madde-test korelasyonunu hesaplamanın çeşitli yol-
ları vardır. Madde geçerliğine ilişkin kanıt sağlamak üzere hangi kore-
lasyon kat sayısının hesaplanacağı, maddenin puanlanış biçimi (iki ka-
tegorili-dichotomous, ve çok kategorili-polytomous), madde ile ölçül-
mek istenen değişkenin doğası ve türü gibi özelliklere bağlıdır. Tüm bu
özellikler göz önünde tutulduğunda madde-test korelasyonu aşağıda
belirtilen yöntemlerden birisi aracılığıyla belirlenebilir.
X JD − X X p j
rçift = r jx = . (8.2)
SX yj
X JD =
∑X D
(8.3)
ND
eşitliği aracılığıyla belirlenebilir. Eşitlik 8.3’te yer alan;
X D = Maddeyi doğru cevaplayan bireylerin test puanlarını,
N D = Maddeyi doğru cevaplayan birey sayısını ifade etmektedir.
254 Eğitimde Ölçme ve Değerlendirme
4 + 1 + 2 + 1 + 5 + 2 + 3 + 4 + 3 + 3 28
X = = = 2,8
10 10
olarak bulunur. Eşitlik 14 aracılığıyla test puanlarının standart sapması;
∑ (X − X )
2
SX = =
N −1
(4−2,8)2 +(1−2,8)2 +(2−2,8)2 +(1−2,8)2 +(5−2,8)2 +(2−2,8)2 +(3−2,8)2 +(4−2,8)2 +(3−2,8)2 +(3−2,8)2
9
S X = 1,32
olarak bulunur. Eşitlik 8.1 kullanılarak 5. maddeye ait güçlük indeksi;
5
pj = = 0,50
10
olarak bulunur ve son olarak ek xx’de verilen tablodan p= 0,50’ye kar-
şılık gelen y j değeri; 0,3989 olarak bulunur ve bulunan tüm bu değerler
eşitlik 8.2’de yerine konarak madde ayırıcılık gücü indeksi;
3 − 2,8 0,50
rçift = r jx = . = 0,1515.1,253 = 0,189
1,32 0,3989
Ölçme Aracı Geliştirme 255
X JD − X X p j
rn −çift = r jx = . (8.4)
SX qj
3 − 2,8 0,50
rn −çift = r jx = . = 0,1515.1,00 = 0,1515
1,32 0,50
olarak bulunur. Çift serili korelasyon kat sayısının Nokta çift serili kore-
lasyondan daha yüksek çıktığına dikkat ediniz.
256 Eğitimde Ölçme ve Değerlendirme
Seçenekler
Grup A B* C D E Boş Toplam
Üst grup 20 30 20 15 10 5 100
Alt grup 20 15 20 20 15 10 100
Toplam 40 45 40 35 25 15 200
* Doğru cevap seçeneği (B)
Ölçme Aracı Geliştirme 257
toplam sütunu aracılığıyla alt ve üst grupta yer alan toplam birey sayısı: 200
olarak bulunur ve bulunan bu değerler eşitlik 8.6’da yerine konarak madde
güçlük indeksi;
30 + 15 45
pj = = = 0,225
200 200
olarak bulunur.
Yukarıda verilen 3. olası durumda ise, “D” seçeneği hem üst grupta
hem de alt grupta doğru cevap seçeneğinden daha fazla bireyi çekmiştir.
“D” çeldirici seçeneği incelenmelidir. Muhtemelen bu seçenek doğru ceva-
ba çok yakın ya da kısmen doğru cevabı içeriyor olabilir. Bu durumda dikkat
edilmesi gereken diğer bir husus ise çeldirici seçenekler üst gruptakilere
daha cazip gelmiştir. Çeldirici bilmeyen öğrencileri çelmeli, bilenleri değil.
Bu sebeple bu ve buna benzer cevap dağılımına sahip doğru cevap ve çeldi-
rici seçeneklerin tekrar dikkatle gözden geçirilmesi gerekir.
Durum Grup A B C D E Toplam
4 Üst 21 18 22 19 20 100
Alt 19 23 20 17 21 100
Yukarıda verilen 4. olası durumda, cevapların doğru cevapla birlikte
diğer çeldiricilere de neredeyse eşit miktarda dağıldığı görülmektedir. Bu
maddenin doğru cevabı olmayabilir. Bu sebeple bu ve buna benzer durum-
larda doğru cevapla birlikte diğer seçenekler de gözden geçirilmelidir.
r j = 0,189.0,50 = 0,0945
olarak bulunur. Bu kat sayı ne kadar yüksek olursa, madde o kadar gü-
venilir demektir. Bu kat sayının alacağı maksimum değer madde standart
sapması ve ayırıcılık gücününe bağlı olarak 0,50’dir. Bulunan bu sonuca
göre maddenin güvenirliği oldukça düşüktür. Madde güvenirliğini düşüren
sebep ise madde ayırıcılık gücünün düşük olmasıdır. Eşitlik 8.9 dikkatle
incelenirse, madde güvenirlik indeksi madde ayırıcılık gücü ve madde stan-
dart sapmasının bir fonksiyonudur ve bu iki istatistiğin değeri arttıkça mad-
denin güvenirliği de artar. Tüm bu açıklamalar ışığında bu maddenin testin
güvenirliğini tehdit edeceği ve düşüreceği söylenebilir.
Test geliştirme ve madde seçme prosedürüne ilişkin tüm bu açıklamalar
ışığında test geliştirirken göz önünde tutulması gereken en önemli ölçütler
aşağıdaki gibi özetlenebilir.
1. Testin Uzunluğu: özellikle güvenirlik için son derece önemlidir.
Güvenilir bir test oluşturabilmek için testteki madde sayısının 20-
30’dan az olmamasına özen gösterilmelidir.
2. Kapsam: Test ölçülecek olan kapsamın tümünü temsil edecek şe-
kilde yapılandırılmalıdır. Bir başka ifade ile programda yer alan
tüm hedef ve davranışları temsil etmelidir.
3. Madde-test korelasyonları: Bu en önemli ölçütlerden birisidir. Bu
kat sayı ne kadar yüksekse madde o kadar iyi ve kaliteli demektir.
Bir başka ifade ile madde testle ölçülmek istenen özelliği ölçüyor
ya da temsil ediyor demektir. Nihai teste madde seçimi için bu kat
sayıya ilişkin ölçütler aşağıdaki gibi tanımlanmıştır (Crocker ve
Algina, 1986; Ebel, 1965).
Madde M1 M2 M3 M4 M5 Test
Puanı
Birey
A 1 1 1 0 1 4
B 1 0 0 0 0 1
C 1 1 0 0 0 2
D 0 0 0 0 1 1
E 1 1 1 1 1 5
F 1 0 0 0 1 2
G 1 1 1 0 0 3
H 1 1 1 1 0 4
I 1 1 0 0 1 3
J 1 0 1 1 0 3
Toplam 9 6 5 3 5 28
p 0,90 0,60 0,50 0,30 0,50 2,8
q 0,10 0,40 0,50 0,70 0,50
2
p.q ( s j )
0,09 0,24 0,25 0,21 0,25
X =
∑X (8.10)
N
ya da madde istatistikleri kullanılarak;
X = ∑ pj (8.11)
∑ (X − X )
2
S 2
X = (8.12)
N −1
formülü kullanılır fakat eğer varyans evrenden kestirilecekse;
∑ (X − X )
2
S 2
X = (8.13)
N
formülü aracılığıyla ya da madde istatistikleri aracılığıyla,
S X2 = (∑ rj )
2
(8.14)
∑ (X − X )
2
SX = (8.15)
N −1
formülü aracılığıyla, fakat eğer standart sapma evrenden kestirilecekse;
∑ (X − X )
2
SX = (8.16)
N
formülü kullanılarak kestirilebilir ya da madde istatistikleri aracılığıyla,
S X = ∑ rj (8.17)
( 4 − 2,8 ) + (1 − 2,8 ) + ( 2 − 2,8 ) + (1 − 2,8 ) + ( 5 − 2,8 ) + ( 2 − 2,8 ) + ( 3 − 2,8 ) + ( 4 − 2,8 ) + ( 3 − 2,8 ) + ( 3 − 2,8 )
2 2 2 2 2 2 2 2 2 2
S 2X = = 1,73
10 − 1
∑ (X − X )
2
SX = =
N −1
( 4 − 2,8) + (1− 2,8) + ( 2 − 2,8) + (1− 2,8) + ( 5 − 2,8) + ( 2 − 2,8) + ( 3 − 2,8) + ( 4 − 2,8) + ( 3 − 2,8) + ( 3 − 2,8)
2 2 2 2 2 2 2 2 2 2
= 1,32
9
olarak kestirilebilir.
Tablo 8.8’de hesaplanan madde istatistikleri aracılığıyla ve eşitlik
8.17’den yararlanarak test standart sapması;
X
P= (8.18)
K
ya da madde istatistikleri kullanılarak,
P=
∑p j
(8.19)
K
266 Eğitimde Ölçme ve Değerlendirme
Testin Güvenirliği
Testin ne derece güvenilir olduğu;
K ⎛⎜ ∑ p.q ⎞⎟
KR − 20 = . 1− (8.20)
K − 1 ⎜⎝ S X ⎟⎠
2
KR − 20 =
K ⎛⎜
. 1−
∑ p.q ⎞
⎟ (8.21)
K − 1 ⎜ (∑ rJ )2 ⎟
⎝ ⎠
ya da tamamen test istatistiklerine dayalı olarak;
K ⎛⎜ K .X − ( X ) 2 ⎞
⎟
KR-21= 1− (8.22)
K − 1 ⎜⎝ K .S X
2 ⎟
⎠
formülleri aracılığıyla kestirilebilir.
Testin güvenirliği, ölçme sonuçlarının hatasızlığının göstergesi olarak
kullanılır. KR-20 ya da KR-21 güvenirliği, testin maddelerinin birbiriyle ne
derece tutarlı olduğunun ölçüsünü verir. Bir diğer ifade ile testin iç tutarlı-
ğının ölçüsüdür. Bu kat sayı 1,00’e yaklaştığı ölçüde maddelerin birbiriyle
Ölçme Aracı Geliştirme 267
MADDE MADDE
Davranış
Davranış
Nihai test oluşturulurken, Tablo 8.9’da verilen her bir davranışa ait so-
ruların madde istatistikleri incelenir. Madde seçme prosedürün de ilk göz
önüne alınması gereken indeks madde ayırıcılık gücüdür. Denemelik form-
da yer alan maddelerden her davranış için ayrıcılık gücü en az 0,30 ve üze-
rinde olan maddeler belirlenir. Bir davranış için ayırt edicilik gücü indeksi
uygun olan birden fazla madde olması durumunda; ayırt edicilik gücü en
yüksek olan seçilebilir. Madde Seçim sürecinde ikinci göz önüne alınması
gereken indeks madde güçlük indeksidir. Denemelik formda yer alan mad-
delerden her davranış için madde güçlük indeksi en az 0,20 ile 0,80 arasında
değişen maddeler belirlenerek , nihai testte yer alacak maddelerin, madde
güçlük indekslerinin ortalaması 0.50 olacak şekilde ve bütün yetenek düzey-
lerine hitap edecek biçimde geniş bir ranjda dağılım göstermesine özen
gösterilmelidir. Bu dağılım mümkün olduğunca normal olmalıdır. Testi
oluşturan soruların çoğu orta güçlükte olmalı1, güçlük düzeyi azaldıkça ve
çoğaldıkça soru sayısı da azaltılmalıdır. Çok kolay ve çok zor soruların teste
alınması önerilmemektedir. Ancak bu aşamada az sayıda kolay sorunun
teste alınması ve testin ilk soruları olarak kullanılması, öğrencilerin teste
yönelik moral ve motivasyonlarının yükseltilmesi açısından önemlidir.
Eğer bir davranışa yönelik, tüm maddelerin madde ayırt edicilik güçleri
oldukça veya yeterince yüksek ise; madde güçlük indeksi orta güçlükte veya
orta güçlüğe en yakın olan maddelerin teste seçilmesi önerilebilir. Çünkü bu
tür maddelerin madde varyansları daha yüksek olacağından bireyler arası
farkları daha iyi görecektir.
Yukarıda belirtilen kriterlere uygun bir şekilde madde seçim işlemi ya-
pıldıktan sonra, seçilmiş olan maddeler bir araya getirilerek nihai testin
psikometrik özellikleri (test istatistikleri) kestirilir. Bunun için öncelikle
Tablo 8.9 üzerinde belirtilen seçilmiş maddeler bir araya getirilir ve madde
seçimine kaynaklık eden iki önemli istatistiği (madde güçlük indeksi ve
madde ayırıcılık gücü indeksi) kullanmak suretiyle diğer madde istatistikleri
de (madde güvenirliği, madde varyansı ve standart sapması) eşitlik 8.7, 8.8,
8.9 aracılığıyla hesaplanarak aşağıdaki gibi bir Tablo oluşturulur.
1
Orta güçlükte olan maddelerin seçilmesinin sebebi, maksimum madde
varyanslarına bu tür maddelerin sahip olmasıdır. Madde varyanslarının maksimum
olması demek maddenin ölçülmek istenen özellik açısından bireyler arası farklılıkla-
rı daha iyi görmesi anlamına gelmektedir.
270 Eğitimde Ölçme ve Değerlendirme
Testin güvenirlik kat sayısı (KR-20), eşitlik 8.20 veya 8.21 aracılığıyla;
10 ⎛ 2,36 ⎞
KR − 20 = .⎜1 − ⎟ = 0,786
10 − 1 ⎝ 8,07 ⎠
olarak bulunur. Bulunan bu güvenirlik kat sayısı, nihai testin maddele-
rinin birbirleriyle yüksek derecede ilişkili olduğunu ve buna dayalı olarak ta
testin yeterince güvenilir olduğunu göstermektedir. Bu kat sayı, nihai testin
ölçmeyi amaçladığı özelliği hatasız olarak ölçebileceğine ilişkin kanıt olarak
kullanılabilir.
Testin standart hatası, eşitlik 8.21 aracılığıyla,
Özet
Kaynakça
Aiken, L., R. (2000). Psychological testing and assesment (10th ed). Massachusetts:
Allyn and Bacon.
Atılgan, H., Kan, A., ve Doğan, N. (2007). Eğitimde ölçme ve değerlendirme (2. Bas-
kı). Ankara: Anı Yayıncılık.
Baykul, Y. (2000). Eğitimde ve psikolojide ölçme: klasik test teorisi ve uygulaması.
Ankara: ÖSYM Yayınları.
Baykul, Y., Gelbal, S. ve Kelecioğlu, H. (2001). Eğitimde ölçme ve değerlendirme.
Ankara: MEB Yayınları.
Cohen J., R. ve Swerdlik E., M. (2002). Psychological testing and assesment (5th.
Ed.). New York: McGraw-Hill Book Co.
Crocker, L. ve Algina, J. (1986). Introduction to classical and modern test theory. New
York: Holt, Rinehart and Winston Inc.
DeVellis, F. (2003). Scale development: Theory and applications (2nd. Ed.).
California: Sage Publications.
Erkuş, A. (2003). Psikometri üzerine yazılar. Ankara: Türk Psikologlar Derneği Ya-
yınları.
Guilford, J., P. (1954). Psychometric methods (2nd. Ed.). New York: McGraw-Hill
Book Co.
Kan, A. (2007). Test yansızlığı: H.Ü. Yabancı dil muafiyet sınavının cinsiyete ve
bölümlere göre DMF analizi. Eğitim Araştırmaları, 29, 45-58.
Kline, P. (1986). A handbook of test construction. New York: Methuen Co. Ltd.
Magnusson, D. (1967). Test theory. massachusetts: Addison-Wesley Pub. Co.
Murphy, R., K. ve Davidshofer, O., C. (2001). Psychological testing: principles and
applications. New Jersey: Printice-Hall Inc.
Nunnally, J., C., ve Bernstein, I., H. (1994). Psychometric theory. New York:
McGraw-Hill, Inc.
Özçelik, D., A. (1998). Ölçme ve değerlendirme. Ankara: ÖSYM Yayınları.
Thorndike, L., R. ve Hagen E. (1977). Measurement and evaluation in psychologhy
and education. New York: Chapman and Hall Ltd.
Turgut, M., F. (1995). Eğitimde ölçme ve değerlendirme Metotları (10. Baskı). Anka-
ra: Yargıcı Matbaası.
Walsh, W., B. ve Betz, N., E. ( ). Tests and assessment. New Jersey: Printice-Hall.
Inc.
274 Eğitimde Ölçme ve Değerlendirme
Sorular
1. Çoktan seçmeli bir soruyu 25 öğrenci doğru cevaplamış, 25 öğrenci yanlış cevap-
lamıştır. Bu sorunun güçlük düzeyi nedir?
A) 0,45 B) 0,50 C) 0,60 D) 0,65 E) 0,70
2. Çoktan seçmeli bir maddeye ait güçlük indeksi 0,30 olarak bulunmuştur. Bu mad-
de için aşağıdaki ifadelerden hangisi doğrudur?
A) Maddeyi sınıfın %30’u doğru cevaplamıştır.
B) Maddeyi sınıfın %70’i doğru cevaplamıştır
C) Sınıfın %30’u maddeyi şansla cevaplamıştır.
D) Sınıfın %30’u maddeyi yanlış cevaplamıştır.
E) Sınıfın %70’i maddeyi boş bırakmıştır.
Soru pj rjx
1 0,85 0,19
2 0,50 -0,10
3 0,30 0,50
4 0,20 0,20
5 0,80 0,45
Gruplar A B C* D E Toplam
12. Madde varyansları toplamı 2,20, test varyansı 9,40 olan 10 maddelik bir testin
güvenirliği kaçtır?
A) 0,70 B) 0,75 C) 0,80 D) 0,85 E) 0,90
Cevap Anahtarı
1 2 3 4 5 6 7 8 9 10 11 12
B A E B C C C A D B D D
(Ek-A’nın Devamı)