You are on page 1of 8

HİPOTEZ SINAMA VE ÖRNEKLEM DAĞILIMLARI

Aşağıdaki türden sorulara, şimdiye kadar değinmiş olduğumuz betimsel istatistikler cevap vermez.

Bir örneklem ortalaması, bilinen bir evren ortalamasından farklı çıktı. Neredeyse her zaman farklı çıkar ama
bu fark şans (örnekleme hatası) ile açıklanabilir mi, yoksa bu örneklemimiz başka bir evrenden mi geliyor?

Deney ve kontrol gruplarının ortalamaları farklı çıktı. Peki bu fark örnekleme hatasıyla açıklanabilecek bir
fark mı yoksa deney grubuna uyguladığımız girişimin oluşturduğu bir fark mı?

Örnekleme hatasını hatırlayalım. Ortalaması µ olan bir evrenden örneklemler seçtiğimizde örneklemlerin ortalamaları
𝑋̅’ler olacak. Ve bu 𝑋̅’lerin µ’den farklı olmasına yol açan şey örnekleme hatası. Doğal yani. Bir yanlışlık,
dikkatsizlik veya eksiklik değil.

Örnekler:

Genel toplumda evren ortalamasının 50 olduğunu bildiğimiz bir davranış problemleri ölçeğini ele alalım.
Annesi çalışan bir grup çocuk alalım. Bu çocukların bu ölçekten alacakları puan 50’den farklı olacak. Peki bu
fark örnekleme hatası ile açıklanabilir mi yoksa anneleri çalışan çocukların evren ortalaması 50’den farklı
mıdır?

Diyelim ki test kaygısı puanlarının genel toplumdaki evrendeki ortalaması 50. Biz bir test kaygısı eğitimi
düzenlemiş olalım. Deney grubuna bu eğitimi verelim. Kontrol grubuna ise bir eğitim yapılmasın. Deney
grubu test kaygısı puanları ortalaması 49, kontrol grubunun ortalaması ise 52.3 olsun.

Öğrencilerin ders değerlendirme için verdikleri puanlar ile o dersten bekledikleri notlar ilişkili mi acaba?
Derse pek gelmeyen ve düşük başarılı öğrenciler haksız yere düşük puan mı veriyor acaba? 50 tane dersi
tesadüfi olarak seçelim ve gerçekten de böyle bir eğilimin olduğunu görmüş olalım. Peki bu eğilim genel
midir, yoksa sadece bizim seçtiğimiz derslere denk gelmiş olan bir durum mu? Çalışmayı başka dersler ile
yapsak aynı sonucu bulacak mıyız?

Doob & Gross (1968) algılanan sosyal statü ile davranış arasındaki ilişkiyi incelemiş. Kırmızı ışıkta bir araba
ışık yeşile döndüğünde kalkmıyor. Arkadaki sürücü korna çalacak mı? Bunu merak ediyoruz. Ucuz, eski
püskü bir arabayla 100 tane deneme yapılmış ve % 84’ünde arkadaki kişi korna çalmış. Yeni ve pahalı bir
arabayla 100 deneme yapıldığında ise arkadaki sürücünün korna çalma oranı % 50 olmuş. Bu fark sadece
bizim çalışmaya dahil ettiğimiz durumlar (örneklem) için var olan bir bulgu mu, yoksa gerçekten sosyal statü
algısı davranışları etkiliyor mu?

Bu türden sorulara cevap vermemizi sağlayan işleme hipotez sınama (hipotez testi) diyoruz.

Sonuçlar ne kadar yakın çıkarsa örnekleme hatası ile açıklanabilir olduğu, ne kadar uzak çıkarsa arada gerçek
(güvenilir, girişimden kaynaklı) bir fark olduğu sonucuna varacağız?

Ruback & Juieng (1997) sürücülerin park halindeki arabalarını otoparktan çıkarırken arkada birinin bekliyor olmasının
park yerinden çıkma süresini etkileyip etkilemediğini incelemiş. 25 kere arkada biri o park yerinin boşalmasını
bekliyorken, 25 kere de arkada kimse yokken park yerinden çıkan araçlar kayıt altına alınmış. Ortalama süreler
kıyaslanmış. Biri bekliyorken 39.03, kimse yokken 32.15 yani 6.88 saniye fark bulunmuş. Her iki grup için de standart
sapma 14.6 saniye olmuş.

Bu bulguyu iki durum açıklayabilir. Ya arkada birinin beklemesi fark etmiyordur. Aradaki 6.88 saniyelik fark
zaten örnekleme hatası ile bekleyeceğimiz bir farktır.

Ya da arkada birinin beklemesi insanların park yerinden çıkma sürelerini uzatıyordur.


Yani 6.88 saniyelik fark örnekleme hatası ile bekleyeceğimizden daha büyüktür. Onunla açıklanamaz.
Yani 6.88 saniyelik fark istatistiksel olarak anlamlıdır.

Ortalamalar 32.15 ve 32.18 olsaydı karar vermek kolaydı. Örnekleme hatası.


Ortalamalar 32.15 ve 59.03 olsaydı da karar vermek kolaydı. Arkada birinin beklemesi fark ettiriyor.
Ama bulunan fark arada bir yerde.
Örnekleme hatası ile ne kadarlık farklar bekleyebileceğimizi gösteren dağılımlara örnekleme dağılımları
diyoruz. Normalde belirli matematiksel formüllere dayalı bilinen dağılımlar oluyorlar. Ama ne olduğunu
anlamamız için Howell bu örnekte örneklem dağılımını deneysel olarak üretmiş.

Diyelim ki arkada birinin beklemesi park yerinden ayrılma süresini etkilemesin. Yani her iki durumun
da evren ortalaması 35 ve standart sapması 15 olsun. Yani bu iki örneklem ortalaması aynı olan iki
evrenden geliyor olsun (µ1 = µ2). Bunu aynı evrenden geliyor olsunlar diye de algılayabiliriz.

Aynı ortalamaya ve standart sapmaya sahip iki evrenden (veya aynı evrenden) 25er kişilik örneklem
çiftleri seçelim. Bu örneklem çiftlerinin ortalamaları arasındaki farkları not edelim. Bu işlemi 10000
kere tekrarlayalım.

Bu farkların tamamı örnekleme hatası ile oluşan farklar çünkü aynı evrenden geliyorlar. Bu farkların
dağılımını çizelim.

Dağılımdan gördüğümüz üzere farkların büyük çoğunluğu −3 ile +3 arasında değişiyor. Yani
örnekleme hatası ile oluşacak farklar bu dağılımdakine benziyormuş.

Peki bu farkların ne kadarı 6.88 veya daha fazla? 10000 tanesinden sadece 6 tanesi 6.88’e eşit veya
daha büyük. % 0.06. % 1’den bile daha az. 0.0006.

Yani eğer bu iki örneklem aynı evrenden geliyor olsalardı (arkada birinin beklediği fark etmiyor
olsaydı) bu kadar büyük bir fark bulma olasılığımız 0.0006 olurdu.

Dolayısıyla, arkada biri bekliyorken insanların park yerinden çıkmasının daha uzun zaman aldığı
sonucuna ulaşıyoruz.

6.88 saniyelik bu fark örnekleme hatası ile açıklanamaz.

6.88 saniyelik bu fark istatistiksel olarak anlamlıdır.

Hipotez testi bize sadece aradaki farkın istatistiksel anlamlılığını verir. Yani örnekleme hatası ile açıklanıp
açıklanamayacağına dair karar vermemizi sağlar. Ama farkın ne kadar pratik anlamlılık gösterdiği bilgisini vermez.

Çağdaş saygın dergilerde artık sadece istatistiksel anlamlılığın rapor edilmesi yetmiyor. Güven aralıkları ve pratik
anlamlılığı gösteren etki büyüklüğünü gösteren etki büyüklüğü istatistiklerinin de rapor edilmesi isteniyor.

Test ettiğimiz hipotez şu: Bu iki örneklem aynı evrenden geliyor olsaydı bu kadar büyük bir farkın çıkması beklenirdi.
Aynı evrenden geliyor olsalardı bizim çalışmada bulduğumuz 6.88 saniyelik bir fark bulma olasılığı 0.0006 olurdu.
Gerçekten çok düşük bir olasılık. Dolayısıyla, şu sonuca ulaşıyoruz: Park yeri için birinin bekliyor olması park
yerinden ayrılma süresini uzatıyor.
Örnekleme dağılımı bize bu olasılığı hesaplama imkanı veriyor. Eğer çalışmada bulunan fark 2.88 saniye gibi bir fark
olsaydı. O zaman, aynı evrenden gelen örneklemler için bu kadar veya daha büyük bir fark bulma olasılığı 0.092
olacaktı. Bu olasılık çok az değil.

Bu örnekte adımlarımızı şöyle özetleyebiliriz.

(1) Araştırma hipotezimiz şuydu: Park yeri için birisi beklerken insanların park yerinden çıkma süresi uzuyor.
(2) İki durum (bekleyen varken ve yokken) için birer örneklem (veri) topladık.
(3) Yokluk hipotezini (sıfır hipotezi, H0) kurduk: Örneklemler aynı evrenden geliyor. Veya birinin bekliyor
olması park yerinden ayrılma süresini etkilemiyor.
(4) H0 doğru iken oluşacak farkları gösteren örneklem dağılımını elde ettik.
(5) Örneklem dağılımına bakarak, en az eldeki veri kadar büyük bir farkın elde edilmesi olasılığını hesapladık.
(6) Bu olasılık değerine bakarak, H0’ı reddetmek veya reddetmemek kararını verdik.

Genel olarak hipotez testi mantığı aynı şekilde işliyor.

(1) Araştırma hipotezini kur.


(2) H0’ı kur.
(3) Test edeceğin istatistiğin H0 doğru iken oluşacak örneklem dağılımını elde et.
(4) Veriyi topla.
(5) Topladığın veride bulduğun istatistiği örneklem dağılımı ile kıyasla.
(6) H0 doğru iken en az veride elde ettiğin kadar uç bir değer elde etme olasılığına bakarak H0 hakkında karar ver:
Reddedildi veya reddedilemedi.

Hipotez testinin bize sağladığı olasılık:


H0 doğru varsayılırsa bu kadar uç bir veri elde etme olasılığı kaçtır? p(D|H0)

Esas bilmek istediğimiz şeyler:


H0’ın doğru olma olasılığı kaçtır? p(H0)
Eldeki veri bu olduğuna göre H0’ın doğru olma olasılığı kaçtır? p(H0|D)
Araştırma hipotezinin (H1’in) doğru olma olasılığı kaçtır? p(H1)
Eldeki veri bu olduğuna göre araştırma hipotezinin (H1’in) doğru olma olasılığı kaçtır? p(H1|D)

Maalesef hipotez testi, bize bu olasılıkların değerlerini vermez. Ama bazen gerçek hayatta da bu mantığı kullanırız:
Bu sürücü alkolsüz olsaydı böyle konuşmaz, hareket etmekte zorlanmazdı. Dolayısıyla, içmiş belli ki.

Neden H0’ı doğru varsayıp örneklem dağılımını çiziyoruz? Esas ilgilendiğimiz H1 değil mi?
Evet öyle aslında ama H0 sayısal olarak belli µ1=100 gibi. Ama H1 sayısal olarak belli değil. Sadece µ1≠100.
µ1=101, µ1=112, µ1=113… Hangisine göre örneklem dağılımı elde edeceğiz?

H0 hakkında iki olası karar var.

Ya H0’ı reddederiz. (reject H0). Bu, aradaki farkın istatistiksel olarak anlamlı olduğu anlamına gelir. Aradaki
fark örnekleme hatası ile açıklanamayacak kadar büyüktür.

Ya da “H0 reddedilememiştir.” deriz. (fail to reject H0). Hiçbir zaman aşağıdaki gibi cümleler kurmayız:
H0’ın doğru olduğu gösterilmiştir.
Fark olmadığı sonucuna ulaşılmıştır.
Ortalamaların eşit olduğu kanıtlanmıştır.
Şu anlamlılık düzeyinde deney ve kontrol gruplarının evren ortalamaları eşittir.
H0 reddememiş olmamız çoğu zaman yeterince veri toplayamadığımız anlamına gelir.

Örneklem ortalamalarının farklarının dağılımlarını ele alabileceğimiz gibi ders değerlendirme puanları ile not
beklentileri arasındaki ilişkileri, korna çalma oranları arasındaki farkları da aynı şekilde hipotez testine tabi tutabiliriz.
Gerçekte t, F veya χ2 gibi test istatistiklerinin örneklem dağılımlarını tablolardan okur ve H0 hakkında karar veririz.
Ama mantık hep burada örneklediğimiz gibidir.
0.0006 çok düşük bir olasılıktı bu nedenle H0’ı reddetmiştik. Peki bu oran en çok kaç olursa H0’ı reddedeceğiz?
Sosyal bilimlerde en yaygın olarak 0.05 kullanılır. Bu değere anlamlılık düzeyi diyoruz.
α ile gösteriyoruz.
SPSS çıktıların bakılan significance (two tailed) değeri ve makalelerde rapor edilen p ≤ 0.05 değeri
budur. Yani H0’ı doğru kabul edersek bu kadar uç bir veri elde etme olasılığımız.
“Aradaki fark 0.05 düzeyinde anlamlıdır.”
İkinci en yaygın değer 0.01. Onu seçince H0’ı reddetmek daha mı kolay, daha mı zor?

Kritik değer, α’yı 0.05 yapan fark değeri. Ret bölgesi, 3.5’ten başlayan boyalı kısım.

I. ve II. Tip Hatalar


Şekilde H1, iki birim sağda çizilmiş. Ama aslında gerçekte nerede olduğunu bilmiyoruz.
Çalışmalarda yakalamak istediğimiz en küçük farkı seçip ona göre çiziyoruz.

Çalışmalarda güç 0.80 istenir. Örneklem genişliği de 0.80 gücü sağlayacak şekilde hesaplanır.
Eski örnekleme kitaplarındaki formüller başka amaçlar içindir.
Seçim sonuçlarını ±0.02 hassasiyetle kestirmek
Hacettepe Üniversitesi öğrencilerinin bir ölçekteki puan ortalamasını ±3 puan hassasiyetle kestirmek
Eğitim bilimleri alanındaki çalışmalar bu amaçları genellikle hiçbir zaman taşımazlar.

Hipotez testleri tek ya da çift yönlü olabilir. Çift yönlüsü her zaman tavsiye edilir. Böyle olunca ret bölgesi dağılımın
sağında ve solunda % 2.5 olacak şekilde iki bölgeden oluşur. Önce veriyi toplayıp sonra da veriye bakarak tek yönlü
test yapmak anlamlılık düzeyini % 7.5 yapmak demektir. Kabul edilemez.

Etki büyüklüğü (pratik anlamlılık)

Farkı 6.88 saniye bulduk ya. İşte o fark standart sapmanın (14.6) yaklaşık yarısı ediyor dedik ya. İşte aradaki farkın
kaç standart sapma ettiğini söyleyince etki büyüklüğünü rapor etmiş oluyoruz. Daha sonra buna (Cohen’in d’si
diyeceğiz).

p istatistiksel anlamlılığı gösterir. d ise pratik anlamlılığı. Yani bulgunun ne ölçüde büyük ya da küçük olduğunu
gösterir.

Finger tapping (parmak tıklatma) testleri Alzheimer, beyin hasarı, şizofreni gibi hastalıkların tespitinde ilk aşama
olarak kullanılıyormuş. Normal bireylerde ortalaması 47.8, standart sapması ise 5.3’müş ve bu puanlar normal
dağılıyormuş. Doktora başvuran bir hastanın puanı ise 35. Bu kişi nörolojik bir sıkıntısı olduğundan şüpheleneceğimiz
kadar düşük puan mı almıştır, yoksa bu kişinin puanı ile genel ortalama arasındaki fark örnekleme hatası ile
açıklanabilir mi?
H0: µ = 47.8 (Yani bu kişinin geldiği evrenin ortalaması 47.8’dir. Yani bu kişi normal bireyler evreninden
gelmektedir.)
H1: µ < 47.8 (Bu çalışmada iki yönlü kurup µ ≠ 47.8 yazmak akıllıca değil zira kişinin çok yüksek puan
almasının klinik olarak pek bir önemli tarafı yok. O yüzden burada hipotezi tek yönlü kurduk.)

Genel olarak α = 0.05 alınıyor. Biz de öyle alalım. (Peki 0.01 alırsak hangi hata türünü artırırız? Hangisi daha
ciddi?)

Normal dağılım tablosundan görüyoruz ki bir kişinin z puanın bu kadar veya daha düşük olması olasılığı
0.0078’miş. Bu olasılık, belirlediğimiz anlamlılık düzeyinden küçük. Yani p ≤ 0.05.

Dolayısıyla, eğer bu kişi normal bireylerin olduğu bir evrenden geliyor olsaydı bu kadar düşük bir puan alması
olasılığı çok düşüktü. Sonuçta H0’ı reddediyoruz. Kişinin beyin hasarı vb. rahatsızlıklar için ileri tetkiklere
yönlendirilmesi uygundur.

Alıştırmalar (Howell, s. 79): 1-5, 7, 10, 11, 14, 15.


Further Reading:

You might also like