Professional Documents
Culture Documents
ve Dağılımlar
Temel Tanımlar
Her bilim kolunda olduğu gibi istatistik de
kendine ait terimler üretmiştir. Bunlardan belli
başlılarını ilerideki konuların anlaşılmasını
sağlamak üzere tanımlayalım.
Yığın (Population): N gözlemden oluşan geniş
veri seti
Örnek: Yüksek Lisans Öğrencileri
Örneklem: Topluktan alınan n tane gözlemden
oluşmuş grup
Örnek: GYTE’deki Yüksek Lisans Öğrencileri
Rasgele değişken: deneydeki bir sonraki
gözlemin değeri.
Temel tanımlar
Yığını tanımlayan bir nicelikle örneklemi
tanımlayan bir nicelik birbirinden farklıdır.
İstatistik: Yığını temsil ettiği düşünülen verileri
kullanarak hesaplanmış nicelikler
Parametre: Yığınla özdeşleştirilen idealize edilmiş
nicelik. Parametreler direkt olarak ölçülemezler ve
bu nedenle istatistikle tahmin edilirler.
Parametreler Yunan harfleriyle istatistikler ise
Roma harfleriyle gösterilir.
Yığın ve Örneklem
Yığın Örneklem
Yığın Örneklem
Ortalama
Σyi Σy i
µ= y=
N yi: gözlem n
Varyans: belli bir gözlemin yığın ortalamasından ne kadar
farklı olduğunun ölçüsüdür.
Σ ( yi − µ ) 2 Σ ( y − y ) 2
N n −1
parametrelerini
Σ ( yi − µ ) 2 örneklem istatistiği ile Σ ( yi − y ) 2
Standard
σ= elde edebilir. s=
sapma N n −1
Yığın ve Örneklem
varyans Σ ( yi − y ) 2 Bağımsızlık derecesi: ν = n-1
s =
2
Verideki Yanlılık ve
Sistematik
saçılmanın hassaslığın bir
Hatalar
derecesi fonksiyonu
Gerçek
Değer
A
Y H D
B
A Büyük İyi Az
C
B Küçük Kötü Az
D
C Büyük Kötü Az
7.5 8.00 8.5 9
D Yok İyi Çok
Fark (mg/l)
10 8 0 2
11 10.1 -2.1 1
12 8.5 -0.5 0
13 6.5 1.5 -1
14 9.2 -1.2 -2
15 7.4 0.6 -3
16 6.3 1.7 0 10 20 30
17 5.6 2.4
18 7.3 0.7
Ölçüm No
19 8.3 -0.3
20 7.2 0.8
21 7.5 0.5
Şekilde görüldüğü gibi nitrat ölçümlerindeki
22 6.1 1.9
hatalar için rastsal diyebiliriz.
23 9.4 -1.4
24 5.4 2.6
25 7.6 0.4
26 8.1 -0.1
27 7.9 0.1
Örnek
Ancak rastsallığın
kontrolünde deneye etki
eden tüm faktörler göz Teknisyen B
önüne alınmalıdır. 2
Örneğin nitrat
örneklerinde deneyi
kr a F
yapan kişilere göre veri 0
çizildiğinde şekildeki gibi
bir durum çıktığında
verilerin rastsallığından -2
söz edemeyiz. Teknisyen A
Bağımsızlık
Bir dizi gözlemden bilinmeyen nedenlerden
deneysel hataların bir süre etkin olarak
kaldığını varsayalım. Öyle ki birinci gözlem
y1 yüksekse ikinci gözlem y2 de yüksek
oluyor. Bu durumda y1 ve y2 istatistiksel
olarak bağımsız değildir. Bir veri setinin
bağımsız olmaması hesaplanan varyans
değerini ciddi şekilde bozar ve normal ya da
t dağılımına bağlı olarak yapılan çıkarımlar
hatalı olabilir.
Bağımsızlık, Örnek
Verilen nitrat verilerinin bağımsız olup olmadığı
hakkında ne diyebilirsiniz?
12
Bu örnekte ölçümler
10 birbirinden bağımsız
nitrat kons(i-1)
8 görünüyor.
6
4
2
0
0 2 4 6 8 10 12
nitrat kons (i)
Bağımsızlık
Çevresel veriler söz konusu olduğunda, arıtma tesisi giriş
çıkış konsantrasyonları , ırmaktaki su kalitesi değerleri,
bunların bir önceki ölçüm değerinden etkilenmemesi
mümkün değildir. Çıkış kalitesi çok kötü ise bu bir süre
devam edecektir. O nedenle bu tip verileri
değerlendirirken otomatik olarak bağımsızdır varsayımını
yapamayız. Veri setinde bağımsızlıktan söz edilemiyorsa,
bu durumda özel yöntemler kullanılmalıdır.
Normal Dağılım
Deneysel hatalar yüzünden tekrar edilen ölçümler arasındaki
fark genellikle merkezi bir değerin çevresinde çan eğrisi
şeklinde simetrik ve küçük sapmaların büyük sapmalardan
daha çok olduğu bir şekilde dağılır. Bu şekilde sürekli yığın
frekans dağılımına Gaussian ya da normal dağılım denir.
N(ortalama,varyans)
N(µ ,σ 2):
N(52,144)
Standartlaştırılmış Normal Dağılım
Standartlaştırılmış normal
sapmalarla çalışmak daha
kolaylık sağlar. (veri Standard
sapma cinsinde yazılarak
orijinal ölçüm birimlerinden
bağımsız hale gelir.)
z = (y-µ )/σ
Ν ( 0,1)
z = 1.57
α = 0.0582 = % 5.82
(Excel’de, = 1-Normsdağ(z))
Verinin %10’nun üzerinde olacağı z
değeri kaçtır?
Eğer ana dağılım normalse y¯’nin dağılımı da normal olacak, normal değilse y¯
dağılımı daha normal gibi olacaktır. Ortalamanın hesaplanmasında kullanılan birim
sayısı (n) arttıkça y¯nin dağılımı normal dağılıma daha çok yaklaşır. Ortalaması µ ve
varyansı σ 2/n olan dağılımı referans dağılım gibi alıp y¯ hakkında istatistiksel
çıkarımlar yapmamızı sağlar. Örneğin y¯’nin belli bir sayıdan büyük ya da küçük olma
ya da iki sayı arasında olma olasılığının değerlendirilmesinde.
Örnek
27 adet nitrat numune ölçümünün
ortalaması 7.51 mg/l. s = 1.383.
Ortalamanın standart hatası kaçtır?
sy = s/ √n=0.266 mg/l
t dağılımı
µ =8
α =%5 tk-1.706
-3 -2 -1 0 1 2 3
Hesaplanan t=-1.842
Çift Yönlü Test
Ho : µ = 8 mg/l
Ha : µ ≠ 8 mg/l (çift yönlü test)
α =0.05.
Bu durumda t referans dağılımının hem negatif hem de
pozitif kuyruk alanları dikkate alınır. Simetriden dolayı bu
kuyruk alanları birbirine eşittir.
0.05/2 = 0.025.
Serbestlik derecesi 26 için kritik t değeri tablodan bulunur.
tk=t(26,0.025)=±2.056 (excel’de =tters(0.05;26))
t = ±1.842
t>tk (-1.842>-2.056).
Sıfır hipotezini reddetmek için yeterli kanıt yok.
Tek Yönlü Çift Yönlü
t dağılımı t dağılımı
µ =8 µ =8
α =%5 tk-1.706 α =%2.5
tk-2.056
α =%2.5
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Tek ve çift yönlü hipotez testleri sonuçları farklı çıkarımlar doğurdu, aynı ortalama,
aynı veri, aynı anlamlılık düzeyi ve aynı sıfır hipotezi kullanılmasına rağmen. Tek
fark alternatif hipotezdi, Ha. İstatistiksel olarak sıfır hipotezini reddetmek için için y-
ile µ arasındaki sapma çift yönlü testte tek yönlü teste göre daha fazla olmalıdır.