You are on page 1of 65

İstatistik

İstatistik
• İstatistik, belli amaçlar için veri toplama, toplanan verileri düzenleme,
çözümlemenin yanı sıra yorumlama teknik ve yöntemleri olarak
tanımlanabilir.
• Betimsel (Descriptive) İstatistik: Verilerin ve bilgilerin düzenlenmesi,
özetlenmesi ve açıklanması
• Çıkarımsal (İnferential) İstatistik: Veriler ve betimsel istatistik
sonuçları kullanılarak bir olay veya olgu hakkında varsayımda
bulunmak, genellemeler yapmaktır.
EM Kullanım Alanları

• İstatistiksel Kalite Kontrol

• İstatistiksel Süreç Kontrol

• Saha Araştırmaları

• Veri Madenciliği Uygulamaları

• Performans Analizleri
Temel Kavramlar
• Anakitle-Evren (Population)
• Örneklem (Sample)
• Örnekleme (Sampling)
• Parametre-İstatistik
• Ölçek Tipleri
• Parametrik/Nonparametrik istatistik testler
Örneklem-Örnekleme
Örneklem
• Araştırılmak istenen bir olayla ilgili kütleden, belli kurallara göre
seçilmiş, kütleyi temsil ettiği varsayılan küçük bir küme örneklem
olarak adlandırılır. Örneklem anakütleyi oluşturan varlıkların alt
parçalarından oluşur.
Örnekleme
• Anakütle özelliklerini ortaya koyabilmek amacıyla anakütleden örnek
seçme işlemine örnekleme denir. Örnekleme ile yapılacak bir
araştırmanın anakütledeki gerçek durumu ortaya çıkarabilmesi için en
önemli koşul örneklemin anakütleyi temsil edebilir nitelikte olmasıdır.
Örneklem-Örnekleme
• Anakütleyi temsil yeteneğine sahip bir örneklemin temel özellikleri
şunlardır.
• Örneklemin büyüklüğü (hacmi, miktarı) yeterli olmalıdır.
• Örneklem anakütledeki dağılıma çeşit ve oran yönünden benzer
olmalıdır.
• Örneklem olasılıklı örnekleme yöntemlerinden biriyle seçilmelidir.
• Örneklem seçiminde tarafsız davranılmalıdır. Anakütledeki bütün
birimlerin örneğe girme şanslarını eşit kılmak gerekir.
Örnekleme Yöntemleri
• Örneklem seçimi çeşitli tekniklerle yapılır. Bütün bu teknikler
araştırmanın türüne ve amacına bağlıdır.

Basit Örnekleme
Rassal Örnekleme
Sistematik Örnekleme
Karara Bağlı
Katmanlı Örnekleme
Kotalı
Kümeleme
Ölçek Tipleri
Ölçek Tipi Açıklama Örnek
Sadece kalitatif (niteliksel) sınıflandırmalarda
Medeni Hal, Cinsiyet, Meslek,
kullanılırlar.
Nominal (İsimsel) Göz Rengi, Kan Grubu, Uyruk
Bu değişkenlerin ölçümü ve sıralanması
vb.
mümkün değildir.

Bu ölçek tipi ölçülen değerlerin birbirlerine göre


Öğrenim Durumu
Ordinal (Sıralama): büyüklüklerini belirler ancak bir değerin
Büyük-Küçük Ayrımları,
diğerinden ne kadar büyük ya da küçük
Likert-semantik Ölçekler
olduğunu ifade etmez.
Değerler arası mesafe bilinmektedir.
Interval (Aralık) Aralık ölçeğinin oran ölçeğinden temel farkı bir Sıcaklık, Başarı, Performans
başlangıç noktasının bulunmamasıdır.
Ratio (Oran): Bu ölçekte başlangıç “0” noktasıdır. Aylık Gelir, Ağırlık, Uzunluk, Hız
Parametrik ve Nonparametrik testler
• İstatistiksel analiz yapılmadan önce, verilerin kategorik
(nominal, ordinal) ya da sürekli (aralıklı, oransal) olup
olmadığına bakılmalıdır.

• Kategorik verilerde parametrik olmayan testler kullanılırken,


sürekli verilerde ise parametrik testler kullanılır
Veri Düzenlenmesi ve Analizi
Grafikler
Veri Toplama
Birincil Veri Kaynakları
• İşletmenin kendi iç kaynakları ile gözlem, anket, deney veya alan
taraması yöntemlerini kullanarak elde ettiği verilere birincil kaynak
verisidir.
İkincil Veri Kaynakları
• İşletme dışı kaynaklardan elde edilen çeşitli kurum ve kuruluşların
(Türkiye İstatistik Kurumu, Devlet Planlama Teşkilatı, Hazine
Müsteşarlığı, Merkez bankası vs.) yayınlarından oluşur.
• Kitaplar, dergilerdeki makaleler, ansiklopedi maddeleri, tezler,
gazeteler, yayımlanmış raporlar, el kitapları, broşürler, kataloglar
Veri Düzenleme
• Ham verilerin anlaşılır ve düzenli hale getirilmesi
• İstatistik Seriler, Tablolar ve Grafikler
• Frekans Dağılımları
• Basit Frekans Dağılımı
• Gruplandırılmış Frekans Dağılımı
• Verilerin Grafikle Gösterilmesi
• Sütun (Çubuk) Grafiği
• Histogram
• Frekans Poligonu
• Daire (Pasta) Grafiği
• Zaman Serisi Grafiği
• Dağılım(Serpilme) Grafiği
• Radar Grafiği
Frekans Dağılımları
• Ham veri/ sınıflandırılmamış veri
• Veri sayısı, birimi, türü
• Frekans: Değişkene ait aynı değere sahip bir verinin kaç kez tekrarlandığı
• Frekans Tablosu
• Eklemeli Frekans Tablosu
Pareto Analizi
Frekans Dağılımları
No Not No Not Öğrencilerin Notların Sıklığı
1 50 11 60 Notları (Frekansı) = fi
2 70 12 70 40 1
3 100 13 80 50 2
4 60 14 60 60 4
5 80 15 70 70 6
6 40 16 50 80 4
7 80 17 90 90 2
8 70 18 80 100 1
9 90 19 60
𝑛
10 70 20 70 Toplam 𝑓𝑖 = 20
𝑖=1
Frekans Dağılımları
• Sınıf: Eşit ya da birbirine yakın değere sahip verilerin (gözlemlerin,
deneklerin) bir arada gösterilerek oluşturulan her bir gruba
• Sınıf Sayısı (k)
• Sınıfın Alt Sınırı: Bir sınıfta yer alan en küçük değerdir.
• Sınıfın Üst Sınırı: Bir sınıfta yer alan en büyük değerdir.
• Sınıf Aralığı-Genişliği (S): Ardarda gelen iki sınıfın üst sınır (en büyük değer)
ile alt sınır (en küçük değer) arasındaki farktır.
• Sınıf Limitleri: Sınıfları belirleme için kullanılan sayılar
• Sınıf Frekansı
• Eklemeli Frekans
Frekans Dağılımları
Sınıf Sayısı
• 𝑵≤𝒌 5 ≤ 𝑘 ≤ 20
• 𝒌 = 𝟏 + 𝟑, 𝟑𝟐𝟐 ∗ 𝒍𝒐𝒈𝑵 (Sturges formülü)

S: Sınıf Aralığı
Xmax: Verinin en büyük değeri X  X
S 
max min
Xmin: Verinin en küçük değeri
1  3 , 322  log N
N: Veri sayısı
Frekans Dağılımları
Kesikli karakterdeki niceliksel verileri gruplarken sınıf
aralıklarında boşluklar oluşur.
Sınıf Limitleri
• Alt Limit Çalışan İşçi Sayısı KOBİ Sayısı
• Üst Limit 1 – 10 100
• Sınıf Sınırları 11 – 50 40
MECE
51 – 100 25
• Ayrık Sınıflar
101 – 200 15
• Dışarıda Değer
Kalmamalı 201 – 249 5

• Boş Sınıf Olmamalı


Frekans Dağılımları
Ağırlık Sınıfı Öğrenci sayısı
Öğrencilerin ağırlıkları 25 - 36 2
37 67 79 58 51 33 36.1 - 47 4
53 95 60 64 43 66 47.1 - 58 9
81 58 65 50 64 50
58.1 - 69 12
70 46 59 57 77 77
69.1 - 80 5
25 40 51 60 57 59
80.1 - 91 3
56 56 89 63 80 73
91.1 - 100 1
95  25
S   11 , 37  11
1  3 , 322 log 36
Frekans Poligonları
• Bu grafiklerde sınıf aralığı yerine sınıf orta noktasının sınıf frekansına
göre dağılımı çizgisel olarak grafiklenir.

• Frekans Poligonları, dağılımın şeklini ortaya koymada kullanılır

• Frekans poligonlarının histogramlara göre bir avantajı iki veya daha


fazla frekans dağılım grafiğinin kolaylıkla birbirleri ile karşılaştırılmasına
imkan tanımasıdır
(Frekans dağılımlarını sınıf sayısı ve aralığı aynı olmak koşulu ile)
Çapraz Tablolar
• Bazı durumlarda değişkenin iki farklı özelliğinin aynı tabloda
eşleştirilmiş olarak gösterilmesi istenebilir. Böyle durumlarda çapraz
tablo kullanılır.
• Tabloda satıra istatistik birimlerin bir özelliği, sütuna diğer özelliği
yazılarak ortak eleman sayıları hücrelere yazılmak suretiyle çapraz
tablolar oluşturulur.
• Çapraz tablolar hem niteliksel, hem de niceliksel veriler için
oluşturulabilir.
Çapraz Tablo Örneği
Bölümler
Lise
Türü
Bilgisayar Endüstri Enerji Kimya Ulaşım Polimer

Anadolu 50 55 36 8 17 9

Fen 2 3 0 0 0 0

End.
2 0 2 1 0 0
Meslek

İHL 4 2 6 3 5 2

Ticaret 0 0 0 1 0 1

Toplam 60 60 27 13 22 12
Sütun (Çubuk) Grafiği
•Niteliksel seriler ve Tasnif edilmiş seriler için çubuk diyagramı

Notlar Öğrenci sayısı Öğrenci sayısının dağılımı

12

Öğrenci sayısı
1 3 10

8
2 7 6

4
3 10
2

0
4 6 1 2 3 4 5

5 2 Notlar
Histogram Grafiği
• Grafiğin özelliği sürekli karakterde verilerin grafiği olması sebebiyle
histogram sütunların birbirine bitişik olmasıdır

Başarı Not Sınıfları Öğrenci Sınıf Aralığı Öğrencilerin İstatistik Dersi Not Dağılımları
Derecesi (Gruplar) Sayısı (Frekansı) (s) 120

100
100 90
AA 90-100 den az 30 90-100=10 80
BA 80-90 den az 55 80-90=10 80

Sınıf Sıklıkları
60
BB 70-80 den az 80 70-80=10 60 55
50
CB 60-70 den az 100 60-70=10
40 35
30
CC 50-60 den az 90 50-60=10
DC 40-50 den az 60 40-50=10 20

DD 30-40 den az 50 30-40=10 0


FF 20-30 den az 35 20-30=10 90-100 80-90 70-80 60-70 50-60 40-50 30-40 20-30
Gruplar
𝑛
Toplam 𝑓𝑖 = 500
𝑖=0
Frekans Eğrisi (Poligonu)
Histogram sütunlarının üst orta noktalarından geçen grafiktir.
Bu grafik dağılımın şeklini ortaya koymada kullanılan bir grafiktir.

Öğrenci
Not sınıfları
sayısı
25 – 36 den az 2
36 – 47 “ “ 4
47 – 58 “ “ 9
58 – 69 “ “ 12
69 – 80 “ “ 5
80 – 91 “ “ 3
91 – 100 “ “ 1
Frekans Eğrisi (Poligonu)
İstatistik Ders Notlarının Frekans Poligonu
120

100 100
90
80 80
Frekanslar

60 60
55
50
40
35
30
20

0
90-100 80-90 70-80 60-70 50-60 40-50 30-40 20-30
Gruplar
Dairesel Grafikler (Pasta Grafiği)
• Özellikle niteliksel (sayısal olmayan) değişken değerlerinin grafikle
gösterilmesinde kullanılırlar. Dairenin frekanslara açısal olarak
paylaştırılması ile elde edilir. Bir birimin açısal karşılığı şöyle bulunur.

360 360
• Açısal değer    3 derece
Toplam frekans 120

• Her kategorinin frekansı bu 3 ile çarpılarak dairedeki açısal değeri


bulunur.
Dairesel Grafikler (Pasta Grafiği)

Mühendislik yapmaktan memnun musunuz? Mühendislik yapmaktan memnun musunuz?

Sıklık Yüzde Kümülatif


Cevaplar Yüzde 4%

Hiç Memnun Değilim 4 3,5 3,5 13% 19%


Çok Memnunum
Memnun Değilim 15 13,3 16,8 Memnunum
14%
Kararsızım 16 14,2 31,0 Kararsızım

Memnun Değilim
Memnunum 57 50,4 81,4 50%
Hiç Memnun Değilim
Çok Memnunum 21 18,6 100,0
Toplam 113 %100
Zaman Serisi Grafiği

Yıllar X malı fiyatı


2000 12
2001 18
2002 15
2003 20
2004 27
2005 24
Dağılım(Serpilme) Grafiği
• Aralarında ilişki olduğu düşünülen iki değişkenin birbirine göre
nasıl bir değişim gösterdiğini, nasıl bir ilişki içinde olduğunu
gösteren grafiklerdir.
• Genellikle bu değişkenlerden bir etkileyen (bağımsız, açıklayan),
diğeri etkilenen (bağımlı, açıklanan) değişken olarak ortaya çıkar.
• Bir malın fiyatı ile onun talebi arasında ters bir ilişki olduğu
düşünülür.
• Kişilerin gelirleri ile tüketim harcamaları arasında pozitif bir
ilişkinin olduğu kabul edilir.
Dağılım(Serpilme) Grafiği

İstatistik Matematik
Notu Notu
Dağılım Grafiği
60 70

İstatistik notu
90
80
70
30 25 60
50
50 40 40
30
40 55 20
10
80 90 0
0 20 40 60 80 100

20 15 Matematik notu
80 70
Radar Grafiği

5S Kategorisi Puan
1. Sınıflandırma 5
2. Sırala-Düzenle 3,7
3. Temizle 2,7
4. Standartlaştır 2
5. Sahiplen-Koru 2,2
Merkezi Eğilim ve Dağılım Ölçüleri
Merkezi Eğilim ve Dağılım Ölçüleri

Merkezi Eğilim Ölçüleri Değişkenlik Ölçüleri Çarpıklık ve Basıklık Ölçüleri


• Ortalama • Değişim Aralığı • Çarpıklık Katsayısı
• Mod • Varyans • Basıklık Katsayısı
• Medyan • Standart Sapma
• Değişkenlik Katsayısı
• Kartil, Desil ve Santiller
• Mutlak Sapma
• Ortalama Sapma
Ortalamalar
Analitik Ortalamalar X min
 Ortalama  X max

• Aritmetik Ortalama
• Ağırlıklı (Tartılı) Aritmetik Ortalama Bir veri setinin merkez
• Geometrik Ortalama noktasını gösteren, serinin
• Harmonik Ortalama normal değerinin bir
• Kareli Ortalama göstergesi olan ve veriyi
tek bir değerle ifade eden
Analitik Olmayan Ortalamalar
değerlere merkezi eğilim
ölçüleri adı verilir.
• Mod
• Medyan
• Kartil, Desil ve Santiller
Aritmetik Ortalama
Aritmetik ortalama serideki gözlem değerleri toplamının toplam gözlem sayısına
oranıdır.

Basit Seride X 
X 1  X 2  .......... .  X N

 X i
Sınav
N N
ortalamaları

f 1X 1  f 2 X 2  ....  f k X k  fX
Gruplanmış Seride X  
i i

f 1 f 2  ....  f k  f i

Sınıflandırılmış Seride X 
f 1 m 1  f 2 m 2 ....  f k m k

 fm i i

f 1  f 2  ....  f k  f i

Xi : i. gözlem değeri fi : i. değerin frekansı


mi : i. sınıfın orta noktası N : toplam gözlem sayısı
Ağırlıklı Aritmetik Ortalama GNO

Bir serideki gözlem değerlerinin önem dereceleri farklı olursa, bu tür serilerin
aritmetik ortalaması ağırlıklı olarak hesaplanır.

• Veriler arasında önem farkı


Basit Seride X 
 t i
X i bulunması halinde kullanılır.
 • Oranların ve ortalamaların
T
ti

ortalaması hesaplanırken
Gruplanmış Seride X 
 t i
fi X i kullanılır.
T
 ti f i • Ortalama maliyet ve satış
fiyatı, bileşik fiyat ve miktar
Sınıflandırılmış Seride X 
 t f i i
mi indekslerinin
 t
T
i
fi hesaplanmasında da tartılı
ortalama kullanılır.
Örnekler
Başarı Not Sınıfları Sınıf Orta Öğrenci Sayısı
Derecesi (Gruplar) Değeri mi (Frekansı) mifi
Öğrencilerin Notları Notların Sıklığı fi
(Xi) (Frekansı) = fi fiXi AA 90-100 95 50 4750
40 1 40 BA 85-89 87 60 5220
50 2 100 BB 80-84 82 40 3280
60 4 240 CB 75-79 77 50 3850
70 6 420 CC 70-74 72 100 7200
80 4 320 DC 60-69 64,5 50 3225
90 2 180 DD 50-59 54,5 60 3270
100 1 100 DF 40-49 44,5 40 1780
FF 0-39 19,5 50 975
𝑛 𝒏
Toplam 𝑓𝑖 = 20 𝒇𝒊 𝑿𝒊 = 𝟏𝟒𝟎𝟎 𝑛 𝑛

𝑖=1 𝒊=𝟏
Toplam 𝑓𝑖 = 500 𝑓𝑖 𝑚𝑖 = 33550
𝑖=1 𝑖=1
Aritmetik Ortalamanın Özellikleri
• Aritmetik ortalama hassas bir ortalama olup serideki aşırı değerlerden etkilenir ve aşırı
değere doğru kayma gösterir.
• Serinin gözlem sayısı ile aritmetik ortalaması çarpılırsa serinin toplam değeri elde edilir.
NX   X i

• Serideki gözlem değerlerinin aritmetik ortalamadan sapmaları toplamı sıfır olur.


 X NX
 
i
(X i
 X )  X i
 NX    X  X  0
N N
• Serideki değerlerin aritmetik ortalamadan sapmalarının kareleri toplamı minimum olur.

  X ) 
2
(X i
Minimum

• Aritmetik ortalama özellikle normal dağılıma yakın serilerin ortalaması için elverişlidir.
• Bir serinin değerleri, diğer iki serinin değerleri toplamından oluşuyorsa bu serinin
aritmetik ortalaması da diğer iki serinin aritmetik ortalamaları toplamına eşit olur. 
X =Y +Z
Geometrik Ortalama
Bir serideki gözlem değerlerinin birbirleri ile çarpımlarının, gözlem sayısı derecesinde
kökünün alınması ile elde edilir.
Logaritmik Dönüşüm
N

G  X 1 X  X    XN
N

N
2 3 log X i
Basit Seride G  N
 X
i log G 
i 1

X 1  X 2  X 3      X N
  X i
i 1 N

 f i log X i
Gruplanmış Seride  fi i 1
G  X1  X X X
f f f fk
log G 
1 2 3

2 3 k k

 fi
i 1

 fi  f i log m i
G  m 1  m 2  m 3    m k
f 1 f 2 f 3 fk
Sınıflandırılmış Seride log G 
i 1
k

 fi
i 1
Örnek
Günler Altın Fiyatlarındaki %
Artışlar (Xi)
Pazartesi 1
Salı 2
Çarşamba 4
Perşembe 8

𝑁 4 4
G= 𝑋1 𝑋2 … … … 𝑋𝑁 = 1∗2∗4∗8= 64 = 2.83
Harmonik Ortalama
Harmonik ortalama bir serideki gözlem değerlerinin terslerinin aritmetik ortalamasının
tersine eşittir.
1 N N
H    H  N
1 1 1 1 1 1 1 1 1
Basit Seride X 1

X 2

X 3
  
X X1

X

X 3
  
XN
 Xi
N 2 i 1

H 
 fi
Gruplanmış Seride Harmonik ortalama (H) zaman birimi
fi
 Xi
başına hız ve üretim, para birimi başına
satın alınan mal miktarı, vb. oransal
verilerin ortalamasını bulmakta kullanılır.

 fi
Sınıflandırılmış Seride H 
fi
 mi
Örnek
Bir işletmede çalışan ve aynı parçayı işleyen 4 İşçiler Üretim süresi (dk)
işçinin bu parçayı üretim sürelerinin dağılımı
aşağıda verilmiştir. A 5
Bu işçiler hep birlikte bu parçayı 4 saat süre ile B 6
ürettiklerinde ürettikleri parçaların ortalama C 10
üretim süresini bulunuz.
D 20
Üretim süresi 4*60=240 dakika
1. İşçinin üretimi 240/5=48 parça
2. İşçinin üretimi 240/6=40 parça, N 4
H  
3. İşçinin üretimi 240/10=24 parça, 1 0 . 517
4. İşçinin üretimi 240/20=12 parça.  X
İşçilerin 4 saatteki toplam üretimi 48+40+24+12=124 parça i

Toplam işçilik süresi 4*240=960 dakika H  7 , 74 dakika / parça


Parçanın ortalama üretim süresi: 960/124=7,74 dakika/parça
Kareli Ortalama
Kareli ortalama serideki değerlerin karelerinin aritmetik ortalamasının
kareköküdür
N


2
X i
 X  X    X
2 2 2 2
X i 1
K   K 
1 2 3 N
Basit Seride N N


2
fi X
 f2 X  f3 X   fk X
2 2 2 2 i
f1 X i 1
K   K 
1 2 3 k

 f  f       fk
k
f
Gruplanmış Seride 
1 2 3
fi
i 1


2
fimi
f1m 1  f 2 m 2  f 3 m 3      f k m k
2 2 2 2
i 1
Sınıflandırılmış Seride K 
f1 f  f       fk
 K  k


2 3
fi
i 1
Mod
Bir seride en çok tekrarlanan değere mod adı verilir. Veri setinin modu
olmayacağı gibi birden fazla da modu olabilir.

En fazla
Basit Seride: En Çok Tekrarlanan Değer aldığınız
harf notu

Gruplanmış Seride: Frekansı En Yüksek Değer

Sınıflandırılmış Seride : Mod Sınıfı Frekansı En Yüksek Olan Sınıf


1
Mod  l1  s
1   2
Medyan-Ortanca
Serideki değerler küçükten büyüğe sıralandığında tam ortaya düşen ve seriyi iki eşit
parçaya bölen değere medyan adı verilir.
Basit Seride: N  1 . değer
2

N 1
Gruplanmış Seride: 2
. değer sıra numarasına ait grup medyan değeri

Sınıflandırılmış Seride : Medyan Sınıfı toplam frekansın yarısını içinde bulunduran


m 1
N l1 : Medyan sınıfının alt sınırı Nm : Medyan sınıfının frekansı
2
  N i
i 1
Medyan  l1   sm Sm : Medyan sınıfının sınıf aralığı N/2 : Medyanın sıra değeri
N m
medyan 1

 N i : Medyandan sınıfından önceki frekanslar toplamı


Mod, Medyan ve Aritmetik Ortalama Arasındaki İlişkiler
• 1- Simetrik seride her üç ortalama birbirine eşit olur.
X = medyan = mod
• 2- Sağa çarpık serilerde

• 3- Sola çarpık seride

• 4- Asimetrisi hafif serilerde aşağıdaki yaklaşık eşitlik


vardır.

( X  Mod)  3( X  Medyan)
Kartil(Q), Desil(D) ve Santiller(C)
Bir serinin elemanları küçükten büyüğe doğru sıralandığında, seriyi dört eşit
parçaya bölen değerlere kartil, on eşit parçaya bölen değerlere desil, yüz eşit
parçaya bölen değerlere santil adı verilir. 2.kartil, 5.desile ve 50.santile eşit
olup, bu değer seriyi iki eşit parçaya bölen medyana eşittir.

• Basit ve tasnif edilmiş serilerde kartil, desil ve santilin sıra değerleri


formülü ile bulunur. Nh
N: Serinin toplam gözlem sayısı  0 .5
r
h: Q, D veya C nin derecesi
r: Bölen değer olup, Q için 4, D için 10, C için 100 değerini alır.
Kartil(Q), Desil(D) ve Santiller(C)
Q, D, C nin serideki değeri saymak suretiyle bulunur. Eğer bu değer kesirli ise
Q, D, C iki sayının arasına düşer.

• Birinci, ikinci ve üçüncü kartil arasındaki ilişkide serinin simetri durumunu


belirlemede yardımcı olur.

Simetrik serilerde Q3 - Q2 = Q2 - Q1

Sağa çarpık serilerde Q3 - Q2 > Q2 - Q1

Sola çarpık serilerde Q3 - Q2 < Q2 - Q12


Outlier (Dışadüşen-Uç değer)
• Bu aşırı değerler hatalı olabileceği gibi gerçeği de yansıtabilir
• Alt Uç Değer = Q1 – 1.5(IQR)
Üst Uç Değer = Q3 + 1.5(IQR)

Outlier Bulma IQR=Q3-Q1


• Büyükten Küçüğe Sıralama
• Frekans Tabloları
• Boxplot Diyagramları
Kartil(Q), Desil(D) ve Santiller(C)
Nh
• Sınıflandırılmış serilerde önce r ile Q, D veya C’nin ait olduğu sınıf bulunur. Bu
sınıf içerisinde değerlerin eşit aralıklarda dağıldıkları kabulüne göre medyanın
hesaplanmasında kullanılan formül tatbik edilir.
m 1
Nh
r
  Ni
i 1
Q , D , C  l1   s Q , D ,C
• l1: Q,D veya C sınıfı alt sınırı N Q , D ,C

• Nh : Q,D veya C’nin sıra değeri


r

m 1

•  N : Q,D veya C sınıfından önceki frekanslar toplamı


i
i 1

• NQ,D,C : Q,D veya C sınıfının frekansı


• SQ,D,C : Q,D veya C sınıfının sınıf aralığı
Dağılım Ölçüleri
Mutlak dağılma ölçüleri ilgili
• Mutlak Sapma Ölçüleri değişkenin kendi ölçüldüğü
• Değişim Aralığı birim cinsinden (kg, cm, TL vs)
sonuç verir. Bu sebeple mutlak
• Kartil ve Desil Aralığı dağılma ölçüleri olarak
adlandırılırlar.
• Ortalama Mutlak Sapma
• Standart Sapma ve Varyans Nispi dağılma ölçüleri serideki
• Nispi sapma ölçüleri gözlem değerlerinin ölçüldüğü
• Değişim Katsayısı birim farklılıklarını ortadan
kaldırmakta ve değişkenliği
yüzde(%) cinsinden ifade
etmektedir.
Görünenin Ötesine Bakabilmek
Dağılım: Dağılım: Dağılım:
5,5,5 2,5,8 0,5,10

Ortalama: 5 Ortalama: 5 Ortalama: 5


Medyan: 5 Medyan: 5 Medyan: 5

Std. Sapma: 0 Std: Sapma: 3 Std: Sapma: 5


Değişim Katsayısı: %0 Değişim Katsayısı: %60 Değişim Katsayısı: %100
Dağılım Ölçüleri
• Bir veri setini meydana getiren elemanlar ortalama değer etrafında belirli bir
dağılış gösterirler. Gözlem değerleri arasındaki farklılıktan ileri gelen bu durum
istatistik olarak serinin önemli karakteristiklerinden biridir.
• Aynı ortalamaya sahip seriler farklı dağılış gösterebilirler. Bu yüzden bir seriyi
sadece ortalama değere göre tanımlamak yanlış olur. Bunun yanı sıra dağılışının
da bilinmesi gerekir.
• Bir seride ortalamanın temsil kabiliyeti ile dağılma ölçüleri arasında ters bir ilişki
vardır.
• Dağılışı az olan serilerin ortalamaları daha temsili oldukları halde, dağılışı fazla
olanların ortalamaları seriyi daha az temsil eder.
• Veri setindeki dağılışın tespiti ortalamanın temsil kabiliyeti hakkında da bilgi
verecektir.
Değişim Aralığı
• Gözlem değerlerinin en büyük ve en küçük değeri arasındaki fark olup, verilerin
ne kadarlık bir aralıkta değiştiğini gösterir.

R = Xmax – Xmin

• Bu dağılım ölçüsü oldukça basit ve anlaşılır olmasına karşılık sadece iki uç değere
bağlı olması sebebiyle serideki aşırı değerlerin etkisi altında kalması zayıf yönünü
oluşturur.

• Sadece iki uç değeri dikkate alması diğer gözlem değerlerinin dağılımının hiç
dikkate alınmamasına sebep olmaktadır.
Kartil ve Desil Aralığı
• Kartil aralığı 3. kartil ile 1.kartil arasındaki fark olup serinin orta
bölgesindeki %50’lik gözlem kümesinin değişim aralığını verir.
• Q = Q3 – Q1 şeklinde belirlenir.

• Desil aralığı ise 9. desil ile 1.desil arasındaki fark olup, her iki uçtaki
%10 gözlem değeri haricinde kalan %80 lik gözlem değerinin
değişim aralığını verir.
• D = D9 – D1 şeklinde belirlenir.
Ortalama (Mutlak) Sapma
• Basit Seri

• Bilindiği gibi sapmalar serisinin ( ( X i  X )  0) (aritmetik ortalamadan 

sapmalar) toplamı sıfıra eşittir.  X i


 X
O .S 
N
• Bu durumda sapmalar serisinin ortalaması da sıfır olacağından bir sapma
ölçüsü elde etmek mümkün değildir.
• Gruplanmış Seri
• Serinin toplamını sıfır olmaktan kurtarabilmek için mutlak sapmalar dikkate 
alınabilir. Çünkü mutlak sapmalar serisinin toplamı sıfırdan büyük olacaktır
 fi X i
 X
( X i  X  0) O .S 
• Böylece mutlak sapmalar serisinin ortalaması alınarak yeni bir sapma ölçüsü  fi

elde edilebilir.
• Sınıflandırılmış Seri
• Bu sapma ölçüsü diğer değişim aralığı ölçülerinin aksine serinin bütün 
değerlerini dikkate almaktadır.  fi m i  X

• Bu sebeple daha kullanışlı ve daha temsili bir sapma ölçüsü elde edilmiş O .S 
olmaktadır.  fi
Standart Sapma ve Varyans
• Mutlak işlemler yerine kare alma yolu ile sapmalar serisi toplamı sıfır
olmaktan kurtarılabilir. Böylece yeni bir sapma ölçüsü elde edilmektedir.
• Bir veri grubunda verilerin aritmetik ortalamadan ne kadar uzaklaştığının
ölçüsüdür.
• SS verilerin oluşturduğu dizinin homojenliğiyle ilgili bilgi verir.
• SS, bir veri grubunun ortalaması etrafındaki dağılımını belirlemek
amacıyla kullanılır.
• SS, Negatif değerler almaz.
Standart Sapma ve Varyans
• Veri grubundaki tüm değerler aynı ise SS sıfırdır.
• SS veri grubundaki uç değerlere karşı duyarlı olup tek bir uç değer dahi
değerini artırabilir. Yani, dağılımı çarpık hale getirir.
• Değerlerin ortalamadan olan farklarının, kareleri toplamının
ortalamasının (Varyans), kareköküne eşittir.
• Varyans standart sapmanın karesine eşittir.
• Aynı ölçü birimini kullanan farklı serilerdeki gözlem değerlerini standart
sapma cinsinden karşılaştırabiliriz.
Örnek
• Bir öğrenci istatistik dersi birinci vizesinden 40 (𝑋 = 30 𝑣𝑒 𝑆 = 5) ve ikinci
vizesinden 80 (𝑋 = 60 𝑣𝑒 𝑆 = 20) almıştır.
• Bu öğrenci hangi sınavda daha Başarılı?

• Bu öğrenci ilk vizede sınıf ortalamasından 10 puan ikinci sınavda ise 20


puan yüksek not almıştır.
• Standart sapma cinsinden hesapladığımızda, bu öğrenci ilk vizede sınıf
ortalamasından 2 standart sapma ve ikinci sınavda ise sınıf
ortalamasından 1 standart sapma daha yüksek not almıştır.
• Dolayısıyla öğrenci birinci vizede daha başarılıdır.
Standart Sapma ve Varyans
x 
2
 


 ( Xi  X )
2
Basit Seri Anakitle   Örneklem S 
N n 1

 fi ( xi   )
2

 fi ( mi  X )
2
i 1
Gruplanmış Seri Anakitle   Örneklem
k
S 
 fi (  fi )  1
i 1

 fi (m i   )
2

 fi ( Xi  X )
2

Sınıflandırılmış Anakitle   i 1
k
Örneklem S 
 fi (  fi )  1
i 1

N1 ve N2 gözlemden oluşan iki serinin ortalamaları aynı ve sırayla varyansları 12 ve


22 olsun. Bu iki serinin birleştirilmiş ortak varyansı: N .
2
 N .
2

 
2 1 1 2 2

N1  N 2
Değişim Katsayısı
• Standart sapmanın ortalamanın bir yüzdesi olarak ifade edilmesine değişim katsayısı adı
verilir. Bu tanıma göre standart sapmanın büyüklüğü aritmetik ortalamaya göre ifade
edilmektedir.

D .K  . 100
X

• Bu ölçü farklı cins ve büyüklüklerdeki serileri aynı cins ve büyüklükte (yüzde cinsinden) ifade
etme imkanı sağlamaktadır.
• Ancak bu ölçünün bir dezavantajı bir üst sınırının olmamasıdır. Yani değişim katsayısı %100 ü
geçen değerler de alabilmesi bu ölçünün zayıf tarafıdır. Eğer bu ölçünün üst sınırı %100
olsaydı verinin değişkenliğini daha iyi yorumlamak mümkün olurdu.
• Özellikle ortalaması sıfıra yakın seriler için kullanımı pek uygun değildir.
Çarpıklık ve Basıklık
PEARSON ÇARPIKLIK ÖLÇÜSÜ Ortalamalara Dayanan

x  mod SkP < 0 →Negatif çarpık(Sola)


Sk p
 veya
s SkP > 0 → Pozitif Çarpık(Sağa)
3 ( X  med )
Sk  SkP = 0 ise dağılış simetrik
p
s

BOWLEY ÇARPIKLIK ÖLÇÜSÜ Kartillere Dayanan

Skb < 0 → Negatif çarpık(Sola)


(Q 3  Q 2 )  (Q 2  Q1 )
Sk b
 Skb > 0 → Pozitif Çarpık(Sağa)
Q 3  Q1
Skb = 0 ise dağılış simetrik
62
Çarpıklık ve Basıklık
Momentlere Dayanan Çarpıklık Ölçüsü (3)
• Momentlere dayanan asimetri ölçüsü (3), asimetrik ortalamaya göre 3. momentin
standart sapmanın küpüne oranlanması ile elde edilir.


 
3
3 m2=Varyans

3

m3, Çarpıklık
• 3 = 0 ise seri simetrik m4, Basıklık
• 3 > 0 ise seri sağa çarpık
• 3 < 0 ise seri sola çarpık olmaktadır.
• 3 için bir üst sınır olmamakla birlikte  3
 0 ,5 olursa asimetrinin kuvvetli olduğu
kabul edilir.
Çarpıklık ve Basıklık
Basıklık Ölçüsü ortalamaya göre dördüncü momentten gidilerek hesaplanır ve α4
olarak gösterilir.

 x 
4
m4  x
4  Basit Seri İçin
i 1
i

s
4 m4 
n

α4 = 3 ise Seri Normal


α4 < 3 ise Seri Basık
α4 >3 ise Seri Sivri (Yüksek)
Temel Kaynaklar

• Ünver, Özkan; Gamgam Hamza; Altunkaynak Bülent, SPSS Uygulamalı


Temel İstatistik Yöntemler, Seçkin Yayıncılık, 8. Baskı, 2016
• Erbaş, Semra Oral, Olasılık ve İstatistik - Problemler ve Çözümleri İle,
Gazi Kitabevi, 2. Baskı, 2008
• Akdeniz, F., Olasılık ve İstatistik, Genişletilmiş 14. Baskı, Nobel
Kitabevi, 2009,
• Montgomery, D.C., Runger, G.C., Applied Statistics and Probability for
Engineers, 4th Edition, 2007

You might also like