You are on page 1of 48

DERS 1

İSTATİSTİĞE GİRİŞ

1
İstatistik

• Bir bilim dalı olarak


– Verilerin (data) toplanması ( All or sample)
– Analiz edilmesi (Clean up the data)
– Sunulması (Charts and graphs)
– Verilerden çıkarsama yapılması (inference)

ile ilgilenir
• İstatistik veriden bilgi edinmenin yoludur

Statistics

Data Information
2
2
Örnek
Bir ikinci sınıf endüstri mühendisliği öğrencisi istatistik dersinin zor
olduğunu duyduğu için endişelidir ve hocayla konuşmaya gitmiştir..
Hoca geçen senenin final notlarını öğrenciye vermiştir. Bu bir grup
sayıdan (veri) öğrenci ders hakkında ne gibi bilgiler elde edebilir?
Statistics

Data Information
Geçen dönemin not listesi. İstatistik dersi hakkında yeni
bilgi.
95
89 Örneğin;
70 Sınıfın ortalaması,
65
Sınıfta A alanların oranı
78
57 Frekansı en yüksek not,
: Notların dağılımı, gibi.
3
3
Anahtar istatistiksel kavramlar…
Ana kitle (Population) Örnek (Sample)

Subset

İstatistik
Parametre (Statistics)
(Parameter)
Ana kitlenin parametreleri , örneğin istatistikleri
olur.
-Ana kitleye, popülasyon veya sadece kitle de denebilir. 4
Adapted from Keller G. and Warrack B. (Statistics for Management and Economics ) 4
5
İstatistik…
• İstatistiksel yöntemler ulaşmak
istediğimiz bilgiye göre iki başlık
altıda incelenebilir
– Betimleyici İstatistikler (Descriptive Statistics)
örnekten elde ettiğimiz veriden örneği betimler

– İstatistiksel Çıkarsama (Statistical inference)


örnekten elde ettiğimiz veriden ana kitle hakkında
çıkarsamada bulunmamızı sağlar.

6
6
Olasılık-İstatistik İlişkisi Örnek 1

• Erciyes Üniversitesinde okuyan öğrencilerin boyları


hakkında bir araştırma yapmak istiyoruz. Zaman ve
bütçemiz sınırlı olduğu için 1000 kişilik bir örnek seçtik
– Ana kitle: Bütün öğrencilerin boyları
– Örnek: 1000 öğrencinin boyu
• 1000 öğrencinin boylarının ortalaması-betimleyici istatistik
• Örnekteki öğrencilerin boylarından bütün öğrencilerin ortalamasını
tahmin etmek- istatistiksel çıkarsama
• Öğrencileri hangi yöntemle seçeceğim ve örnek büyüklüğü ne
olmalı? (Örnekleme Teorisinin (Sampling Theory) nin konusu)

7
7
Olasılık-İstatistik İlişkisi Örnek 1

• Çıkarsama yaparken karşılaştığınız belirsizlikleri ölçmek


için olasılık kullanırsınız.
• Örnek: Erciyeste 50000 öğrenci olsun.
50000
– tane farlı örnek seçebilirsiniz.
1000
– Siz bir tane 1000 öğrencilik bir örnek seçtiniz ve ortalama boy
1.78 çıktı.
– 1.78’i EU öğrencilerinin boylarının ortalamasının tahmini olarak
kullanmam ne kadar güvenli? (Mümkün olan bütün örneklerin
ortalamalarını düşünürseniz, bunların olasılık dağılımı nedir?)

8
8
Olasılık-İstatistik İlişkisi Örnek 2
• Bir mühendisin 10 birimin defolu olduğu 100 birimlik
örneklemin çekildiği bir imalat prosesi ile karşı karşıya
olduğunu varsayalım.
• Örneğe göre hatalı oranı %10
• Şirket sadece %5 lik hata oranına tolerans gösteriyor.
• Bu süreç kabul edilemez mi? Bu örnekten elde ettiğimiz
bilgiye ne kadar güvenebiliriz?
• %5 lik hata oranına sahip süreçten hata 10 ve ya daha
fazla defolu birim olan bir örnek çekme olasılığımız 0,0282
(P-değeri ilerde öğreneceğiz) ise üretim prosesi
➢ kabul edilebilir mi?
➢ kabul edilemez mi?

• Kaynak :Walpole, Mühendis ve Fen bilimciler için istatistik

9
Betimleyici İstatistikler (Descriptive Statistics)
• Veriyi bilgi verecek bir şekilde düzenlememizi,
özetlememizi ve sunmamızı sağlayan yöntemlerdir. İki
gruba ayırabiliriz;
– Graphical Techniques (Pie charts, Histograms…)
Pie Chart of Cause Chart of Cause
Category 30
OilFire CoalMine
8.9% CoalMine DamFailure
Nuclear 15.6%
Lightning
2.2%
GasExplosion 25
2.2% Lightning
Nuclear
OilFire
20
DamFailure
8.9%

Count
15

10

GasExplosion 0
62.2% CoalMine DamFailure GasExplosion Lightning Nuclear OilFire
Cause

– Numerical Techniques (Mean, Standard deviation…)

10
Descriptive Statistics
• Descriptive statistics involves arranging, summarizing, and
presenting a set of data in such a way that useful information
is produced.
Statistics

Data Information

• Betimleyici istatistikler analiz edilecek veriyi


betimler (tasvir eder) ancak veri hakkında
çıkarsamada bulunmamıza izin vermez.
Adapted from Keller G. and Warrack B. (Statistics for Management and Economics )

11
11
İstatistiksel Çıkarsama (Statistical Inference)
• İstatistiksel çıkarsama, örneğe dayanarak ana kitle
hakkında tahmin (estimation), geleceğe yönelik tahmin
(prediction) ve bir karar vermemizi sağlayan süreçtir.

Population

Sample
Inference

Statistic
Parameter

12
12
Tahmin ve Kestirim
• Estimation-tahmin- veriden ana kitle parametreleri
hakkında tahminde bulunma
• Prediction- kestirim- veriden veri setinde bulunmayan
bir birim hakkında kestirimde bulunma
• Örnek: Erciyes üniversitesinde okuyan tüm öğrencilerin
boylar hakkında şu sorulara cevap arıyoruz
– Ortalama boy ne? (estimation)
– Örnekte bulunmayan bir öğrenci’yi rassal olarak seçersem onun
boyu ne?

13
13
Classification of Data

Data

Qualitative Quantitative
(Nitel) (Nicel)

Nominal
Ordinal Discrete Continuous

Medeni Hal College course Çocuk sayısı Ağırlık


Siyasi Partiler rating system Saatte hata sayısı Voltaj
Göz rengi Ömür
Cinsiyet
14
14
Nitel Verileri için Sayısal Yöntemler

• Sınıf frekansı (Category frequency ): Bir sınıfa


düşen gözlem sayısı.

• Sınıf frekans oranı (Category relative


frequency): Bütün gözlemler içinde o sınıfa
düşen gözlemlerin oranı.

15
15
Örnek

Enerji ile ilgili ölüm kazalarının tablosu aşağıda verilmiştir.

16
16
Nitel Verileri için Grafiksel yöntemler

• Bar Chart (Çubuk Grafiği)


• Pie Chart (Pasta Grafiği)
• Pareto Diagram (Pareto Grafiği)

17
17
Pie Chart

Pie Chart of Cause


Category
OilFire CoalMine
8.9% CoalMine DamFailure
Nuclear 15.6% GasExplosion
Lightning
2.2%
2.2% Lightning
Nuclear
OilFire

DamFailure
8.9%

GasExplosion
62.2%

18
18
Bar Chart

Chart of Cause
30

25

20
Count

15

10

0
CoalMine DamFailure GasExplosion Lightning Nuclear OilFire
Cause

19
19
Pareto Diagram

Chart of Cause

100
Cumulative Percent Count

80

60

40

20

0
GasExplosion CoalMine DamFailure OilFire Lightning Nuclear
Cause
Percent within all data.

20
20
Sayısal Veriler için Grafikler

• Dot plot (Nokta Grafiği)


• Steam-and-leaf display (Dal-Yaprak
Grafiği)
• Histogram (Histogram Grafiği)

21
21
Örnek

EPA: Environmental Protection Agency

22
22
Dotplots

Dotplot of MPG

30.0 32.5 35.0 37.5 40.0 42.5 45.0


MPG

23
23
Histograms

Histogram of MPG
35

30

25
Frequency

20

15

10

0
30 33 36 39 42 45
MPG

24
24
Frekans Dağılımı Örnek

Örnek: Yalıtım maddesi üreten bir firma rastal


olarak 20 kış gününü seçip günün en yüksek
sıcaklığını fahrenhayt olarak aşağıdaki gibi
kaydetmiştir.
24, 35, 17, 21, 24, 37, 26, 46, 58, 30,
32, 13, 12, 38, 41, 43, 44, 27, 53, 27

25
25
Frequency Distribution Example

• Veriyi artan şekilde sırala:


12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

• Aralığı bul: 58 - 12 = 46
• Sınıf sayısını seç: 5 (genelde 5 ve 15 arası)
• Sınıf genişliğini hesapla (taban): 10 (46/5 then round up)
• Sınıf sınırlarını belirle (sınırlar): 10, 20, 30, 40, 50, 60
• Sınıf orta noktalarını hesapla: 15, 25, 35, 45, 55

• Gözlemleri sınıflara ata ve sınıf frekanslarını bul

26
26
Frequency Distribution Example

Verinin sıralanmış hali:


12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

Göreli
Sınıf Frekans Yüzde
Frekans
10 but less than 20 3 .15 15
20 but less than 30 6 .30 30
30 but less than 40 5 .25 25
40 but less than 50 4 .20 20
50 but less than 60 2 .10 10
Total 20 1.00 100
27
27
Frequency Distribution Example

Data in ordered array:


12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

Birikimli Birikimli
Sınıf Frekans Yüzde
Frekans Yüzde

10 - 20 den az 3 15 3 15
20 - 30 dan az 6 30 9 45
30 - 40 dan az 5 25 14 70
40 - 50 den az 4 20 18 90
50 - 60 dan az 2 10 20 100
Toplam 20 100
28
28
Histogram Örnek

Class
Class Midpoint Frequency
10 but less than 20 15 3 Histogram : Daily High Tem perature
20 but less than 30 25 6
30 but less than 40 35 5 7
40 but less than 50 45 4
50 but less than 60 55 2
6
5
Frequency

4
3
2
(Çubuklar 1
arasında 0
boşluk yok)
5 15 25 35 45 55 65
Class Midpoints
29
29
Nicel Veriler için Sayısal Yöntemler

The measures are those help;


• Göreli frekans dağılımının “merkezini” bulmaya
yarayan ölçüler
(merkezsel eğilim ölçüleri - measures of central
tendency)
• Merkez çevresindeki “yayılmayı ” bulmaya yarayan
ölçüler
(değişkenlik ölçüleri - measures of variation)

• Bir gözlemin “göreli pozisyonunu” tanımlayan


ölçüler
(göreli konum ölçüleri - measures of relative standing)
• Yüzdelikler, çeyreklikler,z-score 30
30
Merkezsel Eğilim Ölçüleri
(Measures of Central Tendency)

Merkezsel Eğilim

Aritmetik Medyan Mod


Ortalama
n

X i
X= i=1
n Küçükten büyüğe Ençok
sıralanmış verinin gözlenen
ortasındaki gözlem değer

31
31
Ortalama - Mean
Population Sample

Size N n

Mean 

Population Mean Sample Mean


32
Ortalama

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Mean = 3 Mean = 4
n

X i
X1 + X2 +  + Xn
X= i=1
=
n n

1 + 2 + 3 + 4 + 5 15 1 + 2 + 3 + 4 + 10 20
= =3 = =4
5 5 5 5
33
33
Medyan - Median

• Sıralanan verilerin “ortasındaki” gözlem (50%


fazla, 50% az)

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Median = 3 3+4
Median = = 3.5
2

34
Mod - Mode

• Frekansı en yüksek gözlem

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6

Mod yok
Mod = 9

35
35
Mean, Median, Mode

36
36
Değişkenlik Ölçüleri (Measures of Variation)

• Değişkenlik ölçüleri gözlemlerin ne kadar


yayıldığının veya farklı olduğunun ölçüsünü
verirç
– Aralık - Range
– Standart Sapma - Standard deviation
– Varyans - Variance

Same center,
different variation
37
37
Aralık - Range

Range = Xlargest – Xsmallest

Example:

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Range = 14 - 1 = 13

38
38
Aralığın Dezavantajları

• Verinin nasıl dağıldığının bilgisini vermez

7 8 9 10 11 12 7 8 9 10 11 12
Range = 12 - 7 = 5 Range = 12 - 7 = 5

• Uç gözlemlerden etkilenir
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Range = 5 - 1 = 4

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Range = 120 - 1 = 119
39
39
Varyans – Standart Sapma
• Ortalamadan sapmalarının karelerinin
ortalaması (yaklaşık olarak)
• Örnek varyansı: Örnek Standart
Sapması: n
 (Xi − X)
n

 i
2
(X − X ) 2

S =
2 i=1
S= i=1
n -1 n -1

40
Anakitle - Örnek
Population
Sample
Subset

Statistics
Parameter

N n

 (X − μ)
i
2
 (X − X)
i
2

σ2 = i=1
S2 = i=1
N n -1

41
41
Örnek: Örnek Standart Sapması

Sample
Data (Xi) : 10 12 14 15 17 18 18 24
n=8 Mean = X = 16

(10 − X ) 2 + (12 − X ) 2 + (14 − X ) 2 +  + (24 − X ) 2


S =
n −1

(10 − 16) 2
+ (12 − 16) 2
+ (14 − 16) 2
+  + (24 − 16) 2
=
8 −1

130 A measure of the “average”


= = 4.3095
7 scatter around the mean
Gözlemlerin ortalama etrafından ne kadar dağıldığının ölçüsü
42
42
Standart Sapmaların Karşılaştırılması

Data A
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 S = 3.338

Data B
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 S = 0.926
Data C
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 S = 4.567

43
43
Değişkenliğin Ölçülmesi

Small standard deviation A

Large standard deviation

44
44
Dağılımın şekli

• Verinin nasıl dağıldığını gösterir


• Sekil ölçüleri
– Simetrik veya çarpık (Symmetric or skewed)

Left-Skewed Symmetric Right-Skewed


Mean < Median Mean = Median Median < Mean

45
45
Alıştırma ve Okuma Ödevleri
• Okuma Ödevi:
• ENM209 ilk 4 ders notları okunacak
1) Bir yarı iletken üreticisi, kişisel bilgisayarlarda merkezi
işlem birimi olarak kullanılan aygıtları üretir. Cihazın hızı
(megahertz cinsinden) önemlidir, çünkü üreticinin cihazlar
için talep edebileceği fiyatı belirler. Slayt 47’de verilen
tabloda 120 cihazdaki ölçümler bulunmaktadır. Bu verinin
frekans dağılımını oluşturun ve histogramını çizin ve
yorumlayın. Merkezi eğilim ölçülerini ve değişkenlik
ölçülerini bulun
ve yorumlayın.

46
Alıştırma ve Okuma Ödevleri
120 cihazın hız ölçüleri (megahertz)

47
47
Alıştırma ve Okuma Ödevleri
2) Çelik üretimi genellikle ülkelerin ekonomik gücünün
ölçüsü olarak kullanılır. Aşağıdaki tabloda 2014 yılında en
büyük 20 çelik üreten ülke için üretilen çelik miktarı (milyon
metrik ton) listelenmiştir. Verilerin Pasta ve çubuk grafiğini
çizin.

48
48

You might also like