11 Hafta

You might also like

You are on page 1of 18

Data Organizasyonu

Ders Tekrarı
Dr. Erul
Güz 2020
Kaynaklar & Konu

• James T. McClave, P. George Benson, Terry Sincich-Statistics for Business


and Economics-Pearson (2017)
• Chapter 2: Methods for Describing Sets of Data (p. 63-113)
İstatistik
• Istatistik bir veri (data) bilmidir. Kısaca şu basamaklardan oluşur: problem tanımlama (çalışma amacı),
verilerin toplanması, verilerin düzenlenmesi (takdimi ve özetlenmesi), verilerin analizi, veri analizlerinin
yorumlanması (çıkarımda bulunma) ve bu aşamaların sonucunda iyi kararlar verebilmektir.

• Iki ayrı süreç ve/veya işlemden oluşur:


• Veriyi bir şekilde tanımlayan organize eden ve özetleyen istatiksel yöntemler (Tanımlayıcı: Descriptive
statistics),
• A.Orta (Mean), Ortanca (median), mode (mod), Aralık (Range), STD, IQR, frekans
• Örneklemdeki değişkenler arasındaki ilişkileri inceleyen ve buna göre genelleme ve tahminler yapan
istatiksel yöntemler( Çıkarımsal: inferential statistics).
• Regression, korelasyon, önemlilik veya anlamlılık testi, hipotezler
Data Türleri
• Datayı sayısal (nicel) ve sayısal olmayan (nitel) olarak ikiye ayırız.
a) Nicel (Quantitative data): Sayısal ölçüleri kullanan data türüdür.
• Yaş, kilo, hız, hava sıcaklığı, işsizlik oranı, sınav puanı, maaş gibi.
b) Nitel (Qualitative data): Datayı niteliyenve karakteristik özelliklerinden
bahseden data türüdür. Kategoriktir veya sıralıdır (Nominal or Ordinal).
• Irk, Cinsiyet, Eğitim, hangi politik partiye oy kullanılması gibi
Frekans
• Nitel datalar sayısal olmayan ve • Frekans: Bir değerin ne kadar sıklıkta
kategorik datalardır; bu yüzden nitel tekrarlandığını (gözüktüğünü) ifade
data değeri sınıflar oluşturularak eder.
kategorilere ayrılır.
• Relatif Frekans: Datanın ne oranda
tekrarlandığını (yüzdeliğini) gösterir.
Frekans
• Relatif Frekans = Frekans toplamı
• (McClave et al., 2017; p. 66)
Nitel Data Grafikleri
• En çok kullanılan yöntem bar (sütun) • Bar Grafiği: Bu grafikte, değişken ve
çubukları ve pasta grafikleridir. değişkenin kategorileri yatay eksen ile,
frekanslar ise dikey eksen ile temsil edilir.
Frekans ekseninde frekans değerleri eşit
aralıklı olarak yer alır.
• Pasta Grafiği: Daire grafiği olarak da
bilinen pasta grafiği, 360 derecelik bir
dairenin dilimler ile değişkenlerin
frekans dağılımlarının gösterildiği bir
grafik türüdür. Dilimlerin büyüklüğü
değişkenlerin frekans yüzdeleri ile orantılı
olacak şekilde belirlenir.
Nicel Data Grafikleri
• Sayısal (Quantitative) dataları tanımlamak ve • the dal (lider) sağ tarafta kalan onlar ve yüzler
özetlemek içinse üç yaygın yöntem kullanılır: basamağındaki sayılardan oluşurken, yaprak (takipçi)
• Dal-Yaprak Sunumu,
sol tarafta kalan birler basamağındaki sayılardan
oluşur.
• Histogram ve
• Histogram genelde dikey eksende frekans ve
• Poligon. relatif frekans olacak şekilde ve yatay eksende
• Dal yaprak sunumu basit seri şeklinde yanı sırasıyla sınıflar olan sutunlar arasına boşluk olmayacak
sıralandığı için, bireysel ölçümler ve uyarıcıları şekilde verilerin sıklık dağılımının ifade edilmesidir.
rahatça bulma imkanı tanır. • Ortanca numaralar belirlenip her ortanca numara
değerini histogramda ki sütunların üstünde nokta
ile belirttikten sonra o noktaların bir doğru ile
birleştirilmesi sonucu oluşur.
Tanımlayıcı (Betimsel) İstatistik

1. Merkezi Eğilim: Dataların eğilimini,


yönelimini, merkezini veya belli bir
noktada nasıl toplandığı göstermede
kullanılır. (Figure 2.14a).
• Ortalama (Mean), Ortanca (Median) ve
Mod (Mode: en çok tekrarlanan) • Eğilim bir değişkenin bütün farklı
2. Merkezi Dağılım: Datanın nasıl değerlerinin çevresinde toplandığı merkezi
bir değeri gösterirler. Dağılım ölçüleri ise
yayıldığını gösterir (Figure 2.14b). değişkenin aldığı değerlerin birbirinden ne
• Aralık, Çeyreklikler(IQR), Varyans, & STD kadar farklı olduğunun ölçüsüdür !!!
Uyarıcılar (Outliers) & Sağlamlık(Robustness)

• Uyarıcılar ortancayı fazla etkilemez ama ortalamayı etkiler.


• Kısaca median uyarıcılara karşı duyarlı değil sağlamdır ama mean hasastır.
• Genelde eğilim ölçüsü olarak mean kullanılır ama uyarıcı olduğunda medianı
kullanmak daha mantıklı olacaktır.
• L. James (NBA)
Dağılımlar (Distributions)
Örnek
• Yukarıdaki verilere göre merkezi dağılım ölçülerini ve ranjı bulunuz.
• Data: 10, 7, 14, 20, 15, 7, 32
Örnek
• Data: 2, 4, 8, 6, 2, 9, 5, 9, 4, 8, 2, 9, 8, 2, 4, 8, 9, 9, 5
• Yukarıdaki verilere göre frekans tablosunu çizin ve bu tabloya bağlı olarak
merkezi dağılım ölçülerini ve ranjı bulunuz.
Örnek
• Data: 2, 3, 8, 5, 3, 2, 6, 9, 3, 5, 8, 2, 5, 6, 3, 3, 9, 2, 5, 3, 6, 3, 2, 9, 3
• Yukarıdaki verilere göre frekans tablolarını çizin (frekans, relatif ve
kümülatif).
Örnek
• Test Sonuçları: 74, 83, 69, 95, 78, 85,
42, 98, 73, 68, 90, 85, 84, 71, 88, 52, 94
• Yukarıdaki verilere göre bir histogram
çizin ve aşağıdaki soruları cevaplayın:
• Kaç öğrenci en fazla 69 almıştır?
• Kaç öğrenci en az 80 puan elde
etmiştir?
• Kaç öğrenci 60 ile 89 arasında bir puan
elde etmiştir?
Örnek
• Data: 15, 27, 8, 17, 13, 22, 24, 25, 13,
36, 32, 32, 32, 28, 43, 7, 40
• Buna göre, dal ve yaprak sunumu
yaparak datayı organize ediniz?
• Dal ve yaprak sunumuna bağlı olarak
nasıl bir dağılım söz konusudur?
• Mod, Med ve Ranj’ı bulunuz
Örnek
• Data: 5, 8, 16, 26, 10, 18, 3, 12, 6, 14, 11.
• Yukarıdaki verilere göre IQR ve uyarıcıları bulun ve box plot çizin
Örnek
• Data: 5, 10, 40, 15, 20, 15, 5, 10, 25, 15, 20
• Yukarıdaki verilere göre IQR ve uyarıcıları bulun ve box plot çizin
Örnek
• Data: 3, 4, 6, 10, 12
• Yukarıdaki verilere göre varyans ve standart sapmayı bulunuz?

You might also like