You are on page 1of 25

MUY 614

Bilgisayar Destekli Veri Analizi

D. İÇEN
2020-2021 Bahar Dönemi

İstatistik bilimi, ölçüm ya da gözlemlerin toplanması,


işlenmesi, sunulması ve yorumlanması işlerini tüm yönleri ile
ele alır.

VERİ: istatistik biliminin ilgilendiği temel materyaldir.

1
NİTEL DEĞİŞKENLER:

Ölçülen, tartılan özelliklere nicel değişkenler, sayılarak ya da


gruplanarak ele alınan özelliklere nitel değişkenler adı verilir.
Birimin nitelik olarak belirtilebilen özellikleridir.

•Su örneğinde üreyen bakteri türleri,


•Üretimde rastlanan hata türleri,
•Üretimin ‘yeterli’, ‘yetersiz’, vb sınıflandırılması

Nitel değişken Skor/kod değerler kullanılarak nicel değişken gibi


işlenir.

NİCEL DEĞİŞKENLER:
Birimlerin ölçülerek ya da tartılarak değeri saptanan özellikleridir. Bu
değişkenlere sayısal değişken de denir.

• Yıllık üretim kapasitesi,


• Üretim ağırlığı,
• Çalışanların performans puanı

2
NİTEL VE NİCEL VERİLERİN
SINIFLANDIRMASI
Sınıflandırma ya da gruplandırma, veri setinde belirli bir değere ya
da belirli iki değer aralığında değerlere sahip kaç birim bulunduğunu
tablo düzeninde gösterme işlemidir.
Sınıflandırılmış verilerin uygun tablo ile gösterilmesine frekans
tablosu adı verilir.

Nitel veriler sınıflandırılırken değişkenin kaç seçeneği varsa


belirlenir ve her bir SEÇENEĞE sahip kaçar birim bulunduğu
sayılarak belirlenir.
Makine parçaları üreten bir fabrikada ALTI farklı çeşit üretim
yapılmaktadır.
Eylül ayına ilişkin üretimden seçilen 50 ürünün çeşitlerine göre
sınıflandırılması.

Ürün çeşitlerini (ÜC) gösteren seçeneklerin kod değerleri


bulunmaktadır:

50 ürüne ilişkin kodlar;


1. Seramik piston
2. Manometre
3. Termostat
4. Buji
5. Kondaktör
6. Pompa

1343214231264332325422332
1162536514543233545243656

3
Her nitelikte kaç ürün üretildiği sayılarak ya da dizideki her
kod tek tek ele alınarak aşağıdaki tablodaki seçeneklerden
hangisine girdiği bir çizgi ile belirlenerek sınıflandırma
işlemi yapılır.

Tabloda iki sütun vardır.


1. sütun ürünlerin sınıflarını (kategorilerini),
2. sütun ise frekansları gösterir.

Tablo 1: Makine parçası üreten fabrikada Eylül ayı için üretim


çeşitlerinin dağılımı

Üretim Çeşidi Kod Üretim Üretim Sayısı


Çetelemesi (frekans)
Seramik pompa 1 ||||| | 6
Manometre 2 ||||| ||||| | 11
Termostat 3 ||||| ||||| ||| 13
Buji 4 ||||| ||| 8
Kondaktör 5 ||||| || 7
Pompa 6 ||||| 5
--------------------- ------ ----------------------- -------
Toplam - - 50

4
NİCEL VERİLERİN SINIFLANDIRILMASI

Birimlerin nicel (kantitatif, sayısal) özellikleri ölçülebilir ve


tartılabilir niteliktedir. Bu tip değişkenlerin verilerine nicel
veriler adı verilir.

•Nicel veriler Kesikli veriler ve Sürekli veriler olmak üzere


iki grupta toplanabilir.

KESİKLİ VERİLER: Belirlenen gözlenme aralığında


sadece tam sayıların yer aldığı veri setleridir.

SÜREKLİ VERİLER: Dağılım aralığında her değeri


alabilen ölçü birimi ve titizliği arttıkça daha alt düzeyde
değeri saptanabilen ve kesirli değerler içeren veri setleridir.

Verilerin kesikli ya da sürekli olmaları frekans tablosu


hazırlamayı ve istatistiklerin hesaplanmalarını etkiler.

5
GRAFİKLER
• Grafikler, verilerin şekilsel gösterimidir.

• Verilerin daha kolay anlaşılmasını sağlamak ve veri grubunun sunumunda tercih

edilir.

• Dağılımın biçimi, aralığı ve verilerin toplandığı değerler grafik kullanarak çok daha

kolay görülür.

• Grafiğin türü önemlidir. Aksi takdirde veriler hakkında yanıltıcı bilgiler verilebilir.

• Her grafik özelliğine bağlı olarak isimlendirilir.

• Grafik kolay anlaşılır şekilde açık ve basit olmalıdır.

• Ölçeklendirme orantılı olmalıdır.

• Genelde y ekseni frekansları x ekseni değişken sınıflarını

gösterir.

• Renk seçimine önem verilmeli ve grafik göstergeleri

belirlenmelidir.

6
HİSTOGRAM

Yatay eksende değişken değerlerinin, dikey eksende de denek (birey /


gözlem) sayısının yer aldığı ve her değişken değerinin gözlendiği
birey sayısının çubuklar şeklinde gösterildiği grafiktir.

Histogram grafiği, frekans tablosu haline getirilmiş değişkenlerin her


sınıftaki frekanslarını, diğer sınıfların frekansları ile bir arada
gösteren grafik türüdür.

• Normal dağılıma uygunluk test edilebilir. Bir histogramın içindeki


her bir çubuğun alanı frekans ya da yüzdeyi temsil eder.

• Değişken değerleri eşit aralıklara bölünüp yatay eksende, her


aralığa düşen birey sayısı ise dikey eksende belirtilir.

• Her çubuk, karşılık geldiği aralığa düşen birey sayısını gösterir.


Yatay eksende her çubuğa karşılık olarak, çubuğun temsil ettiği
aralığın orta değeri yazılır.

7
ÖRNEK:
18
16
14
12
Frekans

10
8
6
4
2

50 60 70 80 90 100 110
Maliyet ($)

Çubuk Grafiği (Bar Graph)


9
8
7
6
Frekans

5
4
3
2
1

Kötü Yetersiz Orta İyi Mükemmel

Değerlendirme

8
PASTA GRAFİĞİ

Her sınıfın frekansı bu sefer daire içinde açılarla bölünerek


gösterilir. Her sınıf daire içinde temsil edilme derecelerine
göre dilimlere ayrılarak gösterilir.

ÖRNEK:

yorum
suz. Kötü
5% 10%
Yetersiz
İyi 15%
45%

Orta
25%

Değerlendirmeler

9
ÖRNEK:

Belirli bir ürünün üretim hatalarının ölçümüne ilişkin 50


gözlemlik bir veri kümesi aşağıdaki gibidir:

91 78 93 57 75 52 99 80 97 62
71 69 72 89 66 75 79 75 72 76
104 74 62 68 97 105 77 65 80 109
85 97 88 68 83 68 71 69 67 74
62 82 98 101 79 105 79 69 62 73

Veriler 6 sınıfta toplanabilir:

hata Frekans Rölatif Yüzde


Frekans Frekans
50-59 2 0,04 4
60-69 13 0,26 26
70-79 16 0,32 32
80-89 7 0,14 14
90-99 7 0,14 14
100-109 5 0,10 10
TOPLAM 50 1,00 100

10
Dal Yaprak Grafiği

Dal Yaprak Grafiği


• Verilerin göreceli yoğunluğunu ve şeklini görüntülemek için kullanışlıdır ve
okuyucuya dağıtıma hızlı bir genel bakış sağlar.
• Ham sayısal verileri (çoğu) genellikle mükemmel bir bütünlükle tutarlar.
• Aykırı değerleri vurgulamak ve modu bulmak için de kullanışlıdırlar.
• Bununla birlikte, gövde ve yaprak görünümleri yalnızca orta büyüklükteki veri
kümeleri için yararlıdır (yaklaşık 15-150 veri noktası).
• Çok büyük veri kümeleriyle, her veri noktasının sayısal olarak temsil edilmesi
gerektiğinden gövde ve yaprak görüntüsü çok karmaşık hale gelecektir.
• Veri boyutu arttıkça bir kutu grafiği veya histogram daha uygun hale gelebilir.

11
KUTU Grafiği

KUTU Grafiği

12
MERKEZİ EĞİLİM (KONUM) ÖLÇÜLERİ
•Veri dağılımının nerede toplandığını gösterir.

•Verilerin toplandığı ve belirli noktalarda toplanma değeri gösteren


istatistikleridir.

En sık kullanılan Merkezi Eğilim (Konum) Ölçüleri;

• Ortalama (mean)
• Aritmetik ortalama
• Ortanca (median)
• Tepe Değer (mod)
• Yüzdelikler
• Çeyreklikler

ÖRNEK:
Otomobillerin yıllık bakım maliyetleri artan sırada
verilmiştir.

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

13
 xi 34,356
x   490.80
n 70

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

MEDYAN = ORTANCA

• Veri kümesinde uç değerler olduğunda,


• Veriler çarpık bir dağılma verdiğinde,
• Simetrik olmayan dağılımlarda,
• Veri setinin tamamının bilinmediği durumlarda,
• Açık uçlu verilerde,
• Medyan, uç değerlere karşı hassas değildir.

14
MEDYAN = ORTANCA

 X n  1 , n tek sayı ise



 2

OD  
X n  X n
 1
 2 2 , n çift sayı ise
 2

ÖRNEK:
n=70 (çift) olduğundan,
35. ve 36. Değerler dikkate alınarak;
Medyan = (475 + 475)/2 = 475

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

15
MOD = TEPE DEĞER

Veri kümesinde en çok tekrarlanan değerdir.

ÖRNEK: 450 değeri 7 kez tekrarlanmıştır.


Mod = 450
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

YÜZDELİKLER
Bir veri kümesinin p. yüzdesi, o veri kümesindeki kaç verinin
%p’ nin altında kaldığını ifade eder.

• i, p. yüzde değerin pozisyonu olmak üzere,


i = (p/100)n
• i tamsayı değilse yuvarlama yapılır ve,
p. yüzde değeri= i. pozisyondaki değerdir.
• i tamsayı ise,
p. yüzde değeri= i. ve i+1. pozisyondaki değerin
ortalamasıdır.

16
ÖRNEK:
90.lık yüzde;
i = (p/100)n = (90/100)70 = 63
63. ve 64. Değerlerin ortalaması:
90. yüzde = (580 + 590)/2 = 585

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

ÇEYREKLİKLER

• Birinci Çeyreklik = 25.Yüzde değeri


• İkinci Çeyreklik = 50.Yüzde değeri = Medyan
• Üçüncü Çeyreklik = 75.Yüzde değeri

17
ÖRNEK:
• Üçüncü Çeyreklik
Üçüncü Çeyreklik = 75.Yüzde değeri
i = (p/100)n = (75/100)70 = 52.5 = 53
Üçüncü Çeyreklik = 525

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

Aritmetik Ortalama – Tepe Değeri - Ortanca

18
Çarpıklık ve Basıklık

YAYILIM (Değişim) ÖLÇÜLERİ

• Aralık
• Varyans
• Standard Sapma
• Değişim Katsayısı

19
ARALIK (RANGE)

“R” harfi ile gösterilir.

Veri kümesindeki en büyük değer ile en küçük değer


arasındaki farktır.

Değer aralığı uç değerlerden etkilenir, bu nedenle


denek sayıları eşit olmayan iki örneklemin
karşılaştırılmasında anlamlı olmaz.

ÖRNEK:
Aralık = en büyük değer – en küçük değer
Aralık = 615 - 425 = 190

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615

20
VARYANS

“S2” ile gösterilir. Standart sapma değerinin karesi


olarak ifade edilir.

2
2  ( xi  x )
s 
n1

STANDART SAPMA
“S” harfi ile gösterilir. Standart sapma, gözlemlerin
ortalama etrafından ne kadar uzaklaştığını gösterir.

Verilerin etrafında pozitif ve negatif yönde dağılma


biçimini, yoğunluklarını ve dağılımını belirlemede
kullanılır.

2 ( X i )2
 Xi 
Standart sapma (S)  n
n1

21
Standart sapma, dağılımın simetrik bir dağılım
olması durumunda ve tek tepe noktası olduğu
durumlarda anlamlıdır. Bu nedenle standart sapma
aritmetik ortalamanın hesaplandığı, normal ya da
normale yakın veri kümelerinde kullanılır.

Standart sapma yerine standart hatanın kullanılması


yaygın olarak yapılan bir yanlışlıktır. Standart hata
örneklem hacmi olan n değerine bağlı olarak değiştiği
için (n arttıkça standart hata da artmaktadır) standart hata
ortalamanın kitledeki dağılımı hakkında bilgi verir.
Standart sapma ise verilerin dağılımı hakkında bilgi
verir.

22
DEĞİŞİM KATSAYISI

S
DK  * 100
X
•DK< %5 ise; Veri kümesi homojendir, dar bir yayılma
söz konusudur.

•%5<DK<%10 ise; normal sayılabilecek bir dağılım söz


konusudur.

•%10<DK<%20 ise; ortalama etrafındaki yayılma


artmaktadır.

DK>%20 ise; veri toplamada aynı türde olmayan

verilere raslanmış olabilir, veri toplamada hata yapılmış

olabilir ya da veri kümesi dış etkenlerden etkilenmiş

olabilir. Bu durumda verilerin kontrol edilmesinde yarar

vardır.

23
İKİ DEĞİŞKEN ARASINDAKİ
ÖLÇÜLER

• Kovaryans
• Korelasyon Katsayısı

KOVARYANS
• Pozitif kovaryans, iki değişken arasında pozitif yönlü bir
ilişki olduğunu belirtir.

• Negatif kovaryans, iki değişken arasında negatif yönlü


bir ilişki olduğunu belirtir.

 (xi  x)(yi  y)
Cov(X; Y) 
n1

24
KORELASYON KATSAYISI

• Korelasyon katsayısı -1 ile 1 arasında değişmektedir.

• Korelasyon katsayısı -1’ e yaklaştıkça negatif yönlü


kuvvetli ilişki,

• Korelasyon katsayısı +1’ e yaklaştıkça pozitif yönlü


kuvvetli ilişki söz konusudur.
sxy
rxy 
sxsy

25

You might also like