You are on page 1of 11

Machine Learning

Numpy

Statistic
Ölçek Türleri
İstatistikte, nominal (sınıflama), ordinal (sıralama), interval (eşit aralıklı), ratio (oranlı) olmak
üzere; 4 çeşit ölçek vardır. Ölçek türlerinin ne olduğunu, daha iyi anlamak için, çeşitleri detaylı
inceleyelim.

Nominal (Sınıflama) Ölçek


Anlaması en kolay olan; nominal ölçekle başlayalım. Nominal ölçekte, sayılar; sürücü lisans
numarası, ürün seri numaraları, telefon numaraları gibi, herhangi bir sayının diğer sayıdan üstün
olmadığı sayı değerlerinde kullanılır.
Ordinal (Sıralama) Ölçek
Ordinal ölçekte ise, sayılar arasında bir korelasyon vardır. Ordinal ölçeğe örnek olarak ise,
insanların boylarının sıralanması, yarışmada 1., 2., 3. gibi sıralamaların yapılmasını verebiliriz.

Interval (Eşit aralıklı) Ölçek


Interval ölçek ise, sayıların arasında korelasyon vardır. Sayılar arasındaki farklar
anlamlıdır. Örnek olarak, odanın sıcaklığının celcius derece cinsinden ifade edilmesini verebiliriz.

Ratio (Oranlı) Ölçek


Oranlı ölçek, eşit aralıklı ölçeğin tüm özelliklerine sahip olup ek olarak gerçek bir sıfır değerine
sahiptir ve başlangıç noktası sabit bir nokta olarak belirlenebilir. Eşit aralıklı ölçekte sıfır noktası
(termometrenin 0 dereceyi göstermesi) gerçek bir yokluğu ifade etmezken oranlı ölçekte sıfır
noktası (ağırlığın 0 olması) gerçek bir yokluğu ifade etmektedir.

Örneklem Çeşitleri

Olasılığa Dayalı Olasılığa Dayalı


Teknikler Olmayan Teknikler
Basit Tesadüfi Örnekleme Kolayda Örnekleme
Sistematik Örnekleme Kasti Örnekleme
Tabakalı Örnekleme Kota Örnekleme
Küme Örnekleme Kartopu Örnekleme

Basit Tesadüfi Örnekleme


Hazırlanan listedeki her bir birime ilişkin numaralardan örneklem sayısı kadar numara, kura
yöntemiyle ya da bilgisayar yardımıyla şansa bağlı olarak (rastgele) belirlenir.

Sistematik Örnekleme
Evreni oluşturan birimlerin numaralandırılma (sıralama) işlemi yansız olarak yapılır veya hazır listelerde
varolan sıralama kullanılarak sistematik tesadüfi örnekleme yöntemi kullanılır.

Örneğin; N=3500, n=350 olan bir araştırmada sistematik tesadüfi örnekleme sistemiyle örneklem
seçelim: N/n=3500/350=10 Bu durumda evren içerisindeki her 10 birimden biri sistematik olarak
örneklem içerisinde yer alacaktır. 1’den 10’a kadar olan tam sayılardan biri basit tesadüfi örneklem
yöntemiyle seçilir. Örneğin, kura ile 7 seçilmiş olsun, bu durumda; 7, 17, 27, ...107…3487, 3497 numaralı
birimler araştırmanın örneklemini oluşturacaktır.

Tabakalı Örnekleme
Tabakalı örnekleme yöntemi, evreni oluşturan birimlerin, araştırma konusu ile ilgili özelliklerinin (cinsiyet,
yaş, kıdem, meslek vb.) farklı olması durumunda kullanılır. Tabakalı örnekleme yönteminde farklı
özellikleri içeren evren, kendi içerisinde homojen tabakalara (alt gruplara alt evrenlere) ayrılır. Evreni
oluşturan tabakaların her birinin evren içerisindeki oranları tespit edilir. Daha sonra örneklem büyüklüğü
‘n’ hesaplanır ve her alt tabakanın evren içesindeki temsil oranlarına göre, örneklem grupları basit ya da
sistematik tesadüfi örnekleme yöntemine göre seçilir

Küme Örnekleme
Küme örnekleme yönteminde, öncelikle evreni oluşturan birimler değil bu birimlerin bağlı bulunduğu
kümeler ele alınır. Bu kümelerden basit ya da sistematik tesadüfi örnekleme yöntemiyle örneklem
seçilerek araştırmanın örneklemi oluşturulur. Küme örnekleme yöntemiyle, tabakalı örnekleme
yöntemini birbiriyle karıştırmamak gerekir. Küme örnekleme yönteminde hali hazırda var olan kümeler
üzerinden işlem yapılırken tabakalı örnekleme yönteminde ise araştırmacının araştırma konusuna uygun
olarak kendi belirlediği alt evrenler üzerinden işlem yapılmaktadır. Örneğin, Ankara’daki ilköğretim
okullarında okuyan öğrencilerin davranışlarının, ailelerinin ekonomik ve kültürel yapısına bağlı olarak
gösterebileceği farlılıkları belirlemeyi amaçlayan bir araştırma için örneklem oluşturalım. Ankara’daki tüm
bölgelerin (örneğin, çankaya ile elmadağ) ekomik ve kültürel yapısı aynı olmadığı için önce Ankara’yı alt
bölgelere ayırırız ve bu bölgelerden belirli sayıdaki okullardan basit ya da tesadüfi sistematik örnekleme
yöntemiyle örneklemimizi oluşturabiliriz.

Kolayda Örnekleme
Bu yöntemde amaç, isteyen herkesin örneklem içerisine ve örnekleme dahil edilmesidir. Denek bulma
işlemi belirlenen örneklem hacmine ulaşılıncaya kadar devam eder. Bu yöntem gerek zaman gerekse
ekonomik açıdan büyük tasarruf sağlar.

Kasti Örnekleme
Amaçlı, örnekleme yönteminde, örnekleme dahil edilecek birimleri, araştırmacı önceki bilgi, deneyim ve
gözlemlerinden hareketle araştırmacının amacına uygun olarak kendi yargısıyla belirler. Araştırmacı kendi
yargı ve değerlendirmeleriyle hareket ettiği için evren hakkında fikir sahibi olmalıdır. Örneğin, hiperaktif
çocuklar konusunda çalışan bir araştırmacı, bu çocuklar içerisinden kendi yargısına bağlı olarak geneli
yansıtacağına inandığı ve tipik hiperaktivite özelliklerini gösterenleri örneklem olarak alabilir

Kota Örnekleme
Tabakalı örnekleme yönteminde olduğu gibi, evren, araştırmacının amaçlarına bağlı olarak belirlediği alt
evrenlere (alt tabakalara) ayrılır. Araştırmacı her alt tabakanın örneklem içerisinde temsili için kota koyar.
Ancak tabakalı örneklem yönteminde alt tabakalardan örneklem seçimi basit ya da sistemadik tesadüfi
örnekleme yöntemlerine göre seçilirken, kota örnekleme yönteminde alt tabakalardan seçilen örneklem
araştırmacının kendisine bırakılmıştır. Yani kota örnekleme yönteminde, denek seçme işlemi olasılık
teorisine dayanmaz. Bu nedenle, bu yöntem ile seçilen örneklem, tahminlerin hassaslık ve güvenilirliğinin
tarafsız bir değerlendimesini sağlamaz

Kartopu Örnekleme
Evren içerisinde yer alan birimler tam olarak belirlenemez ise evreni temsil edecek örneklemi
belirlemekte zorlaşır. Kartopu örnekleme yönteminde, öncelikle araştırma evreni içerisinde yer alan ve
araştırmacının ulaşabileceği ilk birim (kişi ya da obje) belirlenir. Bu birimlerden elde edilecek veriler
ışığında sonraki birime ulaşılarak evreni temsil edebileceği düşünülen örneklemin oluşturulması,
böylelikle başlangıçta tek bir birimden oluşan örneklem hacminin kartopu gibi büyütülmesi
amaçlanmaktadır

Matris Çeşitleri

1) Kare Matris: Satır sayısı sütun sayısına eşit olan matrislerdir.


2) Birim Matris: Satır ve sütun sayıları 3 olan, ayrıca köşegenin üzerindeki öğelerinin 1 geri
kalan yerlerdeki öğelerin 0 olduğu birim matristir.

3) Sıfır Matris: Tüm elemanları sıfır olan matrisdir. MATRİS KISMINI DEVAM ETTİR.

Olasılık Dağılımları

Kesikli Olasılık Sürekli Olasılık


Dağılımları Dağılımları
Bernoulli Normal Dağılım
Binom Üniform Dağılım
Poisson Üstel Dağılım

Bernoulli Dağılımı
Bir deneyde başarı ve başarısızlık diye nitelendirilen iki sonuçla ilgilenildiğinde bu deneye (iki
sonuçlu) Bernoulli deneyi ya da Bernoulli denemesi denir.
Bernoulli dağılımının olasılık fonksiyonu

Binom Dağılımı
Başarı olasılığı olan bir Bernoulli denemesinin aynı şartlar altında (bağımsız olarak) n kez tekrarlanması ile
oluşan deneye binom deneyi denir. Binom deneyinin aşağıdaki koşulları sağlaması gerekir:

 Deney süresince örneklemde denek sayısı ya da deneme sayısı değişmez olmalıdır.

 Denemeler birbirinden bağımsızdır.


 Her denemede iki olası sonuç vardır (istenen ve istenmeyen olay).

 Her denemede ilgilenilen olay olasılığı ρ değişmezdir. Dolayısıyla istenmeyen olay olasılığı q = 1- ρ de
değişmezdir. 50 Binom dağılımı kesikli bir olasılık dağılımıdır. X rasgele değişkeni binom dağılımına sahip
olduğunda X~b (n, ρ) ile gösterilir.

Binom dağılımının olasılık fonksiyonu

Poisson Dağılımı
Bu dağılım, belirli bir aralıkta gerçekleşme olasılığının çok küçük olduğu durumlarda kullanılır. Örneğin
Ankara’da Beşevler kavşağında bir gün içerisinde meydana gelen trafik kazaları, belli bir yılda meydana
gelen doğal afetler, az rastlanan hastalıklar gibi. Denek sayısı olan n büyük iken p de çok küçük ise binom
dağılımı poisson dağılımına yaklaşır. Genel olarak np<=5 olduğu zaman binom dağılımı yerine poisson
dağılımı kullanılabilir. Ayrıca n’ nin 20 den büyük olması koşulu vardır. rasgele değişkeni Poisson
dağılımına sahipse, bu değişkenin olasılık fonksiyonu aşağıdaki gibidir:

Normal Dağılımı
 Günlük hayatta ve endüstride en çok normal dağılım ile karşılaşılır. x sürekli rastgele değişkeni
normal dağılım altında her -sonsuzdan +sonsuza her türlü değeri alabilir.
Olasılık fonksiyonu şu şekildedir:

Üniform Dağılımı
X Random değişkeninin değişkenlik aralığı (a,b) olsun. Başka bir ifadeyle, a=X'in alabileceği min. değer ve
b= X'in alabileceği max. değer olsun. Eğer (a,b) aralığı ile X'in olasılığı orantılı ise bu değişken uniform
dağılıma sahiptir. Böylece, a≤X≤b olmak üzere;

X'in olasılık fonksiyonu f(X)=1 / (b-a)

Üstel Dağılımı
Bu dağılımın bir çok özelliği uniform dağılıma benzer. Dağılımın tek parametresi µ olup, dağılımın
ortalamasıdır (beklenen değeri).
Dağılımın fonksiyonu yukardaki gibidir. Bu dağılım
özellikle bir ürünün ömrü, hizmet süresi gibi
tamaiyle rassal gelişen olaylarda kullanılır. Bir
ürünün ortalama ömrü 3 yıl ise, 4. yıldan sonra
bozulma ihtimali gibi durumlarla ilgilenir.

Supervised Learning
Algoritmaları

 Nearest Neighbor

 Naive Bayes

 Decision Trees

 Linear Regression

 Support Vector Machines (SVM)

 Neural Networks

 Logistic Regression

 K- Nearest Neighbor

 Random Forests

Model Parametre: Teorik olarak bizim elimizde olmayan parametrelerdir.

Model Hiperparametre: Kullanıcı tarafından belirlenen dışsal parametrelerdir.

Parametre Tuning: Model içindeki parametrelerin ayarlanmasıdır.

Model Tuning: Tüm yaptığımız işlemleri kapsar


Dummy Variable: Bir değişkeni ifade eden başka bir değerdir. (Erkek/ Kadın değil (0, 1))

P-Value: Olasılık değeri (genelde 0.05 alınır.)

Çoklu değişkenli modellerde değişken seçimi

1) Bütün değişkenleri dahil etmek

2) Geriye doğru eleme (Backward Elimination)

3) İleri seçim (Forward Elimination)

4) İki Yönlü Eleme (Bidirectional Elimination)

Geriye Eleme (Backward Elimination)

1) Significance Leve (SL) seçilir. (genelde 0.05)

2) Bütün değişkenler kullanılarak bir model inşa edilir.

3) En yüksek p-value değerine sahip olan değişken ele alınır ve şayer p>SL ise 4. Adıma,

değilse son adıma(6. Adım) gidilir

4) Bu aşamada, 3. Adımda seçilen ve en yüksek p-değerine sahip değişken sistemden

kaldırılır.

5) Makine öğrenmesi güncellenir ve 3. Adıma geri dönülür

6) Makine öğrenmesi sonlandırılır.

İleriye Seçim (Forward Elimination)

1) Significance Level (SL) seçilir (genelde 0.05)


2) Bütün değişkenler kullanılarak bir model inşa edilir.

3) En düşük p value değerine sahip olan değişken ele alınır.

4) Bu aşamada 3. Adımda seçilen değişken sabit tutularak yeni bir değişken daha seçilir ve

sisteme eklenir

5) Makine öğrenmesi güncellerin ve 3. Adıma geri dönülür şayet en düşük p value için p<SL

şartı sağlanıyor ise 3. Adıma dönülür. Sağlamıyorsa biter(6. Adıma geçilir)

6) Makine öğrenmesi sonlanır.

Çift Yönlü Eleme (Bidirectional Elimination)

1) Significance Level seçilir (genelde 0.05)

2) Bütün değişkenler kullanılarak bir model inşa edilir.

3) En düşük p-value değerine sahip olan değişken ele alınır.

4) Bu aşamada, 3. Adımda seçilen değişken sabit tutularak diğer bütün değişkenler sisteme

dahil edilir vee n düşük p value sistemde kalır.

5) SL değerinin altında olan değişkenler sistemde kalır vee ski değişkenlerden hiçbiri

sistemden çıkarılmaz

6) Makine Öğrenmesi sonlanır

Karar Ağaçları (Decision Tree)

Karar ağacı, çok sayıda kayıt içeren bir veri kümesini, bir dizi karar kuralları uygulayarak daha

küçük kümelere bölmek için kullanılan yapıdır.


Avantajları:

1) Hem sayısal hem de kategorik verileri işleyebilir.

2) Çok çıktılı problemleri ele alabilmektedir.

3) Az oranda bir veri hazırlığına ihtiyaç duyarlar.

4) İstatiksel testler kullanılarak bir modelin doğrulaması mümkündür.

5) Kullanılan ağacın maliyeti, ağacı eğitmek için kullanılan veri noktalarının sayılarıyla

logaritmiktir.

Dezavantajları:

1) Veriyi iyi bir şekilde açıklayamayan, aşırı karmaşık ağaçlar üretebilir.

2) Overfitting yaşanabilir.

K-En Yakın Komşu

Hem sınıflandırma hem de regresyon problemlerinin çözümünde kullanıyor olmakla birlikte,

endüstride çoğunlukla sınıflandırma problemlerinin çözümünde kullanılmaktadır. Örnek veri

setine katılacak olan yeni verinin, mevcut verilerine göre uzaklığı hesaplayıp, k sayıda yakın

komşuluğuna bakılır.

KNN algoritmasının adımları:

1) İlk olarak k parametresi belirlenir. Bu parameter bir noktaya en yakın komşularının

sayısıdır. Örneğin: k=2 olsun. Bu durumda en yakın 2 komşuya göre sınıflandırma

yapılacaktır.
2) Örnek veri setine katılacak olan yeni verinin, mevcut verilerine göre uzaklığı tek tek

hesaplanır.

3) Ilgili uzaklıklardan en yakın k komşu ele alınır. Öznitelik değerlerine göre k komşu veya

komuşların sınıfına atanır.

4) Seçilen sınıf, tahimn edilmesi beklenen gözlem değerinin sınıfı olarak Kabul edilir. Yani,

yeni veri etiketlenmiş(label) olur.

Confusion Matrix

Confusion matrix, verideki var olan durum ile sınıflama modelimizin doğru ve yanlış tahminlerinin

sayısını gösterir. Aşağıda 2x2’lik bir confusion matrix bulunmaktadır. Bu matrix, tahmindeki hedef

sayısına göre değişir. NxN’lik olabilir.

Eğer tahmin işleminde normalde pozitif olan bir değer pozitif olarak tahmin ediliyorsa TP bir

tahmin yapılmıştır.

Accuracy = Sistemde doğru oalrak yapılan tahminlerin tüm tahminlere oranıdır.

Accuracy=(TP+TN)/(TP+TN+FN+FP)

Recall = Pozifit durumların ne kadar başarılı tahmin edildiğini gösterir. Recall=TP/(TP+FN)

Precision = Pozitif olarak tahmin edilen bir durumdaki başarıyı gösteren durum. Precision=

TP/(TP+FP)

F-Measure = Recall ve precision’ın harmonic ortalamasıdır.

F-Measure=2*Precision*Recall/(Precision+Recall)

K Means Algoritması
K-means verilen bir veri seti üzerinden berlirli sayıda kümeyi(k adet) gruplamak için geliştirilmiş

en sade ve basit algoritmadır.

Adımları:

1) Nesneleri al, küme sayısını belirle ve başlangıç kitle merkezlerini (centroid) belirle.

2) Her nesneyi en uygun gruba ata ve her atama işleminden sonra atama yapılan k kitle

merkezini hesapla.

3) Yeni oluşan grubu geçmişteki grup ile kıyasla. Grupta değişim yok ise algoritmayı bitir, aksi

takdirde adım 2’ye geri dön.

Dezavantajları:

1) Küme sayısına karar vermenin zor olması

You might also like