Professional Documents
Culture Documents
Numpy
Statistic
Ölçek Türleri
İstatistikte, nominal (sınıflama), ordinal (sıralama), interval (eşit aralıklı), ratio (oranlı) olmak
üzere; 4 çeşit ölçek vardır. Ölçek türlerinin ne olduğunu, daha iyi anlamak için, çeşitleri detaylı
inceleyelim.
Örneklem Çeşitleri
Sistematik Örnekleme
Evreni oluşturan birimlerin numaralandırılma (sıralama) işlemi yansız olarak yapılır veya hazır listelerde
varolan sıralama kullanılarak sistematik tesadüfi örnekleme yöntemi kullanılır.
Örneğin; N=3500, n=350 olan bir araştırmada sistematik tesadüfi örnekleme sistemiyle örneklem
seçelim: N/n=3500/350=10 Bu durumda evren içerisindeki her 10 birimden biri sistematik olarak
örneklem içerisinde yer alacaktır. 1’den 10’a kadar olan tam sayılardan biri basit tesadüfi örneklem
yöntemiyle seçilir. Örneğin, kura ile 7 seçilmiş olsun, bu durumda; 7, 17, 27, ...107…3487, 3497 numaralı
birimler araştırmanın örneklemini oluşturacaktır.
Tabakalı Örnekleme
Tabakalı örnekleme yöntemi, evreni oluşturan birimlerin, araştırma konusu ile ilgili özelliklerinin (cinsiyet,
yaş, kıdem, meslek vb.) farklı olması durumunda kullanılır. Tabakalı örnekleme yönteminde farklı
özellikleri içeren evren, kendi içerisinde homojen tabakalara (alt gruplara alt evrenlere) ayrılır. Evreni
oluşturan tabakaların her birinin evren içerisindeki oranları tespit edilir. Daha sonra örneklem büyüklüğü
‘n’ hesaplanır ve her alt tabakanın evren içesindeki temsil oranlarına göre, örneklem grupları basit ya da
sistematik tesadüfi örnekleme yöntemine göre seçilir
Küme Örnekleme
Küme örnekleme yönteminde, öncelikle evreni oluşturan birimler değil bu birimlerin bağlı bulunduğu
kümeler ele alınır. Bu kümelerden basit ya da sistematik tesadüfi örnekleme yöntemiyle örneklem
seçilerek araştırmanın örneklemi oluşturulur. Küme örnekleme yöntemiyle, tabakalı örnekleme
yöntemini birbiriyle karıştırmamak gerekir. Küme örnekleme yönteminde hali hazırda var olan kümeler
üzerinden işlem yapılırken tabakalı örnekleme yönteminde ise araştırmacının araştırma konusuna uygun
olarak kendi belirlediği alt evrenler üzerinden işlem yapılmaktadır. Örneğin, Ankara’daki ilköğretim
okullarında okuyan öğrencilerin davranışlarının, ailelerinin ekonomik ve kültürel yapısına bağlı olarak
gösterebileceği farlılıkları belirlemeyi amaçlayan bir araştırma için örneklem oluşturalım. Ankara’daki tüm
bölgelerin (örneğin, çankaya ile elmadağ) ekomik ve kültürel yapısı aynı olmadığı için önce Ankara’yı alt
bölgelere ayırırız ve bu bölgelerden belirli sayıdaki okullardan basit ya da tesadüfi sistematik örnekleme
yöntemiyle örneklemimizi oluşturabiliriz.
Kolayda Örnekleme
Bu yöntemde amaç, isteyen herkesin örneklem içerisine ve örnekleme dahil edilmesidir. Denek bulma
işlemi belirlenen örneklem hacmine ulaşılıncaya kadar devam eder. Bu yöntem gerek zaman gerekse
ekonomik açıdan büyük tasarruf sağlar.
Kasti Örnekleme
Amaçlı, örnekleme yönteminde, örnekleme dahil edilecek birimleri, araştırmacı önceki bilgi, deneyim ve
gözlemlerinden hareketle araştırmacının amacına uygun olarak kendi yargısıyla belirler. Araştırmacı kendi
yargı ve değerlendirmeleriyle hareket ettiği için evren hakkında fikir sahibi olmalıdır. Örneğin, hiperaktif
çocuklar konusunda çalışan bir araştırmacı, bu çocuklar içerisinden kendi yargısına bağlı olarak geneli
yansıtacağına inandığı ve tipik hiperaktivite özelliklerini gösterenleri örneklem olarak alabilir
Kota Örnekleme
Tabakalı örnekleme yönteminde olduğu gibi, evren, araştırmacının amaçlarına bağlı olarak belirlediği alt
evrenlere (alt tabakalara) ayrılır. Araştırmacı her alt tabakanın örneklem içerisinde temsili için kota koyar.
Ancak tabakalı örneklem yönteminde alt tabakalardan örneklem seçimi basit ya da sistemadik tesadüfi
örnekleme yöntemlerine göre seçilirken, kota örnekleme yönteminde alt tabakalardan seçilen örneklem
araştırmacının kendisine bırakılmıştır. Yani kota örnekleme yönteminde, denek seçme işlemi olasılık
teorisine dayanmaz. Bu nedenle, bu yöntem ile seçilen örneklem, tahminlerin hassaslık ve güvenilirliğinin
tarafsız bir değerlendimesini sağlamaz
Kartopu Örnekleme
Evren içerisinde yer alan birimler tam olarak belirlenemez ise evreni temsil edecek örneklemi
belirlemekte zorlaşır. Kartopu örnekleme yönteminde, öncelikle araştırma evreni içerisinde yer alan ve
araştırmacının ulaşabileceği ilk birim (kişi ya da obje) belirlenir. Bu birimlerden elde edilecek veriler
ışığında sonraki birime ulaşılarak evreni temsil edebileceği düşünülen örneklemin oluşturulması,
böylelikle başlangıçta tek bir birimden oluşan örneklem hacminin kartopu gibi büyütülmesi
amaçlanmaktadır
Matris Çeşitleri
3) Sıfır Matris: Tüm elemanları sıfır olan matrisdir. MATRİS KISMINI DEVAM ETTİR.
Olasılık Dağılımları
Bernoulli Dağılımı
Bir deneyde başarı ve başarısızlık diye nitelendirilen iki sonuçla ilgilenildiğinde bu deneye (iki
sonuçlu) Bernoulli deneyi ya da Bernoulli denemesi denir.
Bernoulli dağılımının olasılık fonksiyonu
Binom Dağılımı
Başarı olasılığı olan bir Bernoulli denemesinin aynı şartlar altında (bağımsız olarak) n kez tekrarlanması ile
oluşan deneye binom deneyi denir. Binom deneyinin aşağıdaki koşulları sağlaması gerekir:
Her denemede ilgilenilen olay olasılığı ρ değişmezdir. Dolayısıyla istenmeyen olay olasılığı q = 1- ρ de
değişmezdir. 50 Binom dağılımı kesikli bir olasılık dağılımıdır. X rasgele değişkeni binom dağılımına sahip
olduğunda X~b (n, ρ) ile gösterilir.
Poisson Dağılımı
Bu dağılım, belirli bir aralıkta gerçekleşme olasılığının çok küçük olduğu durumlarda kullanılır. Örneğin
Ankara’da Beşevler kavşağında bir gün içerisinde meydana gelen trafik kazaları, belli bir yılda meydana
gelen doğal afetler, az rastlanan hastalıklar gibi. Denek sayısı olan n büyük iken p de çok küçük ise binom
dağılımı poisson dağılımına yaklaşır. Genel olarak np<=5 olduğu zaman binom dağılımı yerine poisson
dağılımı kullanılabilir. Ayrıca n’ nin 20 den büyük olması koşulu vardır. rasgele değişkeni Poisson
dağılımına sahipse, bu değişkenin olasılık fonksiyonu aşağıdaki gibidir:
Normal Dağılımı
Günlük hayatta ve endüstride en çok normal dağılım ile karşılaşılır. x sürekli rastgele değişkeni
normal dağılım altında her -sonsuzdan +sonsuza her türlü değeri alabilir.
Olasılık fonksiyonu şu şekildedir:
Üniform Dağılımı
X Random değişkeninin değişkenlik aralığı (a,b) olsun. Başka bir ifadeyle, a=X'in alabileceği min. değer ve
b= X'in alabileceği max. değer olsun. Eğer (a,b) aralığı ile X'in olasılığı orantılı ise bu değişken uniform
dağılıma sahiptir. Böylece, a≤X≤b olmak üzere;
Üstel Dağılımı
Bu dağılımın bir çok özelliği uniform dağılıma benzer. Dağılımın tek parametresi µ olup, dağılımın
ortalamasıdır (beklenen değeri).
Dağılımın fonksiyonu yukardaki gibidir. Bu dağılım
özellikle bir ürünün ömrü, hizmet süresi gibi
tamaiyle rassal gelişen olaylarda kullanılır. Bir
ürünün ortalama ömrü 3 yıl ise, 4. yıldan sonra
bozulma ihtimali gibi durumlarla ilgilenir.
Supervised Learning
Algoritmaları
Nearest Neighbor
Naive Bayes
Decision Trees
Linear Regression
Neural Networks
Logistic Regression
K- Nearest Neighbor
Random Forests
3) En yüksek p-value değerine sahip olan değişken ele alınır ve şayer p>SL ise 4. Adıma,
kaldırılır.
4) Bu aşamada 3. Adımda seçilen değişken sabit tutularak yeni bir değişken daha seçilir ve
sisteme eklenir
5) Makine öğrenmesi güncellerin ve 3. Adıma geri dönülür şayet en düşük p value için p<SL
4) Bu aşamada, 3. Adımda seçilen değişken sabit tutularak diğer bütün değişkenler sisteme
5) SL değerinin altında olan değişkenler sistemde kalır vee ski değişkenlerden hiçbiri
sistemden çıkarılmaz
Karar ağacı, çok sayıda kayıt içeren bir veri kümesini, bir dizi karar kuralları uygulayarak daha
5) Kullanılan ağacın maliyeti, ağacı eğitmek için kullanılan veri noktalarının sayılarıyla
logaritmiktir.
Dezavantajları:
2) Overfitting yaşanabilir.
setine katılacak olan yeni verinin, mevcut verilerine göre uzaklığı hesaplayıp, k sayıda yakın
komşuluğuna bakılır.
yapılacaktır.
2) Örnek veri setine katılacak olan yeni verinin, mevcut verilerine göre uzaklığı tek tek
hesaplanır.
3) Ilgili uzaklıklardan en yakın k komşu ele alınır. Öznitelik değerlerine göre k komşu veya
4) Seçilen sınıf, tahimn edilmesi beklenen gözlem değerinin sınıfı olarak Kabul edilir. Yani,
Confusion Matrix
Confusion matrix, verideki var olan durum ile sınıflama modelimizin doğru ve yanlış tahminlerinin
sayısını gösterir. Aşağıda 2x2’lik bir confusion matrix bulunmaktadır. Bu matrix, tahmindeki hedef
Eğer tahmin işleminde normalde pozitif olan bir değer pozitif olarak tahmin ediliyorsa TP bir
tahmin yapılmıştır.
Accuracy=(TP+TN)/(TP+TN+FN+FP)
Precision = Pozitif olarak tahmin edilen bir durumdaki başarıyı gösteren durum. Precision=
TP/(TP+FP)
F-Measure=2*Precision*Recall/(Precision+Recall)
K Means Algoritması
K-means verilen bir veri seti üzerinden berlirli sayıda kümeyi(k adet) gruplamak için geliştirilmiş
Adımları:
1) Nesneleri al, küme sayısını belirle ve başlangıç kitle merkezlerini (centroid) belirle.
2) Her nesneyi en uygun gruba ata ve her atama işleminden sonra atama yapılan k kitle
merkezini hesapla.
3) Yeni oluşan grubu geçmişteki grup ile kıyasla. Grupta değişim yok ise algoritmayı bitir, aksi
Dezavantajları: