You are on page 1of 3

MAKİNE ÖĞRENMESİ

Denetimli ve Denetimsiz öğrenme olarak ikiye ayrılır


Denetimli(Gözetimli) Öğrenme(Supervised Learning)
Y nin bağımlı ve x in bağımsız değişken olduğunu zaten artık biliyoruz. Eğer elimizde hem y hem de x
değeri varsa bu yapıya denetimli öğrenme denir.Denetimli öğrenmede kullanılan iki önemli model
yapısı vardır.Regresyon ve Sınıflama.
Denetimsiz(Gözetimsiz)Öğrenme(Unsupervised Learning)
Denetimli öğrenmeden farklı olarak verileri giriş çıkış şeklinde etiketleme yapısı olmadan verilerin
kendi arasındaki ilişkilerini inceler. İki ana modelleme yöntemi vardır Boyut indirgeme ve
kümelemedir. Bağımlı değişken yoktur. Tüm veriler bağımsız değişkendir kabul edilir.
Eğitim(Training) Ve Test Verisi Ayırma
Makina öğreniminde girdi verileri kullanlılarak algoritmalar oluşturulur. BU model oluşturulmada üç
yaygın veri grubu kullanlır. Eğitim,test ve doğrulama.Doğrulamayı bir kenara ayırırsak. Bu bölünme
değişse de genelde%80 eğitim %20 test verisi olarak parçalanır.
Aşırı Ve Eksik Öğrenme(Overfitting and Underfitting)
Aşırı uyum ve eksik uyum da denebilir. Aşırı uyumlu model gereğinden fazla spesifik parametre içeren
modellerdir. Varyasyon temeldeki model yapısını temsil ediyormuş gibi görünür. Doğrusal olmayan bir
veriye doğrusal bir model uydurulduğunda ise de eksik uydurma meydana gelebilir.
Bu sorunlar için üç noktaya odaklanmak gerekir. Eğitim veri seti , test veri seti ve gerçek hayattaki veri
seti.Test veri seti veya gerçek veri seti iyi ise optimal model(gerçeğe yakın)dir
Test veri seti veya gerçek veri seti iyi değil ancak eğitim veri setinde model çok iyi sonuçlar
çıkarıyorsa Aşırı öğrenme sorunu vardır.
Hem test hem de eğtim sonuçları iyi değilse eksik öğrenme sorunu vardır.
Önyargı (Bias) Ve Varyans
Bir modelin numuler arasında tahmin edilen varyansının tahmin edilen parametrelerdeki sapmayı
artırarak azaltabileceği özelliğidir.Önyargı hatası öğrenme algoritmasındaki hatalı varsayımlardan
kaynaklanan bir hatadır.Yüksek önyargı bir algoritmanın özellikler ve hedef çıktılar arasındaki ilgili
ilişkileri kaçırmasına (yetersiz uyum)neden olabilir.
Hata kavramının bizim tahmin modelimizle gerçek model arasındaki farktan kaynaklandığını
öğrenmiştik.
Hata ana olarak iki yapıdan oluşur.
Hata=İndirgenebilir hata + İndirgenemez Hata .
İndirgenebilir hata minimize edilebilir üzerinde oynanabilir hatadır ve iki bileşenden oluşur
İndirgenebilir Hata= Önyargı(Bias)+ Varyans.
İndirgenemez hata ise üzerinde değişiklik yapılamaz minimize edilemez hatadır.
Toplam hata asla 0 olamaz.
(Bias)Önyargı kavramı elimizdeki verilere göre gerçek hayattaki modelden uzaklaşma durumudur.
Varyans yapısı ise eğitim verilerindeki gürültülü verilerden dolayı verilerin oynak olmasından
kaynaklanır.
İki durum da optimal düzeyde tutulursa gerçeğe en yakın sonuçlar elde edilebilir. I deal olarak kişi hem
eğitim verilerindeki düzenlilikleri doğru şekilde yakalayan hem de görünmeyen verilere iyi genelleyen
bir model seçmek ister.
Model Doğrulama(Model Validation)
Makineye ağitim veri setini gösterek öğrenmeye sokup sonrasında test veri setiyle bunu test ediyoruz
bu olaya doğrulama denir. Doğrulama yapısı eğitim veri setinin de kendi içinde parçalanmasını
geriktirir.Kendi içinde parçalanan yapılar eğitim ve test apısı gibi davranır. Çeşitli doğrulama
yöntemleri vardır.
1)Hold out yöntemi
Ilk aşmada yaptığımız eğitim ve test ayrıştırması da bu yönteme girer
2)K katlı çapraz doğrulama(K fold cross validation)
Hold out yönteminin gelişmiş halidir. Eğitim data setinin kendi içinde eğitim ve test olarak ayrışmasına
olanak sağlar. Eğitim data setini K parçaya böler. Daha sonra ilk parçayı alıyor ve test parçası olarak
seçiyor. Kalan tüm parçaları birleştirip eğitim seti olarak kullanıyor ve bir model yapıyor. Ve ayırdığı
test verisiyle karşılaştırıp bir hata değeri belirliyor. Sonrasında oluşturduğu eğitim setini K adet
parçalara bölüp ilk parçayı tekrar test verisi olarak kabul ediyor ve aynı işlemi uygulayıp bir hata
değeri buluyor. Sonrasında tüm hata değerleri için ortalama bir hata değeri belirleniyor. Bu hataya
eğitim hatası ya da Validation error denir.
Regresyon Model Başarısı
Denetimli öğrenme kavramının içinde regresyon modelleri ve sınıfla modelleri olmak üzere ikiye
ayrıldığını söylemiştik. Regresyon modeli içerisinde R2 diye bir kavram öğrenmiştik. Bağımlı
değişkenin bağımsız değişkenin yüzde kaçını açıkladığı bilgisini veriyordu. Yani kısaca modelin
performansını bize gösteriyordu. Ancak birden fazla bağımsız değişken durumuda adjust R2 nin
dikkate alınması gerektiğini de öğrenmiştik. Kısaca R2 başarı ölçme kriteridir. Bizim amacımız modeli
oluştururken Epsilon hata değerini minimize etmektir.
Peki R2 dışında Regresyon model başarısını fösteren kriterler nelerdir?
1) Mean squared error (MSE)(ortalama hata kareler yöntemi)
Hataların karelerini toplayıp hata sayısına böleriz.

MSE=1/n
Bunu yapma amacımız büyük hata değerlerini daha kolay yakalayabilmek. Yani aykırı hataları.
2) Root Mean Squared Error(RMSE)(Ortalama hata kareler kökü)

3) Mean Absolute Error(MAE) (Ortalama Mutlak Hata)


Hataların mutlak değerinin ortalaması alınır.

Hata Matrisi(Confusion Matrix)


Sınıflama modelinin başarı performansının nasıl ölçülebildiğine bakacağız. Burada tespit edilmek
istenen parametreye 1 diğerine 0 değeri verilir.

Performans ölçüleri,

Doğruluk(Accurasy)
Modelin yüzde kaç doğru olduğunu verir
D=(TP+TN)/Toplam Gözlem Sayısı

1) Hata Oranı
H=(FP+FN)/Toplam Gözlem Sayısı

3)Kesinlik(Precision)

K=TP/(TP+FP)

2) Duyarlılık(Recall)

K=TP/(TP+FN)
F1 SKOR:
Kesinlik ve duyarlılığı tek metrik olarak oluşturur. Kesinlik ve duyarlılığın harmonik ortalamalarını
alır.

ROC CURVE
DOĞRUSAL REGRESYON MODELLERİ
BASİT DOĞRUSAL REGRESYON

ÇOKLU DOĞRUSAL REGRESYON

You might also like