5 2 Hafta

YAPAY ZEKA
TEKNOLOJİLERİ
Dr. Öğr. Üyesi Fatma AKALIN
YAPAY ZEKA TEKNOLOJİLERİ
L I N
K A
a A
Yapay zeka teknolojileri farklı teknolojilerin doğmasına neden olmuştur.
at m
Çünkü günlük olaylar ve problemler sürekli değişmektedir. Farklı
lokasyonlarda olayların farklı yönleri değerlendirilebilmektedir. Ya da bir
si F
olay, değişik insanlar tarafından değişik şekillerde
ye
çözümlenebilmektedir. Bu nedenle farklı teknolojiler doğmuştur.
. Ü
Bu derste en yaygın yapay zeka teknolojilerine değinilecektir.
r
Ö ğ
D r.
1-Makine Öğrenmesi ve Öğrenme Türleri
L I N
K A
Yapay zekanın bir dalı olan Makine Öğrenmesi bilgisayarların
programlanmadan çalışmasını sağlayan bir alandır.
a A
at m
si F
ye
r. Ü
Ö ğ
D r.
[1] D.A. Hashimato et.all., “The Role of Artificial Intelligence in Surgery”, Advances in Surgery, 2020, pp. 89-101, p. 90 and 94
N
Makine öğrenmesi, makinenin bir olay ile ilgili bilgileri ve tecrübeleri
L I
öğrenerek gelecekte oluşacak benzeri olaylar hakkında kararlar
A
K
verebilmesi ve çözümler üretebilmesini sağlayan bir çerçevedir.
a A
Bu doğrultuda sistemlerdeki veri kalıplarının tanımlanması, kararlar
at m
alınması veya gelecekteki sonuçların tahmin edilmesi eylemlerini makine
öğrenmesi teknolojisi vasıtasıyla gerçeklenir.
si F
Aslında temel hedef makine öğrenmesi yaklaşımı ile bilgisayarlara ya da
ye
makinelere insanlar gibi düşünebilme yetisi kazandırmaktır. Günümüzde
. Ü
internet hızlarının artması, depolama teknolojisindeki gelişmeler ve
r
ğ
optimize edilen bilgi işlem teknolojisi sayesinde makine öğrenmesinin
Ö
r.
hayatın bir çok alanda ayrılmaz bir parça olarak nitelendirildiği aşikardır.
D
Makine öğrenmesi, Denetimli Öğrenme ve Denetimsiz Öğrenme adı
altında iki temel alt kategoriye sahiptir.
1-Denetimli(Supervised) Öğrenme
L I N
K A
a A
Denetimli öğrenme, öğrenen sistemin bir öğretmen yardımı ile olayı
öğrenebilmesidir. Bu doğrultuda öğretmen, sisteme öğrenilmesi istenen
t m
olaylar ile ilgili örnekler(girdi/çıktı veri seti) sunar. Yani her örnek için
a
si F
hem girdiler hem de o girdilerin karşılığında oluşturulması gereken
çıktılar sisteme gönderilir. Sistemden beklenen, girdiler ve çıktılar
ye
arasındaki ilişkiler öğrenildikten sonra eğitilen modelin benzer
r. Ü
örneklerin çıktısını maksimum doğruluk ile eşleştirmesidir.
Ö ğ
Denetimli öğrenme, sınıflandırma ve regresyon olarak iki ayrı alan
D r. kapsamında değerlendirilmektedir.
Sınıflandırma
L I N
K A
a A
Girdilerden ve çıktılardan oluşan eğitim veri kümesinin hedef amaç
doğrultusunda eğitildikten sonra oluşan bu eğitilmiş modelin yeni bir
t m
örnek kapsamında hangi kategori altında yer alacağının tahmin edilmesi
a
F
sınıflandırma olarak nitelendirilmektedir. Örneğin,
si
e
-Mail kutuma gelen yeni ileti spam mı değil mi?
y
r. Ü
-Klinik veriler vasıtasıyla analizi yapılan kişi şeker hastası mı değil mi?
ğ
-Mevcut veriler doğrultusunda gerçekleştirin eylem bir siber saldırı mı
Ö
r.
değil mi?
D
-Mail ve mesaj gönderimi hedef ürünün alınmasında avantaj mı yoksa
dezavantaj mı içerir?
Regresyon
L I N
K A
a
kullanılan bir yaklaşımdır.A
Bir dizi özelliğe bağlı olarak sürekli bir çıktının tahmin edilmesi için
at m
-Satılık/Kiralık ev fiyatlarının çevrenin durumunu etki eden bir dizi
si F
özelliğin dikkate alınması sureti ile belirlenmesi
ye
-Şirketin geçmiş satış verilerinden faydalanarak şirketin gelecek ayki
r. Ü satış gelirini tahmin etmek
ğ
-Araba sektöründe artan zam oranlarından faydalanarak 3 ay sonraki
Ö
r.
zam oranını tahmin etmek
D
Denetimsiz(Unsupervised) Öğrenme
L I N
A
Bu tür stratejide sistemin öğrenmesine yardımcı olan herhangi bir
K
A
öğretmen yoktur. Sisteme sadece girdi değerleri gösterilir. Örneklerdeki
a
parametreler arasındaki ilişkileri sistemin kendi kendisine öğrenmesi
m
Fat
beklenir.
si
Ek olarak bu tekniğinin amacı, veri noktaları arasındaki benzerlikleri
e
bulmak ve benzer veri noktalarını birlikte gruplamaktır. Böylece farklı
y
Ü
grupların niteliklerine ilişkin bir profil çıkarılır ve farklı gruplar altında
r.
yatan kalıplar hakkında bir kümeleme sağlanır.
ğ
r. Ö
Tehlikeli bölgeleri belirlemek için geçmişte yaşanan sel,deprem ya da
yangın faaliyetlerine ilişkin verilerin bölgeler ile ilişkilendirilmek sureti
D
ile kümelenmesi denetimsiz öğrenmeye örnek olarak verilebilir.
Destekleyici(Reinforcement) Öğrenme
L I N
K A
a A
Bu tür stratejide öğrenen sisteme bir öğretmen yardımcı olur. Fakat
öğretmen her girdi seti için olması gereken çıktı setini sisteme
t m
göstermek yerine sistemin kendisine gösterilen girdilere karşılık çıktısını
a
si F
üretmesini bekler ve üretilen çıktının doğru veya yanlış olduğunu
gösteren bir sinyal üretir. Sistem öğretmenden gelen bu sinyali dikkate
ye
alarak öğrenme sürecini devam ettirir.
r. Ü
Robotik oyun programlama ya da fabrika otomasyonu gibi alanlarda
Ö ğ sıklıkla tercih edilen bir yaklaşımdır.
D r.
Karma Stratejiler
L I N
K A
a A
Supervised, Unsupervised ve Reinforcement stratejilerinin birkaçının
t m
birlikte kullanılması ile gerçekleştirilen öğrenmeler,
a
karma stratejiler
s i F
olarak isimlendirilmektedir. Radyal tabanlı sinir ağları bu alan için bir
e
örnektir.
Ü y
ğ r.
r. Ö
D
L I N
K A
a A
Makine öğrenmesi projelerinde içeriği takip edebileceğimiz birden çok
metodoloji vardır. Bu metodolojiler, projeye nereden başlanır, nasıl
t m
başlanır, nerede biter, hangi aşamalar izlenir sorularına cevap verir. Bu
a
si F
derste CRISP-DM(Cross-industry standard process for data mining)
metodolojisi irdelenecektir.
ye
r. Ü
Ö ğ
D r.
CRISP-DM yöntemi, problemin tanınması
ve ne yapılmak istendiğinin anlaşılması
L I N
ile başlar. Endüstride ve herhangi bir
K A
problem için inşa edeceğiniz
a A
projelerinizde aktif olarak
at m
si F
kullanabilirsiniz. Böylece size yol
gösterecek bir hiyerarşi ile bir problemin
ye
ve o probleme ilişkin verinin var olmasını
r. Ü
kabul ederek makine öğrenmesi
Ö ğ
çalışmalarına başlayabilirsiniz.
D r. https://en.wikipedia.org/wiki/Cross-
industry_standard_process_for_data_
mining
MAKİNE ÖĞRENİMİ PROJESİNİN
TEMEL ADIMLARI IN A L
A K
m a
Makine öğrenmesi bilgisayarların ve verinin olduğu her alanda
at
uygulanabilen bir teknolojidir. Bu nedenle bir makine öğrenmesi
F
si
projesinde ilk adım Veri Toplama ya da Veri Tedarik Etme’dir.
ye
r. Ü
Ö ğ
D r.
ADIM 1: Veri Toplama
L I N
K A
a A
Veriler, biçimlendirilmiş bilgi türleridir. Veri toplama; araştırma problemlerine
cevap bulmak, soruları cevaplamak, sonuçları değerlendirmek ve olasılıkları
t m
tahmin etmek için temel bir adımdır. Veri toplama sürecinde bir analist
a
F
1- Araştırmanın amacı nedir?
si
e
2-Ne tip veriler toplanılacaktır?
y
r. Ü
Sorularına cevap vermelidir.
ğ
Çünkü veri tipleri birçok aşamada gerekli analizlerin sağlanması için önemli
Ö
r.
bir ayıraçtır. Doğru analiz seçimi için veri tiplerini öğrenmemiz önemlidir.
D
Bununla birlikte farklı modeller belirli tipte veriler ile daha başarılı bir çıkarım
süreci sunduğu için bu ayrımı yapmamız gerekir..
Kategorik veriler: Sınırlı sayıda kategori
L I N
A
ya da farklı grup içeren değişkenlerdir.
Cinsiyet,Bir ürünün kalite sınıfı örnektir.
A K
Ordinal veriler: Bir sıraya sokulabilen ve
m a
kurulabilen fakat ölçülemeyen
Fat
aralarında büyüktür/küçültür ilişkisi
ye si
değişkenlerdir. Plaka numaraları örnektir.
r. Ü
Nominal veriler: Hem ölçülemeyen hem
de sıralanamayan değişken tipleridir.
Ö ğ
Araba markası bu veri türlerine bir
https://bilkav.com/
D r. örnektir.
Sayısal veriler, herhangi iki değişken
arasında sonsuz sayıda değere sahip
L I N
olan değişkenlerdir. Maaş, yaş gibi
K A
değişkenler örnektir.
a A
Oransal veriler, birbirine göre
oranlanabilen, çarpılıp bölünebilen
at m
si F
verilerdir. Örneğin yaş oransal bir
ye
değerdir. (Annesinin yaşı çocuğunun
r. Ü
yaşının 0.75 katı diyebilirim)
ğ
Aralık veriler, bir aralığa tekabül eden
Ö
r.
değişkenlerdir. Sıcaklı örnektir. Çünkü https://bilkav.com/
Dsıcaklığın bir aralığı vardır.

Adım 2: Veri Hazırlama
L I N
K A
a A
Veri hazırlama, işlenmeden ve analiz edilmeden önce ham
verilerin temizlenmesi ve dönüştürülmesi sürecidir. Genellikle
at m
verilerin yeniden biçimlendirilmesi, verilerde düzeltmelerin
si F
yapılması ve veri zenginleştirmek için veri kümelerinin
ye
birleştirilmesini içerir.
r. Ü
Veri hazırlama, veri uzmanları ve o konu hakkında uzman
Ö ğ
kişiler ile geliştirilen bir girişimdir. Yapılan araştırmalar, yapay
D r.
zeka modeli oluşturulurken işin yaklaşık %60-%70’i veriyi ön
işleme aşaması ile geçtiğini göstermektedir.
3 TEMEL BAŞLIK ALTINDA İNCELENEN
VERİ HAZIRLAMA IN A L
A K
m a
1-Keşifçi Veri Analizi
Fat
2-Veri Ön İşleme
y e si
3-Veri Bölme
r. Ü
Ö ğ
Bu başlıklar çerçevesinde Seaborn.ipynb, Matplotlib.ipynb ve
D r.
EDA_titanic.ipynb Python dosyalarında bu hususta detaylı açıklamalar
yapılmıştır.
1-Exploratory Data Analysis-EDA (Keşifçi
Veri Analizi) IN A L
A K
İstatistiksel yöntemler ve görselleştirme yöntemleri kullanarak verinin
m a
temel özelliklerini anlamak için analiz etmek demektir. Keşifçi veri
F a t
analizi ile birlikte veri ön işleme adımı(veri temizleme
seçimi) ve veri bölme işlemleri gerçekleştirilerek
ve öznitelik
verinin modele uygun
s i
bir girdi olarak verilmesi
e
sağlanır.
Ü y
Çünkü gerçek dünya senaryolarından çıkan verilerde her zaman
r.
gürültülü ve eksik değerler
bilimcilerinin birğ
vardır. Bu problemlerin çözümü için veri
r . Ö projeye harcadıkları zamanın %60-70’i Veri Hazırlama

ve Yönetme’ye harcanır.
D
2-Veri Ön İşleme
L I N
K A
a A
Ham verilerin daha anlaşılır, kullanışlı ve verimli bir formata
dönüştürülmesi için gerçekleştirilen aşamadır. Veri Ön İşleme
t m
kapsamında Veri Temizleme ve Öznitelik Seçimi önemli iki işlemdir.
a
si F
ye
r. Ü
Ö ğ
D r.
2.1 Veri Temizleme
I N
Veri kümesindeki eksik verilerin tespit edilmesi ve ardından tespit
L
K A
edilen bu eksik verilerin tedavi edilmesi sürecini içerir. Aynı zamanda
aykırı değerlerin tespiti ve tedavisi aşamalarıda bu süreç kapsamında
a A
değerlendirilmesi gereken önemli hususlardır. Detaylı olarak
t m
incelenecek bu kısımda veri kümesinin eğitiminde bizi başarısızlığa
a
si F
sürükleyecek mevcut durumların(yanlı girdiler, eksik girdiler, dummy
variable, dublicate veriler…) ortadan kaldırılması ve hata çıkması(eksik
ye
veri.. ) ihtimallerine karşın hazırlık yapılır
r. Ü 2.2 Öznitelik Seçimi
Ö ğ
Veri kümesindeki önemli değişkenlerin seçilmesi sonucunda
D r.
yorumlanabilir ve genelleştirilebilir bir makine öğrenmesi modeli
oluşturmak amacıyla detaylı olarak incelenecek bir aşamadır.
3- Veriyi Bölme
L I N
K A
a A
Veri Bölme, ilgili veri kümesinin Eğitim ve Test veri kümesi olarak iki ayrı
at m
parçaya bölünmesi işlemidir.
si F
Eğitim veri kümesi, makine öğrenmesi modelini eğitmek için
kullanılırken test veri kümesi, eğitilen modelin performansını ölçmek
ye için kullanılır.
r. Ü
Genellikle ham veri kümesinin %70’i eğitim veri seti ve %30’u test veri
Ö ğ seti olarak ayrılır.
D r.
DETAYLI İNCELEME: VERİ
HAZIRLAMA KAPSAMINDA VERİ
TEMİZLEME L I N
K A
a A
Veri temizleme, gerçek dünya senaryolarında ortaya çıkan gürültülü ve
t m
eksik veriler nedeniyle ortaya çıkabilme ihtimali olan engelleri bertaraf
a
F
etmek amacıyla gerçekleştirilen bir aşamadır.
si
y e
. Ü
Peki veri temizleme aşamasında karşımıza nasıl engeller çıkabilir?
r
Ö ğ Veri temizleme niçin gereklidir?
D r .
L I N
Bu soru basitçe şu şekilde açıklanabilir.
K A
A
Algoritmalar, verilerden öğrenir ve verilerin sahip oldukları değerler
a
m
üzerinden çalışabilir. Verileriniz kaliteli ise projenizin başarılı olma
at
ihtimali yüksektir.
F
ye si
Özellikle uygun bir şekilde toplanan verilerden temel eğilimlerin ve
tutarsızlıkların tespit edilmesi için bir değerlendirme gereklidir.
r. Ü
Ö ğ
D r.
Veri Kalitesinin Değerlendirilmesinin Ana
Hedefleri IN A L
A K
a
1-Verilere Genel Perspektiften İncelemek
m
Fat
Veri biçimlerini ve verilerin depolandığı genel yapıyı anlamalıyız. Aynı
zamanda ortalama, medyan, standart sapma ve standart nicelikler gibi
e si
verilere ilişkin özellikleri bulmalıyız. Böylece verilerdeki düzensizliklerin
y
belirlenmesi ve çözümü kolaylaşacaktır.
r. Ü2- Eksik Verileri Belirleyin
Ö ğ
r.
Eksik veriler, gerçek dünya problemlerinin aşılamaz bir gerçeğidir. Veri
D modellerini bozma ihtimaline sahiptir.

L I N
3-Aykırı Değerleri Belirleyin
K A
a A
Bazı veri noktaları veri modellerinin dışında kaldığı için bu aykırı
t m
değerler ya da anormallikler tespit edilmelidir.
a
si F
4-Tutarsızlıkları Kaldırın
ye
Eksik değerler gibi gerçek dünyadaki veriler üzerinde de yanlış yazımlar,
r. Ü
yanlış doldurulmuş özellikler ya da yinelenen veriler olabilir. Bu ve
ğ
benzeri durumlar tutarsızlıklar barındırmaktadır.
r. Ö
D
ÇÖZÜM YOLLARI
L I N
K A
1. Eksik değer Problemi
a A
Eksik değerler, gerçek dünya verileri üzerinde fiziksel ve manuel
sınırlamalar oluşturmaktadır.
at m
si F
Mevcut verilerden en iyi şekilde yararlanmak için eksik değerleri ele
ye
almamız gerekir. Şimdi denenmiş ve test edilmiş bazı çözüm yolları
sunalım.
r. Ü
Ö ğ
D r.
1.1. Eksik değerleri olan Örneklerin Silinmesi
L I N
Ciddi veri kaybına neden olduğu için örnek sayısı yüksek veri kümeleri
üzerinde tercih edilebilen bir yaklaşımdır.
K A
a A
1.2. Eksik değerleri Doldurmak için Merkezi Eğilimin Kullanılması
t m
Veri dağılımına bağlı olarak eksik değerleri doldurmak için ortalama ya
a
si F
da medyan istatistiki yöntemleri kullanılabilir. Bununla birlikte veriler
çarpık olduğunda eksik değerleri değiştirmek için mod değerleri
ye
kullanmak tercih edilebilen bir yaklaşımdır.
r. Ü
1.3. Eksik değerleri Tahmin Etmek için Model Oluşturma
Ö ğ
r.
k-En Yakın Komşu algoritması ile eksik değerleri doldurabiliriz. Bu
D
doğrultuda eksik olan değerler için veri kümesinde kendine benzeyen
en yakın k tane noktaya bakarak doldurma eylemi gerçekleştirilebilir.
2- Aykırı Değer Tespiti
L I N
K A
a A
Aykırı değerler, verilerde gözlemlenen baskın örüntüye uymayan veri
noktalarıdır. Tahminlerde aksamalara neden olabilir. Tespit edilen bu
at m
aykırı değerlerin tedavisi için sunulan öneriler modelin daha doğru ve
si
düzgün eğitilmesini sağlayacaktır.
F
ye
2.1. Çeyrekler Arası Aralık (Interquartile Range)
r. Ü
Aykırı değer tespiti için veri çeyreklerine dayanan bir yaklaşımdır.
ğ
Algoritmanın genel çerçevesi aşağıdaki gibidir.
Ö
D r.
-Verilerinizin 25. ve 75. çeyreğini hesaplamanız gerekiyor.
L I N
-Çeyrekler arası aralığı (IQR) 75. çeyrekten 25. çeyreği çıkararak
hesaplamanız gerekiyor.
K A
a A
-Ardından 25. ve 75. çeyrekleri kullanarak verilerinizin üst ve alt
t m
sınırlarını (maksimum ve minimum değerler) hesaplamanız gerekir.
a
si F
-Üst sınırı hesaplamak için IQR ve 1.5’i katlamanız ve ardından
e
sonucu 75. çeyrek ile toplamanız gerek
y
r. Ü
-Alt sınırı hesaplamak için IQR ve 1.5’i çarpmanız ve ardından
ğ
bunu 25. çeyrekten çıkarmanız gerek.
r. Ö
Alt sınırdan küçük veya üst sınırdan fazla olan numuneler aykırı değer
D
olarak kabul edilmektedir.
DETAYLI İNCELEME: VERİ HAZIRLAMA
KAPSAMINDA ÖZNİTELİK SEÇİMİ
L I N
K A
a A
Başarılı bir model geliştirmek modelde çok fazla özelliğin bulunması
t m
durumunda karmaşıklığı arttırma ya da modelin
ezberleme yapma ihtimallerine nedena
öğrenme yerine
F olabilir. Ek olarak geniş bir dizi
özellik üzerinden geleceğe yönelikitahminleri
s
nedenle optimale
sürdürmek zor olabilir. Bu
Ü y özellikleri seçmek önemlidir.
r .
Özellik seçimine ilişkin
ğ
avantajlardan bazıları aşağıda listelenmiştir.
r . Ö
D
L I N
-Daha az sayıda özelliğe sahip modeller daha iyi açıklama kabiliyetine
sahiptir.
K A
A
-Daha az özellik, gelişmiş genellemeye neden olur. Böylece modelin
a
at m
ezberlemesi azalır. Çünkü modelin genel örüntüyü yakalaması sağlandığı
için belirli noktalarda takılma eylemi gerçekleşmez.
si F
-Daha az özelliğe sahip modeller hataya daha az eğilimlidir.
ye
Ü
-Daha az özelliğe sahip modellerin eğitim süresi önemli ölçüde daha
ğ r. düşüktür.
Ö
-Azaltılmış özelliklere sahip modelleri uygulamak daha kolaydır.
r.
D
YÖNTEMLER
L I N
K A
a
geliştirilmiştir. A
Veri kümesindeki en uygun özelliklerin seçilmesi için çeşitli yöntemler
at
1-FİLTER YÖNTEMLERİm
si F
Özniteliğin önemini hesaplamak için öznitelik ile hedef değişken
ye
arasındaki ilişkiyi dikkate alan yöntemlerdir. İşlemler sonucunda veri
r. Ü
kümesinin filtreler ve ilgili özellikleri seçerek bir alt küme oluşturur.
ğ
Pearson korelasyon, ANOVA ve Ki-Kare yaklaşımları en sık kullanılan
Ö
r.
yöntemlerdir.
D
1.1. Pearson Korelasyonu
L I N
İki sürekli değişken arasında herhangi bir ilişki olup olmadığını kontrol
K A
etmek için gerçekleştirilen bir işlemdir. Testin sonucu, iki değişken
a A
arasındaki ilişkinin gücünü ve yönünü belirtir. Analiz sonucu -1 ile +1
arasında bir değer alır. Değerin işareti ilişkinin yönünü gösterirken
büyüklüğü aradaki gücü gösterir.
at m
1.2. Varyans Analizi (ANOVA)
si F
ye
Sürekli ve kategorik değişken arasında herhangi bir ilişki olup olmadığının
. Ü
kontrol etmek için yapılır. Bu test, kategorik değişkendeki grupların
r
ğ
ortalamasının istatistiksel olarak birbirinden farklı olup olmadığını söyler.
Ö
r.
1.3. Ki-Kare Testi
D
İki kategorik değişken arasında istatistiksel anlamlılık düzeyinde ilişki olup
olmadığını ölçümleyen bir yaklaşımdır.
2-SARMAL YÖNTEMLER
L I N
Veri kümesinde bulunan öznitelikleri çeşitli gruplara ayırarak en başarılı sonuç
K A
veren öznitelik grubunu bulmaya çalışan yöntemlerdir. İki tip arama yöntemi
vardır.
a A
m
2.1. İleriye Doğru Seçim
at
Modelde hiçbir öznitelik olmadan başlanılan yinelemeli bir yöntemdir. Her
F
si
yinelemede, modelimizi en iyi geliştiren özniteliği eklemeye devam ederiz. Bu
e
durum eklenen yeni özniteliğin modelin performansını iyileştirmediği an’a
y
Ü
kadar.
ğ r.
2.2. Geriye Doğru Eleme
r. Ö
Tüm öznitelikler başlar ve modelin performansını arttıran her yinelemede en az
D
önemli özelliği kaldırır. Özelliklerin kaldırılmasında herhangi bir gelişme
görülmeyene kadar bu süreç tekrarlanır.
Bir yöntem daha eklemek istese idik ne eklerdik?
L I N
3. Gömülü Yöntemler
K A
A
Gömülü yöntemler ile özellik seçimi, makine öğrenimi modellerinin
a
at m
sağladığı iç görüler ile gerçekleştirilebilir. Yani, makine öğrenmesi
algoritması, eğitim sırasında öğrenme işlevini gerçekleştirirken aynı
si F
zamanda model tarafından öznitelik seçimi yapılır. Bu nedenle gömülü
e
yöntemler olarak adlandırılırlar.
y
r. Ü
Ö ğ
D r.
BİLGİ
L I N
K A
Sarmal yöntemler, filtreleme yöntemine göre zaman ve maliyet
açısından dezavantajlıdır.
a A
at m
Gömülü yöntemler, sarmal yöntemler gibi özniteliklerin etkileşimlerine
F
dikkat eder.
ye si
Gömülü yöntemler, filtre yöntemlerinden daha doğru sonuçlar elde
edebilir.
r. Ü
Gömülü yöntemler, modelin öğrenme yerine ezber yapmasına çok daha
Ö ğ az eğilimlidir.
D r.
DUMMY VARIABLE/ONE HOT
ENCODING IN A L
A K
m a
Fat
ye si
r. Ü
Ö ğ
D r. https://bilkav.com/
TİTANİC PROJESİ
L I N
K A
a A
Titanic gemisi, tarihin en kötü kazalarından biridir. 15 Nisan 1912'de
Titanic ilk seferi sırasında bir buzdağıyla çarpıştıktan sonra battı ve
t m
2224 yolcu ve mürettebattan 1502'sini öldü. Bu sansasyonel trajedi
a
F
uluslararası toplumu şok etti ve gemiler için daha iyi güvenlik
si
e
düzenlemelerine yol açtı. Hayatta kalmak için bir miktar şans unsuru
y
olsa da, bazı insan gruplarının hayatta kalma olasılığı diğerlerinden daha
Ü
ğ r. yüksekmiş gibi görünüyor.
r. Ö
Biz ise bu gemide yer alanlar kişilerin bilgilerini içeren veri setini
kullanarak kimlerin hayatta kaldığını tahmin etmeye çalışan bir makine
D öğrenmesi modeli kuracağız.
TİTANİC PROJESİ
L I N
K A
a A
Titanic gemisi, tarihin en kötü kazalarından biridir. 15 Nisan 1912'de
Titanic ilk seferi sırasında bir buzdağıyla çarpıştıktan sonra battı ve
t m
2224 yolcu ve mürettebattan 1502'sini öldü. Bu sansasyonel trajedi
a
F
uluslararası toplumu şok etti ve gemiler için daha iyi güvenlik
si
e
düzenlemelerine yol açtı. Hayatta kalmak için bir miktar şans unsuru
y
olsa da, bazı insan gruplarının hayatta kalma olasılığı diğerlerinden daha
Ü
ğ r. yüksekmiş gibi görünüyor.
r. Ö
Biz ise bu gemide yer alanlar kişilerin bilgilerini içeren veri setini
kullanarak kimlerin hayatta kaldığını tahmin etmeye çalışan bir makine
D öğrenmesi modeli kuracağız.
Adım 3:Model Seçme ve Değerlendirme
L I N
KA
a A
m
Bu adım diğer adımlara göre nispeten daha az uğraştıran ve emek
a t
isteyen bir kısımdır. Çünkü elimizde yoğun
F
uğraşlar sonucunda veri
probleme uygun model s i

hazırlama bölümünden geçmiş bir veri kümesi var. Bu adım ile
e gerektiğini tartışacağız…
seçme ve seçilen modelin nasıl
Ü y
değerlendirilmesi
ğ r.
r . Ö
D
Model seçimi probleme özgü olarak gerçekleştirilen bir aşamadır. Hangi
L I N
çatı altında yer alacağı veri toplama aşamasında kabataslak belirlenir.
Örneğin,
K A
A
Bir tahmin yapacaksanız regresyon yaklaşımını
a
t m
Bir kategori tespiti yapacaksanız sınıflandırma yaklaşımını
a
F
Etiketsiz veriler arasında bir çıkarım sağlamak isterseniz kümeleme
si
e
yaklaşımını
Ü y kullanmalısınız.
ğ r.
Ana çatının bu şekilde seçilmesinin ardından hedef çatı altında yer alan
r. Ö
her bir algoritmanın avantajlarını ve dezavantajlarını bilmek suretiyle
D
deneme yanılma sureti ile en uygun algoritmaya karar verebilirsiniz.
Modelin Veri Kümesine Uygunluğunu Nasıl
Tespit Ederiz? IN A L
A K
m a
Fat
Model performansını ölçmek için model değerlendirme
metriklerini kullanmalıyız. Bu metrikler makine
e si
öğrenmesi modelleri öğrenildikten hemen sonra
y
r. Ü
açıklanacaktır.
Ö ğ
D r.
Adım 4:Modeli Yeniden Eğitme
L I N
K A
a A
Hizmete sunulan bir modelin geliştirme safhasında
değerlendirme sırasında gördüğümüz hata oranlarını
at m
beklememiz bir yanılgıdır. Çünkü trendler zaman ile değişir ve
si F
veri kümesindeki bazı özelliklerde zaman zaman değişme
e
olasılığı barındırır. Bu nedenle modellerimizin uyum sağlaması
y
r. Üönemli bir gerekliliktir.
ğ
Yeniden eğitimin sıklığı problemden probleme değişiklik gösterse
Ö
D r.
de makine öğrenmesi mühendisleri yeni veriler geldikçe
modelleri periyodik olarak yeniden eğiten basit bir strateji
kullanmalıdır.
Dünya çapında görsel veri işleme, ses ve konuşma işleme ya da sosyal ağ analizi gibi çeşitli alanlarda kullanılan farklı Deep Learning uygulamaları
vardır. Bu uygulamaların her ne kadar kendi hedefleri var olsada temel olarak Şekil 18’de gösterilen pipeline’ı kullanırlar.
Figure 18. The Mask R-CNN framework for instance segmentation[6]
[6] L. Alzubaidi et al., Review of deep learning: concepts, CNN architectures, challenges, applications, future directions, vol. 8, no. 1. Springer International
Publishing, 2021.
KAYNAKÇA
L I N
K A
a A
https://github.com/dataiteam/7-ADIMLIK-YAPAY-ZEKA-YOLCULUGU/blo
b/master/Python%20Programming%20for%20Artificial%20Intelligence
%20(1)/6_matplotlib.py
at m
F
https://seaborn.pydata.org/examples/index.html
si
e
https://seaborn.pydata.org/index.html
y
r. Ü
Python ile Uçtan Uca Veri Bilimi, Engin Bozaba, dikey eksen
ğ
yayınları,1.Baskı:Ocak 2022
Ö
r.
https://github.com/muhendis/pykasif/blob/master/titanic.ipynb
D
https://bilkav.com/makine-ogrenmesi-egitimi/

5 2 Hafta

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

5 2 Hafta

Uploaded by

Copyright:

Available Formats

YAPAY ZEKA

r. Ü satış gelirini tahmin etmek

Ö ğ sıklıkla tercih edilen bir yaklaşımdır.

Dsıcaklığın bir aralığı vardır.

r . Ö projeye harcadıkları zamanın %60-70’i Veri Hazırlama

r. Ü 2.2 Öznitelik Seçimi

Ö ğ seti olarak ayrılır.

r. Ü2- Eksik Verileri Belirleyin

D modellerini bozma ihtimaline sahiptir.

Ü y özellikleri seçmek önemlidir.

probleme uygun model s i

Figure 18. The Mask R-CNN framework for instance segmentation[6]

You might also like