A Survey On Semi-Supervised Learning - En.tr

Makine Öğrenimi (2020) 109: 373–440 https://
doi.org/10.1007/s10994-019-05855-6
Yarı denetimli öğrenim üzerine bir anket
Jesper E. van Engelen 1 · Holger H. Hoos1,2
Geliş: 3 Aralık 2018 / Revize: 20 Eylül 2019 / Kabul: 29 Eylül 2019 / Çevrimiçi yayın tarihi:
15 Kasım 2019
© Yazar (lar) 2019
Öz
Yarı denetimli öğrenme, belirli öğrenme görevlerini gerçekleştirmek için etiketli ve
etiketsiz verilerin kullanılmasıyla ilgili makine öğreniminin dalıdır. Denetimli ve
denetimsiz öğrenim arasında kavramsal olarak konumlandırılmış olan bu eğitim, tipik
olarak daha küçük etiketli veri kümeleriyle birlikte birçok kullanım durumunda bulunan
büyük miktardaki etiketsiz verilerin kullanılmasına izin verir. Son yıllarda, bu alandaki
araştırmalar, makine öğreniminde gözlemlenen genel eğilimleri takip etti ve büyük ilgi,
sinir ağı tabanlı modellere ve üretken öğrenmeye yöneldi. Konuyla ilgili literatür de hacim
ve kapsam olarak genişledi ve şimdi geniş bir teori, algoritma ve uygulama yelpazesini
kapsıyor. Bununla birlikte, bu bilgiyi toplamak ve düzenlemek için yeni anketler
bulunmamakta, bu da araştırmacıların ve mühendislerin bu bilgileri kullanma becerilerini
engellemektedir. Bu boşluğu doldurmak, Daha önceki çalışmaların yanı sıra daha yeni
gelişmeleri de kapsayan yarı denetimli öğrenme yöntemlerine güncel bir genel bakış
sunuyoruz. Öncelikle, yarı denetimli öğrenim araştırmalarının büyük çoğunluğunun
gerçekleştiği yarı denetimli sınıflandırmaya odaklanıyoruz. Anketimiz, sahada yeni olan
araştırmacılar ve uygulayıcıların yanı sıra daha ileri düzey okuyuculara, son yirmi yılda
geliştirilen ana yaklaşımlar ve algoritmalar hakkında sağlam bir anlayışla, en önemli ve
şu anda ilgili çalışmalara vurgu yapmayı amaçlamaktadır. Ayrıca, etiketlenmemiş verileri
eğitim sürecine dahil etmek için farklı kavramsal ve metodolojik yaklaşımlara ışık tutan
yarı denetimli sınıflandırma algoritmalarının yeni bir taksonomisi öneriyoruz. Son olarak,
Anahtar kelimeler Yarı denetimli öğrenme · Makine öğrenme · Sınıflandırma
Editör: Tom Fawcett.
B Jesper E. van Engelen jesper.van.engelen@gmail.com
Holger H. Hoos
hh@liacs.nl
1 Leiden İleri Bilgisayar Bilimleri Enstitüsü, Leiden Üniversitesi, Leiden, Hollanda Bilgisayar Bilimleri
2 Bölümü, British Columbia Üniversitesi, Vancouver, BC, Kanada
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
374 Makine Öğrenimi (2020) 109: 373–440
1. Giriş
Makine öğreniminde, geleneksel olarak iki ana görev arasında bir ayrım yapılmıştır:
denetimli ve denetimsiz öğrenme (Bishop 2006). İçindedenetimli öğrenme, biri sunuldu bazı
girdilerden oluşan bir dizi veri noktası ile x ve karşılık gelen bir çıktı değeri y. The
O halde amaç, daha önce görülmemiş girdiler için çıktı değerini tahmin edebilen bir sınıflandırıcı veya
regresör oluşturmaktır. İçindedenetimsiz öğrenme, diğer yandan, belirli bir çıktı değeri
sağlanmamıştır. Bunun yerine, girdilerden bazı temel yapıları çıkarmaya çalışır. Örneğin, denetimsiz
kümelemede amaç, verilen girdilerden (örneğin, gerçek sayıların vektörleri) benzer girdilerin aynı
gruba eşleneceği şekilde gruplara bir eşleştirme sonucunu çıkarmaktır.
Yarı denetimli öğrenme bu iki görevi birleştirmeyi amaçlayan bir makine
öğrenimi dalıdır (Chapelle et al. 2006b; Zhu2008). Tipik olarak, yarı denetimli
öğrenme algoritmaları, genellikle diğeriyle ilişkili bilgileri kullanarak bu iki
görevden birinde performansı iyileştirmeye çalışır. Örneğin, bir sınıflandırma
problemini ele alırken, sınıflandırma sürecine yardımcı olmak için etiketin
bilinmediği ek veri noktaları kullanılabilir. Kümeleme yöntemlerinde ise öğrenme
prosedürü, belirli veri noktalarının aynı sınıfa ait olduğu bilgisinden faydalanabilir.
Genel olarak makine öğreniminde olduğu gibi, yarı denetimli öğrenim üzerine
yapılan araştırmaların büyük çoğunluğu sınıflandırma üzerine odaklanmıştır. Yarı
denetimli sınıflandırma yöntemleri, özellikle etiketlenmiş verilerin kıt olduğu
senaryolarla ilgilidir. Bu gibi durumlarda, güvenilir bir denetimli sınıflayıcı
oluşturmak zor olabilir. Bu durum, bilgisayar destekli teşhis, ilaç keşfi ve konuşma
parçası etiketleme gibi etiketli verilerin pahalı veya elde edilmesinin zor olduğu
uygulama alanlarında ortaya çıkar. Yeterli etiketlenmemiş veri mevcutsa ve verilerin
dağıtımı ile ilgili belirli varsayımlar altında, etiketsiz veriler daha iyi bir sınıflandırıcı
oluşturulmasına yardımcı olabilir. Uygulamada, yarı denetimli öğrenme yöntemleri,
etiketlenmiş verilerin önemli bir eksikliğinin olmadığı senaryolara da uygulanmıştır:
Her biri kendi özelliklerine, avantajlarına ve dezavantajlarına sahip çok sayıda öğrenme yöntemi
mevcuttur. Bölgenin en son kapsamlı araştırması 2005 yılında Zhu tarafından yayınlandı ve en son
2008'de güncellenmiştir [bkz. Zhu (2008)]. Chapelle ve ark. (2006b) ve Zhu ve Goldberg'in giriş kitabı
(2009) ayrıca yarı denetimli öğrenme üzerine önceki çalışmaları incelemek için iyi temeller sağlar.
Daha yakın zamanlarda, Subramanya ve Talukdar (2014) çeşitli grafik tabanlı tekniklere genel bir bakış
sağladı ve Triguero ve ark. (2015) yarı denetimli öğrenme yöntemlerinden oluşan bir sınıf olan sözde
etiketleme tekniklerini gözden geçirip analiz etti.
Zhu'nun anketinden bu yana (2008) yayınlandı, bazı önemli gelişmeler oldu
yarı denetimli öğrenme alanında yer almak. Alan boyunca, yeni öğrenme
yaklaşımları önerildi ve mevcut yaklaşımlar genişletildi, iyileştirildi ve daha
derinlemesine analiz edildi. Ek olarak, (derin) sinir ağlarının (Goodfellow
2017) denetimli öğrenme için, denetimsiz kayıp terimlerini sinir ağlarının maliyet
işlevlerine dahil etmenin basitliği ile yönlendirilen yarı denetimli öğrenmeye yeni
yaklaşımlar getirmiştir. Son olarak, performansı düşürmeyen sağlam yarı denetimli
öğrenme yöntemlerinin geliştirilmesine ve pratik amaçlar için yarı denetimli
öğrenme yöntemlerinin değerlendirilmesine olan ilgi artmıştır.
Bu ankette, okuyucuya yarı denetimli öğrenmenin araştırma alanının mevcut durumu hakkında
kapsamlı bir genel bakış sunmayı, erken çalışmaları ve son gelişmeleri kapsayan ve temel algoritmalar
ve yaklaşımlar hakkında açıklamalar sunmayı amaçlıyoruz. Aşağıdaki varsayımları yakalayan yarı
denetimli sınıflandırma yöntemleri için yeni bir taksonomi sunuyoruz.
123
Makine Öğrenimi (2020) 109: 373–440 375
her bir yöntem grubunu ve bunların mevcut denetimli yöntemlerle nasıl ilişki kurduğunu
ortaya koyar. Bunda, farklı yaklaşımların ve aralarındaki bağlantıların daha kapsamlı bir
şekilde anlaşılmasına izin veren yarı denetimli öğrenmeye ilişkin bir bakış açısı
sağlıyoruz. Dahası, yarı denetimli öğrenmenin altında yatan temel varsayımlara yeni bir
ışık tuttuk ve sözde küme varsayımına nasıl bağlandıklarını gösterdik.
Yarı denetimli öğrenme üzerine kapsamlı bir anket sağlamayı amaçlasak da, var
olan her yöntemi kapsayamayız. Konuyla ilgili literatürün büyüklüğünden dolayı, bu
sadece bu makalenin kapsamı dışında kalmayacak, aynı zamanda okuyucuya
sağlamak istediğimiz temel anlayışlardan da uzaklaşacaktır. Bunun yerine, son yirmi
yılda bölgedeki en etkili çalışmalara ve en önemli gelişmelere odaklanıyoruz.
Bu makalenin geri kalanı aşağıdaki şekilde yapılandırılmıştır. Yarı denetimli öğrenmenin temel kavramları
ve varsayımları Bölümde kapsanmaktadır.2, aynı zamanda kümelemeyle de bağlantı kurduğumuz yer.
Tarikatta.3, anketimizin geri kalanının kavramsal temelini oluşturan yarı denetimli öğrenme yöntemleri
sınıflandırmamızı sunuyoruz. Endüktif yöntemler Bölümlerde ele alınmıştır.4 vasıtasıyla 6. İlk olarak
sarmalayıcı yöntemlerini ele alıyoruz (Bölüm.4), ardından denetimsiz ön işleme (Böl. 5) ve son olarak, doğası
gereği yarı denetlenen yöntemleri ele alıyoruz (Bölüm. 6).
Mezhep. 7 taksonomimizin ikinci büyük kolunu oluşturan transdüktif yöntemleri kapsar. Yarı
denetimli regresyon ve kümeleme, Bölüm'de tartışılmaktadır.8. Son olarak, Tarikatta.9, Biz
yarı denetimli öğrenmenin geleceği için bazı beklentiler sağlar.
2. arkaplan
Geleneksel denetimli öğrenme problemlerinde, bize sıralı bir koleksiyon sunulur

nın-nin l etiketli veri noktaları DL = ((xben , yi)) l
i =1. Her veri noktası (xben , yben ) bir nesneden oluşur
xben∈ X belirli bir giriş alanından X, ve ilişkili bir etiketi var yben , nerede yben gerçek değerlidir
sınıflandırma problemlerinde regresyon problemleri ve kategorik. Bunların bir koleksiyonuna göre
veri noktaları, genellikle Eğitim verileri, Denetimli öğrenme yöntemleri, etiketi başarılı bir şekilde
belirleyebilecek bir işlevi çıkarmaya çalışır y∗ daha önce görülmemiş bazı girdilerin x∗.
Birçok gerçek dünya sınıflandırma probleminde, bununla birlikte, bir koleksiyona da erişimimiz var
nın-nin sen Veri noktaları, D x
U = ( i) l + u kimin etiketleri bilinmiyor. Örneğin, veri noktaları i = l
+1,
Tahmin yapmak istediğimiz, genellikle test verisi, tanıma göre etiketlenmemiştir. Yarı denetimli
sınıflandırma yöntemleri, performansı yalnızca kullanıldığında elde edilen öğrencilerin performansını aşan
bir öğrenci oluşturmak için etiketsiz veri noktalarını kullanmaya çalışır.
etiketli veriler. Bu anketin geri kalanında,XL ve XU koleksiyon
sırasıyla etiketli ve etiketsiz örnekler için giriş nesnelerinin sayısı. 1
Etiketsiz verilerin bir sınıflandırıcı oluşturmaya yardımcı olabileceği birçok durum
vardır. Örneğin, konuları bir dizi metin belgesine (haber makaleleri gibi) atamak istediğimiz
belge sınıflandırması sorununu düşünün. Belgelerimizin içinde görünen bir dizi sözcükle
temsil edildiğini varsayarsak, örneğin "nötron" sözcüğünü içeren belgelerin genellikle
fizikle ilgili olduğunu fark etmeyi öğrenen basit bir denetimli sınıflayıcı eğitilebilir. Bu
sınıflayıcı, eğitim verilerinde gördüğü terimleri içeren belgeler üzerinde iyi çalışabilir,
ancak bir belge eğitim setinde de bulunan tahmini sözcükler içermediğinde doğal olarak
başarısız olacaktır. Örneğin, bir fizik belgesiyle karşılaşırsak
1Burada atıfta bulunulan veri noktalarının koleksiyonlarının teknik olarak listeler olduğunu not ediyoruz. Bununla birlikte, yaygın kullanımı takiben, bu ankette
bunlardan 'kümeler' olarak bahsediyoruz ve küçük bir gösterimi kötüye kullanarak, standart küme-teorik kavramları onlara uyguluyoruz.
123
376 Makine Öğrenimi (2020) 109: 373–440
Şekil 1Etiketsiz verilerin varlığında ikili sınıflandırmanın temel bir örneği. Etiketsiz veri noktaları gerçek
etiketlerine göre renklendirilmiştir. Renkli, düzensiz daireler, 1, 2 ve 3'ün standart sapmalarına karşılık gelen
giriş verisi dağılımının kontur eğrilerini gösterir (Çevrimiçi renk şeması)
"nötron" kelimesini içermeyen parçacık hızlandırıcılarla ilgili olarak, sınıflayıcı onu

fizikle ilgili bir belge olarak tanıyamaz. Burası yarı denetimli öğrenmenin devreye
girdiği yerdir. Etiketsiz verileri ele alırsak, "nötron" kelimesini "parçacık hızlandırıcı"
cümlesine bağlayan belgeler olabilir. Örneğin, “nötron” kelimesi, “kuark” kelimesini
de içeren bir belgede sıklıkla geçer. Dahası, "kuark" kelimesi, sınıflandırıcılara,
etiketli verilerde "parçacık hızlandırıcı" ifadesini hiç görmemiş olsalar da, bu
belgeleri fizik etrafında dönüyor olarak sınıflandırmaya yönlendiren "parçacık
hızlandırıcı" ifadesiyle düzenli olarak birlikte geçecektir.
Figür 1 sınıflandırma için etiketsiz verilerin kullanımına yönelik biraz daha sezgiler
sağlar. İki sınıflı yapay bir sınıflandırma problemini ele alıyoruz. Her iki sınıf için, aynı
kovaryans matrislerine sahip 2 boyutlu bir Gauss dağılımından 100 örnek çizilir.
Etiketli veri seti daha sonra her sınıftan bir örnek alınarak oluşturulur. Herhangi bir
denetimli öğrenme algoritması, büyük olasılıkla karar sınırı olarak, iki etiketli veri
noktasını birleştiren ve ortada kesişen çizgi parçasına dik olan düz çizgiyi elde
edecektir. Ancak bu, optimal karar sınırından oldukça uzaktır. Bu şemadan da
anlaşılacağı gibi, etiketlenmemiş verilerden çıkarabileceğimiz kümeler, karar sınırını
belirlemede bize önemli ölçüde yardımcı olabilir: verilerin iki Gauss dağılımından
kaynaklandığını varsayarsak,
2.1 Yarı denetimli öğrenmenin varsayımları
Yarı denetimli öğrenmenin gerekli bir koşulu, altta yatan marjinal veri dağılımının p
(x) giriş alanı üzerinde arka dağıtım hakkında bilgi bulunur p (y | x).
Durum böyleyse, etiketsiz verileri bir kişi hakkında bilgi edinmek için kullanabilirsiniz. p (x), ve
dolayısıyla hakkında p (y | x). Öte yandan, bu koşul karşılanmazsa ve p (x)
içermez hakkında bilgi p (y | x), ek etiketlenmemiş verilere dayalı tahminlerin
doğruluğunu iyileştirmek doğal olarak imkansızdır (Zhu 2008).
123
Makine Öğrenimi (2020) 109: 373–440 377
(a) Düzgünlük ve düşük yoğunluklu varsayımlar. (b) Manifold varsayımı.

İncir. 2 Yarı denetimli öğrenme varsayımlarının resimleri. Her resimde, makul bir denetimli karar sınırı ve
ilgili varsayıma dayanan yarı denetimli bir öğrenme algoritmasıyla yakından tahmin edilebilen optimal karar
sınırı gösterilmektedir.
Neyse ki, uygulamada yarı denetimli öğrenme yöntemlerinin başarılı bir şekilde
uygulanmasının önerdiği gibi, daha önce bahsedilen durum gerçek dünyada karşılaşılan çoğu
öğrenme probleminde tatmin edici görünmektedir. Ancak, yolp (x) ve p (y | x) etkileşim
her zaman aynı değildir. Bu,yarı denetimli öğrenme varsayımları,
beklenen etkileşim türlerini resmileştiren (Chapelle et al. 2006b). En yaygın
kabul gören varsayımlar,pürüzsüzlük varsayımı (eğer iki örnek x ve x′ yakın
giriş alanında, etiketleri y ve y′ aynı olmalıdır), düşük yoğunluk varsayımı
(karar sınırı, giriş alanındaki yüksek yoğunluklu alanlardan geçmemelidir) ve manifold
varsayımı (aynı düşük boyutlu manifold üzerindeki veri noktaları aynı etikete sahip
olmalıdır). Bu varsayımlar, tümü değilse de, yarı denetimli öğrenme algoritmalarının
temelini oluşturur ve bunlar genellikle bir veya daha fazlasının açıkça veya örtük olarak
tatmin olmasına bağlıdır. Bu anket boyunca, her bir özel öğrenme algoritması
tarafından kullanılan temel varsayımları detaylandıracağız. Varsayımlar aşağıda daha
ayrıntılı olarak açıklanmıştır; Şekil 2'de görsel bir temsil sağlanmıştır.2.
2.1.1 Düzgünlük varsayımı
Düzgünlük varsayımı, iki giriş noktası için x, x′∈ X giriş alanında yakın olan, karşılık
gelen etiketler y, y′ aynı olmalı. Bu varsayım, denetimli öğrenmede de yaygın olarak
kullanılmaktadır, ancak yarı denetimli bağlamda geniş bir faydası vardır:
pürüzsüzlük varsayımı, etiketlenmemiş verilere geçişli olarak uygulanabilir. Sınav
için-ple, etiketli bir veri noktasının x1∈ XL ve iki etiketsiz veri noktası x2, x3∈ XU
var, öyle ki x1 yakın x2 ve x2 yakın x3, fakat x1 yakın değil x3. Sonra çünkü
pürüzsüzlük varsayımının, hala bekleyebiliriz x3 ile aynı etikete sahip olmak x1, dan beri
yakınlık - ve dolayısıyla etiket - geçişli olarak yayılır x2.
2.1.2 Düşük yoğunluk varsayımı
Düşük yoğunluk varsayımı, bir sınıflayıcının karar sınırının tercihen girdi uzayındaki
düşük yoğunluklu bölgelerden geçmesi gerektiği anlamına gelir. Başka bir deyişle,
karar
123
378 Makine Öğrenimi (2020) 109: 373–440
sınır yüksek yoğunluklu bölgelerden geçmemelidir. Varsayım şu şekilde tanımlanmıştır:

p (x), giriş verilerinin gerçek dağılımı. Bu dağılımdan sınırlı bir örnek kümesi
düşünüldüğünde, esasen karar sınırının birkaç veri noktasının gözlemlendiği
bir alanda olması gerektiği anlamına gelir. Bu açıdan bakıldığında, düşük
yoğunluk varsayımı düzgünlük varsayımı ile yakından ilgilidir; aslında, veri
dağıtımının temelindeki düzgünlük varsayımının karşılığı olarak düşünülebilir.
Diyelim ki düşük yoğunluklu bir alan var, yani bir alan R ⊂ X nerede p (x) düşük. Daha sonra çok az
gözlemin yer alması beklenir.R, ve bu nedenle, herhangi bir benzer veri çiftinin R gözlemlenir. Karar sınırını
bu düşük yoğunluklu alana yerleştirirsek, pürüzsüzlük varsayımı ihlal edilmez, çünkü bu yalnızca benzer veri
noktalarının çiftleriyle ilgilidir. Yüksek yoğunluklu alanlar için ise birçok veri noktası beklenebilir. Bu nedenle,
karar sınırını yüksek yoğunluklu bir bölgeye yerleştirmek pürüzsüzlük varsayımını ihlal eder, çünkü tahmin
edilen etiketler benzer veri noktaları için farklı olacaktır.
Bunun tersi de doğrudur: Eğer düzgünlük varsayımı geçerliyse, birbirine yakın

olan herhangi iki veri noktası aynı etikete sahiptir. Bu nedenle, giriş alanının yoğun
nüfuslu herhangi bir alanında, tüm veri noktalarının aynı etikete sahip olması
beklenir. Sonuç olarak, girdi uzayında yalnızca düşük yoğunluklu alanlardan geçen
ve böylece düşük yoğunluk varsayımını da karşılayan bir karar sınırı oluşturulabilir.
Yakın pratik ilişkileri nedeniyle, düşük yoğunluklu varsayımı ve pürüzsüzlük
varsayımını Şekil 2'deki tek bir resimde tasvir ediyoruz.2.
2.1.3 Manifold varsayımı
Verilerin Öklid uzayında temsil edilebildiği makine öğrenimi problemlerinde,

yüksek boyutlu girdi uzayında gözlemlenen veri noktaları d R genellikle birlikte yoğunlaşır
alt boyutlu alt yapılar. Bu alt yapılar olarak bilinirmanifoldlar: topolojik
yerel olarak Öklid olan alanlar. Örneğin, tüm noktaların bir kürenin yüzeyinde olduğu 3 boyutlu
bir girdi uzayını düşündüğümüzde, verilerin 2 boyutlu bir manifold üzerinde olduğu söylenebilir.
Yarı denetimli öğrenmedeki üç model varsayımı, (a) girdi uzayının, üzerinde tüm veri noktalarının
bulunduğu çoklu alt boyutlu manifoldlardan oluştuğunu ve (b) aynı manifold üzerinde bulunan
veri noktalarının aynı etikete sahip olduğunu belirtir. Sonuç olarak, hangi manifoldların var
olduğunu ve hangi veri noktalarının hangi manifold üzerinde bulunduğunu belirleyebilirsek,
etiketlenmemiş veri noktalarının sınıf atamaları, aynı manifold üzerindeki etiketli veri
noktalarından çıkarılabilir.
2.2 Kümelemeye bağlantı
Yarı denetimli öğrenme araştırmasında, genellikle dahil edilen ek bir varsayım, küme
varsayımı, aynı kümeye ait veri noktalarının aynı sınıfa ait olduğunu belirtir
(Chapelle et al. 2006b). Bununla birlikte, daha önce bahsedilen varsayımların ve
kümelenme varsayımının birbirinden bağımsız olmadığını, bunun yerine küme
varsayımının diğer varsayımların bir genellemesi olduğunu iddia ediyoruz.
Bir giriş alanı düşünün X bazı nesnelerle X ⊂ X, dağıtımdan çekilmiş p (x).
O halde bir küme, bir dizi veri noktasıdır C ⊆ X diğer veri noktalarına göre birbirine daha
çok benzeyen X, bazı benzerlik kavramlarına göre (Anderberg 1973). Belirleme kümeler,
bazı işlevleri bulmaya karşılık gelir f: X→ Y içindeki her girişi eşleyen x ∈ X -e etiketli bir
küme y = f (x), nerede her küme etiketi y ∈ Y benzersiz bir şekilde bir kümeyi tanımlar.
Doğrudan erişimimiz olmadığı içinp (x) uygun bir kümeleme belirlemek için,
123
Makine Öğrenimi (2020) 109: 373–440 379
veri noktaları arasındaki bazı benzerlik kavramları hakkında X, buna göre kümeleri
benzer veri noktalarına atayabiliriz.
Seçtiğimiz benzerlik kavramı, genellikle örtük olarak, bir kümeyi neyin
oluşturduğunu belirler. Bu kümeleri bulmak için herhangi bir belirli kümeleme
yönteminin etkinliği diğer birçok faktöre bağlı olsa da, benzerlik kavramıp (x)
ve p (y | x). Dolayısıyla iki noktanın aynı kümeye ait olup olmadığı, birbirlerine ve diğer
noktalara olan benzerliklerinden çıkarılabilir. Bizim bakış açımıza göre, pürüzsüzlük,
düşük yoğunluk ve çok sayıda varsayım, noktalar arasındaki benzerliğin farklı tanımlarına
indirgenir: pürüzsüzlük varsayımı, girdi uzayında birbirine yakın noktaların benzer
olduğunu belirtir; düşük yoğunluk varsayımı, aynı yüksek yoğunluklu alandaki noktaların
benzer olduğunu belirtir; ve manifold varsayımı, aynı düşük boyutlu manifold üzerinde
bulunan noktaların benzer olduğunu belirtir. Sonuç olarak, yarı denetimli öğrenme
varsayımları, küme varsayımının daha spesifik örnekleri olarak görülebilir: benzer noktalar
aynı gruba ait olma eğilimindedir.
Küme varsayımının yarı denetimli öğrenme için gerekli koşula karşılık geldiği bile
iddia edilebilir: p (x) hakkında bilgi taşır p (y | x). Aslında, çıktı alanını varsayarsak Y
tüm olası kümelerin etiketlerini içerir, yarı denetimli öğrenmenin başarılı olması için
gerekli koşul, kümelemenin başarılı olması için gerekli koşul olarak görülebilir. Başka
bir deyişle: veri noktaları (hem etiketsiz hem de etiketlenmiş) anlamlı bir şekilde
kümelenemezse, yarı denetimli bir öğrenme yönteminin denetimli bir öğrenme
yönteminde gelişmesi imkansızdır.
2.3 Yarı denetimli öğrenme ne zaman işe yarar?
Yarı denetimli öğrenmenin birincil amacı, daha iyi öğrenme prosedürlerinin inşası için
unlabelleddata'yı kullanmaktır. Görünüşe göre, bu her zaman kolay ve hatta mümkün değildir.
Daha önce belirtildiği gibi, etiketlenmemiş veriler yalnızca etiketlenmiş verilerde tek başına
bulunmayan veya ondan kolayca çıkarılamayan etiket tahmini için yararlı bilgiler taşıyorsa
yararlıdır. Herhangi bir yarı denetimli öğrenme yöntemini pratikte uygulamak için,
algoritmanın bu bilgiyi çıkarabilmesi gerekir. Hem uygulayıcılar hem de araştırmacılar için bu,
şu soruyu akla getiriyor: Bu ne zaman söz konusu?
Ne yazık ki, bu soruya pratik bir yanıt bulmanın zor olduğu kanıtlanmıştır.
Herhangi bir yarı denetimli öğrenme algoritmasının çalışabileceği koşulları kesin
olarak tanımlamak sadece zor olmakla kalmaz, aynı zamanda bu koşulların ne
ölçüde karşılandığını değerlendirmek de nadiren basittir. Bununla birlikte, farklı
öğrenme yöntemlerinin çeşitli problem türlerine uygulanabilirliği hakkında akıl
yürütmek mümkündür. Örneğin grafik tabanlı yöntemler, tüm veri noktaları üzerinde
bir grafik oluşturmak için tipik olarak yerel bir benzerlik ölçüsüne dayanır. Bu tür
yöntemleri başarılı bir şekilde uygulamak için, anlamlı bir yerel benzerlik ölçüsünün
tasarlanabilmesi önemlidir. Öklid özellik mesafesinin nadiren veri noktaları
arasındaki benzerliğin iyi bir göstergesi olduğu resimler gibi yüksek boyutlu
verilerde, bu genellikle zordur. Literatürde görülebileceği gibi,2015; Laine ve
Aila2017; Tarvainen ve Valpola2017). Yarı-
Öte yandan, denetimli öğrenme algoritmalarının denetimli uzantıları, genellikle denetlenen
meslektaşları ile aynı varsayıma dayanır. Örneğin, hem denetimli hem de yarı denetimli
destek vektör makineleri, karar sınırının karar alanının düşük yoğunluklu bir bölgesinde
olması gerektiğini belirten düşük yoğunluklu varsayıma dayanır. Eğer bir
123
380 Makine Öğrenimi (2020) 109: 373–440
denetimli sınıflayıcı bu gibi durumlarda iyi performans gösterir, algoritmanın yarı

denetimli uzantısının kullanılması doğaldır.
Denetimli öğrenme algoritmalarında olduğu gibi, belirli bir problem için hangi öğrenme yönteminin
en uygun olduğunu önceden belirlemek için henüz hiçbir yöntem keşfedilmemiştir. Dahası,
etiketlenmemiş verilerin kullanılmasının performansı düşürmeyeceğini garanti etmek imkansızdır. Bu
tür bir performans düşüşü uygulamada gözlemlenmiştir ve yaygınlığı, yayın yanlılığı nedeniyle
muhtemelen eksik rapor edilmiştir (Zhu2008). Potansiyel performans düşüşü sorunu, birçok çalışmada
tanımlanmıştır (Zhu2008; Chapelle vd.
2006b; Singh vd.2009; Li ve Zhou2015; Oliver vd.2018), ancak ele alınması zor olmaya
devam etmektedir. Tamamen denetlenen sınıflandırıcılarla iyi performansın elde
edilebildiği senaryolarda özellikle önemlidir. Bu durumlarda, potansiyel performans
düşüşü, potansiyel performans kazancından çok daha büyüktür.
Bu gözlemlerin ana fikri, yarı denetimli öğrenmenin, yalnızca etiketlenmemiş verilerin
eklenmesiyle gelişmiş tahmin performansı elde etmenin garantili bir yolu olarak görülmemesi
gerektiğidir. Daha ziyade, eldeki görev için bir öğrenme algoritması bulma ve doğrulama
sürecinde başka bir yön olarak ele alınmalıdır. Yarı denetimli öğrenme prosedürleri, belirli bir
uygulama senaryosunda kullanılması düşünülen algoritmalar grubunun bir parçası olmalıdır ve
verilen duruma çok uygun bir yaklaşım seçmek için teorik analiz (mümkünse) ve deneysel
değerlendirmenin bir kombinasyonu kullanılmalıdır. .
2.4 Yarı denetimli öğrenme yöntemlerinin ampirik değerlendirmesi
Makine öğrenimi algoritmalarını değerlendirirken ve karşılaştırırken, çok sayıda karar, farklı

algoritmaların göreceli performansını etkiler. Denetimli öğrenmede bunlar, veri setlerinin
seçimini, bu veri setlerinin eğitim, doğrulama ve test setlerine bölünmesini ve
hiperparametrelerin ne ölçüde ayarlandığını içerir. Yarı denetimli öğrenmede, ek faktörler
devreye girer. İlk olarak, birçok kıyaslama senaryosunda, hangi veri noktalarının etiketlenmesi
ve hangilerinin etiketlenmemiş kalması gerektiğine karar verilmesi gerekir. İkincisi, öğrencinin
performansını eğitim için kullanılan etiketsiz veriler (transdüktif öğrenmedeki durumun tanımı
gereği) veya tamamen ayrık bir test seti üzerinde değerlendirmeyi seçebilir. Bunlara ek olarak,
Etiketlenmemiş verilerin katma değerinin uygun şekilde değerlendirilmesine olanak tanımak
için yüksek kaliteli denetimli taban çizgileri oluşturmak önemlidir. Uygulamada,
değerlendirmenin kapsamını aşırı derecede sınırlamak, öğrenme algoritmalarının performansı
hakkında gerçekçi olmayan bakış açılarına yol açabilir. Son zamanlarda, Oliver ve ark. (2018)
yarı denetimli öğrenme algoritmalarının gerçekçi değerlendirmesi için bir dizi kılavuz oluşturdu;
tavsiyelerinden birkaçı burada yer almaktadır.
Pratik kullanım durumlarında, etiketli ve etiketsiz verilerin bölümlenmesi tipik olarak sabittir. Araştırmada,
yarı denetimli öğrenme algoritmalarını değerlendirmek için kullanılan veri kümeleri, genellikle sadece mevcut
bir denetimli öğrenme veri kümesinden büyük miktarda veri noktasının etiketlerinin kaldırılmasıyla elde edilir.
Daha önceki araştırmalarda, UCI Makine Öğrenimi Deposundaki veri kümeleri sıklıkla kullanıldı (Dua ve
Graff2019). Yarı denetimli görüntü sınıflandırma üzerine daha yeni araştırma, CIFAR-10/100 (Krizhevsky2009) ve
SVHN (Netzer ve ark. 2011)
veri kümeleri popüler seçimler olmuştur. Ek olarak, iki boyutlu oyuncak veri kümeleri
bazen yeni bir yaklaşımın uygulanabilirliğini göstermek için kullanılır. Tipik olarak, bu
oyuncak veri setleri, her sınıftaki veri noktalarının tek boyutlu bir manifold boyunca
yoğunlaştığı bir girdi dağılımından oluşur. Örneğin popüleryarım ay veri seti, her biri farklı
bir sınıfla ilişkilendirilmiş iki aralıklı yarım daireden alınan veri noktalarından oluşur.
123
Makine Öğrenimi (2020) 109: 373–440 381
Pratikte gözlemlendiği gibi, veri setlerinin seçimi ve bölümlendirilmesi, farklı öğrenme

algoritmalarının göreceli performansı üzerinde önemli bir etkiye sahip olabilir (bkz., Ör. Chapelle ve
ark. 2006b; Triguero vd.2015). Bazı algoritmalar, etiketli veri miktarı sınırlı olduğunda iyi çalışabilir ve
daha fazla etiketli veri mevcut olduğunda kötü performans gösterebilir; diğerleri belirli veri setlerinde
başarılı olabilir, ancak diğerlerinde değil. Araştırmacılar, yarı denetimli öğrenme algoritmalarının
gerçekçi bir değerlendirmesini sağlamak için, algoritmalarını farklı miktarlarda etiketli ve etiketsiz
veriler içeren çeşitli veri kümeleri üzerinde değerlendirmelidir.
Veri setlerinin seçimine ve bölümlemelerine ek olarak, yarı denetimli bir öğrenme

yönteminin performansını değerlendirirken güçlü bir temelin seçilmesi önemlidir. Sonuçta,
etiketsiz verilerin eklenmesinin herhangi bir belirli öğrenme algoritmasının performansını
iyileştirip iyileştirmediği uygulayıcılar için özellikle ilgili değildir. Daha ziyade, asıl soru
şudur: etiketsiz verilerin tanıtımı, diğer herhangi bir öğrenciden daha iyi bir öğrenci verir
mi - denetimli mi yoksa yarı denetimli mi? Oliver ve ark. (2018), bu, yarı denetimli öğrenme
algoritmalarının performansını değerlendirirken son teknoloji ürünü, uygun şekilde
ayarlanmış denetlenen temellerin dahil edilmesini gerektirir.
Çeşitli çalışmalar, farklı yarı denetimli öğrenme yöntemlerinin çeşitli veri kümeleri üzerindeki performansını
bağımsız olarak değerlendirmiştir. Chapelle vd. (2006b) denetimli destek vektör makinelerini kullanarak on bir
farklı yarı denetimli öğrenme algoritmasını ampirik olarak karşılaştırdı vek-
temel olarak en yakın komşular. Her algoritma için hiperparametre optimizasyonu uygulayan
yarı denetimli destek vektör makinelerini, etiket yayılımını ve manifold düzenleme tekniklerini
içeriyorlardı. Algoritmaların performansını sekiz farklı veri setinde karşılaştıran yazarlar, hiçbir
algoritmanın diğerlerinden daha iyi performans göstermediğini buldular. Bazı veri setlerinde
taban çizgilerine göre önemli performans iyileştirmeleri gözlemlenirken, diğerlerinde
performansın düştüğü görülmüştür. Göreceli performans, etiketlenmemiş veri miktarına göre de
değişiklik gösterdi.
Oliver vd. (2018) birçok yarı denetimli sinir ağını karşılaştırdı.anlamına gelmek
öğretmen model sanal düşmanlık eğitimi ve adı verilen bir sarmalayıcı yöntemi sözde etiket açık
iki görüntü sınıflandırma problemi. Algoritmaların çoğu için önemli performans
iyileştirmeleri rapor ettiler ve daha fazla etiketsiz veri noktası eklendikçe (herhangi
bir etiketli veri noktası kaldırılmadan) hata oranlarının tipik olarak düştüğünü
gözlemlediler. Performans düşüşleri, yalnızca etiketli verilerde bulunan sınıflar ile
etiketsiz verilerde bulunan sınıflar arasında bir uyumsuzluk olduğunda gözlemlendi.
Bu sonuçlar gerçekten ümit vericidir: Görüntü sınıflandırma görevlerinde, etiketsiz
verilerin performansı sürekli olarak iyileştirmek için sinir ağları tarafından
kullanılabileceğini gösterirler. Bu tutarlı performans iyileştirmelerinin diğer veri
türleri için de elde edilip edilemeyeceğini araştırmak için gelecekteki araştırmalar
için ilginç bir yoldur. Ayrıca,
3 Yarı denetimli öğrenme yöntemlerinin taksonomisi
Son yirmi yılda, çok çeşitli yarı denetimli sınıflandırma algoritmaları önerilmiştir. Bu yöntemler, temel aldıkları
yarı denetimli öğrenme varsayımları, etiketlenmemiş verileri nasıl kullandıkları ve denetimli algoritmalarla ilişki
biçimleri bakımından farklılık gösterir. Yarı denetimli öğrenme yöntemlerinin mevcut kategorileri genellikle bu
özelliklerin bir alt kümesini kullanır ve tipik olarak göreceli olarak uyumludur, bu nedenle benzerlikleri
yakalayamaz.
123
382 Makine Öğrenimi (2020) 109: 373–440
Şekil 3Yarı denetimli sınıflandırma taksonomisinin görselleştirilmesi. Taksonomideki her yaprak,

etiketlenmemiş verileri sınıflandırma yöntemlerine dahil etmeye yönelik belirli bir yaklaşıma karşılık gelir.
Dönüştürücü, grafik tabanlı yöntemlere karşılık gelen yaprakta, kesikli kutular, her biri çok sayıda varyasyona
sahip olan grafik tabanlı sınıflandırma sürecinin farklı aşamalarını temsil eder.
farklı yöntem grupları arasında. Dahası, kategoriler genellikle mevcut çalışmaya göre
ayarlanmıştır ve bu da onları yeni yaklaşımların dahil edilmesi için daha az uygun hale getirir.
Bu ankette, yarı denetimli sınıflandırma algoritmalarının spektrumunu temsil
etmek için yeni bir yol öneriyoruz. Onları açık, geleceğe dönük bir şekilde
gruplandırmaya çalışarak, araştırmacıların ve uygulayıcıların yarı denetimli öğrenme
yöntemlerinin, birbirlerine, mevcut denetimli öğrenme yöntemlerine ve yarı denetimli
öğrenme varsayımlarına. Taksonomi, Şekil 2'de görselleştirilmiştir.3. En üst düzeyde,
arasında ayrım yaparendüktif ve transdüktif Farklı optimizasyon prosedürlerine yol
açan yöntemler: birincisi bir sınıflandırma modeli bulma girişiminde bulunurken,
ikincisi yalnızca verilen etiketlenmemiş veri noktaları için etiket tahminlerinin elde
edilmesiyle ilgilidir. İkinci düzeyde, yarı denetimli öğrenme yöntemlerinin etiketsiz
verileri nasıl dahil ettiğini değerlendirir. Bu ayrım, her biri denetimli sınıflandırıcılarla
farklı bir şekilde ilişkili olan üç ayrı tümevarım yöntemi sınıfına yol açar.
Sınıflandırmamızda endüktif ve transdüktif yöntemler arasında yaptığımız ilk ayrım,
yarı denetimli öğrenme literatüründe yaygındır (bkz., Örneğin Chapelle ve ark. 2006b;
Zhu 2008; Zhu ve Goldberg2009). İlki, denetimli öğrenme yöntemleri gibi, daha önce görülmemiş veri
noktalarının etiketini tahmin etmek için kullanılabilecek bir sınıflandırma modeli sağlar. İkincisi böyle
bir model vermez, bunun yerine doğrudan tahminler sağlar. Diğer bir deyişle,
etiketli ve etiketsiz verilerden oluşan bir veri seti verildiğinde, XL, XU⊆ X, etiketli yL∈ Yl
için l etiketli veri noktaları, tümevarım yöntemleri, bir model verir f: X→ Y, oysa transdüksiyon-
123
Makine Öğrenimi (2020) 109: 373–440 383
Tive yöntemler tahmin edilen etiketleri üretir ŷ U etiketlenmemiş veri noktaları için XU. Buna göre,
endüktif yöntemler, tahmin modellerine göre optimizasyonu içerirken, transdüktif yöntem
ods, doğrudan tahminler üzerinden optimize eder ŷU.
Genellikle denetimli algoritmaları etiketlenmemişleri içerecek şekilde genişleten endüktif yöntemler
veriler, sınıflandırmamızda etiketlenmemiş verileri birleştirme yöntemlerine göre daha da
farklılaştırılır: bir ön işleme adımında, doğrudan hedef işlevin içinde veya bir sözde etiketleme
adımı aracılığıyla. Dönüştürme yöntemleri her durumda grafik tabanlıdır; bunları öğrenme
sürecinin farklı aşamalarında yapılan seçimlere göre gruplandırıyoruz. Bu bölümün geri
kalanında, bu anketin geri kalanında yarı denetimli öğrenme yöntemleriyle ilgili tartışmamızın
temelini oluşturan, taksonomide temsil edilen yarı denetimli öğrenme yöntemlerinin
gruplandırılmasını ayrıntılı olarak ele alacağız.
3.1 Endüktif yöntemler
Tümevarımsal yöntemler, girdi uzayındaki herhangi bir nesne için tahminler üretebilen bir sınıflayıcı oluşturmayı amaçlar. Bu
sınıflandırıcıyı eğitirken etiketsiz veriler kullanılabilir, ancak daha önce görülmemiş birden çok yeni örnek için tahminler, eğitim
tamamlandıktan sonra birbirinden bağımsızdır. Bu, denetimli öğrenme yöntemlerindeki amaca karşılık gelir: eğitim aşamasında bir
model oluşturulur ve daha sonra yeni veri noktalarının etiketlerini tahmin etmek için kullanılabilir.
3.1.1 Sarıcı yöntemleri
Mevcut, denetlenen algoritmaları yarı denetimli ortama genişletmeye yönelik basit bir yaklaşım, ilk önce
sınıflandırıcıları etiketli veriler üzerinde eğitmek ve daha sonra ek etiketli veriler oluşturmak için ortaya
çıkan sınıflandırıcıların tahminlerini kullanmaktır. Sınıflandırıcılar daha sonra bu konuda yeniden
eğitilebilir
sözde etiketli mevcut etiketli verilere ek olarak veriler. Bu tür yöntemler olarak bilinir
sarmalayıcı yöntemleri: etiketlenmemiş veriler, bir sarmalayıcı prosedürü tarafından sözde etiketlenir
ve tamamen denetlenen bir öğrenme algoritması, orijinal olarak etiketlenmiş ve sözde etiketlenmiş
veriler arasındaki ayrımın farkında olmadan, son endüktif sınıflandırıcıyı oluşturur. Bu, sarmalayıcı
yöntemlerinin temel bir özelliğini ortaya çıkarır: bunların çoğu, herhangi bir denetimli temel öğreniciye
uygulanabilir ve etiketlenmemiş verilerin basit bir şekilde tanıtılmasına izin verir. Sarmalayıcı
yöntemleri, taksonominin tümevarımsal tarafının ilk bölümünü oluşturur ve Bölümde ele alınmıştır.4.
3.1.2 Denetimsiz ön işleme
İkinci olarak, etiketlenmemiş verilerden yararlı özellikler çıkaran, verileri önceden kümeleyen veya
denetimli bir öğrenme prosedürünün ilk parametrelerini denetimsiz bir şekilde belirleyen denetimsiz ön
işleme yöntemlerini ele alıyoruz. Sarmalayıcı yöntemleri gibi, herhangi bir denetimli sınıflandırıcıyla
kullanılabilirler. Ancak, sarmalayıcı yöntemlerinden farklı olarak, denetlenen sınıflandırıcı yalnızca
orijinal olarak etiketlenmiş veri noktaları ile sağlanır. Bu yöntemler Bölüm kapsamında ele alınmıştır.5.
3.1.3 Kendinden yarı denetimli yöntemler
Endüktif yöntemlerin son sınıfı, doğrudan etiketlenmemiş verileri öğrenme

yönteminin amaç işlevine veya optimizasyon prosedürüne dahil eder. Bu yöntemlerin
çoğu, denetimli öğrenme yöntemlerinin yarı denetimli ortama doğrudan uzantılarıdır:
123
384 Makine Öğrenimi (2020) 109: 373–440
Denetlenen sınıflandırıcının amaç işlevini etiketlenmemiş verileri içerecek şekilde genişletir. Örneğin,
yarı denetimli destek vektör makineleri (S3VM'ler), denetlenen SVM'leri yalnızca etiketli değil, aynı
zamandaonun labelleddata'sını da maksimize ederek genişletir. SVM'ler, Gauss süreçleri ve sinir
ağları dahil olmak üzere birçok önde gelen denetimli öğrenme yaklaşımının özünde yarı denetlenen
uzantıları vardır ve bunları Sect'te açıklıyoruz.6. Biz daha uzağa
Bu kategorideki yöntemleri, güvendikleri yarı denetimli öğrenme varsayımlarına
göre gruplayın.
3.2 Dönüştürme yöntemleri
Endüktif yöntemlerin aksine, transdüktif yöntemler tüm girdi alanı için bir sınıflayıcı
oluşturmaz. Bunun yerine, tahmin gücü, eğitim aşamasında karşılaştığı nesnelerle
sınırlıdır. Bu nedenle, dönüştürücü yöntemlerin farklı eğitim ve test aşamaları yoktur.
Denetimli öğrenme yöntemleri, test aşamasına kadar tanım gereği etiketsiz verilerle
sağlanmadığından, denetimli öğrenmede dönüştürücü algoritmaların açık bir
analojisi yoktur.
Geçişli öğrenicilerde girdi alanı modeli bulunmadığından, bilginin veri noktaları
arasındaki doğrudan bağlantılar yoluyla yayılması gerekir. Bu gözlem doğal olarak,
transdüktif yöntemlere grafik tabanlı bir yaklaşıma yol açar: Eğer benzer veri noktalarının
bağlandığı bir grafik tanımlanabilirse, bilgi daha sonra bu grafiğin kenarları boyunca
yayılabilir. Uygulamada, tartıştığımız tüm dönüştürücü yöntemler ya açıkça grafik
tabanlıdır ya da dolaylı olarak bu şekilde anlaşılabilir. Endüktif grafik tabanlı yöntemlerin
de var olduğunu not ediyoruz; onları Sect'te ele alıyoruz.6.3. Endüktif ve transdüktif grafik
tabanlı yöntemler tipik olarak manifold varsayımına dayanır: veri noktaları arasındaki
yerel benzerliğe dayalı olarak oluşturulan grafikler, potansiyel olarak yüksek boyutlu girdi
verilerinin daha düşük boyutlu bir temsilini sağlar.
Transdüktif grafiğe dayalı yöntemler genellikle üç adımdan oluşur: grafik oluşturma, grafik
ağırlıklandırma ve çıkarım. İlk adımda, nesneler kümesi,X, her düğümün bir veri noktasını
temsil ettiği ve ikili olarak benzer veri noktalarının bir kenarla bağlandığı bir grafik oluşturmak
için kullanılır. İkinci adımda, bu kenarlar, ilgili veri noktaları arasındaki ikili benzerliğin
kapsamını temsil edecek şekilde ağırlıklandırılır. Üçüncü adımda, grafik, etiketlenmemiş veri
noktalarına etiket atamak için kullanılır. Bu üç adımı gerçekleştirmek için farklı yöntemler
Bölümde ayrıntılı olarak tartışılmaktadır.7.
4 Sarıcı yöntemleri
Sarmalayıcı yöntemleri, yarı denetimli öğrenme için en eski ve en çok bilinen algoritmalar
arasındadır (Zhu 2008). Bir veya daha fazla denetlenen temel öğreniciden yararlanırlar ve bunları
yinelemeli olarak orijinal etiketli verilerin yanı sıra öğrencilerin önceki yinelemelerinden gelen
tahminlerle artırılmış önceden etiketlenmemiş verilerle eğitirler. İkincisi genellikle şu şekilde
anılır: sözde etiketli veriler. Prosedür genellikle iki alternatif adımdan oluşur: Eğitim ve sözde
etiketleme. Eğitim adımında, bir veya daha fazla denetimli sınıflandırıcı, etiketli veriler ve
muhtemelen önceki yinelemelerden sözde etiketlenmiş veriler konusunda eğitilir. Sözde
etiketleme adımında, ortaya çıkan sınıflandırıcılar, önceden etiketlenmemiş nesnelerin
etiketlerini çıkarmak için kullanılır; öğrencilerin tahminlerini en çok doğruladığı veri noktaları, bir
sonraki yinelemede kullanılmak üzere sözde etiketlenmiştir.
123
Makine Öğrenimi (2020) 109: 373–440 385
Sarmalayıcı yöntemlerinin önemli bir avantajı, neredeyse tüm denetimli temel öğrenicilerle
kullanılabilmeleridir. Denetlenen temel öğrenci, sahte etiketli örnekleri normal etiketli
örneklermiş gibi temel öğrenciye geçiren sarmalayıcı yönteminden tamamen habersiz olabilir.
Bazı sarmalayıcı yöntemleri temel öğrencinin olasılığa dayalı tahminler sağlamasını gerektirse
de, birden çok temel öğrenene dayanan çoğu sarmalayıcı yöntemi bunu yapmaz. Herhangi bir
özel sarmalayıcı yöntemi için, bunun altında yatan yarı denetimli öğrenme varsayımları,
kullanılan temel öğrenicilere bağlıdır. Bu anlamda, bir sarmalayıcı yöntemi kendi başına bir
öğrenme yöntemi olarak düşünülemez: yalnızca belirli bir temel öğrenici grubuyla
birleştirildiğinde tam bir öğrenme yöntemi haline gelir.
Kısa süre önce Triguero ve ark. Tarafından sarıcı yöntemlerinin kapsamlı bir
araştırması yayınlandı. (2015). Bu tür yöntemlere genel bir bakış sağlamanın yanı sıra,
(1) kaç tane sınıflandırıcı kullanıldığına, (2) farklı sınıflandırma türlerinin kullanılıp
kullanılmadığına ve (3) tek görüntülü veya çok görüntülü verileri kullanırlar (yani verilerin
birden çok özellik alt kümesine bölünüp bölünmediği). Bu sınıflandırma, sarmalayıcı
yöntemlerinin alanı hakkında değerli bilgiler sağlar.
Literatürde incelenen nispeten bağımsız üç tür sarmalayıcı yöntemine odaklanan daha
az karmaşık bir taksonomi sunuyoruz. İlk olarak, dikkate alıyoruzkendi kendine eğitim,
kendi en güvenilir tahminlerine göre yinelemeli olarak yeniden eğitilen bir denetimli sınıflayıcı kullanır. İkincisi,
düşünüyoruzortak eğitim, birbirlerinin en güvenilir tahminlerine göre yinelemeli olarak yeniden eğitilen birden
çok sınıflandırıcıya kendi kendine eğitimin bir uzantısı. Sınıflandırıcıların yeterince çeşitli olduğu varsayılır, bu
genellikle verilen nesnelerin veya özelliklerin farklı alt kümeleri üzerinde çalışılarak elde edilir. Son olarak,
dikkate alıyoruzsözde etiketli
artırma yöntemleri. Geleneksel güçlendirme yöntemlerinde olduğu gibi, sırayla ayrı sınıflandırıcılar
oluşturarak bir sınıflandırma grubu oluştururlar; burada her bir sınıflayıcı hem etiketli veriler hem de
etiketlenmemiş veriler üzerindeki önceki sınıflandırıcıların en güvenilir tahminleri üzerinde eğitilir.
4.1 Kendi kendine eğitim
Kendi kendine eğitim yöntemleri (bazen "kendi kendine öğrenme" yöntemleri olarak da adlandırılır)
sözde etiketleme yaklaşımlarının en temelidir (Triguero et al. 2015). Hem etiketli veriler hem de
algoritmanın önceki yinelemelerinde sözde etiketlenmiş veriler üzerinde yinelemeli olarak eğitilmiş
tek bir denetimli sınıflandırıcıdan oluşurlar.
Kendi kendine eğitim prosedürünün başlangıcında, denetimli bir sınıflayıcı yalnızca etiketli verilerle
eğitilir. Ortaya çıkan sınıflandırıcı, etiketlenmemiş veri noktaları için tahminler elde etmek için kullanılır.
Daha sonra, bu tahminlerin en uyumlu olanı etiketli veri setine eklenir ve denetlenen sınıflandırıcı, hem
orijinal etiketli veriler hem de yeni elde edilen sözde etiketli veriler üzerinde yeniden eğitilir. Bu
prosedür tipik olarak, etiketlenmemiş veri kalmayana kadar yinelenir.
Kendi kendine eğitim ilk olarak Yarowsky tarafından önerildi (1995) kelime duyumuna bir yaklaşım olarak
metin belgelerinde belirsizlik, bağlamlarına göre kelimelerin anlamlarını tahmin etme.
O zamandan beri, kendi kendine eğitimin çeşitli uygulamaları ve çeşitleri öne sürüldü.
Örneğin, Rosenberg ve ark. (2005) nesne algılama sorunlarına kendi kendine eğitim
uyguladı ve son teknoloji ürünü (o sırada) nesne algılama modeline göre gelişmiş
performans gösterdi. Dópido vd. (2013) hiperspektral görüntü sınıflandırması için
kendi kendine eğitim yaklaşımı geliştirdi. Alan bilgisini bir dizi aday etiketsiz örnek
seçmek için kullandılar ve eğitimli sınıflandırıcı tarafından yapılan tahminlerle bu
örneklerin en bilgilendiricisini sözde etiketlediler.
123
386 Makine Öğrenimi (2020) 109: 373–440
Kendi kendine eğitim paradigması, sözde etiketleme için verilerin seçilmesi, algoritmanın
sonraki yinelemelerinde sözde etiketlenmiş verilerin yeniden kullanılması ve durdurma kriterleri
dahil olmak üzere çok sayıda tasarım kararını kabul eder (bkz., Örneğin Rosenberg et al. 2005;
Triguero vd.2015). Sözde etiketlenecek verilerin seçim prosedürü, sınıflandırıcı için eğitim
setinde hangi verilerin son bulacağını belirlediği için özellikle önemlidir. Bu seçimin tahmin
güvenine dayalı olarak yapıldığı tipik kendi kendine eğitim ortamlarında, güven kalitesi,
algoritma performansını önemli ölçüde etkiler. Özellikle, etiketlenmemiş örnekler için tahmin
olasılıklarının sıralaması, gerçek güven sıralamasını yansıtmalıdır.
İyi kalibre edilmiş olasılıklı tahminler mevcutsa, ilgili olasılıklar doğrudan kullanılabilir. Bu
durumda, etiketlenmemiş veri noktaları için etiket olasılıkları her adımda yeniden tahmin
edildiğinden, kendi kendine eğitim yaklaşımı yinelemelidir ve artımlı değildir. Bu durumda
yaklaşım şuna benzer hale gelir:beklenti maksimizasyonu (EM; Dempster vd.1977). Var
bağlamında özellikle iyi çalışılmıştır naif bayanlar doğası gereği olasılıkçı olan
sınıflandırıcılar (Nigam ve Ghani 2000; Nigam vd.2000, 2006). Wu vd. (2012b) kısa
süre önce e-ticaret web sitelerinde sahte ürün incelemelerini tespit etme sorununa
deneyimsiz bir Bayes sınıfı ile yarı denetimli EM uyguladı.
Güçlü olasılık tahminlerini doğal olarak desteklemeyen algoritmalar, kendi kendine eğitimden yararlanmak
için uyarlamalar gerektirebilir. Karar ağaçları bunun başlıca örnekleridir: herhangi bir değişiklik veya budama
olmaksızın, genellikle belirli bir etikete sahip bir yapraktaki örneklerin fraksiyonundan hesaplanan tahmin
olasılık tahminleri genellikle düşük kalitededir. Bu, temel olarak, çoğu karar ağacı öğrenme algoritmasının,
ağaç düğümlerindeki kirliliği açıkça en aza indirmeye çalıştığı ve böylece küçük yaprakları ve yüksek oranda
önyargılı olasılık tahminlerini teşvik ettiği gerçeğine bağlanabilir (Provost ve Domingos2003). Tanha vd. (2017)
bu sorunu iki farklı yoldan aşmaya çalıştı. İlk olarak, tahmin olasılık tahminlerini doğrudan iyileştirmek için
aşılama ve Laplace düzeltmesi gibi mevcut birkaç yöntemi uyguladılar. İkinci olarak, örnekler arasındaki güven
derecesini belirlemek için yerel mesafeye dayalı bir ölçü kullandılar: etiketlenmemiş bir veri noktasının tahmin
güvencesi, Mahalanobis mesafelerinin bu nokta ile her bir sınıftan etiketli veriler arasındaki mutlak farka
dayanır. Bu yöntemi kullanarak hem karar ağaçlarının hem de rastgele ormanların (karar ağaçları
topluluklarının) performansında iyileşmeler gösterdiler (Tanha et al.2017).
Leistner vd. (2009) ayrıca rastgele ormanları geliştirmek için kendi kendine eğitimden yararlandı. Onun yerine
etiketsiz verilerin etiketlenmesi x ∈ XUbüyük olasılıkla tahmin edilen etiketle, tahmin edilene
göre her bir ağaç için bağımsız olarak etiketlenmemiş her veri noktasını sahte etiketlerler.
arka dağıtım p (y |x). Ayrıca, torba-dışı-hataya dayalı bir durdurma kriteri de
önerdiler: Torba-dışı-hata (genelleme hatasının tarafsız bir tahminidir) arttığında,
eğitim durdurulur.
Kendi kendine eğitimdeki temel öğrenenler, sarmalayıcı yönteminin varlığından habersizdirler.
Sonuç olarak, her kendi kendine eğitim yinelemesinde tamamen yeniden eğitilmeleri gerekir. Bununla
birlikte, bir sınıflandırıcı aşamalı olarak eğitilebildiği zaman (yani, verinin bireysel veri noktaları veya alt
kümeleri üzerinde amaç işlevini optimize etme), kendi kendine eğitime benzer yinelemeli bir sözde
etiketleme yaklaşımı uygulanabilir. Her yinelemede tüm algoritmayı yeniden eğitmek yerine, veri
noktaları eğitim süreci boyunca sahte etiketlenebilir. Bu yaklaşım, Lee tarafından sinir ağlarına
uygulandı (2013), kim önerdi sözde etiket yaklaşmak.
Daha önceki eğitim aşamalarında tahmin edilen sözde etiketler genellikle daha az güvenilir
olduğundan, sözde etiketli verilerin ağırlığı zamanla artar. Thesözde etiket yaklaşmak
kendi kendine eğitime açık benzerlikler gösterir, ancak sınıflayıcının her sözde etiketleme adımından
sonra yeniden eğitilmemesi anlamında farklılık gösterir: bunun yerine, yeni sözde etiketli verilerle
hassas bir şekilde ayarlanır ve bu nedenle teknik olarak sarmalayıcı yöntemi paradigma.
123
Makine Öğrenimi (2020) 109: 373–440 387
Kendi kendine eğitim algoritmalarının teorik özelliklerine ilişkin sınırlı sayıda çalışma
mevcuttur. Haffari ve Sarkar (2007) çeşitli kendi kendine eğitim varyantlarının teorik bir
analizini gerçekleştirdi ve grafik tabanlı yöntemlerle bir bağlantı gösterdi. Culp ve Michailidis
(2008) çeşitli temel öğrenicilerle kendi kendine eğitimin bir varyantının yakınsama özelliklerini
analiz etti ve grafik tabanlı yöntemlerle olan bağlantıyı da değerlendirdi.
4.2 Ortak eğitim
Ortak eğitim, kendi kendine eğitimin birden fazla denetimli sınıflayıcı için bir uzantısıdır. Ortak
eğitimde, iki veya daha fazla denetimli sınıflayıcı, her bir yinelemede diğer denetimli
sınıflandırıcıların etiketli veri setine en güvenilir tahminlerini ekleyerek etiketli veriler üzerinde
yinelemeli olarak eğitilir. Ortak eğitimin başarılı olması için, temel öğrencilerin tahminlerinde
çok güçlü bir şekilde ilişkilendirilmemesi önemlidir. Eğer öyleyse, birbirlerine yararlı bilgiler
sağlama potansiyelleri sınırlıdır. Literatürde bu durum genellikle şu şekilde anılır:çeşitlilik
kriter (Wang ve Zhou 2010). Zhou ve Li (2010) çoklu temel öğrenicilere dayanan yarı denetimli
öğrenme yöntemleri anketi sağladı. Bu yöntemlere birlikte şu şekilde değinirler:
anlaşmazlığa dayalı yöntemler, ortak eğitim yaklaşımlarının birden çok öğrenci arasındaki
anlaşmazlıkları istismar ettiği gözlemine atıfta bulunarak: farklı öğrencilerin farklı etiketleri
tahmin ettiği unlabelleddata yoluyla bilgi alışverişinde bulunurlar.
Daha sınıfsal çeşitliliği teşvik etmek için, önceki ortak eğitim yaklaşımları temel olarak birden fazla farklılığın
varlığına dayanıyordu. Görüntüleme genellikle özellik kümesinin farklı alt kümelerine karşılık gelen veriler.
Örneğin, video verilerini işlerken, veriler doğal olarak görsel ve işitsel verilere ayrıştırılabilir. Bu tür ortak eğitim
yöntemleri, aynı zamanda çok çeşitli denetimli öğrenme algoritmalarını içeren daha geniş çoklu görüşlü
öğrenme yaklaşımları sınıfına aittir. Xu ve diğerleri tarafından çok görüntülü öğrenmenin kapsamlı bir
araştırması yapılmıştır. (2013). Sect'te çoklu görünüm ortak eğitim yöntemlerini ele alıyoruz.4.2.1. Pek çok
gerçek dünya problem senaryosunda, verilere ilişkin hiçbir farklı görüş a priori bilinmemektedir. Tek görünümlü
ortak eğitim yöntemleri, verileri otomatik olarak farklı görünümlere bölerek veya öğrenme algoritmalarındaki
çeşitliliği teşvik ederek bu sorunu ele alır; bu yöntemleri Sect'te ele alıyoruz.4.2.2. Biz
ayrıca tartışmak birlikte düzenleme Birden çok sınıflandırıcının tek bir amaç
işlevi altında birleştirildiği yöntemler, Bölüm. 4.2.3.
4.2.1 Çok görüntülü ortak eğitim
Ortak eğitimin temel biçimi Blum ve Mitchell tarafından önerildi (1998). Yeni ufuklar
açan makalelerinde, verilen verilerin iki farklı görünümü, yani özelliklerin alt kümeleri
üzerinde eğitilmiş iki sınıflayıcı oluşturmayı önerdiler. Her eğitim adımından sonra,
her görünüm için en güvenilir tahminler, diğer görünüm için etiketli veri kümesine
eklenir. Blum ve Mitchell, web sayfası metnini ve dış kaynaklardan web sayfasına
bağlantılardaki bağlantı metnini iki ayrı görünüm olarak kullanarak üniversite web
sayfalarının sınıflandırmasına ortak eğitim algoritmasını uyguladılar. Bu algoritma ve
varyantları, en önemlisi doğal dil işleme (Kiritchenko ve Matwin2001; Mihalcea
2004; bitik2009).
Blum ve Mitchell tarafından hazırlanan orijinal ortak eğitim algoritması (1998) iki ana
başarılı olmak için varsayımlar: (1) her bir öznitelik alt kümesi, verilen veri kümesi üzerinde iyi
tahminler elde etmek için yeterli olmalıdır ve (2) özniteliklerin alt kümeleri, sınıf etiketi göz önüne
alındığında koşullu olarak bağımsız olmalıdır. İlk varsayım önemsiz bir şekilde anlaşılabilir: İki özellik
alt kümesinden biri iyi tahminler oluşturmak için yetersizse, bu kümeyi kullanan bir sınıflandırma
123
388 Makine Öğrenimi (2020) 109: 373–440
kombine yaklaşımın genel performansına hiçbir zaman olumlu katkıda bulunamaz. İkinci varsayım,
çeşitlilik kriteriyle ilgilidir: eğer özellik alt kümeleri, sınıf etiketi verildiğinde koşullu olarak bağımsızsa,
tek tek sınıflandırıcıların tahminleri olası değildir.
güçlü bir şekilde ilişkili olması. Resmi olarak, herhangi bir veri noktası içinxi = x (1) × x ( ben , ayrışmış
ben 2)
x (1)
benve x (2)bensırasıyla ilk ve ikinci özellik alt kümesi için koşullu bağımsız
dence varsayımı, p (x (1) i |x (2)ben , yi) = p (x (1)i|yben ). Dasgupta vd. (2002) gösterdi
daha önce bahsedilen varsayımlar altında, bireysel öğrenciler arasında
anlaşmayı teşvik ederek genelleme hatası azaltılabilir.
Uygulamada, ikinci varsayım genellikle tatmin edici değildir: Blum ve Mitchell
tarafından kullanılan deneysel düzende olduğu gibi, özelliklerin doğal bir ayrımı olsa bile
(1998), bir görünümde yer alan bilgilerin, sınıf etiketine koşullandırıldığında diğer
görünüm hakkında hiçbir bilgi sağlamaması olası değildir (Du et al. 2011). Üniversite web
sayfası sınıflandırma örneği göz önüne alındığında, bir web sayfasına giden bağlantının
bağlantı metninin, web sayfasının öğretim üyesi ana sayfası olarak sınıflandırıldığı bilinse
bile, web sayfasının içeriğine yönelik ipuçları içermesi beklenebilir. . Örneğin, bağlantının
bağlantı metni "Mühendislik Fakültesi Dekanı" ise, mühendislik fakültesi dekanı hakkında
bilgi o sayfanın metninde başka herhangi bir kişi hakkında bulacağından daha olasıdır.
Bu nedenle, bu varsayıma birkaç alternatif düşünülmüştür.
Abney (2002) zayıf bir bağımsızlık varsayımının başarılı olmak için yeterli olduğunu gösterdi.
ortak eğitim. Balcan vd. (2005) koşullu bağımsızlık varsayımını daha da gevşeterek,
çok daha zayıf bir varsayım olduğunu göstererek, genişleme varsayımı, yeterli
fi aktif ve bir dereceye kadar gerekli. Genişletme varsayımı, iki görüşün yüksek düzeyde
ilişkili olmadığını ve bireysel sınıflandırıcıların asla güvenilir bir şekilde yanlış tahminlerde
bulunmadıklarını belirtir.
Du vd. (2011) yeterliğin derecesini belirlemek için ampirik yöntemler çalıştı ve
bağımsızlık varsayımları geçerlidir. Özellik kümesini otomatik olarak iki görünüme bölmek için birkaç
yöntem önerdiler ve sonuçta ortaya çıkan deneysel bağımsızlık ve yeterliliğin, birlikte eğitilmiş
algoritmanın performansı ile pozitif olarak ilişkili olduğunu gösterdiler, bu da yeterliliği ve
bağımsızlığı optimize eden özellik bölünmelerinin iyi sınıflandırmalara yol açtığını gösterdi.
4.2.2 Tek görüntülü ortak eğitim
Du ve ark. (2011), belirli bir özellik kümesindeki hiçbir doğal bölünme önceden bilinmediğinde
bile ortak eğitim başarılı olabilir. Bu gözlem, ortak eğitim ile ilgili literatür boyunca
yankılanmıştır ve bu sözde tek görüşlü ortamda ortak eğitimin uygulanmasına yönelik birçok
farklı yaklaşım mevcuttur.
Chen vd. (2011) tarafından önceden tanımlanmış ayrık özellik kümelerine olan ihtiyacı azaltmaya çalıştı.
her ortak eğitim yinelemesinde özellik kümesini otomatik olarak böler. Ortak eğitimle yakından ilgili
tek bir optimizasyon problemi formüle ettiler ve hem özellik setlerinin ayrık olması gerekliliğini hem
de Balcan ve diğerlerinin genişletme özelliğini birleştirdiler. (2005). Bu yaklaşım için, her bir veri
noktasının birden çok görünümünün otomatik olarak üretildiği, kısmen sentetik bir veri kümesinde
umut verici sonuçlar gösterdiler. Wang ve Zhou (2010) ortak eğitimin başarılı olması için yeterli ve
gerekli koşullar hakkında gerekçelendirilmiş, ortak eğitime grafik tabanlı bir perspektiften yaklaşarak,
etiket yaymanın her öğrenciye dönüşümlü olarak uygulandığı. Bu yaklaşımın bir dezavantajı, ortak
eğitimden esinlenmiş olmasına rağmen, herhangi bir değişiklik yapmadan keyfi denetlenen bir
öğrenme algoritmasına uygulanamamasıdır: ortak eğitime benzeyen işlemler, doğrudan optimize
edilen hedef işlevine gömülüdür.
123
Makine Öğrenimi (2020) 109: 373–440 389
Tek görüntülü veri setlerini birden çok görünüme bölmek için çeşitli teknikler önerilmiştir.
Örneğin Wang ve ark. (2008b) oluşturulması önerildi k rastgele izdüşümleri
verileri ve bunları görünümler olarak kullanın. k farklı sınıflar. Zhang ve Zheng (2009),
temel bileşen analizini kullanarak verileri daha düşük boyutlu bir alt uzay üzerine
yansıtmayı ve maksimum varyans ile dönüştürülmüş özellikleri açgözlülükle seçerek
sözde görünümleri oluşturmayı önerdi. Yaslan ve Çataltepe (2010) Verileri farklı bir temele
dönüştürmezler, ancak verilen etiketlere göre yüksek karşılıklı bilgiye sahip özellikler
tercih edilerek her görünüm için öznitelikleri yinelemeli olarak seçer.
Açık görüşlerin bulunmadığı veri kümelerine ortak eğitime benzeyen algoritmaları uygulamaya
yönelik diğer yaklaşımlar, sınıflayıcılar arasında çeşitliliği tanıtmanın diğer yollarına odaklanır.
Örneğin, denetlenen algoritmalar için farklı hiperparametreler kullanılabilir (Wang ve Zhou2007; Zhou
ve Li2005a) veya farklı algoritmaları birlikte kullanın (Goldman ve Zhou 2000; Xu vd.2012; Zhou ve
Goldman2004). Wang ve Zhou (2007) ortak eğitimin neden tek görüntülü ortamlarda işe
yarayabileceğine dair hem teorik hem de deneysel analizler sağladı. Öğrenciler arasındaki çeşitliliğin
ortak performansları ile pozitif yönde ilişkili olduğunu gösterdiler. Zhou ve Li (2005b) önerilen tri-
eğitim, üç sınıfçının dönüşümlü olarak eğitildiği yer. Üç sınıflandırıcıdan ikisi, belirli bir veri noktası
için tahminlerinde anlaştığında, bu veri noktası, ilgili etiketle birlikte diğer sınıflandırıcıya aktarılır. En
önemlisi, üçlü eğitim, bireysel sınıflandırıcıların olasılıksal tahminlerine dayanmaz ve bu nedenle çok
daha geniş bir denetimli öğrenme algoritmalarına uygulanabilir.
Üçlü eğitim yaklaşımının yazarları, bunu üç öğrenciden fazlasına, özellikle de

rastgele ormanlara (Li ve Zhou 2007). Yaklaşım olarak bilinenortak orman ile başlar
karar ağaçlarını tüm etiketli veriler üzerinde bağımsız olarak eğitmek. Daha sonra, her bir yinelemede, her
sınıflayıcı, diğer tüm sınıflandırıcıların ortak tahminine dayalı olarak sözde etiketlenmiş verileri alır.
etiketlenmemiş verilere göre: sınıflandırma fraksiyonu bir sınıfı öngörüyorsa ŷben etiketsiz
veri noktası xben sözde etiketli veri noktası olan belirli bir eşiği aşıyor (xben , yben ) geçildi
sınıf. Karar ağaçlarının tümü etiketlenmeleri ve sözde etiketlenmeleri konusunda yeniden eğitilir.
veri. Bir sonraki yinelemede, önceden sözde etiketlenmiş verilerin tümü yeniden etiketlenmemiş olarak
değerlendirilir. Ağaçların sayısı sonsuzluğa yaklaştıkça, bu yaklaşımın bir tür kendi kendine eğitim haline
geldiğini not ediyoruz.
Ortak orman, yeni etiketlenmiş verileri tahmin güvenirliği temelinde ağırlıklandırarak sözde
etiketleme adımında muhtemelen yanlış etiketlenmiş veri noktalarının etkisini azaltmak için bir
mekanizma içerir. Deng ve Zu Guo (2011) "şüpheli" sözde etiketleri kaldırarak muhtemelen
yanlış etiketlenmiş veri noktalarının etkisini daha fazla önlemeye çalıştı. Her birinden sonra
sözde etiketleme adımı, her sözde etiketli veri noktası için tahmin x ben karşılaştırılır
(sözde-) etiketleri k en yakın komşular (hem etiketli hem de sözde etiketli);
durumunda bir uyuşmazlık durumunda sözde etiket, xben .
Ortak ormanla ilgili mevcut literatürde, ormanın büyüklüğünün her zaman
altı ağaçla sınırlandırılmıştır. Denetlenen rastgele ormanlarda, ağaç sayısı arttıkça
performansın önemli ölçüde gelişebileceği deneysel olarak gösterilmiştir (Oshiro et
al.2012). Bu nedenle, ortak ormandaki ağaçların sayısının artırılması, rastgele ormanlara
kıyasla göreceli performansı önemli ölçüde etkileyecektir.
4.2.3 Ortak düzenleme
Ortak eğitim yöntemleri, sözde etiketli veriler biçiminde, aralarında bilgi aktararak
sınıflandırıcılar arasındaki anlaşmazlığı azaltır. Ayrıca, birlikte eğitimin örtük amacı,
sınıflayıcılar topluluğunun hata oranını en aza indirmektir. Sindhwani vd. önerilen
123
390 Makine Öğrenimi (2020) 109: 373–440
bu özellikleri tek bir amaç işlevinde açık hale getirmek için (Sindhwani et al. 2005; Sind-
hwani ve Rosenberg 2008). Teklif ediyorlarortak düzenleme, hem topluluk kalitesinin hem de temel
öğrenciler arasındaki anlaşmazlığın aynı anda optimize edildiği bir düzenlileştirme çerçevesi. Temel
fikir, iki terimden oluşan nesnel bir işlev kullanmaktır: Biri topluluk tarafından yapılan yanlış
tahminleri cezalandıran, diğeri ise temel sınıflandırıcıların farklı tahminlerini doğrudan cezalandıran.
Bu çerçevede görüntü başına gürültüyü işlemek için Yu ve ark. (2011) tanıtıldı Bayes ortak eğitimi, Bu,
birden çok görünümden gelen verileri birleştirmek için bir grafik model ve birlikte düzenleme için
çekirdek tabanlı bir yöntem kullanır. Bu model, Christoudias ve diğerleri tarafından veri noktası
başına farklı gürültü seviyelerini işlemek için genişletildi. (2009). Ortak eğitim, birlikte düzenleme
hedefi için açgözlü bir optimizasyon stratejisi olarak görülebilir. Amaç işlevinin iki bileşeni alternatif
bir şekilde en aza indirilir: topluluğun tahmin hatası, temel öğrenicileri bağımsız olarak eğiterek en aza
indirilir ve sınıflayıcılar arasındaki anlaşmazlık, tahminlerin bir sınıflandırıcıdan diğerlerine sanki
temelliymiş gibi yayılmasıyla en aza indirilir. hakikat. Bununla birlikte, genel birlikte düzenleme
hedefinin bir sarmalayıcı yöntemi kullanılarak optimize edilmesi gerekmediğini ve birçok ortak
düzenleme algoritmasının farklı yaklaşımlar kullandığını not ediyoruz (bkz., Sindhwani ve Rosenberg
2008; Yu vd.2011).
4.3 Güçlendirme
Topluluk sınıflandırıcıları, eğitilen ve daha sonra birleşik tahminler oluşturmak için kullanılan birden çok
temel sınıflandırıcıdan oluşur (Zhou 2012). Toplu öğrenim trenlerinin en basit biçimik temel
bağımsız olarak sınıflandırır ve tahminlerini toplar. Bu basit yaklaşımın ötesinde,
denetimli toplu öğrenmenin iki ana dalı vardır:Torbalama ve artırıcı (Zhou 2012).
Torbalama yöntemlerinde, her temel öğrenciye bir dizi l orijinal veri kümesinden
(önyükleme) değiştirilerek rastgele bir şekilde örneklenen veri noktaları. Temel
sınıflandırıcılar bağımsız olarak eğitilir. Eğitim tamamlandığında çıktıları, grubun
tahminini oluşturmak için toplanır. Arttırma yöntemlerinde, diğer yandan, her
temel öğrenci önceki temel öğrenicilere bağlıdır: tam verilerle sağlanır
ancak veri noktalarına uygulanan ağırlıklarla. Bir veri noktasının ağırlığıxben dayanır
önceki temel öğrencilerin performansı xben , yanlış sınıflandırılmış veri noktalarına
daha büyük ağırlıklar atanacak şekilde. Son tahmin doğrusal olarak elde edilir
temel sınıflandırıcıların tahminlerinin kombinasyonu.
Teknik olarak, artırma yöntemleri ağırlıklı bir sınıflandırma grubu oluşturur ht
açgözlü moda. İzin VermekFT-1 (x) =∑T-1
t =1αt · ht (x) Sınıflandırıcıların topluluğunu belirtmek htağırlık ile
αt bu zamanda T - 1. Ayrıca (ŷ, y) etiketi tahmin etmek için kayıp işlevini belirtir ŷ için
gerçek etiketli bir veri noktası y. Algoritmanın her yinelemesinde, ek bir sınıflandırıcı
hT topluluğa belirli bir ağırlık ile eklenir αT, öyle ki maliyet fonksiyonu
∑
L (FT) = l (FT (xben ), yben )
i =1 l
=∑ (FT-1 (xi) + αT · hT (xben ), yben )
i =1
küçültülmüştür. Unutmayın, zaman zamanT, topluluk FT-1 sabittir. Belirli kayıp işlevi
seçenekleriyle, örneğin (ŷ, y) = tecrübe(-ŷ · y), optimizasyon problemi, ağırlıklı olarak
belirlemek için sınıflandırma problemi hT, ve optimum olanı ifade etmemize izin verir αT açısından
kaybının hT eğitim verilerinde.
123
Makine Öğrenimi (2020) 109: 373–440 391
Tanım olarak, torbalama yöntemlerinde temel öğreniciler bağımsız olarak eğitilir. Bu nedenle,
gerçek anlamda yarı denetimli tek torbalama yöntemi, bireysel temel öğrenicilere kendi kendine
eğitimi uygulayacaktır. Bununla birlikte, birlikte eğitimin, torbalama yöntemleriyle yakından
ilişkili olduğu görülebilir: sınıflandırıcıların etkileşiminin tek yolu, sözde etiketli verilerin
değişimidir; bunun dışında sınıflayıcılar bağımsız olarak ve eşzamanlı olarak eğitilebilir. Bununla
birlikte, çoğu ortak eğitim yöntemi, torbalama yöntemlerinin tanımlayıcı bir özelliği olan
önyüklemeyi kullanmaz. Diğer yandan artırmada, temel öğrenciler arasında doğal bir bağımlılık
vardır. Sonuç olarak, artırma yöntemleri, her bir öğrenme adımından sonra sözde etiketli verilerin
tanıtılmasıyla, yarı denetimli ortama kolayca genişletilebilir; bu fikir, yarı denetimli güçlendirme
yöntemleri sınıfına yol açar.
Yarı denetimli güçlendirme yöntemleri, son yirmi yılda kapsamlı bir şekilde incelenmiştir.
Gibi denetimli güçlendirme yöntemleriyle elde edilen başarıAdaBoost (Freund
ve Schapire 1997), gradyan artırma ve XGBoost (Chen ve Guestrin 2016) sağlar
yarı denetimli ortama destek getirmek için büyük motivasyon. Ayrıca, kendi kendine eğitim ve
ortak eğitimin sözde etiketleme yaklaşımı, artırma yöntemlerine kolayca genişletilebilir.
4.3.1 SSMBoost
Yarı denetimli güçlendirme yöntemlerine yönelik ilk çaba, AdaBoost'u yarı denetimli ortama
genişleten Grandvalet ve arkadaşları tarafından yapılmıştır. Yarı denetimli bir yükseltme
algoritması önerdiler (Grandvalet ve ark.2001), daha sonra gradyan artırma perspektifinden
genişletip motive ettiler (d'Alché Buc et al. 2002). Mevcut grubun tahminlerine ve yapım
aşamasındaki temel öğrencinin tahminlerine dayalı olarak etiketlenmemiş veriler için bir kayıp
işlevi tanımlanır. Deneyler, çoklu kayıp fonksiyonlarıyla gerçekleştirildi; yazarlar, yenisinin
beklenen kaybını kullanarak en güçlü sonuçları bildirdi,
sınıf. Ağırlıklı hataεt temel sınıf için ht böylece etiketlenmemiş olanı içerecek şekilde uyarlanmıştır.
ağırlık terimine neden olan veri noktaları αt etiketlenmemiş verilere de bağlı olmak.
SSMBoost, en önemlisi, etiketlenmemiş veri noktalarına sözde etiketler atamaz.
Olarak Sonuç olarak, yarı denetimli temel öğrenicilerin etiketsiz verileri kullanmasını
gerektirir ve bu nedenle, sarmalayıcı yöntemleri olan diğer yarı denetimli artırma
algoritmalarının çoğunun aksine, özünde yarı denetlenir. Yine de, SSMBoost buraya
dahil edilmiştir, çünkü yarı denetimli temel öğrenenler gerektirmeyen diğer tüm yarı
denetimli hızlandırma algoritmaları için temel oluşturur.
4.3.2 MONTAJ
The BİRLEŞTİRMEK algoritması, kısaltması Uyarlanabilir Denetimli Topluluk, Her yinelemeden

sonra etiketlenmemiş veri noktalarını sözde etiketler ve bu sözde etiketli veri noktalarını bir
sonraki sınıflayıcının yapımında kullanır, böylece yarı denetimli temel öğrenenlere olan ihtiyacı
azaltır (Bennett ve ark. 2002). Yazarlarının gösterdiği gibi, ASSEMBLE işlev uzayında
sınıflandırma marjını etkin bir şekilde maksimize eder.
ASSEMBLE'da sözde etiketler kullanıldığından, bir sonraki temel öğrenciye hangi etiketsiz
veri noktalarının aktarılacağına karar vermek önemsiz değildir. Bennett vd. (2002) önyüklemeyi
kullanmayı önerdi - örneğin, rastgele ve değiştirilerek tekdüze olarak örnekleme, l veri
noktaları
l + u etiketli ve etiketsiz veri noktaları.
123
392 Makine Öğrenimi (2020) 109: 373–440
4.3.3 SemiBoost
Yarı denetimli yükseltme algoritması SemiBoost Temel öğrenenler tarafından kullanılacak

veri noktalarının, grafik tabanlı yöntemlerden ilkeleri kullanarak, manifold varsayımına
dayanarak seçilmesi sorununu ele alır (Mallapragada et al. 2009). Her etiketsiz veri
noktasına bir sözde etiket atanır ve karşılık gelen tahmin güvencesi, veri noktaları
arasındaki benzerliği kodlayan önceden belirlenmiş bir komşuluk grafiğine göre
hesaplanır. Ardından, bu sözde etiketli veri noktalarının bir alt kümesi, sonraki temel
öğrenciyi eğitmek için etiketli veri noktaları kümesine eklenir. Bu alt küme için seçilen bir
örneğin olasılığı, tahmin güvenirliği ile orantılıdır. SemiBoost, Grabner ve diğerleri
tarafından videolarda nesne takibine başarıyla uygulandı. (2008).
SemiBoost, nihai etiket tahminini bireysel öğrencilerin tahminlerinin doğrusal bir kombinasyonu
olarak ifade eden standart artırıcı sınıflandırma modelini kullanır. Bununla birlikte, maliyet işlevi, daha
önce açıklanan yarı denetimli güçlendirme yöntemlerinden oldukça farklıdır. Mallapragada vd. (2009)
Test verilerinin başarılı bir şekilde etiketlenmesinin aşağıdaki üç gerekliliğe uyması gerektiğini
savunur. İlk olarak, etiketsiz verilerin tahmin edilen etiketleri, birbirine yakın olan etiketsiz veri
noktaları için tutarlı olmalıdır. İkinci olarak, etiketlenmemiş verilerin tahmin edilen etiketleri, yakındaki
etiketlenmiş veri noktalarının etiketleriyle tutarlı olmalıdır. Üçüncüsü, etiketli veri noktaları için tahmin
edilen etiketler gerçek etiketlerine karşılık gelmelidir. Bu gereksinimler, kısıtlı bir optimizasyon
problemi şeklinde ifade edilir, burada ilk ikisi hedef fonksiyon tarafından yakalanır ve sonuncusu bir
kısıtlama olarak empoze edilir. Başka bir deyişle, SemiBoost algoritması, optimizasyon problemini
çözmek için artırmayı kullanır.
küçültmekLL (ŷ, A, FT) + λ · LU (ŷ, A, FT)

FT
tabiŷi = yben , i = 1,. . . ,l,
nerede LU ve LL sırasıyla etiketsiz ve birleşik etiketli ve etiketsiz veriler arasındaki
tutarsızlığı ifade eden maliyet işlevleridir veλ ∈ Rsürekli bir yönetimdir
maliyet terimlerinin göreceli ağırlığı; Bir bir n × n ikili olarak ifade eden simetrik matris
veri noktaları arasındaki benzerlikler. Son olarak,FTSınıflandırıcılar topluluğunun zamandaki ortak tahmin
işlevini belirtir T. Denklemdeki optimizasyon hedefinin olduğunu not ediyoruz. 1 çok
karşılaşılan maliyet fonksiyonlarına benzer grafik tabanlı yöntemler (bkz. Mezhepler. 6.3 ve 7) içinde
aynı manifold üzerindeki veri noktalarını tutarlı bir şekilde etiketleyen sınıflandırıcıları tercih
eder. Bununla birlikte, grafik tabanlı yöntemlerde, genellikle etiketli-etiketsiz ve etiketsiz-
etiketsiz çiftler arasında hiçbir ayrım yapılmaz.
4.3.4 Diğer yarı denetimli güçlendirme yöntemleri
Daha önce tartışılan üç yöntem, yarı denetimli artırıcı araştırmanın özünü oluşturur.
Alandaki diğer çalışmalar şunları içerir:RegBoost, SemiBoost gibi, amaç işlevinde yerel
etiket tutarlılığını içerir (Chen ve Wang 2011). RegBoost'ta bu terim aynı zamanda
marjinal dağılımın tahmini yerel yoğunluğuna da bağlıdır.p (x). Birkaç deneme
etiket tutarlılığı düzenlemesini çok sınıf ayarına genişletmek için yapılmıştır (Tanha et
al. 2012; Valizadegan vd.2008).
123
Makine Öğrenimi (2020) 109: 373–440 393
5 Denetimsiz ön işleme
Şimdi olarak bilinen ikinci bir tümevarım yöntemi kategorisine dönüyoruz. denetimsiz prepro-bırakma,
bu, sarmalayıcı yöntemlerinden ve özünde yarı denetimli yöntemlerden farklı olarak, etiketsiz verileri
ve etiketli verileri iki ayrı aşamada kullanır. Tipik olarak, denetimsiz aşama, etiketlenmemiş verilerden
örnek özelliklerin otomatik olarak çıkarılmasını veya dönüştürülmesini içerir (özellik çıkarma), verilerin
denetimsiz kümelenmesi (kümeleme ve sonra etiketleme),
veya öğrenme prosedürünün parametrelerinin başlatılması (Ön eğitim).
5.1 Özellik çıkarma
Makine öğreniminin ilk günlerinden beri, özellik çıkarma, sınıflayıcıların oluşturulmasında önemli bir
rol oynadı. Özellik çıkarma yöntemleri, girdi verilerinin, sınıflandırıcının performansının artacağı veya
yapısının sayısal olarak daha verimli olacağı şekilde bir dönüşümünü bulmaya çalışır. Özellik çıkarma,
birkaç kitap ve ankette kapsanan kapsamlı bir araştırma konusudur. Az sayıda özellikle öne çıkan
tekniğe odaklanıyoruz ve okuyucuyu daha fazla bilgi için özellik çıkarma yöntemleriyle ilgili mevcut
literatüre yönlendiriyoruz (bkz., Örneğin Guyon ve Elisseeff2006; Sheikhpour vd.2017).
Pek çok özellik çıkarma yöntemi gözetimsiz, yani etiketleri hesaba katmadan çalışır.
Temel bileşenler Analizi, örneğin, girdi verilerini doğrusal olarak ilintisiz olacak şekilde
farklı bir temele dönüştürür ve ana bileşenleri varyanslarına göre sıralar (Wold et al.
1987). Diğer geleneksel özellik çıkarma algoritmaları etiketli veriler üzerinde çalışır
ve yüksek öngörü gücüne sahip özellikleri çıkarmaya çalışır (bkz.Örneğin Guyon ve
Elisseeff2006).
Yakın zamandaki yarı denetimli öznitelik çıkarma yöntemleri temel olarak, derin sinir ağlarını kullanarak
giriş verilerinin gizli temsillerini bulmaya odaklanmıştır (Bölüm. 6.2.1, sinir ağlarını daha ayrıntılı olarak
tartışıyoruz). Bunun en belirgin örneği,otomatik kodlayıcı: sinirsel
girişini yeniden yapılandırma amacına sahip bir veya daha fazla gizli katman içeren ağ. Nispeten az
sayıda düğüme sahip gizli bir katman dahil ederek, buna genellikletemsil katman,
ağ, girdi verilerini kompakt bir şekilde temsil etmenin bir yolunu bulmaya zorlanır.
Ağ eğitildikten sonra, özellikler temsil katmanı tarafından sağlanır. Standart bir
otomatik kodlayıcının şematik bir temsili Şek.4.
Ağın iki bölümden oluştuğu düşünülebilir: kodlayıcı h, hangi haritalar
giriş vektörü x gizli temsiline h (x), ve kod çözücü g, gizli gösterimi orijinaline geri
eşlemeye çalışan x. Ağ, bir kayıp fonksiyonunun optimize edilmesiyle eğitilir.
yeniden yapılandırma hatası: girdiler arasında bir tutarsızlık ölçüsü
x ve ilgili yeniden yapılanma g (h (x)). Ağ eğitildikten sonra, herhangi bir x elde
etmek için ağın kodlayıcı kısmı boyunca basitçe yayılarak bulunabilir h (x). Popüler
bir otomatik kodlayıcı türü, otomatik kodlayıcı denoising,
giriş verilerinin gürültülü sürümleri üzerinde eğitilen, gürültüsüz orijinallere karşı
rekonstrüksiyonların yeniden yapılandırma hatasını cezalandıran (Vincent et al. 2008). Diğer
bir varyant, kontraktif otomatik kodlayıcı, otomatik kodlayıcının girişteki bozulmalara
duyarlılığını doğrudan cezalandırır (Rifai ve ark.2011b).
Otomatik kodlayıcılar, önemli miktarda bilgiden ödün vermeden girdi uzayının daha
düşük boyutlu bir temsilini bulmaya çalışır. Böylece, doğal olarak, girdi uzayının verilerin
üzerinde yattığı daha düşük boyutlu alt yapılar içerdiği varsayımına göre hareket ederler.
Ayrıca, sınıflandırmaya bir ön işlem adımı olarak uygulandıklarında, aynı alt boyutlu alt
yapı üzerindeki iki numunenin aynı etikete sahip olduğunu varsayarlar. Bu gözlemci-
123
394 Makine Öğrenimi (2020) 109: 373–440
x g (h (x))
h (x)
...... ...
Kodlayıcı Kod çözücü

h (·) g (·)
Şekil 4 Bir otomatik kodlayıcının basitleştirilmiş gösterimi. Dikdörtgenler, ağ içindeki katmanlara karşılık
gelir; yamuklar, ağın birden çok katmandan oluşabilen kodlayıcı ve kod çözücü kısımlarını temsil eder
varyasyonlar, otomatik kodlayıcıların altında yatan

varsayımların, yarı denetimli manifold varsayımı.
Bazı alanlarda veriler, doğası gereği anlamlı bir özellik vektörü olarak temsil edilmez. Birçok
yaygın sınıflandırma yöntemi böyle bir temsil gerektirdiğinden, bu durumlarda öznitelik çıkarımı bir
zorunluluktur. Özellik çıkarma adımı, daha sonra, birgömme
farklı girdi nesneleri arasındaki ilişkileri hesaba katarak verilen nesnenin bir vektör
uzayına. Bu tür yaklaşımların örnekleri doğal dil işlemede bulunabilir (Collobert et
al. 2011; Mikolov vd.2013) ve ağ bilimi (Grover ve Leskovec 2016; Perozzi vd.2014;
Wang vd.2016).
5.2 Küme ve sonra etiketleme
Kümeleme ve sınıflandırma geleneksel olarak görece ayrık araştırma alanları olarak görülmüştür.
Bununla birlikte, birçok yarı denetimli öğrenme algoritması, sınıflandırma sürecini yönlendirmek için
kümelemeden ilkeleri kullanır.Küme ve sonra etiketleme yaklaşımlar, kümeleme ve sınıflandırma
süreçlerine açık bir şekilde katılan bir grup yöntem oluşturur: önce tüm mevcut verilere denetimsiz
veya yarı denetimli bir kümeleme algoritması uygular ve sınıflandırma sürecini yönlendirmek için
ortaya çıkan kümeleri kullanır.
Goldberg vd. (2009) İlk olarak etiketli verileri ve etiketlenmemiş verilerin bir alt kümesini kümeleyin.
Daha sonra bir sınıflandırıcı, içerdiği etiketli veriler üzerinden her bir küme için bağımsız olarak eğitilir.
Son olarak, etiketlenmemiş veri noktaları, ilgili kümeleri için sınıflandırıcılar kullanılarak sınıflandırılır.
Kümeleme adımında, Hellinger mesafesi kullanılarak veri noktaları üzerinde bir grafik oluşturulur;
boyut kısıtlamalı spektral kümeleme daha sonra ortaya çıkan grafiğe uygulanır. Kümeleme yalnızca
verileri bölümlere ayırmak için kullanıldığından, ardından her bir kümeye bireysel öğrenciler
uygulandığında, yaklaşım, denetimli temel öğreniciyi destekler.
Demiriz vd. (1999) İlk olarak verileri yarı denetimli bir şekilde kümeleyin, kümeleri tercih edin
sınırlı etiket kirliliği ile (yani veri noktalarının etiketlerinde yüksek derecede tutarlılık)
123
Makine Öğrenimi (2020) 109: 373–440 395
belirli bir küme içinde) ve ortaya çıkan kümeleri sınıflandırmada kullanın. Dara vd. (2002)
daha ayrıntılı bir ön işleme adımı önerdi, kendi kendini düzenleyen haritalar (Kohonen
1998) etiketli verilere yinelemeli bir şekilde. Etiketsiz veri noktaları daha sonra eşlenir ve
her biri için bir küme ataması sağlanır. Etiketsiz bir verinin bulunduğu küme
nokta xben eşlendiğinde yalnızca aynı etikete sahip veri noktaları bulunur, bu etiket de atanır
-e xben . Bu süreç yinelenebilir, ardından ortaya çıkan etiket atamaları endüktif bir sınıflandırıcıyı eğitmek için
kullanılabilir (Dara ve diğerlerinin çalışmasında, çok katmanlı bir algılayıcı). Not ediyoruz
bu yaklaşımın bir sarmalayıcı yöntem olarak kabul edilebileceğini (bkz. 4).
5.3 Ön eğitim
Eğitim öncesi yöntemlerde, etiketsiz veriler, denetimli eğitimi uygulamadan önce

potansiyel olarak ilginç bölgelere doğru karar sınırını yönlendirmek için kullanılır.
Bu yaklaşım doğal olarak, hiyerarşik modelin her katmanının girdi verilerinin gizli bir
temsili olarak kabul edilebildiği derin öğrenme yöntemleri için geçerlidir. Bu paradigmaya
karşılık gelen en yaygın bilinen algoritmalarderin inanç ağları ve yığılmış
otomatik kodlayıcılar. Her iki yöntem de yapay sinir ağlarına dayanır ve bir ağın parametrelerini
(ağırlıklarını) etiketli verilerle parametreleri ince ayarlamadan önce, etiketsiz verileri kullanarak
model uzayındaki ilginç bölgelere doğru yönlendirmeyi amaçlar.
Ön eğitim yaklaşımları, derin öğrenme alanında derin köklere sahiptir. 2000'lerin başından
beri, birden fazla gizli katmana (derin sinir ağları) sahip sinir ağları, giderek artan miktarda ilgi
görüyor. Bununla birlikte, yüksek sayıda ayarlanabilir parametreleri nedeniyle, bu ağları eğitmek
çoğu zaman zor olmuştur: yakınsama yavaş olma eğilimindeydi ve eğitimli ağlar zayıf
genellemeye yatkındı (Erhan ve ark.2010). İlk zamanlarda, bu sorunlar genellikle denetimsiz ön
eğitim yöntemleri kullanılarak ele alındı. O zamandan beri, bunun yerini çoğunlukla ağırlık
paylaşımı, düzenlileştirme yöntemleri ve farklı aktivasyon fonksiyonları uyguladı. Sonuç olarak,
bu bölümde ele aldığımız çalışma esas olarak 2000'lerin ilk on yılından kaynaklanmaktadır.
Bununla birlikte, temel ilkeler hala geçerlidir ve diğer yöntemlerde hala kullanılmaktadır (örneğin,
merdiven ağları, bkz. Bölüm.6.2.2).
Derin inanç ağları birden çok yığından oluşur sınırlı Boltzmann makineleri (RBM'ler),
Açgözlü bir tarzda etiketsiz verilerle katman katman eğitilen (Hinton et al. 2006).
Ortaya çıkan ağırlıklar daha sonra, ek bir çıktı katmanı ile artırılan aynı mimariye
sahip derin bir sinir ağı için başlatma olarak kullanılır ve modelin etiketli veriler
üzerinde denetimli bir şekilde eğitilmesini sağlar.
Yığınlanmış otomatik kodlayıcılar derin inanç ağlarına çok benzer, ancak temel modelleri olarak RBM'ler yerine
otomatik kodlayıcıları kullanırlar. Otomatik kodlayıcılar, katman katman eğitilmiştir; burada kodlamah (x) her bir
otomatik kodlayıcı tarafından üretilen bir sonraki otomatik kodlayıcıya girdi olarak geçirilir ve daha sonra onu minimum
hata ile yeniden yapılandırmak için eğitilir. Son olarak, bu eğitimli otomatik kodlayıcılar birleştirilir, bir çıktı katmanı
eklenir (derin inanç ağlarında olduğu gibi) ve ortaya çıkan ağ, denetimli bir şekilde etiketli veriler üzerinde eğitilir.
Paradigma, gürültüden arındırma ve sözleşmeli otomatik kodlayıcılar dahil olmak üzere birden çok otomatik kodlayıcı
türü ile çalışır (Vincent ve ark.2008;
Rifai vd. 2011b).

Derin inanç ağlarının ve yığınlanmış otomatik kodlayıcıların deneysel bir analizine dayanarak,
Erhan ve ark. (2010), denetimsiz ön eğitimin, sinir ağı modelini model uzayında daha iyi
genelleme sağlayan bölgelere doğru yönlendirdiğini öne sürdü. Derin sinir ağları, genellikle her
katmandaki verilerin daha üst düzey bir temsilini öğrendikleri perspektifinden motive edilir. Bu
nedenle, ağın her katmanının giriş verilerinin farklı bir temsilini içerdiği düşünülebilir. Hem derin
inanç ağları hem de yığınlanmış otomatik kodlayıcılar
123
396 Makine Öğrenimi (2020) 109: 373–440
Bu hiyerarşik temsillerin çıkarılmasında modeli yönlendirmeye çalışmak, modeli bilgilendirici olarak

kabul edilen temsillerin çıkarılmasına doğru itmek. Bu açıdan, eğitim öncesi yöntemler, daha önce
açıklanan denetimsiz özellik çıkarma yöntemleriyle yakından ilgilidir: her ikisi de giriş verilerinden
anlamlı bilgiler çıkarmak için etiketsiz verileri kullanır. Bununla birlikte, önemli bir şekilde, denetimsiz
ön işleme için kullanılan parametreler, ön eğitim yöntemlerinin denetimli ince ayar aşamasında
değiştirilebilirken, özellik çıkarma yaklaşımlarının denetimsiz aşamasından sonra sabit kalırlar.
6 Kendinden yarı denetimli yöntemler
Şimdi dikkatimizi etiketli ve etiketsiz örnekler için bileşenlerle doğrudan bir nesnel işlevi
optimize eden tümevarımlı öğrenme algoritmalarına çeviriyoruz. Dediğimiz bu yöntemler
doğası gereği yarı denetimli, herhangi bir ara adımlara veya denetlenen temel
öğrenicilere güvenmeyin. Genellikle, hedef işlevine etiketsiz örnekleri dahil etmek için
mevcut denetimli yöntemlerin uzantılarıdırlar.
Genel olarak, bu yöntemler açık veya dolaylı olarak yarı denetimli öğrenme
varsayımlarından birine dayanır (bkz. 2.1). Örneğin, maksimum marj yöntemleri düşük
yoğunluk varsayımına dayanır ve çoğu yarı denetimli sinir ağları pürüzsüzlük varsayımına
dayanır. En erken doğası gereği yarı denetimli sınıflandırma yöntemlerine, yani maksimum
marj yöntemlerine genel bir bakışla başlıyoruz. Daha sonra, pürüzsüzlük varsayımını
doğrudan içeren pertürbasyon temelli yöntemleri tartışacağız. Bunlar yarı denetimli sinir
ağlarının çoğunu kapsar. Daha sonra, açık ya da dolaylı olarak verilerin üzerinde
bulunduğu manifoldlara yaklaşan çeşitli tabanlı teknikleri ele alıyoruz. Son olarak, üretken
modelleri ele alıyoruz.
6.1 Maksimum marj yöntemleri
Maksimum marj sınıflandırıcıları, verilen veri noktaları ile karar sınırı arasındaki mesafeyi
maksimize etmeye çalışır. Bu yaklaşım, yarı denetimli düşük yoğunluk varsayımına karşılık gelir:
tüm veri noktaları ve karar sınırı arasındaki marj büyük olduğunda (bazı aykırı değerler hariç),
karar sınırı düşük yoğunluklu bir alanda olmalıdır (Ben-David ve ark. .2009). Kavramsal olarak,
maksimum marj metotları bu nedenle yarı denetimli ortama genişlemeye elverişlidir: yoğunluğun
nerede düşük olduğunu ve dolayısıyla büyük bir marjın nerede elde edilebileceğini belirlemek
için etiketsiz verilerden elde edilen bilgiler dahil edilebilir.
6.1.1 Destek vektör makineleri
Denetimli maksimum marj sınıflandırıcısının en belirgin örneği, destek

vektör makinesi (SVM): Veri noktalarının doğru sınıflandırılmasını teşvik ederken, karar
sınırından ona en yakın noktalara olan mesafeyi maksimize etmeye çalışan bir
sınıflandırma yöntemi. Yarı denetimli ortamda önerilecek ilk maksimum marj
yaklaşımlarından biriydi ve o zamandan beri kapsamlı bir şekilde çalışıldı. Denetimli
SVM'leri tanıtıyoruz, ancak okuyuculara Bishop tarafından yazılan makine öğrenimi kitabını
(2006) daha kapsamlı bir giriş için.
Bir SVM'nin amacı, en üst düzeye çıkaran bir karar sınırı bulmaktır. marj hangi
karar sınırı ile ona en yakın veri noktaları arasındaki mesafe olarak tanımlanır.
Terim ayrıca genellikle karar sınırından çıkan alanı tanımlamak için kullanılır.
123
Makine Öğrenimi (2020) 109: 373–440 397
hiçbir veri noktasının bulunmadığı. Theyumuşak kenar boşluğu SVM, veri noktalarının belirli bir
maliyetle marjı ihlal etmesine (yani karşılık gelen marj sınırı ile karar sınırı arasında kalmasına veya
hatta yanlış sınıflandırılmasına) izin veren popüler bir SVM çeşididir. SVM'ler örtülü destekler
nesnelerin daha yüksek boyutlu özellik uzaylarıyla eşleştirilmesi sözde çekirdek∈el hüner.
d
Resmi olarak, bir SVM'yi eğitirken, bir ağırlık vektörü bulmaya çalışıyoruz w Rile
minimum büyüklük∈e ve bir önyargı ve riable b ∈ R, öyle ki yben · (wᵀ · xben + b) ≥ 1 - ξben için
tüm veri noktaları xben XL. Buraya, ξben≥ 0, "gevşek değişken" olarak adlandırılır xben , izin veren
xben amaç işlevine dahil edilen marjı bir miktar maliyetle ihlal etmek. The
ilgili optimizasyon problemi aşağıdaki gibi formüle edilebilir:
∑l
1 · ||w ||2 + C ·
küçültmek ξben
w,b,ξ 2
i =1
tabiyben · (wᵀ · xben + b) ≥ 1 - ξben , i = 1,. . . ,l,
ξ ≥ 0, i = 1,. . . ,l,
nerede C ∈ R marjı ihlal eden veri noktalarının cezalandırılması için sabit bir ölçeklendirme
faktörüdür. EğerC büyükse, optimum marj genellikle dar olacaktır ve eğer C küçük
optimum marj genellikle geniş olacaktır. Böylece,C Karar sınırının karmaşıklığı ile
eğitim setindeki tahmin doğruluğu arasındaki değiş tokuşu yöneten bir düzenlilik
parametresi olarak hareket eder.
Yarı denetimli SVM'ler veya S3VM'ler kavramı benzerdir: marjı maksimize etmek
istiyoruz ve etiketli verileri doğru şekilde sınıflandırmak istiyoruz. Bununla birlikte, yarı
denetimli ortamda, ek bir hedef konuyla ilgili hale gelir: ayrıca, marjı ihlal eden
etiketlenmemiş veri noktalarının sayısını en aza indirmek istiyoruz. Etiketsiz veri
noktalarının etiketleri bilinmediğinden, marjı ihlal edenler (yani içinde kalan) en yakın sınır
sınırına olan uzaklıklarına göre cezalandırılır.
S3VM'ler için optimizasyon sorununun sezgisel uzantısı böylelikle
∑l n
1 · ||w ||2 + C · ∑
küçültmek ξben + C′ · ξben

w,b,ξ 2
i =1 i = l +1
(2)
tabiyben · (wᵀ · xben + b) ≥ 1 - ξben , i = 1,. . . ,l,
|wᵀ · xben + b | ≥ 1 - ξben , i = l + 1,. . . ,n,
ξben≥ 0, i = 1,. . . ,n,
nerede C′ ∈ R etiketlenmemiş veri noktalarıyla ilişkili marj ihlali maliyetidir.

S3VM'ler Vapnik tarafından önerildi (1998), sorunu daha fazla trans-
geleneksel bakış açısı: sadece ağırlık vektörü, sapma ve gevşeklik değişkenleri üzerinde optimizasyon yapmak yerine,
ayrıca etiket tahminlerini optimize etmeyi önerdi ŷU. Etiketsiz için kısıtlama
veriler, etiketli verilere benzer şekilde formüle edildi, ancak tahmin edilen etiketlerle ŷ U. İlk
bakışta farklı olsa da, bu formülasyon optimizasyon problemine eşdeğerdir2 yukarıda
herhangi bir etiketlemeden beri ŷU sadece olabilir ·op ol·tima + Eğer her biri için ŷben∈ ŷU, xben doğru tarafta
ᵀxben
karar sınırının (yani yben (w b) ≥ 0). Aksi takdirde daha iyi bir çözüm olabilir
basitçe etiketini ters çevirerek elde edilir xben .
SVM'lerin yarı denetimli ortama genişletilmesi önemli bir dezavantaj taşır:
S3VM'lerin eğitimi konveks olmayan ve NPhard olduğunda karşılaşılan optimizasyon
sorunu. Sonuç olarak, S3VM'lerin çalışmasındaki çabaların çoğu, onları pratikte verimli bir
şekilde eğitmeye odaklanmıştır.
123
398 Makine Öğrenimi (2020) 109: 373–440
İlk çabalar, S3VM'lerin uygulanmasında, ancak yalnızca küçük veri kümelerinde umut verici
sonuçlar gösterdi. Örneğin Bennett ve Demiriz (1999) amaç fonksiyonunda L2 normu yerine L1
normunu kullanmayı önerdi ve problemi karma bir tamsayı programlama problemi olarak ortaya
koydu. Yaygın olarak kullanılan en eski optimizasyon yaklaşımı Joachims (1999), kimin
optimizasyon problemini çözmek için yaklaşım, rastgele bir atama ile başlar. ŷ U ve
düşük bir değer C′. Algoritmanın her yinelemesi daha sonra üç adımdan oluşur. İlk
önce Mevcut etiket atamasına karşılık gelen denetimli SVM optimizasyon problemi ŷ U
dır-dir Ardından, algoritma, bu ters çevirme için her bir veri noktası çiftinin etiketini
Bu tür çiftler kalmayıncaya kadar objektif işlevi iyileştirir. En sonunda,C′ artırılır. The
algoritma ne zaman biter C′ kullanıcı tarafından belirlenen önceden belirlenmiş bir değere ulaşır.
S3VM'leri çözmeye yönelik diğer yaklaşımlar da ortaya konmuştur. Örneğin,
birkaç çalışma, yarı sonlu programlama yöntemleri kullanılarak çözülebilen, amaç
fonksiyonunun dışbükey gevşemelerini önermiştir. Bu tür ilk yaklaşım, de Bie ve
Cristianini (2004, 2006) ve daha sonra Xu ve Schuurmans (2005). Ancak, zamanın
karmaşıklığı nedeniyle, bu yaklaşımlar büyük miktarda veriye ölçeklenmez.
Chapelle vd. (2008) S3VM'ler için optimizasyon prosedürlerine genel bir bakış sağladı
2008 yılına kadar ve genel olarak S3VM optimizasyon yöntemlerini iki kategoriye ayırın: com-
binatoryal yöntemler, fi etiket atamasını yapmak ŷU amaç işlevini en aza indiren ve sürekli
yöntemler, etiket atamalarını kullanarak optimizasyon problemini doğrudan çözme
ŷi = işaret(wᵀ·xben +b).Şimdiye kadar anlattığımız tüm yaklaşımlar, kombinatoryal kategoriye girer.
Ancak optimizasyon probleminde formülasyon2 sürekliliğe karşılık gelir
yaklaşmak; temelini oluşturur, örneğin,içbükey dışbükey prosedür, ayrıştıran
dışbükey olmayan objektif işlevi bir dışbükey ve bir içbükey bileşen haline getirir ve
içbükey bileşeni mevcut çözümde doğrusal bir yaklaşımla değiştirerek optimizasyon
problemini yinelemeli olarak çözer (Chapelle et al. 2008; Collobert vd.2006).
Diğer sürekli yöntemler, bu problem olgusunu kullanır. 2 kısıtlamalar olmaksızın bir
optimizasyon problemi olarak yeniden formüle edilebilir. Bu, etiketli bir nokta varsa
xben∈ XL marjı ihlal etmez, o zaman ξi = Optimal çözümde 0. Marjı ihlal ederse, o zaman
ξi = 1 - yben · (wᵀ · xben + b). Etiketsiz bir veri noktası için xben∈ XU, ξi = 0 eğer
marjı ihlal etmez, aksi takdirde, ξi = 1 - |wᵀ · xben + b |. Böylece optimizasyon
sorun şu şekilde yeniden formüle edilebilir:
∑l
1 · ||w ||2 + C ·
küçültmek en fazla (0, 1 - yben · f (xben ))
w,b 2
i =1
n
+ C′ ·∑ en fazla (0, 1 - | f (xi) |),
i = l +1
nerede f (xi) = wᵀ · xben + b.

Bu yaklaşımın altında yatan∇TSVMbyChapelle ve Zien (2005), pürüzsüz bir
Eşitlikteki nesne fonksiyonunun yaklaşıklığı. 3 etiketli veri noktaları için kaybın karesinin alınmasıyla
ve etiketlenmemiş veri noktalarının kaybının üstel bir fonksiyonla yaklaşıklanmasıyla elde edilir. Bu
optimizasyon problemi daha sonra gradyan inişi ile çözülür, buradaC′ yavaş yavaş
sıfıra yakın bir değerden amaçlanan değerine yükselmiştir. Chapelle vd. (2006a) benzer
bir yaklaşımı benimsedikleri yerde C′ sabittir ve amaç işlevini yalnızca etiketli verileri
kullanmaktan nihai amaç işlevine dönüştürmek için sürekli bir yaklaşım kullanın.
Çoğu yarı denetimli öğrenme yönteminde olduğu gibi, S3VM'lerin denetimli meslektaşlarından daha
iyi performans göstermeleri garanti edilmez (Singh ve ark. 2009). Özel olarak, eğer varsa
123
Makine Öğrenimi (2020) 109: 373–440 399
Yarı denetimli öğrenme yönteminin temel varsayımlarının ihlal edilmesi durumunda,

denetimsiz hedefin tanıtımı sırasında büyük bir performans düşüşü riski vardır. S3VM'ler
söz konusu olduğunda, düşük yoğunluklu bir alandan geçen ve etiketli veriler üzerinde
makul sınıflandırma performansı sağlayan çok çeşitli karar sınırları mevcut olabilir. Sonuç
olarak, bu tür sınıflandırıcıların genelleme performansının önemli bir varyans göstermesi
beklenebilir.
Li ve Zhou (2015) çeşitli bir dizi göz önünde bulundurularak bu sorunu hafifletmeyi önerdi.
düşük yoğunluklu ayırıcılar ve mümkün olan en kötü temel gerçek altında en iyi
performansı gösteren ayırıcıyı seçme. Tüm S3VM varyantları gibi, yöntemleri de optimum
karar sınırının düşük yoğunluklu bir alanda olduğu varsayımına dayanır. S4VM (güvenli
S3VM) adı verilen algoritmaları iki aşamadan oluşur. İlk olarak, çeşitli düşük yoğunluklu
karar sınırları oluşturulur. Bu amaçla yazarlar, deterministik tavlama ve sezgisel
örnekleme yöntemini kullanarak karar sınırları ile ilişkili etiket tahminleri arasındaki ikili
benzerliği cezalandıran bir maliyet fonksiyonunu en aza indirmeyi önermektedir. İkinci
olarak, S4VM eğitiminin sonucu olarak, denetlenen karar sınırı üzerinde maksimum en
kötü durum performans kazanımına sahip karar sınırı seçilir.
Performans kazancı, doğru etiketlenmiş veri noktalarının sayısındaki artış eksi

yanlış etiketlenmiş veri sayısındaki artış olarak formüle edilir. İkinci terim bir faktör
ile çarpılırλ ∈ R, performans düşüşü riskinin miktarını yönetmek isteyen biri. Resmi
olarak, bu bir puanlama işlevi tarafından ele alınır.J (ŷ, y, ysvm) bir dizi için
tahmin edilen etiketler ŷ, Zemin gerçeği y, ve denetimli SVM tahminleri ysvm olarak tanımlandı
J (ŷ, y, ysvm) = kazanç(ŷ, y, ysvm) - λ · kaybetmek(ŷ, y, ysvm),
nerede kazanç ve kaybetmek sırasıyla doğru ve yanlış etiketlenmiş veri noktalarındaki

artışları gösterir. Optimum etiket atamasıȳ en kötü durumda, doğru etiketleme şu
şekilde bulunabilir: [ ]
ȳ ∈ argmax ˆm̂inJ (y, ŷ, ysvm),
y∈ {±1}sen y∈M
neredeM karşılık gelen karar sınırının düşük yoğunluklu bir alanı keseceği şekilde
tüm aday etiket atamalarının kümesidir. Tüm olası etiket atamalarının optimizasyonu
nedeniyle, bu optimizasyon sorunu NP-zordur. Li ve Zhou (2015) iyi bir aday çözümü
etkili bir şekilde bulmak için sorunun dışbükey gevşetilmesini önermiştir. Gerçek
etiket atamasının gerçekten de bu sette olduğu varsayımına dayanarak, eğerλ ≥ 1,
S4VM'nin performansı hiçbir zaman karşılık gelen SVM'ninkinden daha düşük değildir. Bu
bulguyu deneysel olarak doğruladılar ve uygulamalarının diğer S3VM yaklaşımlarına benzer
standart SVM'lere göre performans iyileştirmeleri sağladığını, ancak bunların aksine,
performansın denetlenen SVM'lere göre hiçbir zaman önemli ölçüde düşmediğini gösterdiler.
Optimizasyon prosedürünün ikinci aşamasının formülasyonu, vektör makinelerini
desteklemekle sınırlı değildir; aslında, teorik olarak diğer yarı denetimli öğrenme
algoritmalarına da uygulanabilir. Li ve Zhou (2015) ayrıca belirleyici bir tavlama
yaklaşımında her iki aşamayı da aynı anda gerçekleştirmeyi teklif eder.
6.1.2 Gauss süreçleri
Marj maksimizasyonu kavramı doğrudan destek vektör makinelerine dahil edilmiştir ve

bu nedenle yarı denetimli makinelere kolayca genişletilmeleri şaşırtıcı olmamalıdır.
123
400 Makine Öğrenimi (2020) 109: 373–440
ayarı. Daha az açık bir şekilde, diğer denetimli yöntemlerle de benzer çabalar sarf
edilmiştir. Özellikle, Lawrence ve Jordan (2005) genişledi Gauss süreçleri idare etmek
etiketsiz veriler.
Gauss süreçleri, fonksiyon üzerindeki son olasılığı tahmin eden parametrik
olmayan modellerin bir ailesidir. fgirdi uzayındaki noktaları sürekli bir çıktı uzayına
eşleme. Lawrence ve Jordan'ın makalesinin odak noktası olan ikili sınıflandırma
amaçları için kullanıldığında (2005), bu çıktı sırayla etiket alanına eşlenir Y = {-1, 1}.
Öğrenme aşamasında, f veri noktalarını gözlemleme olasılığının
((xben , yi)) l
i =1 maksimize edilmiştir. Ortaya çıkan model, birben-etiket vektörü
üzerinde boyutlu Gauss dağılımı y giriş veri noktalarının l etiketli sayıdır
Veri noktaları. Daha önce görülmemiş veri noktaları için tahminlerx ∗ daha sonra, gözlemlenen
veri noktalarına bağlı olarak ilgili sınıf etiketinin son olasılığını değerlendirerek model tarafından
yapılabilir. X, ilişkili etiketleri y, ve gözlemlenen veri noktası x ∗. Ilişkili
kovaryans matrisi, hepsinden elde edilen Gram matrisidir. l + Bazı çekirdek işlevlerini
kullanan 1 veri noktası k.
Lawrence ve Jordan (2005) ikili sınıflandırma için genişletilmiş Gauss süreçleri
etiketlenmemiş veri noktalarını olabilirlik işlevine dahil ederek yarı denetimli
durum. Özellikle, etiketsiz bir veri noktası olasılığıx karar sınırına yakın olduğunda
düşüktür (yani, f (x) 0'a yakın) ve karar sınırından uzakta olduğunda yüksektir.
Olası etiketlerin alanı, birboş kategori; the
bu boş kategorinin son olasılığı, karar sınırı etrafında yüksektir. Etiketsiz veri
noktalarının hiçbir zaman boş kategoriye eşlenemeyeceği kısıtlamasını empoze
ederek, modelin etiketlenmemiş veri noktalarının yüksek yoğunluklu bir alanından
geçen bir karar sınırı seçmesi açıkça engellenir. Başka bir deyişle, etiketlenmemiş
veri noktaları karar sınırından uzak olmalıdır.
Gauss süreçlerinin yarı denetimli ortama bu genişlemesi ilginç bir yan etkiye
sahiptir: denetimli Gauss süreçlerinin aksine, ek (etiketsiz) verilerin tanıtılması,
arka varyansı artırabilir. Başka bir deyişle, ek veriler belirsizliği artırabilir. Bu etki,
tek bir etiketsiz veri noktası için olasılık fonksiyonunun gözlemlenmesinden
kaynaklanmaktadır.x∗ iki modlu olabilir eğer f (x∗) 0'a yakın.
6.1.3 Yoğunluk düzenleme
Karar sınırını düşük yoğunluklu bir alandan geçmeye teşvik etmenin bir başka yolu,
tahmin edilen arka sınıf olasılıkları arasındaki örtüşme miktarını açıkça maliyet
fonksiyonuna dahil etmektir. Büyük miktarda örtüşme olduğunda, karar sınırı yüksek
yoğunluklu bir alandan geçer ve az miktarda örtüşme olduğunda düşük yoğunluklu
bir alandan geçer. Bu varsayımı, sınıflandırma bağlamında kullanılan amaç işlevini
düzenlemek için kullanmak için çeşitli yaklaşımlar önerilmiştir.
Grandvalet ve Bengio (2005) bunu resmileştirmeyi önerdi maksimum bir posteri-
ori (MAP) çerçevesi, model parametrelerine bir ön empoze ederek, öngörücü modelde küçük
sınıf çakışmasına neden olan parametreleri tercih ederek (ek olarak, Chapelle et al. 2006b).
Özellikle, Shannon'ın koşullu entropisini sınıf örtüşmesinin bir ölçüsü olarak kullandılar. Önceki,
bir sabit ile ağırlıklandırılırλ ∈ R. Ortaya çıkan amaç genellikle dışbükey değildir. Yazarlar
optimizasyon probleminin deterministik tavlama yoluyla çözülmesini önermişlerdir. Bu entropi
düzenleme yöntemi, maksimum olasılığa dayalı herhangi bir denetimli öğrenme yöntemine
uygulanabilir; yazarlar lojistik regresyon kullanarak deneyler yaptılar.
Corduneanu ve Jaakkola (2003) bir tahmininin doğrudan dahil edilmesi önerildi p
(x), giriş verileri üzerinden amaç fonksiyonuna dağıtım. Bir maliyet terimi eklerler
123
Makine Öğrenimi (2020) 109: 373–440 401
yüksek yoğunluklu alanlarda, posterior olasılığın olduğu inancını yansıtan objektif

fonksiyon y şartlandırılmış x çok fazla değişmemelidir. Bu amaçla, tüm giriş alanını
kaplarlarX birden çok, muhtemelen üst üste binen küçük bölgelerle; Daha sonra
maliyet terimi, bölgedeki tahmini yoğunluğa göre ağırlıklandırılarak, bu bölgelerin
her birindeki etiketler ve girdiler arasındaki karşılıklı bilgilerin toplamı olarak
hesaplanır. Çalışmaları, Szummer ve Jaakkola'nın (2003). Liu vd. (2013, 2015) önceki
yoğunluğu düğüm bölmesine dahil etmeyi önerdi
karar ağaçları kriteri. Bir karar ağacındaki bir düğümdeki verileri bölmek için hiper düzlemi
seçerken, yaklaşımları, yaklaşık olarak Gauss çekirdek yoğunluğu tahmin edicilerini
kullanarak yüksek yoğunluklu alanları cezalandırır.p (x). Ortaya çıkan yarı denetimli karar
ağaçlarının 100'ünden oluşan rastgele ormanlarla deneyler yaptılar ve çeşitli veri kümeleri
için denetlenen rastgele ormanlar üzerinde önemli performans iyileştirmeleri
gözlemlediler. Levatić vd. (2017) etiketlenmemiş veriler için bir kirlilik ölçüsü oluşturarak
bölme kriterinde etiketsiz verileri kullanmak için daha genel bir çerçeve sundu.
Deneylerinde, bölme sınırının her iki tarafındaki veri alt kümeleri içinde özellik tutarlılığını
teşvik ederek sayısal veriler için ampirik varyansı ve nominal veriler için Gini safsızlığını
cezalandırdılar. Bu yöntemlerin taksonomimizdeki özel kategorizasyonunun, bölme kriteri
seçimine bağlı olduğunu not ediyoruz.
6.1.4 Bir marj maksimizasyonu biçimi olarak sözde etiketleme
Kullanılan temel öğrenciye bağlı olarak, kendi kendine eğitim yaklaşımı Bölüm. 4 Yapabilmek
ayrıca bir marj maksimizasyonu yöntemi olarak kabul edilebilir. Örneğin, denetimli
SVM'lerle kendi kendine eğitim kullanırken, karar sınırı yinelemeli olarak etiketsiz
örneklerden uzaklaştırılır. Etiketsiz veriler açıkça kayıp işlevine dahil edilmese de, bu,
S3VM'lerde olduğu gibi düşük yoğunluk varsayımından yararlanma anlamına gelir.
6.2 Pertürbasyon temelli yöntemler
Düzgünlük varsayımı, öngörücü bir modelin girdisindeki yerel karışıklıklara karşı dayanıklı
olmasını gerektirir. Bu, bir veri noktasını az miktarda gürültüyle karıştırdığımızda, gürültülü ve
temiz girdiler için tahminlerin benzer olması gerektiği anlamına gelir. Bu beklenen benzerlik,
veri noktalarının gerçek etiketine bağlı olmadığından, etiketlenmemiş verileri kullanabiliriz.
Düzgünlük varsayımını belirli bir öğrenme algoritmasına dahil etmek için birçok farklı
yöntem mevcuttur. Örneğin, giriş veri noktalarına gürültü uygulanabilir ve temiz ve
gürültülü tahminler arasındaki fark kayıp işlevine dahil edilebilir. Alternatif olarak,
sınıflayıcının kendisini karıştırarak veri noktalarına örtük olarak gürültü uygulanabilir. Bu
iki yaklaşım kategorisini ortaya çıkarır.pertürbasyona dayalı yöntemler.
Pertürbasyona dayalı yöntemler genellikle sinir ağları ile uygulanır. Ek
(denetimsiz) kayıp terimlerini amaç işlevlerine doğrudan dahil etmeleri nedeniyle,
yarı denetimli ortama görece kolaylıkla genişletilebilirler. Son yıllarda, çeşitli
uygulama alanlarındaki başarılı uygulamaları nedeniyle sinir ağları yeniden ilgi
görmüştür (bkz., Örneğin, Collobert ve ark.2011; Krizhevsky vd.2012; LeCun vd.
2015). Sonuç olarak, yarı denetimli sinir ağlarına olan ilgi de arttı. Özellikle, derin sinir
ağları olarak adlandırılan birçok katmana sahip sinir ağları, yarı denetimli ortama
ilginç uzantılar getirmiştir. Bu doğası gereği yarı denetlenen sinir ağları, aşağıda
tartıştığımız özellik çıkarma için kullanılan sinir ağlarından farklıdır.
123
402 Makine Öğrenimi (2020) 109: 373–440
Mezhep. 5.1: etiketlenmemiş veriler, ayrı bir ön işleme adımında kullanılmak yerine
doğrudan optimizasyon hedefine dahil edilir. Bu tür yöntemlerle ilgili tartışmamıza
devam etmeden önce, onlara çok aşina olmayan okuyucuları hedefleyen sinir ağlarına
kısa, genel bir giriş sağlıyoruz. (Derin) sinir ağlarına daha kapsamlı bir giriş için,
ilgilenen okuyucuyu Goodfellow ve arkadaşlarının son kitabına yönlendiriyoruz. (2016).
6.2.1 Sinir ağları
Bir sinir ağı, aralarında ağırlıklı bağlantılar bulunan basit işlem elemanlarından
oluşan bir ağ üzerinden bir giriş vektörünü yayarak bir çıktı vektörünü hesaplayan
resmi bir sistemdir. Bu basit işlem öğelerinedüğümler ve her biri bir
aktivasyon fonksiyonu sonuçta çıktısını belirler. Burada ele aldığımız ileri
besleme ağlarında, düğümler genellikle şu şekilde gruplanır:katmanlar, her
katmandaki düğümler yalnızca bitişik katmanlardan düğümlere bağlıdır. Çıkış
vektörü, giriş vektörünün ağın ağırlıklı bağlantıları aracılığıyla yayılmasıyla
hesaplanır. Her bir düğümün çıktısı, genellikle onun adı olarak anılır.aktivasyon,
aktivasyon fonksiyonu girdilerinin ağırlıklı toplamına uygulanarak hesaplanır.
Denetlenen sinir ağlarında, ağ ağırlıkları genellikle belirli bir giriş vektörü için istenen çıktı
vektörünü hesaplamak için optimize edilir. Sınıflandırma görevini göz önünde bulundurarak,
f:d→R|Y | bir Rsinir ağı tarafından modellenen vektör değerli işlevi gösterir, haritalama
bir giriş vektörü x ∈Rda |Y | -boyutlu çıktı vektörü, burada Y olası kümesini gösterir
sınıflar. İşlevf bir veya birden çok katmandan oluşan bir sinir ağı tarafından modellenmiştir;
ardışık katmanlardaki düğümler, ağırlıklı kenarlarla bağlanır. Ağırlıklar bir ağırlık matrisinde
saklanırW, pozisyondaki eleman (i, j) düğümler arasındaki kenarın ağırlığını gösterir ben ve j.
Kullanırız f (x; W) girdiyi yayarak elde edilen çıktıyı belirtmek için x
ağ aracılığıyla ve son katmanın aktivasyonlarını değerlendirerek.
Ardından, çıktı katmanı etkinleştirmeleriyle ilişkili maliyeti hesaplayan bir kayıp işlevi
tanımlanır f (x; W) bir veri noktası için x gerçek etiketli y. Tam maliyet fonksiyonu daha sonra şu
şekilde tanımlanır:
∑
L (W) = l ( f (xben ; W), yben ).
i =1
Parametrizasyonunun açık kavramı f tarafından W genellikle özlü olduğu için ihmal edilir.
İçindeki ağırlıklar W ağ üzerinden girdi örneklerini geçirerek ve maliyetteki bir veya
daha fazla örneğin payını yayarak yinelemeli olarak optimize edilir L geriye doğru
ağ. Bu süreçtegeri yayılım Ağırlıklar, maliyeti yinelemeli olarak en aza indirmek için gradyan inişi
veya benzer bir yöntem kullanılarak güncellenir (Goodfellow et al. 2016). İçin
iyi bir performans elde etmek (kayıp açısından), ağın genellikle tüm eğitim
setinde birden çok kez geçmesi gerekir ve bu tür geçişlerin her biri, bir epoch.
Sinir ağları ile ilgili literatürde çeşitli gösterim stilleri kullanılmaktadır. Özellikle,
kullanımını tartıştığımız makalelerden bazılarıθ ağ ağırlıklarını ve çıktılarını belirtmek için
ilgili ağ tarafından fθ (x). Bu makaleleri tartışırken, ilgili makale ile bu makale arasındaki
ilişkilendirilebilirliği sürdürmek için gerekli gördüğümüzde bu gösterim stilini kullanırız.
anket.
6.2.2 Yarı denetimli sinir ağları
Çok çeşitli kayıp fonksiyonları için geri yayılım algoritmasının basitliği ve etkinliği, L.
Bu yaklaşım
123
Makine Öğrenimi (2020) 109: 373–440 403
Etiketsiz veriler üzerinde bir düzenleme biçimi olarak düşünülebilir, neredeyse tüm
yarı denetimli derin öğrenme yöntemlerinde kullanılır. Dahası, derin sinir ağlarındaki
temsillerin hiyerarşik doğası, onları diğer yarı denetimli yaklaşımlar için uygun bir
aday haline getirir. Ağdaki daha derin katmanlar, girdi örneğinin giderek daha soyut
temsillerini ifade ederse, etiketsiz verilerin ağı daha bilgilendirici soyut temsillere
doğru yönlendirmek için kullanılabileceği iddia edilebilir. Bu argümana dayanan
yaklaşımlar, pürüzsüzlük varsayımı yoluyla derin sinir ağlarında kolaylıkla
uygulanabilir ve sözde tedirginliğe dayalı yarı denetimli sinir ağlarına yol açar.
6.2.3 Merdiven ağları
Bu tür ilk yaklaşım, merdiven ağı, Rasmus ve ark. (2015). Ağın ileri besleme bölümünü bir gürültü
azaltıcı otomatik kodlayıcının kodlayıcısı olarak kullanarak, bir kod çözücü ekleyerek ve yeniden
yapılandırma maliyetini cezalandırmak için maliyet fonksiyonuna bir terim dahil ederek etiketlenmemiş
verileri dahil etmek için bir ileri besleme ağını genişletir. Altta yatan fikir, girdinin yeniden
yapılandırılması için yararlı olan gizli temsillerin sınıf tahminini de kolaylaştırabileceğidir.
İleri beslemeli bir ağ düşünün K gizli katmanlar ve ağırlıklar W. Biz gösteriyoruz
bir katmanın girdileri k (normalizasyondan sonra) olarak zk, ve katmanın etkinleştirmeleri (yani
etkinleştirme işlevini uyguladıktan sonra) hk. Katman girdilerine atıfta bulunurken kısa ve öz olmak için
etkinleştirmeler, girdi verilerinden açıkça bahsetmiyoruz xben , ne de parametrelendirme W (Örneğin
Biz yazarız hk aktivasyon vektörü için k-ağırlıkları olan bir sinir ağındaki inci katman W
veri noktası için xben ). Normal bir ileri besleme ağında, belirli bir veri noktası için kayıp xben dır-dir
son katmanın aktivasyonları karşılaştırılarak hesaplanır f (xi) = hK karşılık gelen
etiket ybenile ( f (xben ), yben ). Denklemde gösterildiği gibi. 4, ağ için nihai maliyet işlevi o zaman
L (W) =∑l
i =1 ( f (xben ), yben ).
Merdiven ağları ek bir terim ekler L, ağın hassasiyetini girdinin küçük tedirginliklerine karşı
cezalandırmak için. Bu, tüm ağın bir denoising otomatik kodlayıcının kodlayıcı parçası olarak
ele alınmasıyla elde edilir: ortalama sıfır ve sabit varyansa sahip izotropik Gauss gürültüsü,
giriş örneklerine eklenir ve mevcut ileri besleme ağı,kodlayıcı Bölüm. Birkod çözücü daha
sonra son katman gösterimini alması beklenen yanına eklenir h K gürültülü bir veri noktasının
x̃,ve onu yeniden inşa etmek için dönüştürün x.
Bu hedefe ulaşmak için bir yeniden inşa maliyeti ağın maliyet işlevine eklenir. Bu doğal olarak
denetimsiz maliyet terimi, girdi veri noktaları ve bunların ağ tarafından oluşturulan yeniden
yapılandırmaları arasındaki farkı cezalandırır; hem etiketli hem de etiketsiz veriler için geçerlidir.
Merdiven ağlarının otomatik kodlayıcı bileşeni, normal denoising otomatik kodlayıcılara

oldukça benzer olsa da, bunlardan iki yönden farklıdır. İlk olarak, bir merdiven ağı sadece ilk
katmanda değil, her katmanda gürültü enjekte eder. Bir katmanın gürültülü girdilerini
gösteririzk
gibi zk̃ , ve sonuçta ortaya çıkan aktivasyonlar h̃k. Her numune için denetlenen kayıp
bileşeni (h̃K, y): kayıp fonksiyonu, gürültülü örnek için çıktıya göre değerlendirilir.
Test aşamasında, ağın herhangi bir noktasında gürültü oluşmadığını unutmayın.
İkinci olarak, merdiven ağları farklı bir yeniden yapılandırma maliyeti hesaplaması kullanır. Normal
denoising otomatik kodlayıcıların yalnızca temiz giriş arasındaki farkı cezalandırdığı durumlardax ve
yeniden yapılandırılmış versiyon x̂gürültülü girişin x,̃ merdiven ağı ayrıca verilerin gizli temsillerinin
yerel olarak yeniden yapılandırılmasını da cezalandırır. Bunu yapmak için, kod çözücüyü sahip olmaya
zorlarlar.K katmanlar, orijinal ağ (kodlayıcı) ile aynı sayıda katman. Bu katmanların her birinin ayrıca
kodlayıcıdaki karşılık gelen katmanla aynı sayıda düğüme sahip olması gerekir. Bir veri noktası
kodlayıcıdan geçerken, her katmandaki katman girişlerine gürültü eklenir. Ardından, kod çözücüdeki
her katmanda, yeniden yapılandırılmış temsilẑ k karşılaştırılır
123
404 Makine Öğrenimi (2020) 109: 373–440
gizli temsil zk temiz girdinin x katmanda k kodlayıcıda. Bu, elbette, her veri noktasının
ağdan iki kez geçmesini gerektirir: bir kez gürültü olmadan (elde etmek için)z),
ve bir kez gürültülü (elde etmek için zv
̃ e yeniden inşa edilmiş ẑ).
Merdiven ağlarının son yarı denetimli maliyet fonksiyonu daha sonra
n∑
∑ ∑K
L (W) = l ( f (xben ), yi) + ReconsCost (zk ben , ẑkben ),

i =1 i =1 k =1
ReconsCost (·, ·) normalize edilmiş iki gizli vektör arasındaki farkın karesi L2 normu
olarak tanımlanır ve etiketli ve etiketsiz veriler üzerinden toplanır. Bizim yaptığımız
aynı gösterimi kullanan merdiven ağlarındaki bilgi akışının ayrıntılı bir diyagramı için
okuyucuya Pezeshki ve diğerleri tarafından yapılan merdiven ağ çalışmasında Şekil
1'e başvururuz. (2016, s. 4). Merdiven ağları, yeniden yapılandırma hatalarını
cezalandırarak, ağı, verilerin ilginç gizli temsillerini çıkarmaya doğru itmeye çalışır.
Tema yöntemi, gizli bir temsilinhK bu yeniden yapılandırmak için yararlıdır
x ilgili sınıf etiketinin tahminini de kolaylaştırabilir. Rasmus vd. (2015), merdiven ağlarının,
MNIST dahil olmak üzere kısmen etiketlenmiş verilerle görüntü veri kümelerinde son
teknoloji sonuçlar elde ettiğini gösterdi. İlginç bir şekilde, yalnızca etiketli verileri
kullanırken gelişmeler de bildirdiler. Prémont-Schwarz vd. (2017) ağın ardışık örneklerinin
kodlayıcıları ve kod çözücüleri arasına bağlantılar ekleyerek merdiven ağ mimarisini
tekrarlayan ayara genişletti.
Rasmus vd. ayrıca, merdiven ağlarının daha basit, hesaplama açısından daha verimli bir
varyantı önerdi. Genel olarak -model olarak adlandırılan bu yöntem, yalnızca son katman için
yeniden yapılandırma maliyetini içerir. Bu nedenle, tam bir kod çözücünün inşa edilmesine
gerek yoktur. -Modelin, ilgili tam denetimli modele göre önemli performans iyileştirmeleri
sağladığı deneysel olarak gösterilmiştir.
Pezeshki vd. (2016) farklı bileşenlerin kapsamlı bir ampirik çalışmasını yürüttü
merdiven ağları. Çalışmaları, sinir ağının ilk katmanındaki yeniden yapılandırma maliyetinin, o
katmandaki gürültünün eklenmesiyle birlikte, genel performans üzerinde kritik bir etkiye sahip
olduğunu ortaya çıkardı. Bu mimarinin, yeniden yapılandırma hatasını değerlendirirken ağın ilk
katmanından ziyade yalnızca son katmanını dikkate alan -modelden farklı olduğunu not ediyoruz.
6.2.4 Sözde topluluklar
Giriş verilerini açıkça karıştırmak yerine, sinir ağı modelinin kendisini de

bozabilir. Modeldeki sağlamlık, daha sonra, bozulmuş ağın etkinleştirmeleri ile
aynı girdi için orijinal ağın etkinleştirmeleri arasındaki farka bir ceza uygulanarak
yükseltilebilir. Bachman vd. (2014) bu yaklaşım için genel bir çerçeve önerdi;
ebeveyn modeli parametrelerle θ tedirgin
bir veya daha fazlasını edinin çocuk modelleri. Dedikleri bu çerçevede sözde topluluklar,
pertürbasyon bir gürültü dağılımından elde edilir. Tedirgin ağfθ̃ (x; ξ)
daha sonra bozulmamış ana ağa göre oluşturulur fθ (x) ve bir örnek ξ itibaren gürültü
dağılımı. Yarı denetimli maliyet işlevi daha sonra denetlenen bir bölümden oluşur
ve denetimsiz bir bölüm. İlki, etiketli giriş verileri için karışık bir ağ kaybını yakalar ve
ikincisi, etiketlenmemiş veri noktaları için karışık ağlar arasındaki tutarlılığı yakalar.
Bu çerçeveye dayanarak, Bachman ve ark. (2014) yarı denetimli bir maliyet fonksiyonu önermiştir.
Bir sinir ağı düşünün K katmanlar ve izin ver f k
θ (x) ve fk̃ θ (x; ξ) belirtmek k-inci katman
123
Makine Öğrenimi (2020) 109: 373–440 405
sırasıyla pertürbe edilmemiş ve bozulmuş ağın aktivasyonları. Yapay sinir ağları

için sözde topluluğun maliyet işlevi,
[ ]
l
1 ·∑L ( f ̃(
E θxben ; ξ), yben )

ξ∼ l
i =1
n∑
[ 1∑ K k k
k
+ E · λ · V (kfθ (xben ), fθ̃ (xben ;) ξ)
ξ∼ n i =1 k =2
tutarlılık kaybı nerede Vk sarsılmamış ve huzursuz ağların aktivasyonları

arasındaki farkları cezalandırır. k-aynı girdi için. katman; λk göreceli ağırlık
bu belirli maliyet döneminin.2 Bachman vd. her birini kademeli olarak artırmayı teklif edin˘ k mesai,
aslında, erken yinelemelerde denetlenen hedefe daha fazla ağırlık vermek. Bir kişi-
gürültü yaratmanın büyük ölçüde öne çıkan yöntemi, bırakmak, her eğitim yinelemesinde
ağırlıkları rastgele sıfıra ayarlayan (yani sinir ağındaki bağlantıları kaldıran) (Srivastava et al.
2014). Başlangıçta önerilen biçiminde, yalnızca denetlenen zarar bileşenine uygulanmıştır.
Ancak Wager ve ark. (2013) ve Bachman vd. (2014), bırakmanın etiketlenmemiş verilere de
kolayca uygulanabileceğini gösterdi.
Bachman ve diğerleri tarafından önerilen çerçeve. yarı denetimli ortamlarla sınırlı
değildir: kayıp işlevindeki denetlenen terim, herhangi bir denetimli öğrenme problemine
uygulanabilir. Ayrıca, katman başına etkinleştirme karşılaştırmasının uygun bir alternatifle
değiştirilmesi gerekmesine rağmen, sinir ağlarından başka öğrenme algoritmalarına
benzer bir yaklaşım uygulanabilir. Elbette, sinir ağları tamamen bağlantı ağırlıklarıyla
parametreleştirildiği için, nispeten basit bir model pertürbasyon uygulaması sunarlar.
6.2.5 5-model
Düzensiz ebeveyn modelin aktivasyonlarını maliyet fonksiyonundaki tedirginli modellerin

aktivasyonları ile karşılaştırmak yerine, tedirgin olan modelleri doğrudan karşılaştırmak da
mümkündür. İki tedirgin sinir ağı modelinin eğitildiği bu yaklaşımın basit bir çeşidi, Laine
ve Aila tarafından önerildi (2017). Bırakmayı kullanıyorlar (Srivastava ve ark.2014) olarak
pertürbasyon süreci ve iki ağın son katman aktivasyonlarındaki farklılıkları kare kaybını
kullanarak cezalandırın. Maliyet fonksiyonundaki denetimsiz terimin ağırlığı sıfırdan başlar
ve kademeli olarak artırılır. -Model adını verdikleri bu yaklaşım, sözde toplulukların basit
bir varyantı olarak görülebilir.
6.2.6 Zamansal topluluk
Şimdiye kadar açıklanan yöntemlerde kullanılan gürültü süreci stokastik

olduğundan, tüm sinir ağı modeli stokastik bir model olarak düşünülebilir. -Model ile
ağ, aynı girişte aynı dağıtımdan çekilen iki tedirgin ağ modelinin çıktılarındaki farkın
cezalandırılmasıyla düzenlenir. Bu fikir ikiden fazla tedirgin modele genişletilebilir.
Böyle bir yaklaşım Sajjadi ve ark. (2016), ayrıca girdi verilerini rastgele dönüşümlerle
bozan. Elbette, bu tür ikili karşılaştırmalar, her eğitim yinelemesinin çalışma süresini,
sayıdaki karesel olarak artıracaktır.
2Bachman vd. (2014) girdi verileri üzerindeki dağılımları göz önünde bulundurun ve sonuç olarak beklentileri formalizminde kullanın; Bu
ankette tutarlılık sağlamak için, bu beklentileri verilen veriler üzerinden ortalamalarla değiştirdik.
123
406 Makine Öğrenimi (2020) 109: 373–440
tedirginlikler. Sözde topluluklar, bu sorunu, tedirgin ağ aktivasyonlarını,

bozulmamış ağ modelinin aktivasyonları ile karşılaştırarak çözer.
-Model, Laine ve Aila'yı (2017) önermek
bir ağ modelinin çoklu pertürbasyonlarını birleştirmek için farklı bir yaklaşım: her
bir çağdaki sinir ağının aktivasyonlarını, önceki çağlardaki ağ aktivasyonları ile
karşılaştırırlar. Özellikle, her dönemden sonra, ağın çıktısını önceki çağlardaki ağın
çıktılarının üssel hareketli ortalamasıyla karşılaştırırlar. Her yinelemede bağlantı
ağırlıkları değiştiğinden, bu bir sözde birleştirme biçimi olarak düşünülemez, ancak
kavramsal olarak ilişkilidir, çünkü ağ çıktısının birden çok model düzensizliği
üzerinde yumuşatılmasıdır.
Bu yaklaşım - dublaj zamansal topluluk, çünkü eğitim süreci boyunca zaman
içinde farklı noktalarda ağ çıktılarındaki farklılığı cezalandırır.
-modelin uzantısı. Ancak karşılaştırmak yerinefθ (x; ξ) -e fθ (x; ξ ′) için ξ, ξ ′∼,
önceki son katman etkinleştirmelerinin üstel hareketli ortalamasına karşılaştırmalar kullanır.
çağlar. Etiketlenmemiş veri noktaları için kayıp işlevi önceki yinelemelerdeki ağ çıktısına
bağlı olduğundan, zamansal birleştirme, sözde etiketleme yöntemleriyle yakından
ilişkilidir. sözde etiket yaklaşım (Lee 2013) ve kendi kendine eğitim. Bununla birlikte, en
önemli fark, son katman aktivasyonlarının tüm setinin önceki ağ modelinin aktivasyonları
ile karşılaştırılmasıdır, oysa kendi kendine eğitim yaklaşımları vesözde etiket bu çıktıları
tek ve kesin bir tahmine (sözde etiket) dönüştürün.
6.2.7 Öğretmen demek
Geçici birleştirme kullanarak bir sinir ağını eğitirken, etiketlenmemiş veri noktaları büyük
aralıklarla öğrenme sürecine dahil edilir. Her giriş için etkinleştirmeler çağ başına yalnızca bir
kez üretildiğinden, etiketlenmemiş veri noktalarının etkinleştirilmesinin çıkarım sürecini
etkilemesi uzun zaman alır. Tarvainen ve Valpola (2017) ortalamaları ağ aktivasyonları
üzerinden hareket ettirmek yerine, ortalamaları bağlantı ağırlıkları üzerinden hareket ettirmeyi
düşünerek bu sorunun üstesinden gelmeye çalışmıştır.
Özellikle, her eğitim yinelemesinde üstel hareketli ağırlık ortalamasının hesaplanmasını
önerdiler ve ortaya çıkan son katman etkinleştirmelerini en son ağırlık kümesini kullanırken son
katman etkinleştirmeleriyle karşılaştırdılar. Dahası, gürültüye maruz bıraktılar. sağlamlığı
artırmak için veri girişi. Resmi olarak, ağırlıkları olan bir sinir ağını düşününWt -de
yineleme t, ve bir dizi ortalama ağırlık Ŵt. Etiketsiz bir giriş için kayıp işlevi, daha
sonra şu şekilde hesaplanır (x) = || f (x̃;Ŵt) - f (x̃′; Wt) ||2, nerede x̃ve x̃′iki gürültü
augmente =d ver
α ·bölümleriŴt+(1-α)x.· HesapladıktanW+1,neredeα sonrabozunmaWt+1oranıdırgeriyayılım.Modelikullanarak,şöyleadlandırıyorlarŴt+1hesaplandı
tarafından Ŵt +1
ortalama ağırlıklar Ŵ öğretmen model ve ağırlıkları olan son model

Wt Öğrenci model. Bu terminoloji o zamandan beri literatürde yarı denetimli
sinir ağları.
6.2.8 Sanal düşmanlık eğitimi
Şimdiye kadar tartıştığımız tedirginliğe dayalı yaklaşımların çoğu, girdideki küçük

karışıklıklara sağlamlığı teşvik etmeyi amaçlamaktadır. Bunu yaparken, pertürbasyonun
yönlülüğünü hesaba katmazlar: enjekte edilen gürültü genellikle izotropiktir. Bununla
birlikte, birçok çalışmada, sinir ağlarının girdideki karışıklıklara duyarlılığının, genellikle
bu karışıklıkların yönüne büyük ölçüde bağlı olduğu öne sürülmüştür (Szegedy ve ark.
2013; Goodfellow vd.2014b).
123
Makine Öğrenimi (2020) 109: 373–440 407
Miyato vd. (2018) karışıklığı alan bir düzenleme prosedürü önerdi

yönünü hesaba katın. Etiketli veya etiketsiz her veri noktası için, ağ çıktısındaki
en büyük değişikliği (sözdeadvesarial gürültü). Daha sonra, kayıp işlevine,
tedirgin ve bozulmamış giriş verileri için ağ çıktılarındaki farkı cezalandıran bir
terim eklerler. Kesintisiz veri noktası için, önceki optimizasyon yinelemesinden
gelen ağırlıklar kullanılır. Resmi olarak, bir örneklem için olumsuz kayıp
fonksiyonux olarak tanımlanabilir
(x) = D (f (x; Ŵ), f (x + γ reklamv; W)),
nerede D bazı sapma ölçüsüdür, γ reklamv düşman gürültüsü ve Ŵ önceki

ağ ağırlıkları. Yaklaşımlarına denirsanal düşmanlık eğitimi, denetlenenden sonra
düşmanlık eğitimi Goodfellow ve ark. tarafından önerilen yöntem. (2014b). İkinci
yaklaşımda, tedirgin olmayan girdi için ağın çıktıları yerine, bozulmuş girdinin
çıktıları ilgili gerçek çıktılarla karşılaştırılır. Bu nedenle, düzenli çekişme eğitimi
yalnızca denetimli bir ortamda uygulanabilir. Tartışmalı eğitim ve sanal çekişmeli
eğitimin her ikisi de sözleşmeli otomatik kodlayıcılarla yakın benzerlik gösterir:
burada, ağın girdilerdeki bozulmalara duyarlılığı, girdilere göre ağ çıktılarının
türevlerini doğrudan değerlendirerek cezalandırılır (Rifai ve ark.2011b).
Park vd. (2018) -model ile sanal düşmanlık eğitiminden kavramları birleştirdi
(bkz. Bölüm. 6.2.5). Etiketsiz veri noktalarını düşman gürültüsüyle karıştırmak yerine,
birdüşman bırakma maskesi ağ ağırlıklarına. İlk olarak, rastgele bir bırakma maskesi
örnekliyorlarεs. Sonra, bir maksimum mesafe içinde εs, bırakma maskesini bulurlar
εreklamv bırakma maskesi uygulandığında, bozulmamış ağ çıkışı ile ağ çıkışı arasındaki
farkı en üst düzeye çıkarır. Kayıp işlevi şu şekilde tanımlanır:
(x) = D (f (x; W, εs), f (x; W, εreklamv)),
ağın ağırlıklarla parametrelendirildiği yer W yanı sıra bırakma maskesi. Park vd.
(2018) sanal düşmanlık eğitimine göre küçük performans iyileştirmeleri bildirdi ve
- model.
6.2.9 Yarı denetimli karıştırma
Şimdiye kadar tartıştığımız pertürbasyona dayalı sinir ağları, pürüzsüzlük

varsayımının özellikle güçlü bir örneğine dayanır: pertürbasyonun yönüne
bakılmaksızın, girdideki küçük karışıklıklar için ağın tahminlerini özdeş olmaya
teşvik ederler. Son zamanlarda, birkaç araştırmacı, girdiye daha büyük tedirginlikler
uygulama olasılığını değerlendirdi. Bu senaryoda, pertürbasyonun yönü genel olarak
önemlidir: pertürbasyon karar sınırına doğru işaret ettiğinde, sinir ağı çıktıları (ancak
sonuçta ortaya çıkan sınıf ataması değil) tipik olarak karar sınırından uzağa işaret
ettiğinden daha fazla değişmelidir.
Bu yaklaşım, denetlenen karıştır Zhang ve ark. (2018). Sağlam bir sınıflandırıcıda,
özellik vektörlerinin doğrusal kombinasyonu için tahminlerin, etiketlerinin doğrusal
bir kombinasyonu olması gerektiğini varsayarlar. Bunu, orijinal etiketli örneklere ek
olarak artırılmış veri noktalarında eğitim alarak birleştirirler. Bu amaçla, rastgele veri
noktası çiftleri seçerler (x, y) ve (x′, y′) eğitim sırasında ve
bir enterpolasyon faktörünü örnekleyin λ simetrik bir beta dağılımından Beta(α, α), nerede α dır-dir
önceden belirlenmiş bir hiperparametre. Ağ daha sonra doğrusal olarak enterpolasyonlu veri
noktasında denetimli bir şekilde eğitilir (x̂ ,ŷ), nerede
123
408 Makine Öğrenimi (2020) 109: 373–440
x̂= λ · x + (1 - λ) · x′,
ŷ = λ · y + (1 - λ) · y′.
Zhang ve ark. (2018) çeşitli eğitim senaryolarında önemli performans

iyileştirmelerini rapor edin. En iyi sonuçları, beta dağıtım hiper parametresi,α,
nispeten düşüktür ve dağılımın aşırı uçlara doğru güçlü bir şekilde önyargılı
olmasına neden olur (yani λ = 0 ve λ = 1). Sonuç olarak, enterpolasyonlu örneklerin
büyük çoğunluğu, seçilen iki veri noktasından birine çok yakın olacaktır.
Karıştırmada kullanılan enterpolasyon, gerçek etiketler yerine tahmin edilen etiketlerin
enterpolasyonu yoluyla etiketsiz örneklere de uygulanabilir. Verma vd. (2019) ortalama
öğretmen yaklaşımı ile karıştırın (bkz. 6.2.7), öğretmen modelinin tahminlerinin doğrusal
enterpolasyonu olarak artırılmış veri noktası için hedef etiketin belirlenmesi. İlginç bir
şekilde, enterpolasyon yalnızca etiketsiz veri noktası çiftlerine uygulandı ve etiketli ve
etiketsiz veri noktalarının karışık çiftlerine uygulanmadı. Berthelot vd. (2019),
karıştırmanın yarı denetimli bir uzantısı da dahil olmak üzere çeşitli denetimli ve yarı
denetimli bileşenlerden oluşan yarı denetimli bir sinir ağı önerdi. Enterpolasyon için veri
noktalarını seçerken, etiketli ve etiketsiz veri noktaları arasında ayrım yapmazlar. Etiketli
veri noktaları için, gerçek etiket daha sonra enterpolasyonda kullanılır; etiketsiz veri
noktaları için tahmin edilen etiket kullanılır.
Karma grafik tabanlı yöntemlerle benzerlikler gösterir (bkz. Bölümler. 6.3 ve 7): ziyade
Noktasal tedirginlikler kullanarak, farklı veri noktalarının kombinasyonlarına dayalı olarak
tedirginlikler uygularlar. Grafik tabanlı yöntemlerin aksine, ancak, veri noktaları
arasındaki ikili benzerlik hesaba katılmaz. Bunun kesin sonuçları gelecekteki araştırmalar
için ilginç bir yol olmaya devam ediyor.
6.3 Manifoldlar
Pertürbasyon temelli yöntemler, girdide veya sınıflayıcının kendisinde küçük değişiklikler

olduğunda bir sınıflandırıcının davranışındaki farklılıkları cezalandırarak, pürüzsüzlük
varsayımını doğrudan kullanır. Bununla birlikte, girdideki tüm küçük değişikliklerin benzer
çıktılar vermeyeceği düşünülebilir. Özellikle, veriler daha düşük boyutlu manifoldlarda
bulunuyorsa, sınıflandırıcının manifold boyunca yalnızca küçük değişikliklere duyarsız olması
beklenebilir. Bu gözlem, özünde yarı denetimli öğrenme algoritmalarının önemli bir yapısının
temelini oluşturan çeşitli varsayımlara karşılık gelir.
Bir m-boyutsal manifold, yerel olarak benzer olan orijinal girdi uzayının bir alt uzayıdır.
bles Öklid uzayım R. Tarikat'ın tanımını tekrarlayarak. 2, manifold varsayımı
(a) girdi uzayının, üzerinde tüm veri noktalarının bulunduğu çok sayıda alt boyutlu manifolddan
oluştuğunu ve (b) aynı alt boyutlu manifold üzerinde bulunan veri noktalarının aynı etikete sahip
olduğunu belirtir. Biçimsel olarak, manifold varsayımının ilk kısmı, her koşullu olasılık
dağılımınınp (x | y) bir veya daha fazla Riemann manifoldunun birleşimine karşılık gelen bir
yapıya sahiptirM. İkinci kısım, daha sonra, aynı Riemann manifolduna işaret ettiğini belirtir. M aynı
etikete sahip olmalıdır. Bu varsayımlar geçerli olursa, giriş uzayında bulunan manifoldlar
hakkındaki bilgiler sınıflandırma için yararlı olabilir.
Bu bölümde, manifold varsayımına dayanan iki genel yöntem türünü ele alıyoruz. İlk olarak,
dikkate alıyoruzmanifold düzenlileştirme teknikleri, veri noktaları üzerinde bir grafik tanımlayan ve
küçük jeodezik mesafeli veri noktaları için tahminlerdeki farklılıkları örtük olarak cezalandıran.
İkincisi, düşünüyoruzmanifold yaklaşım teknikleri, hangi
123
Makine Öğrenimi (2020) 109: 373–440 409
manifoldları açıkça tahmin edinMVerilerin dayandığı ve buna göre bir amaç işlevi
optimize ettiği.
6.3.1 Manifold düzenlileştirme
Etiketli bir veri noktası düşünün xben ve etiketsiz bir veri noktası x j, ve varsayalım ki xben yalanlar
bazı manifolddaM. Eğer x j ayrıca yatıyorM, manifold varsayımı,
muhtemelen aynı etikete sahip xben . Ayrıca, verilerin daha düşük boyutlu manifoldlar üzerinde
yoğunlaştığını varsayarsak, daha fazla veri noktası olmasını bekleyebiliriz. x∗ bulunan
açıkM.
Yeterince çok veri noktasına sahipsek, bu nedenle bir "yol" olmasını bekleyebiliriz,
sözde jeodezik itibaren x j -e xben , her bir yol segmenti nispeten kısa olacak şekilde diğer etiketli
veya etiketsiz örneklerden geçme. Bu yol kavramını şu şekilde resmileştirebiliriz:
tanımlamak grafik tüm veri noktalarında, orijinal giriş alanında birbirine yakın olan
veri noktası çiftlerini bir kenarla birleştirin. Benzerlik derecesini ifade etmek için
kenar ağırlıkları kullanılabilir. Temel ilke budurgrafik tabanlı yöntemler, aynı zamanda
transdüktif yarı denetimli öğrenmenin temelini oluşturur (bkz. 7).
Bu motivasyonu takiben Belkin ve ark. (2005, 2006) için genel bir çerçeve formüle etti
Tümevarımlı öğrenenleri çok katlı temelde düzenlemek. Bir çekirdek düşündülerK: X×X→ R
karşılık gelen bir hipotez alanı ile HK ve ilişkili bir norm || · ||K. Denetimli için
problemler, daha sonra, aşağıdaki genel optimizasyon problemini formüle ettiler:
l
∑
küçültmek [( f (xben ), yi)] + γ · || f ||2
K,
f ∈HK
i =1
etiketli verilerdeki bazı kayıp işlevi için. Buraya,γ yumuşatma teriminin göreceli
etkisini belirtir. Bu amaç işlevi aynı anda yanlış sınıflandırmaları cezalandırır ve
öngörü işlevinin düzgünlüğünü destekler. Yarı denetimli ortam için, grafikte
aralarında doğrudan bir kenara sahip olan veri noktası çiftleri için etiket
atamalarındaki farklılıkları cezalandıran denetimsiz bir düzenleme terimi eklediler.
Dolaylı olarak, böylece aynı manifold üzerindeki veri noktalarını aynı etiket tahminini
almaya teşvik ederler.
Bu denetimsiz düzenlileştirme terimi, manifold düzenlenmesi
yöntemler. Simetrik ağırlıklı bitişik matrisli bir benzerlik grafiğini düşününW, nerede
Wij veri noktaları arasındaki benzerliği gösterir xben ve x j (Wij = Noktalar bağlı değilse
0). İzin VermekD ile köşegen bir matris olan derece matrisini gösterir Dii =∑n
j =1Wij.
Manifold düzenlileştirme terimi || f ||2ben daha sonra şu şekilde tanımlanır:
n∑
|| f ||2 Wij · ( f (xben ) - f (x j))2. (5)

I=1 ·∑n
2 i =1 j =1
Düzenlilik terimi şu şekilde ifade edilebilir: fᵀ · L · f nerede L = D - W grafik

Laplacian ve f ∈n R değerlendirme vektörü f her biri için xben . Nihai optimizasyon
Denklem'den manifold düzenlileştirme terimi dahil problem. 5, olur
123
410 Makine Öğrenimi (2020) 109: 373–440
l
1 ·∑ (6
BEN ,
küçültmek ( f (x) γ f |K )
ben , yi) +· | |2 + γU · || f ||2
f ∈H K l
i =1
nerede γU manifold düzenlileştirme teriminin göreceli etkisini belirler.
Bu genel çerçeve, popüler denetimli öğrenmenin yarı denetimli uzantılarına yol açar.
algoritmaları, örneğin Laplacian destek vektör makineleri (LapSVM'ler), burada kayıp işlevi
menteşe kaybı olarak tanımlanır, yani (ŷ, y) = en fazla {1-y ŷ, 0}. LapSVM'lerin denetlenen hedefi,
marjı en üst düzeye çıkarır ve denetimsiz hedef, tahmin edilen manifoldlar boyunca tahminlerin
tutarlılığını en üst düzeye çıkarır. Bu çerçeveyi öneren makalede Belkin ve ark. ( 2006) ortaya
çıkan kayıp minimizasyon problemini, denetimli SVM'ler için popüler çözme tekniklerine benzer
şekilde ikili biçiminde çözmeyi önerdiler. O (n3). Melacci ve
Belkin (2011) optimizasyon probleminin ilk haliyle çözülmesini önerdi. Bir erken durdurma kriterini
önceden koşullandırılmış bir eşlenik gradyan ile birleştirerek, zaman karmaşıklığını azaltarakO (c · n2)
bazı c bu, ampirik olarak daha küçük olduğu gösterilmiştir. n.
Qi vd. (2012) uzatılması önerildi ikiz SVM'ler, İki paralel olmayan karar sınırı (her sınıf
için bir tane) sağlamak için iki SVM benzeri amaç işlevini optimize eden (Jayadeva et
al. 2007), LapSVM düzenlileştirme terimini dahil etmek için. Sindhwani vd. (2005);
Sindhwani ve Rosenberg (2008) manifold düzenlileştirmeyi ortak düzenlileştirme
çerçevesine genişletir (bkz. 4.2). İki farklı görünüm için LapSVM'lere benzer bir
nesnel işlev kullanarak iki sınıflayıcı oluşturmayı önerdiler. Niyogi (2008), çok katlı
düzenlileştirme çerçevesi üzerine bazı teorik analizler sağladı ve yarı denetimli
öğrenmedeki yararlılığını analiz etti.
Zhu ve Lafferty (2005) bir manifold düzenlileştirme terimini bir
üretken model. Veri üreten dağılımı, manifoldun yerel olarak bir karışım modeli bileşeni ile
yaklaşık olduğu bir karışım modeli olarak ifade ettiler. Kayıp fonksiyonları, grafik üzerinde
bir düzenleyici ve üretici bir bileşenden oluşur. Weston vd. (2008) derin sinir ağlarına
amanifold düzenlileştirme terminalini dahil etti. Bir yardımcı kullanarak manifold yapısını
dahil etmek için birkaç yöntem önerdiler.gömme görevi, hangi
Sinir ağındaki gizli temsilleri benzer girdiler için benzer olmaya teşvik eder. Dahası, benzer
olmayan veri noktalarının gizli temsillerini (alttaki grafikte komşu olmadıkları şeklinde
tanımlanan) açık bir şekilde iten bir düzenlileştirme terimi dahil etmeyi önerdiler. Bu
yaklaşım, Ratle ve arkadaşları tarafından hiperspektral görüntü sınıflandırmasına
uygulanmıştır. (2010). Daha yakın zamanlarda Luo ve ark. (2018), sondan bir önceki
katmanda benzer gizli temsillere sahip olması için tahmin edilen (etiketsiz veri noktaları
için) veya doğru (etiketli veri noktaları için) aynı etikete sahip veri noktalarını teşvik eden
bir kayıp işlevi kullandı. Ek olarak, farklı tahmin edilen etiketlere sahip veri noktalarının
gizli temsillerinin farklı olmasını teşvik eder.
Grafik oluşturma süreci önemsiz değildir ve birçok hiperparametre içerir. Örneğin, çeşitli
bağlantı kriterleri ve kenar ağırlıklandırma şemaları kullanılabilir. Bu, manifold düzenleme
yöntemlerinin performansını büyük ölçüde hiperparametre ayarlarına bağımlı hale getirir. Geng
vd. (2012), ilk olarak farklı hiperparametre ayarları kullanarak bir aday Laplasyalılar kümesi
seçerek bu sorunun üstesinden gelmeye çalıştı. Daha sonra, onları en aza indiren
Laplacian'ların doğrusal kombinasyonunu bulan optimizasyon problemini
j =1 μj · L j
ortaya attılar.
düzenlileştirme hedefi. Resmen, bırak olsunm aday Laplacians L1,. . . ,Lm. Varsaymak
optimal manifold L∗ dışbükey gövdesinde yatıyor L1,. . . ,Lm, yani L∗ =∑m
∑m
ile
j =1 μj = 1
ve μj≥ 0 için j = 1,. . . ,m. Her biri L j geçerli bir grafik Laplacian'dır, doğrusal
kombinasyonları da geçerli bir grafik Laplacian'dır. Üstel ağırlıkların kullanılması
Laplacian, manifold düzenlileştirme terimi || f ||2 sonra olur ben
123
Makine Öğrenimi (2020) 109: 373–440 411
|| f ||2
I = fᵀ · L · f
m
= fᵀ ·∑ μj · L j · f
j =1
m
=∑ μj · || f ||2Ben (j),
j =1
nerede || f ||
2 Ben (j) aday Laplacian için manifold düzenlileştirme terimidir L j. Bu son
düzenlileştirme terimi daha sonra Denklemden orijinal optimizasyon probleminde kullanılır. 6, ile
bir düzenlileştirme teriminin eklenmesi∑||μ ||2 optimize edicinin bir
m
manifold ve kısıtlama j =1 μj = 1. Amaç işlevi daha sonra optimize edilir
göre μ ve f hangi Geng ve ark. EM benzeri bir şekilde yapılması önerildi (ör.
Birini sabitlemek ve diğerini dönüşümlü olarak optimize etmek). Onların yaklaşımı dedikleritopluluk
manifold düzenlenmesi, hem sentetik hem de gerçek dünya veri setlerinde SVM amaç
fonksiyonuna uygulandığında LapSVM'lerden üstün olduğu gösterilmiştir (Geng ve ark. 2012).
Geng ve diğerleri tarafından önerilen yöntemlerin yanı sıra. (2012) ve Luo vd. (2018), grafik
inşa yöntemleri, esas olarak, transdüktif yarı denetimli öğrenme bağlamında çalışılmıştır.
Bu yöntemleri Sect'te kapsamlı bir şekilde ele alıyoruz.7.
6.3.2 Manifold yaklaşımı
Manifold düzenlileştirme teknikleri, manifoldların yerel olarak daha düşük boyutlu Öklid uzayını temsil ettiği gerçeğini
doğrudan yakalayan bir düzenlileştirme terimi sunar. Bununla birlikte, manifoldun ilk olarak açıkça tahmin edildiği ve
daha sonra bir sınıflandırma görevinde kullanıldığı iki aşamalı bir yaklaşım da düşünülebilir. Bu, tarafından benimsenen
yaklaşımdırmanifold yaklaşımı
teknikler manifoldun açık bir temsilini oluşturan. Bu tür yaklaşımların yakın bir
ilişkisi olduğunu ve bazı durumlarda yarı denetimli ön işleme olarak
düşünülebileceğini not ediyoruz (bkz.5).
Rifai vd. (2011a) manifoldların ilk tahmin edildiği böyle bir yaklaşım geliştirdi
kullanma büzülmeli otomatik kodlayıcılar (CAE, bkz. Rifai ve ark. 2011a) ve daha sonra denetimli bir
eğitim algoritması tarafından kullanılır. CAE'ler, otomatik kodlayıcılardaki normal yeniden yapılandırma
maliyet terimine ek olarak, çıktı etkinleştirmelerinin türevlerini girdi değerlerine göre cezalandıran bir
otomatik kodlayıcı çeşididir. Bunu yaparak, öğrenilen özelliklerin girişteki küçük karışıklıklara
duyarlılığını, bu karışıklıkları örneklemeye dayanmadan (otomatik kodlayıcıların yaptığı gibi)
cezalandırırlar. Rifai vd. ( 2011b) CAE'lerin yalnızca girdideki küçük karışıklıklara duyarlılığı
cezalandırmadıklarını, aynı zamanda manifold boyunca giriş verilerinin küçük bozulmalarını
cezalandırdıklarını iddia ediyorlar. Bu etkinin, yeniden yapılanmayı teşvik etme ve girdilere karşı
duyarlılığı cezalandırma dengesi nedeniyle ortaya çıktığını iddia ediyorlar. Başka bir deyişle, doğrudan
çeşitli varsayımlara göre hareket ettiklerini iddia ederler.
Kayıp işlevi L yeniden yapılandırma maliyeti ile sözleşmeli otomatik kodlayıcılar tarafından kullanılır (·, ·) dır-dir
n
L =∑ (g (h (xben )), yi) + λ · ||J ||2 F,
i =1
nerede ||J ||F girdilere göre çıktıların Jacobian matrisinin Frobenius normudur, yani
her çıktı aktivasyonunun karesel kısmi türevlerinin toplamıdır.
her bir giriş değerine saygı. Rifai vd. ek olarak, Hessian'ı çıktı değerlerinden cezalandırmayı
önerdi. Hessian'ı tam olarak hesaplamanın hesaplama karmaşıklığı nedeniyle,
123
412 Makine Öğrenimi (2020) 109: 373–440
girdideki küçük karışıklıklara karşılık gelen Jakobenler arasındaki fark olarak yaklaşık
olarak tahmin etmeyi öneriyoruz.
Kullanma tekil değer ayrışımı, gerçek manifoldlara yaklaşmak için her giriş noktasındaki
teğet düzlemi tahmin ederler. Sonuç olarak, manifold boyunca iki veri noktası arasındaki
mesafe tahmin edilebilir ve daha sonra sınıflandırmada kullanılabilir, örn.k-en yakın komşu
algoritması. Ek olarak, çıktıların teğet düzlem boyunca bozulmalara duyarlılığını açık bir şekilde
cezalandırmak için kayıp işlevine ek bir terimin eklendiği, çoklu, yığılmış sözleşmeli otomatik
kodlayıcılarla önceden eğitilmiş derin bir sinir ağı kullanmayı önerdiler.
Bir manifold, üst üste binen bir koleksiyon olarak tanımlanabilir. grafikler her biri, tüm
manifoldu birlikte kaplayan basit bir geometriye sahiptir. Böyle bir grafik koleksiyonu,
Atlas. Pitelis vd. (2013, 2014), her birini bir alt uzay ile ilişkilendirerek bu çizelgeleri açık
bir şekilde yaklaştırmayı önerdi. Grafiklere veri noktaları atamak ve her bir grafik için
verilere en iyi uyan ince alt uzayı seçmek arasında geçiş yaparlar. Grafikler, bir dizi
rastgele alt uzay üzerinde temel bileşen analizi kullanılarak başlatılır. Bundan, bir dizi
çizelge ve çizelgelere yumuşak bir nokta ataması elde edilir (çünkü noktalar birden fazla
çizelgeyle ilişkilendirilebilir). Son olarak, bu çizelgelerden ve yumuşak atamalardan, daha
sonra SVM tabanlı denetimli öğrenmede kullanılan çekirdekler oluşturulur.
6.4 Üretim modelleri
Yukarıda belirtilen yöntemlerin tümü ayrımcı: onların tek amacı, veri noktalarını
sınıflandırabilen bir işlevi çıkarmaktır. Bazı durumlarda olasılığa dayalı tahminler üretirler;
diğerlerinde, yalnızca atanacak en olası sınıfı verirler. Her durumda, herhangi bir veri
üreten dağılımları açık bir şekilde modellendirmeden sınıflandırma problemine yaklaşırlar.
Buna karşılık, yöntemlerin temel amacı,üretken modeller veriyi oluşturan süreci
modellemektir. Böyle bir üretken model belirli bir etikete koşullandırıldığınday,
sınıflandırma için de kullanılabilir.
6.4.1 Karışım modelleri
Hakkında ön bilgi varsa p (x, y) üretken modeller çok güçlü olabilir.

Örneğin, verilerimizinp (x, y) bir karışımından oluşur
k Her biri belirli bir sınıfa karşılık gelen Gauss dağılımları. Ayrımcı yöntemlerin çoğu, bu önceki
bilgileri uygun şekilde birleştiremeyecektir. Bunun yerine, bir modele en iyi şekilde hizmet
bir bileşen. Her biri
verilebilir = basitçe modeli şunların bir karışımı olarak sabitleyerekk Gaussi∑ k
bileşen j 1,. . . ,k üç parametresi vardır: bir ağırlık π j (nerede j =1 π j = 1), anlamı
vektör μj, ve kovaryans matrisi j. En olası parametreler daha sonra çıkarılabilir:
yoluyla örnek beklenti maksimizasyonu (Dempster vd. 1977). Bu model üretken: o
dağıtımı modeller p (x, y), hangi örneklerden (x, y) çizilebilir. Model daha sonra
sınıflandırma için de kullanılabilir: çünkü çıkarım prosedürü bir tahmin verirp̂(x | y)
of koşullu dağılım p (x | y), basitçe etiketsiz bir veri noktasına atanabilir xben∈ XU
sınıf c maksimize eden p̂(xi |yi = c) · p (yi = c). Gauss karışım modelleri durumunda
daha önce tarif edilmiş, p (yi = c) = πc.
Karışım modellerinin üretken modellemeye uygulanması birkaç uyarı ile birlikte gelir
(Cozman vd. 2003; Zhu2008). İlk olarak, karışım modeli tanımlanabilir olmalıdır: karışım modeli
için her farklı parametre seçimi, karışım bileşenlerinin bir permütasyonuna kadar farklı bir ortak
dağılımı belirlemelidir. İkinci olarak, karışım modelleri
123
Makine Öğrenimi (2020) 109: 373–440 413
varsayılan modelin doğru olduğuna dair kritik varsayım. Model doğru değilse, yani gerçek
dağılım p (x, y) varsayılan modelle uyumlu olmadığından, etiketsiz veriler performansı
iyileştirmek yerine performansa zarar verebilir.
Gerçek dünya uygulamalarında, model doğruluğu varsayımı nadiren geçerlidir. Bu
nedenle, üretimsel modelleme için karışım modellerini kullanmak zor olabilir. Bu sorunları
azaltmak için bazı yaklaşımlar mevcuttur; örneğin Nigam ve ark. (2000) EM'deki etiketsiz
verilerin etkisini değiştirir. Bununla birlikte, karışım modellerinin katılığı, dikkatin daha esnek
üretken model sınıflarına kaymasına neden olmuştur.
6.4.2 Üretici rakip ağlar
Son zamanlarda, olarak bilinen yeni bir öğrenme paradigması türü üretici düşmanlık ağları
( GAN), aynı anda üretken ve ayrımcı öğrenenler inşa etme fikrine dayanarak önerilmiştir
(Goodfellow et al. 2014a). Genellikle sinir ağları kullanılarak uygulanan bu yaklaşım, aynı
anda gerçek verilerden ayırt edilmesi zor veri noktaları oluşturmakla görevli üretken bir
model ve belirli bir veri noktasının 'gerçek' mi yoksa 'sahte' mi olduğunu tahmin etmekle
görevli, ayırt edici bir sınıflandırıcı eğitir. yani yapay olarak oluşturulmuştur).
Ayrımcı D, parametrelerle θ (D), ve jeneratör G, parametrelerle θ (G), vardır
tek bir amaç işlevini optimize etmek için aynı anda eğitilmiştir. En önemlisi, ayrımcının
amacı,küçültmek amaç işlevi, jeneratörün amacı ise maksimize etmek o. The
ayırt edici işlev D bir veri noktasının olasılığını ifade eder x gerçek; üretken işlevG
bir veri noktası oluşturur x gürültü vektöründen z bazı dağıtımlardan örneklendi
p (z). Maliyet fonksiyonu daha sonra iki terimden oluşur; Bunlardan ilki, ayırt edicinin gerçek
veri noktalarını bu şekilde tanımlama yeteneğini ifade eder ve optimizasyonu yalnızca ayırıcıyı
içerir. İkinci terim, ayırt edicinin sahte veri noktalarını tanımlama yeteneğini ifade eder ve
optimizasyonu hem ayırıcıyı hem de oluşturucuyu içerir. Resmi olarak, gerçek verileri bazı temel
olasılık dağılımlarından alınan örnekler olarak ele almakp (x), the
optimizasyon problemi şu şekilde formüle edilebilir:
en az en çokV (D, G) = Ex∼p (x) [günlük D (x)] + Ez∼p (z) [günlük (1 - D (G (z))], (7)
G D
parametrelerinin nerede olduğu D tarafından θ (D) ve G tarafından θ (G) özlü olması için ihmal edilmiştir.
Jeneratör ve ayırıcı, dönüşümlü bir şekilde eğitilir. Her eğitim adımında, eğitim
verilerinden birden fazla gerçek veri noktası alınır ve kullanılarak birden çok sahte
veri noktası oluşturulur.G örnek alarak p (z). İlgili parametreler θ (D) ve θ (R) nın-nin
ayırıcı ve jeneratör daha sonra gradyan inişi (Goodfellow 2017).
GAN'lar doğal olarak denetimsizdir: bunlar, jeneratörün kalitesini değerlendirmek için

kullanılan ayırt edici bir sınıflandırıcıyla birlikte etiketlenmemiş veriler üzerinde eğitilmiş üretken
bir modelden oluşur. Ancak, GAN'larda sınıflandırmayı desteklemek için uzantılar mevcuttur.
Orijinal GAN belgesinde önerilmiş ancak uygulanmamıştır (Goodfellow et al.2014a), bu
yöntemler aynı zamanda bir oluşturucu ve bir ayırıcı kullanır, ancak ayırıcıyı yalnızca gerçeği
sahte veri noktalarından ayırmak yerine farklı sınıfları tanımlaması için eğitin. Bu nedenle,
GAN'lar doğal olarak yarı-denetlenen duruma genişler: Kayıp teriminin tamamen ayırt edici
bileşeni (Eşitlikteki ilk maliyet terimi).7), bunlar bilindiğinde gerçek etiketleri içerecek şekilde
kolayca genişletilebilir. Springenberg (2015) GAN ayrımcısını kullanmak için genişletmeyi önerdi
|Y | çıktılar, cor-yanıtlama |Y | olası sınıflar. Yöntemlerinde, adlandırılmışCatGAN, GAN maliyet işlevini, gerçek
verilerin yanlış sınıflandırmalarını ayırıcı tarafından cezalandıran bir çapraz entropi maliyet terimini içerecek
şekilde uyarlarlar. Ayrımcının gerçeği sahte verilerden ayırt etme yeteneği
123
414 Makine Öğrenimi (2020) 109: 373–440
puanlar, çıktılarının entropisi dikkate alınarak değerlendirilir: sahte veriler için,

ayırıcı atanacak sınıftan emin olmamalı, oysa gerçek veri noktaları için tahmininden
emin olmalıdır. Ayrıca, jeneratörü her sınıfa eşit üretim olasılığı atamaya teşvik
etmek için bir maliyet terimi eklerler. Bunu not ediyoruzCatGAN çapraz entropi
maliyet terimini dışarıda bırakarak denetimsiz bir ortamda da kullanılabilir.
Salimans vd. (2016) GAN'ları | kullanarak yarı denetimli ayara genişletir. Y | +1
çıktılar, burada çıktılar 1,. . . , |Y | bireysel sınıflara karşılık gelir ve çıktı |Y | +1 sahte veri noktalarını belirtmek için
kullanılır. Kayıp işlevi, etiketli veri noktaları için gerçek etiket verilen tahminin çapraz entropi kaybını içerecek
şekilde uyarlanmıştır. Aksi takdirde, kayıp işlevinin önemli ölçüde değiştirilmesi gerekmez: etiketlenmemiş bir veri
noktası ile sunulduğunda,
∑ |Y |
c =1Dc (x)
ayrımcının veri noktasının sahte olmadığına dair tahmini şu şekilde hesaplanabilir:
veri noktası için x, nerede Dc (x) çıktının değeridir c ayrımcının. Odena (2016)
aynı zamanda bağımsız olarak aynı fikri önerdi. Dai vd. (2017) sağlanan
bu çerçevenin bazı teorik analizleri. Yöntemin, ayırıcıya göre kendi başına
performansı iyileştirmesi için, jeneratör tarafından modellenen
dağılımınTamamlayıcı gerçek veri dağılımı: girdi uzayında gerçek dağılımda düşük
yoğunluğa sahip bölgelere yüksek olasılık yoğunluğu atamalıdır.
Veri noktalarının hem sınıfını hem de gerçekliğini belirlemek için ayırıcı kullanmak yerine,
her görev için ayrı bir ayırt edici model de kullanılabilir. Bu benimsenen yaklaşımdırüçlü
düşman ağlar, veri noktalarını sınıflandırmak için bir ayırıcı kullanıldığında ve diğerine gerçek
ile sahte verileri ayırmakla görevlendirilir (Li ve ark. 2017).
GAN'lara, uygulamalarına ve uzantılarına kapsamlı bir genel bakış için okuyucuya Goodfellow
tarafından hazırlanan GAN'larla ilgili 2016 NIPS öğreticisinin özetine başvururuz (2017).
6.4.3 Varyasyonel otomatik kodlayıcılar
GAN'ların yanı sıra, son yıllarda yarı denetimli derin üretken modeller oluşturmaya
yönelik daha fazla çaba sarf edilmiştir. Dikkate değer bir örnek,değişken
otomatik kodlayıcılar (VAE) ve bunların yarı denetimli öğrenmeye uygulamaları.
Kingma ve Welling tarafından önerildi (2013), varyasyonel otomatik kodlayıcılar bir tür gizli
her veri noktasını işleyen değişken model x gizli değişkenlerin bir vektöründen üretildiği için
z. Otomatik kodlayıcılar gibi geleneksel gizli değişken modeller, genellikle oldukça
karmaşık bir dağılıma sahip bir model verir. p (z), bu da onları örnekleme için
kullanmayı çok zorlaştırır. Tersine, VAE'ler kısıtlarp (z) örneklemenin basit olduğu
standart çok değişkenli Gauss dağılımı gibi basit bir dağıtım. Dan dönüşümp (z)
biraz daha karmaşık dağıtıma p (x | z) daha sonra bir kod çözücüye bırakılır.
Eğitim zamanında, bir dağıtımın parametrelerini belirlemek için bir kodlayıcı kullanılır p (z | x)
bir veri noktasına dayalı x. Rekonstrüksiyonları oluşturmak için x, gizli vektörler z daha sonra
bu dağıtımdan örneklenebilir ve kod çözücüden geçirilebilir. Kod çözücü ve kodlayıcı,
(1) arka dağıtım arasındaki Kullback-Leibler ayrışmasını içeren birleşik bir maliyet işlevini
en aza indirecek şekilde birlikte eğitilmiştir.p (z | x) ve bazı basit önceki dağıtımlar p (z), ve
(2) giriş verileri için otomatik kodlayıcının çıktısının yeniden yapılandırma maliyeti. İlk terim çok
önemlidir: kod çözücünün, doğrudan örneklenen gizli vektörleri alarak üretken bir model olarak
kullanılmasına izin verir.p (z).
Kısaca, örnekleme prosedürü nedeniyle önemsiz olmayan bir geri yayılım adımı
içeren VAE'lerin eğitim prosedürü ile ilgili çok fazla ayrıntıya girmiyoruz; bunun yerine
okuyucuyu Doersch tarafından hazırlanan VAE eğitimine yönlendiririz (2016).
123
Makine Öğrenimi (2020) 109: 373–440 415
Kingma vd. (2014) yarı denetimli öğrenme için VAE'leri kullanmak için iki aşamalı bir model önerin.
İlk adımda, bir VAE, veri noktalarından anlamlı gizli temsiller çıkarmak için hem etiketsiz
hem de etiketli veriler üzerinde eğitilir. Kendi başına bu, gizli temsillerin herhangi bir
denetimli sınıflayıcı tarafından kullanılmasına izin veren, denetlenmeyen bir ön işleme
adımı olarak görülebilir. İkinci adımda, gizli gösterimin artırıldığı bir VAE uygularlar.
etiket vektörü ile yben , etiketli veri noktaları için tek sıcak kodlanmış gerçek etiketleri içeren
ve etiketlenmemiş veriler için ek bir gizli değişken olarak ele alınan. Buna ek olarak
kod çözücü, etiket tahminlerini ortaya çıkaran bir sınıflandırma ağı tanıtıldı (Kingma et al.
2014).
7 Dönüştürme yöntemleri
Önceki bölümlerde açıklanan yarı denetimli öğrenme yöntemlerinin tümü tümevarımlı

algoritmalardı: birincil hedefleri, tüm girdi alanındaki veri noktaları için etiket tahminleri
sağlayabilen bir prosedür oluşturmak için hem etiketli hem de etiketsiz verileri
kullanmaktı. Tümevarımlı öğrenicilerde, bu nedenle bir eğitim aşaması ile bir test aşaması:
eğitim aşamasında, etiketli veriler (XL, yL) ve etiketsiz veriler XU kullanılmış
bir sınıf oluşturmak için. Test aşamasında, bu sınıflandırıcı, bağımsız olarak sınıflandırmak için kullanılır.
etiketlenmemiş veya daha önce görülmemiş diğer veri noktaları.
Bu bölümde tartışıyoruz transdüktif yarı denetimli öğrenme yöntemlerinin ikinci ana sınıfını oluşturan
algoritmalar. Endüktif algoritmalardan farklı olarak, dönüştürücü algoritmalar tüm girdi alanı üzerinde
çalışabilen bir tahminci üretmez. Bunun yerine, dönüştürücü yöntemler, öğrenme algoritmasına sağlanan
etiketlenmemiş veri noktaları kümesi için bir dizi tahmin üretir. Endüktif ayarın aksine, bu nedenle bir eğitim
arasında ayrım yapamayız
aşama ve bir test aşaması: dönüştürücü algoritmalar etiketli verilerle sağlanır (XL,
yL) ve etiketsiz veriler XU, ve yalnızca tahminler üretin ŷU etiketsiz veriler için.
Dönüştürücü yöntemler tipik olarak hem etiketli hem de etiketlenmiş tüm veri noktaları üzerinde bir grafik tanımlar.
etiketlenmemiş, veri noktalarının muhtemelen ağırlıklandırılmış kenarları olan ikili benzerliğini kodlar (Zhu
2005). Daha sonra, iki hedefe ulaşmak için bir amaç işlevi tanımlanır ve optimize edilir:
1. Etiketli veri noktaları için, tahmin edilen etiketler gerçek etiketlerle eşleşmelidir.
2. Benzerlik grafiği ile tanımlanan benzer veri noktaları, aynı etiket tahminlerine sahip
olmalıdır.
Başka bir deyişle, bu yöntemler, bilinen etiketleri hesaba katarken benzer veri noktaları için
tutarlı tahminleri teşvik eder. Bu yöntemler ile Sect'in tümevarımlı manifold tabanlı yöntemleri
arasında yakın bir benzerlik vardır.6.3. Her iki yöntem de veri noktaları üzerinde bir grafik
oluşturur ve daha karmaşık yapıları yaklaşık olarak tahmin etmek için veri noktaları arasında ikili
benzerlik kullanır. Aralarındaki tek büyük fark, endüktif yöntemlerin tüm girdi alanı boyunca
işleyebilen bir sınıflayıcı elde etmeye çalışmasıdır, buna karşılık dönüştürücü yöntemlerin
yalnızca belirli bir etiketlenmemiş veri noktaları kümesi için tahminler vermesidir. Toplu olarak,
bu yöntemler genellikle şu şekilde anılır:grafik tabanlı yöntemler (Zhu 2008).
Tarikatta. 6.3, grafik tabanlı tekniklerin yorumlanması ve motivasyonuna odaklandık
manifoldların teorik perspektifinden. Bununla birlikte, transdüktif grafiğe dayalı yöntemlerin
geliştirilmesi, genellikle doğrudan yukarıda özetlenen iki optimizasyon kriteri tarafından
yönlendirilmiştir. Dönüştürücü yarı denetimli öğrenmeyi tartıştığımız bu bölüm, bu akıl
yürütme çizgisini takip eder.
123
416 Makine Öğrenimi (2020) 109: 373–440
7.1 Grafik tabanlı yöntemler için genel bir çerçeve
Grafik tabanlı yarı denetimli öğrenme yöntemleri genellikle üç ayrı adımı içerir: grafik oluşturma,
grafik ağırlıklandırma ve çıkarım (Jebara ve ark. 2009; Liu vd.2012). İlk adımda, grafikteki düğümler
(veri noktalarını temsil eden) bazı benzerlik ölçülerine göre birbirine bağlanır. İkinci adımda, ortaya
çıkan kenarlar ağırlıklandırılarak bir ağırlık matrisi elde edilir. İlk iki adım birlikte genel olarak şu
şekilde anılır: grafik yapım aşaması.
Grafik oluşturduktan sonra, bir dizi düğümden oluşan bir grafiğimiz var. V = {v1,. . . ,vn},
veri noktalarına karşılık gelen ve bir n ×n ağırlık matrisi W kenar ağırlıklarını içeren tüm
düğüm çiftleri için, sıfır kenar ağırlığının kenar olmadığını gösterir. Bu bölümün geri
kalanında terimleri kullanıyoruzdüğüm ve veri noktası birbirinin yerine
grafik tabanlı yöntemlerin bağlamı.
Grafik oluşturulduktan sonra tahminleri elde etmek için kullanılır ŷ U etiketsiz olanlar için
Veri noktaları. Transdüktif grafik tabanlı yöntemler için genel nesnel işlevler formu
gerçek etiketle eşleşmeyen tahmin edilen etiketleri cezalandırmak için bir bileşen ve bağlı veri
noktaları için etiket tahminlerindeki farklılıkları cezalandırmak için başka bir bileşen içerir.
Resmi olarak, etiketli veriler için denetimli bir kayıp işlevi verilir ve denetlenmeyen
kayıp fonksiyonuU etiketli veya etiketsiz veri noktası çiftleri için, dönüştürücü grafik
tabanlı yöntemler bir etiketleme bulmaya çalışır ŷ en aza indiren
l ∑n
λ ·∑
(ŷ y ∑
W · ŷ ŷ
ben , i) + n ij U( ben , j),
i =1 i =1 j =1
nerede λ denetlenen terimin göreceli önemini yönetir. Ayrıca, bazı grafik tabanlı yöntemler,
etiketlenmemiş tahminlere ek bir tekli düzenlileştirme terimi uygular. Grafik tabanlı yöntemler için bu
genel çerçeve, adımlarının her birinde çok sayıda varyasyona izin verir. Formülasyon, grafik tabanlı
yöntemlerde yaygındır ve çoğu grafik tabanlı çıkarım algoritmasının bu çerçeveye uyduğu
gösterilebilir (Bengio ve ark.2006; Subramanya
ve Talukdar 2014). Ayrıca, manifold düzenlileştirme çerçevesinde de mevcuttur (Belkin et al.
2005) Bölümde tartışıldı. 6.3.
Grafik yapımı için, çoğu grafik tabanlı yöntem, benzer özelliklere sahip veri noktalarını
birbirine bağlayarak giriş alanındaki veri noktaları arasındaki yerel benzerliğe dayanır. Bu
durumda, çeşitli varsayımlara ek olarak dolaylı olarak pürüzsüzlük varsayımına da
güvenirler. Bu tür grafik tabanlı yöntemler ile denetimli en yakın komşu yöntemleri
arasında bir paralel çizilebilir. İkincisi, benzer (yani yakındaki) etiketli veri noktalarının
etiketlerine bakarak etiketlenmemiş bir veri noktasının etiketini tahmin eder; grafik tabanlı
yöntemler ayrıca etiketlenmemiş veri noktası çiftleri arasındaki benzerliği de göz önünde
bulundurur. Bu bilgiler kullanılarak etiketler, etiketli bir veri noktasından etiketsiz bir veri
noktasına hem etiketli hem de etiketsiz diğer veri noktaları üzerinden geçişli olarak
yayılabilir. O ışıkta
Grafik tabanlı yarı denetimli öğrenme yöntemleri yelpazesi, iki ana aşamadaki farklı
yaklaşımlara dayalı olarak etkili bir şekilde yapılandırılabilir, örn. grafik yapısı ve
çıkarım. Grafiğe dayalı yöntemler üzerine yapılan ilk çalışmalar, temelde ikinci aşamaya
odaklandı ve grafik oluşturmayı çok az çalışılmış bir konu bıraktı. Zhu (2008), bu dengesizliğin
adaletsiz olabileceğini ve grafik yapısının sınıf performansı üzerinde önemli bir etkiye sahip
olabileceğini kaydetti. Daha sonraki çalışmalar bu dengesizliği ele aldı ve o zamandan beri
grafik yapımı önemli bir araştırma ilgisi alanı haline geldi (de Sousa et al.2013).
Grafik tabanlı transdüktif yöntemler 2000'lerin başında tanıtıldı ve grafik tabanlı
çıkarım yöntemleri sonraki on yıl boyunca özellikle yoğun bir şekilde çalışıldı. Bir
123
Makine Öğrenimi (2020) 109: 373–440 417
Bu alanda yürütülen araştırmanın önemli bir kısmı, Zhu'nun yarı denetimli öğrenme
anketinde kapsanmıştır (2008) ve Zhu'nun doktora tezinde (2005). Ayrıca Subramanya ve
Talukdar (2014) yakın zamanda grafik tabanlı yöntemler üzerine bir kitap yayınladı. Grafik
tabanlı yöntemler alanındaki araştırmanın genel kronolojik sırasını takiben, çıkarım
problemini çözmek için farklı yaklaşımların ana hatlarını çizerek başlıyoruz. Bundan sonra,
grafik oluşturma üzerine araştırmalara genel bir bakış sunuyoruz.
7.2 Inference in graphs
Dönüştürücü yöntemlerde çıkarım süreci, tahminler oluşturmaktan ibarettir. ŷ U için

etiketsiz veri noktaları XU. Etiketli verilerin tahmin edilen etiketleri, çıkarım
sürecindeki gerçek etiketlere sabitlenmemişse, optimizasyon, tahmin edilen tüm
etiketler ŷ.
İfade optimizasyonunun üstesinden gelmek için birçok yaklaşım önerilmiştir 8;
genel olarak bunlar, kayıp işlevlerinin belirli seçeneklerinde farklılık gösterir ve U ve değiş tokuş
parametre λ. Ayrıca, bazı yöntemler yalnızca en olası etiket atamasını çıkarır ŷ, süre
diğerleri marjinal olasılık dağılımlarını tahmin eder. Birlikte, bu varyasyonlar çok
sayıda farklı grafik tabanlı çıkarım yöntemine yol açar.
İfade'den genel amaç işlevi olmasına rağmen 8 çok sınıf ayarı için de geçerlidir, birçok
grafik tabanlı yöntem doğal olarak ikili sınıflandırmanın ötesine geçmez. Çıkarsama
yöntemleri, aşağıda odaklanacağımız çoğunlukla ikili sınıflandırma durumunu ele alalım.
7.2.1 Sert etiket atamaları: graphmin-cut
İlk grafik tabanlı yarı denetimli sınıflandırma yöntemi Blum ve Chawla tarafından
önerilmiştir (2001), bir kullanarak grafik yapımını deneyen k-en yakın komşular
algoritma ve ε-mahalle (veri noktası çiftlerini birbirine ε). Kenar ağırlıklarını sabit ve
tekdüze tuttular, ancak diğer kenarlara göre etiketlenmemiş veri noktaları
arasındaki kenarların ağırlığını değiştirmeyi denediler.
Grafik oluşturulduktan sonra, optimizasyon problemine bir minimum kesimden yaklaşılır.
perspektif. Özellikle, tek bir kaynak düğümv + sonsuz ağırlık ile eklenir ve bağlanır
pozitif veri noktalarına ve tek bir havuz düğümüne v-, negatif veri noktalarına
sonsuz ağırlık ile bağlantılı. O halde minimum kesimin belirlenmesi, bir dizi
minimum birleşik ağırlığa sahip kenarlar, kaldırıldığında kaynak düğümden havuz düğümüne hiçbir yol
içermeyen bir grafikle sonuçlanır. Ortaya çıkan grafikteki tüm etiketlenmemiş düğümler
içeren bileşende v + pozitif olarak etiketlenir ve içindeki tüm etiketsiz
düğümler içeren bileşen v- negatif olarak etiketlenir.
Min-cut yaklaşımının, Expres'in genel amaç işlevini en aza indirdiği görülebilir.
sion 8 gibi λ yakınlık yaklaşımları (etiketli verilerdeki tahminleri sabitlemek, bunların gerçek
etiketler) veU (ŷben , ŷ j) = 1 {ŷi =ŷ j}, nerede 1 gösterge fonksiyonudur. 0 ve 1 etiketlerinin kullanıldığını varsayarsak,
etiketlenmemiş veriler için kayıp fonksiyonunun ikinci dereceden maliyete karşılık geldiğini unutmayın.
yani 1 {ŷi =ŷ j} = (ŷben- ŷ 2 j). İlgili amaç fonksiyonunu şu şekilde yazabiliriz:
l ∑n ∑n
2.
λ ·∑ (ŷben- yben )2 + Wij · (ŷben- ŷ j)
i =1 i =1 j =1
Bu amaç fonksiyonunun, Laplacian grafiği kullanılarak alternatif bir biçimde yazılabileceğini

unutmayın. L = D - W (nerede D düğümün derecesini içeren köşegen matristir ben -de
Dii) aşağıdaki gibi:
123
418 Makine Öğrenimi (2020) 109: 373–440
∑
λ·l (ŷben- yben )2 + 2 · ŷᵀ · L · ŷ.
i =1
Pang ve Lee (2004) duyarlılık bağlamında sınıflandırma için min-cut yaklaşımını

kullandı. ment analizi. Etiketli verilerin tahmin edilen etiketlerini gerçek etiketlerine
sabitlemek yerine, kaynak ve havuz düğümlerini etiketli veri noktalarına bağlayan kenarlara
hafif ağırlık verilebileceğini ve bu da her iki sınıflamadaki çatışmaları tek tek verilerin
perspektifinden gösterebileceğini belirtmişlerdir. nokta.
Min-cut yaklaşımı kolayca dejenere kesintilere yol açarak neredeyse tüm etiketsiz verilerin aynı
grafik bileşenine düştüğü bir çözüm ortaya çıkarabilir. Bu davranış, daha dengeli kesimlerin genellikle
kesilecek daha fazla potansiyel kenara sahip olmasından kaynaklanmaktadır: bir kesim, bir
s | pli
V +t | i·n | Vila-en | .gatifJoachimsdüğümler(2003V-ve)minpozitif-
cutdüğümtemellieramaçV+,kesiişlevinicekkenarnormalleştirmeksyısıpotansiyeliçinolarakönerildi ortaya çıkan

optimizasyon problemini çözmek için spektral yöntemler kullanılarak kesilen bu potansiyel kenar sayısı üzerinde.
Kesikli algoritma bir ikili vektör üzerinden optimize ettiğinden, marjinal

olasılıkların çıkarılmasına izin vermez. Bu sorunu çözmek için Blum ve ark. (2004.
Tahmin olasılıkları daha sonra, belirli bir etiketi tahmin eden sınıflandırıcıların
fraksiyonu olarak basitçe hesaplanır.
7.2.2 Olasılıklı etiket atamaları: Markov rasgele alanları
Sınıflandırma olasılıklarını tahmin etmenin ilkeli ve etkili bir yolunun olmaması, grafik tabanlı
çıkarım için minimum kesim yaklaşımının temel bir dezavantajıdır. Çoğu durumda diliyoruz
olasılığı tahmin etmek P (yi = c) etiketsiz bir veri noktası xben etiketi var c. Standart
Ancak min-cut, yalnızca katı sınıflandırmalar sağlar (yani, yalnızca sınıf etiketleri çıkarır ve
olasılıklar). Markov rasgele alanları perspektifinden grafik tabanlı yöntemlere yaklaşmak,
bu soruna potansiyel bir çözüm sağlar. Aşağıda, gösterimin küçük bir kötüye kullanımı ile,
kullanıyoruzX ve x rastgele değişkenleri ve bunların gerçekleşmelerini sırasıyla veri
noktaları yerine belirtmek için.
Hammersley-Clifford teoremi, bir olasılık dağılımı olduğunu belirtir. P (X = x) için
rastgele değişkenler X1,. . . ,Xn bir grafik ise Markov rasgele alanına karşılık gelir G böyle var
ortak olasılık fonksiyonu P (X = x) (maksimal) klikler üzerinde çarpanlara ayrılabilir
nın-nin G (Hammersley ve Clifford 1971). Diğer bir deyişle,P (X = x) bir Markov
rasgele alanına karşılık gelir. G Eğer
P (X = x) = 1 ·∏Z c∈CG ψc (xc),
nerede Z bir normalizasyon sabiti, CG kümeler kümesidir G, ψc keyfi bir fonksiyondur,

ve xc klikteki rastgele değişkenlerin gerçekleşmelerini içerir c.
Hammersley-Clifford teoremini kullanarak, genel minimizasyonun
İfadede formüle edilmiş grafik tabanlı yöntemler 8, bir Markov rasgele alanı şeklinde ifade
edilebilir. İzin VermekG grafiği ağırlık matrisi ile ifade ederW grafik yapımında elde edilen
aşama ve izin ver Ŷ = (Ŷ1,. . . ,Ŷn) veri noktaları için tahmin edilen etiketlere (yani 0 veya 1) karşılık
gelen rastgele değişkenlerin bir koleksiyonu olabilir x 1,. . . ,xn. Uzatıyoruz G her birini bağlayarak
düğüm Ŷben etiketli bir veri noktasına karşılık gelen xben yardımcı bir düğüme Y ′ ben , karşılık gelen
sadece gerçek etikete ulaşabilen rastgele bir değişken yben . Tüm koleksiyonunu gösteriyoruz
123
Makine Öğrenimi (2020) 109: 373–440 419
Şekil 5 Grafik tabanlı sınıflandırma için

yönsüz bir grafik model örneği.
Aralarındaki doldurulmuş düğümler ve
kenarlar orijinal grafiğe karşılık gelirG.
Un lled
artı ve eksi işaretli düğümler,
etiketli verilere bağlı yardımcı
düğümlere karşılık gelir
rastgele değişkenler veya düğümler Y = Ŷ ∪Y ′, nerede Y ′ tüm yardımcı düğümleri içerir.3 Beri
yardımcı düğümler yalnızca karşılık gelen gerçek etiketi elde edebilir, P (Y = y) = P (Ŷ = ŷ), nerede
yˆ (etiketli ve etiketsiz) verilerimiz için tahminler kümesidir.
Bu durum Şekil 2'de tasvir edilmiştir. 5. Doldurulmuş düğümlerŶ ve aralarındaki kenarlar orijinal
grafiğe karşılık gelir G; artı ve eksi işaretleri ile işaretlenmiş açıklanmamış düğümler, yardımcı
düğümleri temsil eder Y ′, ve yalnızca karşılık gelen dolu düğüme bağlanır.
Bir kliğin, her düğüm çiftinin bir kenarla bağlandığı bir düğüm alt kümesi olduğunu hatırlayın. O
halde, maksimal bir klik, genişletilemeyen, yani sonuçta ortaya çıkan düğüm alt kümesinin de bir klik
oluşturacağı şekilde hiçbir düğümün eklenemediği bir kliktir. Bir kenarla bağlanan her düğüm çiftinin
en az bir kliğin parçası olduğuna dikkat edin. Böylece, formun bir ifadesini
bulabilirsek
1 ·∏
ψ {senv} ({sen v})

Z (senv)∈E
için P (Ŷ = ŷ), olasılık dağılımı, birMarkov rasgele alanına karşılık gelir. maliyet fonksiyonunu
İfade'den ifade edebileceğimizi göstermeye devam ediyoruz. 8 Öyle ki en aza indirgemek,
olasılığı en üst düzeye çıkarmaya karşılık gelir P (Ŷ = ŷ).İki farklı kenar türünü ayırt edebiliriz: iki
normal düğüm arasındakiler sen v itibaren Ŷ, ve normal bir düğüm ile yardımcı düğümü
arasındakiler ( sen itibaren Ŷ, v itibaren Y ′, ya da tam tersi). Tanımlayalımψ (·)
bu iki durum için bağımsız olarak:
ψ ({ŷben , ŷ j}) = tecrübe(-Wij · U (ŷben , ŷ j)) Eğer vben , v j∈ Ŷ,
ψ ({ŷben , y′ ′
i}) = tecrübe(- (ŷben , y′ ben )) Eğer vben∈ Ŷ, v j∈ Y
veya vben∈ Y ′, v j∈ Ŷ.
Olasılık P (Ŷ = ŷ) sonra olur
1 ·∏ ∑
ben ) -∑ U (ŷben , ŷ j) ,
ψ {senv} ({sen v}) = tecrübe - (ŷben , y′

Z
(senv)∈E y′ ′ ŷben ,ŷ j ∈Ŷ
ben ∈Y
3Teknik olarak şunu not ediyoruz: Ŷ, Y ′ ve Y setlerden ziyade listelerdir, ancak - makine öğrenimi
literatüründeki yaygın uygulamaları takip ederek - aşağıda set gösterimini kullanın.
123
420 Makine Öğrenimi (2020) 109: 373–440
normalizasyon sabiti nerede Z olası tüm konfigürasyonlarının toplanmasıyla hesaplanabilir. Y. Bu,

tüm pratik amaçlar için hesaplama açısından çok pahalı olmasına rağmen, normalleştirme sabiti,
maksimum olabilirlik tahmini bağlamında ilgisizdir. O halde, normalize edilmemiş olasılığın negatif
logaritması, Expression'daki grafik tabanlı yöntemler için genel kayıp fonksiyonuna tam olarak
eşittir.8. Olasılığı en üst düzeye çıkarmakP (Y = y),
elde ederiz mod Markov rasgele alanı, yani en olası konfigürasyonu. Bu
çözüm, minimum kesim hedefini (Blum ve Chawla
2001).
Belirsiz yarı denetimde, yani
P (Y = y) = p (Y1 =edˆĉlas·siy1)p(Yfi2cˆâtio=nayar,ŷ2)sınıf·...·p (Ŷn =Red̂ikasyonlarn).Dönüştürücübağımsızdır
olarak, grafik tabanlı yöntemler, ancak, genellikle durum böyle değildir: tahminler birbirine
bağlıdır. Bu nedenle, en olası etiket atamasıŷ genellikle, beklenen hata oranını en aza indiren
etiket atamasına karşılık gelmez. İkincisini bulmak için her veri noktası
xbeno veri noktası için marjinal olasılığı en üst düzeye çıkaran etiketin atanması gerekir.
Ne yazık ki, rastgele bir alanın marjinal olasılıklarını bulmak önemsiz değildir.
Zhu ve Ghahramani (2002b) marjinal olasılıkların hesaplanmasına teşebbüs etti.
Markov zinciri Monte Carlo (MCMC) örnekleme. Metropolis ve Swendsen-Wang
örneklemesini denediler ve düşük hesaplama etkinliği bildirdiler. Shental ve Domany
( 2005) marjinal olasılıkları hesaplamak için multikonik bir MCMC yöntemi kullandı.
7.2.3 Etkili olasılıklı etiket atamaları: Gauss rasgele alanları
Daha önce açıklanan ikili etiketlerle Markov rasgele alanındaki marjinal olasılıkları
hesaplamak için kapalı formda bir çözüm yoktur. Ancak, rastgele değişkenler
Ŷ gerçek değerleri alma konusunda rahatlarsa, kapalı formda bir çözüm vardır. Bu yaklaşım önerildi
Zhu ve ark. (2003); fi x içerirˆîngˆo∈etiketli veri noktalarının etiketleri ve ikinci dereceden
tahmin çiftlerinin maliyeti yben , y j R. Bu, aynı amaç işleviyle sonuçlanır
min-cut formülasyonunda kullanılana (bkz. İfade 9), rahatlama dışında
gerçek sayılara yönelik tahminler.
Ûsikinci= dereceden kayıp fonksiyonuna sahip gerçek değerli tahminler için üstel form
P (Y y) çok değişkenli bir Gauss dağılımıdır. Bu nedenle, mod alanı için ortalamasına eşit olan kapalı tĥe = yformben )
biraynıçözümzamandamevcutturGauss'tur.Ayrıca,marjinvehatalolasılıkoranınıdağılımıenaza indiren etiket tahminlerinin
P (Yben
hesaplanmasına izin verir. Bu nedenle rasgele alana aGauss rasgele alanı. Tarikat'tan
hatırlayın. 6.3 Laplacian grafiğini şöyle tanımladık: L = D - W, nerede D
derece matrisidir (yani tepe dereceleri o olan köşegen bir matristir)
et al. (2003) tahmin fonksiyonunun olduğunu gösterdi harmonik, yani L ·n̂th = e köşegen)y0. etiketsiz Zhu
veri noktaları ve etiketli veri noktalarındaki gerçek etikete eşittir. Her etiketlenmemiş veri
noktasındaki tahmin edilen etiket, komşularının tahminlerinin ortalamasına eşittir, yani
ŷi =1·∑ Wij · ŷ, içinj i = l + 1,. . . ,n,

Dii v j ∈N (vben )
nerede N (vben ) düğümün komşuluğunu belirtir vben , yani, N (vi) = {v j: Wij = 0}. Kürk-
Thermore, çözüm benzersizdir ve ŷben∈ [0, 1] her biri için ben . Böylelikle,
eşikleme kullanılarak çözümden etiket tahminleri kolaylıkla elde edilebilir.
Markov rasgele alanının marjinallerinin hesaplanması,
alt matris LU graphLaplacian'daki etiketsiz veri noktalarına karşılık gelir. Bu, çok sayıda
etiketlenmemiş veri noktası için hesaplama açısından pahalıdır. Diğer birkaç yaklaşım
123
Makine Öğrenimi (2020) 109: 373–440 421
döngüsel inanç yayılımı ve eşlenik gradyan yöntemi dahil olmak üzere

harmonik fonksiyonun çözümünü bulmak için önerilmiştir (Zhu ve ark. 2003).
Grafik tabanlı yöntemlere Gauss rasgele alan yaklaşımını önermeden önce, Zhu
ve Ghahramani (2002a) tanıttı etiket yayılımı grafiklerde çıkarım için algoritma. Bu
yumuşak etiket atamalarını hesaplayan yinelemeli bir algoritma ŷben∈ R iterek (çoğalan)
kenar ağırlıklarına dayalı olarak her düğümdeki komşu düğümlere tahmini etiket. Diğer
her bir düğümdeki yeni tahmini etiket, komşularının etiketlerinin ağırlıklı
toplamı olarak hesaplanır. Matris gösteriminde
Wij
Birij =∑
vk∈N (vben )Wik
geçiş matrisini gösterir. Etiket yayma algoritması daha sonra etiket atamasına
kadar tekrarlanan iki adımdan oluşur.ŷ birleşir. İlk etiket atamasından başlayarak
ŷ, etiketlenmemiş veri noktaları için rastgele ve etiketli veri noktaları için
gerçek etiketlere eşittir:
1. Etiketleri her düğümden komşu düğümlere yayın: ŷ = Birᵀ · ŷ.
2. Etiketli veri noktalarının tahminlerini karşılık gelen gerçek etiketlere sıfırlayın.
Zhu (2005), algoritmanın harmonik fonksiyona yakınsamanın garantili olduğunu gösterdi

daha önce açıklanan çözüm. Ayrıca etiket yayma yaklaşımının geçiş matrisi ile rastgele
bir yürüyüş olarak yorumlanabileceğini gösterdiler.A, etiketli bir düğüme ulaşıldığında
durur. Wu vd. (2012a) bu prosedürü dedikleri bir çerçeveye dök kısmen emici
rastgele yürüyüşler, etiketli bir düğüm vurulduğunda deterministik olarak durmak yerine, stokastik
olarak durup durmayacağına karar verirler (absorbe) veya rastgele yürüyüşe devam edin. Etiket
yayma yaklaşımı,Markov rastgele yürüyor Szummer'in yaklaşımı
ve Jaakkola (2002). Belkin vd. (2004) benzer bir amaç işlevi olarak değerlendirdi ve bazı
teorik analizler sağladı. Azran (2007) yürüyüşlerin etiketsiz düğümlerden kaynaklandığı
ve etiketli düğümlerin soğurma durumları olduğu rastgele bir yürüyüş yaklaşımı önerdi.
Etiketsiz veri noktalarının belirli bir etikete ulaşma olasılığı, daha sonra, rastgele
yürüyüşün uzunluğu sıfırlığa yaklaştıkça, etiketsiz düğümden başlayan bir yürüyüşün
karşılık gelen sınıfın etiketli bir düğümünde sona erme olasılığından türetilir.
7.2.4 Etiket gürültüsünü ve düzensiz grafikleri işleme: yerel ve küresel tutarlılık
Gauss rasgele alanlar yönteminin iki dezavantajı vardır (Subramanya ve Talukdar 2014).
İlk olarak, gerçek etiketler etiketli veri noktalarına kenetlendiğinden, etiket gürültüsünü
işlemez. İkinci olarak, düzensiz grafiklerde yüksek dereceli düğümlerin etkisi görece
büyüktür. Bu iki konuyu ele alan Gaussian rasgele alanlar yöntemiyle yakından ilgili bir
yaklaşım Zhou ve diğerleri tarafından önerilmiştir. (2004). Yaygın olarak biliniryerel ve
küresel tutarlılık (LGC) yöntemi, grafiğe dayalı yöntemlerin manifoldlar üzerindeki
(global) ve giriş alanındaki (yerel) yakınlardaki etiketlerin tutarlılığını teşvik ettiği
gözlemine atıfta bulunarak. Aşağıda, şunu varsaydığımıza dikkat edin:Y = {-1, 1}.
İlk sorunu ele almak için, LCF doğru etiketleri etiketli veri noktalarına kelepçelemez,
bunun yerine gerçek etiket ile tahmini etiket arasındaki karesel hatayı cezalandırır. İkinci
sorun, etiketlenmemiş veri noktaları için ceza terimlerinin düğüm derecelerine göre
düzenlenmesi ile ele alınmıştır. Ayrıca, etiketlenmemiş veri noktaları için tahminler sıfıra
çekilerek düzenlenir (Bengio et al.2006). Karşılık gelen amaç fonksiyonunu genel formda
şu şekilde yazabiliriz:
123
422 Makine Öğrenimi (2020) 109: 373–440
( )2
l n n
∑ ∑ ∑∑
2
(ŷben- yben )2 + ŷ + λU · n Wij · √ ŷben-ŷ √ j ,
ben
Dii Djj
i =1 i = l +1 i =1 j =1
nerede λUgrafikteki komşular arasındaki etiket tahminlerindeki

tutarsızlıkların cezalandırılmasının ağırlığını yönetir.
Min-cut ve MRF hedefleri için olduğu gibi, amaç fonksiyonunun son teriminin matris
gösterimi kullanılarak ifade edilebileceğini unutmayın. Tek fark, LGC'nin normalleştirilmiş
grafik Laplacian L̃= D-1 2 · L · D-1 2 normalize edilmemiş Laplacian yerine L = D - W o
dönemde. Gauss rasgele alanları gibi, bu biçimlendirme de kapalı biçimli bir çözümü ve optimizasyona
nispeten verimli bir yinelemeli yaklaşımı kabul eder. Bu algoritmada etiket vektörü
ŷt +1 yinelemede t + 1, yinelemede buna göre hesaplanır t, güncelleme kuralını kullanmak
ŷt +1 = α · L̃· ŷt + (1 - α) · y,
nerede y etiketsiz veri noktaları için 0 ve α hesaplanan etiket vektörünün temel

etiket vektörüne göre göreceli önemini yönetir y. Bu algoritmaya genellikle
etiket yayılıyor.
7.2.5 Grafik tabanlı çıkarım hakkında daha fazla araştırma
Daha önce açıklanan yaklaşımlar ve özellikle etiket yayılımı, de

facto grafik tabanlı yarı denetimli sınıflandırmada çıkarım aşamasına standart
yaklaşım. Yaklaşım için burada kısaca özetlediğimiz çeşitli varyantlar ve
uzantılar önerilmiştir.
Baluja vd. (2008) tavsiye eden sistemlere grafik tabanlı yöntemler uyguladı (özellikle,
kullanıcılara video önerileri). Teklif ettileradsorpsiyon, tahmin etmek için sezgisel bir algoritma
etiket ŷben düğümün ben düğümden başlayarak rastgele bir yürüyüş gerçekleştirerek vben .
Rastgele yürüyüşteki her adımda, işlem bir sonraki adıma geçebilir (devam et), etiketini kabul et
tahmin olarak etiketlenmiş bir düğüm (enjeksiyon), veya açıkça hiçbir etiket öngörmüyorsa (terk etme).
Son seçenek, özellikle öğrenme algoritmasının güvenilir bir tahmin üretemediğini
belirten sahte bir tahmine karşılık gelir. Algoritma tarafından seçilen seçenek, üç
seçeneğin göreceli frekanslarını yöneten iki hiperparametreye bağlıdır.
Hiperparametre optimizasyonuna sezgisel yaklaşımlar, Baluja ve diğerleri
tarafından önerilmiştir. (2008) ve Talukdar vd. (2008). Algoritma, video önerisine
başarıyla uygulandı, ancak birçok buluşsal bileşeni nedeniyle teorik olarak analiz
edilmesi zor. Talukdar ve Crammer (2009), adsorpsiyon algoritması tarafından
minimize edilen objektif bir fonksiyon olmadığını buldu ve böyle bir objektif
fonksiyonun mevcut olduğu algoritmada bir modifikasyon önerdi.
Daha önce açıklanan grafik tabanlı yöntemler, sınıf dengesizliğine duyarlı olabilir (Zhu
2008). Bu sorunu hafifletmek için birkaç yaklaşım önerilmiştir. Zhu vd. (2003), tahmin
edilen etiket oranları önceden belirlenmiş etiket oranlarına karşılık gelecek şekilde
sınıflandırma eşiğini ayarlamayı önerdi. Wang vd. (2008a), gerçek etiketlerdeki gürültüye
karşı daha az duyarlı olan ve etiket oranlarına dayalı olarak etiketlenmiş örneklerin etkisini
değiştirerek sınıf dengesizliğine duyarlılık sorununu azaltan bir optimizasyon şeması
geliştirdi. İkili etiket atamalarının yanı sıra gerçek değerli tahminleri optimize etmek için
amaç işlevini değiştirdiler; yaklaşımları, gerçek değerli ve ikili tahminler arasındaki farkı
cezalandırıyor. Daha sonra gerçek değerli ve ikili etiket atamalarını alternatif bir şekilde
optimize ederek amaç işlevini optimize etmeye devam eder. Daha sonra Wang ve ark.
(2013) grafik maksimum kesim perspektifinden aynı yaklaşımı değerlendirdi.
123
Makine Öğrenimi (2020) 109: 373–440 423
İçinde yapılandırılmış çıktı öğrenme, veri noktalarının etiketleri, basit ikili veya gerçek
değerli temsiller kullanılarak yakalanamaz. Örneğin, çıktı etiketleri bazı durumlarda
histogramlar veya olasılık dağılımları ile daha iyi temsil edilebilir (örneğin, 24 saatlik bir
döngü boyunca bir konumdaki göreceli trafik yoğunluğunu tahmin ederken). Subramanya
ve Bilmes (2008, 2011) Farklı düğümlerin dağılımları arasındaki KL farklılığına dayalı
olarak, bir grafik aracılığıyla ayrık olasılık dağılımlarını yayar. KL diverjansına bir alternatif
olarak Solomon ve ark. (2014) komşu düğümlerin ayrık dağılımları arasındaki benzerliği
ölçmek için Wasserstein mesafesini kullanmayı önerdi.
7.3 Grafik yapısı
Tartışmalı olarak, grafik oluşturma, grafik tabanlı yöntemlerin en önemli yönüdür:

çıkarımın işe yaraması için, oluşturulan grafiğin yerel benzerlikleri doğru bir şekilde
yakalaması gerekir. Grafik tabanlı yöntemlerle ilgili ilk araştırma, çıkarım aşamasına
odaklanmıştı ve grafik yapısı iyi çalışılmamıştı (Zhu2008). Ancak son yıllarda bu
değişti. Farklı grafik oluşturma algoritmaları üzerinde kapsamlı deneyler yapılmış ve
yeni yöntemler tanıtılmıştır (de Sousa et al.2013; Jebara vd.2009; Subramanya ve
Talukdar 2014).
Grafiğin düğümleri veri noktalarına (hem etiketli hem de etiketsiz) karşılık geldiğinden,
grafik oluşturma aşaması, düğümler arasında kenarlar oluşturmak (bitişik matrisini
vermek) ve bunlara ağırlık eklemek (ağırlık matrisini vermek) anlamına gelir. Çoğu
durumda, düğümler arasındaki bağlantıyı yöneten benzerlik ölçüsü, ağırlık matrisini
oluşturmak için de kullanılır.
7.3.1 Bitişik matris yapısı
Grafiği oluşturmanın ilk adımı, elemanları düğüm çiftleri arasında kenarların

varlığını gösteren bir bitişik matrisin oluşturulmasıdır. Kenarları belirlemek için üç
popüler yöntem mevcuttur ve aşağıda özetlenmiştir. İlk iki yöntemin,ε-mahalle ve
k-en yakın komşular yerel her bir düğüm için bir dizi komşunun bağımsız
olarak belirlenebilmesi anlamında. Başka bir deyişle, bir mahalle inşaatı
düğüm vben başka bir düğüm için mahalle yapımını etkilemez v j (sürece vben dır-dir
komşusu v j). Üçüncü yöntem, b-Öte yandan eşleştirme, küresel bir hedefi optimize eder ve
birbirinden çok uzak olan düğümler, birbirlerinin bağlantılarını önemli ölçüde etkileyebilir.
ε-Komşuluk. Grafik oluşturmada kullanılacak ilk yöntemlerden biri, ε-

Komşuluk yöntemi, her bir düğümü mesafenin bulunduğu tüm düğümlere basitçe bağlayan en
fazla ε (Blum ve Chawla 2001). Başka bir deyişle, aralarında bir kenarx ben ve x j yaratıldı
ancak ve ancak, d (xben , x j) ≤ ε, nerede d (·, ·) bir mesafe ölçüsüdür (genellikle
Öklid mesafesi). Ortaya çıkan grafiğin yapısı, seçimine büyük ölçüde bağlıdır.ε ve
mesafe ölçüsü. Ayrıca, o zamandan beriε sabittir, modellerin ölçeği verilen girdi
verileri arasında değişiyorsa iyi çalışmaz. Bu sınırlamalar nedeniyle,ε-komşuluk
yöntemi pratikte nadiren kullanılmaktadır (de Sousa et al. 2013; Jebara vd.2009).
k-en yakın komşular. Transdüktif yöntemler için en yaygın grafik oluşturma yöntemi,
k-en yakın komşular yöntemi, her bir düğümün kendisine bağlı olduğu k en yakın bir
mesafe ölçüsüne göre girdi uzayındaki komşular (Blum ve Chawla 2001).
Vanilya kullanmak k-Ancak en yakın komşular bir soruna yol açar: çünkü k-en yakın komşu
bours simetrik değildir, yönlendirilmemiş bir veri elde etmek için genellikle bazı ek işlemler gerekir.
123
424 Makine Öğrenimi (2020) 109: 373–440
grafik. Genel olarak iki seçenek dikkate alınır: bir (simetrik k-en yakın komşular)
bir kenar oluşturur, eğer ben içinde k-mahalle j veya tam tersi ve diğeri (karşılıklı
k-en yakın komşular) bir kenar oluşturur, eğer ben ve j ikisi de birbirinin içinde k-
mahalle (de Sousa et al. 2013). Arasındaki farkε-komşular ve k-En yakın komşular
yöntemi, Maier ve ark. (2009) kümeleme yöntemleri bağlamında.
b-eşleştirme. Grafik oluştururken kullanılan son işlem adımı k-en yakın komşu
bours genellikle tüm düğümlerin tam olarak sahip olmadığı bir grafikle sonuçlanır. k komşular. Ne zaman
simetrik k-en yakın komşular kullanılırsa, genellikle bazı düğümlerin diğerlerinden çok daha yüksek
derecelere sahip olduğu görülür. Jebara vd. (2009) bunun sınıflandırıcının nihai performansını olumsuz
etkileyebileceğini göstermiştir. Oluşturulan grafiğin düzenliliğini zorlayan, yani her düğümün aynı
sayıda komşuya sahip olmasını ve düğümlerin tam olarak istenen sayıda kenara sahip olmasını
sağlayan bir kenar inşa yöntemi önerdiler. Yaklaşımları şunlardan ilham alıyor:eşleştirme, Bir grafikte
kenarların herhangi bir köşeyi paylaşmayacağı şekilde kenarların bir alt kümesini bulmaya çalışan
grafik teorisinden bir kavram. Yöntemlerinde,b-
eşleştirmede amaç, tüm grafikteki kenarların alt kümesini bulmaktır, öyle ki (1)
her düğümün derecesi b ve (2) kenar ağırlıklarının toplamı maksimuma çıkarılır.
Jebara ve ark. (2009), toplamını maksimize etmek yerine
kenar ağırlıkları, amaç kalan mesafeler arasındaki mesafelerin toplamını en aza indirmektir.
kenarlar. Ancak, mesafe matrisini tanımladıkları içinC gibi Cij = √ Wii + Wjj- 2Wij,
bu kavramlar eşdeğerdir. Karşılık gelen optimizasyon problemi şu şekilde formüle edilir:
n∑
∑n
küçültmek Birij · Cij

Bir∈Bn×n
i =1 j =1
n
∑
tabi Birij = b i = 1,. . . ,n,
j =1
Birii = 0 i = 1,. . . ,n,

Birij = Bir ji i, j = 1,. . . ,n.
Bunun, tarafından çözülen optimizasyon problemine karşılık geldiği gösterilebilir. k-en yakın
kısıtlamanın eklenmesiyle komşu algoritması Birij = Bir ji, ki bunu sağlar son
işlem aşamasına gerek kalmadan simetrik bir grafik oluşturulur. Ancak
için en etkili bilinen algoritma b-eşleştirme optimizasyon problemi zaman karmaşıklığına
sahiptir O (n2.5) ve gerçek dünya senaryolarında her zaman tatmin edilmeyen birkaç varsayım
gerektirir (Huang ve Jebara 2011).
7.3.2 Grafik ağırlıklandırma
Grafik yapısının ikinci adımını oluşturan grafik ağırlıklandırma fazı, grafikteki

kenarlar için ağırlıkları belirler. Çoğu durumda, ağırlıklar kenarları oluşturmak için
kullanılan benzerlik ölçüsüne karşılık gelir. Örneğin, grafiğin bağlantısını belirlemek
için genellikle bir Gauss çekirdeği kullanılır.k-en yakın komşular ve kenar ağırlıkları.
Bu durumda, grafik oluşturma süreci genellikle ağırlıklandırma veseyrekleşme. İlk
olarak, eksiksiz bir bitiş matrisi K bazı çekirdek kullanılarak oluşturulmuştur
işlevi k tüm düğüm çiftleri için Kij = k (xben , x j); sonra ağırlık matrisi W dır-dir
sparsi fi katyonla, yani kenarların kaldırılmasıyla elde edilir. K.
Literatürde kenar ağırlıklandırması için çeşitli yöntemler önerilmiştir. En popüler ağırlıklandırma
şemalarından biri Gauss kenar ağırlıklandırmasıdır (de Sousa et al.2013; Jebara vd.
2009), nerede
123
Makine Öğrenimi (2020) 109: 373–440 425
(- ||xben- x j ||2 )
Wij = tecrübe ,
2σ2
ve σ2 Gauss çekirdeğinin varyansıdır. Bunun izotropik bir Gauss çekirdeğine karşılık
geldiğine dikkat edin; izotropik olmayan bir Gauss çekirdeği de kullanılabilir. Hein ve
Maier (2007), Gauss kenar ağırlıklandırmasının yerel bir varyantını önerdi. k-en yakın
komşu grafik yapısı, burada bir çift düğüm için varyans ben ve j maksimum mesafeye
bağlıdır ben ve j en yakın komşuları. Ağırlığı şu şekilde tanımlarlar:
( - ||xben- x j ||2)
Wij = tecrübe
(max {hben , h j})2,
nerede hi = maxvk∈N (vi) ||xben- xk ||2, yani arasındaki maksimum kare mesafe ben ve Onun
komşular. Blum ve Chawla (2001) farklı özelliklerin önemini değiştirmeyi önerdi
bilgi kazancına dayalı benzerlik hesaplamasında. Jebara vd. (2009) denendi ikili
ağırlıklarla Wij = 1 eğer düğümler ben ve j bağlı ve Wij = Aksi takdirde 0.
Yukarıda açıklanan tüm ağırlıklandırma şemalarında, Wij = Bağlantısız düğümler için 0.
Yukarıda açıklanan yaklaşımlar kenar ağırlıklarını belirler Wij sadece ikili olarak
düğümlerin benzerliği xben ve x j. Bununla birlikte, kenar ağırlıklarını belirlerken bir düğümün
tüm komşuluğunu hesaba katmak da mümkündür. Wang ve Zhang (2008) tanıtıldı
doğrusal komşuluk yayılımı (LNP) algoritması, varsayıma dayanan
grafiğin herhangi bir veri noktası xben komşularının doğrusal bir kombinasyonu
olarak tahmin edilebilir, yani
x i =∑ Wij · x j + εben
v j ∈N (vben )
bazı vektörler için εben düşük büyüklükte. Bu denklemde bilinmeyenler

ağırlıklardırWij her komşunun katkılarının yaklaşık olarak x ben . Wang ve Zhang'ın
yaklaşımı, W öyle ki, yaklaşık ve
doğru veri noktaları en aza indirilirken, ağırlıkların pozitif olması ve her düğüm için kenar
ağırlıklarının toplamının 1 olması sağlanır. Bu, aşağıdaki optimizasyon sorununa yol açar:
∑n ||xben- x̃i||2
küçültmek
W∈Rn×n i =1
∑ (10)
tabi Wij = 1 ben=1,. . . ,n
v j ∈N (vben )
Wij≥ 0 i, j = 1,. . . ,n
∑
nerede x̃i= v j ∈N (vben )Wij · x j yeniden yapılanması xben . Bu formülasyon aynıdır
yerel olarak doğrusal yerleştirme (Roweis ve Saul 2000), iki kısıtlamanın eklenmesiyle.
LNP, bir dizi ikinci dereceden programlama problemiyle çözülebilir (her düğüm için bir
tane). Bu, en önemlisi, kenar ağırlık simetrisinin uygulanmamasına bağlıdır, yani zorunlu
olarak şu durumda Wij = Wji; bundan dolayı ağırlıklar Wij bağımsız
Wkj için k = i.
Karasuyama ve Mamitsuka (2013) yerel olarak doğrusal yerleştirmeyi yerel bir simülasyonla birleştirerek
kenar ağırlıklarını elde etmek için belirsizlik ölçüsü. Özellikle, önceden oluşturulmuş bir
grafik verildiğinde (örneğin,k-en yakın komşu algoritması), çapraz kovaryans matrisli bir
Gauss çekirdeği kullanarak iki bağlı düğüm arasındaki ağırlığı hesaplarlar. Bu matris,
yerel yeniden yapılandırma hatasını en aza indiren katsantılar eklenerek oluşturulur.
123
426 Makine Öğrenimi (2020) 109: 373–440
Liu ve Chang (2009) ağırlık matrisini simetrik k-en yakın komşular yöntemi: biri
diğerinin içindeyse iki düğüm bağlanır. k-mahalle, ancak her ikisi de birbirlerinin
mahallesindeyse iki bağlantının ağırlığı toplanır. Başka bir deyişle, değiştirilmiş
ağırlık matrisiW temel alınarak inşa edilmiştir
orijinal ağırlık matrisinde Ŵ aşağıdaki gibi:
Eğer vben∈ N (v j) ve v j∈ N (vben )

Ŵ̂ij + Ŵ ji,
Wij =W ji, Eğer vben∈ N (v j) ve v j∈ / N (vben )

Wˆ ij,
aksi takdirde
de Sousa vd. (2013) bu yöntemlerden birkaçının performans üzerindeki etkisini karşılaştırdı.

dönüştürücü algoritmalar. Özellikle, Hein ve Maier'in yerel olarak normalleştirilmiş Gauss
ağırlıklandırma yaklaşımı olan Gauss ağırlıklandırmasını (kenarların izotropik bir Gauss çekirdeği
kullanılarak ağırlıklandırıldığı) karşılaştırdılar (2007) ve LNP (Wang ve Zhang 2008); biraz
şaşırtıcı bir şekilde, en iyi sonuçları Gauss ağırlıklandırması kullanılarak elde edildi.
7.3.3 Eşzamanlı grafik yapımı ve ağırlıklandırma
Daha önce açıklanan LNP algoritması (bkz. Bölüm. 7.3.2), grafik yapısının (yani kenar kümesinin) bilindiğini ve
sabitlendiğini varsayar ve her bir düğümün komşularının doğrusal bir kombinasyonu olarak yeniden
yapılandırılabileceği varsayımına dayanarak her düğüm için kenar ağırlıklarını yerel olarak belirler. Bununla birlikte,
grafik yapısını sabitlemek yerine, aynı zamanda, grafik yapısını ve kenar ağırlıklarını, düğümleri temel alarak doğrusal
olarak yeniden yapılandırarak aynı anda çıkarabilir.herşey diğer
düğümler.
Böyle bir yaklaşım ilk olarak Yan ve Wang (2009), göre seyrek kodlama
yaklaşmak Wright ve diğerleri tarafından yüz tanıma için formüle edilmiştir. (2009). Fikir, her düğüm için
bulmaktır.xben , katsayı vektör a ∈n
R diğer tüm düğümlerin katkılarını gösteren
yeniden yapılanma xben . Bu yeniden yapılanma daha sonra şu şekilde hesaplanır: x̃i= (X′) T ·a, nerede X′ ∈n×d R
tam veri matrisini gösterir, ancak dizinde bir sıfır satırı vardır ben (çünkü bir düğüm katkıda bulunamaz
kendi yeniden inşasına). Problem'den LNP rekonstrüksiyonunun aksine10 yukarıda
sadece önceden belirlenmiş komşular yeniden yapılanmaya katkıda bulunursa, burada, hepsi n - 1 diğer
düğümler kullanılabilir. Karşılık gelen temel optimizasyon problemi, en aza indirmeye çalışır.
her veri noktası, hata vektörünün normu εi = x̃ben-xben , yeniden yapılanma ile gerçek veriler
arasındaki farkı ifade etmek. L2 normunu kullanan LNP'den farklı olarak çok önemlidir
ve böylece seyrek olmayan çözümleri teşvik eder, Yan ve Wang (2009) L1 normunu kullanın.
Bazı durumlarda eksik belirlenmiş bir denklem sisteminden kaçınmak için, son optimizasyon problemi
hem yeniden yapılandırma katsayılarının normunu hem de gürültü vektörünü cezalandırır. İzin Vermek
B = [(X′) T, bend] veri matrisinin birleştirilmesi X ve d × d kimlik matrisi bend.
Her veri noktası xben daha sonra şu şekilde ifade edilebilir: x i = B · a′. Buraya, a′ katsayıdan oluşur
vektör a = [a′
1,. . . ,a′ n] ve hata vektörü ε = [a′ n +1,. . .
,a′ n + d]. Nihai optimizasyon
Optimal katsayıları bulma problemi daha sonra her bir düğüm için aşağıdaki gibi tanımlanır x ben :
simge durumuna küçültmek ||a′ ||1
a′∈Rn + d
tabiB · a′ = xben ,
nerede || · ||1 L1 normudur. Şimdi izin veraben düğüm için bulunan katsayı vektörünü gösterir ben . The
Son grafik daha sonra düğümler arasına bir kenar eklenerek oluşturulur ben ve j eğer ve sadece
Eğer, aij = 0, ve kenar ağırlıklarının katsayının büyüklüğüne ayarlanması, yani Wij = |aij |.
Bu yaklaşımın yönsüz bir grafik vermediğini not ediyoruz. Seyrek kodlamanın bir çeşidi
123
Makine Öğrenimi (2020) 109: 373–440 427
yöntem He ve ark. (2011), tüm katsayıların Problem'den gelen amaca

negatif olmayacağına dair bir kısıtlama koyan 11 yukarıda.
Katsayı vektör a bir kodlama olarak görülebilir x ben . Bu açıdan bakıldığında, benzer veri
noktalarının benzer kodlamalara sahip olması beklenir. Zhuang vd. (2012) yakalanan
bir matris oluşturarak bu varsayım Bir tüm kodlamalardan a1,. . . ,an ve düzenleyen sırasına
göre amaç işlevi A. Bilinen bir kümeleme yöntemine dayanmaktadır: düşük-rütbe temsili
(Liu vd. 2010a), düzenlileştirme terimi, yüksek dereceli katsayılı matrisleri cezalandırır.
Matrisin düşük sıralılığı verilerdeki global yapıları yakalarken seyreklik, veri noktaları
arasındaki yerel yapıyı yakalar. Negatif olmama kısıtlamasını içeren ve katsayıların L0
normunu cezalandıran sonuçta ortaya çıkan optimizasyon problemi NP-zordur; Zhuang
vd. (2012) bir dışbükey gevşeme önerdi ve bununla özdeş bir objektif fonksiyona yol açtı.
seyrek kodlama Problemin objektif işlevi 11, ancak olumsuz olmayan kısıtlama ve sıra
düzenlileştirme terimi için bir vekil eklenmesiyle.
Bu yaklaşım iyi deneysel sonuçlar elde etmesine rağmen, katkı katsayılarını
kullanma motivasyonu a grafik ağırlıkları biraz belirsiz kaldığından. Alternatif olarak Li
ve Fu (2013, 2015) benzerliklerini ölçmek için veri noktası çiftlerinin yeniden
yapılandırma katsayılarını kullanın. Özellikle, seyrek ve düşük seviyeli bir kodlama
vektörleri matrisi oluştururlar ve veri noktalarının benzerliğini kodlamaları arasındaki
mesafeye dayandırırlar. Ek olarak, grafiğin seyrekliğini ve düzenliliğini desteklemek için
tüm düğümlerin eşit dereceye sahip olduğu kısıtlamasını empoze ederler.
7.4 Ölçeklenebilir dönüştürücü öğrenme
Şimdiye kadar tartışılan grafik oluşturma ve çıkarım yöntemlerinin çoğu, ölçeklenebilirlik eksikliğinden
muzdariptir (Liu ve ark. 2012). Grafik oluşturma yöntemleri genellikle zaman karmaşıklığına sahiptir
O (n2) (Örneğin, k-en yakın komşular zaman karmaşıklığına sahiptir Tamam mı ·n2)); çıkarım yöntemleri
genellikle zaman karmaşıklığı vardır O (n3) kesin çözümler elde etmek için ve O (n) yaklaşık olarak
çözümler. Bu, büyük miktarlarda etiketlenmemiş veri içeren gerçek dünya uygulamalarında grafik
tabanlı yöntemleri uygulamayı zorlaştırabilir. Liu vd. (2012) grafik tabanlı yöntemleri daha ölçeklenebilir
hale getirmek için yaklaşımlara genel bir bakış sağladı.
Ölçeklenebilirlik sorununun üstesinden gelmek için, üzerinde çıkarımın gerçekleştirilebileceği
daha küçük grafikleri verimli bir şekilde oluşturmak için birkaç yaklaşım önerilmiştir. Bu
yaklaşımlar, nprototipbirdiziveyam çapa noktaları yapıyı ifade etmek için
verileri daha derli toplu olarak verir. Bu bağlantı noktaları, çıkarım aşamasında kullanılır, ardından
etiketsiz veri noktaları, yakındaki bağlantı noktalarının çıkarsanmış etiketlerine göre sınıflandırılır.
Yaygın olarak kullanılan bir yaklaşım adı verilen çapa grafiği düzenlemeLiu ve ark.
(2010b). Yöntemleri bir dizi bağlantı noktası bulmaya çalışırsen 1,. . . ,senk ve karşılık gelen etiket
atamaları, böylece her veri noktası, etiketlerin doğrusal bir kombinasyonu olarak ifade edilebilir.
yakındaki bağlantı noktalarının. Bağlantı noktalarının konumlarını kullanarak seçerler.k-anlamına geliyor
kümeleme ve her veri noktasını en yakın bağlantı noktalarına bağlayan bir grafik oluşturun. Karşılık gelen
ağırlıklar, yerel doğrusal gömme yoluyla tanımlanır (bkz.7.3.2); bunlar daha sonra tüm veri noktaları üzerinde bir
grafik oluşturmak için kullanılır. Çıkarım süreci, bağlantı noktalarına yönelik tahminler üzerinde tanımlanan
grafik tabanlı bir amaç işlevini optimize ederek, veri noktalarının tahminlerini dolaylı olarak optimize eder.
Zhang vd. ( 2009), çıkarım aşamasında denetimsiz maliyet teriminde bitişik matrisin düşük dereceli bir
yaklaşımının kullanılması önerildi.
123
428 Makine Öğrenimi (2020) 109: 373–440
7.5 İletimden indüksiyona
Daha önce görülmemiş bir veri noktası için bir tahmin elde etmek için, dönüştürücü algoritmaların
bütünüyle yeniden çalıştırılması gerekir. Transdüktif yöntemler genellikle hesaplama açısından pahalı
olduğundan, bu, yeni veri noktaları için on-the-on-on-on-class sınıflandırmanın gerekli olduğu birçok
gerçek dünya problem senaryosunda istenmeyen bir durumdur. Endüktif sınıflandırma için
dönüştürücü algoritmaları uyarlama ve genişletme konusu literatürde kapsamlı bir şekilde
çalışılmamıştır, ancak bazı potansiyel çözümler önerilmiştir.
İlk yaklaşım türü, transdüktif algoritmanın amaç fonksiyonuna dayalı olarak daha önce
görülmemiş veri noktaları için optimal etiket tahminini bulmaktır. Bu tür yaklaşımlar, transdüktif
tahminleri sabitler ve daha önce görülmemiş veri noktalarının etiketini tahmin etmek için elde edilen
grafiği kullanır (Bengio et al.2006; Zhu2008). Genel amaç işlevi dikkate alındığında İfadeden 8, yeni
veri noktası için en uygun etiket ataması xben hesaplanabilir
verimli bir şekilde: grafik ağırlıklarını hesaplayabileceğimizi varsayarsak Wij için j = 1,. . . ,n,
yapabiliriz Hedef işlevini yalnızca yeni veri noktasının tahmin edilen etiketine göre
optimize edin. Etiket ataması ŷbenMaliyet fonksiyonunun en aza indirilmesi daha sonra veri
noktasının komşularının ağırlıklı çoğunluk oyu ile verilir:
∑
yˆben∈ argmax
c ∈Y
v j ∈N (vben )∧ŷ j =c
Tümevarımlı bir sınıflandırıcı oluşturmak için ikinci yaklaşım türü, sahte etiketli tahminleri
gerçek etiketler olarak ele almak ve bu tahminlere dayalı olarak denetimli bir sınıflayıcı
eğitmektir. Bu yaklaşım Kveton ve ark. (2010), en uygun etiketleri elde etmek için min-cut
yaklaşımını kullanan ve etiketli ve etiketsiz verileri bir arada kullanarak denetlenen bir SVM'yi
eğiten. Etiketsiz örneklerin denetimli öğrenme algoritmasında ağırlıklandırılabilmesi için olasılık
tahminlerine sahip bir dönüştürücü yaklaşım kullanılması düşünülebilir. Bu yaklaşım,
hesaplama açısından pahalı bir tahmin aşamasına sahip tümevarımlı öğrenenlere de
uygulanabilir: tüm mevcut veriler üzerinde tümevarımlı yarı denetimli bir öğrenme yöntemi
eğitebilir ve etiketli verilerle birlikte etiketlenmemiş veriler için tahminlerini sayısal olarak daha
verimli bir şekilde aktarabiliriz. sınıf (Urner ve ark.2011). Etkin tahmin aracı daha sonra yeni,
daha önce görülmemiş veri noktaları hakkında tahminler yapmak için kullanılabilir.
7.6 Ağ verilerinde sınıflandırma
Bazı gerçek dünya problemlerinde, veriler doğası gereği bir grafik olarak temsil
edilir. Genellikle şu şekilde anılan bu tür verilerağ verileri, sosyal ağlar, bilimsel
işbirliği, bulaşıcı hastalıkların yayılması, şirket yapıları vb. bağlamında ortaya çıkar.
Bu tür ağlarda, düğümler genellikle varlıkları (insanlar gibi) ve kenarlar aralarındaki
ilişkileri (arkadaşlık gibi) temsil eder. Bu tür verileri inceleyen alan, genellikle ağ
bilimi olarak bilinir (Barabási2016).
Bu tür ağ verilerinde, grafik tabanlı transdüktif yöntemler, çıkarım yapmak için
oldukça uygun adaylardır. Özellikle düğüm sınıflandırması, düzenli bir transdüktif
yarı denetimli öğrenme görevi olarak düşünülebilir ve genel olarak sosyal ağ analizi
ve doğal dil işlemedeki problemlere uygulanır (Tan ve ark.2011; Yang vd.2016). Bu
alanlar arasında önemli miktarda örtüşme olmasına rağmen, yarı denetimli öğrenme
ve ağ bilimi toplulukları oldukça bağımsız bir şekilde faaliyet göstermiştir. Tabii ki,
bir ağ biçiminde doğal olarak verilen veriler ile bazı benzerlik ölçütlerine dayalı
olarak girdi vektörlerinden çıkarılan grafikler arasında da önemli farklılıklar vardır.
123
Makine Öğrenimi (2020) 109: 373–440 429
Sen vd. (2008) düğüm sınıflandırması için çıkarım tekniklerine genel bir bakış sağladı
ağ verilerinde. Arasındaki farkı vurguladılaryerel Her bir düğümün komşularına
göre (muhtemelen yinelemeli olarak) sınıflandırıldığı sınıflandırma ve küresel
küresel, ortak amaç fonksiyonunun optimize edildiği sınıflandırma.
Özellikle,yinelemeli sınıflandırma algoritması, Her düğüm için yerel, denetlenen bir
sınıflayıcı oluşturan ve düğüme komşularına ve etiketlerine (Lu ve Getoor 2003;
Neville ve Jensen2000). Bu prosedür, tüm ağdaki tahminler stabilize olana kadar
yinelenir. Yang vd. (2016) bir düğümün etiketini ve bağlamını, yani düğüm gömme
kullanarak ağdaki yakın düğümlerin (özelliklerini) eşzamanlı olarak tahmin eden sinir
ağı tabanlı bir yaklaşım önerdi.
Gömmeyi belirli bir düğümün özelliklerinin bir fonksiyonu olarak ifade ederek (bağlamı
değil) bu yaklaşımı tümevarımsal ortama genişletmişlerdir. Bağlam, rastgele bir yürüyüş
kullanılarak tahmin edilir; bu soruna benzer yaklaşımlar daha önce çalışılmıştır (Perozzi ve ark.
2014; Tang vd.2015). Evrişimli sinir ağı mimarilerini ağ verilerine genelleştirmek
için çeşitli yaklaşımlar önerilmiştir (bakınız, örneğin, Bruna ve ark.2014;
Duvenaud vd. 2015; Kipf ve Welling2016).
Ağ tabanlı yöntemler genellikle, belirli ağ verilerini vektörler olarak temsil etmenin bir yolunu
bulmaya çalışır ve bu da endüktif çıkarıma izin verir (Yang ve ark. 2016). İlginç bir şekilde, bu, yarı
denetimli grafik tabanlı yöntemlerin çoğunun yapmaya çalıştığı şeyin tersi olarak düşünülebilir, bu da
vektör verilerine dayalı bir grafik oluşturmaktır. Bu tamamlayıcı yaklaşımlar, 'standart', tablo şeklinde
veriler ve bir ağ biçiminde yerel olarak belirtilen veriler arasındaki farkı vurgulamaktadır.
8 İlgili alanlar
Yarı denetimli öğrenme araştırmalarının büyük çoğunluğu yarı denetimli sınıflandırma

üzerine odaklanmış olsa da, diğer sorunlar da incelenmiştir. Etiket alanının olduğu yarı
denetimli regresyon Y kategorik yerine gerçek değerlidir, özellikle yarı denetimli
sınıflandırma ile yakından ilgilidir; aşağıda sınırlı ayrıntıyla ele alıyoruz. Yarı denetimli
sınıflandırmanın karşılığı olarak düşünülebilecek yarı denetimli kümelenme de bu
bölümün ilerleyen kısımlarında ayrıntılı olarak ele alınmaktadır.
Yarı denetimli sınıflandırma ile ilgili diğer bazı alanlar bu ankette kapsanmamaktadır. Alanını içerir.aktif
öğrenme, burada öğrenme algoritması, kullanıcıyı önceden etiketlenmemiş veri noktalarının etiketleri için
sorgulayabilir. Sonuç olarak, yeni etiketli veriler elde edilebilir. Verilerin etiketlenmesi genellikle maliyetli
olduğundan, zorluk, etiketleri en bilgilendirici olacak etiketlenmemiş veri noktalarının seçiminde yatmaktadır
(Yerleşim2012). Biz de kapsamıyoruzolumlu ve etiketsiz verilerden öğrenmek, Bu, algoritmanın bir dizi
etiketsiz veri noktasına erişime sahip olduğu, ancak tüm etiketlenmiş veri noktalarının tek bir sınıfa ait
olduğu yarı denetimli öğrenmenin özel bir durumudur (bkz. Liu ve ark. 2002; Denis vd.2005; Elkan
ve Noto 2008).
8.1 Yarı denetimli regresyon
Sınıflandırma problemlerinde etiket alanı Y kategoriktir; regresyon problemlerinde ise

çıktı değeri uzayı süreklidir. Sınıflandırma ve regresyon problemlerinin her ikisi de
girdi veri noktaları için çıktı değerlerini tahmin etmekle ilgili olsa da, yarı denetimli
sınıflandırma yöntemlerinin çoğu doğal olarak regresyon ayarına uygulanamaz.
123
430 Makine Öğrenimi (2020) 109: 373–440
Regresyon ayarına kolayca genişletilebilen bir yöntem sınıfı,

grafik tabanlı yöntemler (bkz. Bölüm. 7). Bu tür birçok yöntem, bir ara adımda gerçek
değerli bir işlevi modeller ve gerçek değerli tahminleri amaç işlevindeki bir
düzenlileştirme terimine dahil eder. Bu gerçek değerli tahminler, regresyon
senaryosunda kolaylıkla kullanılabilir (bkz., Ör. Belkin ve ark.2004; Cortes ve Mohri2007).
Regresyon problemleriyle başa çıkmak için doğal olarak donatılmış ikinci sınıf
yöntemler, sarmalayıcı yöntemleri (bkz. Bölüm. 4). Bu yönde nispeten az araştırma
yapılmasına rağmen, kendi kendine eğitim ve regresyon yöntemlerine ortak eğitim gibi
sarmalayıcı yöntemler, yarı denetimli bir regresyon ortamında kolayca uygulanabilir.
Aslında, denetimli sınıflandırma yöntemlerinde olduğu gibi, herhangi bir denetimli regresör
bir sarmalayıcı yöntemi içinde kullanılabilir. Zhou ve Li (2005a) yarı denetimli regresyon
için bir ortak eğitim algoritması önerdi. İki inşa ediyorlark-etiketli verilerdeki en yakın
komşu regresörleri, bunlar daha sonra sözde etiketli verileri yinelemeli olarak birbirine
iletir. Sözde etiketleme için veri noktalarını seçmek için kullanılan etiketleme güvenirliği,
etiketli veriler üzerinde ölçüldüğü üzere, sahte etiketli veri noktası eğitim setine eklenirken
elde edilen regresörlerin performansına dayanır.
8.2 Yarı denetimli kümeleme
Yarı denetimli sınıflandırma, görece iyi tanımlanmış bir görevdir ve kişiye tamamen
etiketlenmiş verilerle birlikte tamamen etiketlenmemiş veriler sunulur. Yarı
denetimli kümelemede ise denetlenen bilgi farklı biçimler alabilir. Örneğin olabilir
zorunlu bağlantı (iki örneğin aynı kümede olduğu bilinmektedir) ve bağlanamaz
(iki örneğin farklı kümelerde olduğu bilinmektedir (Lange et al. 2005). Bazı küme
atamalarının önceden bilinmesi de mümkündür.
İkinci tür bilgilerin dahil edilmesine bir örnek, etiketli verilerin kullanımıdır. küme
tohumlama. Basu vd. (2002), küme atamalarının bilindiği veri noktalarına dayalı
olarak kümeleri başlatmak için önerildi. Her küme için, küme merkezini başlatırlar.k-
bu kümeye ait olduğu bilinen veri noktalarının ortalama özellik değerlerine yönelik
algoritma anlamına gelir. Ayrıca, etiketli veri noktalarının küme atamalarının sabit
tutulduğu bu yaklaşımın bir alternatifini de önerdiler.k-prosedür anlamına gelir.
Yarı denetimli regresyon gibi, yarı denetimli kümeleme, yarı denetimli sınıflandırma ile
karşılaştırıldığında nispeten küçük bir araştırma alanıdır. Yarı denetimli kümeleme yöntemlerine
daha kapsamlı bir genel bakış için okuyucuyu Bair'in son anketine yönlendiriyoruz (2013) ve
Grira ve diğerleri tarafından kümeleme yöntemlerine ilişkin eski anket. (2004).
9 Sonuçlar ve gelecek perspektifleri
Bu ankette, yarı denetimli öğrenme alanına genel bir bakış sunduk. 2000'lerin başından ve
daha yeni gelişmelerden yöntemleri kapsayan anketimiz, makine öğrenimi içindeki bu
önemli konunun güncel bir incelemesini oluşturmaktadır. Ayrıca, yarı denetimli
sınıflandırma yöntemleri için yaklaşımın birincil amacını birbirinden ayıran yeni bir
sınıflandırma sunduk (transdüktif e karşı endüktif öğrenme) ve yol
etiketlenmemiş veriler kullanılır (ör. sarmalayıcı yöntemleri, denetimsiz ön işleme, ve
özünde yarı denetimli yöntemler).
Yarı denetimli öğrenme alanındaki erken araştırmalar, esas olarak sarma yöntemlerine odaklanmıştır
(Böl. 4) ve geleneksel denetimli algoritmaların yarı denetimli uzantıları (SVM'ler,
123
Makine Öğrenimi (2020) 109: 373–440 431
bkz. Bölüm. 6). Grafik tabanlı yöntemler (Sects.6.3 ve 7) son yirmi yılda kapsamlı bir şekilde araştırılmıştır.
Farklı etiketlenmemiş veri noktalarının benzerliğini ilkeli bir şekilde açıkça birleştiren belki de en sezgisel yarı
denetimli öğrenme yöntemidirler. Bununla birlikte, yine de hesaplama zorlukları yaratırlar. Son yıllarda, yarı
denetimli öğrenme, denetimli öğrenme ile benzer çizgilerde gelişmiştir: özellikle, denetimsiz ön işleme
biçiminde yarı denetimli sinir ağlarına güçlü bir odaklanma olmuştur (Bölüm.5.3)
yanı sıra yarı denetimli düzenlileştirme (Böl. 6.2). Ek olarak, derin üretken modeller
yarı denetimli ortama genişletilmiştir (Böl.6.4).
Bizim bakış açımıza göre, yarı denetimli öğrenmede çözülmesi gereken en önemli sorunlardan biri,
etiketlenmemiş verilerin ortaya çıkmasının neden olduğu potansiyel performans düşüşüdür. Bu, literatürde nispeten
az ilgi görmesine rağmen (muhtemelen Zhu'nun belirttiği gibi yayın yanlılığı nedeniyle)2008), birçok yarı denetimli
öğrenme yöntemi yalnızca denetlenen meslektaşlarından veya belirli durumlarda temel öğrencilerden daha iyi
performans gösterir (Li ve Zhou 2015;
Singh vd. 2009). Diğer durumlarda, yarı denetimli öğrenme yöntemlerinin performansını deneysel olarak
değerlendirmek için kullanılan denetimli taban çizgileri nispeten zayıftır ve etiketlenmemiş verileri dahil
etmenin faydaları konusunda çarpık bir bakış açısına neden olur (Oliver ve ark.2018). Dahası,
potansiyel performans düşüşü, genel olarak potansiyel iyileşmeden çok daha
önemlidir, özellikle tamamen denetimli öğrenme ile güçlü performansın elde edildiği
makinede öğrenme problemleri. Bunun, denetimli öğrenmeye kıyasla uygulamada yarı
denetimli öğrenme yöntemlerinin uygulamalarının eksikliğinin ana nedenlerinden biri
olduğuna inanıyoruz.
Dikkate değer istisnalar, yarı denetimli sinir ağlarında genellikle pertürbasyon
temelli olan son gelişmelerdir (bkz. 6.2). Nispeten zayıf olanları içerirlerpürüzsüz
ness varsayımı (yani, girdi uzayındaki küçük değişiklikler çıktı uzayında sadece küçük
değişikliklere neden olmalıdır). Ampirik olarak, bu yöntemlerin sürekli olarak denetlenen
muadillerinden daha iyi performans gösterdiği gösterilmiştir. Yarı denetimli öğrenme için sinir
ağlarını kullanmanın önemli bir avantajı, denetimsiz kayıp terimlerini maliyet işlevine dahil
etmenin nispeten basit olmasıdır, bu daha sonra geri yayılım kullanılarak optimize edilebilir. Bu
esneklik, aynı zamanda, daha karmaşık maliyet terimlerinin dahil edilmesini de barındırarak,
örneğin, grafik tabanlı düzenlileştirmeyi kolaylaştırır. Bu nedenlerden dolayı, öngörülebilir
gelecekte yarı denetimli sinir ağlarının popülaritesinin artmaya devam edeceğini umuyoruz.
Yarı denetimli öğrenme yöntemlerinin sağlamlığının olmaması için ikinci bir potansiyel çare,
otomatik makine öğrenimi (AutoML) yarı denetimli ayara. Son zamanlarda, belirli bir sınıflandırma
problemi için öğrenme algoritmalarının otomatik seçimi ve yapılandırılmasına olan ilgide büyük bir
artış olmuştur. Bu yaklaşımlar, meta-öğrenme ve sinir mimarisi aramasının yanı sıra otomatik algoritma
seçimi ve hiperparametre optimizasyonunu içerir. AutoML teknikleri göze çarpan ve başarılı bir şekilde
denetimli öğrenmeye uygulanmış olsa da (bakınız, örneğin Elsken et al.2019; Feurer vd.2015;
Thornton vd. 2013), şu ana kadar yarı denetimli öğrenmeye başvuru yapılmamıştır. Yarı denetimli
uygulamaların uygulamada benimsenmesine yönelik bir diğer önemli adım, standartlaştırılmış
yazılım paketlerinin geliştirilmesidir. Denetimli öğrenim için oldukça popüler birkaç araç takımı
mevcuttur; örneğin:scikit-öğren (Pedregosa vd. 2011), ancak yarı denetimli öğrenme alanında
çok daha az standardizasyon vardır. Bazı genel araç setlerinin mevcut olduğunu not ediyoruz;
KEEL yazılım paketi yarı denetimli bir öğrenme modülü içerir (Triguero et al. 2017),
ve bazı dönüştürücü grafik tabanlı yöntemlerin uygulamaları şu ülkelerde mevcuttur: scikit-öğren. İçin
sinir ağları gibi popüler yazılım paketlerinde yarı denetimli kayıp terimlerini
uygulamak genellikle nispeten basittir. PyTorch (Paszke vd. 2017) ve TensorFlow
(Abadi vd. 2016).
123
432 Makine Öğrenimi (2020) 109: 373–440
Son olarak, kümelenme ve sınıflandırma arasındaki güçlü ayrımın kaybolmasını bekliyoruz.

Temel olarak, her iki yaklaşım da ya sadece etiketli verilerin ya da sadece etiketlenmemiş
verilerin bulunduğu özel yarı denetimli durumlar olarak görülebilir. Marjinal dağılım arasındaki
bağlantılar hakkında güvenilir bir şekilde akıl yürütebildiğimizdep (x) ve koşullu dağılım
p (y | x), öğrenme algoritmaları, etiketsiz verilerin yanı sıra etiketli verilerin de etkili bir şekilde
kullanılmasını sağlayabilir. Üretken modellerin popülaritesindeki son artış (bkz.6.4) bu
paradigma değişikliğinin kanıtı olarak görülebilir.
Sonuç olarak, etiketlenmemiş verilerin dahil edilmesinin makine öğrenimi ve
uygulamalarının ilerlemesinde hayati bir adım olmasını bekliyoruz. Veri modelinin altında
yatan karmaşık ve karmaşık yapıları ortaya çıkarmak için, makinenin açık bir etiketleme
bilgisi almadığı gözlemler arasındaki kalıpları çıkarabilmesi gerekir. Bu tür bağlantılar
kurmak için mekanizmalar sağlamayı amaçlayan yarı denetimli öğrenme, bu amaca
yönelik önemli bir araç olacaktır.
TeşekkürBu makalenin taslakları hakkındaki değerli geri bildirimleri için Matthijs van Leeuwen'e teşekkür ederiz.
Etik standartlara uygunluk
Çıkar çatışması Yazarlar çıkar çatışması olmadığını beyan ederler.
Açık Erişim Bu makale Creative Commons Attribution 4.0 International License (http://creativecommons.org/
licenses/by/4.0/), orijinal yazarlara ve kaynağa uygun şekilde atıfta bulunmanız, Creative Commons lisansına
bir bağlantı sağlamanız ve değişiklik yapılıp yapılmadığını belirtmeniz koşuluyla, herhangi bir ortamda
sınırsız kullanım, dağıtım ve çoğaltmaya izin veren.
Referanslar
Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat, S., Irving, G. ve Isard,
Metal. (2016). Tensör akışı: Büyük ölçekli makine öğrenimi için bir sistem. İçindeUSENIX sempozyumu
işletim sistemi tasarımı ve uygulaması hakkında (OSDI 16) (s. 265–283). Abney, S. (2002). Önyükleme.
İçinde
Hesaplamalı derneğe ilişkin 40. yıllık toplantı tutanakları
dilbilim, hesaplamalı dilbilim için ilişki (s. 360–367). Anderberg, MR
(1973).Uygulamalar için küme analizi. Cambridge: Academic Press.
Azran, A. (2007). Buluşma algoritması: Markov rastgele yürüyüşleri ile çok sınıflı yarı denetimli öğrenme. İçinde 24.
uluslararası makine öğrenimi konferansının bildirileri (pp. 49–56). Bachman, P., Alsharif, O. ve
Precup, D. (2014). Sözde topluluklarla öğrenme. İçindeSinirsel gelişmeler
bilgi işleme sistemleri (s. 3365–3373). Bair, E. (2013). Yarı denetimli kümeleme
yöntemleri.Wiley Disiplinlerarası İncelemeler: Hesaplamalı İstatistik-
tikler, 5 (5), 349–361.
Balcan, MF, Blum, A. ve Yang, K. (2005). Ortak eğitim ve genişleme: Teori ve pratiğe köprü kurmaya doğru.
İçinde Sinirsel bilgi işleme sistemlerindeki gelişmeler (s. 89–96).
Baluja, S., Seth, R., Sivakumar, D., Jing, Y., Yagnik, J., Kumar, S., Ravichandran, D. ve Aly, M. (2008).
Video youtube için öneri ve keşif: Görünüm grafiğinde rastgele gezinme. İçindeTutanaklar
17. uluslararası dünya çapında web konferansı (s. 895–904). ACM. Barabási, AL (2016).Ağ bilimi.
Cambridge: Cambridge University Press.
Basu, S., Banerjee, A. ve Mooney, R. (2002). Tohumlama yoluyla yarı denetimli kümeleme. İçindeTutanak
19. uluslararası makine öğrenimi konferansı (s. 27–34).
Belkin, M., Matveeva, I. ve Niyogi, P. (2004). Büyük grafiklerde düzenleme ve yarı denetimli öğrenme. İçinde Hesaplamalı
öğrenme teorisi üzerine uluslararası konferans bildirileri (sayfa 624–638). Springer. Belkin, M.,
Niyogi, P. ve Sindhwani, V. (2005). Manifold regülasyonunda. İçinde10'uncu
Bildiriler uluslararası yapay zeka ve istatistik konferansı (sayfa 17–24).
Belkin, M., Niyogi, P. ve Sindhwani, V. (2006). Manifold düzenlileştirme: Öğrenme için geometrik bir
çerçeve etiketli ve etiketsiz örneklerden. Makine Öğrenimi Araştırmaları Dergisi, 7, 2399–2434.
123
Makine Öğrenimi (2020) 109: 373–440 433
Ben-David, S., Lu, T., Pál, D. ve Sotáková, M. (2009). Düşük yoğunluklu ayırıcıları öğrenmek.
İçindeTutanak 12. uluslararası yapay zeka ve istatistik konferansı (s. 25–32).
Bengio, Y., Delalleau, O. ve Le Roux, N. (2006). Bölüm 11. Etiket yayılımı ve ikinci dereceden kriter. İçinde
O. Chapelle, B. Schölkopf ve A. Zien (Eds.), Yarı denetimli öğrenme (pp. 193–216). Cambridge: MIT Press.
Bennett, KP ve Demiriz, A. (1999). Yarı denetimli destek vektör makineleri. İçindeSinirsel

gelişmeler bilgi işleme sistemleri (sayfa 368–374).
Bennett, KP, Demiriz, A. ve Maclin, R. (2002). Topluluk yöntemlerinde etiketlenmemiş verileri kullanmak. İçindeİlerlemek-
8. ACM SIGKDD uluslararası bilgi keşfi ve veri madenciliği konferansının yazıları (s. 289–296). ACM.
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A. ve Raffel, C. (2019). Mixmatch: Bütünsel
yarı denetimli öğrenmeye yaklaşım. arXiv: 1905.02249.
Bishop, CM (2006). Örüntü tanıma ve makine öğrenimi. Berlin: Springer.
Blum, A. ve Chawla, S. (2001). Graphmincut kullanarak etiketli ve etiketsiz verilerden öğrenme.
İçindeBildiriler 18. uluslararası makine öğrenimi konferansının (s. 19–26).
Blum, A., Lafferty, J., Rwebangira, MR ve Reddy, R. (2004). Randomize kullanarak yarı denetimli
öğrenme mincuts. İçinde21. uluslararası makine öğrenimi konferansının bildirileri (s. 13).
Blum, A. ve Mitchell, T. (1998). Etiketli ve etiketlenmemiş verileri ortak eğitimle birleştirmek.
İçindeTutanaklar hesaplamalı öğrenme teorisi üzerine 11. yıllık konferans (s. 92–100). ACM.
Bruna, J., Zaremba, W., Szlam, A. ve LeCun, Y. (2014). Spektral ağlar ve yerel olarak bağlı
ağlar grafiklerde. İçindeUluslararası öğrenme, temsiller konferansı.
Chapelle, O., Chi, M. ve Zien, A. (2006a). Yarı denetimli SVM'ler için bir devam yöntemi. İçindeBildiriler
23. uluslararası makine öğrenimi konferansının (s. 185–192). Chapelle, O., Schölkopf, B. ve Zien, A.
(2006b). Yarı denetimli öğrenme (1. baskı). Cambridge: MIT
Basın.
Chapelle, O., Sindhwani, V. ve Keerthi, SS (2008). Yarı denetimli destek için optimizasyon
teknikleri vektör makineleri. Makine Öğrenimi Araştırmaları Dergisi, 9, 203–233.
Chapelle, O. ve Zien, A. (2005). Düşük yoğunluklu ayırma ile yarı denetimli sınıflandırma. İçindeTutanaklar
10. uluslararası yapay zeka ve istatistik çalıştayı (s. 57–64).
Chen, K. ve Wang, S. (2011). Birden fazla yarı üzerinde çalışarak düzenli artırma yoluyla yarı denetimli
öğrenme denetimli varsayımlar. Örüntü Analizi ve Makine Zekası Üzerine IEEE İşlemleri, 33 (1), 129–
143.
Chen, M., Chen, Y. ve Weinberger, KQ (2011). Tek görüntülü birlikte eğitim için otomatik özellik ayrıştırma.
İçinde 28. uluslararası makine öğrenimi konferansının bildirileri (s. 953–960). Chen, T. ve Guestrin, C.
(2016). Xgboost: Ölçeklenebilir bir ağaç güçlendirme sistemi. İçinde22. ACM'nin Tutanakları
SIGKDD uluslararası bilgi keşfi ve veri madenciliği konferansı (sayfa 785–794). ACM. Christoudias,
CM, Urtasun, R., Kapoorz, A. ve Darrell, T. (2009). Gürültülü algısal gözlemci ile birlikte eğitim
vations. İçindeBilgisayarla görme ve örüntü tanıma üzerine 2009 IEEE konferansının bildirileri (s.
2844– 2851). IEEE.
Collobert, R., Sinz, F., Weston, J. ve Bottou, L. (2006). Büyük ölçekli transdüktif SVM'ler.Journal of
Machine Öğrenme Araştırması, 7, 1687–1712.
Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K. ve Kuksa, P. (2011). Doğal lisan
sıfırdan işleme (neredeyse). Makine Öğrenimi Araştırmaları Dergisi, 12, 2493–2537.
Corduneanu, A. ve Jaakkola, T. (2003). Bilginin düzenlenmesi hakkında. İçinde19. konferansın bildirileri yapay
zekadaki belirsizlik üzerine (s. 151–158). Morgan Kaufmann Publishers Inc. Cortes, C. ve Mohri, M.
(2007). Dönüştürücü regresyon hakkında. İçindeSinirsel bilgi işlemedeki
gelişmeler sistemleri (s. 305–312).
Cozman, FG, Cohen, I. ve Cirelo, MC (2003) Karışım modellerinin yarı denetimli öğrenimi.
İçindeBildiriler makine öğrenimi üzerine 20. uluslararası konferansın (s. 99–106).
Culp, M. ve Michailidis, G. (2008). Öğrencileri yarı denetimli bir ortama genişletmek için yinelemeli bir
algoritma. Hesaplamalı ve Grafik İstatistik Dergisi, 17 (3), 545–571.
Dai, Z., Yang, Z., Yang, F., Cohen, WW ve Salakhutdinov, RR (2017). İyi yarı denetimli öğrenme
kötü bir gan gerektirir. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 6510–6520). d'Alché Buc,
F., Grandvalet, Y. ve Ambroise, C. (2002). Yarı denetimli marj artışı.Sinirsel Gelişmeler
Bilgi İşlem Sistemleri, 1, 553–560.
Dara, R., Kremer, SC ve Stacey, DA (2002). Etiketlenmemiş verilerin SOM'larla kümelenmesi sınıflandırmayı
iyileştirir etiketli gerçek dünya verileri. İçindeSinir ağları üzerine uluslararası ortak konferansın
bildirileri (Cilt 3, sayfa 2237–2242). IEEE.
Dasgupta, S., Littman, ML ve McAllester, DA (2002). Ortak eğitim için PAC genelleme sınırları.
123
434 Makine Öğrenimi (2020) 109: 373–440
de Bie, T. ve Cristianini, N. (2004). İletim için dışbükey yöntemler. İçindeSinir bilgisindeki

gelişmeler işleme sistemleri (s. 73–80).
deBie, T. ve Cristianini, N. (2006). Yarı kesin programlama kullanarak yarı denetimli öğrenme. Ben hayır. Chapelle,
B. Schölkopf ve A. Zien (Eds.), Yarı denetimli öğrenme (s. 119–135). Cambridge: MIT Press. de Sousa,
CAR, Rezende, SO ve Batista, GE (2013) Yarı denetimli üzerinde grafik yapımının etkisi
öğrenme. İçindeVeritabanlarında makine öğrenimi ve bilgi keşfi üzerine ortak Avrupa
konferansının bildirileri (s. 160–175). Springer.
Demiriz, A., Bennett, KP ve Embrechts, MJ (1999). Genetik algoritmalar kullanarak yarı denetimli kümeleme.
İçinde Mühendislikte Yapay Sinir Ağları (s. 809–814).
Dempster, AP, Laird, NM ve Rubin, DB (1977). EM yoluyla eksik verilerden maksimum
olasılık algoritması. Kraliyet istatistik toplumu Dergisi, B Serisi, 39, 1–38.
Deng, C. ve Zu Guo, M. (2011). Bilgisayar destekli tanı için yeni bir ortak eğitim tarzı rastgele
orman.Dergi Akıllı Bilgi Sistemleri Bölümü, 36 (3), 253–281.
Denis, F., Gilleron, R. ve Letouzey, F. (2005). Olumlu ve etiketlenmemiş örneklerden
öğrenmek.Teorik Bilgisayar Bilimi, 348 (1), 70–83.
Doersch, C. (2016). Varyasyonel otomatik kodlayıcılar hakkında eğitim. arXiv: 1606.05908.
Dópido, I., Li, J., Marpu, PR, Plaza, A., Dias, JMB ve Benediktsson, JA (2013). Yarı denetimli kendi kendine
hiperspektral görüntü sınıflandırma için öğrenme. Yerbilimi ve Uzaktan Algılama Üzerine IEEE İşlemleri,
51 ( 7), 4032–4044.
Du, J., Ling, CX ve Zhou, ZH (2011). Birlikte eğitim gerçek verilerde ne zaman çalışır?IEEE
İşlemleri Bilgi ve Veri Mühendisliği, 23 (5), 788–799.
Dua, D. ve Graff, C. (2019). UCI makine öğrenimi deposu. 12 Eylül 2019'dan
alındıhttp: // archive.ics.uci.edu/ml.
Duvenaud, DK, Maclaurin, D., Iparraguirre, J., Bombarell, R., Hirzel, T., Aspuru-Guzik, A. ve Adams, R.
P. (2015). Moleküler parmak izlerini öğrenmek için grafiklerde evrişimli ağlar. İçindeSinirsel
gelişmeler bilgi işleme sistemleri (sayfa 2224–2232).
Elkan, C. ve Noto, K. (2008). Sınıflandırıcıları yalnızca pozitif ve etiketlenmemiş verilerden öğrenmek. İçindeTutanak
14. ACM SIGKDD uluslararası bilgi keşfi ve veri madenciliği konferansı (s. 213–220). ACM.
Elsken, T., Metzen, JH ve Hutter, F. (2019). Sinir mimarisi araştırması: Bir anket.Journal of Machine
Öğrenme Araştırması, 20 (55), 1–21.
Erhan, D., Bengio, Y., Courville, A., Manzagol, PA, Vincent, P., & Bengio, S. (2010). Neden gözetimsiz?
ön eğitim derin öğrenmeye yardımcı olur mu? Makine Öğrenimi Araştırmaları Dergisi, 11, 625–660.
Feurer, M., Klein, A., Eggensperger, K., Springenberg, J., Blum, M. ve Hutter, F. (2015). Etkili ve sağlam
otomatik makine öğrenimi. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 2962–2970). Freund, Y.
ve Schapire, RE (1997). Çevrimiçi öğrenmenin karar-teorik genellemesi ve bir
uygulama artırmak için. Bilgisayar ve Sistem Bilimleri Dergisi, 55 (1), 119–139.
Geng, B., Tao, D., Xu, C., Yang, L. ve Hua, XS (2012). Ensemblemanifold
düzenlenmesi.IEEETransactions Örüntü Analizi ve Makine Zekası üzerine, 34 (6), 1227–1233.
Goldberg, AB, Zhu, X., Singh, A., Xu, Z. ve Nowak, RD (2009). Çok katlı yarı denetimli öğrenme.
İçinde 12. uluslararası yapay istihbarat ve istatistik konferansının bildirileri (s. 169–176). Goldman, S.
ve Zhou, Y. (2000) Etiketsiz verilerle denetimli öğrenmeyi geliştirmek. İçindeTutanak
17. uluslararası makine öğrenimi konferansı (s. 327–334). Goodfellow, I. (2017).NIPS 2016 öğreticisi:
Üretken düşmanca ağlar. arXiv: 1701.00160.
Goodfellow, I., Bengio, Y. ve Courville, A. (2016). Derin öğrenme. Cambridge: MIT Press. Goodfellow, I.,
Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. ve Bengio, Y.
(2014a). Üretken hasım ağları. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s.
2672– 2680).
Goodfellow, I., Shlens, J. ve Szegedy, C. (2014b). Düşman örneklerini açıklamak ve
kullanmak. arXiv: 1412.6572.
Grabner, H., Leistner, C., Bischof, H. (2008). Sağlam izleme için yarı denetimli çevrimiçi güçlendirme.İlerlemek-
10. Avrupa bilgisayarlı görü konferansının yazıları (s. 234–247).
Grandvalet, Y. ve Bengio, Y. (2005). Entropiminizasyon yoluyla yarı denetimli öğrenme. İçindeSinirsel
gelişmeler bilgi işleme sistemleri (s. 529–536).
Grandvalet, Y., D'AlchéBuc, F. Ve Ambroise, C. (2001). Yarı denetimli öğrenme için karışım modellerini
geliştirme. Yapay sinir ağları üzerine uluslararası konferans (sayfa 41–48).
Grira, N., Crucianu, M. ve Boujemaa, N. (2004). Denetimsiz ve yarı denetimsiz kümeleme: Kısa bir
anket. İçinde 7. ACM SIGMM uluslararası multimedya bilgi alma çalıştayı.
123
Makine Öğrenimi (2020) 109: 373–440 435
Grover, A. ve Leskovec, J. (2016). node2vec: Ağlar için ölçeklenebilir özellik öğrenimi. İçindeTutanak 22.
ACM SIGKDD uluslararası bilgi keşfi ve veri madenciliği konferansı (s. 855–864). ACM.
Guyon, I. ve Elisseeff, A. (2006). Özellik çıkarma işlemine giriş. I. Guyon, M. Nikravesh, S.

Gunn, & LA Zadeh (Ed.), Özellik çıkarma (s. 1–25). Berlin: Springer.
Haffari, GR ve Sarkar, A. (2007). Yarowsky algoritması ile yarı denetimli öğrenmenin analizi. İçinde
Yapay istihbaratta belirsizlik üzerine 23. konferansın bildirileri (s. 159–166). Hammersley, JM ve
Clifford, P. (1971). Markov, sonlu grafikler ve kafesler üzerinde sahalar. Erişim tarihi: 27 Ekim
2019 yılından itibaren http://www.statslab.cam.ac.uk/~grg/books/hammfest/hamm-cliff.pdf.
O, R., Zheng, WS, Hu, BG ve Kong, XW (2011). Ayrımcı yarı denetimli öğrenme için olumsuz olmayan seyrek
kodlama. İçindeBilgisayarla görme ve örüntü tanıma üzerine 2011 IEEE konferansının bildirileri (s.
2849– 2856). IEEE.
Hein, M. ve Maier, M. (2007). Manifold denoising. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler
(sayfa 561–568).
Hinton, GE, Osindero, S. ve Teh, YW (2006). Derin inanç ağları için hızlı bir öğrenme
algoritması.Sinirsel Hesaplama, 18 (7), 1527–1554.
Huang, B. ve Jebara, T. (2011). Yeterli seçim inanç yayılımı yoluyla hızlı b-eşleştirme. İçindeTutanaklar
14. uluslararası yapay istihbarat ve istatistik konferansı (sayfa 361–369). Jayadeva, KR ve Chandra, S.
(2007). Desen sınıflandırması için ikiz destek vektör makineleri.IEEE Trans-
Örüntü Analizi ve Makine Zekası ile ilgili eylemler, 29 (5), 905–910.
Jebara, T., Wang, J., & Chang, SF (2009) Yarı denetimli öğrenme için grafik oluşturma ve b-eşleştirme.
İçinde Makine öğrenimi üzerine 26. yıllık uluslararası konferansın bildirileri (sayfa 441–448). Joachims, T.
(1999). Destek vektör makinelerini kullanarak metin sınıflandırması için transdüktif çıkarım. İçindeİlerlemek-
16. uluslararası makine öğrenimi konferansının yazıları (Cilt 99, s. 200–209). Joachims, T. (2003). Spektral
grafik bölümleme yoluyla dönüşümlü öğrenme. İçinde20. inter-
makine öğrenimi ulusal konferansı (s. 290–297).
Karasuyama, M. ve Mamitsuka, H. (2013) Etiket yayılımı için manifold tabanlı benzerlik uyarlaması.
Kingma, DP, Mohamed, S., Rezende, DJ ve Welling, M. (2014). Derinlemesine yarı denetimli öğrenme üretken
modeller. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 3581–3589). Kingma, DP ve
Welling, M. (2013). Otomatik kodlama değişken Bayes. İçindeUluslararası öğrenme
konferansı-ing, temsiller.
Kipf, TN ve Welling, M. (2016). Grafik evrişimli ağlarla yarı denetimli
sınıflandırma. arXiv: 1609.02907.
Kiritchenko, S. ve Matwin, S. (2001). Ortak eğitim ile e-posta sınıflandırması. İçinde2001 Tutanakları
işbirlikçi araştırma üzerine ileri araştırmalar merkezi konferansı (S. 8). IBM basın.
Kohonen, T. (1998). Kendi kendini organize eden harita.Nöro hesaplama, 21 (1–3), 1–6. Krizhevsky, A.
(2009). Küçük görüntülerden birden çok özellik katmanını öğrenmek. Yüksek lisans tezi, Üniversitesi
Toronto, Bilgisayar Bilimleri Bölümü.
Krizhevsky, A., Sutskever, I. ve Hinton, GE (2012). Derin evrişimli nöral ile Imagenet
sınıflandırması ağlar. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 1097–1105).
Kveton, B., Valko, M., Rahimi, A. ve Huang, L. (2010). Maksimum marj grafiği ile yarı denetimli öğrenme keser.
İçinde13. uluslararası yapay istihbarat ve istatistik konferansının bildirileri (s. 421–428).
Laine, S. ve Aila, T. (2017). Yarı denetimli öğrenme için zamansal birleştirme. İçindeUluslararası
konferans öğrenme, temsiller üzerine.
Lange, T., Law, MH, Jain, AK ve Buhmann, JM (2005). Kısıtlı ve etiketsiz verilerle öğrenme.
İçinde Bilgisayarla görme ve örüntü tanıma üzerine 2005 IEEE konferansının bildirileri (Cilt 1, sayfa
731– 738). IEEE.
Lawrence, ND ve Jordan, MI (2005). Gauss süreçleri aracılığıyla yarı denetimli öğrenme.
İçindeGelişmeler sinirsel bilgi işleme sistemleri (s. 753–760). LeCun, Y., Bengio, Y. ve Hinton, G.
(2015). Derin öğrenme.Doğa, 521 (7553), 436.
Lee, DH (2013). Sözde etiket: Derin sinir sistemi için basit ve etkili yarı denetimli öğrenme yöntemi ağlar.
İçindeTemsili öğrenmedeki zorluklar üzerine 30. ICML çalıştayı bildirileri (Cilt 3,
s. 2).
Leistner, C., Saffari, A., Santner, J., Bischof, H. (2009). Yarı denetimli rastgele ormanlar.
İçindeTutanaklar IEEE 12. uluslararası bilgisayar görüşü konferansı (s. 506–513). IEEE.
Levatić, J., Ceci, M., Kocev, D. ve Džeroski, S. (2017). Yarı denetimli sınıflandırma
ağaçları.Dergisi Akıllı Bilgi Sistemleri, 49 (3), 461–486.
Li, C., Xu, K., Zhu, J. ve Zhang, B. (2017). Üçlü üretken düşman ağları. arXiv: 1703.02291.
123
436 Makine Öğrenimi (2020) 109: 373–440
Li, M. ve Zhou, ZH (2007). Teşhis edilmemiş örnekleri kullanarak makine öğrenimi teknikleriyle bilgisayar
destekli teşhisi geliştirin.Sistemler, İnsan ve Sibernetik Üzerine IEEE İşlemleri - Bölüm A: Sistemler ve
İnsanlar, 37 (6), 1088–1098.
Li, S. ve Fu, Y. (2013). Yarı denetimli sınıflandırma için b-eşleştirme kısıtlamasına sahip düşük sıralı kodlama. İçinde
Yapay istihbarat üzerine 23. uluslararası ortak konferansın bildirileri (s. 1472–1478).
Li, S. ve Fu, Y. (2015). Düşük sıralı kodlama yoluyla dengeli ve dengesiz grafikleri öğrenme.IEEE
İşlemleri Bilgi ve Veri Mühendisliği Üzerine, 27 (5), 1274–1287.
Li, YF ve Zhou, ZH (2015). Etiketsiz verilerin asla zarar görmemesi.Kalıp Üzerinde IEEE
İşlemleri Analiz ve Makine Zekası, 37 (1), 175–188.
Liu, B., Lee, WS, Yu, PS ve Li, X. (2002). Metin belgelerinin kısmen denetimli sınıflandırılması. İçinde
Makine öğrenimi üzerine 19. uluslararası konferansın bildirileri (Cilt 2, sayfa 387–394). Liu, G., Lin, Z. ve
Yu, Y. (2010a). Düşük sıralı gösterimle sağlam alt uzay bölümlemesi. İçindeBildiriler
27. uluslararası makine öğrenimi konferansının (pp. 663–670).
Liu, W. ve Chang, SF (2009). Grafiklerle sağlam çok sınıflı dönüştürücü öğrenme. İçindeTutanak
Bilgisayarla görme ve örüntü tanıma üzerine 2009 IEEE konferansı (s. 381–388). IEEE.
Liu, W., He, J. ve Chang, SF (2010b). Ölçeklenebilir yarı denetimli öğrenim için büyük grafik yapısı.
İçinde 27. uluslararası makine öğrenimi konferansının bildirileri (s. 679–686).
Liu, X., Song, M., Tao, D., Liu, Z., Zhang, L., Chen, C. ve Bu, J. (2013). Yarı denetimli düğüm bölme
rastgele orman yapımı. İçindeBilgisayarla görme ve örüntü tanıma üzerine 2013 IEEE konferansının
bildirileri (sayfa 492–499). IEEE.
Liu, W., Wang, J. ve Chang, SF (2012). Sağlam ve ölçeklenebilir grafik tabanlı yarı denetimli
öğrenme.İlerlemek-IEEE'nin girişleri, 100 (9), 2624–2638.
Liu, X., Song, M., Tao, D., Liu, Z., Zhang, L., Chen, C., vd. (2015). Sağlam ve rastgele orman
yapımı yarı denetimli düğüm bölme. Görüntü İşlemede IEEE İşlemleri, 24 (1), 471–483.
Lu, Q., Getoor, L. (2003). Bağlantı tabanlı sınıflandırma. İçinde20. uluslararası konferansın
bildirileri makine öğrenme (pp. 496–503).
Luo, Y., Zhu, J., Li, M., Ren, Y. ve Zhang, B. (2018). Yarı denetimli için öğretmen grafiklerinde pürüzsüz komşular
öğrenme. İçindeBilgisayarla görme ve örüntü tanıma üzerine IEEE konferansının bildirileri (s.
8896– 8905).
Maier, M., Luxburg, UV ve Hein, M. (2009). Grafik tabanlı kümelemede grafik yapısının
etkisi ölçümler. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 1025–1032).
Mallapragada, PK, Jin, R., Jain, AK ve Liu, Y. (2009). Semiboost: Yarı denetimli öğrenme için güçlendirme.
Örüntü Analizi ve Makine Zekası Üzerine IEEE İşlemleri, 31 (11), 2000–2014.
Melacci, S. ve Belkin, M. (2011). Laplacian, ilkel olarak eğitilmiş vektör makinelerini destekler.Journal of
Machine Öğrenme Araştırması, 12, 1149–1184.
Mihalcea, R. (2004). Kelime anlamındaki belirsizliği giderme için birlikte eğitim ve kendi kendine eğitim. İçinde8'inci Tutanaklar
hesaplamalı doğal dil öğrenimi konferansı.
Mikolov, T., Sutskever, I., Chen, K., Corrado, GS ve Dean, J. (2013) Kelimelerin dağıtılmış temsilleri
ve deyimler ve bunların bileşimi. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 3111–
3119).
Miyato, T., Maeda, SI, Koyama, M. ve Ishii, S. (2018). Sanal çekişmeli eğitim: Bir düzenlileştirme yöntemi
denetimli ve yarı denetimli öğrenme için. Örüntü Analizi ve Makine Zekası Üzerine IEEE İşlemleri, 41
(8), 1979–1993.
Netzer, Y., Wang, T., Coates, A., Bissacco, A., Wu, B. ve Ng, AY (2011). Doğal görüntülerde rakamları okuma
denetimsiz özellik öğrenimi. İçindeDerin öğrenme ve denetimsiz özellik öğrenimi üzerine NIPS atölyesi.
Neville, J. ve Jensen, D. (2000). İlişkisel verilerde yinelemeli sınıflandırma. İçinde17. AAAI
Tutanakları İlişkisel verilerden istatistiksel modeller öğrenme çalıştayı (s. 13–20).
Nigam, K. ve Ghani, R. (2000). Ortak eğitimin etkinliğini ve uygulanabilirliğini analiz etmek. İçindeBildiriler
9. uluslararası bilgi ve bilgi yönetimi konferansının (sayfa 86–93). ACM. Nigam, K., McCallum, A., Mitchell,
T. (2006). EM kullanarak yarı denetimli metin sınıflandırması. İçindeYarı-
Denetimli Öğrenim (s. 33–56).
Nigam, K., McCallum, AK, Thrun, S. ve Mitchell, T. (2000). Etiketli ve etiketsizden metin
sınıflandırması EM kullanan belgeler. Makine Öğrenimi, 39 (2), 103–134.
Niyogi, P. (2008). Manifold düzenlileştirme ve yarı denetimli öğrenme: Bazı teorik analizler.Dergi
Makine Öğrenimi Araştırmaları Bölümü, 14 (1), 1229–1250.
Odena, A. (2016). Üretken rakip ağlarla yarı denetimli öğrenme. arXiv: 1606.01583.
Oliver, A., Odena, A., Raffel, C., Çubuk, ED, Goodfellow, IJ (2018). Derin yarı yarıya gerçekçi
değerlendirme denetimli öğrenme algoritmaları. arXiv: 1804.09170.
123
Makine Öğrenimi (2020) 109: 373–440 437
Oshiro, TM, Perez, PS ve Baranauskas, JA (2012). Rastgele bir ormanda kaç ağaç var? İçindeTutanaklar örüntü
tanımada makine öğrenimi ve veri madenciliği üzerine uluslararası atölye (s. 154–168). Springer.
Pang, B. ve Lee, L. (2004). Duygusal bir eğitim: Öznellik özetlemesini kullanarak duygu analizi
minimum kesintilere göre. İçindeHesaplamalı dilbilim derneği, hesaplamalı dilbilim derneği 42. yıllık
toplantısının bildirileri (s. 271).
Park, S., Park, J., Shin, S. ve Moon, I. (2018). Denetimli ve yarı denetimli öğrenim için çekişmeli bırakma.
İçinde Yapay istihbarat üzerine otuz ikinci AAAI konferansının bildirileri (s. 3917–3924). Paszke, A.,
Gross, S., Chintala, S., Chanan, G., Yang, E., DeVito, Z., Lin, Z., Desmaison, A., Antiga, L. ve
Lerer, A. (2017). Pytorch'ta otomatik farklılaşma. İçindeNIPS Autodiff atölyesi.
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., vd. (2011). Scikit-öğrenme:
Python'da makine öğrenimi. Makine Öğrenimi Araştırmaları Dergisi, 12, 2825–2830.
Perozzi, B., Al-Rfou, R. ve Skiena, S. (2014). Deepwalk: Sosyal temsillerin çevrimiçi öğrenimi. İçindePro-
Bilgi keşfi ve veri madenciliği üzerine 20. ACM SIGKDD uluslararası konferansının
temelleri (s. 701–710). ACM.
Pezeshki, M., Fan, L., Brakel, P., Courville, A. ve Bengio, Y. (2016). Merdiven ağını yeniden yapılandırma
mimari. İçinde33. uluslararası makine öğrenimi konferansının bildirileri (s. 2368–2376). Pitelis, N., Russell,
C. ve Agapito, L. (2013). Bir atlas olarak bir manifoldu öğrenmek. İçinde2013 Tutanakları
Bilgisayarla görme ve örüntü tanıma üzerine IEEE konferansı (pp. 1642–1649). IEEE.
Pitelis, N., Russell, C. ve Agapito, L. (2014). Denetimsiz bir atlas kullanarak yarı denetimli öğrenme. İçindePro-
Veritabanlarında makine öğrenimi ve bilgi keşfi üzerine ortak Avrupa konferansının temelleri
(sayfa 565–580). Springer.
Prémont-Schwarz, I., Ilin, A., Hao, T., Rasmus, A., Boney, R. Ve Valpola, H. (2017). Tekrarlayan merdiven ağları. İçinde: I.
Guyon, UV Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, R. Garnett (editörler), Sinirsel bilgi işleme
sistemlerindeki gelişmeler (pp. 6009–6019). Provost, F. ve Domingos, P. (2003). Olasılığa
dayalı sıralama için ağaç indüksiyonu.Makine Öğrenimi, 52 (3), 199–215.
Qi, Z., Tian, Y. ve Shi, Y. (2012). Yarı denetimli sınıflandırma için Laplacian ikiz destek vektör makinesi.
Sinir Ağları, 35, 46–53.
Rasmus, A., Berglund, M., Honkala, M., Valpola, H. ve Raiko, T. (2015). İle yarı denetimli öğrenme
merdiven ağları. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 3546–3554).
Ratle, F., Camps-Valls, G. ve Weston, J. (2010). Etkili hiperspektral için yarı denetimli sinir ağları görüntü
sınıflandırma. Yerbilimi ve Uzaktan Algılama Üzerine IEEE İşlemleri, 48 (5), 2271–2282.
Rifai, S., Dauphin, YN, Vincent, P., Bengio, Y. ve Muller, X. (2011a). Manifold tanjant sınıflandırıcısı.
Rifai, S., Vincent, P., Muller, X., Glorot, X. ve Bengio, Y. (2011b). Sözleşmeli otomatik kodlayıcılar: Açık
özellik çıkarma sırasında değişmezlik. İçinde28. uluslararası makine öğrenimi konferansının bildirileri (s.
833–840).
Rosenberg, C., Hebert, M. ve Schneiderman, H. (2005). Nesne algılamanın yarı denetimli kendi kendine eğitimi modeller.
İçindeBilgisayarla görme uygulamaları üzerine 7. IEEE çalıştayı bildirileri (s. 29–36). Roweis, ST ve
Saul, LK (2000). Yerel doğrusal gömme ile doğrusal olmayan boyut
azaltma.Bilim, 290 (5500), 2323–2326.
Sajjadi, M., Javanmardi, M. ve Tasdizen, T. (2016). Stokastik dönüşümler ve per-
derin yarı denetimli öğrenme için türbasyonlar. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler
(sayfa 1163–1171).
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A. ve Chen, X. (2016). Geliştirilmiş
teknikler gans eğitimi için. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 2234–2242).
Sen, P., Namata, G., Bilgic, M., Getoor, L., Galligher, B. ve Eliassi-Rad, T. (2008). Kolektif
sınıflandırma ağ verilerinde. AI Dergisi, 29 (3), 93.
Yerleşir, B. (2012). Aktif öğrenme.Yapay Zeka ve Makine Öğrenimi Üzerine Sentez Dersleri, 6 (1), 1-114.
Sheikhpour, R., Sarram, MA, Gharaghani, S. ve Chahooki, MAZ (2017). Yarı denetimli bir
anket özellik seçim yöntemleri. Örüntü Tanıma, 64, 141–158.
Shental, N. ve Domany, E. (2005). Yarı denetimli öğrenme - Bir istatistiksel fizik yaklaşımı.
İçindeBildiriler kısmen sınıflandırılmış eğitim verileriyle öğrenme üzerine 22. ICML çalıştayı.
Sindhwani, V., Niyogi, P. ve Belkin, M. (2005). Yarı denetimli öğrenmeye bir ortak düzenleme yaklaşımı
birden çok görünüme sahip. İçindeBirden çok görüşle öğrenme üzerine 22. ICML çalıştayı bildirileri (s.
74– 79).
Sindhwani, V. ve Rosenberg, DS (2008). Çok görüntülü öğrenme ve manifold ortak düzenleme için bir RKHS.
İçinde Makine öğrenimi üzerine 25. uluslararası konferansın bildirileri (s. 976–983).
123
438 Makine Öğrenimi (2020) 109: 373–440
Singh, A., Nowak, R., & Zhu, X. (2009) Etiketlenmemiş veriler: Şimdi yardımcı oluyor, şimdi yaramıyor. İçindeSinirsel gelişmeler
bilgi işleme sistemleri (s. 1513–1520).
Solomon, J., Rustamov, R., Guibas, L., & Butscher, A. (2014) Yarı denetimli Wasserstein yayılımı
öğrenme. İçindeMakine öğrenimi üzerine 31. uluslararası konferansın bildirileri (s. 306–314).
Springenberg, JT (2015). Kategorik üretici hasımlık ile denetimsiz ve yarı denetimli öğrenme
ağlar. arXiv: 1511.06390.
Srivastava, N., Hinton, GE, Krizhevsky, A., Sutskever, I. ve Salakhutdinov, R. (2014). Bırakma: basit bir yol
sinir ağlarının aşırı yüklenmesini önlemek için. Makine Öğrenimi Araştırmaları Dergisi, 15 (1), 1929–1958.
Subramanya, A. ve Bilmes, J. (2008). Metin sınıflandırması için yumuşak denetimli öğrenme. İçindeTutanaklar
doğal dil işlemede deneysel yöntemler konferansı, hesaplamalı dilbilim dernek (s. 1090–1099).
Subramanya, A. ve Bilmes, J. (2011). Ölçü yayılımı ile yarı denetimli öğrenme.Journal

ofMachine Öğrenme Araştırması, 12, 3311–3370.
Subramanya, A. ve Talukdar, PP (2014). Grafik tabanlı yarı denetimli öğrenme.Sentez
Dersleri Yapay Zeka ve Makine Öğrenimi, 8 (4), 1-125.
Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I., vd. (2013).İlgi çekici
özellikler sinir ağları. arXiv: 1312.6199.
Szummer, M., & Jaakkola, T. (2002) Markov rastgele yürüyüşleri ile kısmen etiketlenmiş sınıflandırma. İçindeGelişmeler
sinirsel bilgi işleme sistemlerinde (s. 945–952).
Szummer, M., & Jaakkola, TS (2003) Kısmen etiketli verilerle bilgi düzenlenmesi.
İçindeGelişmeler sinirsel bilgi işleme sistemleri (s. 1049–1056).
Talukdar, PP ve Crammer, K. (2009). Dönüştürücü öğrenme için yeni düzenlenmiş algoritmalar. İçindeTutanaklar veri
tabanlarında makine öğrenimi ve bilgi keşfi üzerine ortak Avrupa konferansı (sayfa 442–457). Springer.
Talukdar, PP, Reisinger, J., Paşca, M., Ravichandran, D., Bhagat, R., & Pereira, F. (2008). Zayıf denetlenen
rastgele grafik yürüyüşleri kullanarak etiketli sınıf örneklerinin edinilmesi. İçindeDoğal dil işlemede ampirik
yöntemler üzerine konferansın bildirileri, hesaplamalı dilbilim derneği (s. 582–
590).
Tan, C., Lee, L., Tang, J., Jiang, L., Zhou, M. Ve Li, P. (2011). Sosyal içeren kullanıcı düzeyinde duyarlılık
analizi ağlar. İçindeBilgi keşfi ve veri madenciliği üzerine 17. ACM SIGKDD uluslararası konferansının
bildirileri (s. 1397–1405). ACM.
Tang, J., Qu, M., Wang, M., Zhang, M., Yan, J. ve Mei, Q. (2015). Satır: Büyük ölçekli bilgi ağı
katıştırma. İçinde24. dünya çapında web konferansı bildirileri, uluslararası dünya çapında web
konferansları yönlendirme komitesi (s. 1067–1077).
Tanha, J., van Someren, M. ve Afsarmanesh, H. (2012). Çok sınıflı yarı denetimli için bir adaboost algoritması
öğrenme. İçinde12. IEEE uluslararası veri madenciliği konferansının bildirileri (sayfa 1116–1121). IEEE.
Tanha, J., van Someren, M. ve Afsarmanesh, H. (2017). Karar ağacı sınıfı için yarı denetimli kendi kendine
eğitim siler. Uluslararası Makine Öğrenimi ve Sibernetik Dergisi, 8 (1), 355–370.
Tarvainen, A. ve Valpola, H. (2017) Ağırlık ortalamalı tutarlılık hedefleri yarı denetimli derinliği iyileştirir öğrenme
sonuçları. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (sayfa 1195–1204).
Thornton, C., Hutter, F., Hoos, HH ve Leyton-Brown, K. (2013) Auto-weka: Combined selection and
sınıflandırma algoritmalarının hiperparametre optimizasyonu. İçindeBilgi keşfi ve veri madenciliği
üzerine 19. ACM SIGKDD uluslararası konferansının bildirileri (s. 847–855). ACM.
Triguero, I., García, S. ve Herrera, F. (2015). Yarı denetimli öğrenme için kendinden etiketli teknikler:
Taksonomi, yazılım ve ampirik çalışma. Bilgi ve Bilgi Sistemleri, 42 (2), 245–284.
Triguero, I., González, S., Moyano, JM, García López, S., Alcalá Fernández, J., Luengo Martín, J., vd.
(2017). KEEL3.0: Veri belirlemede çok aşamalı analiz oluşturan açık kaynaklı bir yazılım.International
Journal of Computational Intelligence Systems, 10, 1238–1249.
Urner, R., Ben-David, S. ve Shalev-Shwartz, S. (2011). Etiketlenmemiş verilere erişim tahmin süresini hızlandırabilir.
İçinde 27. uluslararası makine öğrenimi konferansının bildirileri (s. 641–648). Valizadegan, H., Jin, R. ve
Jain, AK (2008). Çok sınıflı sınıflandırma için yarı denetimli güçlendirme. İçinde
Veritabanlarında makine öğrenimi ve bilgi keşfi üzerine ortak Avrupa konferansı (s. 522–537). Springer.
Vapnik, V. (1998). İstatistiksel öğrenme teorisi (Cilt 1). New York: Wiley. Verma, V., Lamb, A., Kannala, J.,
Bengio, Y. ve Lopez-Paz, D. (2019).İçin enterpolasyon tutarlılığı eğitimi
yarı denetimli öğrenme. arXiv: 1903.03825.
Vincent, P., Larochelle, H., Bengio, Y., Manzagol, PA (2008). Sağlam özellikleri ayıklama ve oluşturma
otomatik kodlayıcılardan arındırma ile. İçindeMakine öğrenimi üzerine 25. uluslararası konferansın
bildirileri (s. 1096–1103).
123
Makine Öğrenimi (2020) 109: 373–440 439
Wager, S., Wang, S. ve Liang, PS (2013). Uyarlanabilir düzenlilik olarak bırakma eğitimi. İçindeSinirsel
gelişmeler bilgi işleme sistemleri (s. 351–359).
Wan, X. (2009). Diller arası duygu sınıflandırması için ortak eğitim. İçinde47. yıllık bildiriler
hesaplamalı dilbilim derneği ACL toplantısı (s. 235–243). Wang, D., Cui, P., Zhu, W. (2016). Yapısal derin
ağ yerleştirme. İçinde22. ACM'nin Tutanakları
SIGKDD uluslararası bilgi keşfi ve veri madenciliği konferansı (sayfa 1225–1234). ACM. Wang, F. ve
Zhang, C. (2008). Doğrusal mahalleler boyunca etiket yayılımı.Knowl ile IEEE İşlemleri
kenar ve Veri Mühendisliği, 20 (1), 55–67.
Wang, J., Jebara, T. ve Chang, SF (2008a). Alternatif küçültme yoluyla grafik iletimi.
İçindeBildiriler 25. uluslararası makine öğrenimi konferansının (sayfa 1144–1151).
Wang, J., Jebara, T. ve Chang, SF (2013). Açgözlü max-cut kullanarak yarı denetimli
öğrenme.Dergisi Makine Öğrenimi Araştırması, 14, 771–800.
Wang, J., Luo, SW ve Zeng. XH (2008b). Birlikte eğitim için rastgele bir alt uzay yöntemi. İçindeTutanaklar sinir
ağları üzerine IEEE uluslararası ortak konferansı (s. 195–200). IEEE. Wang, W. ve Zhou, ZH (2007).
Birlikte eğitim tarzı algoritmaları analiz etmek. İçinde18. Avrupa Bildirileri
makine öğrenimi konferansı (s. 454–465). Springer. Wang, W., Zhou, ZH (2010). Yeni bir ortak eğitim
analizi. İçinde27. uluslararası bildiri
makine öğrenimi konferansı (sayfa 1135–1142).
Weston, J., Ratle, F. ve Collobert, R. (2008). Yarı denetimli yerleştirme yoluyla derin öğrenme. İçindeBildiriler
25. uluslararası makine öğrenimi konferansının (sayfa 1168–1175). Wold, S., Esbensen, K. ve Geladi, P.
(1987). Temel bileşenler Analizi.Kemometri ve Akıllı
Laboratuvar Sistemleri, 2 (1–3), 37–52.
Wright, J., Yang, AY, Ganesh, A., Sastry, SS ve Ma, Y. (2009). Seyrek yoluyla sağlam yüz tanıma
temsil. Örüntü Analizi ve Makine Zekası Üzerine IEEE İşlemleri, 31 (2), 210–227.
Wu, XM, Li, Z., So, AM, Wright, J. ve Chang, SF (2012a). Kısmen emici rastgele öğrenme
yürüyüşleri. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 3077–3085). Wu, Z., Wu, J., Cao,
J. ve Tao, D. (2012b). Hysad: Yarı denetimli bir hibrit şilin saldırı dedektörü
güvenilir ürün önerisi. İçindeBilgi keşfi ve veri madenciliği üzerine 18.ACMSIGKDD uluslararası
konferans bildirileri (s. 985–993). ACM. Xu, C., Tao, D. ve Xu, C. (2013).Çok görüntülü öğrenim üzerine bir
anket. arXiv: 1304.5634.
Xu, J., He, H. ve Man, H. (2012). Sınıflandırma için DCPE ortak eğitimi.Nöro hesaplama, 86, 75–85.
Xu, L. ve Schuurmans, D. (2005) Denetimsiz ve yarı denetimli çok sınıflı destek vektör makineleri. İçinde
20. ulusal yapay istihbarat konferansının bildirileri (Cilt 5, p. 13). Yan, S. ve Wang, H. (2009). Seyrek temsil
yoluyla yarı denetimli öğrenme. İçinde2009 Tutanakları
SIAM uluslararası veri madenciliği konferansı (s. 792–801). SIAM.
Yang, Z., Cohen, WW ve Salakhutdinov, R. (2016) Grafik yerleştirme ile yarı denetimli öğrenmeyi yeniden gözden geçirme- dings.
İçinde33. uluslararası makine öğrenimi konferansının bildirileri (sayfa 40–48). Yarowsky, D. (1995).
Denetimli yöntemlerle rekabet eden denetimsiz kelime anlamındaki belirsizliği giderme. İçindeBildiriler
hesaplamalı dilbilim derneğinin 33. yıllık toplantısı, hesaplamalı dilbilim derneği (s. 189–196).
Yaslan, Y. ve Cataltepe, Z. (2010). İlgili rastgele alt uzaylarla birlikte eğitim.Nöro hesaplama, 73 (10), 1652–1661.
Yu, S., Krishnapuram, B., Rosales, R. ve Rao, RB (2011). Bayes ortak eğitimi.Makine Öğrenimi
Dergisi Araştırma, 12, 2649–2680.
Zhang, H., Cisse, M., Dauphin, YN ve Lopez-Paz, D. (2018). karışıklık: Ampirik risk minimizasyonunun ötesinde.
İçinde Öğrenme temsilleri üzerine uluslararası konferans.
Zhang, K., Kwok, JT ve Parvin, B. (2009). Büyük ölçekli yarı denetimli öğrenme için prototip vektör makinesi.
İçinde 26. uluslararası makine öğrenimi konferansının bildirileri (sayfa 1233–1240). Zhang, W. ve Zheng, Q.
(2009). Tsfs: Tek görüntülü ortak eğitim için yeni bir algoritma. İçinde2'in Tutanakları
Hesaplamalı bilimler ve optimizasyon üzerine IEEE uluslararası ortak konferansı (Cilt 1, sayfa 492–496). IEEE.
Zhou, D., Bousquet, O., Lal, TN, Weston, J. ve Schölkopf, B. (2004). Yerel ve küresel öğrenim
tutarlılık. İçindeSinirsel Bilgi İşleme Sistemlerindeki Gelişmeler (s. 321–328). Zhou, Y. ve Goldman, S.
(2004) Demokratik birlikte öğrenme. İçinde16. IEEE International'ın bildirileri
yapay zekaya sahip araçlar konferansı (s. 594–602). IEEE. Zhou, ZH (2012).Topluluk yöntemleri: Temeller
ve algoritmalar. Boca Raton: CRC Basın. Zhou, ZH ve Li, M. (2005a) Ortak eğitim ile yarı denetimli regresyon.
İçinde 19'uncu Tutanak
yapay istihbarat üzerine uluslararası ortak konferans (Cilt 5, sayfa 908–913).
Zhou, ZH ve Li, M. (2005b). Üçlü eğitim: Etiketlenmemiş verileri üç sınıflandırıcı kullanarak kullanma.IEEETransactions
Bilgi ve Veri Mühendisliği Üzerine, 17 (11), 1529–1541.
123
440 Makine Öğrenimi (2020) 109: 373–440
Zhou, ZH ve Li, M. (2010). Anlaşmazlık yoluyla yarı denetimli öğrenme.Bilgi ve Bilgi

Sistemleri, 24 (3), 415–439.
Zhu, X. (2005). Grafiklerle yarı denetimli öğrenme. Doktora tezi, Carnegie Mellon Üniversitesi. Zhu, X.
(2008).Yarı denetimli öğrenme literatürü araştırması. Teknik rapor. 1530, Wisconsin Üniversitesi-
Madison.
Zhu, X. ve Ghahramani, Z. (2002a). Etiket yayılımı ile etiketlenmiş ve etiketlenmemiş verilerden öğrenme. Teknik
rapor. CMU-CALD-02-107, Carnegie Mellon Üniversitesi. Zhu, X. ve Ghahramani, Z. (2002b)Markov
rasgele alanları ile yarı denetimli sınıflandırmaya doğru. Tech-
nival Raporu. CMU-CALD-02-106, Carnegie Mellon Üniversitesi.
Zhu, X., Ghahramani, Z. ve Lafferty, JD (2003) Gauss sahaları ve harmonik kullanarak yarı denetimli öğrenme
fonksiyonlar. İçindeMakine öğrenimi üzerine 20. uluslararası konferansın bildirileri (s. 912–919). Zhu, X. ve
Goldberg, AB (2009). Yarı denetimli öğrenmeye giriş.Makale Üzerine Sentez
Dersleri Zeka ve Makine Öğrenimi, 3 (1), 1–130.
Zhu, X. ve Lafferty, J. (2005). Harmonik karışımlar: Karışım modellerinin ve grafik tabanlı yöntemlerin birleştirilmesi
endüktif ve ölçeklenebilir yarı denetimli öğrenme. İçindeMakine öğrenimi üzerine 22.
uluslararası konferansın bildirileri (s. 1052–1059). ACM.
Zhuang, L., Gao, H., Lin, Z., Ma, Y., Zhang, X., & Yu, N. (2012) Negatif olmayan düşük sıra ve seyrek
grafik yarı denetimli öğrenme. İçindeBilgisayarla görme ve örüntü tanıma üzerine 2012 IEEE
konferansının bildirileri (sayfa 2328–2335). IEEE.
Yayıncının Notu Springer Nature, yayınlanan haritalar ve kurumsal ilişkilerdeki yargı yetkisi iddiaları
konusunda tarafsız kalır.
123
Şartlar ve koşullar
Springer Nature dergi içeriği, size Springer Nature Müşteri Hizmetleri Merkezi GmbH'nin
("Springer Nature") izniyle sunulmuştur.
Springer Nature, tüm telif hakkı, ticari ve hizmet markaları ve diğer mülkiyet bildirimlerinin muhafaza edilmesi
koşuluyla, araştırma makalelerinin küçük ölçekli kişisel, ticari olmayan kullanım için yazarlar, aboneler ve
yetkili kullanıcılar ("Kullanıcılar") tarafından makul miktarda paylaşılmasını destekler. Springer Nature dergi
içeriğine erişerek, paylaşarak, alarak veya başka bir şekilde kullanarak bu kullanım koşullarını ("Koşullar")
kabul etmiş olursunuz. Bu amaçlar için Springer Nature, akademik kullanımı (araştırmacılar ve öğrenciler
tarafından) ticari olmayan olarak kabul eder.
Bu Koşullar tamamlayıcı niteliktedir ve ilgili web sitesi hüküm ve koşullarına, ilgili site
lisansına veya kişisel aboneliğe ek olarak uygulanacaktır. Bu Koşullar, ilgili koşullar, bir site
lisansı veya kişisel bir abonelikle ilgili herhangi bir çelişki veya belirsizliğin önüne geçecektir
(yalnızca çelişki veya belirsizlik ölçüsünde). Creative Commons lisanslı makaleler için,
kullanılan Creative Commons lisansının koşulları geçerli olacaktır.
Springer Nature dergi içeriğine erişim sağlamak için kişisel verileri toplar ve kullanırız. Bu kişisel
verileri ayrıca ResearchGate ve Springer Nature bünyesinde dahili olarak kullanabiliriz ve
kararlaştırıldığı şekilde, izleme, analiz ve raporlama amacıyla anonim bir şekilde paylaşabiliriz. Gizlilik
Politikasında ayrıntılı olarak izninizi almadığımız sürece kişisel verilerinizi ResearchGate veya
Springer Nature şirketler grubu dışında başka şekilde ifşa etmeyeceğiz.
Kullanıcılar, Springer Nature dergi içeriğini ticari olmayan, küçük ölçekli kişisel kullanım için kullanabilirken,
Kullanıcıların şunları yapamayacağına dikkat etmek önemlidir:
1. bu tür içeriği, diğer kullanıcılara düzenli veya geniş ölçekte erişim sağlamak amacıyla veya erişim
kontrolünü atlatmanın bir yolu olarak kullanmak;
2. Bu tür içeriği, herhangi bir yargı alanında cezai veya yasal suç olarak kabul edilecek veya hukuki sorumluluğa yol
açacak veya başka bir şekilde yasa dışı olacak yerlerde kullanmak;
3. Yanlış veya yanıltıcı bir şekilde, Springer Nature tarafından yazılı olarak açıkça kabul edilmedikçe onay,
onay, sponsorluk veya ilişkilendirme ima veya önerme;

4. İçeriğe erişmek veya mesajları yeniden yönlendirmek için botları veya diğer otomatik yöntemleri kullanın
5. herhangi bir güvenlik özelliğini veya dışlayıcı protokolü geçersiz kılın; veya
6. Springer Nature ürün veya hizmetlerinin ikamesi veya Springer Nature dergi içeriğinin sistematik
bir veri tabanı oluşturmak için içeriği paylaşın.
Ticari kullanıma karşı kısıtlama uyarınca, Springer Nature, içeriğimizden gelir, telif hakkı, kira veya gelir
yaratan bir ürün veya hizmetin oluşturulmasına veya bunun hizmet için ödenen veya diğer ticari kazançların
bir parçası olarak dahil edilmesine izin vermez. Springer Nature dergi içeriği, kütüphaneler arası ödünç
verme için kullanılamaz ve kütüphaneciler, Springer Nature dergi içeriğini büyük ölçekte kendi kurumsal
havuzlarına veya başka herhangi bir kurumsal havuza yükleyemez.
Bu kullanım koşulları düzenli olarak gözden geçirilir ve herhangi bir zamanda değiştirilebilir. Springer Nature, bu
web sitesinde herhangi bir bilgi veya içerik yayınlamak zorunda değildir ve bunları veya özellikleri veya işlevleri
tamamen kendi takdirimize bağlı olarak, herhangi bir zamanda bildirimde bulunarak veya bulunmayarak kaldırabilir.
Springer Nature, bu lisansı herhangi bir zamanda iptal edebilir ve kaydedilmiş olan Springer Nature dergi içeriğinin
tüm kopyalarına erişimi kaldırabilir.
Springer Nature, yasaların izin verdiği en geniş kapsamda, Springer doğa günlüğü içeriğiyle ilgili
olarak Kullanıcılara açık veya zımni hiçbir garanti, beyan veya garanti vermez ve tüm taraflar, ticarete
elverişlilik veya yasaların dayattığı zımni garantileri veya garantileri reddeder ve bunlardan feragat
eder. herhangi bir özel amaç için uygunluk.
Lütfen bu hakların, üçüncü şahıslardan lisans alabilecek Springer Nature tarafından yayınlanan içerik, veri
veya diğer materyalleri otomatik olarak kapsamadığını unutmayın.
Springer Nature dergi içeriğimizi daha geniş bir kitleye veya düzenli olarak veya bu Şartlar tarafından açıkça izin verilmeyen
başka bir şekilde kullanmak veya dağıtmak isterseniz, lütfen şu adresten Springer Nature ile iletişime geçin:
onlineservice@springernature.com

A Survey On Semi-Supervised Learning - En.tr

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

A Survey On Semi-Supervised Learning - En.tr

Uploaded by

Copyright:

Available Formats

Makine Öğrenimi (2020) 109: 373–440 https://

Yarı denetimli öğrenim üzerine bir anket

Jesper E. van Engelen 1 · Holger H. Hoos1,2

Anahtar kelimeler Yarı denetimli öğrenme · Makine öğrenme · Sınıflandırma

Editör: Tom Fawcett.

B Jesper E. van Engelen jesper.van.engelen@gmail.com

2 Bölümü, British Columbia Üniversitesi, Vancouver, BC, Kanada

Geleneksel denetimli öğrenme problemlerinde, bize sıralı bir koleksiyon sunulur

"nötron" kelimesini içermeyen parçacık hızlandırıcılarla ilgili olarak, sınıflayıcı onu

2.1 Yarı denetimli öğrenmenin varsayımları

(a) Düzgünlük ve düşük yoğunluklu varsayımlar. (b) Manifold varsayımı.

2.1.1 Düzgünlük varsayımı

2.1.2 Düşük yoğunluk varsayımı

sınır yüksek yoğunluklu bölgelerden geçmemelidir. Varsayım şu şekilde tanımlanmıştır:

Bunun tersi de doğrudur: Eğer düzgünlük varsayımı geçerliyse, birbirine yakın

2.1.3 Manifold varsayımı

Verilerin Öklid uzayında temsil edilebildiği makine öğrenimi problemlerinde,

2.2 Kümelemeye bağlantı

2.3 Yarı denetimli öğrenme ne zaman işe yarar?

denetimli sınıflayıcı bu gibi durumlarda iyi performans gösterir, algoritmanın yarı

2.4 Yarı denetimli öğrenme yöntemlerinin ampirik değerlendirmesi

Makine öğrenimi algoritmalarını değerlendirirken ve karşılaştırırken, çok sayıda karar, farklı

Pratikte gözlemlendiği gibi, veri setlerinin seçimi ve bölümlendirilmesi, farklı öğrenme

Veri setlerinin seçimine ve bölümlemelerine ek olarak, yarı denetimli bir öğrenme

3 Yarı denetimli öğrenme yöntemlerinin taksonomisi

Şekil 3Yarı denetimli sınıflandırma taksonomisinin görselleştirilmesi. Taksonomideki her yaprak,

3.1 Endüktif yöntemler

3.1.1 Sarıcı yöntemleri

3.1.2 Denetimsiz ön işleme

3.1.3 Kendinden yarı denetimli yöntemler

Endüktif yöntemlerin son sınıfı, doğrudan etiketlenmemiş verileri öğrenme

3.2 Dönüştürme yöntemleri

4.1 Kendi kendine eğitim

4.2 Ortak eğitim

4.2.1 Çok görüntülü ortak eğitim

4.2.2 Tek görüntülü ortak eğitim

Üçlü eğitim yaklaşımının yazarları, bunu üç öğrenciden fazlasına, özellikle de

4.2.3 Ortak düzenleme

The BİRLEŞTİRMEK algoritması, kısaltması Uyarlanabilir Denetimli Topluluk, Her yinelemeden

Yarı denetimli yükseltme algoritması SemiBoost Temel öğrenenler tarafından kullanılacak

küçültmekLL (ŷ, A, FT) + λ · LU (ŷ, A, FT)

4.3.4 Diğer yarı denetimli güçlendirme yöntemleri

5.1 Özellik çıkarma

Kodlayıcı Kod çözücü

varyasyonlar, otomatik kodlayıcıların altında yatan

5.2 Küme ve sonra etiketleme

bu yaklaşımın bir sarmalayıcı yöntem olarak kabul edilebileceğini (bkz. 4).

Eğitim öncesi yöntemlerde, etiketsiz veriler, denetimli eğitimi uygulamadan önce

Rifai vd. 2011b).

Bu hiyerarşik temsillerin çıkarılmasında modeli yönlendirmeye çalışmak, modeli bilgilendirici olarak

6 Kendinden yarı denetimli yöntemler

6.1 Maksimum marj yöntemleri

6.1.1 Destek vektör makineleri

Denetimli maksimum marj sınıflandırıcısının en belirgin örneği, destek

küçültmek ξben + C′ · ξben

nerede C′ ∈ R etiketlenmemiş veri noktalarıyla ilişkili marj ihlali maliyetidir.

nerede f (xi) = wᵀ · xben + b.

Yarı denetimli öğrenme yönteminin temel varsayımlarının ihlal edilmesi durumunda,

Performans kazancı, doğru etiketlenmiş veri noktalarının sayısındaki artış eksi

J (ŷ, y, ysvm) = kazanç(ŷ, y, ysvm) - λ · kaybetmek(ŷ, y, ysvm),

nerede kazanç ve kaybetmek sırasıyla doğru ve yanlış etiketlenmiş veri noktalarındaki

6.1.2 Gauss süreçleri

Marj maksimizasyonu kavramı doğrudan destek vektör makinelerine dahil edilmiştir ve