Professional Documents
Culture Documents
A Survey On Semi-Supervised Learning - En.tr
A Survey On Semi-Supervised Learning - En.tr
doi.org/10.1007/s10994-019-05855-6
Geliş: 3 Aralık 2018 / Revize: 20 Eylül 2019 / Kabul: 29 Eylül 2019 / Çevrimiçi yayın tarihi:
15 Kasım 2019
© Yazar (lar) 2019
Öz
Yarı denetimli öğrenme, belirli öğrenme görevlerini gerçekleştirmek için etiketli ve
etiketsiz verilerin kullanılmasıyla ilgili makine öğreniminin dalıdır. Denetimli ve
denetimsiz öğrenim arasında kavramsal olarak konumlandırılmış olan bu eğitim, tipik
olarak daha küçük etiketli veri kümeleriyle birlikte birçok kullanım durumunda bulunan
büyük miktardaki etiketsiz verilerin kullanılmasına izin verir. Son yıllarda, bu alandaki
araştırmalar, makine öğreniminde gözlemlenen genel eğilimleri takip etti ve büyük ilgi,
sinir ağı tabanlı modellere ve üretken öğrenmeye yöneldi. Konuyla ilgili literatür de hacim
ve kapsam olarak genişledi ve şimdi geniş bir teori, algoritma ve uygulama yelpazesini
kapsıyor. Bununla birlikte, bu bilgiyi toplamak ve düzenlemek için yeni anketler
bulunmamakta, bu da araştırmacıların ve mühendislerin bu bilgileri kullanma becerilerini
engellemektedir. Bu boşluğu doldurmak, Daha önceki çalışmaların yanı sıra daha yeni
gelişmeleri de kapsayan yarı denetimli öğrenme yöntemlerine güncel bir genel bakış
sunuyoruz. Öncelikle, yarı denetimli öğrenim araştırmalarının büyük çoğunluğunun
gerçekleştiği yarı denetimli sınıflandırmaya odaklanıyoruz. Anketimiz, sahada yeni olan
araştırmacılar ve uygulayıcıların yanı sıra daha ileri düzey okuyuculara, son yirmi yılda
geliştirilen ana yaklaşımlar ve algoritmalar hakkında sağlam bir anlayışla, en önemli ve
şu anda ilgili çalışmalara vurgu yapmayı amaçlamaktadır. Ayrıca, etiketlenmemiş verileri
eğitim sürecine dahil etmek için farklı kavramsal ve metodolojik yaklaşımlara ışık tutan
yarı denetimli sınıflandırma algoritmalarının yeni bir taksonomisi öneriyoruz. Son olarak,
Holger H. Hoos
hh@liacs.nl
1 Leiden İleri Bilgisayar Bilimleri Enstitüsü, Leiden Üniversitesi, Leiden, Hollanda Bilgisayar Bilimleri
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
374 Makine Öğrenimi (2020) 109: 373–440
1. Giriş
Makine öğreniminde, geleneksel olarak iki ana görev arasında bir ayrım yapılmıştır:
denetimli ve denetimsiz öğrenme (Bishop 2006). İçindedenetimli öğrenme, biri sunuldu bazı
girdilerden oluşan bir dizi veri noktası ile x ve karşılık gelen bir çıktı değeri y. The
O halde amaç, daha önce görülmemiş girdiler için çıktı değerini tahmin edebilen bir sınıflandırıcı veya
regresör oluşturmaktır. İçindedenetimsiz öğrenme, diğer yandan, belirli bir çıktı değeri
sağlanmamıştır. Bunun yerine, girdilerden bazı temel yapıları çıkarmaya çalışır. Örneğin, denetimsiz
kümelemede amaç, verilen girdilerden (örneğin, gerçek sayıların vektörleri) benzer girdilerin aynı
gruba eşleneceği şekilde gruplara bir eşleştirme sonucunu çıkarmaktır.
Yarı denetimli öğrenme bu iki görevi birleştirmeyi amaçlayan bir makine
öğrenimi dalıdır (Chapelle et al. 2006b; Zhu2008). Tipik olarak, yarı denetimli
öğrenme algoritmaları, genellikle diğeriyle ilişkili bilgileri kullanarak bu iki
görevden birinde performansı iyileştirmeye çalışır. Örneğin, bir sınıflandırma
problemini ele alırken, sınıflandırma sürecine yardımcı olmak için etiketin
bilinmediği ek veri noktaları kullanılabilir. Kümeleme yöntemlerinde ise öğrenme
prosedürü, belirli veri noktalarının aynı sınıfa ait olduğu bilgisinden faydalanabilir.
Genel olarak makine öğreniminde olduğu gibi, yarı denetimli öğrenim üzerine
yapılan araştırmaların büyük çoğunluğu sınıflandırma üzerine odaklanmıştır. Yarı
denetimli sınıflandırma yöntemleri, özellikle etiketlenmiş verilerin kıt olduğu
senaryolarla ilgilidir. Bu gibi durumlarda, güvenilir bir denetimli sınıflayıcı
oluşturmak zor olabilir. Bu durum, bilgisayar destekli teşhis, ilaç keşfi ve konuşma
parçası etiketleme gibi etiketli verilerin pahalı veya elde edilmesinin zor olduğu
uygulama alanlarında ortaya çıkar. Yeterli etiketlenmemiş veri mevcutsa ve verilerin
dağıtımı ile ilgili belirli varsayımlar altında, etiketsiz veriler daha iyi bir sınıflandırıcı
oluşturulmasına yardımcı olabilir. Uygulamada, yarı denetimli öğrenme yöntemleri,
etiketlenmiş verilerin önemli bir eksikliğinin olmadığı senaryolara da uygulanmıştır:
Her biri kendi özelliklerine, avantajlarına ve dezavantajlarına sahip çok sayıda öğrenme yöntemi
mevcuttur. Bölgenin en son kapsamlı araştırması 2005 yılında Zhu tarafından yayınlandı ve en son
2008'de güncellenmiştir [bkz. Zhu (2008)]. Chapelle ve ark. (2006b) ve Zhu ve Goldberg'in giriş kitabı
(2009) ayrıca yarı denetimli öğrenme üzerine önceki çalışmaları incelemek için iyi temeller sağlar.
Daha yakın zamanlarda, Subramanya ve Talukdar (2014) çeşitli grafik tabanlı tekniklere genel bir bakış
sağladı ve Triguero ve ark. (2015) yarı denetimli öğrenme yöntemlerinden oluşan bir sınıf olan sözde
etiketleme tekniklerini gözden geçirip analiz etti.
Zhu'nun anketinden bu yana (2008) yayınlandı, bazı önemli gelişmeler oldu
yarı denetimli öğrenme alanında yer almak. Alan boyunca, yeni öğrenme
yaklaşımları önerildi ve mevcut yaklaşımlar genişletildi, iyileştirildi ve daha
derinlemesine analiz edildi. Ek olarak, (derin) sinir ağlarının (Goodfellow
2017) denetimli öğrenme için, denetimsiz kayıp terimlerini sinir ağlarının maliyet
işlevlerine dahil etmenin basitliği ile yönlendirilen yarı denetimli öğrenmeye yeni
yaklaşımlar getirmiştir. Son olarak, performansı düşürmeyen sağlam yarı denetimli
öğrenme yöntemlerinin geliştirilmesine ve pratik amaçlar için yarı denetimli
öğrenme yöntemlerinin değerlendirilmesine olan ilgi artmıştır.
Bu ankette, okuyucuya yarı denetimli öğrenmenin araştırma alanının mevcut durumu hakkında
kapsamlı bir genel bakış sunmayı, erken çalışmaları ve son gelişmeleri kapsayan ve temel algoritmalar
ve yaklaşımlar hakkında açıklamalar sunmayı amaçlıyoruz. Aşağıdaki varsayımları yakalayan yarı
denetimli sınıflandırma yöntemleri için yeni bir taksonomi sunuyoruz.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 375
her bir yöntem grubunu ve bunların mevcut denetimli yöntemlerle nasıl ilişki kurduğunu
ortaya koyar. Bunda, farklı yaklaşımların ve aralarındaki bağlantıların daha kapsamlı bir
şekilde anlaşılmasına izin veren yarı denetimli öğrenmeye ilişkin bir bakış açısı
sağlıyoruz. Dahası, yarı denetimli öğrenmenin altında yatan temel varsayımlara yeni bir
ışık tuttuk ve sözde küme varsayımına nasıl bağlandıklarını gösterdik.
Yarı denetimli öğrenme üzerine kapsamlı bir anket sağlamayı amaçlasak da, var
olan her yöntemi kapsayamayız. Konuyla ilgili literatürün büyüklüğünden dolayı, bu
sadece bu makalenin kapsamı dışında kalmayacak, aynı zamanda okuyucuya
sağlamak istediğimiz temel anlayışlardan da uzaklaşacaktır. Bunun yerine, son yirmi
yılda bölgedeki en etkili çalışmalara ve en önemli gelişmelere odaklanıyoruz.
Bu makalenin geri kalanı aşağıdaki şekilde yapılandırılmıştır. Yarı denetimli öğrenmenin temel kavramları
ve varsayımları Bölümde kapsanmaktadır.2, aynı zamanda kümelemeyle de bağlantı kurduğumuz yer.
Tarikatta.3, anketimizin geri kalanının kavramsal temelini oluşturan yarı denetimli öğrenme yöntemleri
sınıflandırmamızı sunuyoruz. Endüktif yöntemler Bölümlerde ele alınmıştır.4 vasıtasıyla 6. İlk olarak
sarmalayıcı yöntemlerini ele alıyoruz (Bölüm.4), ardından denetimsiz ön işleme (Böl. 5) ve son olarak, doğası
gereği yarı denetlenen yöntemleri ele alıyoruz (Bölüm. 6).
Mezhep. 7 taksonomimizin ikinci büyük kolunu oluşturan transdüktif yöntemleri kapsar. Yarı
denetimli regresyon ve kümeleme, Bölüm'de tartışılmaktadır.8. Son olarak, Tarikatta.9, Biz
yarı denetimli öğrenmenin geleceği için bazı beklentiler sağlar.
2. arkaplan
1Burada atıfta bulunulan veri noktalarının koleksiyonlarının teknik olarak listeler olduğunu not ediyoruz. Bununla birlikte, yaygın kullanımı takiben, bu ankette
bunlardan 'kümeler' olarak bahsediyoruz ve küçük bir gösterimi kötüye kullanarak, standart küme-teorik kavramları onlara uyguluyoruz.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
376 Makine Öğrenimi (2020) 109: 373–440
Şekil 1Etiketsiz verilerin varlığında ikili sınıflandırmanın temel bir örneği. Etiketsiz veri noktaları gerçek
etiketlerine göre renklendirilmiştir. Renkli, düzensiz daireler, 1, 2 ve 3'ün standart sapmalarına karşılık gelen
giriş verisi dağılımının kontur eğrilerini gösterir (Çevrimiçi renk şeması)
Yarı denetimli öğrenmenin gerekli bir koşulu, altta yatan marjinal veri dağılımının p
(x) giriş alanı üzerinde arka dağıtım hakkında bilgi bulunur p (y | x).
Durum böyleyse, etiketsiz verileri bir kişi hakkında bilgi edinmek için kullanabilirsiniz. p (x), ve
dolayısıyla hakkında p (y | x). Öte yandan, bu koşul karşılanmazsa ve p (x)
içermez hakkında bilgi p (y | x), ek etiketlenmemiş verilere dayalı tahminlerin
doğruluğunu iyileştirmek doğal olarak imkansızdır (Zhu 2008).
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 377
Neyse ki, uygulamada yarı denetimli öğrenme yöntemlerinin başarılı bir şekilde
uygulanmasının önerdiği gibi, daha önce bahsedilen durum gerçek dünyada karşılaşılan çoğu
öğrenme probleminde tatmin edici görünmektedir. Ancak, yolp (x) ve p (y | x) etkileşim
her zaman aynı değildir. Bu,yarı denetimli öğrenme varsayımları,
beklenen etkileşim türlerini resmileştiren (Chapelle et al. 2006b). En yaygın
kabul gören varsayımlar,pürüzsüzlük varsayımı (eğer iki örnek x ve x′ yakın
giriş alanında, etiketleri y ve y′ aynı olmalıdır), düşük yoğunluk varsayımı
(karar sınırı, giriş alanındaki yüksek yoğunluklu alanlardan geçmemelidir) ve manifold
varsayımı (aynı düşük boyutlu manifold üzerindeki veri noktaları aynı etikete sahip
olmalıdır). Bu varsayımlar, tümü değilse de, yarı denetimli öğrenme algoritmalarının
temelini oluşturur ve bunlar genellikle bir veya daha fazlasının açıkça veya örtük olarak
tatmin olmasına bağlıdır. Bu anket boyunca, her bir özel öğrenme algoritması
tarafından kullanılan temel varsayımları detaylandıracağız. Varsayımlar aşağıda daha
ayrıntılı olarak açıklanmıştır; Şekil 2'de görsel bir temsil sağlanmıştır.2.
Düzgünlük varsayımı, iki giriş noktası için x, x′∈ X giriş alanında yakın olan, karşılık
gelen etiketler y, y′ aynı olmalı. Bu varsayım, denetimli öğrenmede de yaygın olarak
kullanılmaktadır, ancak yarı denetimli bağlamda geniş bir faydası vardır:
pürüzsüzlük varsayımı, etiketlenmemiş verilere geçişli olarak uygulanabilir. Sınav
için-ple, etiketli bir veri noktasının x1∈ XL ve iki etiketsiz veri noktası x2, x3∈ XU
var, öyle ki x1 yakın x2 ve x2 yakın x3, fakat x1 yakın değil x3. Sonra çünkü
pürüzsüzlük varsayımının, hala bekleyebiliriz x3 ile aynı etikete sahip olmak x1, dan beri
yakınlık - ve dolayısıyla etiket - geçişli olarak yayılır x2.
Düşük yoğunluk varsayımı, bir sınıflayıcının karar sınırının tercihen girdi uzayındaki
düşük yoğunluklu bölgelerden geçmesi gerektiği anlamına gelir. Başka bir deyişle,
karar
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
378 Makine Öğrenimi (2020) 109: 373–440
Yarı denetimli öğrenme araştırmasında, genellikle dahil edilen ek bir varsayım, küme
varsayımı, aynı kümeye ait veri noktalarının aynı sınıfa ait olduğunu belirtir
(Chapelle et al. 2006b). Bununla birlikte, daha önce bahsedilen varsayımların ve
kümelenme varsayımının birbirinden bağımsız olmadığını, bunun yerine küme
varsayımının diğer varsayımların bir genellemesi olduğunu iddia ediyoruz.
Bir giriş alanı düşünün X bazı nesnelerle X ⊂ X, dağıtımdan çekilmiş p (x).
O halde bir küme, bir dizi veri noktasıdır C ⊆ X diğer veri noktalarına göre birbirine daha
çok benzeyen X, bazı benzerlik kavramlarına göre (Anderberg 1973). Belirleme kümeler,
bazı işlevleri bulmaya karşılık gelir f: X→ Y içindeki her girişi eşleyen x ∈ X -e etiketli bir
küme y = f (x), nerede her küme etiketi y ∈ Y benzersiz bir şekilde bir kümeyi tanımlar.
Doğrudan erişimimiz olmadığı içinp (x) uygun bir kümeleme belirlemek için,
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 379
veri noktaları arasındaki bazı benzerlik kavramları hakkında X, buna göre kümeleri
benzer veri noktalarına atayabiliriz.
Seçtiğimiz benzerlik kavramı, genellikle örtük olarak, bir kümeyi neyin
oluşturduğunu belirler. Bu kümeleri bulmak için herhangi bir belirli kümeleme
yönteminin etkinliği diğer birçok faktöre bağlı olsa da, benzerlik kavramıp (x)
ve p (y | x). Dolayısıyla iki noktanın aynı kümeye ait olup olmadığı, birbirlerine ve diğer
noktalara olan benzerliklerinden çıkarılabilir. Bizim bakış açımıza göre, pürüzsüzlük,
düşük yoğunluk ve çok sayıda varsayım, noktalar arasındaki benzerliğin farklı tanımlarına
indirgenir: pürüzsüzlük varsayımı, girdi uzayında birbirine yakın noktaların benzer
olduğunu belirtir; düşük yoğunluk varsayımı, aynı yüksek yoğunluklu alandaki noktaların
benzer olduğunu belirtir; ve manifold varsayımı, aynı düşük boyutlu manifold üzerinde
bulunan noktaların benzer olduğunu belirtir. Sonuç olarak, yarı denetimli öğrenme
varsayımları, küme varsayımının daha spesifik örnekleri olarak görülebilir: benzer noktalar
aynı gruba ait olma eğilimindedir.
Küme varsayımının yarı denetimli öğrenme için gerekli koşula karşılık geldiği bile
iddia edilebilir: p (x) hakkında bilgi taşır p (y | x). Aslında, çıktı alanını varsayarsak Y
tüm olası kümelerin etiketlerini içerir, yarı denetimli öğrenmenin başarılı olması için
gerekli koşul, kümelemenin başarılı olması için gerekli koşul olarak görülebilir. Başka
bir deyişle: veri noktaları (hem etiketsiz hem de etiketlenmiş) anlamlı bir şekilde
kümelenemezse, yarı denetimli bir öğrenme yönteminin denetimli bir öğrenme
yönteminde gelişmesi imkansızdır.
Yarı denetimli öğrenmenin birincil amacı, daha iyi öğrenme prosedürlerinin inşası için
unlabelleddata'yı kullanmaktır. Görünüşe göre, bu her zaman kolay ve hatta mümkün değildir.
Daha önce belirtildiği gibi, etiketlenmemiş veriler yalnızca etiketlenmiş verilerde tek başına
bulunmayan veya ondan kolayca çıkarılamayan etiket tahmini için yararlı bilgiler taşıyorsa
yararlıdır. Herhangi bir yarı denetimli öğrenme yöntemini pratikte uygulamak için,
algoritmanın bu bilgiyi çıkarabilmesi gerekir. Hem uygulayıcılar hem de araştırmacılar için bu,
şu soruyu akla getiriyor: Bu ne zaman söz konusu?
Ne yazık ki, bu soruya pratik bir yanıt bulmanın zor olduğu kanıtlanmıştır.
Herhangi bir yarı denetimli öğrenme algoritmasının çalışabileceği koşulları kesin
olarak tanımlamak sadece zor olmakla kalmaz, aynı zamanda bu koşulların ne
ölçüde karşılandığını değerlendirmek de nadiren basittir. Bununla birlikte, farklı
öğrenme yöntemlerinin çeşitli problem türlerine uygulanabilirliği hakkında akıl
yürütmek mümkündür. Örneğin grafik tabanlı yöntemler, tüm veri noktaları üzerinde
bir grafik oluşturmak için tipik olarak yerel bir benzerlik ölçüsüne dayanır. Bu tür
yöntemleri başarılı bir şekilde uygulamak için, anlamlı bir yerel benzerlik ölçüsünün
tasarlanabilmesi önemlidir. Öklid özellik mesafesinin nadiren veri noktaları
arasındaki benzerliğin iyi bir göstergesi olduğu resimler gibi yüksek boyutlu
verilerde, bu genellikle zordur. Literatürde görülebileceği gibi,2015; Laine ve
Aila2017; Tarvainen ve Valpola2017). Yarı-
Öte yandan, denetimli öğrenme algoritmalarının denetimli uzantıları, genellikle denetlenen
meslektaşları ile aynı varsayıma dayanır. Örneğin, hem denetimli hem de yarı denetimli
destek vektör makineleri, karar sınırının karar alanının düşük yoğunluklu bir bölgesinde
olması gerektiğini belirten düşük yoğunluklu varsayıma dayanır. Eğer bir
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
380 Makine Öğrenimi (2020) 109: 373–440
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 381
Son yirmi yılda, çok çeşitli yarı denetimli sınıflandırma algoritmaları önerilmiştir. Bu yöntemler, temel aldıkları
yarı denetimli öğrenme varsayımları, etiketlenmemiş verileri nasıl kullandıkları ve denetimli algoritmalarla ilişki
biçimleri bakımından farklılık gösterir. Yarı denetimli öğrenme yöntemlerinin mevcut kategorileri genellikle bu
özelliklerin bir alt kümesini kullanır ve tipik olarak göreceli olarak uyumludur, bu nedenle benzerlikleri
yakalayamaz.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
382 Makine Öğrenimi (2020) 109: 373–440
farklı yöntem grupları arasında. Dahası, kategoriler genellikle mevcut çalışmaya göre
ayarlanmıştır ve bu da onları yeni yaklaşımların dahil edilmesi için daha az uygun hale getirir.
Bu ankette, yarı denetimli sınıflandırma algoritmalarının spektrumunu temsil
etmek için yeni bir yol öneriyoruz. Onları açık, geleceğe dönük bir şekilde
gruplandırmaya çalışarak, araştırmacıların ve uygulayıcıların yarı denetimli öğrenme
yöntemlerinin, birbirlerine, mevcut denetimli öğrenme yöntemlerine ve yarı denetimli
öğrenme varsayımlarına. Taksonomi, Şekil 2'de görselleştirilmiştir.3. En üst düzeyde,
arasında ayrım yaparendüktif ve transdüktif Farklı optimizasyon prosedürlerine yol
açan yöntemler: birincisi bir sınıflandırma modeli bulma girişiminde bulunurken,
ikincisi yalnızca verilen etiketlenmemiş veri noktaları için etiket tahminlerinin elde
edilmesiyle ilgilidir. İkinci düzeyde, yarı denetimli öğrenme yöntemlerinin etiketsiz
verileri nasıl dahil ettiğini değerlendirir. Bu ayrım, her biri denetimli sınıflandırıcılarla
farklı bir şekilde ilişkili olan üç ayrı tümevarım yöntemi sınıfına yol açar.
Sınıflandırmamızda endüktif ve transdüktif yöntemler arasında yaptığımız ilk ayrım,
yarı denetimli öğrenme literatüründe yaygındır (bkz., Örneğin Chapelle ve ark. 2006b;
Zhu 2008; Zhu ve Goldberg2009). İlki, denetimli öğrenme yöntemleri gibi, daha önce görülmemiş veri
noktalarının etiketini tahmin etmek için kullanılabilecek bir sınıflandırma modeli sağlar. İkincisi böyle
bir model vermez, bunun yerine doğrudan tahminler sağlar. Diğer bir deyişle,
etiketli ve etiketsiz verilerden oluşan bir veri seti verildiğinde, XL, XU⊆ X, etiketli yL∈ Yl
için l etiketli veri noktaları, tümevarım yöntemleri, bir model verir f: X→ Y, oysa transdüksiyon-
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 383
Tive yöntemler tahmin edilen etiketleri üretir ŷ U etiketlenmemiş veri noktaları için XU. Buna göre,
endüktif yöntemler, tahmin modellerine göre optimizasyonu içerirken, transdüktif yöntem
ods, doğrudan tahminler üzerinden optimize eder ŷU.
Genellikle denetimli algoritmaları etiketlenmemişleri içerecek şekilde genişleten endüktif yöntemler
veriler, sınıflandırmamızda etiketlenmemiş verileri birleştirme yöntemlerine göre daha da
farklılaştırılır: bir ön işleme adımında, doğrudan hedef işlevin içinde veya bir sözde etiketleme
adımı aracılığıyla. Dönüştürme yöntemleri her durumda grafik tabanlıdır; bunları öğrenme
sürecinin farklı aşamalarında yapılan seçimlere göre gruplandırıyoruz. Bu bölümün geri
kalanında, bu anketin geri kalanında yarı denetimli öğrenme yöntemleriyle ilgili tartışmamızın
temelini oluşturan, taksonomide temsil edilen yarı denetimli öğrenme yöntemlerinin
gruplandırılmasını ayrıntılı olarak ele alacağız.
Tümevarımsal yöntemler, girdi uzayındaki herhangi bir nesne için tahminler üretebilen bir sınıflayıcı oluşturmayı amaçlar. Bu
sınıflandırıcıyı eğitirken etiketsiz veriler kullanılabilir, ancak daha önce görülmemiş birden çok yeni örnek için tahminler, eğitim
tamamlandıktan sonra birbirinden bağımsızdır. Bu, denetimli öğrenme yöntemlerindeki amaca karşılık gelir: eğitim aşamasında bir
model oluşturulur ve daha sonra yeni veri noktalarının etiketlerini tahmin etmek için kullanılabilir.
Mevcut, denetlenen algoritmaları yarı denetimli ortama genişletmeye yönelik basit bir yaklaşım, ilk önce
sınıflandırıcıları etiketli veriler üzerinde eğitmek ve daha sonra ek etiketli veriler oluşturmak için ortaya
çıkan sınıflandırıcıların tahminlerini kullanmaktır. Sınıflandırıcılar daha sonra bu konuda yeniden
eğitilebilir
sözde etiketli mevcut etiketli verilere ek olarak veriler. Bu tür yöntemler olarak bilinir
sarmalayıcı yöntemleri: etiketlenmemiş veriler, bir sarmalayıcı prosedürü tarafından sözde etiketlenir
ve tamamen denetlenen bir öğrenme algoritması, orijinal olarak etiketlenmiş ve sözde etiketlenmiş
veriler arasındaki ayrımın farkında olmadan, son endüktif sınıflandırıcıyı oluşturur. Bu, sarmalayıcı
yöntemlerinin temel bir özelliğini ortaya çıkarır: bunların çoğu, herhangi bir denetimli temel öğreniciye
uygulanabilir ve etiketlenmemiş verilerin basit bir şekilde tanıtılmasına izin verir. Sarmalayıcı
yöntemleri, taksonominin tümevarımsal tarafının ilk bölümünü oluşturur ve Bölümde ele alınmıştır.4.
İkinci olarak, etiketlenmemiş verilerden yararlı özellikler çıkaran, verileri önceden kümeleyen veya
denetimli bir öğrenme prosedürünün ilk parametrelerini denetimsiz bir şekilde belirleyen denetimsiz ön
işleme yöntemlerini ele alıyoruz. Sarmalayıcı yöntemleri gibi, herhangi bir denetimli sınıflandırıcıyla
kullanılabilirler. Ancak, sarmalayıcı yöntemlerinden farklı olarak, denetlenen sınıflandırıcı yalnızca
orijinal olarak etiketlenmiş veri noktaları ile sağlanır. Bu yöntemler Bölüm kapsamında ele alınmıştır.5.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
384 Makine Öğrenimi (2020) 109: 373–440
Denetlenen sınıflandırıcının amaç işlevini etiketlenmemiş verileri içerecek şekilde genişletir. Örneğin,
yarı denetimli destek vektör makineleri (S3VM'ler), denetlenen SVM'leri yalnızca etiketli değil, aynı
zamandaonun labelleddata'sını da maksimize ederek genişletir. SVM'ler, Gauss süreçleri ve sinir
ağları dahil olmak üzere birçok önde gelen denetimli öğrenme yaklaşımının özünde yarı denetlenen
uzantıları vardır ve bunları Sect'te açıklıyoruz.6. Biz daha uzağa
Bu kategorideki yöntemleri, güvendikleri yarı denetimli öğrenme varsayımlarına
göre gruplayın.
Endüktif yöntemlerin aksine, transdüktif yöntemler tüm girdi alanı için bir sınıflayıcı
oluşturmaz. Bunun yerine, tahmin gücü, eğitim aşamasında karşılaştığı nesnelerle
sınırlıdır. Bu nedenle, dönüştürücü yöntemlerin farklı eğitim ve test aşamaları yoktur.
Denetimli öğrenme yöntemleri, test aşamasına kadar tanım gereği etiketsiz verilerle
sağlanmadığından, denetimli öğrenmede dönüştürücü algoritmaların açık bir
analojisi yoktur.
Geçişli öğrenicilerde girdi alanı modeli bulunmadığından, bilginin veri noktaları
arasındaki doğrudan bağlantılar yoluyla yayılması gerekir. Bu gözlem doğal olarak,
transdüktif yöntemlere grafik tabanlı bir yaklaşıma yol açar: Eğer benzer veri noktalarının
bağlandığı bir grafik tanımlanabilirse, bilgi daha sonra bu grafiğin kenarları boyunca
yayılabilir. Uygulamada, tartıştığımız tüm dönüştürücü yöntemler ya açıkça grafik
tabanlıdır ya da dolaylı olarak bu şekilde anlaşılabilir. Endüktif grafik tabanlı yöntemlerin
de var olduğunu not ediyoruz; onları Sect'te ele alıyoruz.6.3. Endüktif ve transdüktif grafik
tabanlı yöntemler tipik olarak manifold varsayımına dayanır: veri noktaları arasındaki
yerel benzerliğe dayalı olarak oluşturulan grafikler, potansiyel olarak yüksek boyutlu girdi
verilerinin daha düşük boyutlu bir temsilini sağlar.
Transdüktif grafiğe dayalı yöntemler genellikle üç adımdan oluşur: grafik oluşturma, grafik
ağırlıklandırma ve çıkarım. İlk adımda, nesneler kümesi,X, her düğümün bir veri noktasını
temsil ettiği ve ikili olarak benzer veri noktalarının bir kenarla bağlandığı bir grafik oluşturmak
için kullanılır. İkinci adımda, bu kenarlar, ilgili veri noktaları arasındaki ikili benzerliğin
kapsamını temsil edecek şekilde ağırlıklandırılır. Üçüncü adımda, grafik, etiketlenmemiş veri
noktalarına etiket atamak için kullanılır. Bu üç adımı gerçekleştirmek için farklı yöntemler
Bölümde ayrıntılı olarak tartışılmaktadır.7.
4 Sarıcı yöntemleri
Sarmalayıcı yöntemleri, yarı denetimli öğrenme için en eski ve en çok bilinen algoritmalar
arasındadır (Zhu 2008). Bir veya daha fazla denetlenen temel öğreniciden yararlanırlar ve bunları
yinelemeli olarak orijinal etiketli verilerin yanı sıra öğrencilerin önceki yinelemelerinden gelen
tahminlerle artırılmış önceden etiketlenmemiş verilerle eğitirler. İkincisi genellikle şu şekilde
anılır: sözde etiketli veriler. Prosedür genellikle iki alternatif adımdan oluşur: Eğitim ve sözde
etiketleme. Eğitim adımında, bir veya daha fazla denetimli sınıflandırıcı, etiketli veriler ve
muhtemelen önceki yinelemelerden sözde etiketlenmiş veriler konusunda eğitilir. Sözde
etiketleme adımında, ortaya çıkan sınıflandırıcılar, önceden etiketlenmemiş nesnelerin
etiketlerini çıkarmak için kullanılır; öğrencilerin tahminlerini en çok doğruladığı veri noktaları, bir
sonraki yinelemede kullanılmak üzere sözde etiketlenmiştir.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 385
Sarmalayıcı yöntemlerinin önemli bir avantajı, neredeyse tüm denetimli temel öğrenicilerle
kullanılabilmeleridir. Denetlenen temel öğrenci, sahte etiketli örnekleri normal etiketli
örneklermiş gibi temel öğrenciye geçiren sarmalayıcı yönteminden tamamen habersiz olabilir.
Bazı sarmalayıcı yöntemleri temel öğrencinin olasılığa dayalı tahminler sağlamasını gerektirse
de, birden çok temel öğrenene dayanan çoğu sarmalayıcı yöntemi bunu yapmaz. Herhangi bir
özel sarmalayıcı yöntemi için, bunun altında yatan yarı denetimli öğrenme varsayımları,
kullanılan temel öğrenicilere bağlıdır. Bu anlamda, bir sarmalayıcı yöntemi kendi başına bir
öğrenme yöntemi olarak düşünülemez: yalnızca belirli bir temel öğrenici grubuyla
birleştirildiğinde tam bir öğrenme yöntemi haline gelir.
Kısa süre önce Triguero ve ark. Tarafından sarıcı yöntemlerinin kapsamlı bir
araştırması yayınlandı. (2015). Bu tür yöntemlere genel bir bakış sağlamanın yanı sıra,
(1) kaç tane sınıflandırıcı kullanıldığına, (2) farklı sınıflandırma türlerinin kullanılıp
kullanılmadığına ve (3) tek görüntülü veya çok görüntülü verileri kullanırlar (yani verilerin
birden çok özellik alt kümesine bölünüp bölünmediği). Bu sınıflandırma, sarmalayıcı
yöntemlerinin alanı hakkında değerli bilgiler sağlar.
Literatürde incelenen nispeten bağımsız üç tür sarmalayıcı yöntemine odaklanan daha
az karmaşık bir taksonomi sunuyoruz. İlk olarak, dikkate alıyoruzkendi kendine eğitim,
kendi en güvenilir tahminlerine göre yinelemeli olarak yeniden eğitilen bir denetimli sınıflayıcı kullanır. İkincisi,
düşünüyoruzortak eğitim, birbirlerinin en güvenilir tahminlerine göre yinelemeli olarak yeniden eğitilen birden
çok sınıflandırıcıya kendi kendine eğitimin bir uzantısı. Sınıflandırıcıların yeterince çeşitli olduğu varsayılır, bu
genellikle verilen nesnelerin veya özelliklerin farklı alt kümeleri üzerinde çalışılarak elde edilir. Son olarak,
dikkate alıyoruzsözde etiketli
artırma yöntemleri. Geleneksel güçlendirme yöntemlerinde olduğu gibi, sırayla ayrı sınıflandırıcılar
oluşturarak bir sınıflandırma grubu oluştururlar; burada her bir sınıflayıcı hem etiketli veriler hem de
etiketlenmemiş veriler üzerindeki önceki sınıflandırıcıların en güvenilir tahminleri üzerinde eğitilir.
Kendi kendine eğitim yöntemleri (bazen "kendi kendine öğrenme" yöntemleri olarak da adlandırılır)
sözde etiketleme yaklaşımlarının en temelidir (Triguero et al. 2015). Hem etiketli veriler hem de
algoritmanın önceki yinelemelerinde sözde etiketlenmiş veriler üzerinde yinelemeli olarak eğitilmiş
tek bir denetimli sınıflandırıcıdan oluşurlar.
Kendi kendine eğitim prosedürünün başlangıcında, denetimli bir sınıflayıcı yalnızca etiketli verilerle
eğitilir. Ortaya çıkan sınıflandırıcı, etiketlenmemiş veri noktaları için tahminler elde etmek için kullanılır.
Daha sonra, bu tahminlerin en uyumlu olanı etiketli veri setine eklenir ve denetlenen sınıflandırıcı, hem
orijinal etiketli veriler hem de yeni elde edilen sözde etiketli veriler üzerinde yeniden eğitilir. Bu
prosedür tipik olarak, etiketlenmemiş veri kalmayana kadar yinelenir.
Kendi kendine eğitim ilk olarak Yarowsky tarafından önerildi (1995) kelime duyumuna bir yaklaşım olarak
metin belgelerinde belirsizlik, bağlamlarına göre kelimelerin anlamlarını tahmin etme.
O zamandan beri, kendi kendine eğitimin çeşitli uygulamaları ve çeşitleri öne sürüldü.
Örneğin, Rosenberg ve ark. (2005) nesne algılama sorunlarına kendi kendine eğitim
uyguladı ve son teknoloji ürünü (o sırada) nesne algılama modeline göre gelişmiş
performans gösterdi. Dópido vd. (2013) hiperspektral görüntü sınıflandırması için
kendi kendine eğitim yaklaşımı geliştirdi. Alan bilgisini bir dizi aday etiketsiz örnek
seçmek için kullandılar ve eğitimli sınıflandırıcı tarafından yapılan tahminlerle bu
örneklerin en bilgilendiricisini sözde etiketlediler.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
386 Makine Öğrenimi (2020) 109: 373–440
Kendi kendine eğitim paradigması, sözde etiketleme için verilerin seçilmesi, algoritmanın
sonraki yinelemelerinde sözde etiketlenmiş verilerin yeniden kullanılması ve durdurma kriterleri
dahil olmak üzere çok sayıda tasarım kararını kabul eder (bkz., Örneğin Rosenberg et al. 2005;
Triguero vd.2015). Sözde etiketlenecek verilerin seçim prosedürü, sınıflandırıcı için eğitim
setinde hangi verilerin son bulacağını belirlediği için özellikle önemlidir. Bu seçimin tahmin
güvenine dayalı olarak yapıldığı tipik kendi kendine eğitim ortamlarında, güven kalitesi,
algoritma performansını önemli ölçüde etkiler. Özellikle, etiketlenmemiş örnekler için tahmin
olasılıklarının sıralaması, gerçek güven sıralamasını yansıtmalıdır.
İyi kalibre edilmiş olasılıklı tahminler mevcutsa, ilgili olasılıklar doğrudan kullanılabilir. Bu
durumda, etiketlenmemiş veri noktaları için etiket olasılıkları her adımda yeniden tahmin
edildiğinden, kendi kendine eğitim yaklaşımı yinelemelidir ve artımlı değildir. Bu durumda
yaklaşım şuna benzer hale gelir:beklenti maksimizasyonu (EM; Dempster vd.1977). Var
bağlamında özellikle iyi çalışılmıştır naif bayanlar doğası gereği olasılıkçı olan
sınıflandırıcılar (Nigam ve Ghani 2000; Nigam vd.2000, 2006). Wu vd. (2012b) kısa
süre önce e-ticaret web sitelerinde sahte ürün incelemelerini tespit etme sorununa
deneyimsiz bir Bayes sınıfı ile yarı denetimli EM uyguladı.
Güçlü olasılık tahminlerini doğal olarak desteklemeyen algoritmalar, kendi kendine eğitimden yararlanmak
için uyarlamalar gerektirebilir. Karar ağaçları bunun başlıca örnekleridir: herhangi bir değişiklik veya budama
olmaksızın, genellikle belirli bir etikete sahip bir yapraktaki örneklerin fraksiyonundan hesaplanan tahmin
olasılık tahminleri genellikle düşük kalitededir. Bu, temel olarak, çoğu karar ağacı öğrenme algoritmasının,
ağaç düğümlerindeki kirliliği açıkça en aza indirmeye çalıştığı ve böylece küçük yaprakları ve yüksek oranda
önyargılı olasılık tahminlerini teşvik ettiği gerçeğine bağlanabilir (Provost ve Domingos2003). Tanha vd. (2017)
bu sorunu iki farklı yoldan aşmaya çalıştı. İlk olarak, tahmin olasılık tahminlerini doğrudan iyileştirmek için
aşılama ve Laplace düzeltmesi gibi mevcut birkaç yöntemi uyguladılar. İkinci olarak, örnekler arasındaki güven
derecesini belirlemek için yerel mesafeye dayalı bir ölçü kullandılar: etiketlenmemiş bir veri noktasının tahmin
güvencesi, Mahalanobis mesafelerinin bu nokta ile her bir sınıftan etiketli veriler arasındaki mutlak farka
dayanır. Bu yöntemi kullanarak hem karar ağaçlarının hem de rastgele ormanların (karar ağaçları
topluluklarının) performansında iyileşmeler gösterdiler (Tanha et al.2017).
Leistner vd. (2009) ayrıca rastgele ormanları geliştirmek için kendi kendine eğitimden yararlandı. Onun yerine
etiketsiz verilerin etiketlenmesi x ∈ XUbüyük olasılıkla tahmin edilen etiketle, tahmin edilene
göre her bir ağaç için bağımsız olarak etiketlenmemiş her veri noktasını sahte etiketlerler.
arka dağıtım p (y |x). Ayrıca, torba-dışı-hataya dayalı bir durdurma kriteri de
önerdiler: Torba-dışı-hata (genelleme hatasının tarafsız bir tahminidir) arttığında,
eğitim durdurulur.
Kendi kendine eğitimdeki temel öğrenenler, sarmalayıcı yönteminin varlığından habersizdirler.
Sonuç olarak, her kendi kendine eğitim yinelemesinde tamamen yeniden eğitilmeleri gerekir. Bununla
birlikte, bir sınıflandırıcı aşamalı olarak eğitilebildiği zaman (yani, verinin bireysel veri noktaları veya alt
kümeleri üzerinde amaç işlevini optimize etme), kendi kendine eğitime benzer yinelemeli bir sözde
etiketleme yaklaşımı uygulanabilir. Her yinelemede tüm algoritmayı yeniden eğitmek yerine, veri
noktaları eğitim süreci boyunca sahte etiketlenebilir. Bu yaklaşım, Lee tarafından sinir ağlarına
uygulandı (2013), kim önerdi sözde etiket yaklaşmak.
Daha önceki eğitim aşamalarında tahmin edilen sözde etiketler genellikle daha az güvenilir
olduğundan, sözde etiketli verilerin ağırlığı zamanla artar. Thesözde etiket yaklaşmak
kendi kendine eğitime açık benzerlikler gösterir, ancak sınıflayıcının her sözde etiketleme adımından
sonra yeniden eğitilmemesi anlamında farklılık gösterir: bunun yerine, yeni sözde etiketli verilerle
hassas bir şekilde ayarlanır ve bu nedenle teknik olarak sarmalayıcı yöntemi paradigma.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 387
Kendi kendine eğitim algoritmalarının teorik özelliklerine ilişkin sınırlı sayıda çalışma
mevcuttur. Haffari ve Sarkar (2007) çeşitli kendi kendine eğitim varyantlarının teorik bir
analizini gerçekleştirdi ve grafik tabanlı yöntemlerle bir bağlantı gösterdi. Culp ve Michailidis
(2008) çeşitli temel öğrenicilerle kendi kendine eğitimin bir varyantının yakınsama özelliklerini
analiz etti ve grafik tabanlı yöntemlerle olan bağlantıyı da değerlendirdi.
Ortak eğitim, kendi kendine eğitimin birden fazla denetimli sınıflayıcı için bir uzantısıdır. Ortak
eğitimde, iki veya daha fazla denetimli sınıflayıcı, her bir yinelemede diğer denetimli
sınıflandırıcıların etiketli veri setine en güvenilir tahminlerini ekleyerek etiketli veriler üzerinde
yinelemeli olarak eğitilir. Ortak eğitimin başarılı olması için, temel öğrencilerin tahminlerinde
çok güçlü bir şekilde ilişkilendirilmemesi önemlidir. Eğer öyleyse, birbirlerine yararlı bilgiler
sağlama potansiyelleri sınırlıdır. Literatürde bu durum genellikle şu şekilde anılır:çeşitlilik
kriter (Wang ve Zhou 2010). Zhou ve Li (2010) çoklu temel öğrenicilere dayanan yarı denetimli
öğrenme yöntemleri anketi sağladı. Bu yöntemlere birlikte şu şekilde değinirler:
anlaşmazlığa dayalı yöntemler, ortak eğitim yaklaşımlarının birden çok öğrenci arasındaki
anlaşmazlıkları istismar ettiği gözlemine atıfta bulunarak: farklı öğrencilerin farklı etiketleri
tahmin ettiği unlabelleddata yoluyla bilgi alışverişinde bulunurlar.
Daha sınıfsal çeşitliliği teşvik etmek için, önceki ortak eğitim yaklaşımları temel olarak birden fazla farklılığın
varlığına dayanıyordu. Görüntüleme genellikle özellik kümesinin farklı alt kümelerine karşılık gelen veriler.
Örneğin, video verilerini işlerken, veriler doğal olarak görsel ve işitsel verilere ayrıştırılabilir. Bu tür ortak eğitim
yöntemleri, aynı zamanda çok çeşitli denetimli öğrenme algoritmalarını içeren daha geniş çoklu görüşlü
öğrenme yaklaşımları sınıfına aittir. Xu ve diğerleri tarafından çok görüntülü öğrenmenin kapsamlı bir
araştırması yapılmıştır. (2013). Sect'te çoklu görünüm ortak eğitim yöntemlerini ele alıyoruz.4.2.1. Pek çok
gerçek dünya problem senaryosunda, verilere ilişkin hiçbir farklı görüş a priori bilinmemektedir. Tek görünümlü
ortak eğitim yöntemleri, verileri otomatik olarak farklı görünümlere bölerek veya öğrenme algoritmalarındaki
çeşitliliği teşvik ederek bu sorunu ele alır; bu yöntemleri Sect'te ele alıyoruz.4.2.2. Biz
ayrıca tartışmak birlikte düzenleme Birden çok sınıflandırıcının tek bir amaç
işlevi altında birleştirildiği yöntemler, Bölüm. 4.2.3.
Ortak eğitimin temel biçimi Blum ve Mitchell tarafından önerildi (1998). Yeni ufuklar
açan makalelerinde, verilen verilerin iki farklı görünümü, yani özelliklerin alt kümeleri
üzerinde eğitilmiş iki sınıflayıcı oluşturmayı önerdiler. Her eğitim adımından sonra,
her görünüm için en güvenilir tahminler, diğer görünüm için etiketli veri kümesine
eklenir. Blum ve Mitchell, web sayfası metnini ve dış kaynaklardan web sayfasına
bağlantılardaki bağlantı metnini iki ayrı görünüm olarak kullanarak üniversite web
sayfalarının sınıflandırmasına ortak eğitim algoritmasını uyguladılar. Bu algoritma ve
varyantları, en önemlisi doğal dil işleme (Kiritchenko ve Matwin2001; Mihalcea
2004; bitik2009).
Blum ve Mitchell tarafından hazırlanan orijinal ortak eğitim algoritması (1998) iki ana
başarılı olmak için varsayımlar: (1) her bir öznitelik alt kümesi, verilen veri kümesi üzerinde iyi
tahminler elde etmek için yeterli olmalıdır ve (2) özniteliklerin alt kümeleri, sınıf etiketi göz önüne
alındığında koşullu olarak bağımsız olmalıdır. İlk varsayım önemsiz bir şekilde anlaşılabilir: İki özellik
alt kümesinden biri iyi tahminler oluşturmak için yetersizse, bu kümeyi kullanan bir sınıflandırma
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
388 Makine Öğrenimi (2020) 109: 373–440
kombine yaklaşımın genel performansına hiçbir zaman olumlu katkıda bulunamaz. İkinci varsayım,
çeşitlilik kriteriyle ilgilidir: eğer özellik alt kümeleri, sınıf etiketi verildiğinde koşullu olarak bağımsızsa,
tek tek sınıflandırıcıların tahminleri olası değildir.
güçlü bir şekilde ilişkili olması. Resmi olarak, herhangi bir veri noktası içinxi = x (1) × x ( ben , ayrışmış
ben 2)
x (1)
benve x (2)bensırasıyla ilk ve ikinci özellik alt kümesi için koşullu bağımsız
dence varsayımı, p (x (1) i |x (2)ben , yi) = p (x (1)i|yben ). Dasgupta vd. (2002) gösterdi
daha önce bahsedilen varsayımlar altında, bireysel öğrenciler arasında
anlaşmayı teşvik ederek genelleme hatası azaltılabilir.
Uygulamada, ikinci varsayım genellikle tatmin edici değildir: Blum ve Mitchell
tarafından kullanılan deneysel düzende olduğu gibi, özelliklerin doğal bir ayrımı olsa bile
(1998), bir görünümde yer alan bilgilerin, sınıf etiketine koşullandırıldığında diğer
görünüm hakkında hiçbir bilgi sağlamaması olası değildir (Du et al. 2011). Üniversite web
sayfası sınıflandırma örneği göz önüne alındığında, bir web sayfasına giden bağlantının
bağlantı metninin, web sayfasının öğretim üyesi ana sayfası olarak sınıflandırıldığı bilinse
bile, web sayfasının içeriğine yönelik ipuçları içermesi beklenebilir. . Örneğin, bağlantının
bağlantı metni "Mühendislik Fakültesi Dekanı" ise, mühendislik fakültesi dekanı hakkında
bilgi o sayfanın metninde başka herhangi bir kişi hakkında bulacağından daha olasıdır.
Bu nedenle, bu varsayıma birkaç alternatif düşünülmüştür.
Abney (2002) zayıf bir bağımsızlık varsayımının başarılı olmak için yeterli olduğunu gösterdi.
ortak eğitim. Balcan vd. (2005) koşullu bağımsızlık varsayımını daha da gevşeterek,
çok daha zayıf bir varsayım olduğunu göstererek, genişleme varsayımı, yeterli
fi aktif ve bir dereceye kadar gerekli. Genişletme varsayımı, iki görüşün yüksek düzeyde
ilişkili olmadığını ve bireysel sınıflandırıcıların asla güvenilir bir şekilde yanlış tahminlerde
bulunmadıklarını belirtir.
Du vd. (2011) yeterliğin derecesini belirlemek için ampirik yöntemler çalıştı ve
bağımsızlık varsayımları geçerlidir. Özellik kümesini otomatik olarak iki görünüme bölmek için birkaç
yöntem önerdiler ve sonuçta ortaya çıkan deneysel bağımsızlık ve yeterliliğin, birlikte eğitilmiş
algoritmanın performansı ile pozitif olarak ilişkili olduğunu gösterdiler, bu da yeterliliği ve
bağımsızlığı optimize eden özellik bölünmelerinin iyi sınıflandırmalara yol açtığını gösterdi.
Du ve ark. (2011), belirli bir özellik kümesindeki hiçbir doğal bölünme önceden bilinmediğinde
bile ortak eğitim başarılı olabilir. Bu gözlem, ortak eğitim ile ilgili literatür boyunca
yankılanmıştır ve bu sözde tek görüşlü ortamda ortak eğitimin uygulanmasına yönelik birçok
farklı yaklaşım mevcuttur.
Chen vd. (2011) tarafından önceden tanımlanmış ayrık özellik kümelerine olan ihtiyacı azaltmaya çalıştı.
her ortak eğitim yinelemesinde özellik kümesini otomatik olarak böler. Ortak eğitimle yakından ilgili
tek bir optimizasyon problemi formüle ettiler ve hem özellik setlerinin ayrık olması gerekliliğini hem
de Balcan ve diğerlerinin genişletme özelliğini birleştirdiler. (2005). Bu yaklaşım için, her bir veri
noktasının birden çok görünümünün otomatik olarak üretildiği, kısmen sentetik bir veri kümesinde
umut verici sonuçlar gösterdiler. Wang ve Zhou (2010) ortak eğitimin başarılı olması için yeterli ve
gerekli koşullar hakkında gerekçelendirilmiş, ortak eğitime grafik tabanlı bir perspektiften yaklaşarak,
etiket yaymanın her öğrenciye dönüşümlü olarak uygulandığı. Bu yaklaşımın bir dezavantajı, ortak
eğitimden esinlenmiş olmasına rağmen, herhangi bir değişiklik yapmadan keyfi denetlenen bir
öğrenme algoritmasına uygulanamamasıdır: ortak eğitime benzeyen işlemler, doğrudan optimize
edilen hedef işlevine gömülüdür.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 389
Tek görüntülü veri setlerini birden çok görünüme bölmek için çeşitli teknikler önerilmiştir.
Örneğin Wang ve ark. (2008b) oluşturulması önerildi k rastgele izdüşümleri
verileri ve bunları görünümler olarak kullanın. k farklı sınıflar. Zhang ve Zheng (2009),
temel bileşen analizini kullanarak verileri daha düşük boyutlu bir alt uzay üzerine
yansıtmayı ve maksimum varyans ile dönüştürülmüş özellikleri açgözlülükle seçerek
sözde görünümleri oluşturmayı önerdi. Yaslan ve Çataltepe (2010) Verileri farklı bir temele
dönüştürmezler, ancak verilen etiketlere göre yüksek karşılıklı bilgiye sahip özellikler
tercih edilerek her görünüm için öznitelikleri yinelemeli olarak seçer.
Açık görüşlerin bulunmadığı veri kümelerine ortak eğitime benzeyen algoritmaları uygulamaya
yönelik diğer yaklaşımlar, sınıflayıcılar arasında çeşitliliği tanıtmanın diğer yollarına odaklanır.
Örneğin, denetlenen algoritmalar için farklı hiperparametreler kullanılabilir (Wang ve Zhou2007; Zhou
ve Li2005a) veya farklı algoritmaları birlikte kullanın (Goldman ve Zhou 2000; Xu vd.2012; Zhou ve
Goldman2004). Wang ve Zhou (2007) ortak eğitimin neden tek görüntülü ortamlarda işe
yarayabileceğine dair hem teorik hem de deneysel analizler sağladı. Öğrenciler arasındaki çeşitliliğin
ortak performansları ile pozitif yönde ilişkili olduğunu gösterdiler. Zhou ve Li (2005b) önerilen tri-
eğitim, üç sınıfçının dönüşümlü olarak eğitildiği yer. Üç sınıflandırıcıdan ikisi, belirli bir veri noktası
için tahminlerinde anlaştığında, bu veri noktası, ilgili etiketle birlikte diğer sınıflandırıcıya aktarılır. En
önemlisi, üçlü eğitim, bireysel sınıflandırıcıların olasılıksal tahminlerine dayanmaz ve bu nedenle çok
daha geniş bir denetimli öğrenme algoritmalarına uygulanabilir.
Ortak eğitim yöntemleri, sözde etiketli veriler biçiminde, aralarında bilgi aktararak
sınıflandırıcılar arasındaki anlaşmazlığı azaltır. Ayrıca, birlikte eğitimin örtük amacı,
sınıflayıcılar topluluğunun hata oranını en aza indirmektir. Sindhwani vd. önerilen
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
390 Makine Öğrenimi (2020) 109: 373–440
bu özellikleri tek bir amaç işlevinde açık hale getirmek için (Sindhwani et al. 2005; Sind-
hwani ve Rosenberg 2008). Teklif ediyorlarortak düzenleme, hem topluluk kalitesinin hem de temel
öğrenciler arasındaki anlaşmazlığın aynı anda optimize edildiği bir düzenlileştirme çerçevesi. Temel
fikir, iki terimden oluşan nesnel bir işlev kullanmaktır: Biri topluluk tarafından yapılan yanlış
tahminleri cezalandıran, diğeri ise temel sınıflandırıcıların farklı tahminlerini doğrudan cezalandıran.
Bu çerçevede görüntü başına gürültüyü işlemek için Yu ve ark. (2011) tanıtıldı Bayes ortak eğitimi, Bu,
birden çok görünümden gelen verileri birleştirmek için bir grafik model ve birlikte düzenleme için
çekirdek tabanlı bir yöntem kullanır. Bu model, Christoudias ve diğerleri tarafından veri noktası
başına farklı gürültü seviyelerini işlemek için genişletildi. (2009). Ortak eğitim, birlikte düzenleme
hedefi için açgözlü bir optimizasyon stratejisi olarak görülebilir. Amaç işlevinin iki bileşeni alternatif
bir şekilde en aza indirilir: topluluğun tahmin hatası, temel öğrenicileri bağımsız olarak eğiterek en aza
indirilir ve sınıflayıcılar arasındaki anlaşmazlık, tahminlerin bir sınıflandırıcıdan diğerlerine sanki
temelliymiş gibi yayılmasıyla en aza indirilir. hakikat. Bununla birlikte, genel birlikte düzenleme
hedefinin bir sarmalayıcı yöntemi kullanılarak optimize edilmesi gerekmediğini ve birçok ortak
düzenleme algoritmasının farklı yaklaşımlar kullandığını not ediyoruz (bkz., Sindhwani ve Rosenberg
2008; Yu vd.2011).
4.3 Güçlendirme
Topluluk sınıflandırıcıları, eğitilen ve daha sonra birleşik tahminler oluşturmak için kullanılan birden çok
temel sınıflandırıcıdan oluşur (Zhou 2012). Toplu öğrenim trenlerinin en basit biçimik temel
bağımsız olarak sınıflandırır ve tahminlerini toplar. Bu basit yaklaşımın ötesinde,
denetimli toplu öğrenmenin iki ana dalı vardır:Torbalama ve artırıcı (Zhou 2012).
Torbalama yöntemlerinde, her temel öğrenciye bir dizi l orijinal veri kümesinden
(önyükleme) değiştirilerek rastgele bir şekilde örneklenen veri noktaları. Temel
sınıflandırıcılar bağımsız olarak eğitilir. Eğitim tamamlandığında çıktıları, grubun
tahminini oluşturmak için toplanır. Arttırma yöntemlerinde, diğer yandan, her
temel öğrenci önceki temel öğrenicilere bağlıdır: tam verilerle sağlanır
ancak veri noktalarına uygulanan ağırlıklarla. Bir veri noktasının ağırlığıxben dayanır
önceki temel öğrencilerin performansı xben , yanlış sınıflandırılmış veri noktalarına
daha büyük ağırlıklar atanacak şekilde. Son tahmin doğrusal olarak elde edilir
temel sınıflandırıcıların tahminlerinin kombinasyonu.
Teknik olarak, artırma yöntemleri ağırlıklı bir sınıflandırma grubu oluşturur ht
açgözlü moda. İzin VermekFT-1 (x) =∑T-1
t =1αt · ht (x) Sınıflandırıcıların topluluğunu belirtmek htağırlık ile
αt bu zamanda T - 1. Ayrıca (ŷ, y) etiketi tahmin etmek için kayıp işlevini belirtir ŷ için
gerçek etiketli bir veri noktası y. Algoritmanın her yinelemesinde, ek bir sınıflandırıcı
hT topluluğa belirli bir ağırlık ile eklenir αT, öyle ki maliyet fonksiyonu
∑
L (FT) = l (FT (xben ), yben )
i =1 l
=∑ (FT-1 (xi) + αT · hT (xben ), yben )
i =1
küçültülmüştür. Unutmayın, zaman zamanT, topluluk FT-1 sabittir. Belirli kayıp işlevi
seçenekleriyle, örneğin (ŷ, y) = tecrübe(-ŷ · y), optimizasyon problemi, ağırlıklı olarak
belirlemek için sınıflandırma problemi hT, ve optimum olanı ifade etmemize izin verir αT açısından
kaybının hT eğitim verilerinde.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 391
Tanım olarak, torbalama yöntemlerinde temel öğreniciler bağımsız olarak eğitilir. Bu nedenle,
gerçek anlamda yarı denetimli tek torbalama yöntemi, bireysel temel öğrenicilere kendi kendine
eğitimi uygulayacaktır. Bununla birlikte, birlikte eğitimin, torbalama yöntemleriyle yakından
ilişkili olduğu görülebilir: sınıflandırıcıların etkileşiminin tek yolu, sözde etiketli verilerin
değişimidir; bunun dışında sınıflayıcılar bağımsız olarak ve eşzamanlı olarak eğitilebilir. Bununla
birlikte, çoğu ortak eğitim yöntemi, torbalama yöntemlerinin tanımlayıcı bir özelliği olan
önyüklemeyi kullanmaz. Diğer yandan artırmada, temel öğrenciler arasında doğal bir bağımlılık
vardır. Sonuç olarak, artırma yöntemleri, her bir öğrenme adımından sonra sözde etiketli verilerin
tanıtılmasıyla, yarı denetimli ortama kolayca genişletilebilir; bu fikir, yarı denetimli güçlendirme
yöntemleri sınıfına yol açar.
Yarı denetimli güçlendirme yöntemleri, son yirmi yılda kapsamlı bir şekilde incelenmiştir.
Gibi denetimli güçlendirme yöntemleriyle elde edilen başarıAdaBoost (Freund
ve Schapire 1997), gradyan artırma ve XGBoost (Chen ve Guestrin 2016) sağlar
yarı denetimli ortama destek getirmek için büyük motivasyon. Ayrıca, kendi kendine eğitim ve
ortak eğitimin sözde etiketleme yaklaşımı, artırma yöntemlerine kolayca genişletilebilir.
4.3.1 SSMBoost
Yarı denetimli güçlendirme yöntemlerine yönelik ilk çaba, AdaBoost'u yarı denetimli ortama
genişleten Grandvalet ve arkadaşları tarafından yapılmıştır. Yarı denetimli bir yükseltme
algoritması önerdiler (Grandvalet ve ark.2001), daha sonra gradyan artırma perspektifinden
genişletip motive ettiler (d'Alché Buc et al. 2002). Mevcut grubun tahminlerine ve yapım
aşamasındaki temel öğrencinin tahminlerine dayalı olarak etiketlenmemiş veriler için bir kayıp
işlevi tanımlanır. Deneyler, çoklu kayıp fonksiyonlarıyla gerçekleştirildi; yazarlar, yenisinin
beklenen kaybını kullanarak en güçlü sonuçları bildirdi,
sınıf. Ağırlıklı hataεt temel sınıf için ht böylece etiketlenmemiş olanı içerecek şekilde uyarlanmıştır.
ağırlık terimine neden olan veri noktaları αt etiketlenmemiş verilere de bağlı olmak.
SSMBoost, en önemlisi, etiketlenmemiş veri noktalarına sözde etiketler atamaz.
Olarak Sonuç olarak, yarı denetimli temel öğrenicilerin etiketsiz verileri kullanmasını
gerektirir ve bu nedenle, sarmalayıcı yöntemleri olan diğer yarı denetimli artırma
algoritmalarının çoğunun aksine, özünde yarı denetlenir. Yine de, SSMBoost buraya
dahil edilmiştir, çünkü yarı denetimli temel öğrenenler gerektirmeyen diğer tüm yarı
denetimli hızlandırma algoritmaları için temel oluşturur.
4.3.2 MONTAJ
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
392 Makine Öğrenimi (2020) 109: 373–440
4.3.3 SemiBoost
Daha önce tartışılan üç yöntem, yarı denetimli artırıcı araştırmanın özünü oluşturur.
Alandaki diğer çalışmalar şunları içerir:RegBoost, SemiBoost gibi, amaç işlevinde yerel
etiket tutarlılığını içerir (Chen ve Wang 2011). RegBoost'ta bu terim aynı zamanda
marjinal dağılımın tahmini yerel yoğunluğuna da bağlıdır.p (x). Birkaç deneme
etiket tutarlılığı düzenlemesini çok sınıf ayarına genişletmek için yapılmıştır (Tanha et
al. 2012; Valizadegan vd.2008).
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 393
5 Denetimsiz ön işleme
Şimdi olarak bilinen ikinci bir tümevarım yöntemi kategorisine dönüyoruz. denetimsiz prepro-bırakma,
bu, sarmalayıcı yöntemlerinden ve özünde yarı denetimli yöntemlerden farklı olarak, etiketsiz verileri
ve etiketli verileri iki ayrı aşamada kullanır. Tipik olarak, denetimsiz aşama, etiketlenmemiş verilerden
örnek özelliklerin otomatik olarak çıkarılmasını veya dönüştürülmesini içerir (özellik çıkarma), verilerin
denetimsiz kümelenmesi (kümeleme ve sonra etiketleme),
veya öğrenme prosedürünün parametrelerinin başlatılması (Ön eğitim).
Makine öğreniminin ilk günlerinden beri, özellik çıkarma, sınıflayıcıların oluşturulmasında önemli bir
rol oynadı. Özellik çıkarma yöntemleri, girdi verilerinin, sınıflandırıcının performansının artacağı veya
yapısının sayısal olarak daha verimli olacağı şekilde bir dönüşümünü bulmaya çalışır. Özellik çıkarma,
birkaç kitap ve ankette kapsanan kapsamlı bir araştırma konusudur. Az sayıda özellikle öne çıkan
tekniğe odaklanıyoruz ve okuyucuyu daha fazla bilgi için özellik çıkarma yöntemleriyle ilgili mevcut
literatüre yönlendiriyoruz (bkz., Örneğin Guyon ve Elisseeff2006; Sheikhpour vd.2017).
Pek çok özellik çıkarma yöntemi gözetimsiz, yani etiketleri hesaba katmadan çalışır.
Temel bileşenler Analizi, örneğin, girdi verilerini doğrusal olarak ilintisiz olacak şekilde
farklı bir temele dönüştürür ve ana bileşenleri varyanslarına göre sıralar (Wold et al.
1987). Diğer geleneksel özellik çıkarma algoritmaları etiketli veriler üzerinde çalışır
ve yüksek öngörü gücüne sahip özellikleri çıkarmaya çalışır (bkz.Örneğin Guyon ve
Elisseeff2006).
Yakın zamandaki yarı denetimli öznitelik çıkarma yöntemleri temel olarak, derin sinir ağlarını kullanarak
giriş verilerinin gizli temsillerini bulmaya odaklanmıştır (Bölüm. 6.2.1, sinir ağlarını daha ayrıntılı olarak
tartışıyoruz). Bunun en belirgin örneği,otomatik kodlayıcı: sinirsel
girişini yeniden yapılandırma amacına sahip bir veya daha fazla gizli katman içeren ağ. Nispeten az
sayıda düğüme sahip gizli bir katman dahil ederek, buna genellikletemsil katman,
ağ, girdi verilerini kompakt bir şekilde temsil etmenin bir yolunu bulmaya zorlanır.
Ağ eğitildikten sonra, özellikler temsil katmanı tarafından sağlanır. Standart bir
otomatik kodlayıcının şematik bir temsili Şek.4.
Ağın iki bölümden oluştuğu düşünülebilir: kodlayıcı h, hangi haritalar
giriş vektörü x gizli temsiline h (x), ve kod çözücü g, gizli gösterimi orijinaline geri
eşlemeye çalışan x. Ağ, bir kayıp fonksiyonunun optimize edilmesiyle eğitilir.
yeniden yapılandırma hatası: girdiler arasında bir tutarsızlık ölçüsü
x ve ilgili yeniden yapılanma g (h (x)). Ağ eğitildikten sonra, herhangi bir x elde
etmek için ağın kodlayıcı kısmı boyunca basitçe yayılarak bulunabilir h (x). Popüler
bir otomatik kodlayıcı türü, otomatik kodlayıcı denoising,
giriş verilerinin gürültülü sürümleri üzerinde eğitilen, gürültüsüz orijinallere karşı
rekonstrüksiyonların yeniden yapılandırma hatasını cezalandıran (Vincent et al. 2008). Diğer
bir varyant, kontraktif otomatik kodlayıcı, otomatik kodlayıcının girişteki bozulmalara
duyarlılığını doğrudan cezalandırır (Rifai ve ark.2011b).
Otomatik kodlayıcılar, önemli miktarda bilgiden ödün vermeden girdi uzayının daha
düşük boyutlu bir temsilini bulmaya çalışır. Böylece, doğal olarak, girdi uzayının verilerin
üzerinde yattığı daha düşük boyutlu alt yapılar içerdiği varsayımına göre hareket ederler.
Ayrıca, sınıflandırmaya bir ön işlem adımı olarak uygulandıklarında, aynı alt boyutlu alt
yapı üzerindeki iki numunenin aynı etikete sahip olduğunu varsayarlar. Bu gözlemci-
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
394 Makine Öğrenimi (2020) 109: 373–440
x g (h (x))
h (x)
...... ...
Şekil 4 Bir otomatik kodlayıcının basitleştirilmiş gösterimi. Dikdörtgenler, ağ içindeki katmanlara karşılık
gelir; yamuklar, ağın birden çok katmandan oluşabilen kodlayıcı ve kod çözücü kısımlarını temsil eder
Kümeleme ve sınıflandırma geleneksel olarak görece ayrık araştırma alanları olarak görülmüştür.
Bununla birlikte, birçok yarı denetimli öğrenme algoritması, sınıflandırma sürecini yönlendirmek için
kümelemeden ilkeleri kullanır.Küme ve sonra etiketleme yaklaşımlar, kümeleme ve sınıflandırma
süreçlerine açık bir şekilde katılan bir grup yöntem oluşturur: önce tüm mevcut verilere denetimsiz
veya yarı denetimli bir kümeleme algoritması uygular ve sınıflandırma sürecini yönlendirmek için
ortaya çıkan kümeleri kullanır.
Goldberg vd. (2009) İlk olarak etiketli verileri ve etiketlenmemiş verilerin bir alt kümesini kümeleyin.
Daha sonra bir sınıflandırıcı, içerdiği etiketli veriler üzerinden her bir küme için bağımsız olarak eğitilir.
Son olarak, etiketlenmemiş veri noktaları, ilgili kümeleri için sınıflandırıcılar kullanılarak sınıflandırılır.
Kümeleme adımında, Hellinger mesafesi kullanılarak veri noktaları üzerinde bir grafik oluşturulur;
boyut kısıtlamalı spektral kümeleme daha sonra ortaya çıkan grafiğe uygulanır. Kümeleme yalnızca
verileri bölümlere ayırmak için kullanıldığından, ardından her bir kümeye bireysel öğrenciler
uygulandığında, yaklaşım, denetimli temel öğreniciyi destekler.
Demiriz vd. (1999) İlk olarak verileri yarı denetimli bir şekilde kümeleyin, kümeleri tercih edin
sınırlı etiket kirliliği ile (yani veri noktalarının etiketlerinde yüksek derecede tutarlılık)
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 395
belirli bir küme içinde) ve ortaya çıkan kümeleri sınıflandırmada kullanın. Dara vd. (2002)
daha ayrıntılı bir ön işleme adımı önerdi, kendi kendini düzenleyen haritalar (Kohonen
1998) etiketli verilere yinelemeli bir şekilde. Etiketsiz veri noktaları daha sonra eşlenir ve
her biri için bir küme ataması sağlanır. Etiketsiz bir verinin bulunduğu küme
nokta xben eşlendiğinde yalnızca aynı etikete sahip veri noktaları bulunur, bu etiket de atanır
-e xben . Bu süreç yinelenebilir, ardından ortaya çıkan etiket atamaları endüktif bir sınıflandırıcıyı eğitmek için
kullanılabilir (Dara ve diğerlerinin çalışmasında, çok katmanlı bir algılayıcı). Not ediyoruz
5.3 Ön eğitim
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
396 Makine Öğrenimi (2020) 109: 373–440
Şimdi dikkatimizi etiketli ve etiketsiz örnekler için bileşenlerle doğrudan bir nesnel işlevi
optimize eden tümevarımlı öğrenme algoritmalarına çeviriyoruz. Dediğimiz bu yöntemler
doğası gereği yarı denetimli, herhangi bir ara adımlara veya denetlenen temel
öğrenicilere güvenmeyin. Genellikle, hedef işlevine etiketsiz örnekleri dahil etmek için
mevcut denetimli yöntemlerin uzantılarıdırlar.
Genel olarak, bu yöntemler açık veya dolaylı olarak yarı denetimli öğrenme
varsayımlarından birine dayanır (bkz. 2.1). Örneğin, maksimum marj yöntemleri düşük
yoğunluk varsayımına dayanır ve çoğu yarı denetimli sinir ağları pürüzsüzlük varsayımına
dayanır. En erken doğası gereği yarı denetimli sınıflandırma yöntemlerine, yani maksimum
marj yöntemlerine genel bir bakışla başlıyoruz. Daha sonra, pürüzsüzlük varsayımını
doğrudan içeren pertürbasyon temelli yöntemleri tartışacağız. Bunlar yarı denetimli sinir
ağlarının çoğunu kapsar. Daha sonra, açık ya da dolaylı olarak verilerin üzerinde
bulunduğu manifoldlara yaklaşan çeşitli tabanlı teknikleri ele alıyoruz. Son olarak, üretken
modelleri ele alıyoruz.
Maksimum marj sınıflandırıcıları, verilen veri noktaları ile karar sınırı arasındaki mesafeyi
maksimize etmeye çalışır. Bu yaklaşım, yarı denetimli düşük yoğunluk varsayımına karşılık gelir:
tüm veri noktaları ve karar sınırı arasındaki marj büyük olduğunda (bazı aykırı değerler hariç),
karar sınırı düşük yoğunluklu bir alanda olmalıdır (Ben-David ve ark. .2009). Kavramsal olarak,
maksimum marj metotları bu nedenle yarı denetimli ortama genişlemeye elverişlidir: yoğunluğun
nerede düşük olduğunu ve dolayısıyla büyük bir marjın nerede elde edilebileceğini belirlemek
için etiketsiz verilerden elde edilen bilgiler dahil edilebilir.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 397
hiçbir veri noktasının bulunmadığı. Theyumuşak kenar boşluğu SVM, veri noktalarının belirli bir
maliyetle marjı ihlal etmesine (yani karşılık gelen marj sınırı ile karar sınırı arasında kalmasına veya
hatta yanlış sınıflandırılmasına) izin veren popüler bir SVM çeşididir. SVM'ler örtülü destekler
nesnelerin daha yüksek boyutlu özellik uzaylarıyla eşleştirilmesi sözde çekirdek∈el hüner.
d
Resmi olarak, bir SVM'yi eğitirken, bir ağırlık vektörü bulmaya çalışıyoruz w Rile
minimum büyüklük∈e ve bir önyargı ve riable b ∈ R, öyle ki yben · (wᵀ · xben + b) ≥ 1 - ξben için
tüm veri noktaları xben XL. Buraya, ξben≥ 0, "gevşek değişken" olarak adlandırılır xben , izin veren
xben amaç işlevine dahil edilen marjı bir miktar maliyetle ihlal etmek. The
ilgili optimizasyon problemi aşağıdaki gibi formüle edilebilir:
∑l
1 · ||w ||2 + C ·
küçültmek ξben
w,b,ξ 2
i =1
tabiyben · (wᵀ · xben + b) ≥ 1 - ξben , i = 1,. . . ,l,
ξ ≥ 0, i = 1,. . . ,l,
nerede C ∈ R marjı ihlal eden veri noktalarının cezalandırılması için sabit bir ölçeklendirme
faktörüdür. EğerC büyükse, optimum marj genellikle dar olacaktır ve eğer C küçük
optimum marj genellikle geniş olacaktır. Böylece,C Karar sınırının karmaşıklığı ile
eğitim setindeki tahmin doğruluğu arasındaki değiş tokuşu yöneten bir düzenlilik
parametresi olarak hareket eder.
Yarı denetimli SVM'ler veya S3VM'ler kavramı benzerdir: marjı maksimize etmek
istiyoruz ve etiketli verileri doğru şekilde sınıflandırmak istiyoruz. Bununla birlikte, yarı
denetimli ortamda, ek bir hedef konuyla ilgili hale gelir: ayrıca, marjı ihlal eden
etiketlenmemiş veri noktalarının sayısını en aza indirmek istiyoruz. Etiketsiz veri
noktalarının etiketleri bilinmediğinden, marjı ihlal edenler (yani içinde kalan) en yakın sınır
sınırına olan uzaklıklarına göre cezalandırılır.
S3VM'ler için optimizasyon sorununun sezgisel uzantısı böylelikle
∑l n
1 · ||w ||2 + C · ∑
karar sınırının (yani yben (w b) ≥ 0). Aksi takdirde daha iyi bir çözüm olabilir
basitçe etiketini ters çevirerek elde edilir xben .
SVM'lerin yarı denetimli ortama genişletilmesi önemli bir dezavantaj taşır:
S3VM'lerin eğitimi konveks olmayan ve NPhard olduğunda karşılaşılan optimizasyon
sorunu. Sonuç olarak, S3VM'lerin çalışmasındaki çabaların çoğu, onları pratikte verimli bir
şekilde eğitmeye odaklanmıştır.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
398 Makine Öğrenimi (2020) 109: 373–440
İlk çabalar, S3VM'lerin uygulanmasında, ancak yalnızca küçük veri kümelerinde umut verici
sonuçlar gösterdi. Örneğin Bennett ve Demiriz (1999) amaç fonksiyonunda L2 normu yerine L1
normunu kullanmayı önerdi ve problemi karma bir tamsayı programlama problemi olarak ortaya
koydu. Yaygın olarak kullanılan en eski optimizasyon yaklaşımı Joachims (1999), kimin
optimizasyon problemini çözmek için yaklaşım, rastgele bir atama ile başlar. ŷ U ve
düşük bir değer C′. Algoritmanın her yinelemesi daha sonra üç adımdan oluşur. İlk
önce Mevcut etiket atamasına karşılık gelen denetimli SVM optimizasyon problemi ŷ U
dır-dir Ardından, algoritma, bu ters çevirme için her bir veri noktası çiftinin etiketini
Bu tür çiftler kalmayıncaya kadar objektif işlevi iyileştirir. En sonunda,C′ artırılır. The
algoritma ne zaman biter C′ kullanıcı tarafından belirlenen önceden belirlenmiş bir değere ulaşır.
S3VM'leri çözmeye yönelik diğer yaklaşımlar da ortaya konmuştur. Örneğin,
birkaç çalışma, yarı sonlu programlama yöntemleri kullanılarak çözülebilen, amaç
fonksiyonunun dışbükey gevşemelerini önermiştir. Bu tür ilk yaklaşım, de Bie ve
Cristianini (2004, 2006) ve daha sonra Xu ve Schuurmans (2005). Ancak, zamanın
karmaşıklığı nedeniyle, bu yaklaşımlar büyük miktarda veriye ölçeklenmez.
Chapelle vd. (2008) S3VM'ler için optimizasyon prosedürlerine genel bir bakış sağladı
2008 yılına kadar ve genel olarak S3VM optimizasyon yöntemlerini iki kategoriye ayırın: com-
binatoryal yöntemler, fi etiket atamasını yapmak ŷU amaç işlevini en aza indiren ve sürekli
yöntemler, etiket atamalarını kullanarak optimizasyon problemini doğrudan çözme
ŷi = işaret(wᵀ·xben +b).Şimdiye kadar anlattığımız tüm yaklaşımlar, kombinatoryal kategoriye girer.
Ancak optimizasyon probleminde formülasyon2 sürekliliğe karşılık gelir
yaklaşmak; temelini oluşturur, örneğin,içbükey dışbükey prosedür, ayrıştıran
dışbükey olmayan objektif işlevi bir dışbükey ve bir içbükey bileşen haline getirir ve
içbükey bileşeni mevcut çözümde doğrusal bir yaklaşımla değiştirerek optimizasyon
problemini yinelemeli olarak çözer (Chapelle et al. 2008; Collobert vd.2006).
Diğer sürekli yöntemler, bu problem olgusunu kullanır. 2 kısıtlamalar olmaksızın bir
optimizasyon problemi olarak yeniden formüle edilebilir. Bu, etiketli bir nokta varsa
xben∈ XL marjı ihlal etmez, o zaman ξi = Optimal çözümde 0. Marjı ihlal ederse, o zaman
ξi = 1 - yben · (wᵀ · xben + b). Etiketsiz bir veri noktası için xben∈ XU, ξi = 0 eğer
marjı ihlal etmez, aksi takdirde, ξi = 1 - |wᵀ · xben + b |. Böylece optimizasyon
sorun şu şekilde yeniden formüle edilebilir:
∑l
1 · ||w ||2 + C ·
küçültmek en fazla (0, 1 - yben · f (xben ))
w,b 2
i =1
n
+ C′ ·∑ en fazla (0, 1 - | f (xi) |),
i = l +1
iyi performans göstermeleri garanti edilmez (Singh ve ark. 2009). Özel olarak, eğer varsa
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 399
şekilde bulunabilir: [ ]
ȳ ∈ argmax ˆm̂inJ (y, ŷ, ysvm),
y∈ {±1}sen y∈M
neredeM karşılık gelen karar sınırının düşük yoğunluklu bir alanı keseceği şekilde
tüm aday etiket atamalarının kümesidir. Tüm olası etiket atamalarının optimizasyonu
nedeniyle, bu optimizasyon sorunu NP-zordur. Li ve Zhou (2015) iyi bir aday çözümü
etkili bir şekilde bulmak için sorunun dışbükey gevşetilmesini önermiştir. Gerçek
etiket atamasının gerçekten de bu sette olduğu varsayımına dayanarak, eğerλ ≥ 1,
S4VM'nin performansı hiçbir zaman karşılık gelen SVM'ninkinden daha düşük değildir. Bu
bulguyu deneysel olarak doğruladılar ve uygulamalarının diğer S3VM yaklaşımlarına benzer
standart SVM'lere göre performans iyileştirmeleri sağladığını, ancak bunların aksine,
performansın denetlenen SVM'lere göre hiçbir zaman önemli ölçüde düşmediğini gösterdiler.
Optimizasyon prosedürünün ikinci aşamasının formülasyonu, vektör makinelerini
desteklemekle sınırlı değildir; aslında, teorik olarak diğer yarı denetimli öğrenme
algoritmalarına da uygulanabilir. Li ve Zhou (2015) ayrıca belirleyici bir tavlama
yaklaşımında her iki aşamayı da aynı anda gerçekleştirmeyi teklif eder.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
400 Makine Öğrenimi (2020) 109: 373–440
ayarı. Daha az açık bir şekilde, diğer denetimli yöntemlerle de benzer çabalar sarf
edilmiştir. Özellikle, Lawrence ve Jordan (2005) genişledi Gauss süreçleri idare etmek
etiketsiz veriler.
Gauss süreçleri, fonksiyon üzerindeki son olasılığı tahmin eden parametrik
olmayan modellerin bir ailesidir. fgirdi uzayındaki noktaları sürekli bir çıktı uzayına
eşleme. Lawrence ve Jordan'ın makalesinin odak noktası olan ikili sınıflandırma
amaçları için kullanıldığında (2005), bu çıktı sırayla etiket alanına eşlenir Y = {-1, 1}.
Öğrenme aşamasında, f veri noktalarını gözlemleme olasılığının
((xben , yi)) l
i =1 maksimize edilmiştir. Ortaya çıkan model, birben-etiket vektörü
üzerinde boyutlu Gauss dağılımı y giriş veri noktalarının l etiketli sayıdır
Veri noktaları. Daha önce görülmemiş veri noktaları için tahminlerx ∗ daha sonra, gözlemlenen
veri noktalarına bağlı olarak ilgili sınıf etiketinin son olasılığını değerlendirerek model tarafından
yapılabilir. X, ilişkili etiketleri y, ve gözlemlenen veri noktası x ∗. Ilişkili
kovaryans matrisi, hepsinden elde edilen Gram matrisidir. l + Bazı çekirdek işlevlerini
kullanan 1 veri noktası k.
Lawrence ve Jordan (2005) ikili sınıflandırma için genişletilmiş Gauss süreçleri
etiketlenmemiş veri noktalarını olabilirlik işlevine dahil ederek yarı denetimli
durum. Özellikle, etiketsiz bir veri noktası olasılığıx karar sınırına yakın olduğunda
düşüktür (yani, f (x) 0'a yakın) ve karar sınırından uzakta olduğunda yüksektir.
Olası etiketlerin alanı, birboş kategori; the
bu boş kategorinin son olasılığı, karar sınırı etrafında yüksektir. Etiketsiz veri
noktalarının hiçbir zaman boş kategoriye eşlenemeyeceği kısıtlamasını empoze
ederek, modelin etiketlenmemiş veri noktalarının yüksek yoğunluklu bir alanından
geçen bir karar sınırı seçmesi açıkça engellenir. Başka bir deyişle, etiketlenmemiş
veri noktaları karar sınırından uzak olmalıdır.
Gauss süreçlerinin yarı denetimli ortama bu genişlemesi ilginç bir yan etkiye
sahiptir: denetimli Gauss süreçlerinin aksine, ek (etiketsiz) verilerin tanıtılması,
arka varyansı artırabilir. Başka bir deyişle, ek veriler belirsizliği artırabilir. Bu etki,
tek bir etiketsiz veri noktası için olasılık fonksiyonunun gözlemlenmesinden
kaynaklanmaktadır.x∗ iki modlu olabilir eğer f (x∗) 0'a yakın.
Karar sınırını düşük yoğunluklu bir alandan geçmeye teşvik etmenin bir başka yolu,
tahmin edilen arka sınıf olasılıkları arasındaki örtüşme miktarını açıkça maliyet
fonksiyonuna dahil etmektir. Büyük miktarda örtüşme olduğunda, karar sınırı yüksek
yoğunluklu bir alandan geçer ve az miktarda örtüşme olduğunda düşük yoğunluklu
bir alandan geçer. Bu varsayımı, sınıflandırma bağlamında kullanılan amaç işlevini
düzenlemek için kullanmak için çeşitli yaklaşımlar önerilmiştir.
Grandvalet ve Bengio (2005) bunu resmileştirmeyi önerdi maksimum bir posteri-
ori (MAP) çerçevesi, model parametrelerine bir ön empoze ederek, öngörücü modelde küçük
sınıf çakışmasına neden olan parametreleri tercih ederek (ek olarak, Chapelle et al. 2006b).
Özellikle, Shannon'ın koşullu entropisini sınıf örtüşmesinin bir ölçüsü olarak kullandılar. Önceki,
bir sabit ile ağırlıklandırılırλ ∈ R. Ortaya çıkan amaç genellikle dışbükey değildir. Yazarlar
optimizasyon probleminin deterministik tavlama yoluyla çözülmesini önermişlerdir. Bu entropi
düzenleme yöntemi, maksimum olasılığa dayalı herhangi bir denetimli öğrenme yöntemine
uygulanabilir; yazarlar lojistik regresyon kullanarak deneyler yaptılar.
Corduneanu ve Jaakkola (2003) bir tahmininin doğrudan dahil edilmesi önerildi p
(x), giriş verileri üzerinden amaç fonksiyonuna dağıtım. Bir maliyet terimi eklerler
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 401
Kullanılan temel öğrenciye bağlı olarak, kendi kendine eğitim yaklaşımı Bölüm. 4 Yapabilmek
ayrıca bir marj maksimizasyonu yöntemi olarak kabul edilebilir. Örneğin, denetimli
SVM'lerle kendi kendine eğitim kullanırken, karar sınırı yinelemeli olarak etiketsiz
örneklerden uzaklaştırılır. Etiketsiz veriler açıkça kayıp işlevine dahil edilmese de, bu,
S3VM'lerde olduğu gibi düşük yoğunluk varsayımından yararlanma anlamına gelir.
Düzgünlük varsayımı, öngörücü bir modelin girdisindeki yerel karışıklıklara karşı dayanıklı
olmasını gerektirir. Bu, bir veri noktasını az miktarda gürültüyle karıştırdığımızda, gürültülü ve
temiz girdiler için tahminlerin benzer olması gerektiği anlamına gelir. Bu beklenen benzerlik,
veri noktalarının gerçek etiketine bağlı olmadığından, etiketlenmemiş verileri kullanabiliriz.
Düzgünlük varsayımını belirli bir öğrenme algoritmasına dahil etmek için birçok farklı
yöntem mevcuttur. Örneğin, giriş veri noktalarına gürültü uygulanabilir ve temiz ve
gürültülü tahminler arasındaki fark kayıp işlevine dahil edilebilir. Alternatif olarak,
sınıflayıcının kendisini karıştırarak veri noktalarına örtük olarak gürültü uygulanabilir. Bu
iki yaklaşım kategorisini ortaya çıkarır.pertürbasyona dayalı yöntemler.
Pertürbasyona dayalı yöntemler genellikle sinir ağları ile uygulanır. Ek
(denetimsiz) kayıp terimlerini amaç işlevlerine doğrudan dahil etmeleri nedeniyle,
yarı denetimli ortama görece kolaylıkla genişletilebilirler. Son yıllarda, çeşitli
uygulama alanlarındaki başarılı uygulamaları nedeniyle sinir ağları yeniden ilgi
görmüştür (bkz., Örneğin, Collobert ve ark.2011; Krizhevsky vd.2012; LeCun vd.
2015). Sonuç olarak, yarı denetimli sinir ağlarına olan ilgi de arttı. Özellikle, derin sinir
ağları olarak adlandırılan birçok katmana sahip sinir ağları, yarı denetimli ortama
ilginç uzantılar getirmiştir. Bu doğası gereği yarı denetlenen sinir ağları, aşağıda
tartıştığımız özellik çıkarma için kullanılan sinir ağlarından farklıdır.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
402 Makine Öğrenimi (2020) 109: 373–440
Mezhep. 5.1: etiketlenmemiş veriler, ayrı bir ön işleme adımında kullanılmak yerine
doğrudan optimizasyon hedefine dahil edilir. Bu tür yöntemlerle ilgili tartışmamıza
devam etmeden önce, onlara çok aşina olmayan okuyucuları hedefleyen sinir ağlarına
kısa, genel bir giriş sağlıyoruz. (Derin) sinir ağlarına daha kapsamlı bir giriş için,
ilgilenen okuyucuyu Goodfellow ve arkadaşlarının son kitabına yönlendiriyoruz. (2016).
Bir sinir ağı, aralarında ağırlıklı bağlantılar bulunan basit işlem elemanlarından
oluşan bir ağ üzerinden bir giriş vektörünü yayarak bir çıktı vektörünü hesaplayan
resmi bir sistemdir. Bu basit işlem öğelerinedüğümler ve her biri bir
aktivasyon fonksiyonu sonuçta çıktısını belirler. Burada ele aldığımız ileri
besleme ağlarında, düğümler genellikle şu şekilde gruplanır:katmanlar, her
katmandaki düğümler yalnızca bitişik katmanlardan düğümlere bağlıdır. Çıkış
vektörü, giriş vektörünün ağın ağırlıklı bağlantıları aracılığıyla yayılmasıyla
hesaplanır. Her bir düğümün çıktısı, genellikle onun adı olarak anılır.aktivasyon,
aktivasyon fonksiyonu girdilerinin ağırlıklı toplamına uygulanarak hesaplanır.
Denetlenen sinir ağlarında, ağ ağırlıkları genellikle belirli bir giriş vektörü için istenen çıktı
vektörünü hesaplamak için optimize edilir. Sınıflandırma görevini göz önünde bulundurarak,
f:d→R|Y | bir Rsinir ağı tarafından modellenen vektör değerli işlevi gösterir, haritalama
bir giriş vektörü x ∈Rda |Y | -boyutlu çıktı vektörü, burada Y olası kümesini gösterir
sınıflar. İşlevf bir veya birden çok katmandan oluşan bir sinir ağı tarafından modellenmiştir;
ardışık katmanlardaki düğümler, ağırlıklı kenarlarla bağlanır. Ağırlıklar bir ağırlık matrisinde
saklanırW, pozisyondaki eleman (i, j) düğümler arasındaki kenarın ağırlığını gösterir ben ve j.
Kullanırız f (x; W) girdiyi yayarak elde edilen çıktıyı belirtmek için x
ağ aracılığıyla ve son katmanın aktivasyonlarını değerlendirerek.
Ardından, çıktı katmanı etkinleştirmeleriyle ilişkili maliyeti hesaplayan bir kayıp işlevi
tanımlanır f (x; W) bir veri noktası için x gerçek etiketli y. Tam maliyet fonksiyonu daha sonra şu
şekilde tanımlanır:
∑
L (W) = l ( f (xben ; W), yben ).
i =1
Parametrizasyonunun açık kavramı f tarafından W genellikle özlü olduğu için ihmal edilir.
İçindeki ağırlıklar W ağ üzerinden girdi örneklerini geçirerek ve maliyetteki bir veya
daha fazla örneğin payını yayarak yinelemeli olarak optimize edilir L geriye doğru
ağ. Bu süreçtegeri yayılım Ağırlıklar, maliyeti yinelemeli olarak en aza indirmek için gradyan inişi
veya benzer bir yöntem kullanılarak güncellenir (Goodfellow et al. 2016). İçin
iyi bir performans elde etmek (kayıp açısından), ağın genellikle tüm eğitim
setinde birden çok kez geçmesi gerekir ve bu tür geçişlerin her biri, bir epoch.
Sinir ağları ile ilgili literatürde çeşitli gösterim stilleri kullanılmaktadır. Özellikle,
kullanımını tartıştığımız makalelerden bazılarıθ ağ ağırlıklarını ve çıktılarını belirtmek için
ilgili ağ tarafından fθ (x). Bu makaleleri tartışırken, ilgili makale ile bu makale arasındaki
ilişkilendirilebilirliği sürdürmek için gerekli gördüğümüzde bu gösterim stilini kullanırız.
anket.
Çok çeşitli kayıp fonksiyonları için geri yayılım algoritmasının basitliği ve etkinliği, L.
Bu yaklaşım
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 403
Etiketsiz veriler üzerinde bir düzenleme biçimi olarak düşünülebilir, neredeyse tüm
yarı denetimli derin öğrenme yöntemlerinde kullanılır. Dahası, derin sinir ağlarındaki
temsillerin hiyerarşik doğası, onları diğer yarı denetimli yaklaşımlar için uygun bir
aday haline getirir. Ağdaki daha derin katmanlar, girdi örneğinin giderek daha soyut
temsillerini ifade ederse, etiketsiz verilerin ağı daha bilgilendirici soyut temsillere
doğru yönlendirmek için kullanılabileceği iddia edilebilir. Bu argümana dayanan
yaklaşımlar, pürüzsüzlük varsayımı yoluyla derin sinir ağlarında kolaylıkla
uygulanabilir ve sözde tedirginliğe dayalı yarı denetimli sinir ağlarına yol açar.
Bu tür ilk yaklaşım, merdiven ağı, Rasmus ve ark. (2015). Ağın ileri besleme bölümünü bir gürültü
azaltıcı otomatik kodlayıcının kodlayıcısı olarak kullanarak, bir kod çözücü ekleyerek ve yeniden
yapılandırma maliyetini cezalandırmak için maliyet fonksiyonuna bir terim dahil ederek etiketlenmemiş
verileri dahil etmek için bir ileri besleme ağını genişletir. Altta yatan fikir, girdinin yeniden
yapılandırılması için yararlı olan gizli temsillerin sınıf tahminini de kolaylaştırabileceğidir.
İleri beslemeli bir ağ düşünün K gizli katmanlar ve ağırlıklar W. Biz gösteriyoruz
bir katmanın girdileri k (normalizasyondan sonra) olarak zk, ve katmanın etkinleştirmeleri (yani
etkinleştirme işlevini uyguladıktan sonra) hk. Katman girdilerine atıfta bulunurken kısa ve öz olmak için
etkinleştirmeler, girdi verilerinden açıkça bahsetmiyoruz xben , ne de parametrelendirme W (Örneğin
Biz yazarız hk aktivasyon vektörü için k-ağırlıkları olan bir sinir ağındaki inci katman W
veri noktası için xben ). Normal bir ileri besleme ağında, belirli bir veri noktası için kayıp xben dır-dir
son katmanın aktivasyonları karşılaştırılarak hesaplanır f (xi) = hK karşılık gelen
etiket ybenile ( f (xben ), yben ). Denklemde gösterildiği gibi. 4, ağ için nihai maliyet işlevi o zaman
L (W) =∑l
i =1 ( f (xben ), yben ).
Merdiven ağları ek bir terim ekler L, ağın hassasiyetini girdinin küçük tedirginliklerine karşı
cezalandırmak için. Bu, tüm ağın bir denoising otomatik kodlayıcının kodlayıcı parçası olarak
ele alınmasıyla elde edilir: ortalama sıfır ve sabit varyansa sahip izotropik Gauss gürültüsü,
giriş örneklerine eklenir ve mevcut ileri besleme ağı,kodlayıcı Bölüm. Birkod çözücü daha
sonra son katman gösterimini alması beklenen yanına eklenir h K gürültülü bir veri noktasının
x̃,ve onu yeniden inşa etmek için dönüştürün x.
Bu hedefe ulaşmak için bir yeniden inşa maliyeti ağın maliyet işlevine eklenir. Bu doğal olarak
denetimsiz maliyet terimi, girdi veri noktaları ve bunların ağ tarafından oluşturulan yeniden
yapılandırmaları arasındaki farkı cezalandırır; hem etiketli hem de etiketsiz veriler için geçerlidir.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
404 Makine Öğrenimi (2020) 109: 373–440
gizli temsil zk temiz girdinin x katmanda k kodlayıcıda. Bu, elbette, her veri noktasının
ağdan iki kez geçmesini gerektirir: bir kez gürültü olmadan (elde etmek için)z),
ve bir kez gürültülü (elde etmek için zv
̃ e yeniden inşa edilmiş ẑ).
Merdiven ağlarının son yarı denetimli maliyet fonksiyonu daha sonra
n∑
∑ ∑K
Bu çerçeveye dayanarak, Bachman ve ark. (2014) yarı denetimli bir maliyet fonksiyonu önermiştir.
Bir sinir ağı düşünün K katmanlar ve izin ver f k
θ (x) ve fk̃ θ (x; ξ) belirtmek k-inci katman
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 405
k
+ E · λ · V (kfθ (xben ), fθ̃ (xben ;) ξ)
ξ∼ n i =1 k =2
6.2.5 5-model
ankette tutarlılık sağlamak için, bu beklentileri verilen veriler üzerinden ortalamalarla değiştirdik.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
406 Makine Öğrenimi (2020) 109: 373–440
Geçici birleştirme kullanarak bir sinir ağını eğitirken, etiketlenmemiş veri noktaları büyük
aralıklarla öğrenme sürecine dahil edilir. Her giriş için etkinleştirmeler çağ başına yalnızca bir
kez üretildiğinden, etiketlenmemiş veri noktalarının etkinleştirilmesinin çıkarım sürecini
etkilemesi uzun zaman alır. Tarvainen ve Valpola (2017) ortalamaları ağ aktivasyonları
üzerinden hareket ettirmek yerine, ortalamaları bağlantı ağırlıkları üzerinden hareket ettirmeyi
düşünerek bu sorunun üstesinden gelmeye çalışmıştır.
Özellikle, her eğitim yinelemesinde üstel hareketli ağırlık ortalamasının hesaplanmasını
önerdiler ve ortaya çıkan son katman etkinleştirmelerini en son ağırlık kümesini kullanırken son
katman etkinleştirmeleriyle karşılaştırdılar. Dahası, gürültüye maruz bıraktılar. sağlamlığı
artırmak için veri girişi. Resmi olarak, ağırlıkları olan bir sinir ağını düşününWt -de
yineleme t, ve bir dizi ortalama ağırlık Ŵt. Etiketsiz bir giriş için kayıp işlevi, daha
sonra şu şekilde hesaplanır (x) = || f (x̃;Ŵt) - f (x̃′; Wt) ||2, nerede x̃ve x̃′iki gürültü
augmente =d ver
α ·bölümleriŴt+(1-α)x.· HesapladıktanW+1,neredeα sonrabozunmaWt+1oranıdırgeriyayılım.Modelikullanarak,şöyleadlandırıyorlarŴt+1hesaplandı
tarafından Ŵt +1
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 407
ağın ağırlıklarla parametrelendirildiği yer W yanı sıra bırakma maskesi. Park vd.
(2018) sanal düşmanlık eğitimine göre küçük performans iyileştirmeleri bildirdi ve
- model.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
408 Makine Öğrenimi (2020) 109: 373–440
x̂= λ · x + (1 - λ) · x′,
ŷ = λ · y + (1 - λ) · y′.
6.3 Manifoldlar
Bu bölümde, manifold varsayımına dayanan iki genel yöntem türünü ele alıyoruz. İlk olarak,
dikkate alıyoruzmanifold düzenlileştirme teknikleri, veri noktaları üzerinde bir grafik tanımlayan ve
küçük jeodezik mesafeli veri noktaları için tahminlerdeki farklılıkları örtük olarak cezalandıran.
İkincisi, düşünüyoruzmanifold yaklaşım teknikleri, hangi
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 409
manifoldları açıkça tahmin edinMVerilerin dayandığı ve buna göre bir amaç işlevi
optimize ettiği.
Etiketli bir veri noktası düşünün xben ve etiketsiz bir veri noktası x j, ve varsayalım ki xben yalanlar
bazı manifolddaM. Eğer x j ayrıca yatıyorM, manifold varsayımı,
muhtemelen aynı etikete sahip xben . Ayrıca, verilerin daha düşük boyutlu manifoldlar üzerinde
yoğunlaştığını varsayarsak, daha fazla veri noktası olmasını bekleyebiliriz. x∗ bulunan
açıkM.
Yeterince çok veri noktasına sahipsek, bu nedenle bir "yol" olmasını bekleyebiliriz,
sözde jeodezik itibaren x j -e xben , her bir yol segmenti nispeten kısa olacak şekilde diğer etiketli
veya etiketsiz örneklerden geçme. Bu yol kavramını şu şekilde resmileştirebiliriz:
tanımlamak grafik tüm veri noktalarında, orijinal giriş alanında birbirine yakın olan
veri noktası çiftlerini bir kenarla birleştirin. Benzerlik derecesini ifade etmek için
kenar ağırlıkları kullanılabilir. Temel ilke budurgrafik tabanlı yöntemler, aynı zamanda
transdüktif yarı denetimli öğrenmenin temelini oluşturur (bkz. 7).
Bu motivasyonu takiben Belkin ve ark. (2005, 2006) için genel bir çerçeve formüle etti
Tümevarımlı öğrenenleri çok katlı temelde düzenlemek. Bir çekirdek düşündülerK: X×X→ R
karşılık gelen bir hipotez alanı ile HK ve ilişkili bir norm || · ||K. Denetimli için
problemler, daha sonra, aşağıdaki genel optimizasyon problemini formüle ettiler:
l
∑
küçültmek [( f (xben ), yi)] + γ · || f ||2
K,
f ∈HK
i =1
etiketli verilerdeki bazı kayıp işlevi için. Buraya,γ yumuşatma teriminin göreceli
etkisini belirtir. Bu amaç işlevi aynı anda yanlış sınıflandırmaları cezalandırır ve
öngörü işlevinin düzgünlüğünü destekler. Yarı denetimli ortam için, grafikte
aralarında doğrudan bir kenara sahip olan veri noktası çiftleri için etiket
atamalarındaki farklılıkları cezalandıran denetimsiz bir düzenleme terimi eklediler.
Dolaylı olarak, böylece aynı manifold üzerindeki veri noktalarını aynı etiket tahminini
almaya teşvik ederler.
Bu denetimsiz düzenlileştirme terimi, manifold düzenlenmesi
yöntemler. Simetrik ağırlıklı bitişik matrisli bir benzerlik grafiğini düşününW, nerede
Wij veri noktaları arasındaki benzerliği gösterir xben ve x j (Wij = Noktalar bağlı değilse
0). İzin VermekD ile köşegen bir matris olan derece matrisini gösterir Dii =∑n
j =1Wij.
n∑
2 i =1 j =1
l
1 ·∑ (6
BEN ,
küçültmek ( f (x) γ f |K )
ben , yi) +· | |2 + γU · || f ||2
f ∈H K l
i =1
nerede γU manifold düzenlileştirme teriminin göreceli etkisini belirler.
Bu genel çerçeve, popüler denetimli öğrenmenin yarı denetimli uzantılarına yol açar.
algoritmaları, örneğin Laplacian destek vektör makineleri (LapSVM'ler), burada kayıp işlevi
menteşe kaybı olarak tanımlanır, yani (ŷ, y) = en fazla {1-y ŷ, 0}. LapSVM'lerin denetlenen hedefi,
marjı en üst düzeye çıkarır ve denetimsiz hedef, tahmin edilen manifoldlar boyunca tahminlerin
tutarlılığını en üst düzeye çıkarır. Bu çerçeveyi öneren makalede Belkin ve ark. ( 2006) ortaya
çıkan kayıp minimizasyon problemini, denetimli SVM'ler için popüler çözme tekniklerine benzer
şekilde ikili biçiminde çözmeyi önerdiler. O (n3). Melacci ve
Belkin (2011) optimizasyon probleminin ilk haliyle çözülmesini önerdi. Bir erken durdurma kriterini
önceden koşullandırılmış bir eşlenik gradyan ile birleştirerek, zaman karmaşıklığını azaltarakO (c · n2)
bazı c bu, ampirik olarak daha küçük olduğu gösterilmiştir. n.
Qi vd. (2012) uzatılması önerildi ikiz SVM'ler, İki paralel olmayan karar sınırı (her sınıf
için bir tane) sağlamak için iki SVM benzeri amaç işlevini optimize eden (Jayadeva et
al. 2007), LapSVM düzenlileştirme terimini dahil etmek için. Sindhwani vd. (2005);
Sindhwani ve Rosenberg (2008) manifold düzenlileştirmeyi ortak düzenlileştirme
çerçevesine genişletir (bkz. 4.2). İki farklı görünüm için LapSVM'lere benzer bir
nesnel işlev kullanarak iki sınıflayıcı oluşturmayı önerdiler. Niyogi (2008), çok katlı
düzenlileştirme çerçevesi üzerine bazı teorik analizler sağladı ve yarı denetimli
öğrenmedeki yararlılığını analiz etti.
Zhu ve Lafferty (2005) bir manifold düzenlileştirme terimini bir
üretken model. Veri üreten dağılımı, manifoldun yerel olarak bir karışım modeli bileşeni ile
yaklaşık olduğu bir karışım modeli olarak ifade ettiler. Kayıp fonksiyonları, grafik üzerinde
bir düzenleyici ve üretici bir bileşenden oluşur. Weston vd. (2008) derin sinir ağlarına
amanifold düzenlileştirme terminalini dahil etti. Bir yardımcı kullanarak manifold yapısını
dahil etmek için birkaç yöntem önerdiler.gömme görevi, hangi
Sinir ağındaki gizli temsilleri benzer girdiler için benzer olmaya teşvik eder. Dahası, benzer
olmayan veri noktalarının gizli temsillerini (alttaki grafikte komşu olmadıkları şeklinde
tanımlanan) açık bir şekilde iten bir düzenlileştirme terimi dahil etmeyi önerdiler. Bu
yaklaşım, Ratle ve arkadaşları tarafından hiperspektral görüntü sınıflandırmasına
uygulanmıştır. (2010). Daha yakın zamanlarda Luo ve ark. (2018), sondan bir önceki
katmanda benzer gizli temsillere sahip olması için tahmin edilen (etiketsiz veri noktaları
için) veya doğru (etiketli veri noktaları için) aynı etikete sahip veri noktalarını teşvik eden
bir kayıp işlevi kullandı. Ek olarak, farklı tahmin edilen etiketlere sahip veri noktalarının
gizli temsillerinin farklı olmasını teşvik eder.
Grafik oluşturma süreci önemsiz değildir ve birçok hiperparametre içerir. Örneğin, çeşitli
bağlantı kriterleri ve kenar ağırlıklandırma şemaları kullanılabilir. Bu, manifold düzenleme
yöntemlerinin performansını büyük ölçüde hiperparametre ayarlarına bağımlı hale getirir. Geng
vd. (2012), ilk olarak farklı hiperparametre ayarları kullanarak bir aday Laplasyalılar kümesi
seçerek bu sorunun üstesinden gelmeye çalıştı. Daha sonra, onları en aza indiren
Laplacian'ların doğrusal kombinasyonunu bulan optimizasyon problemini
j =1 μj · L j
ortaya attılar.
düzenlileştirme hedefi. Resmen, bırak olsunm aday Laplacians L1,. . . ,Lm. Varsaymak
optimal manifold L∗ dışbükey gövdesinde yatıyor L1,. . . ,Lm, yani L∗ =∑m
∑m
ile
j =1 μj = 1
ve μj≥ 0 için j = 1,. . . ,m. Her biri L j geçerli bir grafik Laplacian'dır, doğrusal
kombinasyonları da geçerli bir grafik Laplacian'dır. Üstel ağırlıkların kullanılması
Laplacian, manifold düzenlileştirme terimi || f ||2 sonra olur ben
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 411
|| f ||2
I = fᵀ · L · f
m
= fᵀ ·∑ μj · L j · f
j =1
m
=∑ μj · || f ||2Ben (j),
j =1
nerede || f ||
2 Ben (j) aday Laplacian için manifold düzenlileştirme terimidir L j. Bu son
düzenlileştirme terimi daha sonra Denklemden orijinal optimizasyon probleminde kullanılır. 6, ile
bir düzenlileştirme teriminin eklenmesi∑||μ ||2 optimize edicinin bir
m
manifold ve kısıtlama j =1 μj = 1. Amaç işlevi daha sonra optimize edilir
göre μ ve f hangi Geng ve ark. EM benzeri bir şekilde yapılması önerildi (ör.
Birini sabitlemek ve diğerini dönüşümlü olarak optimize etmek). Onların yaklaşımı dedikleritopluluk
manifold düzenlenmesi, hem sentetik hem de gerçek dünya veri setlerinde SVM amaç
fonksiyonuna uygulandığında LapSVM'lerden üstün olduğu gösterilmiştir (Geng ve ark. 2012).
Geng ve diğerleri tarafından önerilen yöntemlerin yanı sıra. (2012) ve Luo vd. (2018), grafik
inşa yöntemleri, esas olarak, transdüktif yarı denetimli öğrenme bağlamında çalışılmıştır.
Bu yöntemleri Sect'te kapsamlı bir şekilde ele alıyoruz.7.
Manifold düzenlileştirme teknikleri, manifoldların yerel olarak daha düşük boyutlu Öklid uzayını temsil ettiği gerçeğini
doğrudan yakalayan bir düzenlileştirme terimi sunar. Bununla birlikte, manifoldun ilk olarak açıkça tahmin edildiği ve
daha sonra bir sınıflandırma görevinde kullanıldığı iki aşamalı bir yaklaşım da düşünülebilir. Bu, tarafından benimsenen
yaklaşımdırmanifold yaklaşımı
teknikler manifoldun açık bir temsilini oluşturan. Bu tür yaklaşımların yakın bir
ilişkisi olduğunu ve bazı durumlarda yarı denetimli ön işleme olarak
düşünülebileceğini not ediyoruz (bkz.5).
Rifai vd. (2011a) manifoldların ilk tahmin edildiği böyle bir yaklaşım geliştirdi
kullanma büzülmeli otomatik kodlayıcılar (CAE, bkz. Rifai ve ark. 2011a) ve daha sonra denetimli bir
eğitim algoritması tarafından kullanılır. CAE'ler, otomatik kodlayıcılardaki normal yeniden yapılandırma
maliyet terimine ek olarak, çıktı etkinleştirmelerinin türevlerini girdi değerlerine göre cezalandıran bir
otomatik kodlayıcı çeşididir. Bunu yaparak, öğrenilen özelliklerin girişteki küçük karışıklıklara
duyarlılığını, bu karışıklıkları örneklemeye dayanmadan (otomatik kodlayıcıların yaptığı gibi)
cezalandırırlar. Rifai vd. ( 2011b) CAE'lerin yalnızca girdideki küçük karışıklıklara duyarlılığı
cezalandırmadıklarını, aynı zamanda manifold boyunca giriş verilerinin küçük bozulmalarını
cezalandırdıklarını iddia ediyorlar. Bu etkinin, yeniden yapılanmayı teşvik etme ve girdilere karşı
duyarlılığı cezalandırma dengesi nedeniyle ortaya çıktığını iddia ediyorlar. Başka bir deyişle, doğrudan
çeşitli varsayımlara göre hareket ettiklerini iddia ederler.
Kayıp işlevi L yeniden yapılandırma maliyeti ile sözleşmeli otomatik kodlayıcılar tarafından kullanılır (·, ·) dır-dir
n
L =∑ (g (h (xben )), yi) + λ · ||J ||2 F,
i =1
nerede ||J ||F girdilere göre çıktıların Jacobian matrisinin Frobenius normudur, yani
her çıktı aktivasyonunun karesel kısmi türevlerinin toplamıdır.
her bir giriş değerine saygı. Rifai vd. ek olarak, Hessian'ı çıktı değerlerinden cezalandırmayı
önerdi. Hessian'ı tam olarak hesaplamanın hesaplama karmaşıklığı nedeniyle,
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
412 Makine Öğrenimi (2020) 109: 373–440
girdideki küçük karışıklıklara karşılık gelen Jakobenler arasındaki fark olarak yaklaşık
olarak tahmin etmeyi öneriyoruz.
Kullanma tekil değer ayrışımı, gerçek manifoldlara yaklaşmak için her giriş noktasındaki
teğet düzlemi tahmin ederler. Sonuç olarak, manifold boyunca iki veri noktası arasındaki
mesafe tahmin edilebilir ve daha sonra sınıflandırmada kullanılabilir, örn.k-en yakın komşu
algoritması. Ek olarak, çıktıların teğet düzlem boyunca bozulmalara duyarlılığını açık bir şekilde
cezalandırmak için kayıp işlevine ek bir terimin eklendiği, çoklu, yığılmış sözleşmeli otomatik
kodlayıcılarla önceden eğitilmiş derin bir sinir ağı kullanmayı önerdiler.
Bir manifold, üst üste binen bir koleksiyon olarak tanımlanabilir. grafikler her biri, tüm
manifoldu birlikte kaplayan basit bir geometriye sahiptir. Böyle bir grafik koleksiyonu,
Atlas. Pitelis vd. (2013, 2014), her birini bir alt uzay ile ilişkilendirerek bu çizelgeleri açık
bir şekilde yaklaştırmayı önerdi. Grafiklere veri noktaları atamak ve her bir grafik için
verilere en iyi uyan ince alt uzayı seçmek arasında geçiş yaparlar. Grafikler, bir dizi
rastgele alt uzay üzerinde temel bileşen analizi kullanılarak başlatılır. Bundan, bir dizi
çizelge ve çizelgelere yumuşak bir nokta ataması elde edilir (çünkü noktalar birden fazla
çizelgeyle ilişkilendirilebilir). Son olarak, bu çizelgelerden ve yumuşak atamalardan, daha
sonra SVM tabanlı denetimli öğrenmede kullanılan çekirdekler oluşturulur.
Yukarıda belirtilen yöntemlerin tümü ayrımcı: onların tek amacı, veri noktalarını
sınıflandırabilen bir işlevi çıkarmaktır. Bazı durumlarda olasılığa dayalı tahminler üretirler;
diğerlerinde, yalnızca atanacak en olası sınıfı verirler. Her durumda, herhangi bir veri
üreten dağılımları açık bir şekilde modellendirmeden sınıflandırma problemine yaklaşırlar.
Buna karşılık, yöntemlerin temel amacı,üretken modeller veriyi oluşturan süreci
modellemektir. Böyle bir üretken model belirli bir etikete koşullandırıldığınday,
sınıflandırma için de kullanılabilir.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 413
varsayılan modelin doğru olduğuna dair kritik varsayım. Model doğru değilse, yani gerçek
dağılım p (x, y) varsayılan modelle uyumlu olmadığından, etiketsiz veriler performansı
iyileştirmek yerine performansa zarar verebilir.
Gerçek dünya uygulamalarında, model doğruluğu varsayımı nadiren geçerlidir. Bu
nedenle, üretimsel modelleme için karışım modellerini kullanmak zor olabilir. Bu sorunları
azaltmak için bazı yaklaşımlar mevcuttur; örneğin Nigam ve ark. (2000) EM'deki etiketsiz
verilerin etkisini değiştirir. Bununla birlikte, karışım modellerinin katılığı, dikkatin daha esnek
üretken model sınıflarına kaymasına neden olmuştur.
Son zamanlarda, olarak bilinen yeni bir öğrenme paradigması türü üretici düşmanlık ağları
( GAN), aynı anda üretken ve ayrımcı öğrenenler inşa etme fikrine dayanarak önerilmiştir
(Goodfellow et al. 2014a). Genellikle sinir ağları kullanılarak uygulanan bu yaklaşım, aynı
anda gerçek verilerden ayırt edilmesi zor veri noktaları oluşturmakla görevli üretken bir
model ve belirli bir veri noktasının 'gerçek' mi yoksa 'sahte' mi olduğunu tahmin etmekle
görevli, ayırt edici bir sınıflandırıcı eğitir. yani yapay olarak oluşturulmuştur).
Ayrımcı D, parametrelerle θ (D), ve jeneratör G, parametrelerle θ (G), vardır
tek bir amaç işlevini optimize etmek için aynı anda eğitilmiştir. En önemlisi, ayrımcının
amacı,küçültmek amaç işlevi, jeneratörün amacı ise maksimize etmek o. The
ayırt edici işlev D bir veri noktasının olasılığını ifade eder x gerçek; üretken işlevG
bir veri noktası oluşturur x gürültü vektöründen z bazı dağıtımlardan örneklendi
p (z). Maliyet fonksiyonu daha sonra iki terimden oluşur; Bunlardan ilki, ayırt edicinin gerçek
veri noktalarını bu şekilde tanımlama yeteneğini ifade eder ve optimizasyonu yalnızca ayırıcıyı
içerir. İkinci terim, ayırt edicinin sahte veri noktalarını tanımlama yeteneğini ifade eder ve
optimizasyonu hem ayırıcıyı hem de oluşturucuyu içerir. Resmi olarak, gerçek verileri bazı temel
olasılık dağılımlarından alınan örnekler olarak ele almakp (x), the
optimizasyon problemi şu şekilde formüle edilebilir:
en az en çokV (D, G) = Ex∼p (x) [günlük D (x)] + Ez∼p (z) [günlük (1 - D (G (z))], (7)
G D
parametrelerinin nerede olduğu D tarafından θ (D) ve G tarafından θ (G) özlü olması için ihmal edilmiştir.
Jeneratör ve ayırıcı, dönüşümlü bir şekilde eğitilir. Her eğitim adımında, eğitim
verilerinden birden fazla gerçek veri noktası alınır ve kullanılarak birden çok sahte
veri noktası oluşturulur.G örnek alarak p (z). İlgili parametreler θ (D) ve θ (R) nın-nin
ayırıcı ve jeneratör daha sonra gradyan inişi (Goodfellow 2017).
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
414 Makine Öğrenimi (2020) 109: 373–440
şekilde uyarlanmıştır. Aksi takdirde, kayıp işlevinin önemli ölçüde değiştirilmesi gerekmez: etiketlenmemiş bir veri
noktası ile sunulduğunda,
∑ |Y |
c =1Dc (x)
ayrımcının veri noktasının sahte olmadığına dair tahmini şu şekilde hesaplanabilir:
veri noktası için x, nerede Dc (x) çıktının değeridir c ayrımcının. Odena (2016)
aynı zamanda bağımsız olarak aynı fikri önerdi. Dai vd. (2017) sağlanan
bu çerçevenin bazı teorik analizleri. Yöntemin, ayırıcıya göre kendi başına
performansı iyileştirmesi için, jeneratör tarafından modellenen
dağılımınTamamlayıcı gerçek veri dağılımı: girdi uzayında gerçek dağılımda düşük
yoğunluğa sahip bölgelere yüksek olasılık yoğunluğu atamalıdır.
Veri noktalarının hem sınıfını hem de gerçekliğini belirlemek için ayırıcı kullanmak yerine,
her görev için ayrı bir ayırt edici model de kullanılabilir. Bu benimsenen yaklaşımdırüçlü
düşman ağlar, veri noktalarını sınıflandırmak için bir ayırıcı kullanıldığında ve diğerine gerçek
ile sahte verileri ayırmakla görevlendirilir (Li ve ark. 2017).
GAN'lara, uygulamalarına ve uzantılarına kapsamlı bir genel bakış için okuyucuya Goodfellow
tarafından hazırlanan GAN'larla ilgili 2016 NIPS öğreticisinin özetine başvururuz (2017).
GAN'ların yanı sıra, son yıllarda yarı denetimli derin üretken modeller oluşturmaya
yönelik daha fazla çaba sarf edilmiştir. Dikkate değer bir örnek,değişken
otomatik kodlayıcılar (VAE) ve bunların yarı denetimli öğrenmeye uygulamaları.
Kingma ve Welling tarafından önerildi (2013), varyasyonel otomatik kodlayıcılar bir tür gizli
her veri noktasını işleyen değişken model x gizli değişkenlerin bir vektöründen üretildiği için
z. Otomatik kodlayıcılar gibi geleneksel gizli değişken modeller, genellikle oldukça
karmaşık bir dağılıma sahip bir model verir. p (z), bu da onları örnekleme için
kullanmayı çok zorlaştırır. Tersine, VAE'ler kısıtlarp (z) örneklemenin basit olduğu
standart çok değişkenli Gauss dağılımı gibi basit bir dağıtım. Dan dönüşümp (z)
biraz daha karmaşık dağıtıma p (x | z) daha sonra bir kod çözücüye bırakılır.
Eğitim zamanında, bir dağıtımın parametrelerini belirlemek için bir kodlayıcı kullanılır p (z | x)
bir veri noktasına dayalı x. Rekonstrüksiyonları oluşturmak için x, gizli vektörler z daha sonra
bu dağıtımdan örneklenebilir ve kod çözücüden geçirilebilir. Kod çözücü ve kodlayıcı,
(1) arka dağıtım arasındaki Kullback-Leibler ayrışmasını içeren birleşik bir maliyet işlevini
en aza indirecek şekilde birlikte eğitilmiştir.p (z | x) ve bazı basit önceki dağıtımlar p (z), ve
(2) giriş verileri için otomatik kodlayıcının çıktısının yeniden yapılandırma maliyeti. İlk terim çok
önemlidir: kod çözücünün, doğrudan örneklenen gizli vektörleri alarak üretken bir model olarak
kullanılmasına izin verir.p (z).
Kısaca, örnekleme prosedürü nedeniyle önemsiz olmayan bir geri yayılım adımı
içeren VAE'lerin eğitim prosedürü ile ilgili çok fazla ayrıntıya girmiyoruz; bunun yerine
okuyucuyu Doersch tarafından hazırlanan VAE eğitimine yönlendiririz (2016).
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 415
Kingma vd. (2014) yarı denetimli öğrenme için VAE'leri kullanmak için iki aşamalı bir model önerin.
İlk adımda, bir VAE, veri noktalarından anlamlı gizli temsiller çıkarmak için hem etiketsiz
hem de etiketli veriler üzerinde eğitilir. Kendi başına bu, gizli temsillerin herhangi bir
denetimli sınıflayıcı tarafından kullanılmasına izin veren, denetlenmeyen bir ön işleme
adımı olarak görülebilir. İkinci adımda, gizli gösterimin artırıldığı bir VAE uygularlar.
etiket vektörü ile yben , etiketli veri noktaları için tek sıcak kodlanmış gerçek etiketleri içeren
ve etiketlenmemiş veriler için ek bir gizli değişken olarak ele alınan. Buna ek olarak
kod çözücü, etiket tahminlerini ortaya çıkaran bir sınıflandırma ağı tanıtıldı (Kingma et al.
2014).
7 Dönüştürme yöntemleri
1. Etiketli veri noktaları için, tahmin edilen etiketler gerçek etiketlerle eşleşmelidir.
2. Benzerlik grafiği ile tanımlanan benzer veri noktaları, aynı etiket tahminlerine sahip
olmalıdır.
Başka bir deyişle, bu yöntemler, bilinen etiketleri hesaba katarken benzer veri noktaları için
tutarlı tahminleri teşvik eder. Bu yöntemler ile Sect'in tümevarımlı manifold tabanlı yöntemleri
arasında yakın bir benzerlik vardır.6.3. Her iki yöntem de veri noktaları üzerinde bir grafik
oluşturur ve daha karmaşık yapıları yaklaşık olarak tahmin etmek için veri noktaları arasında ikili
benzerlik kullanır. Aralarındaki tek büyük fark, endüktif yöntemlerin tüm girdi alanı boyunca
işleyebilen bir sınıflayıcı elde etmeye çalışmasıdır, buna karşılık dönüştürücü yöntemlerin
yalnızca belirli bir etiketlenmemiş veri noktaları kümesi için tahminler vermesidir. Toplu olarak,
bu yöntemler genellikle şu şekilde anılır:grafik tabanlı yöntemler (Zhu 2008).
Tarikatta. 6.3, grafik tabanlı tekniklerin yorumlanması ve motivasyonuna odaklandık
manifoldların teorik perspektifinden. Bununla birlikte, transdüktif grafiğe dayalı yöntemlerin
geliştirilmesi, genellikle doğrudan yukarıda özetlenen iki optimizasyon kriteri tarafından
yönlendirilmiştir. Dönüştürücü yarı denetimli öğrenmeyi tartıştığımız bu bölüm, bu akıl
yürütme çizgisini takip eder.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
416 Makine Öğrenimi (2020) 109: 373–440
Grafik tabanlı yarı denetimli öğrenme yöntemleri genellikle üç ayrı adımı içerir: grafik oluşturma,
grafik ağırlıklandırma ve çıkarım (Jebara ve ark. 2009; Liu vd.2012). İlk adımda, grafikteki düğümler
(veri noktalarını temsil eden) bazı benzerlik ölçülerine göre birbirine bağlanır. İkinci adımda, ortaya
çıkan kenarlar ağırlıklandırılarak bir ağırlık matrisi elde edilir. İlk iki adım birlikte genel olarak şu
şekilde anılır: grafik yapım aşaması.
Grafik oluşturduktan sonra, bir dizi düğümden oluşan bir grafiğimiz var. V = {v1,. . . ,vn},
veri noktalarına karşılık gelen ve bir n ×n ağırlık matrisi W kenar ağırlıklarını içeren tüm
düğüm çiftleri için, sıfır kenar ağırlığının kenar olmadığını gösterir. Bu bölümün geri
kalanında terimleri kullanıyoruzdüğüm ve veri noktası birbirinin yerine
grafik tabanlı yöntemlerin bağlamı.
Grafik oluşturulduktan sonra tahminleri elde etmek için kullanılır ŷ U etiketsiz olanlar için
Veri noktaları. Transdüktif grafik tabanlı yöntemler için genel nesnel işlevler formu
gerçek etiketle eşleşmeyen tahmin edilen etiketleri cezalandırmak için bir bileşen ve bağlı veri
noktaları için etiket tahminlerindeki farklılıkları cezalandırmak için başka bir bileşen içerir.
Resmi olarak, etiketli veriler için denetimli bir kayıp işlevi verilir ve denetlenmeyen
kayıp fonksiyonuU etiketli veya etiketsiz veri noktası çiftleri için, dönüştürücü grafik
tabanlı yöntemler bir etiketleme bulmaya çalışır ŷ en aza indiren
l ∑n
λ ·∑
(ŷ y ∑
W · ŷ ŷ
ben , i) + n ij U( ben , j),
i =1 i =1 j =1
nerede λ denetlenen terimin göreceli önemini yönetir. Ayrıca, bazı grafik tabanlı yöntemler,
etiketlenmemiş tahminlere ek bir tekli düzenlileştirme terimi uygular. Grafik tabanlı yöntemler için bu
genel çerçeve, adımlarının her birinde çok sayıda varyasyona izin verir. Formülasyon, grafik tabanlı
yöntemlerde yaygındır ve çoğu grafik tabanlı çıkarım algoritmasının bu çerçeveye uyduğu
gösterilebilir (Bengio ve ark.2006; Subramanya
ve Talukdar 2014). Ayrıca, manifold düzenlileştirme çerçevesinde de mevcuttur (Belkin et al.
2005) Bölümde tartışıldı. 6.3.
Grafik yapımı için, çoğu grafik tabanlı yöntem, benzer özelliklere sahip veri noktalarını
birbirine bağlayarak giriş alanındaki veri noktaları arasındaki yerel benzerliğe dayanır. Bu
durumda, çeşitli varsayımlara ek olarak dolaylı olarak pürüzsüzlük varsayımına da
güvenirler. Bu tür grafik tabanlı yöntemler ile denetimli en yakın komşu yöntemleri
arasında bir paralel çizilebilir. İkincisi, benzer (yani yakındaki) etiketli veri noktalarının
etiketlerine bakarak etiketlenmemiş bir veri noktasının etiketini tahmin eder; grafik tabanlı
yöntemler ayrıca etiketlenmemiş veri noktası çiftleri arasındaki benzerliği de göz önünde
bulundurur. Bu bilgiler kullanılarak etiketler, etiketli bir veri noktasından etiketsiz bir veri
noktasına hem etiketli hem de etiketsiz diğer veri noktaları üzerinden geçişli olarak
yayılabilir. O ışıkta
Grafik tabanlı yarı denetimli öğrenme yöntemleri yelpazesi, iki ana aşamadaki farklı
yaklaşımlara dayalı olarak etkili bir şekilde yapılandırılabilir, örn. grafik yapısı ve
çıkarım. Grafiğe dayalı yöntemler üzerine yapılan ilk çalışmalar, temelde ikinci aşamaya
odaklandı ve grafik oluşturmayı çok az çalışılmış bir konu bıraktı. Zhu (2008), bu dengesizliğin
adaletsiz olabileceğini ve grafik yapısının sınıf performansı üzerinde önemli bir etkiye sahip
olabileceğini kaydetti. Daha sonraki çalışmalar bu dengesizliği ele aldı ve o zamandan beri
grafik yapımı önemli bir araştırma ilgisi alanı haline geldi (de Sousa et al.2013).
Grafik tabanlı transdüktif yöntemler 2000'lerin başında tanıtıldı ve grafik tabanlı
çıkarım yöntemleri sonraki on yıl boyunca özellikle yoğun bir şekilde çalışıldı. Bir
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 417
Bu alanda yürütülen araştırmanın önemli bir kısmı, Zhu'nun yarı denetimli öğrenme
anketinde kapsanmıştır (2008) ve Zhu'nun doktora tezinde (2005). Ayrıca Subramanya ve
Talukdar (2014) yakın zamanda grafik tabanlı yöntemler üzerine bir kitap yayınladı. Grafik
tabanlı yöntemler alanındaki araştırmanın genel kronolojik sırasını takiben, çıkarım
problemini çözmek için farklı yaklaşımların ana hatlarını çizerek başlıyoruz. Bundan sonra,
grafik oluşturma üzerine araştırmalara genel bir bakış sunuyoruz.
İlk grafik tabanlı yarı denetimli sınıflandırma yöntemi Blum ve Chawla tarafından
önerilmiştir (2001), bir kullanarak grafik yapımını deneyen k-en yakın komşular
algoritma ve ε-mahalle (veri noktası çiftlerini birbirine ε). Kenar ağırlıklarını sabit ve
tekdüze tuttular, ancak diğer kenarlara göre etiketlenmemiş veri noktaları
arasındaki kenarların ağırlığını değiştirmeyi denediler.
Grafik oluşturulduktan sonra, optimizasyon problemine bir minimum kesimden yaklaşılır.
perspektif. Özellikle, tek bir kaynak düğümv + sonsuz ağırlık ile eklenir ve bağlanır
pozitif veri noktalarına ve tek bir havuz düğümüne v-, negatif veri noktalarına
sonsuz ağırlık ile bağlantılı. O halde minimum kesimin belirlenmesi, bir dizi
minimum birleşik ağırlığa sahip kenarlar, kaldırıldığında kaynak düğümden havuz düğümüne hiçbir yol
içermeyen bir grafikle sonuçlanır. Ortaya çıkan grafikteki tüm etiketlenmemiş düğümler
içeren bileşende v + pozitif olarak etiketlenir ve içindeki tüm etiketsiz
düğümler içeren bileşen v- negatif olarak etiketlenir.
Min-cut yaklaşımının, Expres'in genel amaç işlevini en aza indirdiği görülebilir.
sion 8 gibi λ yakınlık yaklaşımları (etiketli verilerdeki tahminleri sabitlemek, bunların gerçek
etiketler) veU (ŷben , ŷ j) = 1 {ŷi =ŷ j}, nerede 1 gösterge fonksiyonudur. 0 ve 1 etiketlerinin kullanıldığını varsayarsak,
etiketlenmemiş veriler için kayıp fonksiyonunun ikinci dereceden maliyete karşılık geldiğini unutmayın.
l ∑n ∑n
2.
λ ·∑ (ŷben- yben )2 + Wij · (ŷben- ŷ j)
i =1 i =1 j =1
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
418 Makine Öğrenimi (2020) 109: 373–440
∑
λ·l (ŷben- yben )2 + 2 · ŷᵀ · L · ŷ.
i =1
Sınıflandırma olasılıklarını tahmin etmenin ilkeli ve etkili bir yolunun olmaması, grafik tabanlı
çıkarım için minimum kesim yaklaşımının temel bir dezavantajıdır. Çoğu durumda diliyoruz
olasılığı tahmin etmek P (yi = c) etiketsiz bir veri noktası xben etiketi var c. Standart
Ancak min-cut, yalnızca katı sınıflandırmalar sağlar (yani, yalnızca sınıf etiketleri çıkarır ve
olasılıklar). Markov rasgele alanları perspektifinden grafik tabanlı yöntemlere yaklaşmak,
bu soruna potansiyel bir çözüm sağlar. Aşağıda, gösterimin küçük bir kötüye kullanımı ile,
kullanıyoruzX ve x rastgele değişkenleri ve bunların gerçekleşmelerini sırasıyla veri
noktaları yerine belirtmek için.
Hammersley-Clifford teoremi, bir olasılık dağılımı olduğunu belirtir. P (X = x) için
rastgele değişkenler X1,. . . ,Xn bir grafik ise Markov rasgele alanına karşılık gelir G böyle var
ortak olasılık fonksiyonu P (X = x) (maksimal) klikler üzerinde çarpanlara ayrılabilir
nın-nin G (Hammersley ve Clifford 1971). Diğer bir deyişle,P (X = x) bir Markov
rasgele alanına karşılık gelir. G Eğer
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 419
rastgele değişkenler veya düğümler Y = Ŷ ∪Y ′, nerede Y ′ tüm yardımcı düğümleri içerir.3 Beri
yardımcı düğümler yalnızca karşılık gelen gerçek etiketi elde edebilir, P (Y = y) = P (Ŷ = ŷ), nerede
yˆ (etiketli ve etiketsiz) verilerimiz için tahminler kümesidir.
Bu durum Şekil 2'de tasvir edilmiştir. 5. Doldurulmuş düğümlerŶ ve aralarındaki kenarlar orijinal
grafiğe karşılık gelir G; artı ve eksi işaretleri ile işaretlenmiş açıklanmamış düğümler, yardımcı
düğümleri temsil eder Y ′, ve yalnızca karşılık gelen dolu düğüme bağlanır.
Bir kliğin, her düğüm çiftinin bir kenarla bağlandığı bir düğüm alt kümesi olduğunu hatırlayın. O
halde, maksimal bir klik, genişletilemeyen, yani sonuçta ortaya çıkan düğüm alt kümesinin de bir klik
oluşturacağı şekilde hiçbir düğümün eklenemediği bir kliktir. Bir kenarla bağlanan her düğüm çiftinin
en az bir kliğin parçası olduğuna dikkat edin. Böylece, formun bir ifadesini
bulabilirsek
1 ·∏
için P (Ŷ = ŷ), olasılık dağılımı, birMarkov rasgele alanına karşılık gelir. maliyet fonksiyonunu
İfade'den ifade edebileceğimizi göstermeye devam ediyoruz. 8 Öyle ki en aza indirgemek,
olasılığı en üst düzeye çıkarmaya karşılık gelir P (Ŷ = ŷ).İki farklı kenar türünü ayırt edebiliriz: iki
normal düğüm arasındakiler sen v itibaren Ŷ, ve normal bir düğüm ile yardımcı düğümü
arasındakiler ( sen itibaren Ŷ, v itibaren Y ′, ya da tam tersi). Tanımlayalımψ (·)
bu iki durum için bağımsız olarak:
ψ ({ŷben , y′ ′
i}) = tecrübe(- (ŷben , y′ ben )) Eğer vben∈ Ŷ, v j∈ Y
veya vben∈ Y ′, v j∈ Ŷ.
1 ·∏ ∑
ben ) -∑ U (ŷben , ŷ j) ,
ben ∈Y
3Teknik olarak şunu not ediyoruz: Ŷ, Y ′ ve Y setlerden ziyade listelerdir, ancak - makine öğrenimi
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
420 Makine Öğrenimi (2020) 109: 373–440
Daha önce açıklanan ikili etiketlerle Markov rasgele alanındaki marjinal olasılıkları
hesaplamak için kapalı formda bir çözüm yoktur. Ancak, rastgele değişkenler
Ŷ gerçek değerleri alma konusunda rahatlarsa, kapalı formda bir çözüm vardır. Bu yaklaşım önerildi
Zhu ve ark. (2003); fi x içerirˆîngˆo∈etiketli veri noktalarının etiketleri ve ikinci dereceden
tahmin çiftlerinin maliyeti yben , y j R. Bu, aynı amaç işleviyle sonuçlanır
min-cut formülasyonunda kullanılana (bkz. İfade 9), rahatlama dışında
gerçek sayılara yönelik tahminler.
Ûsikinci= dereceden kayıp fonksiyonuna sahip gerçek değerli tahminler için üstel form
P (Y y) çok değişkenli bir Gauss dağılımıdır. Bu nedenle, mod alanı için ortalamasına eşit olan kapalı tĥe = yformben )
P (Yben
hesaplanmasına izin verir. Bu nedenle rasgele alana aGauss rasgele alanı. Tarikat'tan
hatırlayın. 6.3 Laplacian grafiğini şöyle tanımladık: L = D - W, nerede D
derece matrisidir (yani tepe dereceleri o olan köşegen bir matristir)
et al. (2003) tahmin fonksiyonunun olduğunu gösterdi harmonik, yani L ·n̂th = e köşegen)y0. etiketsiz Zhu
veri noktaları ve etiketli veri noktalarındaki gerçek etikete eşittir. Her etiketlenmemiş veri
nerede N (vben ) düğümün komşuluğunu belirtir vben , yani, N (vi) = {v j: Wij = 0}. Kürk-
Thermore, çözüm benzersizdir ve ŷben∈ [0, 1] her biri için ben . Böylelikle,
eşikleme kullanılarak çözümden etiket tahminleri kolaylıkla elde edilebilir.
Markov rasgele alanının marjinallerinin hesaplanması,
alt matris LU graphLaplacian'daki etiketsiz veri noktalarına karşılık gelir. Bu, çok sayıda
etiketlenmemiş veri noktası için hesaplama açısından pahalıdır. Diğer birkaç yaklaşım
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 421
Wij
Birij =∑
vk∈N (vben )Wik
geçiş matrisini gösterir. Etiket yayma algoritması daha sonra etiket atamasına
kadar tekrarlanan iki adımdan oluşur.ŷ birleşir. İlk etiket atamasından başlayarak
ŷ, etiketlenmemiş veri noktaları için rastgele ve etiketli veri noktaları için
gerçek etiketlere eşittir:
1. Etiketleri her düğümden komşu düğümlere yayın: ŷ = Birᵀ · ŷ.
2. Etiketli veri noktalarının tahminlerini karşılık gelen gerçek etiketlere sıfırlayın.
Gauss rasgele alanlar yönteminin iki dezavantajı vardır (Subramanya ve Talukdar 2014).
İlk olarak, gerçek etiketler etiketli veri noktalarına kenetlendiğinden, etiket gürültüsünü
işlemez. İkinci olarak, düzensiz grafiklerde yüksek dereceli düğümlerin etkisi görece
büyüktür. Bu iki konuyu ele alan Gaussian rasgele alanlar yöntemiyle yakından ilgili bir
yaklaşım Zhou ve diğerleri tarafından önerilmiştir. (2004). Yaygın olarak biliniryerel ve
küresel tutarlılık (LGC) yöntemi, grafiğe dayalı yöntemlerin manifoldlar üzerindeki
(global) ve giriş alanındaki (yerel) yakınlardaki etiketlerin tutarlılığını teşvik ettiği
gözlemine atıfta bulunarak. Aşağıda, şunu varsaydığımıza dikkat edin:Y = {-1, 1}.
İlk sorunu ele almak için, LCF doğru etiketleri etiketli veri noktalarına kelepçelemez,
bunun yerine gerçek etiket ile tahmini etiket arasındaki karesel hatayı cezalandırır. İkinci
sorun, etiketlenmemiş veri noktaları için ceza terimlerinin düğüm derecelerine göre
düzenlenmesi ile ele alınmıştır. Ayrıca, etiketlenmemiş veri noktaları için tahminler sıfıra
çekilerek düzenlenir (Bengio et al.2006). Karşılık gelen amaç fonksiyonunu genel formda
şu şekilde yazabiliriz:
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
422 Makine Öğrenimi (2020) 109: 373–440
( )2
l n n
∑ ∑ ∑∑
2
(ŷben- yben )2 + ŷ + λU · n Wij · √ ŷben-ŷ √ j ,
ben
Dii Djj
i =1 i = l +1 i =1 j =1
ŷt +1 = α · L̃· ŷt + (1 - α) · y,
İçinde yapılandırılmış çıktı öğrenme, veri noktalarının etiketleri, basit ikili veya gerçek
değerli temsiller kullanılarak yakalanamaz. Örneğin, çıktı etiketleri bazı durumlarda
histogramlar veya olasılık dağılımları ile daha iyi temsil edilebilir (örneğin, 24 saatlik bir
döngü boyunca bir konumdaki göreceli trafik yoğunluğunu tahmin ederken). Subramanya
ve Bilmes (2008, 2011) Farklı düğümlerin dağılımları arasındaki KL farklılığına dayalı
olarak, bir grafik aracılığıyla ayrık olasılık dağılımlarını yayar. KL diverjansına bir alternatif
olarak Solomon ve ark. (2014) komşu düğümlerin ayrık dağılımları arasındaki benzerliği
ölçmek için Wasserstein mesafesini kullanmayı önerdi.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
424 Makine Öğrenimi (2020) 109: 373–440
grafik. Genel olarak iki seçenek dikkate alınır: bir (simetrik k-en yakın komşular)
bir kenar oluşturur, eğer ben içinde k-mahalle j veya tam tersi ve diğeri (karşılıklı
k-en yakın komşular) bir kenar oluşturur, eğer ben ve j ikisi de birbirinin içinde k-
mahalle (de Sousa et al. 2013). Arasındaki farkε-komşular ve k-En yakın komşular
yöntemi, Maier ve ark. (2009) kümeleme yöntemleri bağlamında.
b-eşleştirme. Grafik oluştururken kullanılan son işlem adımı k-en yakın komşu
bours genellikle tüm düğümlerin tam olarak sahip olmadığı bir grafikle sonuçlanır. k komşular. Ne zaman
simetrik k-en yakın komşular kullanılırsa, genellikle bazı düğümlerin diğerlerinden çok daha yüksek
derecelere sahip olduğu görülür. Jebara vd. (2009) bunun sınıflandırıcının nihai performansını olumsuz
etkileyebileceğini göstermiştir. Oluşturulan grafiğin düzenliliğini zorlayan, yani her düğümün aynı
sayıda komşuya sahip olmasını ve düğümlerin tam olarak istenen sayıda kenara sahip olmasını
sağlayan bir kenar inşa yöntemi önerdiler. Yaklaşımları şunlardan ilham alıyor:eşleştirme, Bir grafikte
kenarların herhangi bir köşeyi paylaşmayacağı şekilde kenarların bir alt kümesini bulmaya çalışan
grafik teorisinden bir kavram. Yöntemlerinde,b-
eşleştirmede amaç, tüm grafikteki kenarların alt kümesini bulmaktır, öyle ki (1)
her düğümün derecesi b ve (2) kenar ağırlıklarının toplamı maksimuma çıkarılır.
Jebara ve ark. (2009), toplamını maksimize etmek yerine
kenar ağırlıkları, amaç kalan mesafeler arasındaki mesafelerin toplamını en aza indirmektir.
kenarlar. Ancak, mesafe matrisini tanımladıkları içinC gibi Cij = √ Wii + Wjj- 2Wij,
bu kavramlar eşdeğerdir. Karşılık gelen optimizasyon problemi şu şekilde formüle edilir:
n∑
∑n
i =1 j =1
n
∑
tabi Birij = b i = 1,. . . ,n,
j =1
2009), nerede
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 425
(- ||xben- x j ||2 )
Wij = tecrübe ,
2σ2
ve σ2 Gauss çekirdeğinin varyansıdır. Bunun izotropik bir Gauss çekirdeğine karşılık
geldiğine dikkat edin; izotropik olmayan bir Gauss çekirdeği de kullanılabilir. Hein ve
Maier (2007), Gauss kenar ağırlıklandırmasının yerel bir varyantını önerdi. k-en yakın
komşu grafik yapısı, burada bir çift düğüm için varyans ben ve j maksimum mesafeye
bağlıdır ben ve j en yakın komşuları. Ağırlığı şu şekilde tanımlarlar:
( - ||xben- x j ||2)
Wij = tecrübe
(max {hben , h j})2,
nerede hi = maxvk∈N (vi) ||xben- xk ||2, yani arasındaki maksimum kare mesafe ben ve Onun
komşular. Blum ve Chawla (2001) farklı özelliklerin önemini değiştirmeyi önerdi
bilgi kazancına dayalı benzerlik hesaplamasında. Jebara vd. (2009) denendi ikili
ağırlıklarla Wij = 1 eğer düğümler ben ve j bağlı ve Wij = Aksi takdirde 0.
Yukarıda açıklanan tüm ağırlıklandırma şemalarında, Wij = Bağlantısız düğümler için 0.
Yukarıda açıklanan yaklaşımlar kenar ağırlıklarını belirler Wij sadece ikili olarak
düğümlerin benzerliği xben ve x j. Bununla birlikte, kenar ağırlıklarını belirlerken bir düğümün
tüm komşuluğunu hesaba katmak da mümkündür. Wang ve Zhang (2008) tanıtıldı
doğrusal komşuluk yayılımı (LNP) algoritması, varsayıma dayanan
grafiğin herhangi bir veri noktası xben komşularının doğrusal bir kombinasyonu
olarak tahmin edilebilir, yani
x i =∑ Wij · x j + εben
v j ∈N (vben )
∑n ||xben- x̃i||2
küçültmek
W∈Rn×n i =1
∑ (10)
tabi Wij = 1 ben=1,. . . ,n
v j ∈N (vben )
Wij≥ 0 i, j = 1,. . . ,n
∑
nerede x̃i= v j ∈N (vben )Wij · x j yeniden yapılanması xben . Bu formülasyon aynıdır
yerel olarak doğrusal yerleştirme (Roweis ve Saul 2000), iki kısıtlamanın eklenmesiyle.
LNP, bir dizi ikinci dereceden programlama problemiyle çözülebilir (her düğüm için bir
tane). Bu, en önemlisi, kenar ağırlık simetrisinin uygulanmamasına bağlıdır, yani zorunlu
olarak şu durumda Wij = Wji; bundan dolayı ağırlıklar Wij bağımsız
Wkj için k = i.
Karasuyama ve Mamitsuka (2013) yerel olarak doğrusal yerleştirmeyi yerel bir simülasyonla birleştirerek
kenar ağırlıklarını elde etmek için belirsizlik ölçüsü. Özellikle, önceden oluşturulmuş bir
grafik verildiğinde (örneğin,k-en yakın komşu algoritması), çapraz kovaryans matrisli bir
Gauss çekirdeği kullanarak iki bağlı düğüm arasındaki ağırlığı hesaplarlar. Bu matris,
yerel yeniden yapılandırma hatasını en aza indiren katsantılar eklenerek oluşturulur.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
426 Makine Öğrenimi (2020) 109: 373–440
Liu ve Chang (2009) ağırlık matrisini simetrik k-en yakın komşular yöntemi: biri
diğerinin içindeyse iki düğüm bağlanır. k-mahalle, ancak her ikisi de birbirlerinin
mahallesindeyse iki bağlantının ağırlığı toplanır. Başka bir deyişle, değiştirilmiş
ağırlık matrisiW temel alınarak inşa edilmiştir
orijinal ağırlık matrisinde Ŵ aşağıdaki gibi:
Daha önce açıklanan LNP algoritması (bkz. Bölüm. 7.3.2), grafik yapısının (yani kenar kümesinin) bilindiğini ve
sabitlendiğini varsayar ve her bir düğümün komşularının doğrusal bir kombinasyonu olarak yeniden
yapılandırılabileceği varsayımına dayanarak her düğüm için kenar ağırlıklarını yerel olarak belirler. Bununla birlikte,
grafik yapısını sabitlemek yerine, aynı zamanda, grafik yapısını ve kenar ağırlıklarını, düğümleri temel alarak doğrusal
olarak yeniden yapılandırarak aynı anda çıkarabilir.herşey diğer
düğümler.
Böyle bir yaklaşım ilk olarak Yan ve Wang (2009), göre seyrek kodlama
yaklaşmak Wright ve diğerleri tarafından yüz tanıma için formüle edilmiştir. (2009). Fikir, her düğüm için
bulmaktır.xben , katsayı vektör a ∈n
R diğer tüm düğümlerin katkılarını gösteren
yeniden yapılanma xben . Bu yeniden yapılanma daha sonra şu şekilde hesaplanır: x̃i= (X′) T ·a, nerede X′ ∈n×d R
tam veri matrisini gösterir, ancak dizinde bir sıfır satırı vardır ben (çünkü bir düğüm katkıda bulunamaz
kendi yeniden inşasına). Problem'den LNP rekonstrüksiyonunun aksine10 yukarıda
sadece önceden belirlenmiş komşular yeniden yapılanmaya katkıda bulunursa, burada, hepsi n - 1 diğer
düğümler kullanılabilir. Karşılık gelen temel optimizasyon problemi, en aza indirmeye çalışır.
her veri noktası, hata vektörünün normu εi = x̃ben-xben , yeniden yapılanma ile gerçek veriler
arasındaki farkı ifade etmek. L2 normunu kullanan LNP'den farklı olarak çok önemlidir
ve böylece seyrek olmayan çözümleri teşvik eder, Yan ve Wang (2009) L1 normunu kullanın.
Bazı durumlarda eksik belirlenmiş bir denklem sisteminden kaçınmak için, son optimizasyon problemi
hem yeniden yapılandırma katsayılarının normunu hem de gürültü vektörünü cezalandırır. İzin Vermek
B = [(X′) T, bend] veri matrisinin birleştirilmesi X ve d × d kimlik matrisi bend.
Her veri noktası xben daha sonra şu şekilde ifade edilebilir: x i = B · a′. Buraya, a′ katsayıdan oluşur
vektör a = [a′
1,. . . ,a′ n] ve hata vektörü ε = [a′ n +1,. . .
,a′ n + d]. Nihai optimizasyon
Optimal katsayıları bulma problemi daha sonra her bir düğüm için aşağıdaki gibi tanımlanır x ben :
a′∈Rn + d
tabiB · a′ = xben ,
nerede || · ||1 L1 normudur. Şimdi izin veraben düğüm için bulunan katsayı vektörünü gösterir ben . The
Son grafik daha sonra düğümler arasına bir kenar eklenerek oluşturulur ben ve j eğer ve sadece
Eğer, aij = 0, ve kenar ağırlıklarının katsayının büyüklüğüne ayarlanması, yani Wij = |aij |.
Bu yaklaşımın yönsüz bir grafik vermediğini not ediyoruz. Seyrek kodlamanın bir çeşidi
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 427
Şimdiye kadar tartışılan grafik oluşturma ve çıkarım yöntemlerinin çoğu, ölçeklenebilirlik eksikliğinden
muzdariptir (Liu ve ark. 2012). Grafik oluşturma yöntemleri genellikle zaman karmaşıklığına sahiptir
O (n2) (Örneğin, k-en yakın komşular zaman karmaşıklığına sahiptir Tamam mı ·n2)); çıkarım yöntemleri
genellikle zaman karmaşıklığı vardır O (n3) kesin çözümler elde etmek için ve O (n) yaklaşık olarak
çözümler. Bu, büyük miktarlarda etiketlenmemiş veri içeren gerçek dünya uygulamalarında grafik
tabanlı yöntemleri uygulamayı zorlaştırabilir. Liu vd. (2012) grafik tabanlı yöntemleri daha ölçeklenebilir
hale getirmek için yaklaşımlara genel bir bakış sağladı.
Ölçeklenebilirlik sorununun üstesinden gelmek için, üzerinde çıkarımın gerçekleştirilebileceği
daha küçük grafikleri verimli bir şekilde oluşturmak için birkaç yaklaşım önerilmiştir. Bu
yaklaşımlar, nprototipbirdiziveyam çapa noktaları yapıyı ifade etmek için
verileri daha derli toplu olarak verir. Bu bağlantı noktaları, çıkarım aşamasında kullanılır, ardından
etiketsiz veri noktaları, yakındaki bağlantı noktalarının çıkarsanmış etiketlerine göre sınıflandırılır.
Yaygın olarak kullanılan bir yaklaşım adı verilen çapa grafiği düzenlemeLiu ve ark.
(2010b). Yöntemleri bir dizi bağlantı noktası bulmaya çalışırsen 1,. . . ,senk ve karşılık gelen etiket
atamaları, böylece her veri noktası, etiketlerin doğrusal bir kombinasyonu olarak ifade edilebilir.
yakındaki bağlantı noktalarının. Bağlantı noktalarının konumlarını kullanarak seçerler.k-anlamına geliyor
kümeleme ve her veri noktasını en yakın bağlantı noktalarına bağlayan bir grafik oluşturun. Karşılık gelen
ağırlıklar, yerel doğrusal gömme yoluyla tanımlanır (bkz.7.3.2); bunlar daha sonra tüm veri noktaları üzerinde bir
grafik oluşturmak için kullanılır. Çıkarım süreci, bağlantı noktalarına yönelik tahminler üzerinde tanımlanan
grafik tabanlı bir amaç işlevini optimize ederek, veri noktalarının tahminlerini dolaylı olarak optimize eder.
Zhang vd. ( 2009), çıkarım aşamasında denetimsiz maliyet teriminde bitişik matrisin düşük dereceli bir
yaklaşımının kullanılması önerildi.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
428 Makine Öğrenimi (2020) 109: 373–440
Daha önce görülmemiş bir veri noktası için bir tahmin elde etmek için, dönüştürücü algoritmaların
bütünüyle yeniden çalıştırılması gerekir. Transdüktif yöntemler genellikle hesaplama açısından pahalı
olduğundan, bu, yeni veri noktaları için on-the-on-on-on-class sınıflandırmanın gerekli olduğu birçok
gerçek dünya problem senaryosunda istenmeyen bir durumdur. Endüktif sınıflandırma için
dönüştürücü algoritmaları uyarlama ve genişletme konusu literatürde kapsamlı bir şekilde
çalışılmamıştır, ancak bazı potansiyel çözümler önerilmiştir.
İlk yaklaşım türü, transdüktif algoritmanın amaç fonksiyonuna dayalı olarak daha önce
görülmemiş veri noktaları için optimal etiket tahminini bulmaktır. Bu tür yaklaşımlar, transdüktif
tahminleri sabitler ve daha önce görülmemiş veri noktalarının etiketini tahmin etmek için elde edilen
grafiği kullanır (Bengio et al.2006; Zhu2008). Genel amaç işlevi dikkate alındığında İfadeden 8, yeni
veri noktası için en uygun etiket ataması xben hesaplanabilir
verimli bir şekilde: grafik ağırlıklarını hesaplayabileceğimizi varsayarsak Wij için j = 1,. . . ,n,
yapabiliriz Hedef işlevini yalnızca yeni veri noktasının tahmin edilen etiketine göre
optimize edin. Etiket ataması ŷbenMaliyet fonksiyonunun en aza indirilmesi daha sonra veri
noktasının komşularının ağırlıklı çoğunluk oyu ile verilir:
∑
yˆben∈ argmax
c ∈Y
v j ∈N (vben )∧ŷ j =c
Tümevarımlı bir sınıflandırıcı oluşturmak için ikinci yaklaşım türü, sahte etiketli tahminleri
gerçek etiketler olarak ele almak ve bu tahminlere dayalı olarak denetimli bir sınıflayıcı
eğitmektir. Bu yaklaşım Kveton ve ark. (2010), en uygun etiketleri elde etmek için min-cut
yaklaşımını kullanan ve etiketli ve etiketsiz verileri bir arada kullanarak denetlenen bir SVM'yi
eğiten. Etiketsiz örneklerin denetimli öğrenme algoritmasında ağırlıklandırılabilmesi için olasılık
tahminlerine sahip bir dönüştürücü yaklaşım kullanılması düşünülebilir. Bu yaklaşım,
hesaplama açısından pahalı bir tahmin aşamasına sahip tümevarımlı öğrenenlere de
uygulanabilir: tüm mevcut veriler üzerinde tümevarımlı yarı denetimli bir öğrenme yöntemi
eğitebilir ve etiketli verilerle birlikte etiketlenmemiş veriler için tahminlerini sayısal olarak daha
verimli bir şekilde aktarabiliriz. sınıf (Urner ve ark.2011). Etkin tahmin aracı daha sonra yeni,
daha önce görülmemiş veri noktaları hakkında tahminler yapmak için kullanılabilir.
Bazı gerçek dünya problemlerinde, veriler doğası gereği bir grafik olarak temsil
edilir. Genellikle şu şekilde anılan bu tür verilerağ verileri, sosyal ağlar, bilimsel
işbirliği, bulaşıcı hastalıkların yayılması, şirket yapıları vb. bağlamında ortaya çıkar.
Bu tür ağlarda, düğümler genellikle varlıkları (insanlar gibi) ve kenarlar aralarındaki
ilişkileri (arkadaşlık gibi) temsil eder. Bu tür verileri inceleyen alan, genellikle ağ
bilimi olarak bilinir (Barabási2016).
Bu tür ağ verilerinde, grafik tabanlı transdüktif yöntemler, çıkarım yapmak için
oldukça uygun adaylardır. Özellikle düğüm sınıflandırması, düzenli bir transdüktif
yarı denetimli öğrenme görevi olarak düşünülebilir ve genel olarak sosyal ağ analizi
ve doğal dil işlemedeki problemlere uygulanır (Tan ve ark.2011; Yang vd.2016). Bu
alanlar arasında önemli miktarda örtüşme olmasına rağmen, yarı denetimli öğrenme
ve ağ bilimi toplulukları oldukça bağımsız bir şekilde faaliyet göstermiştir. Tabii ki,
bir ağ biçiminde doğal olarak verilen veriler ile bazı benzerlik ölçütlerine dayalı
olarak girdi vektörlerinden çıkarılan grafikler arasında da önemli farklılıklar vardır.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 429
Sen vd. (2008) düğüm sınıflandırması için çıkarım tekniklerine genel bir bakış sağladı
ağ verilerinde. Arasındaki farkı vurguladılaryerel Her bir düğümün komşularına
göre (muhtemelen yinelemeli olarak) sınıflandırıldığı sınıflandırma ve küresel
küresel, ortak amaç fonksiyonunun optimize edildiği sınıflandırma.
Özellikle,yinelemeli sınıflandırma algoritması, Her düğüm için yerel, denetlenen bir
sınıflayıcı oluşturan ve düğüme komşularına ve etiketlerine (Lu ve Getoor 2003;
Neville ve Jensen2000). Bu prosedür, tüm ağdaki tahminler stabilize olana kadar
yinelenir. Yang vd. (2016) bir düğümün etiketini ve bağlamını, yani düğüm gömme
kullanarak ağdaki yakın düğümlerin (özelliklerini) eşzamanlı olarak tahmin eden sinir
ağı tabanlı bir yaklaşım önerdi.
Gömmeyi belirli bir düğümün özelliklerinin bir fonksiyonu olarak ifade ederek (bağlamı
değil) bu yaklaşımı tümevarımsal ortama genişletmişlerdir. Bağlam, rastgele bir yürüyüş
kullanılarak tahmin edilir; bu soruna benzer yaklaşımlar daha önce çalışılmıştır (Perozzi ve ark.
2014; Tang vd.2015). Evrişimli sinir ağı mimarilerini ağ verilerine genelleştirmek
için çeşitli yaklaşımlar önerilmiştir (bakınız, örneğin, Bruna ve ark.2014;
Duvenaud vd. 2015; Kipf ve Welling2016).
Ağ tabanlı yöntemler genellikle, belirli ağ verilerini vektörler olarak temsil etmenin bir yolunu
bulmaya çalışır ve bu da endüktif çıkarıma izin verir (Yang ve ark. 2016). İlginç bir şekilde, bu, yarı
denetimli grafik tabanlı yöntemlerin çoğunun yapmaya çalıştığı şeyin tersi olarak düşünülebilir, bu da
vektör verilerine dayalı bir grafik oluşturmaktır. Bu tamamlayıcı yaklaşımlar, 'standart', tablo şeklinde
veriler ve bir ağ biçiminde yerel olarak belirtilen veriler arasındaki farkı vurgulamaktadır.
8 İlgili alanlar
ve Noto 2008).
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
430 Makine Öğrenimi (2020) 109: 373–440
Yarı denetimli sınıflandırma, görece iyi tanımlanmış bir görevdir ve kişiye tamamen
etiketlenmiş verilerle birlikte tamamen etiketlenmemiş veriler sunulur. Yarı
denetimli kümelemede ise denetlenen bilgi farklı biçimler alabilir. Örneğin olabilir
zorunlu bağlantı (iki örneğin aynı kümede olduğu bilinmektedir) ve bağlanamaz
(iki örneğin farklı kümelerde olduğu bilinmektedir (Lange et al. 2005). Bazı küme
atamalarının önceden bilinmesi de mümkündür.
İkinci tür bilgilerin dahil edilmesine bir örnek, etiketli verilerin kullanımıdır. küme
tohumlama. Basu vd. (2002), küme atamalarının bilindiği veri noktalarına dayalı
olarak kümeleri başlatmak için önerildi. Her küme için, küme merkezini başlatırlar.k-
bu kümeye ait olduğu bilinen veri noktalarının ortalama özellik değerlerine yönelik
algoritma anlamına gelir. Ayrıca, etiketli veri noktalarının küme atamalarının sabit
tutulduğu bu yaklaşımın bir alternatifini de önerdiler.k-prosedür anlamına gelir.
Yarı denetimli regresyon gibi, yarı denetimli kümeleme, yarı denetimli sınıflandırma ile
karşılaştırıldığında nispeten küçük bir araştırma alanıdır. Yarı denetimli kümeleme yöntemlerine
daha kapsamlı bir genel bakış için okuyucuyu Bair'in son anketine yönlendiriyoruz (2013) ve
Grira ve diğerleri tarafından kümeleme yöntemlerine ilişkin eski anket. (2004).
Bu ankette, yarı denetimli öğrenme alanına genel bir bakış sunduk. 2000'lerin başından ve
daha yeni gelişmelerden yöntemleri kapsayan anketimiz, makine öğrenimi içindeki bu
önemli konunun güncel bir incelemesini oluşturmaktadır. Ayrıca, yarı denetimli
sınıflandırma yöntemleri için yaklaşımın birincil amacını birbirinden ayıran yeni bir
sınıflandırma sunduk (transdüktif e karşı endüktif öğrenme) ve yol
etiketlenmemiş veriler kullanılır (ör. sarmalayıcı yöntemleri, denetimsiz ön işleme, ve
özünde yarı denetimli yöntemler).
Yarı denetimli öğrenme alanındaki erken araştırmalar, esas olarak sarma yöntemlerine odaklanmıştır
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 431
bkz. Bölüm. 6). Grafik tabanlı yöntemler (Sects.6.3 ve 7) son yirmi yılda kapsamlı bir şekilde araştırılmıştır.
Farklı etiketlenmemiş veri noktalarının benzerliğini ilkeli bir şekilde açıkça birleştiren belki de en sezgisel yarı
denetimli öğrenme yöntemidirler. Bununla birlikte, yine de hesaplama zorlukları yaratırlar. Son yıllarda, yarı
denetimli öğrenme, denetimli öğrenme ile benzer çizgilerde gelişmiştir: özellikle, denetimsiz ön işleme
biçiminde yarı denetimli sinir ağlarına güçlü bir odaklanma olmuştur (Bölüm.5.3)
yanı sıra yarı denetimli düzenlileştirme (Böl. 6.2). Ek olarak, derin üretken modeller
yarı denetimli ortama genişletilmiştir (Böl.6.4).
Bizim bakış açımıza göre, yarı denetimli öğrenmede çözülmesi gereken en önemli sorunlardan biri,
etiketlenmemiş verilerin ortaya çıkmasının neden olduğu potansiyel performans düşüşüdür. Bu, literatürde nispeten
az ilgi görmesine rağmen (muhtemelen Zhu'nun belirttiği gibi yayın yanlılığı nedeniyle)2008), birçok yarı denetimli
öğrenme yöntemi yalnızca denetlenen meslektaşlarından veya belirli durumlarda temel öğrencilerden daha iyi
performans gösterir (Li ve Zhou 2015;
Singh vd. 2009). Diğer durumlarda, yarı denetimli öğrenme yöntemlerinin performansını deneysel olarak
değerlendirmek için kullanılan denetimli taban çizgileri nispeten zayıftır ve etiketlenmemiş verileri dahil
etmenin faydaları konusunda çarpık bir bakış açısına neden olur (Oliver ve ark.2018). Dahası,
potansiyel performans düşüşü, genel olarak potansiyel iyileşmeden çok daha
önemlidir, özellikle tamamen denetimli öğrenme ile güçlü performansın elde edildiği
makinede öğrenme problemleri. Bunun, denetimli öğrenmeye kıyasla uygulamada yarı
denetimli öğrenme yöntemlerinin uygulamalarının eksikliğinin ana nedenlerinden biri
olduğuna inanıyoruz.
Dikkate değer istisnalar, yarı denetimli sinir ağlarında genellikle pertürbasyon
temelli olan son gelişmelerdir (bkz. 6.2). Nispeten zayıf olanları içerirlerpürüzsüz
ness varsayımı (yani, girdi uzayındaki küçük değişiklikler çıktı uzayında sadece küçük
değişikliklere neden olmalıdır). Ampirik olarak, bu yöntemlerin sürekli olarak denetlenen
muadillerinden daha iyi performans gösterdiği gösterilmiştir. Yarı denetimli öğrenme için sinir
ağlarını kullanmanın önemli bir avantajı, denetimsiz kayıp terimlerini maliyet işlevine dahil
etmenin nispeten basit olmasıdır, bu daha sonra geri yayılım kullanılarak optimize edilebilir. Bu
esneklik, aynı zamanda, daha karmaşık maliyet terimlerinin dahil edilmesini de barındırarak,
örneğin, grafik tabanlı düzenlileştirmeyi kolaylaştırır. Bu nedenlerden dolayı, öngörülebilir
gelecekte yarı denetimli sinir ağlarının popülaritesinin artmaya devam edeceğini umuyoruz.
Yarı denetimli öğrenme yöntemlerinin sağlamlığının olmaması için ikinci bir potansiyel çare,
otomatik makine öğrenimi (AutoML) yarı denetimli ayara. Son zamanlarda, belirli bir sınıflandırma
problemi için öğrenme algoritmalarının otomatik seçimi ve yapılandırılmasına olan ilgide büyük bir
artış olmuştur. Bu yaklaşımlar, meta-öğrenme ve sinir mimarisi aramasının yanı sıra otomatik algoritma
seçimi ve hiperparametre optimizasyonunu içerir. AutoML teknikleri göze çarpan ve başarılı bir şekilde
denetimli öğrenmeye uygulanmış olsa da (bakınız, örneğin Elsken et al.2019; Feurer vd.2015;
Thornton vd. 2013), şu ana kadar yarı denetimli öğrenmeye başvuru yapılmamıştır. Yarı denetimli
uygulamaların uygulamada benimsenmesine yönelik bir diğer önemli adım, standartlaştırılmış
yazılım paketlerinin geliştirilmesidir. Denetimli öğrenim için oldukça popüler birkaç araç takımı
mevcuttur; örneğin:scikit-öğren (Pedregosa vd. 2011), ancak yarı denetimli öğrenme alanında
çok daha az standardizasyon vardır. Bazı genel araç setlerinin mevcut olduğunu not ediyoruz;
KEEL yazılım paketi yarı denetimli bir öğrenme modülü içerir (Triguero et al. 2017),
ve bazı dönüştürücü grafik tabanlı yöntemlerin uygulamaları şu ülkelerde mevcuttur: scikit-öğren. İçin
sinir ağları gibi popüler yazılım paketlerinde yarı denetimli kayıp terimlerini
uygulamak genellikle nispeten basittir. PyTorch (Paszke vd. 2017) ve TensorFlow
(Abadi vd. 2016).
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
432 Makine Öğrenimi (2020) 109: 373–440
TeşekkürBu makalenin taslakları hakkındaki değerli geri bildirimleri için Matthijs van Leeuwen'e teşekkür ederiz.
Açık Erişim Bu makale Creative Commons Attribution 4.0 International License (http://creativecommons.org/
licenses/by/4.0/), orijinal yazarlara ve kaynağa uygun şekilde atıfta bulunmanız, Creative Commons lisansına
bir bağlantı sağlamanız ve değişiklik yapılıp yapılmadığını belirtmeniz koşuluyla, herhangi bir ortamda
sınırsız kullanım, dağıtım ve çoğaltmaya izin veren.
Referanslar
Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat, S., Irving, G. ve Isard,
Metal. (2016). Tensör akışı: Büyük ölçekli makine öğrenimi için bir sistem. İçindeUSENIX sempozyumu
işletim sistemi tasarımı ve uygulaması hakkında (OSDI 16) (s. 265–283). Abney, S. (2002). Önyükleme.
İçinde
Hesaplamalı derneğe ilişkin 40. yıllık toplantı tutanakları
dilbilim, hesaplamalı dilbilim için ilişki (s. 360–367). Anderberg, MR
(1973).Uygulamalar için küme analizi. Cambridge: Academic Press.
Azran, A. (2007). Buluşma algoritması: Markov rastgele yürüyüşleri ile çok sınıflı yarı denetimli öğrenme. İçinde 24.
uluslararası makine öğrenimi konferansının bildirileri (pp. 49–56). Bachman, P., Alsharif, O. ve
Precup, D. (2014). Sözde topluluklarla öğrenme. İçindeSinirsel gelişmeler
bilgi işleme sistemleri (s. 3365–3373). Bair, E. (2013). Yarı denetimli kümeleme
yöntemleri.Wiley Disiplinlerarası İncelemeler: Hesaplamalı İstatistik-
tikler, 5 (5), 349–361.
Balcan, MF, Blum, A. ve Yang, K. (2005). Ortak eğitim ve genişleme: Teori ve pratiğe köprü kurmaya doğru.
İçinde Sinirsel bilgi işleme sistemlerindeki gelişmeler (s. 89–96).
Baluja, S., Seth, R., Sivakumar, D., Jing, Y., Yagnik, J., Kumar, S., Ravichandran, D. ve Aly, M. (2008).
Video youtube için öneri ve keşif: Görünüm grafiğinde rastgele gezinme. İçindeTutanaklar
17. uluslararası dünya çapında web konferansı (s. 895–904). ACM. Barabási, AL (2016).Ağ bilimi.
Cambridge: Cambridge University Press.
Basu, S., Banerjee, A. ve Mooney, R. (2002). Tohumlama yoluyla yarı denetimli kümeleme. İçindeTutanak
19. uluslararası makine öğrenimi konferansı (s. 27–34).
Belkin, M., Matveeva, I. ve Niyogi, P. (2004). Büyük grafiklerde düzenleme ve yarı denetimli öğrenme. İçinde Hesaplamalı
öğrenme teorisi üzerine uluslararası konferans bildirileri (sayfa 624–638). Springer. Belkin, M.,
Niyogi, P. ve Sindhwani, V. (2005). Manifold regülasyonunda. İçinde10'uncu
Bildiriler uluslararası yapay zeka ve istatistik konferansı (sayfa 17–24).
Belkin, M., Niyogi, P. ve Sindhwani, V. (2006). Manifold düzenlileştirme: Öğrenme için geometrik bir
çerçeve etiketli ve etiketsiz örneklerden. Makine Öğrenimi Araştırmaları Dergisi, 7, 2399–2434.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 433
Ben-David, S., Lu, T., Pál, D. ve Sotáková, M. (2009). Düşük yoğunluklu ayırıcıları öğrenmek.
İçindeTutanak 12. uluslararası yapay zeka ve istatistik konferansı (s. 25–32).
Bengio, Y., Delalleau, O. ve Le Roux, N. (2006). Bölüm 11. Etiket yayılımı ve ikinci dereceden kriter. İçinde
O. Chapelle, B. Schölkopf ve A. Zien (Eds.), Yarı denetimli öğrenme (pp. 193–216). Cambridge: MIT Press.
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A. ve Raffel, C. (2019). Mixmatch: Bütünsel
yarı denetimli öğrenmeye yaklaşım. arXiv: 1905.02249.
Bishop, CM (2006). Örüntü tanıma ve makine öğrenimi. Berlin: Springer.
Blum, A. ve Chawla, S. (2001). Graphmincut kullanarak etiketli ve etiketsiz verilerden öğrenme.
İçindeBildiriler 18. uluslararası makine öğrenimi konferansının (s. 19–26).
Blum, A., Lafferty, J., Rwebangira, MR ve Reddy, R. (2004). Randomize kullanarak yarı denetimli
öğrenme mincuts. İçinde21. uluslararası makine öğrenimi konferansının bildirileri (s. 13).
Blum, A. ve Mitchell, T. (1998). Etiketli ve etiketlenmemiş verileri ortak eğitimle birleştirmek.
İçindeTutanaklar hesaplamalı öğrenme teorisi üzerine 11. yıllık konferans (s. 92–100). ACM.
Bruna, J., Zaremba, W., Szlam, A. ve LeCun, Y. (2014). Spektral ağlar ve yerel olarak bağlı
ağlar grafiklerde. İçindeUluslararası öğrenme, temsiller konferansı.
Chapelle, O., Chi, M. ve Zien, A. (2006a). Yarı denetimli SVM'ler için bir devam yöntemi. İçindeBildiriler
23. uluslararası makine öğrenimi konferansının (s. 185–192). Chapelle, O., Schölkopf, B. ve Zien, A.
(2006b). Yarı denetimli öğrenme (1. baskı). Cambridge: MIT
Basın.
Chapelle, O., Sindhwani, V. ve Keerthi, SS (2008). Yarı denetimli destek için optimizasyon
teknikleri vektör makineleri. Makine Öğrenimi Araştırmaları Dergisi, 9, 203–233.
Chapelle, O. ve Zien, A. (2005). Düşük yoğunluklu ayırma ile yarı denetimli sınıflandırma. İçindeTutanaklar
10. uluslararası yapay zeka ve istatistik çalıştayı (s. 57–64).
Chen, K. ve Wang, S. (2011). Birden fazla yarı üzerinde çalışarak düzenli artırma yoluyla yarı denetimli
öğrenme denetimli varsayımlar. Örüntü Analizi ve Makine Zekası Üzerine IEEE İşlemleri, 33 (1), 129–
143.
Chen, M., Chen, Y. ve Weinberger, KQ (2011). Tek görüntülü birlikte eğitim için otomatik özellik ayrıştırma.
İçinde 28. uluslararası makine öğrenimi konferansının bildirileri (s. 953–960). Chen, T. ve Guestrin, C.
(2016). Xgboost: Ölçeklenebilir bir ağaç güçlendirme sistemi. İçinde22. ACM'nin Tutanakları
SIGKDD uluslararası bilgi keşfi ve veri madenciliği konferansı (sayfa 785–794). ACM. Christoudias,
CM, Urtasun, R., Kapoorz, A. ve Darrell, T. (2009). Gürültülü algısal gözlemci ile birlikte eğitim
vations. İçindeBilgisayarla görme ve örüntü tanıma üzerine 2009 IEEE konferansının bildirileri (s.
2844– 2851). IEEE.
Collobert, R., Sinz, F., Weston, J. ve Bottou, L. (2006). Büyük ölçekli transdüktif SVM'ler.Journal of
Machine Öğrenme Araştırması, 7, 1687–1712.
Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K. ve Kuksa, P. (2011). Doğal lisan
sıfırdan işleme (neredeyse). Makine Öğrenimi Araştırmaları Dergisi, 12, 2493–2537.
Corduneanu, A. ve Jaakkola, T. (2003). Bilginin düzenlenmesi hakkında. İçinde19. konferansın bildirileri yapay
zekadaki belirsizlik üzerine (s. 151–158). Morgan Kaufmann Publishers Inc. Cortes, C. ve Mohri, M.
(2007). Dönüştürücü regresyon hakkında. İçindeSinirsel bilgi işlemedeki
gelişmeler sistemleri (s. 305–312).
Cozman, FG, Cohen, I. ve Cirelo, MC (2003) Karışım modellerinin yarı denetimli öğrenimi.
İçindeBildiriler makine öğrenimi üzerine 20. uluslararası konferansın (s. 99–106).
Culp, M. ve Michailidis, G. (2008). Öğrencileri yarı denetimli bir ortama genişletmek için yinelemeli bir
algoritma. Hesaplamalı ve Grafik İstatistik Dergisi, 17 (3), 545–571.
Dai, Z., Yang, Z., Yang, F., Cohen, WW ve Salakhutdinov, RR (2017). İyi yarı denetimli öğrenme
kötü bir gan gerektirir. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 6510–6520). d'Alché Buc,
F., Grandvalet, Y. ve Ambroise, C. (2002). Yarı denetimli marj artışı.Sinirsel Gelişmeler
Bilgi İşlem Sistemleri, 1, 553–560.
Dara, R., Kremer, SC ve Stacey, DA (2002). Etiketlenmemiş verilerin SOM'larla kümelenmesi sınıflandırmayı
iyileştirir etiketli gerçek dünya verileri. İçindeSinir ağları üzerine uluslararası ortak konferansın
bildirileri (Cilt 3, sayfa 2237–2242). IEEE.
Dasgupta, S., Littman, ML ve McAllester, DA (2002). Ortak eğitim için PAC genelleme sınırları.
İçinde Sinirsel bilgi işleme sistemlerindeki gelişmeler (s. 375–382).
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
434 Makine Öğrenimi (2020) 109: 373–440
Elsken, T., Metzen, JH ve Hutter, F. (2019). Sinir mimarisi araştırması: Bir anket.Journal of Machine
Öğrenme Araştırması, 20 (55), 1–21.
Erhan, D., Bengio, Y., Courville, A., Manzagol, PA, Vincent, P., & Bengio, S. (2010). Neden gözetimsiz?
ön eğitim derin öğrenmeye yardımcı olur mu? Makine Öğrenimi Araştırmaları Dergisi, 11, 625–660.
Feurer, M., Klein, A., Eggensperger, K., Springenberg, J., Blum, M. ve Hutter, F. (2015). Etkili ve sağlam
otomatik makine öğrenimi. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 2962–2970). Freund, Y.
ve Schapire, RE (1997). Çevrimiçi öğrenmenin karar-teorik genellemesi ve bir
uygulama artırmak için. Bilgisayar ve Sistem Bilimleri Dergisi, 55 (1), 119–139.
Geng, B., Tao, D., Xu, C., Yang, L. ve Hua, XS (2012). Ensemblemanifold
düzenlenmesi.IEEETransactions Örüntü Analizi ve Makine Zekası üzerine, 34 (6), 1227–1233.
Goldberg, AB, Zhu, X., Singh, A., Xu, Z. ve Nowak, RD (2009). Çok katlı yarı denetimli öğrenme.
İçinde 12. uluslararası yapay istihbarat ve istatistik konferansının bildirileri (s. 169–176). Goldman, S.
ve Zhou, Y. (2000) Etiketsiz verilerle denetimli öğrenmeyi geliştirmek. İçindeTutanak
17. uluslararası makine öğrenimi konferansı (s. 327–334). Goodfellow, I. (2017).NIPS 2016 öğreticisi:
Üretken düşmanca ağlar. arXiv: 1701.00160.
Goodfellow, I., Bengio, Y. ve Courville, A. (2016). Derin öğrenme. Cambridge: MIT Press. Goodfellow, I.,
Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. ve Bengio, Y.
(2014a). Üretken hasım ağları. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s.
2672– 2680).
Goodfellow, I., Shlens, J. ve Szegedy, C. (2014b). Düşman örneklerini açıklamak ve
kullanmak. arXiv: 1412.6572.
Grabner, H., Leistner, C., Bischof, H. (2008). Sağlam izleme için yarı denetimli çevrimiçi güçlendirme.İlerlemek-
10. Avrupa bilgisayarlı görü konferansının yazıları (s. 234–247).
Grandvalet, Y. ve Bengio, Y. (2005). Entropiminizasyon yoluyla yarı denetimli öğrenme. İçindeSinirsel
gelişmeler bilgi işleme sistemleri (s. 529–536).
Grandvalet, Y., D'AlchéBuc, F. Ve Ambroise, C. (2001). Yarı denetimli öğrenme için karışım modellerini
geliştirme. Yapay sinir ağları üzerine uluslararası konferans (sayfa 41–48).
Grira, N., Crucianu, M. ve Boujemaa, N. (2004). Denetimsiz ve yarı denetimsiz kümeleme: Kısa bir
anket. İçinde 7. ACM SIGMM uluslararası multimedya bilgi alma çalıştayı.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 435
Grover, A. ve Leskovec, J. (2016). node2vec: Ağlar için ölçeklenebilir özellik öğrenimi. İçindeTutanak 22.
ACM SIGKDD uluslararası bilgi keşfi ve veri madenciliği konferansı (s. 855–864). ACM.
Laine, S. ve Aila, T. (2017). Yarı denetimli öğrenme için zamansal birleştirme. İçindeUluslararası
konferans öğrenme, temsiller üzerine.
Lange, T., Law, MH, Jain, AK ve Buhmann, JM (2005). Kısıtlı ve etiketsiz verilerle öğrenme.
İçinde Bilgisayarla görme ve örüntü tanıma üzerine 2005 IEEE konferansının bildirileri (Cilt 1, sayfa
731– 738). IEEE.
Lawrence, ND ve Jordan, MI (2005). Gauss süreçleri aracılığıyla yarı denetimli öğrenme.
İçindeGelişmeler sinirsel bilgi işleme sistemleri (s. 753–760). LeCun, Y., Bengio, Y. ve Hinton, G.
(2015). Derin öğrenme.Doğa, 521 (7553), 436.
Lee, DH (2013). Sözde etiket: Derin sinir sistemi için basit ve etkili yarı denetimli öğrenme yöntemi ağlar.
İçindeTemsili öğrenmedeki zorluklar üzerine 30. ICML çalıştayı bildirileri (Cilt 3,
s. 2).
Leistner, C., Saffari, A., Santner, J., Bischof, H. (2009). Yarı denetimli rastgele ormanlar.
İçindeTutanaklar IEEE 12. uluslararası bilgisayar görüşü konferansı (s. 506–513). IEEE.
Levatić, J., Ceci, M., Kocev, D. ve Džeroski, S. (2017). Yarı denetimli sınıflandırma
ağaçları.Dergisi Akıllı Bilgi Sistemleri, 49 (3), 461–486.
Li, C., Xu, K., Zhu, J. ve Zhang, B. (2017). Üçlü üretken düşman ağları. arXiv: 1703.02291.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
436 Makine Öğrenimi (2020) 109: 373–440
Li, M. ve Zhou, ZH (2007). Teşhis edilmemiş örnekleri kullanarak makine öğrenimi teknikleriyle bilgisayar
destekli teşhisi geliştirin.Sistemler, İnsan ve Sibernetik Üzerine IEEE İşlemleri - Bölüm A: Sistemler ve
İnsanlar, 37 (6), 1088–1098.
Li, S. ve Fu, Y. (2013). Yarı denetimli sınıflandırma için b-eşleştirme kısıtlamasına sahip düşük sıralı kodlama. İçinde
Yapay istihbarat üzerine 23. uluslararası ortak konferansın bildirileri (s. 1472–1478).
Li, S. ve Fu, Y. (2015). Düşük sıralı kodlama yoluyla dengeli ve dengesiz grafikleri öğrenme.IEEE
İşlemleri Bilgi ve Veri Mühendisliği Üzerine, 27 (5), 1274–1287.
Li, YF ve Zhou, ZH (2015). Etiketsiz verilerin asla zarar görmemesi.Kalıp Üzerinde IEEE
İşlemleri Analiz ve Makine Zekası, 37 (1), 175–188.
Liu, B., Lee, WS, Yu, PS ve Li, X. (2002). Metin belgelerinin kısmen denetimli sınıflandırılması. İçinde
Makine öğrenimi üzerine 19. uluslararası konferansın bildirileri (Cilt 2, sayfa 387–394). Liu, G., Lin, Z. ve
Yu, Y. (2010a). Düşük sıralı gösterimle sağlam alt uzay bölümlemesi. İçindeBildiriler
27. uluslararası makine öğrenimi konferansının (pp. 663–670).
Liu, W. ve Chang, SF (2009). Grafiklerle sağlam çok sınıflı dönüştürücü öğrenme. İçindeTutanak
Bilgisayarla görme ve örüntü tanıma üzerine 2009 IEEE konferansı (s. 381–388). IEEE.
Liu, W., He, J. ve Chang, SF (2010b). Ölçeklenebilir yarı denetimli öğrenim için büyük grafik yapısı.
İçinde 27. uluslararası makine öğrenimi konferansının bildirileri (s. 679–686).
Liu, X., Song, M., Tao, D., Liu, Z., Zhang, L., Chen, C. ve Bu, J. (2013). Yarı denetimli düğüm bölme
rastgele orman yapımı. İçindeBilgisayarla görme ve örüntü tanıma üzerine 2013 IEEE konferansının
bildirileri (sayfa 492–499). IEEE.
Liu, W., Wang, J. ve Chang, SF (2012). Sağlam ve ölçeklenebilir grafik tabanlı yarı denetimli
öğrenme.İlerlemek-IEEE'nin girişleri, 100 (9), 2624–2638.
Liu, X., Song, M., Tao, D., Liu, Z., Zhang, L., Chen, C., vd. (2015). Sağlam ve rastgele orman
yapımı yarı denetimli düğüm bölme. Görüntü İşlemede IEEE İşlemleri, 24 (1), 471–483.
Lu, Q., Getoor, L. (2003). Bağlantı tabanlı sınıflandırma. İçinde20. uluslararası konferansın
bildirileri makine öğrenme (pp. 496–503).
Luo, Y., Zhu, J., Li, M., Ren, Y. ve Zhang, B. (2018). Yarı denetimli için öğretmen grafiklerinde pürüzsüz komşular
öğrenme. İçindeBilgisayarla görme ve örüntü tanıma üzerine IEEE konferansının bildirileri (s.
8896– 8905).
Maier, M., Luxburg, UV ve Hein, M. (2009). Grafik tabanlı kümelemede grafik yapısının
etkisi ölçümler. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 1025–1032).
Mallapragada, PK, Jin, R., Jain, AK ve Liu, Y. (2009). Semiboost: Yarı denetimli öğrenme için güçlendirme.
Örüntü Analizi ve Makine Zekası Üzerine IEEE İşlemleri, 31 (11), 2000–2014.
Melacci, S. ve Belkin, M. (2011). Laplacian, ilkel olarak eğitilmiş vektör makinelerini destekler.Journal of
Machine Öğrenme Araştırması, 12, 1149–1184.
Mihalcea, R. (2004). Kelime anlamındaki belirsizliği giderme için birlikte eğitim ve kendi kendine eğitim. İçinde8'inci Tutanaklar
hesaplamalı doğal dil öğrenimi konferansı.
Mikolov, T., Sutskever, I., Chen, K., Corrado, GS ve Dean, J. (2013) Kelimelerin dağıtılmış temsilleri
ve deyimler ve bunların bileşimi. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 3111–
3119).
Miyato, T., Maeda, SI, Koyama, M. ve Ishii, S. (2018). Sanal çekişmeli eğitim: Bir düzenlileştirme yöntemi
denetimli ve yarı denetimli öğrenme için. Örüntü Analizi ve Makine Zekası Üzerine IEEE İşlemleri, 41
(8), 1979–1993.
Netzer, Y., Wang, T., Coates, A., Bissacco, A., Wu, B. ve Ng, AY (2011). Doğal görüntülerde rakamları okuma
denetimsiz özellik öğrenimi. İçindeDerin öğrenme ve denetimsiz özellik öğrenimi üzerine NIPS atölyesi.
Neville, J. ve Jensen, D. (2000). İlişkisel verilerde yinelemeli sınıflandırma. İçinde17. AAAI
Tutanakları İlişkisel verilerden istatistiksel modeller öğrenme çalıştayı (s. 13–20).
Nigam, K. ve Ghani, R. (2000). Ortak eğitimin etkinliğini ve uygulanabilirliğini analiz etmek. İçindeBildiriler
9. uluslararası bilgi ve bilgi yönetimi konferansının (sayfa 86–93). ACM. Nigam, K., McCallum, A., Mitchell,
T. (2006). EM kullanarak yarı denetimli metin sınıflandırması. İçindeYarı-
Denetimli Öğrenim (s. 33–56).
Nigam, K., McCallum, AK, Thrun, S. ve Mitchell, T. (2000). Etiketli ve etiketsizden metin
sınıflandırması EM kullanan belgeler. Makine Öğrenimi, 39 (2), 103–134.
Niyogi, P. (2008). Manifold düzenlileştirme ve yarı denetimli öğrenme: Bazı teorik analizler.Dergi
Makine Öğrenimi Araştırmaları Bölümü, 14 (1), 1229–1250.
Odena, A. (2016). Üretken rakip ağlarla yarı denetimli öğrenme. arXiv: 1606.01583.
Oliver, A., Odena, A., Raffel, C., Çubuk, ED, Goodfellow, IJ (2018). Derin yarı yarıya gerçekçi
değerlendirme denetimli öğrenme algoritmaları. arXiv: 1804.09170.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 437
Oshiro, TM, Perez, PS ve Baranauskas, JA (2012). Rastgele bir ormanda kaç ağaç var? İçindeTutanaklar örüntü
tanımada makine öğrenimi ve veri madenciliği üzerine uluslararası atölye (s. 154–168). Springer.
Pang, B. ve Lee, L. (2004). Duygusal bir eğitim: Öznellik özetlemesini kullanarak duygu analizi
minimum kesintilere göre. İçindeHesaplamalı dilbilim derneği, hesaplamalı dilbilim derneği 42. yıllık
toplantısının bildirileri (s. 271).
Park, S., Park, J., Shin, S. ve Moon, I. (2018). Denetimli ve yarı denetimli öğrenim için çekişmeli bırakma.
İçinde Yapay istihbarat üzerine otuz ikinci AAAI konferansının bildirileri (s. 3917–3924). Paszke, A.,
Gross, S., Chintala, S., Chanan, G., Yang, E., DeVito, Z., Lin, Z., Desmaison, A., Antiga, L. ve
Lerer, A. (2017). Pytorch'ta otomatik farklılaşma. İçindeNIPS Autodiff atölyesi.
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., vd. (2011). Scikit-öğrenme:
Python'da makine öğrenimi. Makine Öğrenimi Araştırmaları Dergisi, 12, 2825–2830.
Perozzi, B., Al-Rfou, R. ve Skiena, S. (2014). Deepwalk: Sosyal temsillerin çevrimiçi öğrenimi. İçindePro-
Bilgi keşfi ve veri madenciliği üzerine 20. ACM SIGKDD uluslararası konferansının
temelleri (s. 701–710). ACM.
Pezeshki, M., Fan, L., Brakel, P., Courville, A. ve Bengio, Y. (2016). Merdiven ağını yeniden yapılandırma
mimari. İçinde33. uluslararası makine öğrenimi konferansının bildirileri (s. 2368–2376). Pitelis, N., Russell,
C. ve Agapito, L. (2013). Bir atlas olarak bir manifoldu öğrenmek. İçinde2013 Tutanakları
Bilgisayarla görme ve örüntü tanıma üzerine IEEE konferansı (pp. 1642–1649). IEEE.
Pitelis, N., Russell, C. ve Agapito, L. (2014). Denetimsiz bir atlas kullanarak yarı denetimli öğrenme. İçindePro-
Veritabanlarında makine öğrenimi ve bilgi keşfi üzerine ortak Avrupa konferansının temelleri
(sayfa 565–580). Springer.
Prémont-Schwarz, I., Ilin, A., Hao, T., Rasmus, A., Boney, R. Ve Valpola, H. (2017). Tekrarlayan merdiven ağları. İçinde: I.
Guyon, UV Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, R. Garnett (editörler), Sinirsel bilgi işleme
sistemlerindeki gelişmeler (pp. 6009–6019). Provost, F. ve Domingos, P. (2003). Olasılığa
dayalı sıralama için ağaç indüksiyonu.Makine Öğrenimi, 52 (3), 199–215.
Qi, Z., Tian, Y. ve Shi, Y. (2012). Yarı denetimli sınıflandırma için Laplacian ikiz destek vektör makinesi.
Sinir Ağları, 35, 46–53.
Rasmus, A., Berglund, M., Honkala, M., Valpola, H. ve Raiko, T. (2015). İle yarı denetimli öğrenme
merdiven ağları. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 3546–3554).
Ratle, F., Camps-Valls, G. ve Weston, J. (2010). Etkili hiperspektral için yarı denetimli sinir ağları görüntü
sınıflandırma. Yerbilimi ve Uzaktan Algılama Üzerine IEEE İşlemleri, 48 (5), 2271–2282.
Rifai, S., Dauphin, YN, Vincent, P., Bengio, Y. ve Muller, X. (2011a). Manifold tanjant sınıflandırıcısı.
İçinde Sinirsel bilgi işleme sistemlerindeki gelişmeler (s. 2294–2302).
Rifai, S., Vincent, P., Muller, X., Glorot, X. ve Bengio, Y. (2011b). Sözleşmeli otomatik kodlayıcılar: Açık
özellik çıkarma sırasında değişmezlik. İçinde28. uluslararası makine öğrenimi konferansının bildirileri (s.
833–840).
Rosenberg, C., Hebert, M. ve Schneiderman, H. (2005). Nesne algılamanın yarı denetimli kendi kendine eğitimi modeller.
İçindeBilgisayarla görme uygulamaları üzerine 7. IEEE çalıştayı bildirileri (s. 29–36). Roweis, ST ve
Saul, LK (2000). Yerel doğrusal gömme ile doğrusal olmayan boyut
azaltma.Bilim, 290 (5500), 2323–2326.
Sajjadi, M., Javanmardi, M. ve Tasdizen, T. (2016). Stokastik dönüşümler ve per-
derin yarı denetimli öğrenme için türbasyonlar. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler
(sayfa 1163–1171).
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A. ve Chen, X. (2016). Geliştirilmiş
teknikler gans eğitimi için. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 2234–2242).
Sen, P., Namata, G., Bilgic, M., Getoor, L., Galligher, B. ve Eliassi-Rad, T. (2008). Kolektif
sınıflandırma ağ verilerinde. AI Dergisi, 29 (3), 93.
Yerleşir, B. (2012). Aktif öğrenme.Yapay Zeka ve Makine Öğrenimi Üzerine Sentez Dersleri, 6 (1), 1-114.
Sheikhpour, R., Sarram, MA, Gharaghani, S. ve Chahooki, MAZ (2017). Yarı denetimli bir
anket özellik seçim yöntemleri. Örüntü Tanıma, 64, 141–158.
Shental, N. ve Domany, E. (2005). Yarı denetimli öğrenme - Bir istatistiksel fizik yaklaşımı.
İçindeBildiriler kısmen sınıflandırılmış eğitim verileriyle öğrenme üzerine 22. ICML çalıştayı.
Sindhwani, V., Niyogi, P. ve Belkin, M. (2005). Yarı denetimli öğrenmeye bir ortak düzenleme yaklaşımı
birden çok görünüme sahip. İçindeBirden çok görüşle öğrenme üzerine 22. ICML çalıştayı bildirileri (s.
74– 79).
Sindhwani, V. ve Rosenberg, DS (2008). Çok görüntülü öğrenme ve manifold ortak düzenleme için bir RKHS.
İçinde Makine öğrenimi üzerine 25. uluslararası konferansın bildirileri (s. 976–983).
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
438 Makine Öğrenimi (2020) 109: 373–440
Singh, A., Nowak, R., & Zhu, X. (2009) Etiketlenmemiş veriler: Şimdi yardımcı oluyor, şimdi yaramıyor. İçindeSinirsel gelişmeler
bilgi işleme sistemleri (s. 1513–1520).
Solomon, J., Rustamov, R., Guibas, L., & Butscher, A. (2014) Yarı denetimli Wasserstein yayılımı
öğrenme. İçindeMakine öğrenimi üzerine 31. uluslararası konferansın bildirileri (s. 306–314).
Springenberg, JT (2015). Kategorik üretici hasımlık ile denetimsiz ve yarı denetimli öğrenme
ağlar. arXiv: 1511.06390.
Srivastava, N., Hinton, GE, Krizhevsky, A., Sutskever, I. ve Salakhutdinov, R. (2014). Bırakma: basit bir yol
sinir ağlarının aşırı yüklenmesini önlemek için. Makine Öğrenimi Araştırmaları Dergisi, 15 (1), 1929–1958.
Subramanya, A. ve Bilmes, J. (2008). Metin sınıflandırması için yumuşak denetimli öğrenme. İçindeTutanaklar
doğal dil işlemede deneysel yöntemler konferansı, hesaplamalı dilbilim dernek (s. 1090–1099).
Talukdar, PP, Reisinger, J., Paşca, M., Ravichandran, D., Bhagat, R., & Pereira, F. (2008). Zayıf denetlenen
rastgele grafik yürüyüşleri kullanarak etiketli sınıf örneklerinin edinilmesi. İçindeDoğal dil işlemede ampirik
yöntemler üzerine konferansın bildirileri, hesaplamalı dilbilim derneği (s. 582–
590).
Tan, C., Lee, L., Tang, J., Jiang, L., Zhou, M. Ve Li, P. (2011). Sosyal içeren kullanıcı düzeyinde duyarlılık
analizi ağlar. İçindeBilgi keşfi ve veri madenciliği üzerine 17. ACM SIGKDD uluslararası konferansının
bildirileri (s. 1397–1405). ACM.
Tang, J., Qu, M., Wang, M., Zhang, M., Yan, J. ve Mei, Q. (2015). Satır: Büyük ölçekli bilgi ağı
katıştırma. İçinde24. dünya çapında web konferansı bildirileri, uluslararası dünya çapında web
konferansları yönlendirme komitesi (s. 1067–1077).
Tanha, J., van Someren, M. ve Afsarmanesh, H. (2012). Çok sınıflı yarı denetimli için bir adaboost algoritması
öğrenme. İçinde12. IEEE uluslararası veri madenciliği konferansının bildirileri (sayfa 1116–1121). IEEE.
Tanha, J., van Someren, M. ve Afsarmanesh, H. (2017). Karar ağacı sınıfı için yarı denetimli kendi kendine
eğitim siler. Uluslararası Makine Öğrenimi ve Sibernetik Dergisi, 8 (1), 355–370.
Tarvainen, A. ve Valpola, H. (2017) Ağırlık ortalamalı tutarlılık hedefleri yarı denetimli derinliği iyileştirir öğrenme
sonuçları. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (sayfa 1195–1204).
Thornton, C., Hutter, F., Hoos, HH ve Leyton-Brown, K. (2013) Auto-weka: Combined selection and
sınıflandırma algoritmalarının hiperparametre optimizasyonu. İçindeBilgi keşfi ve veri madenciliği
üzerine 19. ACM SIGKDD uluslararası konferansının bildirileri (s. 847–855). ACM.
Triguero, I., García, S. ve Herrera, F. (2015). Yarı denetimli öğrenme için kendinden etiketli teknikler:
Taksonomi, yazılım ve ampirik çalışma. Bilgi ve Bilgi Sistemleri, 42 (2), 245–284.
Triguero, I., González, S., Moyano, JM, García López, S., Alcalá Fernández, J., Luengo Martín, J., vd.
(2017). KEEL3.0: Veri belirlemede çok aşamalı analiz oluşturan açık kaynaklı bir yazılım.International
Journal of Computational Intelligence Systems, 10, 1238–1249.
Urner, R., Ben-David, S. ve Shalev-Shwartz, S. (2011). Etiketlenmemiş verilere erişim tahmin süresini hızlandırabilir.
İçinde 27. uluslararası makine öğrenimi konferansının bildirileri (s. 641–648). Valizadegan, H., Jin, R. ve
Jain, AK (2008). Çok sınıflı sınıflandırma için yarı denetimli güçlendirme. İçinde
Veritabanlarında makine öğrenimi ve bilgi keşfi üzerine ortak Avrupa konferansı (s. 522–537). Springer.
Vapnik, V. (1998). İstatistiksel öğrenme teorisi (Cilt 1). New York: Wiley. Verma, V., Lamb, A., Kannala, J.,
Bengio, Y. ve Lopez-Paz, D. (2019).İçin enterpolasyon tutarlılığı eğitimi
yarı denetimli öğrenme. arXiv: 1903.03825.
Vincent, P., Larochelle, H., Bengio, Y., Manzagol, PA (2008). Sağlam özellikleri ayıklama ve oluşturma
otomatik kodlayıcılardan arındırma ile. İçindeMakine öğrenimi üzerine 25. uluslararası konferansın
bildirileri (s. 1096–1103).
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Makine Öğrenimi (2020) 109: 373–440 439
Wager, S., Wang, S. ve Liang, PS (2013). Uyarlanabilir düzenlilik olarak bırakma eğitimi. İçindeSinirsel
gelişmeler bilgi işleme sistemleri (s. 351–359).
Wan, X. (2009). Diller arası duygu sınıflandırması için ortak eğitim. İçinde47. yıllık bildiriler
hesaplamalı dilbilim derneği ACL toplantısı (s. 235–243). Wang, D., Cui, P., Zhu, W. (2016). Yapısal derin
ağ yerleştirme. İçinde22. ACM'nin Tutanakları
SIGKDD uluslararası bilgi keşfi ve veri madenciliği konferansı (sayfa 1225–1234). ACM. Wang, F. ve
Zhang, C. (2008). Doğrusal mahalleler boyunca etiket yayılımı.Knowl ile IEEE İşlemleri
kenar ve Veri Mühendisliği, 20 (1), 55–67.
Wang, J., Jebara, T. ve Chang, SF (2008a). Alternatif küçültme yoluyla grafik iletimi.
İçindeBildiriler 25. uluslararası makine öğrenimi konferansının (sayfa 1144–1151).
Wang, J., Jebara, T. ve Chang, SF (2013). Açgözlü max-cut kullanarak yarı denetimli
öğrenme.Dergisi Makine Öğrenimi Araştırması, 14, 771–800.
Wang, J., Luo, SW ve Zeng. XH (2008b). Birlikte eğitim için rastgele bir alt uzay yöntemi. İçindeTutanaklar sinir
ağları üzerine IEEE uluslararası ortak konferansı (s. 195–200). IEEE. Wang, W. ve Zhou, ZH (2007).
Birlikte eğitim tarzı algoritmaları analiz etmek. İçinde18. Avrupa Bildirileri
makine öğrenimi konferansı (s. 454–465). Springer. Wang, W., Zhou, ZH (2010). Yeni bir ortak eğitim
analizi. İçinde27. uluslararası bildiri
makine öğrenimi konferansı (sayfa 1135–1142).
Weston, J., Ratle, F. ve Collobert, R. (2008). Yarı denetimli yerleştirme yoluyla derin öğrenme. İçindeBildiriler
25. uluslararası makine öğrenimi konferansının (sayfa 1168–1175). Wold, S., Esbensen, K. ve Geladi, P.
(1987). Temel bileşenler Analizi.Kemometri ve Akıllı
Laboratuvar Sistemleri, 2 (1–3), 37–52.
Wright, J., Yang, AY, Ganesh, A., Sastry, SS ve Ma, Y. (2009). Seyrek yoluyla sağlam yüz tanıma
temsil. Örüntü Analizi ve Makine Zekası Üzerine IEEE İşlemleri, 31 (2), 210–227.
Wu, XM, Li, Z., So, AM, Wright, J. ve Chang, SF (2012a). Kısmen emici rastgele öğrenme
yürüyüşleri. İçindeSinirsel bilgi işleme sistemlerindeki gelişmeler (s. 3077–3085). Wu, Z., Wu, J., Cao,
J. ve Tao, D. (2012b). Hysad: Yarı denetimli bir hibrit şilin saldırı dedektörü
güvenilir ürün önerisi. İçindeBilgi keşfi ve veri madenciliği üzerine 18.ACMSIGKDD uluslararası
konferans bildirileri (s. 985–993). ACM. Xu, C., Tao, D. ve Xu, C. (2013).Çok görüntülü öğrenim üzerine bir
anket. arXiv: 1304.5634.
Xu, J., He, H. ve Man, H. (2012). Sınıflandırma için DCPE ortak eğitimi.Nöro hesaplama, 86, 75–85.
Xu, L. ve Schuurmans, D. (2005) Denetimsiz ve yarı denetimli çok sınıflı destek vektör makineleri. İçinde
20. ulusal yapay istihbarat konferansının bildirileri (Cilt 5, p. 13). Yan, S. ve Wang, H. (2009). Seyrek temsil
yoluyla yarı denetimli öğrenme. İçinde2009 Tutanakları
SIAM uluslararası veri madenciliği konferansı (s. 792–801). SIAM.
Yang, Z., Cohen, WW ve Salakhutdinov, R. (2016) Grafik yerleştirme ile yarı denetimli öğrenmeyi yeniden gözden geçirme- dings.
İçinde33. uluslararası makine öğrenimi konferansının bildirileri (sayfa 40–48). Yarowsky, D. (1995).
Denetimli yöntemlerle rekabet eden denetimsiz kelime anlamındaki belirsizliği giderme. İçindeBildiriler
hesaplamalı dilbilim derneğinin 33. yıllık toplantısı, hesaplamalı dilbilim derneği (s. 189–196).
Yaslan, Y. ve Cataltepe, Z. (2010). İlgili rastgele alt uzaylarla birlikte eğitim.Nöro hesaplama, 73 (10), 1652–1661.
Yu, S., Krishnapuram, B., Rosales, R. ve Rao, RB (2011). Bayes ortak eğitimi.Makine Öğrenimi
Dergisi Araştırma, 12, 2649–2680.
Zhang, H., Cisse, M., Dauphin, YN ve Lopez-Paz, D. (2018). karışıklık: Ampirik risk minimizasyonunun ötesinde.
İçinde Öğrenme temsilleri üzerine uluslararası konferans.
Zhang, K., Kwok, JT ve Parvin, B. (2009). Büyük ölçekli yarı denetimli öğrenme için prototip vektör makinesi.
İçinde 26. uluslararası makine öğrenimi konferansının bildirileri (sayfa 1233–1240). Zhang, W. ve Zheng, Q.
(2009). Tsfs: Tek görüntülü ortak eğitim için yeni bir algoritma. İçinde2'in Tutanakları
Hesaplamalı bilimler ve optimizasyon üzerine IEEE uluslararası ortak konferansı (Cilt 1, sayfa 492–496). IEEE.
Zhou, D., Bousquet, O., Lal, TN, Weston, J. ve Schölkopf, B. (2004). Yerel ve küresel öğrenim
tutarlılık. İçindeSinirsel Bilgi İşleme Sistemlerindeki Gelişmeler (s. 321–328). Zhou, Y. ve Goldman, S.
(2004) Demokratik birlikte öğrenme. İçinde16. IEEE International'ın bildirileri
yapay zekaya sahip araçlar konferansı (s. 594–602). IEEE. Zhou, ZH (2012).Topluluk yöntemleri: Temeller
ve algoritmalar. Boca Raton: CRC Basın. Zhou, ZH ve Li, M. (2005a) Ortak eğitim ile yarı denetimli regresyon.
İçinde 19'uncu Tutanak
yapay istihbarat üzerine uluslararası ortak konferans (Cilt 5, sayfa 908–913).
Zhou, ZH ve Li, M. (2005b). Üçlü eğitim: Etiketlenmemiş verileri üç sınıflandırıcı kullanarak kullanma.IEEETransactions
Bilgi ve Veri Mühendisliği Üzerine, 17 (11), 1529–1541.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
440 Makine Öğrenimi (2020) 109: 373–440
Yayıncının Notu Springer Nature, yayınlanan haritalar ve kurumsal ilişkilerdeki yargı yetkisi iddiaları
konusunda tarafsız kalır.
123
Springer Nature'ın izniyle kullanım koşulları geçerlidir. Hakları saklıdır.
Şartlar ve koşullar
Springer Nature dergi içeriği, size Springer Nature Müşteri Hizmetleri Merkezi GmbH'nin
("Springer Nature") izniyle sunulmuştur.
Springer Nature, tüm telif hakkı, ticari ve hizmet markaları ve diğer mülkiyet bildirimlerinin muhafaza edilmesi
koşuluyla, araştırma makalelerinin küçük ölçekli kişisel, ticari olmayan kullanım için yazarlar, aboneler ve
yetkili kullanıcılar ("Kullanıcılar") tarafından makul miktarda paylaşılmasını destekler. Springer Nature dergi
içeriğine erişerek, paylaşarak, alarak veya başka bir şekilde kullanarak bu kullanım koşullarını ("Koşullar")
kabul etmiş olursunuz. Bu amaçlar için Springer Nature, akademik kullanımı (araştırmacılar ve öğrenciler
tarafından) ticari olmayan olarak kabul eder.
Bu Koşullar tamamlayıcı niteliktedir ve ilgili web sitesi hüküm ve koşullarına, ilgili site
lisansına veya kişisel aboneliğe ek olarak uygulanacaktır. Bu Koşullar, ilgili koşullar, bir site
lisansı veya kişisel bir abonelikle ilgili herhangi bir çelişki veya belirsizliğin önüne geçecektir
(yalnızca çelişki veya belirsizlik ölçüsünde). Creative Commons lisanslı makaleler için,
kullanılan Creative Commons lisansının koşulları geçerli olacaktır.
Springer Nature dergi içeriğine erişim sağlamak için kişisel verileri toplar ve kullanırız. Bu kişisel
verileri ayrıca ResearchGate ve Springer Nature bünyesinde dahili olarak kullanabiliriz ve
kararlaştırıldığı şekilde, izleme, analiz ve raporlama amacıyla anonim bir şekilde paylaşabiliriz. Gizlilik
Politikasında ayrıntılı olarak izninizi almadığımız sürece kişisel verilerinizi ResearchGate veya
Springer Nature şirketler grubu dışında başka şekilde ifşa etmeyeceğiz.
Kullanıcılar, Springer Nature dergi içeriğini ticari olmayan, küçük ölçekli kişisel kullanım için kullanabilirken,
Kullanıcıların şunları yapamayacağına dikkat etmek önemlidir:
1. bu tür içeriği, diğer kullanıcılara düzenli veya geniş ölçekte erişim sağlamak amacıyla veya erişim
kontrolünü atlatmanın bir yolu olarak kullanmak;
2. Bu tür içeriği, herhangi bir yargı alanında cezai veya yasal suç olarak kabul edilecek veya hukuki sorumluluğa yol
açacak veya başka bir şekilde yasa dışı olacak yerlerde kullanmak;
3. Yanlış veya yanıltıcı bir şekilde, Springer Nature tarafından yazılı olarak açıkça kabul edilmedikçe onay,
5. herhangi bir güvenlik özelliğini veya dışlayıcı protokolü geçersiz kılın; veya
6. Springer Nature ürün veya hizmetlerinin ikamesi veya Springer Nature dergi içeriğinin sistematik
bir veri tabanı oluşturmak için içeriği paylaşın.
Ticari kullanıma karşı kısıtlama uyarınca, Springer Nature, içeriğimizden gelir, telif hakkı, kira veya gelir
yaratan bir ürün veya hizmetin oluşturulmasına veya bunun hizmet için ödenen veya diğer ticari kazançların
bir parçası olarak dahil edilmesine izin vermez. Springer Nature dergi içeriği, kütüphaneler arası ödünç
verme için kullanılamaz ve kütüphaneciler, Springer Nature dergi içeriğini büyük ölçekte kendi kurumsal
havuzlarına veya başka herhangi bir kurumsal havuza yükleyemez.
Bu kullanım koşulları düzenli olarak gözden geçirilir ve herhangi bir zamanda değiştirilebilir. Springer Nature, bu
web sitesinde herhangi bir bilgi veya içerik yayınlamak zorunda değildir ve bunları veya özellikleri veya işlevleri
tamamen kendi takdirimize bağlı olarak, herhangi bir zamanda bildirimde bulunarak veya bulunmayarak kaldırabilir.
Springer Nature, bu lisansı herhangi bir zamanda iptal edebilir ve kaydedilmiş olan Springer Nature dergi içeriğinin
tüm kopyalarına erişimi kaldırabilir.
Springer Nature, yasaların izin verdiği en geniş kapsamda, Springer doğa günlüğü içeriğiyle ilgili
olarak Kullanıcılara açık veya zımni hiçbir garanti, beyan veya garanti vermez ve tüm taraflar, ticarete
elverişlilik veya yasaların dayattığı zımni garantileri veya garantileri reddeder ve bunlardan feragat
eder. herhangi bir özel amaç için uygunluk.
Lütfen bu hakların, üçüncü şahıslardan lisans alabilecek Springer Nature tarafından yayınlanan içerik, veri
veya diğer materyalleri otomatik olarak kapsamadığını unutmayın.
Springer Nature dergi içeriğimizi daha geniş bir kitleye veya düzenli olarak veya bu Şartlar tarafından açıkça izin verilmeyen
başka bir şekilde kullanmak veya dağıtmak isterseniz, lütfen şu adresten Springer Nature ile iletişime geçin:
onlineservice@springernature.com