You are on page 1of 4

3B Nesne Geriçatma Yöntemlerinin İncelemesi

A Survey of 3D Object Reconstruction Methods

Merve Gül KANTARCI, Berk GÖKBERK, Lale AKARUN


2022 30th Signal Processing and Communications Applications Conference (SIU) | 978-1-6654-5092-8/22/$31.00 ©2022 IEEE | DOI: 10.1109/SIU55565.2022.9864922

Bilgisayar Mühendisliği
Boğaziçi Üniversitesi
İstanbul, Türkiye
merve.kantarci@boun.edu.tr, berk.gokberk@boun.edu.tr, akarun@boun.edu.tr

Özetçe —Bu çalışmada bilgisayarlı görü alanında kullanılan Yöntemler arasındaki bir başka ana sınıflandırma ise girdi
güncel derin öğrenme tabanlı tek ve çoklu imgelerden 3-boyutlu imge sayısına göre yapılabilir. İmge sayısı bir olduğunda şekli
(3B) nesne geriçatma yöntemleri incelenmektedir. 3B geriçatma 3-boyutta tanımlamak için yeterince bilgi sağlanamadığından
yöntemleri genel olarak bir veya birden fazla 2-boyutlu imge gir- problemin çözülmesi çok zorlaşmaktadır. Engelmann vd. [27]
disi alıp, farklı şekil gösterimlerinde (voksel, örgü, nokta kümeleri tek imgeli geriçatma kalitesinin yeterli olmadığını ve öğrenilen
ve örtük fonksiyonlar) çıktılar üretmektedir. Bu bildiride, şekil
gösterimlerine göre grupladığımız yöntemlerin, derin yapay sinir
bir veri tabanından şekil seçilmesinin daha gerçekçi sonuçlar
ağı mimarileri, gözetimli ve gözetimsiz öğrenme mekanizmaları üreteceğini savunmuştur. Bazı çalışmalar [5], [12] ise insanla-
ve kullandıkları veri kümelerindeki geriçatma başarımları detaylı rın şekle dair ön bilgileriyle görselleştirme yapmasına benzer
olarak sunulmaktadır. bir mantık ile belirtik olarak şekil önsel bilgisi kullanmayı
önermiştir. Başka yöntemler çok sayıda imge kullanarak nes-
Anahtar Kelimeler—3B nesne geriçatma, 3B şekil gösterimleri, nenin geometrisini daha yüksek düzeyde betimlemek üzerine
derin öğrenme, bilgisayarla görme. odaklanır. Şekil 1a’daki gibi nesneyi birçok açıdan görmenin
Abstract—In this work, we provide a state-of-the-art survey
imgelerden sadece birini kullanarak tahmin yapmaya göre
of deep learning-based single- and multi-view 3D object reconst- avantajlı olduğu açıktır. Bununla birlikte birden fazla imge
ruction methods. In a broad sense, 3D reconstruction methods olması imgeler arası bilginin çıktıda nasıl daha iyi kaynaş-
take single or multiple 2D images to model shapes with different tırılacağına dair bir sorun ortaya çıkarmaktadır. Bazı çalışma-
representations such as: voxels, meshes, point clouds and implicit lar imgeleri ortalama havuzlama gibi daha basit yöntemlerle
functions. In this paper, the methods are grouped based on their kaynaştırmayı seçerken, daha karmaşık çözüm yöntemlerinin
shape representations and are presented in detail with their gerektiğini savunan çalışmalar [1]–[4] da vardır.
deep neural network architectures, supervision mechanisms and
reconstruction accuracies on benchmark datasets. Bu bildiride son yıllarda önerilmiş yöntemler çıktı gösterim
biçimine göre dört grupta incelenmiştir: voksel, örgü (mesh),
Keywords—3D object reconstruction, 3D shape representations, nokta kümeleri ve örtük fonksiyonlar (implicit functions).
deep learning, computer vision.
Şekil 1’ de bahsedilen gösterimlerden birer örnek sunulmuştur.
Yöntemlerin genel karşılaştırması Tablo I’de sunulmuştur.
I. G İR İ Ş
II. VOKSEL G ÖSTER İM İ
3-boyutlu (3B) geriçatma yöntemleri artırılmış gerçeklik,
robotik, 3-boyutlu tasarım ve bilgisayar oyunları gibi birçok 3B şekillerde voksel gösterimi, 2B imgelerdeki piksel
alandaki önemi dolayısıyla son yıllarda oldukça araştırılmış- gösteriminin karşılığı olarak düşünülebilir. Choy vd. [1]
tır [16]. Birçok geleneksel yöntem çok sayıda imge girdisi ara- çalışmasında vokselleri kullanmıştır. Bu çalışmada tümleştirme
sında yoğun ilişkilendirmeyle ve bilinen kamera parametreleri için 3D-convolutional-LSTM önerilmiştir. Bu mimari birçok
yardımıyla çalışır. Derin öğrenme yöntemleri ile daha az gir- 3D-LSTM ünitesinin şeklin farklı bölgelerindeki özellikleri
diyle daha verimli yöntemler sunulabilmektedir. Son yıllarda belirleyecek şekilde yerleştirilmesinden oluşmuştur. Kodlama
derin öğrenme tabanlı yöntemlerin yüksek geriçatma başarımı ve kodçözme için ise evrişimsel sinir ağları (CNN) kullanıl-
elde etmeleri de ilginin artmasına sebep olmuştur. 3B geri- mıştır. Bu çalışma geriçatıma derin öğrenme yöntemleriyle
çatma birçok alt başlıkta çalışılmaktadır. Yüz modellenmesi, yaklaşan en erken çalışmalardan biri olması sebebiyle reh-
3B insan vücut poz ve şekil tahmini, 3B sahnelerin geriçatımı ber nitelikte olmuştur. Takip eden çalışmalarda yinelemeli
bunlardan birkaçı olup bu makalede sadece nesne geriçatımı sinir ağları kullanan yaklaşımların yüksek zaman karmaşıklığı,
üzerinde durulmaktadır. Geriçatma işlemi birçok farklı girdi devşirime hassas olması ve uzun süreli bellek kaybı gibi
çeşidinden beslenebilir. Örneğin video karelerinden 3B şekil dezavantajları ele alınmıştır. Örneğin Yang vd. [2] AttSets
bilgisi elde etmek son zamanlarda sıkça kullanılmıştır. Bazı modelinde kaynaşım modülü geliştirmek için dikkat meka-
çalışmalar [27] birden çok nesneyi tek resimden modelleme nizması (attentional aggregation) kullanmıştır. Önerilen modül
üzerinde durmaktadır. Bu çalışmada sadece izole nesnelerin diğer kodlayıcı-kodçözücü mimarilerine de uygun olduğu için,
geriçatımı üzerine yapılan çalışmalara odaklanılmıştır. pratik olarak kullanım kolaylığı yüksektir.
Bu çalışmaya benzer olarak, Xie vd. [3] tek ve çoklu
978-1-6654-5092-8/22/$31.00 ©2022 IEEE imgeden geriçatma için tek bir sistem önermiştir. Bu sistemde,

Authorized licensed use limited to: Corporacion Universitaria de la Costa. Downloaded on April 20,2023 at 16:14:23 UTC from IEEE Xplore. Restrictions apply.
(a) Girdi İmgeler (b) Voksel (c) Örgü (d) Nokta Kümesi (e) Örtük Fonksiyonlar

Şekil 1: ShapeNet veri kümesinden sandalye kategorisine ait bir örneğin farklı açılardan 2B gösterimi ve 3B modelleri [28].

2B imgelerden CNN kodlayıcı-kodçözücü kullanılarak her bir maliyeti göz önüne alınarak orijinal model sadece üç bozulma
imge için 3B kaba gösterim elde edilir. Yöntemde sunulan bloğu ile sınırlandırılmıştır. Wen vd. [7] ise Pixel2Mesh’e çok-
çok-ölçekli içerik-farkındalıklı kaynaşım (multi-scale context- görüş bozulma ağı (multi-view deformation network) ekleye-
aware fusion) modülü kaba gösterimlerden skor haritası ürete- rek Pixel2Mesh++ ile çok-görüşten geriçatımı desteklemiştir.
rek her bir gösterimden en iyi tahmin edilen bölgeyi son çıktıda
Sketch2Mesh [13] 2B eskizlerden şekil üretmeyi hedef-
birleştirir. Yazarlar kaynaşım modülünde çok-ölçekli özellikleri
lemiştir. Model üretilen 3B şekilleri 2B düzleme izdüşürerek
kullanmanın sonuçları iyileştirdiğini göstermişlerdir.
nesnenin dış hatlarını elde edebilmiştir. 2B düzlemde oluşan
Güncel çalışmalardan birinde Yang vd. [5] geriçatımı önsel görüntü girdilerle çift yönlü 2B Chamfer uzaklığıyla karşılaştı-
(prior) şekil bilgisinden ayırmamayı savunmuştur. Önsel şekil rılabilmiştir. Çalışmada alternatif olarak modelin türevlenebilir
bilgisini elde etmek için eğitim sırasında 2B kodlayıcıdan elde gerçekleyiciyle 3B şekillerden 2B imgeler elde ettiği bir yön-
edilen özellik vektörleriyle bir bellek sözlüğü oluşturulmuştur. tem de sunulmuş ve izdüşüm yöntemiyle karşılaştırılmıştır. Bu
Her imge için sözlükten sabit sayıda seçim yapmaktansa ben- karşılaştırmanın olması türevlenebilir gerçekleyicilere çokça
zerlik puanına göre değişken sayıda şekil önseli seçilmesi önsel atıf yapılması sebebiyle önemlidir. İzdüşüm çok daha doğrudan
bilginin kalitesini arttırmıştır. Çalışma, şekil önseli kullan- olması, nicel değerlendirmelerde çoğunlukla üstün performans
manın perdelemenin fazla olduğu durumlarda ve nesnelerden göstermesi ve daha sağlam şekiller üretmesi nedeniyle tercih
yeterince özellik çıkarmanın zor olduğu şartlarda geriçatma edilmiştir. Bu çalışmanın bir dezavantajı izdüşüm için kamera
performansını önemli miktarda artırdığını göstermiştir. Wang parametrelerine ihtiyaç duyulmasıdır.
vd. [4] ise kaynaşım işlemini ayrı olarak ele almaktansa, bütün
modele yerleştirmenin önemini, geliştirdikleri 3B Dönüştü- IV. N OKTA K ÜMELER İ G ÖSTER İM İ
rücü (Transformer) modeli ile göstermiştir. Dönüştürücünün
kodlayıcısı 2B resimler arasındaki ilişkiyi öğrenirken, kodçö- Nokta kümeleri esnek olması sebebiyle çok kullanılan gös-
zücü 2B ve 3B gösterim arasındaki ilişkilendirmeye ve 3B terimlerden biri olmuştur. Bu gösterim gerçekleme (rendering)
hacimler arasındaki bütünsel ilişkiye odaklanmıştır. Bu birleşik ya da izdüşüm yardımıyla gözetimsiz yöntemlerin geliştirilme-
mimarinin artan görüş sayısıyla birlikte geriçatma kalitesini sinde sıkça kullanılmıştır. Insafutdinov ve Dosovitskiy [25]
karşılaştırılan yöntemlerden belirgin ölçüde daha fazla artırdığı türevlenebilir gerçekleyici kullanarak gözetimsiz öğrenmeyi
raporlanmıştır. önermiştir. Önerdikleri sinir ağı tahmin ettiği nesne ve kamera
parametrelerinden gerçekleyici ile 2B görünüm elde etmede
Voksel gösterimi ilk akla gelen gösterim olmakla birlikte kullanılmıştır. 2B görünüm ve girdi arasındaki ortalama kare
artan çözünürlük hesaplama karmaşıklığını kübik olarak artır- hatası ile model eğitilmiştir. Han vd. [24] ise gerçeklemenin
dığı için bellek ve zaman açısından dezavantajlıdır. Bu sorunu maliyetli olduğunu ve basit bir kayıp fonksiyonu yerine daha
ele alan Roth ve Richter [10] 3B şekilleri 2B imge dizisi olarak iyi tasarlanmış bir kayıp fonksiyonuyla izdüşümün yeterli ola-
ele alıp geriçatma işini çok-kanallı 2B imge tahmin etmeye cağını savunmuştur. Bu nedenle, kayıp fonksiyonu iki parçada
dönüştürmüştür. Önerdikleri yeni yöntemle diğer voksel gös- tasarlanmıştır. İlkiyle noktaları girdi silüet imgesinin üzerine
terimi kullanan çalışmalara görece daha yüksek çözünürlükte zorlarken, ikincisiyle izdüşürülen noktalar arasındaki uzaklığı
(2563 ) geriçatma sağlamışlardır. büyüterek silüeti düzgün kaplamak amaçlanmaktadır. Bu ça-
lışmada da kamera parametrelerine ihtiyaç duyulmuştur.
III. Ö RGÜ G ÖSTER İM İ Daha yakın zamanda, Chen vd. [26] pikselleri karşılaştır-
mak yerine, öncelikle girdi resimlerden 2B nokta örneklemiştir.
Örgü gösterimi bilgisayar grafiği alanındaki öneminden
Üretilen 3B nesneden elde edilen 2B izdüşümlerin örneklem ile
dolayı tercih edilen bir gösterimdir. Bununla birlikte göste-
eşleşmesi beklenmiştir. Örneklemi fazla sık yapmak modelin
rimin kesikli yapısından dolayı derin öğrenme ile modellemek
maliyetini artırırken, fazla seyrek yapmak nesneyi kaplamadığı
zordur. Pixel2Mesh [6] üçgen örgü gösterimi için kullanılan
için performansı düşürmektedir. Bu oranı iyi belirlemek için
düğüm, kenar ve yüzün çizge ile betimlenebileceğinden yola
Structure Adaptive Sampling yöntemini geliştirmişlerdir.
çıkarak çizge evrişimsel sinir ağları (GCN) kullanan bir mo-
deldir. Model elips şeklindeki örgüden başlayarak kademeli Nokta kümelerinin seyrek ve düzensiz gösterimi evrişim
olarak bozulma uygular. Son örgü çıktısına doğru düğüm yöntemleri için verimsiz olmaktadır. Liu vd. [23] bunun için
sayısı dolayısıyla gösterimin çözünürlüğü yükselmektedir. Bu nokta-voksel hibrit gösterimini önermiştir. Nokta-voksel CNN
tekrarlamalı yaklaşım bozulma blok sayısını artırarak değişken ile noktalar evrişim için vokselleştirilirken evrişim sonrası
çözünürlüğe ulaşmayı önerse de parametre sayısını artırmanın nokta kümesi formu elde edilmiştir. Zhou vd. [22] şekillere

Authorized licensed use limited to: Corporacion Universitaria de la Costa. Downloaded on April 20,2023 at 16:14:23 UTC from IEEE Xplore. Restrictions apply.
TABLO I: Yöntemlerin karşılaştırması. Girdi sayısı test zamanındaki girdi sayısını temsil etmektedir. NK: Nokta kümeleri, ÖF:
Örtük fonksiyonlar, S: Gözetimli öğrenme, U: Gözetimsiz öğrenme.
Çalışma Yıl Gözetim Veri Kümesi Girdi Sayısı Çıktı Mimari Kayıp Fonksiyonu
ShapeNet, ModelNet40,
Yang vd. [2] 2020 S Çoklu İmge Voksel Attentional Aggregation Cross entropy
Blobby
ShapeNet, Pix3D, Tek / Encoder - Decoder - Fusion
Xie vd. [3] 2020 S Voksel Cross entropy
Things3D Çoklu İmge Network- Refiner Network
Encoder - Memory Network Voxel-triplet +
Yang vd. [5] 2021 S ShapeNet, Pix3D Tek İmge Voksel
- LSTM - Decoder Cross entropy
Wang vd. [4] 2021 S ShapeNet Çoklu İmge Voksel Transformer Cross entropy
Encoder - GCN - Multi- Re-sampled Chamfer +
Wen vd. [7] 2019 S ShapeNet Çoklu İmge Örgü
view Deformation Network Surface normal
Chairs, Cars,
Guillard vd. [13] 2021 U Tek İmge Örgü Encoder - Decoder Chamfer
ShapeNet
Smooth silhouette +
Han vd. [24] 2020 U ShapeNet Tek İmge NK -
Structure-aware repulsion
Chen vd. [26] 2021 U ShapeNet Tek İmge NK Encoder - MLP Chamfer
Mescheder vd. [8] 2019 S ShapeNet Tek İmge ÖF Encoder - FCN Cross entropy
DTU MVS, Blended
Oeschle vd. [15] 2021 U Çoklu İmge ÖF MLP L1 + L2
MVS, SceneNet
ShapeNet, Encoder - Decoder - Attention
Trevithick vd. [18] 2021 U Çoklu İmge ÖF L2
Synthetic-NeRF Module - MLP
Tek / Implicit shape network + Neural
Yang vd. [12] 2021 U ShapeNet ÖF L1 + Cross entropy + L2
Çoklu İmge texture network + Hypernet network
Ibing vd. [21] 2021 S ShapeNet, PartNet Tek İmge ÖF Autoencoder - GAN - Decoder Cross entropy + Non-saturating

kademeli olarak gürültü ekleyip geliştirdikleri yayılma modeli aslına daha sadık sonuçlar elde ederek en yakın yüzey-noktası
ile gürültüden şekli tekrar üreten bir nokta-voksel CNN modeli gösteriminin gücünü, nokta kümelerine yüzey yerleştirme üze-
kullanmıştır. Önerilen model 2B imgelerden geriçatma için rinden kanıtlamıştır. Fakat girdi olarak 3B nokta kümesine
kullanılamamasına rağmen nokta kümelerinin şekil modelleme ihtiyaç duyması sebebiyle 2B imgelerden 3B geriçatıma uygun
için iyileştirilmesi açısından yol gösterici olmuştur. Model değildir.
verilen kısmi nokta kümelerinden çeşitli tamamlamalar öner-
Mildenhall vd. [17] NeRF ile her bir sahne için çoklu
mesiyle geriçatma için iyi bir temel oluşturduğunu göstermiştir.
imge, kamera konumları ve bakış açılarını kullanarak bir
sinir ağı eğitmeyi önermiştir. Algılayıcının ağırlıkları örtük
V. Ö RTÜK F ONKS İYONLAR ve sürekli olarak sahne modellemede kullanılabilmiştir. Bu
gösterime sinir radyans alanları (neural radiance fields) adı ve-
Örtük fonksiyonlar, değişken çözünürlükte çalışabilmeleri rilmiştir. Daha sonrasında, Trevithick ve Yang [18] NeRF’ün
sebebiyle 3B resimler için umut vadeden bir gösterimdir. genelleştirme kapasitesini artırmak için general radiance field
Voksel gösterimiyle karşılaştırıldığında verimlilikleri ön plana yöntemini (GRF) geliştirmiştir. GRF NeRF’teki 3B nokta
çıkmaktadır. Yüzey sınırları objenin iç ve dış kısmını doldur- konumlarını 3B özellik vektörleriyle değiştirmiştir. Oechsle vd.
makla özel olarak ilgilenmeyip sadece bu bölgeleri ayırmakla [15] ise Occupancy Networks ile önerilen örtük fonksiyonları
ilgilenir. Örtük fonksiyonlar ile bu yüzey sınırları belirlenebilir ve radyans alanlarını birleştirip UNISURF’ü önererek NeRF
ve daha pürüzsüz bir görünüm elde edilebilir. ile oluşan boşluklu yüzeyi pürüzsüzleştirmiştir. Eğitim sıra-
Mescheder vd. [8] Occupancy Networks modelini önererek sında ilk aşamada yüzey yeterince öğrenilmediği için hacim
betimleme için nesne yüzeyini belirlemek üzerine çalışmıştır. gerçeklemenin önemi baskındır. Kademeli olarak yüzey ger-
Modelin temel amacı 3B uzaydaki noktaları objenin içinde çeklemenin artırılmasıyla UNISURF eğitilmiştir.
ve dışında olarak ikili sınıflandırmadır. Bu sınıflandırma so- Hareketli en küçük kareler fonksiyonları nokta küme gös-
nucunda oluşan karar sınırı obje yüzeyini betimlemek için teriminden yüzey sınırlarını elde etmeye uygundur. Bu yüzey
kullanılmıştır. Peng vd. [9] ise Convolutional Occupancy gösterimini kullanan Liu vd. [11] girdi nokta kümelerinden
Networks ile verilen 3B girdiyi tek bir 2B düzlemde, çoklu 2B önce octree ara gösterimini oluşturmuştur. Çalışma ara gös-
düzlemde ya da 3B düzlemde kodlamak için üç yeni kodlayıcı terimden yüzey elde etmek ile ara gösterim sonrası üretilen
önermiştir. Böylelikle orijinal modele göre yerel özellikleri nokta kümesinden yüzey elde etmeyi karşılaştırarak ayrıntılı
daha iyi kodlayarak daha zengin bir gösterim sunulduğu için nokta kümesi üretmenin avantajını kanıtlamıştır.
ikili sınıflandırmadan sorumlu ağın daha hafif bir formu ye-
terli olmuştur. 3B girdiler için geliştirilmiş modelle geriçatma Yang vd. [12] örtük yüzey fonksiyonları öğrenirken ağ-
kalitesinin iyileştirilmesinin yanı sıra eğitim hızı artırılmıştır. ların önsel bilgisinin klasik eğitim yöntemleriyle yeterince
işlenemediğini açıklamıştır. Bunun için öğrenilen önsel şekil
Venkatesh vd. [14] sadece kapalı formlu değil açık formlu bilgilerini optimize etme üzerine çalışmıştır. Yöntem genel-
şekilleri de modelleyebilme üzerinde durmuştur. Bunun için leştirilmiş bir formda sunulduğu için birçok modele ve alt
verilen bir 3B noktayı yüzey üzerindeki en yakın 3B noktaya göreve uyarlanabileceği savunulmuştur. Ibing vd. [21] 3B
eşleyen bir en yakın yüzey-noktası gösterimi tanımlamışlar- nesneleri betimlemek için bütünsel tek bir fonksiyon yerine
dır. Geliştirilen model (CSPNet), Convolutional Occupancy birden fazla yerel fonksiyon kullanmayı önermiştir. Otokodla-
Networks’ün kodlayıcısıyla çıkarılan 3B özellik vektörü yar- yıcı aracılığıyla 3B nesneler örtük fonksiyon ızgarası olarak
dımıyla sorgu noktalarına en yakın yüzey-noktalarını tahmin kodlanmıştır. Çekişmeli üretici ağlar (GAN) otokodlayıcının
etmiştir. CSPNet açık formlu şekilleri modelleme üzerinde gizli uzayından şekil üretmeyi öğrenmek için kullanılmıştır.

Authorized licensed use limited to: Corporacion Universitaria de la Costa. Downloaded on April 20,2023 at 16:14:23 UTC from IEEE Xplore. Restrictions apply.
GAN’ın kapasitesi birden çok örtük fonksiyon kullanılması [5] S. Yang, M. Xu, H. Xie, S. Perry, and J. Xia, “Single-View 3D Object
sebebiyle geniştir. Ayrıca bu tür bir gösterim nesnelerin çok Reconstruction From Shape Priors in Memory,” in Proceedings of the
parçalı yapısına uyduğu için bölgesel üretime izin verir. CVPR, Jun. 2021, pp. 3152–3161.
[6] N. Wang, Y. Zhang, Z. Li, Y. Fu, W. Liu, and Y.-G. Jiang, “Pixel2Mesh:
Zheng vd. [19] yorumlanabilirlik ve girdi ile gösterimi Generating 3D Mesh Models from Single RGB Images,” in Proceedings
ilişkilendirme problemleriyle ilgilenmiştir. Örtük şablon olarak of the ECCV, Part XI, 2018, vol. 11215, pp. 55–71.
adlandırdıkları kategorileri en genel formlarında temsil eden [7] C. Wen, Y. Zhang, Z. Li and Y. Fu, "Pixel2Mesh++: Multi-View 3D
Mesh Generation via Deformation," in Proceedings of the ICCV, 2019,
örtük fonksiyonları öğrenmeyi önermişlerdir. Örtük şablondan pp. 1042-1051.
şekil onarımı için bir bükme fonksiyonuyla girdi noktalarının [8] L. Mescheder, M. Oechsle, M. Niemeyer, S. Nowozin and A. Geiger,
kanonik konumlarına eşlenmesi gerekmiştir. Benzer şekilde, "Occupancy Networks: Learning 3D Reconstruction in Function Space,"
Deng vd. [20] bozulmuş örtük fonksiyonları (deformed impli- in Proceedings of the CVPR, 2019, pp. 4455-4465.
cit functions) geliştirerek ilişkilendirme problemini ele almıştır. [9] S. Peng, M. Niemeyer, L. M. Mescheder, M. Pollefeys, and A. Geiger,
Önce kategori için bir şablon öğrenmeyi ve sonrasında nesneler “Convolutional Occupancy Networks,” in Proceedings of the ECCV, Part
için bozulma ve düzeltme alanını öğrenmeyi savunmuştur. III, 2020, vol. 12348, pp. 523–540.
[10] S. Roth and S. R. Richter, "Matryoshka Networks: Predicting 3D
Geometry via Nested Shape Layers," in Proceedings of the CVPR, 2018,
VI. S ONUÇ pp. 1936-1944.
[11] S. -L. Liu, H. -X. Guo, H. Pan, P. -S. Wang, X. Tong and Y. Liu,
İmgeden 3B geriçatma birçok zorluğu olan karmaşık bir "Deep Implicit Moving Least-Squares Functions for 3D Reconstruction,"
problemdir. Bu zorlukların aşılmasında modelleme, yöntem, in Proceedings of the CVPR, 2021, pp. 1788-1797.
girdi çeşidi konusunda birçok farklı yaklaşım denenmiştir. Bu [12] M. Yang, Y. Wen, W. Chen, Y. Chen and K. Jia, "Deep Optimized
yaklaşımlardan güncel olanları en çok karşılaştırıldıkları çalış- Priors for 3D Shape Modeling and Reconstruction," in Proceedings of
malar ile birlikte açıklanmıştır. Güncel çalışmalarda pürüzsüz the CVPR, 2021, pp. 3268-3277.
bir görünüm elde etmek ve yüksek çözünürlükte maliyeti [13] B. Guillard, E. Remelli, P. Yvernay, and P. Fua, “Sketch2Mesh: Re-
düşürmek için örtük fonksiyonlar başarıyla kullanmıştır fakat constructing and Editing 3D Shapes From Sketches,” in Proceedings of
the ICCV, Oct. 2021, pp. 13023–13032.
henüz üretilen şekiller gerçek modellerin keskinliğine erişeme-
[14] R. Venkatesh et al., “Deep Implicit Surface Point Prediction Networks,”
mektedir. Birçok çalışmanın kapalı formlu şekiller üzerinde in Proceedings of the ICCV, Oct. 2021, pp. 12653–12662.
çalışması da üretim kapasitesini düşürmektedir. 3B referans- [15] M. Oechsle, S. Peng, and A. Geiger, “UNISURF: Unifying Neural
lara ihtiyaç duymadan yeni şekillere adaptasyonu artırmak Implicit Surfaces and Radiance Fields for Multi-View Reconstruction,”
için yöntemlerin bazıları gerçeklemeden faydalanır. Alternatif in Proceedings of the ICCV, Oct. 2021, pp. 5589–5599.
olan izdüşürme maliyet açısından daha avantajlı çözümler [16] G. Fahim, K. Amin, and S. Zarif, “Single-View 3D reconstruction: A
sunar fakat başarım sağlamak için iyi düşünülmüş öğrenim Survey of deep learning methods,” Comput. Graph., vol. 94, pp. 164–190,
yöntemleriyle kullanılmaları gerekmektedir. Uygulanabilirliği 2021.
artırmak için ise yapay veri kümelerindense gerçekçi imgeler- [17] B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamo-
orthi, and R. Ng, “NeRF: Representing Scenes as Neural Radiance Fields
den beslenebilir yöntemler gerekmektedir. Perdelemenin fazla for View Synthesis,” in ECCV 2020, vol. 12346, pp. 405–421.
olduğu ya da imgede nesnenin ön plana çıkmadığı bu tür veri [18] A. Trevithick and B. Yang, “GRF: Learning a General Radiance Field
kümelerinde başarım elde etmek için kodlayıcı modülünün for 3D Representation and Rendering,” in Proceedings of the ICCV, Oct.
tasarımı önemli bir role sahiptir. 2021, pp. 15182–15192.
[19] Z. Zheng, T. Yu, Q. Dai, and Y. Liu, “Deep Implicit Templates for
Çalışmalardan bazıları renk/desen bilgisini aktarmaktan 3D Shape Representation,” in Proceedings of the CVPR, Jun. 2021, pp.
detaylı olarak bahsetmiştir. Özellikle radyans alanları kullanan 1429–1439.
modellerde RGB değerlerinin de onarımına dikkat edilmiştir [20] Y. Deng, J. Yang, and X. Tong, “Deformed Implicit Field: Modeling
[15], [17], [18]. Bir başka çalışmada [25] nokta kümeleri 3D Shapes With Learned Dense Correspondence,” in Proceedings of the
gösterilirken 3B konumuna ek olarak renk sinyali de veril- CVPR, Jun. 2021, pp. 10286–10296.
miştir. Bazı alt çalışmalar için, örneğin nesne tanıma, kanonik [21] M. Ibing, I. Lim, and L. Kobbelt, “3D Shape Generation With Grid-
form gibi daha basit gösterimler yeterli olduğundan renk Based Implicit Functions,” in Proceedings of the CVPR, Jun. 2021, pp.
13559–13568.
geriçatımının bir zorunluluk olduğu söylenemez. Fakat çok
[22] L. Zhou, Y. Du, and J. Wu, “3D Shape Generation and Completion
fazla çalışmanın konu üzerinde durmadığı göz önüne alındı- Through Point-Voxel Diffusion,” in Proceedings of the ICCV, Oct. 2021,
ğında, daha aslına sadık geriçatma gerektiren uygulamalar için pp. 5826–5835.
renk/desen aktarımında detaylı araştırmalara ihtiyaç duyulduğu [23] Z. Liu, H. Tang, Y. Lin, and S. Han, “Point-Voxel CNN for Efficient
söylenebilir. 3D Deep Learning,” in Advances in NeurIPS, 2019, vol. 32.
[24] Z. Han, C. Chen, Y.-S. Liu, and M. Zwicker, “DRWR: A Differentiable
Renderer without Rendering for Unsupervised 3D Structure Learning
K AYNAKLAR from Silhouette Images,” in Proceedings of the 37th ICML, 2020, vol.
[1] C. B. Choy, D. Xu, J. Gwak, K. Chen, and S. Savarese, “3D-R2N2: A 119, pp. 3994–4005.
Unified Approach for Single and Multi-view 3D Object Reconstruction,” [25] E. Insafutdinov and A. Dosovitskiy, “Unsupervised Learning of Shape
in ECCV, vol. 9912, pp. 628–644. and Pose with Differentiable Point Clouds,” in Advances in NeurIPS,
[2] B. Yang, S. Wang, A. Markham, and N. Trigoni, “Robust Attentional 2018, vol. 31.
Aggregation of Deep Feature Sets for Multi-view 3D Reconstruction,” [26] C. Chen, Z. Han, Y.-S. Liu, and M. Zwicker, “Unsupervised Learning
Int. J. Comput. Vis., vol. 128, no. 1, pp. 53–73, 2020. of Fine Structure Generation for 3D Point Clouds by 2D Projections
[3] H. Xie, H. Yao, S. Zhang, S. Zhou, and W. Sun, “Pix2Vox++: Multi- Matching,” in Proceedings of the ICCV, Oct. 2021, pp. 12466–12477.
scale Context-aware 3D Object Reconstruction from Single and Multiple [27] F. Engelmann, K. Rematas, B. Leibe, and V. Ferrari, “From Points to
Images,” Int. J. Comput. Vis., vol. 128, no. 12, pp. 2919–2935, 2020. Multi-Object 3D Reconstruction,” in CVPR, Jun. 2021, pp. 4588–4597.
[4] D. Wang et al., “Multi-View 3D Reconstruction With Transformers,” in [28] A. X. Chang et al., “ShapeNet: An Information-Rich 3D Model Repo-
Proceedings of the ICCV, Oct. 2021, pp. 5722–5731. sitory,” Stanford University — Technical report arXiv:1512.03012, 2015.

Authorized licensed use limited to: Corporacion Universitaria de la Costa. Downloaded on April 20,2023 at 16:14:23 UTC from IEEE Xplore. Restrictions apply.

You might also like