A Survey of 3D Object Reconstruction Methods PDF

3B Nesne Geriçatma Yöntemlerinin İncelemesi
A Survey of 3D Object Reconstruction Methods
Merve Gül KANTARCI, Berk GÖKBERK, Lale AKARUN

2022 30th Signal Processing and Communications Applications Conference (SIU) | 978-1-6654-5092-8/22/$31.00 ©2022 IEEE | DOI: 10.1109/SIU55565.2022.9864922
Bilgisayar Mühendisliği
Boğaziçi Üniversitesi
İstanbul, Türkiye
merve.kantarci@boun.edu.tr, berk.gokberk@boun.edu.tr, akarun@boun.edu.tr
Özetçe —Bu çalışmada bilgisayarlı görü alanında kullanılan Yöntemler arasındaki bir başka ana sınıflandırma ise girdi
güncel derin öğrenme tabanlı tek ve çoklu imgelerden 3-boyutlu imge sayısına göre yapılabilir. İmge sayısı bir olduğunda şekli
(3B) nesne geriçatma yöntemleri incelenmektedir. 3B geriçatma 3-boyutta tanımlamak için yeterince bilgi sağlanamadığından
yöntemleri genel olarak bir veya birden fazla 2-boyutlu imge gir- problemin çözülmesi çok zorlaşmaktadır. Engelmann vd. [27]
disi alıp, farklı şekil gösterimlerinde (voksel, örgü, nokta kümeleri tek imgeli geriçatma kalitesinin yeterli olmadığını ve öğrenilen
ve örtük fonksiyonlar) çıktılar üretmektedir. Bu bildiride, şekil
gösterimlerine göre grupladığımız yöntemlerin, derin yapay sinir
bir veri tabanından şekil seçilmesinin daha gerçekçi sonuçlar
ağı mimarileri, gözetimli ve gözetimsiz öğrenme mekanizmaları üreteceğini savunmuştur. Bazı çalışmalar [5], [12] ise insanla-
ve kullandıkları veri kümelerindeki geriçatma başarımları detaylı rın şekle dair ön bilgileriyle görselleştirme yapmasına benzer
olarak sunulmaktadır. bir mantık ile belirtik olarak şekil önsel bilgisi kullanmayı
önermiştir. Başka yöntemler çok sayıda imge kullanarak nes-
Anahtar Kelimeler—3B nesne geriçatma, 3B şekil gösterimleri, nenin geometrisini daha yüksek düzeyde betimlemek üzerine
derin öğrenme, bilgisayarla görme. odaklanır. Şekil 1a’daki gibi nesneyi birçok açıdan görmenin
Abstract—In this work, we provide a state-of-the-art survey
imgelerden sadece birini kullanarak tahmin yapmaya göre
of deep learning-based single- and multi-view 3D object reconst- avantajlı olduğu açıktır. Bununla birlikte birden fazla imge
ruction methods. In a broad sense, 3D reconstruction methods olması imgeler arası bilginin çıktıda nasıl daha iyi kaynaş-
take single or multiple 2D images to model shapes with different tırılacağına dair bir sorun ortaya çıkarmaktadır. Bazı çalışma-
representations such as: voxels, meshes, point clouds and implicit lar imgeleri ortalama havuzlama gibi daha basit yöntemlerle
functions. In this paper, the methods are grouped based on their kaynaştırmayı seçerken, daha karmaşık çözüm yöntemlerinin
shape representations and are presented in detail with their gerektiğini savunan çalışmalar [1]–[4] da vardır.
deep neural network architectures, supervision mechanisms and
reconstruction accuracies on benchmark datasets. Bu bildiride son yıllarda önerilmiş yöntemler çıktı gösterim
biçimine göre dört grupta incelenmiştir: voksel, örgü (mesh),
Keywords—3D object reconstruction, 3D shape representations, nokta kümeleri ve örtük fonksiyonlar (implicit functions).
deep learning, computer vision.
Şekil 1’ de bahsedilen gösterimlerden birer örnek sunulmuştur.
Yöntemlerin genel karşılaştırması Tablo I’de sunulmuştur.
I. G İR İ Ş
II. VOKSEL G ÖSTER İM İ
3-boyutlu (3B) geriçatma yöntemleri artırılmış gerçeklik,
robotik, 3-boyutlu tasarım ve bilgisayar oyunları gibi birçok 3B şekillerde voksel gösterimi, 2B imgelerdeki piksel
alandaki önemi dolayısıyla son yıllarda oldukça araştırılmış- gösteriminin karşılığı olarak düşünülebilir. Choy vd. [1]
tır [16]. Birçok geleneksel yöntem çok sayıda imge girdisi ara- çalışmasında vokselleri kullanmıştır. Bu çalışmada tümleştirme
sında yoğun ilişkilendirmeyle ve bilinen kamera parametreleri için 3D-convolutional-LSTM önerilmiştir. Bu mimari birçok
yardımıyla çalışır. Derin öğrenme yöntemleri ile daha az gir- 3D-LSTM ünitesinin şeklin farklı bölgelerindeki özellikleri
diyle daha verimli yöntemler sunulabilmektedir. Son yıllarda belirleyecek şekilde yerleştirilmesinden oluşmuştur. Kodlama
derin öğrenme tabanlı yöntemlerin yüksek geriçatma başarımı ve kodçözme için ise evrişimsel sinir ağları (CNN) kullanıl-
elde etmeleri de ilginin artmasına sebep olmuştur. 3B geri- mıştır. Bu çalışma geriçatıma derin öğrenme yöntemleriyle
çatma birçok alt başlıkta çalışılmaktadır. Yüz modellenmesi, yaklaşan en erken çalışmalardan biri olması sebebiyle reh-
3B insan vücut poz ve şekil tahmini, 3B sahnelerin geriçatımı ber nitelikte olmuştur. Takip eden çalışmalarda yinelemeli
bunlardan birkaçı olup bu makalede sadece nesne geriçatımı sinir ağları kullanan yaklaşımların yüksek zaman karmaşıklığı,
üzerinde durulmaktadır. Geriçatma işlemi birçok farklı girdi devşirime hassas olması ve uzun süreli bellek kaybı gibi
çeşidinden beslenebilir. Örneğin video karelerinden 3B şekil dezavantajları ele alınmıştır. Örneğin Yang vd. [2] AttSets
bilgisi elde etmek son zamanlarda sıkça kullanılmıştır. Bazı modelinde kaynaşım modülü geliştirmek için dikkat meka-
çalışmalar [27] birden çok nesneyi tek resimden modelleme nizması (attentional aggregation) kullanmıştır. Önerilen modül
üzerinde durmaktadır. Bu çalışmada sadece izole nesnelerin diğer kodlayıcı-kodçözücü mimarilerine de uygun olduğu için,
geriçatımı üzerine yapılan çalışmalara odaklanılmıştır. pratik olarak kullanım kolaylığı yüksektir.
Bu çalışmaya benzer olarak, Xie vd. [3] tek ve çoklu
978-1-6654-5092-8/22/$31.00 ©2022 IEEE imgeden geriçatma için tek bir sistem önermiştir. Bu sistemde,
Authorized licensed use limited to: Corporacion Universitaria de la Costa. Downloaded on April 20,2023 at 16:14:23 UTC from IEEE Xplore. Restrictions apply.
(a) Girdi İmgeler (b) Voksel (c) Örgü (d) Nokta Kümesi (e) Örtük Fonksiyonlar
Şekil 1: ShapeNet veri kümesinden sandalye kategorisine ait bir örneğin farklı açılardan 2B gösterimi ve 3B modelleri [28].
2B imgelerden CNN kodlayıcı-kodçözücü kullanılarak her bir maliyeti göz önüne alınarak orijinal model sadece üç bozulma
imge için 3B kaba gösterim elde edilir. Yöntemde sunulan bloğu ile sınırlandırılmıştır. Wen vd. [7] ise Pixel2Mesh’e çok-
çok-ölçekli içerik-farkındalıklı kaynaşım (multi-scale context- görüş bozulma ağı (multi-view deformation network) ekleye-
aware fusion) modülü kaba gösterimlerden skor haritası ürete- rek Pixel2Mesh++ ile çok-görüşten geriçatımı desteklemiştir.
rek her bir gösterimden en iyi tahmin edilen bölgeyi son çıktıda
Sketch2Mesh [13] 2B eskizlerden şekil üretmeyi hedef-
birleştirir. Yazarlar kaynaşım modülünde çok-ölçekli özellikleri
lemiştir. Model üretilen 3B şekilleri 2B düzleme izdüşürerek
kullanmanın sonuçları iyileştirdiğini göstermişlerdir.
nesnenin dış hatlarını elde edebilmiştir. 2B düzlemde oluşan
Güncel çalışmalardan birinde Yang vd. [5] geriçatımı önsel görüntü girdilerle çift yönlü 2B Chamfer uzaklığıyla karşılaştı-
(prior) şekil bilgisinden ayırmamayı savunmuştur. Önsel şekil rılabilmiştir. Çalışmada alternatif olarak modelin türevlenebilir
bilgisini elde etmek için eğitim sırasında 2B kodlayıcıdan elde gerçekleyiciyle 3B şekillerden 2B imgeler elde ettiği bir yön-
edilen özellik vektörleriyle bir bellek sözlüğü oluşturulmuştur. tem de sunulmuş ve izdüşüm yöntemiyle karşılaştırılmıştır. Bu
Her imge için sözlükten sabit sayıda seçim yapmaktansa ben- karşılaştırmanın olması türevlenebilir gerçekleyicilere çokça
zerlik puanına göre değişken sayıda şekil önseli seçilmesi önsel atıf yapılması sebebiyle önemlidir. İzdüşüm çok daha doğrudan
bilginin kalitesini arttırmıştır. Çalışma, şekil önseli kullan- olması, nicel değerlendirmelerde çoğunlukla üstün performans
manın perdelemenin fazla olduğu durumlarda ve nesnelerden göstermesi ve daha sağlam şekiller üretmesi nedeniyle tercih
yeterince özellik çıkarmanın zor olduğu şartlarda geriçatma edilmiştir. Bu çalışmanın bir dezavantajı izdüşüm için kamera
performansını önemli miktarda artırdığını göstermiştir. Wang parametrelerine ihtiyaç duyulmasıdır.
vd. [4] ise kaynaşım işlemini ayrı olarak ele almaktansa, bütün
modele yerleştirmenin önemini, geliştirdikleri 3B Dönüştü- IV. N OKTA K ÜMELER İ G ÖSTER İM İ
rücü (Transformer) modeli ile göstermiştir. Dönüştürücünün
kodlayıcısı 2B resimler arasındaki ilişkiyi öğrenirken, kodçö- Nokta kümeleri esnek olması sebebiyle çok kullanılan gös-
zücü 2B ve 3B gösterim arasındaki ilişkilendirmeye ve 3B terimlerden biri olmuştur. Bu gösterim gerçekleme (rendering)
hacimler arasındaki bütünsel ilişkiye odaklanmıştır. Bu birleşik ya da izdüşüm yardımıyla gözetimsiz yöntemlerin geliştirilme-
mimarinin artan görüş sayısıyla birlikte geriçatma kalitesini sinde sıkça kullanılmıştır. Insafutdinov ve Dosovitskiy [25]
karşılaştırılan yöntemlerden belirgin ölçüde daha fazla artırdığı türevlenebilir gerçekleyici kullanarak gözetimsiz öğrenmeyi
raporlanmıştır. önermiştir. Önerdikleri sinir ağı tahmin ettiği nesne ve kamera
parametrelerinden gerçekleyici ile 2B görünüm elde etmede
Voksel gösterimi ilk akla gelen gösterim olmakla birlikte kullanılmıştır. 2B görünüm ve girdi arasındaki ortalama kare
artan çözünürlük hesaplama karmaşıklığını kübik olarak artır- hatası ile model eğitilmiştir. Han vd. [24] ise gerçeklemenin
dığı için bellek ve zaman açısından dezavantajlıdır. Bu sorunu maliyetli olduğunu ve basit bir kayıp fonksiyonu yerine daha
ele alan Roth ve Richter [10] 3B şekilleri 2B imge dizisi olarak iyi tasarlanmış bir kayıp fonksiyonuyla izdüşümün yeterli ola-
ele alıp geriçatma işini çok-kanallı 2B imge tahmin etmeye cağını savunmuştur. Bu nedenle, kayıp fonksiyonu iki parçada
dönüştürmüştür. Önerdikleri yeni yöntemle diğer voksel gös- tasarlanmıştır. İlkiyle noktaları girdi silüet imgesinin üzerine
terimi kullanan çalışmalara görece daha yüksek çözünürlükte zorlarken, ikincisiyle izdüşürülen noktalar arasındaki uzaklığı
(2563 ) geriçatma sağlamışlardır. büyüterek silüeti düzgün kaplamak amaçlanmaktadır. Bu ça-
lışmada da kamera parametrelerine ihtiyaç duyulmuştur.
III. Ö RGÜ G ÖSTER İM İ Daha yakın zamanda, Chen vd. [26] pikselleri karşılaştır-
mak yerine, öncelikle girdi resimlerden 2B nokta örneklemiştir.
Örgü gösterimi bilgisayar grafiği alanındaki öneminden
Üretilen 3B nesneden elde edilen 2B izdüşümlerin örneklem ile
dolayı tercih edilen bir gösterimdir. Bununla birlikte göste-
eşleşmesi beklenmiştir. Örneklemi fazla sık yapmak modelin
rimin kesikli yapısından dolayı derin öğrenme ile modellemek
maliyetini artırırken, fazla seyrek yapmak nesneyi kaplamadığı
zordur. Pixel2Mesh [6] üçgen örgü gösterimi için kullanılan
için performansı düşürmektedir. Bu oranı iyi belirlemek için
düğüm, kenar ve yüzün çizge ile betimlenebileceğinden yola
Structure Adaptive Sampling yöntemini geliştirmişlerdir.
çıkarak çizge evrişimsel sinir ağları (GCN) kullanan bir mo-
deldir. Model elips şeklindeki örgüden başlayarak kademeli Nokta kümelerinin seyrek ve düzensiz gösterimi evrişim
olarak bozulma uygular. Son örgü çıktısına doğru düğüm yöntemleri için verimsiz olmaktadır. Liu vd. [23] bunun için
sayısı dolayısıyla gösterimin çözünürlüğü yükselmektedir. Bu nokta-voksel hibrit gösterimini önermiştir. Nokta-voksel CNN
tekrarlamalı yaklaşım bozulma blok sayısını artırarak değişken ile noktalar evrişim için vokselleştirilirken evrişim sonrası
çözünürlüğe ulaşmayı önerse de parametre sayısını artırmanın nokta kümesi formu elde edilmiştir. Zhou vd. [22] şekillere
TABLO I: Yöntemlerin karşılaştırması. Girdi sayısı test zamanındaki girdi sayısını temsil etmektedir. NK: Nokta kümeleri, ÖF:
Örtük fonksiyonlar, S: Gözetimli öğrenme, U: Gözetimsiz öğrenme.
Çalışma Yıl Gözetim Veri Kümesi Girdi Sayısı Çıktı Mimari Kayıp Fonksiyonu
ShapeNet, ModelNet40,
Yang vd. [2] 2020 S Çoklu İmge Voksel Attentional Aggregation Cross entropy
Blobby
ShapeNet, Pix3D, Tek / Encoder - Decoder - Fusion
Xie vd. [3] 2020 S Voksel Cross entropy
Things3D Çoklu İmge Network- Refiner Network
Encoder - Memory Network Voxel-triplet +
Yang vd. [5] 2021 S ShapeNet, Pix3D Tek İmge Voksel
- LSTM - Decoder Cross entropy
Wang vd. [4] 2021 S ShapeNet Çoklu İmge Voksel Transformer Cross entropy
Encoder - GCN - Multi- Re-sampled Chamfer +
Wen vd. [7] 2019 S ShapeNet Çoklu İmge Örgü
view Deformation Network Surface normal
Chairs, Cars,
Guillard vd. [13] 2021 U Tek İmge Örgü Encoder - Decoder Chamfer
ShapeNet
Smooth silhouette +
Han vd. [24] 2020 U ShapeNet Tek İmge NK -
Structure-aware repulsion
Chen vd. [26] 2021 U ShapeNet Tek İmge NK Encoder - MLP Chamfer
Mescheder vd. [8] 2019 S ShapeNet Tek İmge ÖF Encoder - FCN Cross entropy
DTU MVS, Blended
Oeschle vd. [15] 2021 U Çoklu İmge ÖF MLP L1 + L2
MVS, SceneNet
ShapeNet, Encoder - Decoder - Attention
Trevithick vd. [18] 2021 U Çoklu İmge ÖF L2
Synthetic-NeRF Module - MLP
Tek / Implicit shape network + Neural
Yang vd. [12] 2021 U ShapeNet ÖF L1 + Cross entropy + L2
Çoklu İmge texture network + Hypernet network
Ibing vd. [21] 2021 S ShapeNet, PartNet Tek İmge ÖF Autoencoder - GAN - Decoder Cross entropy + Non-saturating
kademeli olarak gürültü ekleyip geliştirdikleri yayılma modeli aslına daha sadık sonuçlar elde ederek en yakın yüzey-noktası
ile gürültüden şekli tekrar üreten bir nokta-voksel CNN modeli gösteriminin gücünü, nokta kümelerine yüzey yerleştirme üze-
kullanmıştır. Önerilen model 2B imgelerden geriçatma için rinden kanıtlamıştır. Fakat girdi olarak 3B nokta kümesine
kullanılamamasına rağmen nokta kümelerinin şekil modelleme ihtiyaç duyması sebebiyle 2B imgelerden 3B geriçatıma uygun
için iyileştirilmesi açısından yol gösterici olmuştur. Model değildir.
verilen kısmi nokta kümelerinden çeşitli tamamlamalar öner-
Mildenhall vd. [17] NeRF ile her bir sahne için çoklu
mesiyle geriçatma için iyi bir temel oluşturduğunu göstermiştir.
imge, kamera konumları ve bakış açılarını kullanarak bir
sinir ağı eğitmeyi önermiştir. Algılayıcının ağırlıkları örtük
V. Ö RTÜK F ONKS İYONLAR ve sürekli olarak sahne modellemede kullanılabilmiştir. Bu
gösterime sinir radyans alanları (neural radiance fields) adı ve-
Örtük fonksiyonlar, değişken çözünürlükte çalışabilmeleri rilmiştir. Daha sonrasında, Trevithick ve Yang [18] NeRF’ün
sebebiyle 3B resimler için umut vadeden bir gösterimdir. genelleştirme kapasitesini artırmak için general radiance field
Voksel gösterimiyle karşılaştırıldığında verimlilikleri ön plana yöntemini (GRF) geliştirmiştir. GRF NeRF’teki 3B nokta
çıkmaktadır. Yüzey sınırları objenin iç ve dış kısmını doldur- konumlarını 3B özellik vektörleriyle değiştirmiştir. Oechsle vd.
makla özel olarak ilgilenmeyip sadece bu bölgeleri ayırmakla [15] ise Occupancy Networks ile önerilen örtük fonksiyonları
ilgilenir. Örtük fonksiyonlar ile bu yüzey sınırları belirlenebilir ve radyans alanlarını birleştirip UNISURF’ü önererek NeRF
ve daha pürüzsüz bir görünüm elde edilebilir. ile oluşan boşluklu yüzeyi pürüzsüzleştirmiştir. Eğitim sıra-
Mescheder vd. [8] Occupancy Networks modelini önererek sında ilk aşamada yüzey yeterince öğrenilmediği için hacim
betimleme için nesne yüzeyini belirlemek üzerine çalışmıştır. gerçeklemenin önemi baskındır. Kademeli olarak yüzey ger-
Modelin temel amacı 3B uzaydaki noktaları objenin içinde çeklemenin artırılmasıyla UNISURF eğitilmiştir.
ve dışında olarak ikili sınıflandırmadır. Bu sınıflandırma so- Hareketli en küçük kareler fonksiyonları nokta küme gös-
nucunda oluşan karar sınırı obje yüzeyini betimlemek için teriminden yüzey sınırlarını elde etmeye uygundur. Bu yüzey
kullanılmıştır. Peng vd. [9] ise Convolutional Occupancy gösterimini kullanan Liu vd. [11] girdi nokta kümelerinden
Networks ile verilen 3B girdiyi tek bir 2B düzlemde, çoklu 2B önce octree ara gösterimini oluşturmuştur. Çalışma ara gös-
düzlemde ya da 3B düzlemde kodlamak için üç yeni kodlayıcı terimden yüzey elde etmek ile ara gösterim sonrası üretilen
önermiştir. Böylelikle orijinal modele göre yerel özellikleri nokta kümesinden yüzey elde etmeyi karşılaştırarak ayrıntılı
daha iyi kodlayarak daha zengin bir gösterim sunulduğu için nokta kümesi üretmenin avantajını kanıtlamıştır.
ikili sınıflandırmadan sorumlu ağın daha hafif bir formu ye-
terli olmuştur. 3B girdiler için geliştirilmiş modelle geriçatma Yang vd. [12] örtük yüzey fonksiyonları öğrenirken ağ-
kalitesinin iyileştirilmesinin yanı sıra eğitim hızı artırılmıştır. ların önsel bilgisinin klasik eğitim yöntemleriyle yeterince
işlenemediğini açıklamıştır. Bunun için öğrenilen önsel şekil
Venkatesh vd. [14] sadece kapalı formlu değil açık formlu bilgilerini optimize etme üzerine çalışmıştır. Yöntem genel-
şekilleri de modelleyebilme üzerinde durmuştur. Bunun için leştirilmiş bir formda sunulduğu için birçok modele ve alt
verilen bir 3B noktayı yüzey üzerindeki en yakın 3B noktaya göreve uyarlanabileceği savunulmuştur. Ibing vd. [21] 3B
eşleyen bir en yakın yüzey-noktası gösterimi tanımlamışlar- nesneleri betimlemek için bütünsel tek bir fonksiyon yerine
dır. Geliştirilen model (CSPNet), Convolutional Occupancy birden fazla yerel fonksiyon kullanmayı önermiştir. Otokodla-
Networks’ün kodlayıcısıyla çıkarılan 3B özellik vektörü yar- yıcı aracılığıyla 3B nesneler örtük fonksiyon ızgarası olarak
dımıyla sorgu noktalarına en yakın yüzey-noktalarını tahmin kodlanmıştır. Çekişmeli üretici ağlar (GAN) otokodlayıcının
etmiştir. CSPNet açık formlu şekilleri modelleme üzerinde gizli uzayından şekil üretmeyi öğrenmek için kullanılmıştır.
GAN’ın kapasitesi birden çok örtük fonksiyon kullanılması [5] S. Yang, M. Xu, H. Xie, S. Perry, and J. Xia, “Single-View 3D Object
sebebiyle geniştir. Ayrıca bu tür bir gösterim nesnelerin çok Reconstruction From Shape Priors in Memory,” in Proceedings of the
parçalı yapısına uyduğu için bölgesel üretime izin verir. CVPR, Jun. 2021, pp. 3152–3161.
[6] N. Wang, Y. Zhang, Z. Li, Y. Fu, W. Liu, and Y.-G. Jiang, “Pixel2Mesh:
Zheng vd. [19] yorumlanabilirlik ve girdi ile gösterimi Generating 3D Mesh Models from Single RGB Images,” in Proceedings
ilişkilendirme problemleriyle ilgilenmiştir. Örtük şablon olarak of the ECCV, Part XI, 2018, vol. 11215, pp. 55–71.
adlandırdıkları kategorileri en genel formlarında temsil eden [7] C. Wen, Y. Zhang, Z. Li and Y. Fu, "Pixel2Mesh++: Multi-View 3D
Mesh Generation via Deformation," in Proceedings of the ICCV, 2019,
örtük fonksiyonları öğrenmeyi önermişlerdir. Örtük şablondan pp. 1042-1051.
şekil onarımı için bir bükme fonksiyonuyla girdi noktalarının [8] L. Mescheder, M. Oechsle, M. Niemeyer, S. Nowozin and A. Geiger,
kanonik konumlarına eşlenmesi gerekmiştir. Benzer şekilde, "Occupancy Networks: Learning 3D Reconstruction in Function Space,"
Deng vd. [20] bozulmuş örtük fonksiyonları (deformed impli- in Proceedings of the CVPR, 2019, pp. 4455-4465.
cit functions) geliştirerek ilişkilendirme problemini ele almıştır. [9] S. Peng, M. Niemeyer, L. M. Mescheder, M. Pollefeys, and A. Geiger,
Önce kategori için bir şablon öğrenmeyi ve sonrasında nesneler “Convolutional Occupancy Networks,” in Proceedings of the ECCV, Part
için bozulma ve düzeltme alanını öğrenmeyi savunmuştur. III, 2020, vol. 12348, pp. 523–540.
[10] S. Roth and S. R. Richter, "Matryoshka Networks: Predicting 3D
Geometry via Nested Shape Layers," in Proceedings of the CVPR, 2018,
VI. S ONUÇ pp. 1936-1944.
[11] S. -L. Liu, H. -X. Guo, H. Pan, P. -S. Wang, X. Tong and Y. Liu,
İmgeden 3B geriçatma birçok zorluğu olan karmaşık bir "Deep Implicit Moving Least-Squares Functions for 3D Reconstruction,"
problemdir. Bu zorlukların aşılmasında modelleme, yöntem, in Proceedings of the CVPR, 2021, pp. 1788-1797.
girdi çeşidi konusunda birçok farklı yaklaşım denenmiştir. Bu [12] M. Yang, Y. Wen, W. Chen, Y. Chen and K. Jia, "Deep Optimized
yaklaşımlardan güncel olanları en çok karşılaştırıldıkları çalış- Priors for 3D Shape Modeling and Reconstruction," in Proceedings of
malar ile birlikte açıklanmıştır. Güncel çalışmalarda pürüzsüz the CVPR, 2021, pp. 3268-3277.
bir görünüm elde etmek ve yüksek çözünürlükte maliyeti [13] B. Guillard, E. Remelli, P. Yvernay, and P. Fua, “Sketch2Mesh: Re-
düşürmek için örtük fonksiyonlar başarıyla kullanmıştır fakat constructing and Editing 3D Shapes From Sketches,” in Proceedings of
the ICCV, Oct. 2021, pp. 13023–13032.
henüz üretilen şekiller gerçek modellerin keskinliğine erişeme-
[14] R. Venkatesh et al., “Deep Implicit Surface Point Prediction Networks,”
mektedir. Birçok çalışmanın kapalı formlu şekiller üzerinde in Proceedings of the ICCV, Oct. 2021, pp. 12653–12662.
çalışması da üretim kapasitesini düşürmektedir. 3B referans- [15] M. Oechsle, S. Peng, and A. Geiger, “UNISURF: Unifying Neural
lara ihtiyaç duymadan yeni şekillere adaptasyonu artırmak Implicit Surfaces and Radiance Fields for Multi-View Reconstruction,”
için yöntemlerin bazıları gerçeklemeden faydalanır. Alternatif in Proceedings of the ICCV, Oct. 2021, pp. 5589–5599.
olan izdüşürme maliyet açısından daha avantajlı çözümler [16] G. Fahim, K. Amin, and S. Zarif, “Single-View 3D reconstruction: A
sunar fakat başarım sağlamak için iyi düşünülmüş öğrenim Survey of deep learning methods,” Comput. Graph., vol. 94, pp. 164–190,
yöntemleriyle kullanılmaları gerekmektedir. Uygulanabilirliği 2021.
artırmak için ise yapay veri kümelerindense gerçekçi imgeler- [17] B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamo-
orthi, and R. Ng, “NeRF: Representing Scenes as Neural Radiance Fields
den beslenebilir yöntemler gerekmektedir. Perdelemenin fazla for View Synthesis,” in ECCV 2020, vol. 12346, pp. 405–421.
olduğu ya da imgede nesnenin ön plana çıkmadığı bu tür veri [18] A. Trevithick and B. Yang, “GRF: Learning a General Radiance Field
kümelerinde başarım elde etmek için kodlayıcı modülünün for 3D Representation and Rendering,” in Proceedings of the ICCV, Oct.
tasarımı önemli bir role sahiptir. 2021, pp. 15182–15192.
[19] Z. Zheng, T. Yu, Q. Dai, and Y. Liu, “Deep Implicit Templates for
Çalışmalardan bazıları renk/desen bilgisini aktarmaktan 3D Shape Representation,” in Proceedings of the CVPR, Jun. 2021, pp.
detaylı olarak bahsetmiştir. Özellikle radyans alanları kullanan 1429–1439.
modellerde RGB değerlerinin de onarımına dikkat edilmiştir [20] Y. Deng, J. Yang, and X. Tong, “Deformed Implicit Field: Modeling
[15], [17], [18]. Bir başka çalışmada [25] nokta kümeleri 3D Shapes With Learned Dense Correspondence,” in Proceedings of the
gösterilirken 3B konumuna ek olarak renk sinyali de veril- CVPR, Jun. 2021, pp. 10286–10296.
miştir. Bazı alt çalışmalar için, örneğin nesne tanıma, kanonik [21] M. Ibing, I. Lim, and L. Kobbelt, “3D Shape Generation With Grid-
form gibi daha basit gösterimler yeterli olduğundan renk Based Implicit Functions,” in Proceedings of the CVPR, Jun. 2021, pp.
13559–13568.
geriçatımının bir zorunluluk olduğu söylenemez. Fakat çok
[22] L. Zhou, Y. Du, and J. Wu, “3D Shape Generation and Completion
fazla çalışmanın konu üzerinde durmadığı göz önüne alındı- Through Point-Voxel Diffusion,” in Proceedings of the ICCV, Oct. 2021,
ğında, daha aslına sadık geriçatma gerektiren uygulamalar için pp. 5826–5835.
renk/desen aktarımında detaylı araştırmalara ihtiyaç duyulduğu [23] Z. Liu, H. Tang, Y. Lin, and S. Han, “Point-Voxel CNN for Efficient
söylenebilir. 3D Deep Learning,” in Advances in NeurIPS, 2019, vol. 32.
[24] Z. Han, C. Chen, Y.-S. Liu, and M. Zwicker, “DRWR: A Differentiable
Renderer without Rendering for Unsupervised 3D Structure Learning
K AYNAKLAR from Silhouette Images,” in Proceedings of the 37th ICML, 2020, vol.
[1] C. B. Choy, D. Xu, J. Gwak, K. Chen, and S. Savarese, “3D-R2N2: A 119, pp. 3994–4005.
Unified Approach for Single and Multi-view 3D Object Reconstruction,” [25] E. Insafutdinov and A. Dosovitskiy, “Unsupervised Learning of Shape
in ECCV, vol. 9912, pp. 628–644. and Pose with Differentiable Point Clouds,” in Advances in NeurIPS,
[2] B. Yang, S. Wang, A. Markham, and N. Trigoni, “Robust Attentional 2018, vol. 31.
Aggregation of Deep Feature Sets for Multi-view 3D Reconstruction,” [26] C. Chen, Z. Han, Y.-S. Liu, and M. Zwicker, “Unsupervised Learning
Int. J. Comput. Vis., vol. 128, no. 1, pp. 53–73, 2020. of Fine Structure Generation for 3D Point Clouds by 2D Projections
[3] H. Xie, H. Yao, S. Zhang, S. Zhou, and W. Sun, “Pix2Vox++: Multi- Matching,” in Proceedings of the ICCV, Oct. 2021, pp. 12466–12477.
scale Context-aware 3D Object Reconstruction from Single and Multiple [27] F. Engelmann, K. Rematas, B. Leibe, and V. Ferrari, “From Points to
Images,” Int. J. Comput. Vis., vol. 128, no. 12, pp. 2919–2935, 2020. Multi-Object 3D Reconstruction,” in CVPR, Jun. 2021, pp. 4588–4597.
[4] D. Wang et al., “Multi-View 3D Reconstruction With Transformers,” in [28] A. X. Chang et al., “ShapeNet: An Information-Rich 3D Model Repo-
Proceedings of the ICCV, Oct. 2021, pp. 5722–5731. sitory,” Stanford University — Technical report arXiv:1512.03012, 2015.

A Survey of 3D Object Reconstruction Methods PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

A Survey of 3D Object Reconstruction Methods PDF

Uploaded by

Copyright:

Available Formats

3B Nesne Geriçatma Yöntemlerinin İncelemesi

A Survey of 3D Object Reconstruction Methods

Merve Gül KANTARCI, Berk GÖKBERK, Lale AKARUN

You might also like