NeO 360：用于室外場(chǎng)景稀疏視圖合成的神經(jīng)場(chǎng)

作者：Yah 2023-09-14 09:40:22

本文的?法擴(kuò)展了 NeRF++ 使其具有可推廣性。?法的核?是以三平?形式表示的局部特征。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

論文：ICCV 2023 https://arxiv.org/pdf/2308.12967.pdf
作者單位：Georgia Institute of Technology;Toyota Research Institute

近期的隱式神經(jīng)表示在新視角合成方面取得了很好的結(jié)果。然而，現(xiàn)有的方法需要從大量視角進(jìn)行昂貴的場(chǎng)景優(yōu)化，然而現(xiàn)實(shí)世界中感興趣的對(duì)象或背景僅從很少的視角觀察到，因此限制了這些方法在真實(shí)世界的無(wú)限城市環(huán)境中的應(yīng)用，為了克服這一挑戰(zhàn)，本文引入了一種名為NeO 360的新方法，用于稀疏視角合成室外場(chǎng)景的神經(jīng)場(chǎng)表示。NeO 360是一種通用方法，可以從單個(gè)或少量定姿的RGB圖像重建360°場(chǎng)景。該方法的精髓在于捕捉復(fù)雜現(xiàn)實(shí)世界室外3D場(chǎng)景的分布，并使用混合的圖像條件三平面表示，可以從任何世界點(diǎn)進(jìn)行查詢。本文的表示結(jié)合了基于體素和鳥(niǎo)瞰圖（BEV）表示的優(yōu)點(diǎn)，比每種方法都更有效和表達(dá)豐富。NeO 360的表示使本文能夠從大量的無(wú)界3D場(chǎng)景中進(jìn)行學(xué)習(xí)，同時(shí)在推理過(guò)程中對(duì)新視角和新場(chǎng)景具有普適性，甚至可以從單個(gè)圖像中進(jìn)行推理。本文在提出的具有挑戰(zhàn)性的360°無(wú)界數(shù)據(jù)集NeRDS 360上演示了本文的方法，并展示了NeO 360在新視角合成方面優(yōu)于現(xiàn)有的通用方法，同時(shí)還提供了編輯和合成能力。項(xiàng)?主頁(yè)：zubair-irshad.github.io/projects/neo360.html

主要貢獻(xiàn)有哪些？

本文的?法擴(kuò)展了 NeRF++ 使其具有可推廣性。?法的核?是以三平?形式表示的局部特征。這種表示被構(gòu)建為三個(gè)垂直的交叉平?，其中每個(gè)平?從?個(gè)?度對(duì) 3D 環(huán)境進(jìn)?建模，通過(guò)合并它們可以實(shí)現(xiàn) 3D 場(chǎng)景的全?描述。NeO 360 的圖像條件三平?表示有效地對(duì)來(lái)?圖像級(jí)特征的信息進(jìn)?編碼，同時(shí)為任何世界點(diǎn)提供緊湊的可查詢表示。本文將這些特征與剩余局部圖像級(jí)特征相結(jié)合，從?量圖像中優(yōu)化多個(gè)?界 3D 場(chǎng)景。NeO 360 的 3D 場(chǎng)景表示可以為完整的 3D 場(chǎng)景構(gòu)建強(qiáng)?的先驗(yàn)，從?只需?個(gè)擺好姿勢(shì)的 RGB 圖像即可實(shí)現(xiàn)對(duì)戶外場(chǎng)景進(jìn)??效的 360°新穎的視圖合成。全新?型 360°?界數(shù)據(jù)集包含 3 個(gè)不同地圖上的 70 多個(gè)場(chǎng)景。本文在 few-shot 新穎視圖合成和基于先驗(yàn)的采樣任務(wù)中證明了本文的?法在這個(gè)具有挑戰(zhàn)性的多視圖?界數(shù)據(jù)集上的有效性。除了學(xué)習(xí)完整場(chǎng)景的強(qiáng)? 3D表示之外，本文的?法還允許使? 3D ground truth邊界框?qū)饩€進(jìn)?推理時(shí)間修剪，從?能夠從?個(gè)輸?視圖進(jìn)?組合場(chǎng)景合成。總之，本文做出以下貢獻(xiàn)：

適?于室外場(chǎng)景的通? NeRF 架構(gòu)基于三平?表示來(lái)擴(kuò)展 NeRF 公式，以實(shí)現(xiàn) 360 度的有效few-shot新穎視圖合成360°?界的環(huán)境。
?規(guī)模合成360°數(shù)據(jù)集，稱為 NeRDS 360，?于 3D 城市場(chǎng)景理解包含多個(gè)對(duì)象，通過(guò)密集的相機(jī)視點(diǎn)注釋捕獲?保真室外場(chǎng)景。
本文提出的?法顯著優(yōu)于 NeRDS 360 數(shù)據(jù)集上的小樣本新穎視圖合成任務(wù)的所有基線，有著 3-view novel-view 合成任務(wù)的 1.89 PNSR 和 0.11 SSIM 絕對(duì)提升值。

NeRDS 360 多視角數(shù)據(jù)集：

為什么構(gòu)建這個(gè)數(shù)據(jù)集？

獲取精確的地面真實(shí) 3D 和 2D 信息（如更密集的視點(diǎn)標(biāo)注、3D 邊界框、語(yǔ)義和實(shí)例圖）具有挑戰(zhàn)性，因此可用于訓(xùn)練和測(cè)試的戶外場(chǎng)景非常有限。
之前的方案主要集中在使用現(xiàn)有的戶外場(chǎng)景數(shù)據(jù)集進(jìn)行重建，這些數(shù)據(jù)集是安裝在自車載體上的攝像頭捕獲的全景視圖。在相鄰攝像頭視圖之間幾乎沒(méi)有重疊部分，而這種特征已被證明對(duì)于訓(xùn)練 NeRF 和多視圖重建方法很有用。隨著自車快速移動(dòng)以及感興趣的對(duì)象在僅幾個(gè)視圖中被觀察到（通常小于 5 個(gè)），針對(duì)這些場(chǎng)景優(yōu)化基于對(duì)象的神經(jīng)輻射模型變得更加具有挑戰(zhàn)性。

數(shù)據(jù)集是怎樣的？

為了應(yīng)對(duì)這些挑戰(zhàn)，本文提出了?個(gè)?于 3D 城市場(chǎng)景理解的?規(guī)模數(shù)據(jù)集。與現(xiàn)有數(shù)據(jù)集相?，本文的數(shù)據(jù)集由 75 個(gè)具有不同背景的戶外城市場(chǎng)景組成，包含超過(guò) 15,000 張圖像。這些場(chǎng)景提供 360°半球形視圖，捕捉各種照明條件下照亮的不同前景物體。此外，本文的數(shù)據(jù)集包含不限于前向駕駛視圖的場(chǎng)景，解決了先前數(shù)據(jù)集的局限性，例如攝像機(jī)視圖之間有限的重疊和覆蓋范圍。?于泛化評(píng)估的最接近的現(xiàn)有數(shù)據(jù)集是 DTU（80 個(gè)場(chǎng)景），主要包含室內(nèi)物體，不提供多個(gè)前景物體或背景場(chǎng)景。

數(shù)據(jù)集如何生成的？

本文使? Parallel Domain ?成合成數(shù)據(jù)以渲染?保真 360° 場(chǎng)景。本文選擇 3 個(gè)不同的地圖，即 SF 6thAndMission, SF GrantAndCalifornia and SF VanNessAveAndTurkSt 并在所有 3 個(gè)地圖上采樣 75 個(gè)不同場(chǎng)景作為本文的背景（3 個(gè)地圖上的所有 75 個(gè)場(chǎng)景都是彼此顯著不同的道路場(chǎng)景，在城市的不同視?拍攝）。本文選擇 50 種不同紋理的 20 輛不同的汽?進(jìn)?訓(xùn)練，并從每個(gè)場(chǎng)景中的 1 到 4 輛汽?中隨機(jī)采樣進(jìn)?渲染。本文將此數(shù)據(jù)集稱為NeRDS 360: NeRF for Reconstruction, Decomposition and Scene Synthesis of 360° outdoor scenes。訓(xùn)練集：本文總共?成了 15k 個(gè)渲染圖。通過(guò)在距汽?中?固定距離的半球形圓頂中對(duì) 200 個(gè)攝像機(jī)進(jìn)?采樣。測(cè)試集：本文提供了 4 輛不同汽?和不同背景的 5 個(gè)場(chǎng)景進(jìn)?測(cè)試，其中包括 100 個(gè)均勻分布在上半球的攝像機(jī)，與訓(xùn)練時(shí)使?的攝像機(jī)分布不同。

本文使?不同的驗(yàn)證相機(jī)分布來(lái)測(cè)試本文的?法泛化到訓(xùn)練期間未?過(guò)的視點(diǎn)以及未?過(guò)的場(chǎng)景的能?。由于遮擋、背景多樣性以及具有各種閃電和陰影的渲染對(duì)象，本文的數(shù)據(jù)集和相應(yīng)的任務(wù)極具挑戰(zhàn)性。本文的任務(wù)需要重建 360° 使?少量觀察（即 1 到 5）的完整場(chǎng)景的半球形視圖，如Figure 5 中的紅?攝像機(jī)所示。?使?所有 100 個(gè)半球視圖進(jìn)?評(píng)估，如Figure 5 中的綠?攝像機(jī)所示。因此，本文的任務(wù)需要強(qiáng)?的先驗(yàn)知識(shí)來(lái)合成室外場(chǎng)景的新穎視圖。

方法：

給定新場(chǎng)景的?個(gè)視圖的 RGB 圖像，NeO 360 進(jìn)行新穎視圖合成并渲染360度場(chǎng)景的3D場(chǎng)景表示。為了實(shí)現(xiàn)這??標(biāo)，本文采?了由三平?表示組成的混合局部和全局特征表示，可以查詢?nèi)魏问澜琰c(diǎn)。形式上，如Figure 1所示，給定?些輸?圖像，的?個(gè)復(fù)雜的場(chǎng)景，其中n=1到5、以及他們相應(yīng)的相機(jī)位子，γγγ其中γ，NeO 360推斷近遠(yuǎn)背景的密度和輻射場(chǎng)（類似于 NeRF++），兩者的主要區(qū)別是NeO 360使?混合局部和全局特征來(lái)調(diào)節(jié)輻射場(chǎng)解碼器，?不是像經(jīng)典 NeRF 公式中所采?的那樣僅使?位置和觀察?向。

Image-Conditional Triplanar Representation（圖像條件三平?表示）

雖然NeRF能夠產(chǎn)??保真場(chǎng)景合成，但局限于很難推?到新穎場(chǎng)景。為了有效地使?場(chǎng)景先驗(yàn)并從?量?界 360° 數(shù)據(jù)中學(xué)習(xí)，本文提出了?種圖像條件三平?表示，這種表示能夠?qū)哂型暾?表現(xiàn)?的 3D 場(chǎng)景進(jìn)??規(guī)模建模，?不會(huì)忽略其任何維度（如在 2D 或基于 BEV 的表示中）并避免??復(fù)雜性（如在基于體素的表示中）。本文的三平?表示由三個(gè)軸對(duì)?的正交平?組成,其中是空間分辨率，每個(gè)平面具有維特征。為了從輸?圖像構(gòu)建特征三平?，方法如下：

本文?先使?經(jīng)過(guò) ImageNet 預(yù)訓(xùn)練的 ConvNet backbone E提取低分辨率空間特征表示，其將原始輸入的圖像轉(zhuǎn)化為長(zhǎng)寬分別變?yōu)?/2的特征圖。然后根據(jù)相機(jī)位姿和內(nèi)參沿著每條射線反投影為3D特征體數(shù)據(jù)。
由于沿相機(jī)光線的所有特征在?格中都是相同的，因此本文通過(guò)額外的 MLP 進(jìn)?步學(xué)習(xí)各個(gè)特征的深度，，它將?格中的輸入體數(shù)據(jù)特征、在相機(jī)坐標(biāo)系中的網(wǎng)格位置和在世界坐標(biāo)系下的網(wǎng)格的方向用concatenated連接轉(zhuǎn)換到相機(jī)坐標(biāo)下輸出深度編碼特征。接下來(lái)通過(guò)在獨(dú)立的體特征維度上使用可學(xué)習(xí)的權(quán)重獲得三平?特征：其中的代表MLPs特征聚合，代表在維度累加之后的softmax得分。將特征投影到各個(gè)平?的動(dòng)機(jī)之?是避免 3D CNN 的計(jì)算??復(fù)雜性，同時(shí)? BEV 或 2D 特征表示更具表現(xiàn)?但該類方法?基于體素的表示在計(jì)算上更有效，但省略軸會(huì)損害它們的表達(dá)能?。相反，本文依靠 2D 卷積將構(gòu)建的圖像條件三平?轉(zhuǎn)換為新的通道輸出，其中、同時(shí)對(duì)平?的空間維度進(jìn)?上采樣到圖像特征空間。學(xué)習(xí)到的卷積充當(dāng)修復(fù)?絡(luò)來(lái)填充缺失的特征。本文的三平?表示充當(dāng)全局特征表示，因?yàn)橹庇^上，從不同?度檢查時(shí)可以更好地表示復(fù)雜場(chǎng)景。這是因?yàn)槊總€(gè)都可以提供補(bǔ)充信息，可以幫助更有效地理解場(chǎng)景。

Deep Residual Local Features (深層殘差局部特征)

對(duì)于接下來(lái)的輻射場(chǎng)解碼階段，本文還使?特征作為渲染 MLP 的殘差連接。本文獲得從通過(guò)投影世界點(diǎn)使?其相機(jī)參數(shù)γ進(jìn)?源視圖，并通過(guò)雙線性插值在投影像素位置提取特征。請(qǐng)注意，局部和全局特征提取路徑共享相同的權(quán)重θ和編碼器。本文發(fā)現(xiàn)，對(duì)于復(fù)雜的城市?界場(chǎng)景，僅使?局部特征導(dǎo)致遮擋和遠(yuǎn)處 360° 視角表現(xiàn)不佳。另???，僅使?全局特征會(huì)導(dǎo)致幻覺(jué)。本文的?法有效地結(jié)合了局部和全局特征表示，從?產(chǎn)?更準(zhǔn)確的 360° 從最?的?限場(chǎng)景的單?視圖進(jìn)?視圖合成。

Decoding Radiance Fields（解碼輻射場(chǎng)）

輻射場(chǎng)解碼器是用來(lái)預(yù)測(cè)顏?和密度σ對(duì)于任意 3D 位置和任意觀看?向從三平?和殘差特征。本文使?模塊化實(shí)現(xiàn)的渲染 MLP。MLP 表示為：

其中，通過(guò)正交投影點(diǎn)進(jìn)?每個(gè)平?并執(zhí)?雙線性采樣獲得，且由三個(gè)雙線性采樣向量連接成

。本文使用輸入圖像的視圖空間來(lái)建立本文的坐標(biāo)系，然后在這個(gè)特定的坐標(biāo)系中展示位置和攝像機(jī)射線。Near and Far Decoding MLPs類似于NeRF++，本文定義了兩個(gè)渲染MLP來(lái)解碼顏?和密度信息，如下所示：

本文定義?個(gè)坐標(biāo)重映射函數(shù) (M) 類似于原始 NeRF++收縮位于單位球體之外的 3D 點(diǎn), 這有助于更多對(duì)象在渲染 MLP 中獲得較低的分辨率。在查詢階段的三平?表示，本文使?在現(xiàn)實(shí)世界坐標(biāo)中的?收縮坐標(biāo)，因?yàn)楸疚牡谋硎臼瞧??不是球體。對(duì)于渲染，本文使?各?的放縮后的坐標(biāo)?于調(diào)節(jié) MLP。Optimizing radiance fields for few-shot novel-view synthesis給定源視圖的局部和全局特征，在完成體積渲染和合成近處和遠(yuǎn)處背景后，使用專用的解碼顏色和強(qiáng)度近背景和遠(yuǎn)背景MLPs解碼器和

:?標(biāo)圖像中采樣的像素位置:從近和遠(yuǎn)的MLPs渲染輸出中獲得的合成顏色。

Scene Editing and Decomposition（場(chǎng)景編輯與分解）

給定從檢測(cè)器獲得的 3D 邊界框，本文可以通過(guò)簡(jiǎn)單地對(duì)對(duì)象的 3D 邊界框內(nèi)的光線進(jìn)?采樣，獲得單個(gè)對(duì)象和背景輻射率，并在這些特定的處雙線性插值特征在本文的三平?特征?格中的位置，使得編輯和重新渲染單個(gè)對(duì)象變得簡(jiǎn)單。本文通過(guò)考慮對(duì)象 3D 邊界框內(nèi)的特征來(lái)執(zhí)?準(zhǔn)確的對(duì)象重新渲染，以渲染前景MLP。本質(zhì)上，本文將組合的可編輯場(chǎng)景渲染公式劃分為渲染對(duì)象、近背景和遠(yuǎn)背景。

實(shí)驗(yàn)：

baselines：

NeRF：Vanilla NeRF 方法過(guò)擬合給定 RGB 圖像的場(chǎng)景
PixelNeRF ?種可推?的 NeRF 變體，利?局部圖像特征進(jìn)?少鏡頭新穎視圖合成
MVSNeRF：通過(guò)從源圖像構(gòu)建cost-volume獲得的局部特征來(lái)擴(kuò)展 NeRF 進(jìn)?少視圖合成
NeO 360：本文提出的架構(gòu)將局部和全局特征結(jié)合起來(lái)，用于通用場(chǎng)景表示學(xué)習(xí)。

結(jié)論：

在本?中，本文提出了 NeO 360，這是 NeRF ?法的可推?擴(kuò)展，?于?界360°場(chǎng)景。本文的?法依賴于圖像條件三平?表示來(lái)進(jìn)?少量新穎的視圖合成。為了為?界場(chǎng)景建?強(qiáng)?的先驗(yàn)，本文提出了?個(gè)?規(guī)模數(shù)據(jù)集 NERDS 360 來(lái)研究 360 度設(shè)置中的視圖合成、重建和分解。本文的?法的性能明顯優(yōu)于其他可推?的 NeRF 變體，并且在新場(chǎng)景上進(jìn)?測(cè)試時(shí)實(shí)現(xiàn)了更?的性能。對(duì)于未來(lái)的?作，本文將探索如何使?所提出的?法來(lái)構(gòu)建較少依賴標(biāo)記數(shù)據(jù)的先驗(yàn)，例如推理過(guò)程中的 3D 邊界框，?是依賴運(yùn)動(dòng)線索在沒(méi)有標(biāo)記數(shù)據(jù)的情況下進(jìn)?有效的場(chǎng)景分解。