高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF

發布于 2024-6-17 09:02

瀏覽

0收藏

在三維生成建模的研究領域，現行的兩大類 3D 表示方法要么基于擬合能力不足的隱式解碼器，要么缺乏清晰定義的空間結構難以與主流的 3D 擴散技術融合。來自中科大、清華和微軟亞洲研究院的研究人員提出了 GaussianCube，這是一種具有強大擬合能力的顯式結構化三維表示，并且可以無縫應用于目前主流的 3D 擴散模型中。

GaussianCube 首先采用一種新穎的密度約束高斯擬合算法，該算法能夠對 3D 資產進行高精度擬合，同時確保使用固定數量的自由高斯。隨后，借助最優傳輸算法，這些高斯被重新排列到一個預定義的體素網格之中。得益于 GaussianCube 的結構化特性，研究者無需復雜的網絡設計就能直接應用標準的 3D U-Net 作為擴散建模的主干網絡。

更為關鍵的是，本文提出的新型擬合算法極大地增強了表示的緊湊性，在 3D 表示擬合質量相似的情況下所需的參數量僅是傳統結構化表示所需參數量的十分之一或百分之一。這種緊湊性大幅降低了 3D 生成建模的復雜性。研究人員在無條件和條件性 3D 對象生成、數字化身創建以及文本到 3D 內容合成等多個方面開展了廣泛的實驗。

數值結果表明，GaussianCube 相較之前的基線算法實現了最高達 74% 的性能提升。如下所示，GaussianCube 不僅能夠生成高質量的三維資產，而且還提供了極具吸引力的視覺效果，充分證明了其作為 3D 生成通用表示的巨大潛力。

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

圖 1. 無條件生成的結果。本文的方法可以生成高質量、多樣化的三維模型。

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

圖 2. 基于輸入肖像進行數字化身創建的結果。本文的方法可以極大程度上保留輸入肖像的身份特征信息，并且提供細致的發型、服裝建模。?

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

圖 3. 基于輸入文本創建三維資產的結果。本文的方法可以輸出與文本信息一致的結果，并且可以建模復雜的幾何結構和細節材質。

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

圖 4. 類別條件生成的結果。本文生成的三維資產語義明確，具有高質量的幾何結構和材質。

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

論文名稱：GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling
項目主頁：https://gaussiancube.github.io/
論文鏈接：https://arxiv.org/pdf/2403.19655
代碼開源：https://github.com/GaussianCube/GaussianCube
演示視頻：https://www.bilibili.com/video/BV1zy411h7wB/?

都什么年代了

還在用傳統 NeRF 進行三維生成建模？

大多數先前的 3D 生成建模工作都使用了 Neural Radiance Field (NeRF) 的變體作為其底層的 3D 表示，這些表示通常結合了一個顯式的結構化特征表示和一個隱式的特征解碼器。然而在三維生成建模中，所有三維物體不得不共享同一個隱式特征解碼器，這種做法在很大程度上削弱了 NeRF 的擬合能力。此外，NeRF 所依賴的體渲染技術具有非常高的計算復雜性，這導致了渲染速度緩慢，更需要消耗極高的 GPU 內存。近期，另一種三維表示方法高斯濺射（3D Gaussian Splatting，簡稱 3DGS）備受矚目。雖然 3DGS 擬合能力強大、計算性能高效，還具備完全顯式的特性，在三維重建任務中得到了廣泛應用。但是，3DGS 缺乏一個明確定義的空間結構，這使得其在無法直接應用于目前主流生成建模框架中。

因此，研究團隊提出了 GaussianCube。這是一種創新的三維表示方法，它既結構化又完全顯式，具備強大的擬合能力。本文介紹的方法首先確保通過固定數量的自由高斯實現高精度的擬合，然后將這些高斯有效地組織到一個結構化的體素網格中。這種顯式且結構化的表示方法讓研究者能夠無縫地采用標準的 3D 網絡架構，例如 U-Net，無需進行使用非結構化或隱式解碼表示時所需的復雜和定制化的網絡設計。

同時，通過最優傳輸算法進行的結構化組織最大程度地保持了相鄰高斯核之間的空間結構關系，使得研究者僅使用經典的 3D 卷積網絡就能高效地提取特征。更為關鍵的是，鑒于先前研究中的發現，擴散模型在處理高維數據分布時表現不佳，本文提出的 GaussianCube 在保持高質量重建的同時，顯著減少了所需的參數量，極大地緩解了擴散模型在分布建模上的壓力，為 3D 生成建模領域帶來了顯著的建模能力和效率提升。

方法

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

圖 5. GaussianCube 框架總覽

本文的框架包括兩個主要階段：表示構建和三維擴散。在表示構建階段，給定三維資產的多視角渲染圖，對其進行密度約束的高斯擬合，以獲得具有固定數量的三維高斯。隨后，通過最優化傳輸將三維高斯結構化為 GaussianCube。在三維擴散階段，研究人員對三維擴散模型進行訓練，以便從高斯噪聲中生成 GaussianCube。

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

圖 6. 密度約束的高斯擬合算法示意圖

在表示構建階段，研究人員需要為每個三維資產創建適合生成建模的表示。考慮到生成領域往往需要建模的數據有統一的固定長度，而原始 3DGS 擬合算法中的自適應密度控制會導致擬合不同物體所使用的高斯核數量不同，這給生成建模帶來了極大挑戰。一種非常簡單的解決方案是直接去除自適應密度控制，但研究人員發現這會嚴重降低擬合的精度。本文提出了一種新穎的密度約束擬合算法，保留原始自適應密度控制中的剪枝操作，但對其中的分裂和克隆操作進行了新的約束處理。

具體來說，假設當前迭代包括

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

個高斯，研究人員通過選擇那些在視角空間位置梯度幅度超過預定義閾值 τ 的高斯來識別分裂或克隆操作的候選對象，這些候選對象的數量記為

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

。為了防止超出預定義的最大值

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

個高斯，從候選對象中選擇

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

個具有最大視角空間位置梯度的高斯進行分裂或克隆。在完成擬合過程后，研究人員用 α=0 的高斯填充以達到目標計數

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

而不影響渲染結果。得益于此策略，可以實現了與類似質量的現有工作相比參數量減少了幾個量級的高質量表示，顯著降低了擴散模型的建模難度。

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

圖 7. 密度約束的高斯擬合算法示意圖

盡管如此，通過上述擬合算法得到的高斯仍然沒有明確的空間排列結構，這使得后續的擴散模型無法高效地對數據進行建模。為此，研究人員提出將高斯映射到預定義的結構化體素網格中來使得高斯具有明確的空間結構。直觀地說，這一步的目標是在盡可能保持高斯的空間相鄰關系的同時，將每個高斯 “移動” 到一個體素中。

研究人員將其建模為一個最優傳輸問題，使用 Jonker-Volgenant 算法來得到對應的映射關系，進而根據最優傳輸的解來組織將高斯組織到對應的體素中得到 GaussianCube，并且用當前體素中心的偏移量替換了原始高斯的位置，以減少擴散模型的解空間。最終的 GaussianCube 表示不僅結構化，而且最大程度上保持了相鄰高斯之間的結構關系，這為 3D 生成建模的高效特征提取提供了強有力的支持。

在三維擴散階段，本文使用三維擴散模型來建模 GaussianCube 的分布。得益于 GaussianCube 在空間上的結構化組織關系，無需復雜的網絡或訓練設計，標準的 3D 卷積足以有效提取和聚合鄰近高斯的特征。于是，研究者利用了標準的 U-Net 網絡進行擴散，并直接地將原始的 2D 操作符（包括卷積、注意力、上采樣和下采樣）替換為它們的 3D 實現。

本文的三維擴散模型也支持多種條件信號來控制生成過程，包括類別標簽條件生成、根據圖像條件創建數字化身和根據文本生成三維數字資產。基于多模態條件的生成能力極大地擴展了模型的應用范圍，并為未來的 3D 內容創造提供了強大的工具。

實驗結果

研究人員首先在 ShapeNet Car 數據集上驗證了 GaussianCube 的擬合能力。實驗結果表明，與基線方法相比，GaussianCube 可以以最快的速度和最少的參數量實現高精度的三維物體擬合。

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

表 1. 在 ShapeNet Car 上不同的三維表示關于空間結構、擬合質量、相對擬合速度、使用參數量的數值比較。? 表示不同物體共享隱式特征解碼器。所有方法均以 30K 次迭代進行評估。

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區

圖 8. 在 ShapeNet Car 上不同的三維表示擬合能力的視覺比較。? 表示不同物體共享隱式特征解碼器。所有方法均以 30K 次迭代進行評估。

研究人員其次在大量數據集上驗證了基于 GaussianCube 的擴散模型的生成能力，包括 ShapeNet、OmniObject3D、合成數字化身數據集和 Objaverse 數據集。實驗結果表明，本文的模型在無條件和類別條件的對象生成、數字化身創建以及文本到 3D 合成從數值指標到視覺質量都取得了領先的結果。特別地，GaussianCube 相較之前的基線算法實現了最高達 74% 的性能提升。

高質量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF-AI.x社區