ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經場、秒級生成
論文一作蘭宇時為南洋理工大學(NTU)博士生,導師為 Chen Change Loy。本科畢業于北京郵電大學,目前主要研究興趣為基于神經渲染的 3D 生成模型、3D 重建與編輯。
在 ECCV 2024 中,來自南洋理工大學 S-Lab、上海 AI Lab 以及北京大學的研究者提出了一種原生 3D LDM 生成框架。具體來講,他們針對現有原生 3D 生成模型可拓展性差、訓練效率低、泛化性較差等問題,提出一種基于 3D VAE 和 3D-DiT 的兩階段通用 3D 生成框架 Latent Neural ?elds 3D Diffusion (LN3Diff)。該方法在 Objaverse 數據集上進行了大規模訓練,并在多個基準測試中取得了優異成績,并擁有更快的推理速度。
- 論文項目主頁: https://nirvanalan.github.io/projects/ln3diff/
- 論文代碼: https://github.com/NIRVANALAN/LN3Diff
- Gradio demo 地址: https://huggingface.co/spaces/yslan/LN3Diff_I23D
- 個人主頁: https://nirvanalan.github.io/
- 論文標題: LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation?
研究背景
近年來,以可微渲染和生成模型為核心的神經渲染技術 (Neural Rendering) 取得了很大的進展,并在新視角合成、3D 編輯和 3D 物體生成上取得了非常好的效果。然而,相較于統一圖片 / 視頻生成的 LDM 框架,基于 diffusion 模型的原生 3D 生成模型依然缺少通用的框架。
目前基于 SDS 蒸餾的方法受限于優化時長和飽和度較高的問題,而基于多視圖生成 + Feedforward 重建的兩階段方法受限于多視圖生成效果與多樣性。這些限制極大地制約了 3D AIGC 的性能與自由度。
為了解決上述問題,研究者提出將基于 LDM (Latent Diffusion Model) 的原生生成框架引入 3D 生成,通過在 3D 隱空間直接進行 diffusion 采樣來實現高效、高質量的 3D 資產生成。
方法效果圖
方法
方法概覽圖
盡管之前的工作也嘗試使用 LDM 直接進行 3D 生成,但受制于可拓展性、生成效率與在大數據上的泛化能力,并沒有成為主流的 3D 生成方案。
因此,研究者提出 Latent Neural ?elds 3D Diffusion (LN3Diff),一種適用于任意 Neural Fields 的通用 3D 生成框架,以實現高效、高質量、可控的 3D 生成。
3D-aware VAE : 高效信息壓縮
首先,和圖片 / 視頻生成模型類似,3D 隱空間生成模型需要與之適配的 VAE 模型來實現高效的信息壓縮。為了更好地兼容 3D 模態,相較于直接使用 SD VAE 模型來進行信息編碼,本文選擇在大規模 3D 數據上重新訓練 3D-aware VAE 模型。
在編碼器端,研究者選擇 3D 物體的多視圖 (multi-view images) 作為 3D VAE 的輸入形式,以保留紋理建模能力并更好地兼容 2D 圖像編碼器的結構。同時將多視圖圖像、對應的深度圖以及 Plucker 相機信息作為模型輸入,并在 token 空間進行 3D-aware attention 運算以實現更好地 3D 一致性。
在解碼器端,為了實現更優的信息壓縮,研究者使用基于 3D-DiT 的 VAE 解碼器。為了更好地支持 3D-aware 操作,在 3D-DiT 解碼器端提出 Self-plane attention 與 Cross-plane attention 來使用注意力運算在 token 空間提升 3D-aware 表達能力。隨后,3D-DiT 解碼器輸出的 tokens 會逐步上采樣為 tri-plane, 并渲染成多視圖來進行目標函數計算:
其中
?為多視圖重建損失,
為 VAE KL 約束,
為物體表面幾何平滑約束,
用于提升 3D 材質真實性。在實驗數據上,研究者使用目前最大規模的開源 3D 數據集 Objaverse 來進行 VAE 訓練,并公布了 DiT-L/2 尺寸的 VAE 預訓練模型供用戶使用。
DiT-based 3D Latent Diffusion Model: 通用 3D 生成框架
在第二階段,研究者在訓練完成的 3D VAE space 上進行 conditional 的 diffusion 訓練。得益于 3D-VAE 強大的壓縮性能與隱空間的通用性,他們可以直接在壓縮得到的 3D latent space 上使用成熟的 conditional latent diffusion model 框架進行訓練。
在 ShapeNet 等較小規模數據集上,研究者使用 U-Net 模型結構進行 image-conditioned 訓練;在較大規模的 Objaverse 數據集上,研究者使用 3D-aware DiT 模型進行 image-condition 和 text-condition 兩個版本的模型訓練。得益于 3D latent space 高效的表達能力,使用有限的計算資源 (4xA100 80GB) 便可以實現高質量的 3D diffusion 訓練,并將模型尺寸 scale up 至 DiT-L/2。
實驗
數據集 ShapeNet 對比
為了與目前 3D 生成方法進行公平對比,研究者同時選擇了小規模數據集 ShapeNet 與大規模通用 3D 數據集 Objaverse 進行試驗。
結果顯示,在數據集 ShapeNet 的三個子類上,本文方法在各項指標均取得了 SoTA 的性能。相比于目前 unconditional 的生成方法,本文方法同時支持 text/image conditioned 生成。
以文本為條件的 Objaverse 3D 生成
在大規模 3D 數據集 Objaverse 上,本文基于 DiT 的 3D 生成模型支持從文本描述直接生成豐富、帶有細節紋理的高質量 3D 資產,并支持 textured-mesh 的導出。得益于原生 3D diffusion 框架的支持,生成過程僅需數秒即可完成。
在數值指標上,LN3Diff 同樣優于目前最優的原生 text-conditioned 3D 生成方法。
以圖像為條件的 Objaverse 3D 生成
考慮到 3D 內容創作更多采用圖片作為參考,本文方法同樣支持在給定單目圖片條件下實現高質量 3D 生成。相比于多視圖生成 + 重建的兩階段方法,本文方法在 3D 生成效果、多樣性以及 3D 一致性上有更穩定的表現:
模型輸入 (single image condition):
模型輸出:
模型實現 / 開源
目前項目所有模型和測試 / 訓練代碼均已全面開源至 Github/Huggingface, 并支持多卡、自動混合精度訓練、flash-attention 以及 BF16 等加速技巧。
本文轉自 機器之心 ,作者:機器之心
