2D圖像作中介，零訓(xùn)練實(shí)現(xiàn)3D場(chǎng)景生成SOTA：英偉達(dá)&康奈爾提出文本驅(qū)動(dòng)新流程

2025-06-12 14:29:14

能否讓 2D 圖像充當(dāng) "中間商"，先把用戶輸入文字轉(zhuǎn)化為高質(zhì)量場(chǎng)景圖，再?gòu)闹刑崛?3D 信息？NVIDIA 與康奈爾大學(xué)聯(lián)合團(tuán)隊(duì)的最新研究 ArtiScene，正是基于這一 insight 提出的全新解決方案。

本文第一作者顧澤琪是康奈爾大學(xué)計(jì)算機(jī)科學(xué)四年級(jí)博士生，導(dǎo)師為 Abe Davis 教授和 Noah Snavely 教授，研究方向?qū)Ｗ⒂谏墒?AI 與多模態(tài)大模型。本項(xiàng)目為作者在英偉達(dá)實(shí)習(xí)期間完成的工作。

想象一下，你是一位游戲設(shè)計(jì)師，正在為一個(gè)奇幻 RPG 游戲搭建場(chǎng)景。你需要?jiǎng)?chuàng)建一個(gè) "精靈族樹(shù)屋村落"—— 參天古木和樹(shù)屋、發(fā)光的蘑菇路燈、半透明的紗幔帳篷... 傳統(tǒng)工作流程中，這可能需要數(shù)周時(shí)間：先手工建模每個(gè) 3D 資產(chǎn)，再逐個(gè)調(diào)整位置和材質(zhì)，最后反復(fù)測(cè)試光照效果…… 總之就是一個(gè)字，難。

這種困境正是當(dāng)前 3D 內(nèi)容創(chuàng)作領(lǐng)域的縮影。傳統(tǒng) 3D 設(shè)計(jì)軟件如 Blender、Maya 雖然功能強(qiáng)大，但學(xué)習(xí)曲線陡峭。近年來(lái)興起的文本生成 3D 技術(shù)讓用戶可以通過(guò)文字描述生成 3D 內(nèi)容，但這些方法要么依賴有限的 3D 訓(xùn)練數(shù)據(jù)，遇到新場(chǎng)景類型或風(fēng)格就容易翻車(chē)，要么在預(yù)測(cè)完場(chǎng)景中的物體信息后，要從特定的 3D 模型池中尋找并調(diào)用出與預(yù)測(cè)特征最相近的，因此最后的場(chǎng)景質(zhì)量非常依賴于模型池中到底有什么，很容易導(dǎo)致風(fēng)格不統(tǒng)一。

與此同時(shí)，文本生成 2D 圖像技術(shù)（如 GPT-4o、Flux）卻突飛猛進(jìn)。這些模型通過(guò)海量互聯(lián)網(wǎng)圖像訓(xùn)練，已經(jīng)能生成布局合理、風(fēng)格統(tǒng)一的復(fù)雜場(chǎng)景圖。這引發(fā)了一個(gè)關(guān)鍵思考：能否讓 2D 圖像充當(dāng) "中間商"，先把用戶輸入文字轉(zhuǎn)化為高質(zhì)量場(chǎng)景圖，再?gòu)闹刑崛?3D 信息？NVIDIA 與康奈爾大學(xué)聯(lián)合團(tuán)隊(duì)的最新研究 ArtiScene，正是基于這一 insight 提出的全新解決方案。

文章鏈接：https://arxiv.org/abs/2506.00742
文章網(wǎng)站：https://artiscene-cvpr.github.io/（代碼即將開(kāi)源）
英偉達(dá)網(wǎng)站：https://research.nvidia.com/labs/dir/artiscene/

圖一：ArtiScene 生成的 3D 結(jié)果。從左到右的文字輸入分別是，第一行：(1) a Barbie-styled clinic room, (2) a space-styled bedroom, (3) a teenager-styled bathroom。第二行：(1) a cute living room, (2) a garage, (3) a operating room.

核心貢獻(xiàn)：無(wú)需訓(xùn)練的智能 3D 場(chǎng)景工廠

ArtiScene 的核心創(chuàng)新在于構(gòu)建了一個(gè)完全無(wú)需額外訓(xùn)練的自動(dòng)化流水線，將文本生成圖像的前沿能力與 3D 重建技術(shù)巧妙結(jié)合。它一共包含五步：

1. 2D 圖像作為 "設(shè)計(jì)藍(lán)圖"

系統(tǒng)首先用擴(kuò)散模型生成等軸測(cè)視角的場(chǎng)景圖。這種視角常用于建筑設(shè)計(jì)示意圖，因?yàn)樗芡瑫r(shí)呈現(xiàn)物體的長(zhǎng)、寬、高信息，且不受場(chǎng)景位置影響。相比直接生成 3D，這種方法能利用更成熟的 2D 生成技術(shù)確保布局合理性和視覺(jué)美感。

圖二：和其他任意的相機(jī)視角（左二、三）比，讓文生圖模型輸出等軸測(cè)圖（左一）更可靠，因?yàn)榈容S測(cè)圖默認(rèn)相機(jī)參數(shù)是固定的，且沒(méi)有透視形變。

2. 物體檢測(cè)與修復(fù)

采用兩階段檢測(cè)策略：先用 GroundedDINO 識(shí)別場(chǎng)景中的家具和裝飾品，對(duì)遮擋部分用補(bǔ)全修復(fù)（Remove Anything 模型），再次檢測(cè)確保完整性，最后得到每個(gè)物品的分割掩碼。

3. 3D 空間定位

通過(guò) Depth-Anything-2 模型估計(jì)深度信息，配合自定義投影公式將 2D 坐標(biāo)轉(zhuǎn)換為 3D 位置。團(tuán)隊(duì)發(fā)現(xiàn)傳統(tǒng)相機(jī)投影公式需要調(diào)整，于是采用去除深度縮放影響后的公式。

4. 模塊化 3D 資產(chǎn)生成

傳統(tǒng)方法通常從現(xiàn)有數(shù)據(jù)庫(kù)檢索 3D 模型，導(dǎo)致美觀度受限。ArtiScene 則對(duì)場(chǎng)景圖中的每個(gè)物體分別生成定制化 3D 模型：在得到分割物體圖像后，讓 ChatGPT 描述其幾何特征，再輸入單視圖 3D 生成模型，為每件家具、裝飾品單獨(dú)建模。

5. 場(chǎng)景組裝

通過(guò)單目深度估計(jì)，系統(tǒng)將 2D 邊界框轉(zhuǎn)換為 3D 空間坐標(biāo)。并使用 "渲染 - 比對(duì)" 的姿勢(shì)估測(cè)機(jī)制，生成 8 個(gè)旋轉(zhuǎn)角度的物體渲染圖，用 Stable Diffusion+DINO-v2 融合模型提取特征，選擇與原始場(chǎng)景圖最匹配的姿勢(shì)。后處理階段還會(huì)自動(dòng)修正物體重疊，確保物理上足夠合理，比如椅子不會(huì)嵌進(jìn)餐桌里，花瓶能穩(wěn)穩(wěn)立在柜子上。

圖三：系統(tǒng)流程圖

這種設(shè)計(jì)帶來(lái)三個(gè)顯著優(yōu)勢(shì)：

?零訓(xùn)練成本：完全利用現(xiàn)成模型，無(wú)需針對(duì)新場(chǎng)景類型微調(diào)

?風(fēng)格無(wú)限：每個(gè)物體都按需生成，不受預(yù)制模型庫(kù)限制

?可編輯性強(qiáng)：?jiǎn)为?dú)修改某個(gè)物體不會(huì)影響整體場(chǎng)景

實(shí)驗(yàn)結(jié)果：全面超越現(xiàn)有方案

團(tuán)隊(duì)在三個(gè)維度進(jìn)行了系統(tǒng)評(píng)估：

1. 布局合理性測(cè)試

對(duì)比當(dāng)時(shí)最強(qiáng)的 LayoutGPT，在臥室和客廳場(chǎng)景中：

物體重疊率降低 6-10 倍（臥室 6.48% vs 37.26%）
用戶調(diào)研顯示，72.58% 的參與者更青睞 ArtiScene 的布局
生成家具數(shù)量更多（臥室平均 6.97 件 vs 4.30 件），且分布更自然

2. 風(fēng)格一致性測(cè)試

相比當(dāng)時(shí)效果最好的文生 3D 場(chǎng)景方法 Holodeck，在包含 29 種場(chǎng)景種類和風(fēng)格的測(cè)試集中：

CLIP 分?jǐn)?shù)提高 10%（29.45 vs 26.73）
GPT-4 評(píng)估中，95.46% 案例認(rèn)為 ArtiScene 更符合描述
用戶調(diào)研顯示，82.96% 認(rèn)為風(fēng)格還原更準(zhǔn)確

圖四：和之前的 SOTA Holodeck 的比較。

3. 應(yīng)用靈活性展示

系統(tǒng)支持多種實(shí)用功能：

物體編輯：?jiǎn)为?dú)修改某個(gè)模型（如把普通汽車(chē)變成黃色保時(shí)捷）
多場(chǎng)景適配：通過(guò)調(diào)整參數(shù)支持戶外場(chǎng)景生成
人工引導(dǎo)：允許直接輸入手繪設(shè)計(jì)圖替代 AI 生成場(chǎng)景圖

圖五：左：物體編輯；右：跳過(guò)最開(kāi)始的文生圖環(huán)節(jié)，直接用人工畫(huà)的圖生成場(chǎng)景。

展望

對(duì)于更復(fù)雜的多房間場(chǎng)景（如整個(gè)博物館、醫(yī)院），或者要求特定家具間的位置關(guān)系和個(gè)數(shù)等用戶輸入，由于文生圖模型在訓(xùn)練時(shí)就缺乏相關(guān)數(shù)據(jù)，ArtiScene 在最開(kāi)始就會(huì)受限于不夠優(yōu)質(zhì)的二維圖像。然而，這一模塊是可更換的，ArtiScene 不依賴于某一特定模型，未來(lái)如果有性能更好的同功能模型，我們也可以很容易把它們替換進(jìn)來(lái)。

本項(xiàng)目創(chuàng)新地采用二維圖像來(lái)引導(dǎo)三維場(chǎng)景生成，并用 LLM、VLM 等大模型構(gòu)成了一個(gè)魯棒的系統(tǒng)，在生成結(jié)果的美觀度、多樣性和物理合理性上都遠(yuǎn)超之前的同類型方法。作者希望他們的工作可以啟發(fā)未來(lái)更多關(guān)于具身智能、AR/VR、室內(nèi) / 室外設(shè)計(jì)的思考。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心