編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！

發(fā)布于 2024-7-17 10:34

瀏覽

0收藏

編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！-AI.x社區(qū)

文章鏈接：https://arxiv.org/abs/2407.06842
項(xiàng)目地址：https://sk-fun.fun/CE3D/
代碼：https://github.com/Fangkang515/CE3D/tree/main

引言

過去的3D場景編輯方法往往局限于固定的文本輸入模式和有限的編輯能力。用戶需要學(xué)習(xí)特定的命令或特定的多模態(tài)模型來實(shí)現(xiàn)所需的效果。而且,這些方法通常只能進(jìn)行簡單的編輯,難以實(shí)現(xiàn)復(fù)雜的場景變換。然而實(shí)際應(yīng)用中，用戶的語言是及其豐富的，用戶的編輯需要也是多種多樣的，當(dāng)前的方法的設(shè)計范式均無法滿足用戶的訴求。

為了突破這些限制，本文提出了一種全新的3D場景編輯新范式—CE3D。該方法基于大規(guī)模語言模型，通過解耦2D編輯和3D重建過程，實(shí)現(xiàn)了靈活且高效的任意模型的集成，大大豐富了文本對話能力和場景編輯能力。

什么是CE3D？

CE3D，即Chat-Edit-3D，對話式3D場景編輯的突破。它的核心思想是通過大規(guī)模語言模型解析用戶的任意文本輸入，并自主調(diào)用相應(yīng)的視覺模型來完成3D場景的編輯。為了實(shí)現(xiàn)任意視覺模型的集成，CE3D設(shè)計了名為Hash-Atlas的映射網(wǎng)絡(luò)，將3D場景的編輯轉(zhuǎn)換為2D圖集空間內(nèi)的操作，從而實(shí)現(xiàn)了2D編輯與3D重建過程的完全解耦，從此無需再指定固定的3D表示形式和2D編輯方法。

文章主要貢獻(xiàn)如下：

Hash-Atlas映射網(wǎng)絡(luò)：通過將3D場景的編輯轉(zhuǎn)化為2D圖集的操作，避免了傳統(tǒng)管道架構(gòu)中的3D模型和2D模型間復(fù)雜耦合的問題。
對話框架：借助大規(guī)模語言模型，CE3D能夠解析用戶文本輸入，生成相應(yīng)的響應(yīng)，并管理多種視覺模型和場景文件。
實(shí)驗(yàn)結(jié)果：CE3D展示了強(qiáng)大的擴(kuò)展性，兼容各種現(xiàn)有的2D和3D視覺模型，支持多輪對話，并在文本解析、編輯能力和交互自然性方面顯著優(yōu)于以往方法。

方法

首先說明CE3D 整體pipeline（下圖3），然后介紹Hash-Atlas網(wǎng)絡(luò)的設(shè)計、atlas空間中的編輯策略以及CE3D中對話系統(tǒng)的組件。

編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！-AI.x社區(qū)

Hash-Atlas網(wǎng)絡(luò)

本節(jié)介紹了一種簡單的方法，將場景的各個視圖直接映射到2D圖集上，從而將3D場景編輯過程重新定位到2D空間中。類似的技術(shù)最初用于將視頻幀映射到圖集，需要連續(xù)幀和平滑的攝像機(jī)運(yùn)動，這與本文中使用的3D場景數(shù)據(jù)不同。為了實(shí)現(xiàn)本文所述的編輯功能，圖集應(yīng)滿足以下條件：

防止圖集中的過度失真和傾斜，以保持視覺模型的理解。
前景和背景圖集應(yīng)大致對齊，以確保精確編輯。
需要更快且更精確的映射，以促進(jìn)高效編輯。

Hash-Atlas公式

為了滿足上述條件，設(shè)計了一個基于哈希結(jié)構(gòu)的網(wǎng)絡(luò)，如下圖4所示。

編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！-AI.x社區(qū)

當(dāng)圖集被編輯后，通過方程3可以在不重新訓(xùn)練Hash-Atlas網(wǎng)絡(luò)的情況下恢復(fù)3D場景每個視圖的編輯效果。

訓(xùn)練和損失項(xiàng)

編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！-AI.x社區(qū)

在圖集空間中編輯

本文發(fā)現(xiàn)，直接編輯兩個圖集然后將它們映射回場景視圖通常不會產(chǎn)生令人滿意的編輯結(jié)果。這主要是因?yàn)閱蝹€圖集包含的場景信息不完整，特別是在稀疏的前景圖集中。這種限制使得編輯模型無法獲取完整的場景語義，從而始終無法實(shí)現(xiàn)可靠的編輯。因此，設(shè)計了一種用于編輯圖集的合并-拆分策略。在此過程中，利用ChatGPT的解析能力和VQA模型來識別編輯區(qū)域。如果這些區(qū)域涉及前景內(nèi)容，我們將前景圖集覆蓋在背景圖集上，并將其作為實(shí)際的編輯圖集。隨后，使用原始前景mask和新對象mask來分離編輯后的圖集。用“執(zhí)行器”來表示實(shí)際的編輯過程，如前面圖3所示。

對話系統(tǒng)

對場景名稱的敏感度

作為一種語言模型，ChatGPT無法直接訪問文本以外的信息。然而，考慮到編輯過程中涉及的大量文件，將所有這些文件作為文本輸入到ChatGPT中是不現(xiàn)實(shí)的。因此，用格式為‘xxx.scn’的單個字符串來表示所涉及的文件。這個字符串是唯一且無意義的，以防止ChatGPT捏造場景名稱。盡管這個場景名稱并不是一個真正可讀的文件，但通過前端和后端的進(jìn)一步處理，CE3D可以有效地處理真實(shí)文件。前端將編輯結(jié)果和ChatGPT的輸出組織成用戶回復(fù)，而后端則分發(fā)編輯過程中涉及的真實(shí)場景文件，并管理新場景的名稱和文件。

用戶查詢的推理

在面對用戶輸入時，ChatGPT模擬一個思考過程：“我需要使用視覺工具嗎？”→“我需要哪些工具？”→“這些工具的具體輸入應(yīng)該是什么？”。因此，預(yù)先向ChatGPT注入每個視覺專家的信息以完成這個推理過程是至關(guān)重要的。類似于[62, 66]，將每個視覺工具標(biāo)注為四個類別：工具名稱、在什么情況下使用、所需參數(shù)和具體輸入示例。

編輯能力展示

在多輪對話編輯案例中，CE3D能夠處理各種類型的編輯請求，例如精準(zhǔn)對象移除或替換、基于文本或圖像的風(fēng)格遷移、深度圖預(yù)測、基于文本和深度圖條件的場景再生、人體Pose預(yù)測、場景超分、場景分割等。此外，它還可以完成與場景相關(guān)的視覺問答任務(wù)和基本的文本對話。總之，因?yàn)槟苋我鈹U(kuò)展視覺模型，因此編輯能力無上限！

編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！-AI.x社區(qū)