成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ECCV 2024 | 像ChatGPT一樣,聊聊天就能實(shí)現(xiàn)三維場景編輯

人工智能 新聞
CE3D 打破現(xiàn)有 3D 場景編輯方法的范式,實(shí)現(xiàn)了多模態(tài)編輯模型和 3D 場景表示模型間的完全解耦,因此可以兼容任意的 2D 和 3D 的視覺模型。

論文《Chat Edit 3D: Interactive 3D Scene Editing via Text Prompts》的作者包括來自北京航空航天大學(xué)博士生方雙康、北京航空航天大學(xué)副研究員王玉峰,谷歌AI技術(shù)主管Tsai Yi-Hsuan,曠視高級研究員楊弋,北京航空航天大學(xué)研究員丁文銳,曠視首席科學(xué)家周舒暢,加州大學(xué)默塞德分校和谷歌DeepMind研究科學(xué)家Yang Ming-Hsuan教授。


圖片


  • 項(xiàng)目地址:https://sk-fun.fun/CE3D/
  • 代碼:https://github.com/Fangkang515/CE3D/tree/main
  • 論文:https://arxiv.org/abs/2407.06842
  • 機(jī)構(gòu):北航 & 谷歌 & 曠視 

1. 一句話概括

本文設(shè)計(jì)了一種由大語言模型驅(qū)動的、可集成任意數(shù)量視覺模型的交互式三維場景編輯框架,其文本形式不再受限、編輯能力不再單一。

(對話式 3D 場景編輯過程示例視頻)

2. 引言

現(xiàn)有的文本驅(qū)動 3D 場景編輯方法通常局限于固定的文本輸入形式和受限的編輯能力。用戶需要使用固定形式的文本指令或單一的 diffusion 多模態(tài)模型來實(shí)現(xiàn)所需的效果。比如 InstructNeRF2NeRF 只能使用 “指令式文本” 且編輯能力受限于 InstructPix2Pix 模型。然而,實(shí)際應(yīng)用中,用戶的語言是及其豐富的,用戶的編輯需要也是多種多樣的,現(xiàn)有方法的設(shè)計(jì)范式均無法滿足用戶的訴求。

為了突破這些限制,本文提出了一種全新的 3D 場景編輯新范式 —CE3D。該方法將 3D 場景的編輯變成在 2D 空間上圖集的編輯,實(shí)現(xiàn)對現(xiàn)有方法的 “降維打擊”。降維后可利用大規(guī)模語言模型實(shí)現(xiàn)靈活且高效的任意模型的集成,大大豐富了文本對話能力和場景編輯能力。

3. 本文方法 CE3D

CE3D,即 Chat-Edit-3D。其核心思想是通過大規(guī)模語言模型解析用戶的任意文本輸入,并自主調(diào)用相應(yīng)的視覺模型來完成 3D 場景的編輯。為了實(shí)現(xiàn)任意視覺模型的集成,本文先設(shè)計(jì) Hash-Atlas 的映射網(wǎng)絡(luò),將對 3D 場景的編輯轉(zhuǎn)換為對 2D 空間內(nèi)的圖集編輯操作,從而實(shí)現(xiàn)了 2D 多視角編輯與 3D 場景重建過程的完全解耦,因此,本文將無需固定的 3D 表示形式和 2D 編輯方法。用戶想用什么視覺模型就可以用什么視覺模型。

3.1 Hash-Atlas 網(wǎng)絡(luò)

Hash-Atlas 網(wǎng)絡(luò)將 3D 場景的不同視圖映射到 2D 圖集中,從而將 3D 場景編輯過程轉(zhuǎn)移到 2D 空間中執(zhí)行。為了實(shí)現(xiàn)適配已有 2D 多模態(tài)編輯模型,映射后的圖集需要滿足以下條件:(1)防止圖集中出現(xiàn)過多的扭曲和傾斜,以維持視覺模型的理解能力;(2)前景和背景圖集應(yīng)大致對齊,以確保精確編輯;(3)需要更快、更精確的映射,以便于高效編輯。為了滿足這些條件,本研究設(shè)計(jì)了一個(gè)基于哈希結(jié)構(gòu)的網(wǎng)絡(luò),如圖所示:

圖片

圖 1 Hash-Atlas 網(wǎng)絡(luò)示意圖

假設(shè)場景中有 T 個(gè)視圖,點(diǎn)圖片在第 t 個(gè)視圖中被函數(shù)圖片映射到兩個(gè)不同的 UV 坐標(biāo):

圖片

其中圖片表示在兩個(gè) UV 空間中的坐標(biāo)。參數(shù)圖片在 0 到 1 之間,表示前景圖集中像素值權(quán)重。然后使用圖片預(yù)測在 UV 坐標(biāo)中對應(yīng)的前景和背景圖集的 RGB 值:

圖片

其中圖片采用哈希結(jié)構(gòu)來捕捉圖像中的紋理細(xì)節(jié),并實(shí)現(xiàn)更快的模型訓(xùn)練和推理。在圖集中獲得像素值圖片后,可以按如下方式重建場景視圖中點(diǎn)P的原始像素: 

圖片

當(dāng)圖集被編輯后,可以通過上式還原帶有編輯效果的 3D 場景的每個(gè)視圖,而無需重新訓(xùn)練哈希圖集網(wǎng)絡(luò)。為了確保得到的圖集更加自然以及避免物體過度傾斜和扭曲,在模型訓(xùn)練的早期階段,僅使用來自第 0 個(gè)視圖的圖片,此時(shí)預(yù)訓(xùn)練位置損失定義如下:

圖片

此損失函數(shù)鼓勵(lì)坐標(biāo)映射后場景在第 0 個(gè)視圖中的位置變化最小。此外,圖片的預(yù)訓(xùn)練涉及初步通過 VQA 模型確定場景的前景及其對應(yīng)的掩碼,通過分割模型獲得假設(shè)前景掩碼為圖片,則圖片的預(yù)訓(xùn)練損失定義如下:

圖片

其中 CE 表示交叉熵?fù)p失,等式右側(cè)第二項(xiàng)則鼓勵(lì)圖片和前景圖集的稀疏性,這有助于前景和背景圖集內(nèi)容的明確分離。完成預(yù)訓(xùn)練后,可以通過監(jiān)督圖集重建視圖來訓(xùn)練整個(gè)模型。但直接進(jìn)行訓(xùn)練會導(dǎo)致背景圖集中明顯的區(qū)域遺漏,影響了后續(xù)的編輯任務(wù)。為了解決這個(gè)問題,本文引入了修補(bǔ)損失。具體而言,利用 ProPainter 模型對遮罩背景進(jìn)行初步修補(bǔ),生成一組新的修補(bǔ)視圖。假設(shè)原始視圖中的點(diǎn) P 在修補(bǔ)視圖中對應(yīng)于圖片,則重建損失可以表示如下:

圖片

其中 圖片表示從場景的原始視圖或修補(bǔ)視圖中獲得的真實(shí)值。此外在場景上引入剛性和流動約束:其中圖片的目的是保持不同點(diǎn)之間的相對空間位置不發(fā)生劇烈變化。與此同時(shí)圖片鼓勵(lì)將不同視圖的對應(yīng)點(diǎn)映射到圖集上的同一位置。因此,總損失可以表示如下:

圖片

其中圖片僅在初始訓(xùn)練階段使用。

完成 3D 場景映射到 2D 圖集后,可以在圖集上完成場景的編輯,然而直接編輯兩個(gè)圖集再將其映射回場景視圖,通常不會得到令人滿意的編輯結(jié)果,這主要是因?yàn)閱蝹€(gè)圖集包含的場景信息不完整,尤其是在稀疏的前景圖集中。這一限制使得編輯模型無法獲得完整的場景語義,從而無法始終實(shí)現(xiàn)可靠的編輯。因此,本研究設(shè)計(jì)了一種合并 - 拆分策略來編輯圖集。在此過程中,首先利用 ChatGPT 的解析功能和 VQA 模型來識別編輯區(qū)域,如果這些區(qū)域涉及前景內(nèi)容,則將前景圖集覆蓋在背景圖集上,作為實(shí)際的編輯圖集。隨后使用原始的前景掩碼和新的對象掩碼將編輯后的圖集分離開來。

3.2 基于大語言模型的對話框架: CE3D

圖片

圖 2 交互式編輯方法 CE3D 示意圖

如圖所示,CE3D 的基本流程如下:(1)根據(jù)用戶的文本查詢,ChatGPT 解釋文本并確定是否需要在此次對話中使用視覺工具;(2)當(dāng)需要視覺工具時(shí),ChatGPT 將從模型庫中調(diào)用所需的工具并為它們提供相應(yīng)的參數(shù);(3)后端進(jìn)一步查詢要調(diào)用的圖集和其他文件。如果圖集不存在,后端首先使用 Hash-Atlas 網(wǎng)絡(luò)獲取它們;(4)執(zhí)行器執(zhí)行視覺工具以編輯圖集,并將新的狀態(tài)反饋給 ChatGPT 以便后續(xù)操作。編輯后的圖集通過 Hash-Atlas 網(wǎng)絡(luò)映射回 3D 場景視圖,以進(jìn)行后續(xù)的場景重建;(5)由于一次對話可能需要多次模型調(diào)用,ChatGPT 重復(fù)上述過程,直到確定不再需要視覺工具。然后前端將編輯結(jié)果和 ChatGPT 的輸出回復(fù)給用戶。

作為一種語言模型,ChatGPT 無法直接訪問文本以外的信息。然而,由于編輯過程中涉及的文件眾多,不可能將所有文件作為文本輸入 ChatGPT。因此,本研究中用格式為 “xxx.scn” 的字符串來表示所涉及的文件。這個(gè)字符串是唯一且無意義的,以防止 ChatGPT 編造場景名稱。盡管這個(gè)場景名稱并不是一個(gè)真正可讀的文件,但前端和后端的進(jìn)一步處理使得 CE3D 能夠有效處理真實(shí)文件。前端將編輯結(jié)果和 ChatGPT 的輸出整理成用戶回復(fù),而后端分發(fā)編輯過程中涉及的真實(shí)場景文件,并管理新場景的名稱和文件。

在面對用戶輸入時(shí),ChatGPT 模擬一個(gè)思考過程:“我需要使用視覺工具嗎?”→“我需要哪些工具?”→“工具的具體輸入應(yīng)該是什么?”。因此,需要預(yù)先向 ChatGPT 注入每個(gè)視覺專家的相關(guān)信息,以完成這個(gè)推理過程。本方法為每個(gè)視覺工具標(biāo)注了四個(gè)類別:工具的名稱、在什么情況下使用、所需參數(shù)和具體輸入示例。具體可閱讀開源代碼。

4. 代碼使用展示

在多輪對話編輯案例中,CE3D 能夠處理各種類型的編輯請求,例如精準(zhǔn)對象移除或替換、基于文本或圖像的風(fēng)格遷移、深度圖預(yù)測、基于文本和深度圖條件的場景再生、人體 Pose 預(yù)測、場景超分、場景分割等。此外,它還可以完成與場景相關(guān)的視覺問答任務(wù)和基本的文本對話。總之,因?yàn)槟?strong>任意擴(kuò)展視覺模型,因此編輯能力無上限!

功能太多,且能輕松擴(kuò)展,代碼已經(jīng)開源。

與其他方法的對比 (視頻對比可參看 Project Website):

圖片

圖 3. 與其它方法對比,CE3D 能實(shí)現(xiàn)更豐富的編輯能力

圖片

圖 4. 與 InstructNeRF2NeRF 相比,CE3D 的多輪對話能力和編輯能力超強(qiáng)!

5. 總結(jié)和展望

CE3D 打破現(xiàn)有 3D 場景編輯方法的范式,實(shí)現(xiàn)了多模態(tài)編輯模型和 3D 場景表示模型間的完全解耦,因此可以兼容任意的 2D 和 3D 的視覺模型。進(jìn)一步通過大語言模型的邏輯推理和語言理解能力,來實(shí)現(xiàn)對用戶文本查詢的解析和模型的自主調(diào)用管理,以實(shí)現(xiàn)對話式的 3D 場景編輯框架 CE3D。不過,雖然 CE3D 在 3D 場景編輯方面取得了顯著進(jìn)展,但該技術(shù)在處理 360 度場景時(shí)會遇到一些挑戰(zhàn),還有進(jìn)一步研究的空間。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-11-20 08:32:50

HTTP協(xié)議

2009-12-08 14:26:13

大型網(wǎng)絡(luò)運(yùn)維

2023-04-05 14:19:07

FlinkRedisNoSQL

2025-04-11 08:51:51

2022-12-21 15:56:23

代碼文檔工具

2023-05-23 13:59:41

RustPython程序

2013-12-31 09:19:23

Python調(diào)試

2013-12-17 09:02:03

Python調(diào)試

2023-09-06 09:20:45

FigmaWasm

2021-04-13 22:30:17

SpringBoot日志微服務(wù)

2021-05-20 08:37:32

multiprocesPython線程

2013-08-22 10:17:51

Google大數(shù)據(jù)業(yè)務(wù)價(jià)值

2015-03-16 12:50:44

2019-10-25 19:42:41

華為

2020-12-07 10:10:22

企業(yè)文化客戶體驗(yàn)

2011-01-18 10:45:16

喬布斯

2012-06-08 13:47:32

Wndows 8Vista

2015-02-05 13:27:02

移動開發(fā)模塊SDK

2023-02-23 15:35:14

人工智能ChatGPT聊天機(jī)器人

2021-10-20 10:29:57

AI 數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 综合五月婷 | 奇米久久久 | 在线欧美日韩 | 欧美亚洲激情 | 日韩欧美在线观看 | 国产精品免费一区二区三区 | 天堂中文资源在线 | 99精品国产一区二区三区 | 久久成人国产 | 欧美一区二区大片 | 精品毛片在线观看 | 久久四虎| 日韩精品一区在线观看 | 中文在线播放 | 91精品国产91久久综合桃花 | 偷拍自拍第一页 | 国产精品精品视频一区二区三区 | 国产精品欧美一区二区三区不卡 | 亚洲精品一区二区三区蜜桃久 | 精品一区二区在线观看 | 水蜜桃亚洲一二三四在线 | 99精品国产一区二区三区 | 亚洲午夜三级 | 精品自拍视频 | 免费视频一区 | www.788.com色淫免费 | 色综合国产| 欧美在线不卡 | 成人精品一区二区 | 国偷自产av一区二区三区 | 国产三级在线观看播放 | 成人免费看电影 | 人人人艹 | 一级特黄色毛片 | 日韩成人专区 | 亚洲视频在线一区 | 欧美中文字幕一区二区三区亚洲 | 美国一级黄色片 | 欧美男人天堂 | 91视频进入| a在线观看|