成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!

發(fā)布于 2024-7-17 10:34
瀏覽
0收藏

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

文章鏈接:https://arxiv.org/abs/2407.06842
項(xiàng)目地址:https://sk-fun.fun/CE3D/
代碼:https://github.com/Fangkang515/CE3D/tree/main  

引言

過去的3D場景編輯方法往往局限于固定的文本輸入模式和有限的編輯能力。用戶需要學(xué)習(xí)特定的命令或特定的多模態(tài)模型來實(shí)現(xiàn)所需的效果。而且,這些方法通常只能進(jìn)行簡單的編輯,難以實(shí)現(xiàn)復(fù)雜的場景變換。然而實(shí)際應(yīng)用中,用戶的語言是及其豐富的,用戶的編輯需要也是多種多樣的,當(dāng)前的方法的設(shè)計范式均無法滿足用戶的訴求。

為了突破這些限制,本文提出了一種全新的3D場景編輯新范式—CE3D。該方法基于大規(guī)模語言模型,通過解耦2D編輯和3D重建過程,實(shí)現(xiàn)了靈活且高效的任意模型的集成,大大豐富了文本對話能力和場景編輯能力。

什么是CE3D?

CE3D,即Chat-Edit-3D,對話式3D場景編輯的突破。它的核心思想是通過大規(guī)模語言模型解析用戶的任意文本輸入,并自主調(diào)用相應(yīng)的視覺模型來完成3D場景的編輯。為了實(shí)現(xiàn)任意視覺模型的集成,CE3D設(shè)計了名為Hash-Atlas的映射網(wǎng)絡(luò),將3D場景的編輯轉(zhuǎn)換為2D圖集空間內(nèi)的操作,從而實(shí)現(xiàn)了2D編輯與3D重建過程的完全解耦,從此無需再指定固定的3D表示形式和2D編輯方法。

文章主要貢獻(xiàn)如下:

  1. Hash-Atlas映射網(wǎng)絡(luò):通過將3D場景的編輯轉(zhuǎn)化為2D圖集的操作,避免了傳統(tǒng)管道架構(gòu)中的3D模型和2D模型間復(fù)雜耦合的問題。
  2. 對話框架:借助大規(guī)模語言模型,CE3D能夠解析用戶文本輸入,生成相應(yīng)的響應(yīng),并管理多種視覺模型和場景文件。
  3. 實(shí)驗(yàn)結(jié)果:CE3D展示了強(qiáng)大的擴(kuò)展性,兼容各種現(xiàn)有的2D和3D視覺模型,支持多輪對話,并在文本解析、編輯能力和交互自然性方面顯著優(yōu)于以往方法 。

方法

首先說明CE3D 整體pipeline(下圖3),然后介紹Hash-Atlas網(wǎng)絡(luò)的設(shè)計、atlas空間中的編輯策略以及CE3D中對話系統(tǒng)的組件。

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

Hash-Atlas網(wǎng)絡(luò)

本節(jié)介紹了一種簡單的方法,將場景的各個視圖直接映射到2D圖集上,從而將3D場景編輯過程重新定位到2D空間中。類似的技術(shù)最初用于將視頻幀映射到圖集,需要連續(xù)幀和平滑的攝像機(jī)運(yùn)動,這與本文中使用的3D場景數(shù)據(jù)不同。為了實(shí)現(xiàn)本文所述的編輯功能,圖集應(yīng)滿足以下條件:

  1. 防止圖集中的過度失真和傾斜,以保持視覺模型的理解。
  2. 前景和背景圖集應(yīng)大致對齊,以確保精確編輯。
  3. 需要更快且更精確的映射,以促進(jìn)高效編輯。

Hash-Atlas公式

為了滿足上述條件,設(shè)計了一個基于哈希結(jié)構(gòu)的網(wǎng)絡(luò),如下圖4所示。

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

當(dāng)圖集被編輯后,通過方程3可以在不重新訓(xùn)練Hash-Atlas網(wǎng)絡(luò)的情況下恢復(fù)3D場景每個視圖的編輯效果。

訓(xùn)練和損失項(xiàng)

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

在圖集空間中編輯

本文發(fā)現(xiàn),直接編輯兩個圖集然后將它們映射回場景視圖通常不會產(chǎn)生令人滿意的編輯結(jié)果。這主要是因?yàn)閱蝹€圖集包含的場景信息不完整,特別是在稀疏的前景圖集中。這種限制使得編輯模型無法獲取完整的場景語義,從而始終無法實(shí)現(xiàn)可靠的編輯。因此,設(shè)計了一種用于編輯圖集的合并-拆分策略。在此過程中,利用ChatGPT的解析能力和VQA模型來識別編輯區(qū)域。如果這些區(qū)域涉及前景內(nèi)容,我們將前景圖集覆蓋在背景圖集上,并將其作為實(shí)際的編輯圖集。隨后,使用原始前景mask和新對象mask來分離編輯后的圖集。用“執(zhí)行器”來表示實(shí)際的編輯過程,如前面圖3所示。

對話系統(tǒng)

對場景名稱的敏感度

作為一種語言模型,ChatGPT無法直接訪問文本以外的信息。然而,考慮到編輯過程中涉及的大量文件,將所有這些文件作為文本輸入到ChatGPT中是不現(xiàn)實(shí)的。因此,用格式為‘xxx.scn’的單個字符串來表示所涉及的文件。這個字符串是唯一且無意義的,以防止ChatGPT捏造場景名稱。盡管這個場景名稱并不是一個真正可讀的文件,但通過前端和后端的進(jìn)一步處理,CE3D可以有效地處理真實(shí)文件。前端將編輯結(jié)果和ChatGPT的輸出組織成用戶回復(fù),而后端則分發(fā)編輯過程中涉及的真實(shí)場景文件,并管理新場景的名稱和文件。

用戶查詢的推理

在面對用戶輸入時,ChatGPT模擬一個思考過程:“我需要使用視覺工具嗎?”→“我需要哪些工具?”→“這些工具的具體輸入應(yīng)該是什么?”。因此,預(yù)先向ChatGPT注入每個視覺專家的信息以完成這個推理過程是至關(guān)重要的。類似于[62, 66],將每個視覺工具標(biāo)注為四個類別:工具名稱、在什么情況下使用、所需參數(shù)和具體輸入示例。

編輯能力展示

在多輪對話編輯案例中,CE3D能夠處理各種類型的編輯請求,例如精準(zhǔn)對象移除或替換、基于文本或圖像的風(fēng)格遷移、深度圖預(yù)測、基于文本和深度圖條件的場景再生、人體Pose預(yù)測、場景超分、場景分割等。此外,它還可以完成與場景相關(guān)的視覺問答任務(wù)和基本的文本對話。總之,因?yàn)槟苋我鈹U(kuò)展視覺模型,因此編輯能力無上限!

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

未來展望

雖然CE3D在3D場景編輯方面取得了顯著進(jìn)展,但研究人員表示,這項(xiàng)技術(shù)仍有改進(jìn)空間。例如,在處理360度全景場景時可能會遇到一些挑戰(zhàn),還有進(jìn)一步研究的空間。

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

本文轉(zhuǎn)自  AI生成未來 ,作者:Shuangkang Fang


原文鏈接:??https://mp.weixin.qq.com/s/570z8iGkH6Wsz9MBI2Ta9A??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日韩精品无码一区二区三区 | 天天干亚洲 | 欧美激情综合五月色丁香小说 | 自拍偷拍亚洲视频 | 精品福利在线 | 精品国产乱码久久久久久闺蜜 | 国产精品久久久久一区二区三区 | 欧美日韩久久 | 午夜视频一区 | 超碰在线网站 | 色爱综合网 | 性精品| 天天干在线播放 | 免费视频二区 | 丝袜美腿av| 国产精品人人做人人爽 | 欧美二区三区 | 色视频一区二区 | 99爱在线| 久久国产精品-久久精品 | 中文字幕综合 | 欧美日韩电影一区 | 国产日本精品视频 | 午夜视频一区二区 | 久久精品亚洲欧美日韩久久 | 日日摸夜夜爽人人添av | 国产草草视频 | 久久国产成人精品国产成人亚洲 | 成人在线观看免费视频 | 亚洲精品一区二区三区蜜桃久 | 女女百合av大片一区二区三区九县 | 日韩欧美在线视频播放 | 国产在线视频一区二区 | 国产精品日韩在线观看 | 91偷拍精品一区二区三区 | 亚洲精品电影在线观看 | 日韩高清在线 | 国产精品日韩欧美 | 国产精品综合一区二区 | 毛片一级片 | 欧美日韩精品一区 |