成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大

發(fā)布于 2025-5-23 10:17
瀏覽
1收藏

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2505.14357 
項(xiàng)目鏈接:https://knightnemo.github.io/vid2world/ 

生成效果速覽

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

亮點(diǎn)直擊

  • 首個系統(tǒng)性探索如何將全序列、非因果、被動的視頻擴(kuò)散模型遷移為自回歸、交互式、動作條件的世界模型的問題。
  • 提出Vid2World,一個通用且高效的解決方案,包含了將視頻擴(kuò)散模型因果化和動作條件化的多項(xiàng)新穎技術(shù)。
  • Vid2World在多個領(lǐng)域中都達(dá)到了SOTA,為這一關(guān)鍵問題建立了新的基準(zhǔn),并為未來研究提供了有力支持。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

將視頻傳播模型轉(zhuǎn)換為交互式世界模型涉及兩個關(guān)鍵挑戰(zhàn)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 現(xiàn)有世界模型的局限性:傳統(tǒng)世界模型在順序決策中雖然具有效率優(yōu)勢,但通常依賴大量特定領(lǐng)域的數(shù)據(jù)訓(xùn)練,且生成結(jié)果粗糙、保真度低,難以適應(yīng)復(fù)雜環(huán)境。
  • 視頻擴(kuò)散模型的潛力未被充分利用:盡管大規(guī)模預(yù)訓(xùn)練的視頻擴(kuò)散模型具備生成高質(zhì)量、真實(shí)世界動態(tài)視頻的能力,但尚未被有效遷移用于交互式世界模型中。

提出的方案

  • 提出Vid2World,一種通用方法,用于將預(yù)訓(xùn)練的視頻擴(kuò)散模型轉(zhuǎn)化為自回歸、交互式、動作條件的世界模型。
  • 該方法通過結(jié)構(gòu)調(diào)整和訓(xùn)練目標(biāo)變換,實(shí)現(xiàn)對原始被動模型的因果化處理,使其支持順序生成與交互。

應(yīng)用的技術(shù)

  • 模型因果化(Causalization):重構(gòu)視頻擴(kuò)散模型的架構(gòu)與訓(xùn)練目標(biāo),使其支持基于歷史信息的自回歸預(yù)測。
  • 因果動作引導(dǎo)機(jī)制(Causal Action Guidance):引入動作條件控制模塊,增強(qiáng)生成過程對動作的響應(yīng)能力,實(shí)現(xiàn)更強(qiáng)的交互性。
  • 遷移學(xué)習(xí):將大規(guī)模預(yù)訓(xùn)練的視頻生成模型遷移至世界建模任務(wù),提升泛化能力與表現(xiàn)力。

達(dá)到的效果

  • Vid2World 在機(jī)器人操作游戲模擬等多個任務(wù)中取得了當(dāng)前最先進(jìn)的性能
  • 建立了該方向上的新基準(zhǔn),驗(yàn)證了將視頻擴(kuò)散模型用于世界建模的可行性與優(yōu)勢。
  • 為未來多模態(tài)世界模型的研究提供了可擴(kuò)展、高效的解決方案和技術(shù)路徑。

該研究開辟了將強(qiáng)大的視頻生成模型用于交互式世界建模的新方向,為多模態(tài)智能體的構(gòu)建提供了重要基礎(chǔ)。

方法

盡管視頻擴(kuò)散模型在生成高保真、物理上合理的序列方面表現(xiàn)出色,但其默認(rèn)形式在本質(zhì)上與交互式世界建模不兼容。具體而言,有兩個關(guān)鍵的轉(zhuǎn)換障礙尤為突出:

  1. 缺乏因果生成能力:典型的視頻擴(kuò)散模型使用雙向時間上下文生成幀,允許未來幀影響過去幀;
  2. 缺乏動作條件建模:這些模型通常基于粗粒度的視頻級輸入(例如文本提示)進(jìn)行條件建模,缺乏對細(xì)粒度、幀級動作的條件建模機(jī)制。


雖然這些設(shè)計(jì)在開放式視頻合成中非常有效,但與交互式世界建模的需求并不一致。交互式世界建模要求預(yù)測必須僅依賴于過去的觀測和動作,并且模型必須對幀級動作做出靈敏響應(yīng),準(zhǔn)確捕捉其對未來預(yù)測的影響。


本文提出了 Vid2World,這是一種將預(yù)訓(xùn)練視頻擴(kuò)散模型遷移為交互式世界模型的通用方法。Vid2World 引入了兩個關(guān)鍵修改,分別用于實(shí)現(xiàn)自回歸生成和動作條件生成。首先,本文提出了視頻擴(kuò)散因果化策略,該策略將非因果架構(gòu)轉(zhuǎn)換為時間因果變體,與后訓(xùn)練目標(biāo)兼容,同時最大限度地保留預(yù)訓(xùn)練權(quán)重。然后,引入了因果動作引導(dǎo)機(jī)制,以在推理過程中以無分類器方式實(shí)現(xiàn)逐步的交互式回滾。該方法通過輕量級嵌入層注入動作信號,并通過獨(dú)立的動作 dropout 擴(kuò)展后訓(xùn)練目標(biāo)。本文的訓(xùn)練與推理方法概覽如下圖 3 所示。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

視頻擴(kuò)散因果化

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

因果動作引導(dǎo)

雖然實(shí)現(xiàn)因果生成對于向交互式世界模型的轉(zhuǎn)變至關(guān)重要,但這些經(jīng)過改造的因果擴(kuò)散模型仍然無法提供基于動作的生成結(jié)果。已有大量工作 [1, 3, 63] 通過視頻級條件來引入動作條件,即將整個動作序列編碼為一個單一的嵌入,類似于文本到視頻生成模型中的文本嵌入。除了缺乏進(jìn)行幀級細(xì)粒度動作條件預(yù)測的能力之外,這種全局條件本質(zhì)上也與自回歸生成不兼容,因?yàn)閯幼魇侵鸩降竭_(dá)的,必須在推理過程中以在線方式處理。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

這種dropout機(jī)制直觀上鼓勵模型學(xué)習(xí)在動作序列所有可能子集條件下的分?jǐn)?shù)函數(shù)。因此,模型被迫學(xué)習(xí)當(dāng)前動作對預(yù)測轉(zhuǎn)移的影響,從而在測試時實(shí)現(xiàn)無分類器引導(dǎo)。在推理時,可以通過以下方式引導(dǎo)模型的生成結(jié)果:

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

本文提出了Vid2World,這是一種將全序列、非因果、被動視頻擴(kuò)散模型轉(zhuǎn)化為自回歸、交互式、動作條件世界模型的通用方法。通過視頻擴(kuò)散因果化,開啟了模型進(jìn)行因果生成的能力;通過因果動作引導(dǎo),我們將動作引導(dǎo)引入到交互式設(shè)置中。在算法 1 和算法 2 中提供了本文方法的偽代碼。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

實(shí)驗(yàn)

作為 Vid2World 的概念驗(yàn)證,本文采用 DynamiCrafter作為基礎(chǔ)模型,它是一個基于 U-Net 的最先進(jìn)潛在視頻擴(kuò)散模型,預(yù)訓(xùn)練于大規(guī)模網(wǎng)絡(luò)級視頻數(shù)據(jù)集,擁有 11 億個可訓(xùn)練參數(shù)。我們在多個領(lǐng)域中展示了本文方法的有效性,涵蓋現(xiàn)實(shí)世界的機(jī)器人操作和游戲仿真中的高動態(tài) 3D 場景。通過視頻預(yù)測結(jié)果以及離線策略評估等下游任務(wù),我們展示了 Vid2World 不僅獲得了與真實(shí)數(shù)據(jù)高度相似和真實(shí)感強(qiáng)的模型,還獲得了能夠在序列決策中輔助下游任務(wù)的模型。

Vid2World 在機(jī)器人操作中的應(yīng)用

機(jī)器人操作是世界模型的理想測試平臺,要求在現(xiàn)實(shí)世界物理約束下進(jìn)行時間一致、動作條件的預(yù)測,這些預(yù)測既要在視覺上真實(shí),又要在因果上可信。這些嚴(yán)格的要求使其成為評估模型可控性和保真度的嚴(yán)苛且實(shí)際相關(guān)的基準(zhǔn)。


設(shè)置。 本文使用 RT-1 數(shù)據(jù)集,這是一個涵蓋多種操作任務(wù)(包括抓取、放置、操作抽屜等)的現(xiàn)實(shí)世界機(jī)器人經(jīng)驗(yàn)集合。對于我們提出的方法,我們考慮兩種推理設(shè)置:

  • Vid2World-NAR:類似于傳統(tǒng)視頻擴(kuò)散模型和基線方法,我們在所有幀上使用相同的噪聲水平進(jìn)行去噪,同時生成整個序列,即非自回歸方式;
  • Vid2World:我們以自回歸方式對每一幀進(jìn)行去噪,并結(jié)合動作引導(dǎo)。

參考 Diffusion Forcing,在自回歸展開過程中,在生成過程中向歷史幀添加統(tǒng)一的小噪聲。

基線。 為驗(yàn)證本文方法作為遷移方法的有效性,采用多種基線,這些基線基于相同的基礎(chǔ)模型但使用不同的轉(zhuǎn)換方法,包括動作條件微調(diào)、語言條件微調(diào)、ControlNet和分類器引導(dǎo)。按照基線實(shí)現(xiàn)中的訓(xùn)練和驗(yàn)證集劃分進(jìn)行模型訓(xùn)練。


評估指標(biāo)。 對于評估指標(biāo),本文采用常用的視頻生成指標(biāo),用于衡量模型生成結(jié)果與真實(shí)幀序列在像素級或語義上的相似性。這些指標(biāo)包括 Fréchet Video Distance (FVD) 、Fréchet Image Distance (FID)、結(jié)構(gòu)相似度指數(shù) (SSIM)、學(xué)習(xí)感知圖像塊相似度 (LPIPS) 和峰值信噪比 (PSNR)。

結(jié)果。 如下表 1 所示,Vid2World 在非自回歸和自回歸設(shè)置下均展現(xiàn)出強(qiáng)大的量化性能,表現(xiàn)優(yōu)于或可與其他遷移方法相媲美。在非自回歸采樣設(shè)置下,Vid2World 以顯著優(yōu)勢超越所有已有方法。即使在其他基線方法無法適用的自回歸設(shè)置下,Vid2World 仍保持了與這些方法相當(dāng)甚至更優(yōu)的性能,展示了其在視頻預(yù)測方面的強(qiáng)大能力。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

Vid2World 在游戲仿真中的應(yīng)用

游戲仿真是世界建模的關(guān)鍵應(yīng)用領(lǐng)域,近年來在文獻(xiàn)中受到越來越多的關(guān)注。在該設(shè)置中,世界模型的交互性尤為關(guān)鍵,因?yàn)樗鼮闃?gòu)建神經(jīng)游戲引擎——即通過學(xué)習(xí)的動態(tài)支持實(shí)時用戶交互的模型——打開了大門。這是一個特別具有挑戰(zhàn)性的領(lǐng)域,因?yàn)槠浔举|(zhì)上具有復(fù)雜的時間動態(tài),并且動作對視覺轉(zhuǎn)換有強(qiáng)烈影響,包括快速且不連續(xù)的視角變化、豐富接觸的物體交互以及細(xì)粒度的運(yùn)動模式,要求模型能夠?qū)?fù)雜、因果交織的視覺-時序線索進(jìn)行推理。


設(shè)置。 為了探索本文方法在高度動態(tài)且視覺復(fù)雜的 3D 環(huán)境中的能力,將 Vid2World 應(yīng)用于著名視頻游戲《反恐精英:全球攻勢(CS:GO)》。使用 Pearce 等人提出的在線數(shù)據(jù)集,該數(shù)據(jù)集包含來自 Dust II 地圖的 550 萬幀(95 小時)真人在線游戲畫面。為了與基線方法進(jìn)行可比性評估,遵循 DIAMOND的設(shè)置,使用完全相同的 50 萬幀保留集(對應(yīng) 500 個片段,約 8 小時)進(jìn)行測試。DIAMOND 是一種最先進(jìn)的自回歸世界模型,它基于固定數(shù)量的歷史觀測和動作生成下一幀。采用前文中的評估指標(biāo),衡量生成視頻與真實(shí)視頻在視覺和語義上的相似性。由于 DIAMOND需要 4 幀作為條件輸入,使用四幀歷史幀初始化,并自回歸地生成幀,直到達(dá)到 16 幀的序列長度。評估指標(biāo)僅在預(yù)測幀上計(jì)算,不包括用于條件輸入的幀。


結(jié)果。 如下表 2 所示,Vid2World 在所有評估指標(biāo)上均顯著優(yōu)于 DIAMOND 的兩種配置,包括在 FVD 上相對提高 81.8%,在 FID 上提升 77.2%,相較于最優(yōu)基線配置。這些結(jié)果展示了本文方法在視覺保真度和語義一致性方面的卓越性能,顯示了將視頻擴(kuò)散模型用于交互式神經(jīng)游戲引擎的潛力。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

消融研究

為了驗(yàn)證本文提出方法的有效性,我們在自回歸設(shè)置下進(jìn)行了消融實(shí)驗(yàn)。關(guān)注兩個問題:(1)模型在交互式視頻預(yù)測設(shè)置中執(zhí)行動作引導(dǎo)的能力有多重要?(2)所提出的混合權(quán)重遷移是否能在視頻預(yù)測任務(wù)中帶來更好的遷移效果?本文在 RT-1數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),所有模型均訓(xùn)練 30k 次梯度步,以控制計(jì)算預(yù)算。考慮兩種模型變體:

  • Vid2World w/o Action Guidance:該變體在訓(xùn)練時未使用動作 dropout,導(dǎo)致模型只能在提供完整動作序列作為確定性條件時進(jìn)行生成;
  • **Vid2World w/o Mixed weight transfer (MWT)**:該變體使用 shift 權(quán)重遷移初始化時間卷積權(quán)重進(jìn)行訓(xùn)練。


如下表 3 所示,這兩種技術(shù)在 Vid2World 的卓越性能中都起到了關(guān)鍵作用。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴(kuò)散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

結(jié)論

本研究將被動視頻擴(kuò)散模型轉(zhuǎn)化為交互式世界模型。提出了Vid2World,引入了兩個關(guān)鍵機(jī)制——視頻擴(kuò)散因果化和因果動作引導(dǎo)——以支持自回歸、動作條件的生成。大量實(shí)驗(yàn)表明,Vid2World 在視頻預(yù)測任務(wù)中達(dá)到了最先進(jìn)的性能,同時也有效支持了下游決策任務(wù)。盡管本研究標(biāo)志著一次成功的初步嘗試,但仍有大量空間可供進(jìn)一步探索。首先,由于計(jì)算資源限制,僅采用了相對輕量的視頻擴(kuò)散模型作為基礎(chǔ)模型,我們預(yù)期探索更大規(guī)模的模型有望帶來更優(yōu)性能。其次,訓(xùn)練過程仍然相對耗時。期待未來的方法能夠在更少的訓(xùn)練步數(shù)下實(shí)現(xiàn)相當(dāng)或更優(yōu)的性能。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/e1WHdDVP1ePPmUnD-FXebQ??

標(biāo)簽
1
收藏 1
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 欧美又大粗又爽又黄大片视频 | 精品视频在线播放 | 日韩在线观看 | 久久精品欧美一区二区三区不卡 | 无码日韩精品一区二区免费 | 国产免费一区二区 | 黄色片免费在线观看 | 久久久女女女女999久久 | 日韩综合色 | 亚洲国产黄色av | 国产精品一卡 | 亚洲一区二区在线播放 | 久久久久久久久久久久久91 | 日韩久久久久 | 91高清免费 | 日韩免费av网站 | 日韩精品在线看 | 国产精品久久av | 国产精品123区 | 成人免费视频网址 | 欧美在线天堂 | 亚洲精品在线观看网站 | 精品国产一区二区三区性色av | 国产精品久久久久久久久久久久久 | 午夜寂寞福利视频 | 羞羞网站在线观看 | 中文字幕亚洲精品 | 不卡一区二区三区四区 | 欧美性视频在线播放 | 成人在线激情 | 亚洲免费在线视频 | 成人av观看| 久久精品久久精品 | 亚洲区在线 | 国产精品成人在线观看 | 精品视频一区二区三区四区 | 欧美成人自拍 | 夜夜精品视频 | 亚洲精品久久久久中文字幕二区 | 欧美一区二区三区在线看 | 男人亚洲天堂 |