成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從20億數據中學習物理世界,基于Transformer的通用世界模型成功挑戰視頻生成

人工智能 新聞
它把視頻生成轉換為一個序列預測任務,可以對物理世界的變化和運動規律進行充分地學習。

建立會做視頻的世界模型,也能通過Transformer來實現了!

來自清華和極佳科技的研究人員聯手,推出了全新的視頻生成通用世界模型——WorldDreamer。

它可以完成自然場景和自動駕駛場景多種視頻生成任務,例如文生視頻、圖生視頻、視頻編輯、動作序列生視頻等。

圖片

據團隊介紹,通過預測Token的方式來建立通用場景世界模型,WorldDreamer是業界首個。

它把視頻生成轉換為一個序列預測任務,可以對物理世界的變化和運動規律進行充分地學習。

可視化實驗已經證明,WorldDreamer已經深刻理解了通用世界的動態變化規律。

那么,它都能完成哪些視頻任務,效果如何呢?

支持多種視頻任務

圖像生成視頻(Image to Video)

WorldDreamer可以基于單一圖像預測未來的幀。

只需首張圖像輸入,WorldDreamer將剩余的視頻幀視為被掩碼的視覺Token,并對這部分Token進行預測。

如下圖所示,WorldDreamer具有生成高質量電影級別視頻的能力。

其生成的視頻呈現出無縫的逐幀運動,類似于真實電影中流暢的攝像機運動。

而且,這些視頻嚴格遵循原始圖像的約束,確保幀構圖的顯著一致性。

圖片

文本生成視頻(Text to Video)

WorldDreamer還可以基于文本進行視頻生成。

僅僅給定語言文本輸入,此時WorldDreamer認為所有的視頻幀都是被掩碼的視覺Token,并對這部分Token進行預測。

下圖展示了WorldDreamer在各種風格范式下從文本生成視頻的能力。

生成的視頻與輸入語言無縫契合,其中用戶輸入的語言可以塑造視頻內容、風格和相機運動。

圖片

視頻修改(Video Inpainting)

WorldDreamer進一步可以實現視頻的inpainting任務。

具體來說,給定一段視頻,用戶可以指定mask區域,然后根據語言的輸入可以更改被mask區域的視頻內容。

如下圖所示,WorldDreamer可以將水母更換為熊,也可以將蜥蜴更換為猴子,且更換后的視頻高度符合用戶的語言描述。

圖片

視頻風格化(Video Stylization)

除此以外,WorldDreamer可以實現視頻的風格化。

如下圖所示,輸入一個視頻段,其中某些像素被隨機掩碼,WorldDreamer可以改變視頻的風格,例如根據輸入語言創建秋季主題效果。

圖片

基于動作合成視頻(Action to Video)

WorldDreamer也可以實現在自動駕駛場景下的駕駛動作到視頻的生成。

如下圖所示,給定相同的初始幀以及不同的駕駛策略(如左轉、右轉),WorldDreamer可以生成高度符合首幀約束以及駕駛策略的視頻。

圖片

那么,WorldDreamer又是怎樣實現這些功能的呢?

用Transformer構建世界模型

研究人員認為,目前最先進的視頻生成方法主要分為兩類——基于Transformer的方法和基于擴散模型的方法。

利用Transformer進行Token預測可以高效學習到視頻信號的動態信息,并可以復用大語言模型社區的經驗,因此,基于Transformer的方案是學習通用世界模型的一種有效途徑。

而基于擴散模型的方法難以在單一模型內整合多種模態,且難以拓展到更大參數,因此很難學習到通用世界的變化和運動規律。

而當前的世界模型研究主要集中在游戲、機器人和自動駕駛領域,缺乏全面捕捉通用世界變化和運動規律的能力。

所以,研究團隊提出了WorldDreamer來加強對通用世界的變化和運動規律的學習理解,從而顯著增強視頻生成的能力。

借鑒大型語言模型的成功經驗,WorldDreamer采用Transformer架構,將世界模型建模框架轉換為一個無監督的視覺Token預測問題。

具體的模型結構如下圖所示:

圖片

WorldDreamer首先使用視覺Tokenizer將視覺信號(圖像和視頻)編碼為離散的Token。

這些Token在經過掩蔽處理后,輸入給研究團隊提出的Sptial Temporal Patchwuse Transformer(STPT)模塊。

同時,文本和動作信號被分別編碼為對應的特征向量,以作為多模態特征一并輸入給STPT。

STPT在內部對視覺、語言、動作等特征進行充分的交互學習,并可以預測被掩碼部分的視覺Token。

最終,這些預測出的視覺Token可以用來完成各種各樣的視頻生成和視頻編輯任務。

圖片

值得注意的是,在訓練WorldDreamer時,研究團隊還構建了Visual-Text-Action(視覺-文本-動作)數據的三元組,訓練時的損失函數僅涉及預測被掩蔽的視覺Token,沒有額外的監督信號。

而在團隊提出的這個數據三元組中,只有視覺信息是必須的,也就是說,即使在沒有文本或動作數據的情況下,依然可以進行WorldDreamer的訓練。

這種模式不僅降低了數據收集的難度,還使得WorldDreamer可以支持在沒有已知或只有單一條件的情況下完成視頻生成任務。

研究團隊使用大量數據對WorldDreamer進行訓練,其中包括20億經過清洗的圖像數據、1000萬段通用場景的視頻、50萬段高質量語言標注的視頻、以及近千段自動駕駛場景視頻。

團隊對10億級別的可學習參數進行了百萬次迭代訓練,收斂后的WorldDreamer逐漸理解了物理世界的變化和運動規律,并擁有了各種的視頻生成和視頻編輯能力。

論文地址:https://arxiv.org/abs/2401.09985
項目主頁:https://world-dreamer.github.io/

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-05-24 12:53:06

AI訓練

2023-12-12 13:52:00

數據訓練

2025-04-08 09:30:00

模型AI機器人

2024-05-13 12:53:06

AI模型

2024-10-22 09:40:00

模型生成

2025-02-14 09:30:00

視頻生成模型開源機器人

2024-04-18 12:16:37

MetaAIOpenEQA

2024-02-19 08:58:00

模型AI

2023-11-03 13:07:00

AI模型

2024-03-05 11:18:14

模型訓練

2023-10-23 10:11:36

自動駕駛技術

2023-12-13 13:49:00

模型訓練

2023-12-20 14:54:29

谷歌Gen-2視頻

2022-06-10 12:38:07

物聯網IOT

2024-11-08 09:11:24

2023-07-21 15:05:04

人工智能智能汽車數字技術

2024-10-05 08:10:01

2024-07-01 13:02:53

2025-05-23 09:07:39

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人国产在线视频 | 免费观看www | 亚av在线| 欧美日韩精品一区二区天天拍 | 成人高清在线视频 | 免费的av网站 | 久久久99精品免费观看 | 国产精品久久久久久吹潮 | 一区二区三区视频免费观看 | 欧美日韩一区二区三区在线观看 | av毛片| 青青草一区 | 久久久久综合 | 一区二区三区小视频 | 欧美日韩国产欧美 | 欧美日韩在线播放 | 国产成人高清 | 亚洲视频在线观看免费 | www狠狠干| 天天插天天射天天干 | 亚洲国产精品99久久久久久久久 | 欧美成人一区二区 | 91精品国产乱码久久久久久久久 | 中文字幕在线观看日韩 | 亚洲欧美少妇 | 大伊人久久 | 国产亚洲精品一区二区三区 | 国产伦精品一区二区三区照片91 | av手机免费在线观看 | 黄色大片在线免费观看 | 99pao成人国产永久免费视频 | 成人不卡 | 免费国产一区二区视频 | 成人精品| 欧美高清性xxxxhd | 中文字幕欧美日韩 | 中文字幕精品一区二区三区精品 | 欧美日韩一区二区在线播放 | 日韩综合色 | 欧美久久影院 | 欧美日在线 |