成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「黑神話」級3A大作AI實時游戲生成!港科大、中科大等祭出最強擴散Transformer,火爆國外

人工智能 新聞
AI顛覆游戲產業,一場無聲革命已經開啟!繼AI游戲模型Oasis之后,港科大、中科大等機構聯手推出GameGen-X,首次實現了開放世界游戲的AI生成與交互控制。

爆火國產3A大作《黑神話·悟空》,如今也能由AI生成了?

一夜之間,國內首個實時視頻游戲生成AI,火遍全網。

致敬「西游記」

幾天前,專做推理芯片初創Etched曾推出世界首個實時生成AI游戲Oasis,每一幀都是擴散Transformer預測。

無需游戲引擎,就能實現每秒20幀實時渲染,幾乎沒有延遲。

圖片

沒想到,GameGen-X一出,再次顛覆了我們對AI游戲的認知。

來自港科大、中科大、港中文等機構聯手,提出開放世界視頻游戲生成AI,可以實時交互創建游戲。

這是首個專為生成和交互控制開放世界游戲視頻而設計的擴散Transformer模型。

圖片

論文地址:https://gamegen-x.github.io/

GameGen-X能夠模擬游戲引擎特性,實現高質量開放世界游戲生成。比如,創建新角色、動態環境、復雜動作和各種事件等等。

圖片

它還能進行交互式控制,根據當前片段預測或更改未來內容,實現游戲模擬。

圖片

有網友表示,一切都結束了,中國再次在AI游戲領域拿下第一。

圖片

還有人稱,這比Oasis看起來更好。

圖片

AI實時游戲生成,驚呆歪果仁

老黃曾說過,未來每個像素很快都將會是生成的,并非是渲染的。

不論是從谷歌GameNGen,到Oasis,再到GameGen-X,每一步的進化都在逼近這個預言。

高質量游戲生成

在游戲生成上,GameGen-X不僅能夠創建角色,還能生成動作、動態環境、各種事件、開放域。

角色生成

《巫師》的Geralt of Rivia

圖片

《荒野大鏢客:救贖2》的主角Arthur Morgan

圖片

《刺客信條》的Eivor

圖片

還有這種偏卡通風的人物——異星探險家

圖片

射擊游戲中的機械戰警RoboCop,機器人角色生成很賽博。

圖片

環境生成

不論是春夏秋冬四季,還是山川湖海,各種名勝古跡,都能實時生成。

圖片

圖片

圖片

圖片

動作生成

騎摩托車第一人稱視角,以及第三人稱視角。

圖片

圖片

駕馬車

圖片

飛行

圖片

事件生成

下雨、下雪、打雷、日起日落、火災、沙塵暴、海嘯.....

圖片

圖片

圖片

開放域生成

在中國城漫游的賽博和尚

圖片

血月下的幽靈

圖片

穿著斗篷的旅行者走在火星上

圖片

多模態交互控制

在多模態交互中,GameGen-X能夠支持結構化指令提示、外設操作信號、視頻提示的生成。

結構化指令提示

同在沙漠中行走的旅人,你可以通過提示要求,讓背景實時變幻。

天空之火

圖片

黑暗與星星

圖片

日落時分

圖片

霧出現

圖片

操作信號

游戲中角色向左向右移動,一句話的事。

圖片

圖片

視頻提示

提供一個Canny提示的視頻

圖片

接下來,就會得到

圖片

又或者提供一個運動失量的視頻

圖片

就會生成一個揚沙的視頻

圖片

GameGen-X技術

GameGen-X擅長生成多樣化和創造性的游戲內容,包括動態環境、多變的角色、引人入勝的事件和復雜的動作,樹立了該領域的新標桿。

更為震撼的是,它還提供了交互式可控性,并首次將角色交互和場景內容控制統一起來。

AI根據當前片段預測和更改未來內容,從而實現游戲模擬,賦予了游戲更多的真實性。

它首先生成一個視頻片段,以設置環境和角色。

隨后,利用當前視頻片段和多模態用戶控制信號,生成動態響應用戶輸入的視頻片段。

這一過程可被視為模擬現實一般的體驗,因為這一過程中,環境和角色都是動態發展的!

圖片

GameGen-X的訓練過程分為兩個階段,包括基礎模型預訓練和指令微調。

首先,通過在OGameData-GEN數據集上的文本到視頻的生成和視頻延續對模型進行預訓練,使其具備生成長序列、高質量開放世界游戲視頻的能力。

此外,為了實現交互可控性,研究團隊在設計InstructNet時納入了與游戲相關的多模態信號控制專家系統。

這使得模型能夠根據用戶輸入微調潛表征,首次在視頻生成中將角色交互和場景內容的調控統一起來。

在指令微調過程中,為了保證不損失生成視頻內容的多樣性和質量的情況下,實現多模態交互式控制,模型引入了 InstructNet。具體來說,InstructNet 的主要目的是根據指令修改未來的預測。

當沒有給出用戶輸入信號時,視頻自然延伸。因此會將預先訓練好的基礎模型凍結,只利用OGameData-INS數據集更新InstructNet,從而將用戶輸入(如游戲環境動態的結構化文本指令和角色動作與操作的鍵盤控制)映射到生成的游戲內容上。

總之,GameGen-X代表了使用生成模型進行開放世界視頻游戲設計的一次重大飛躍。它展示了生成模型作為傳統渲染技術輔助工具的潛力,有效地將創意生成與交互能力融合在一起。

圖片

首個開放世界游戲視頻數據集OGameData

為了促進交互式控制游戲生成領域的發展,研究團隊構建了開放世界視頻游戲數據集(Open-World Video Game Dataset,OGameData),這是首個專為游戲視頻生成和交互式控制精心設計的大規模數據集。

它提供游戲特定知識,并包含游戲名稱、玩家視角和角色細節等元素。該數據集從150多款下一代游戲中收集而來,其中包括評分、篩選、排序和結構化注釋。

圖片

OGameData的構建與處理流程

如表1所示,OGameData包含100萬個高分辨率視頻片段,來源從幾分鐘到幾小時不等。

與其他特定領域的數據集相比,OGameData在文本-視頻對的規模、多樣性和豐富性方面脫穎而出。

即使與最新的開放域生成數據集Miradata相比,仍然具有提供更多細粒度注釋的優勢,其在單位時間內提供的注釋甚至是Miradata數據集的2倍多!

圖片

該數據集具有幾個主要特點:OGameData 具有高度精細的文本,并擁有大量可訓練的視頻-文本對,從而提高了模型訓練中文本-視頻的一致性。

此外,它還包括兩個子集:生成數據集(OGameData-GEN)和指令數據集(OGameData-INS)。

其中OGameData-GEN專門用于訓練生成基礎模型,而OGameData-INS則針對指令微調和交互式控制任務進行了優化。

圖片

OGameData-GEN需要制作詳細的注釋來描述游戲元數據、場景背景和關鍵角色,以確保生成基礎模型訓練所需的全面文本描述。

相比之下,OGameData-INS使用基于指令的簡明注釋,突出顯示初始幀和后續幀之間的差異,重點是描述游戲場景的變化,以便進行交互式生成。

圖片

這種結構化注釋方法可實現精確的生成和細粒度的控制,允許模型在保留場景的同時修改特定元素。該數據集的高質量得益于10多位人類專家的精心設計。

每個視頻片段都配有使用GPT-4o生成的注釋,以保持清晰度和連貫性,并確保數據集不受用戶界面和視覺偽影的影響。

模型架構

在將視頻片段進行編碼時,為解決時空信息冗余問題,GameGen-X引入了三維時空變分自編碼器(3D-VAE),將視頻片段壓縮為潛表征。

這種壓縮技術可以對具有較長幀序列的高分辨率視頻進行高效訓練。

具體來說,3D-VAE首先進行空間下采樣以獲得幀級潛特征。此外,它還進行了時間組合,以捕捉時間依賴性并有效減少幀上的冗余。

通過3D-VAE對視頻片段進行處理,可以得到一個具有空間-時間信息并降低了維度的潛張量。這樣的張量可以支持長視頻和高分辨率模型訓練,滿足游戲內容生成的要求。

GameGen-X還引入了掩碼時空擴散Transformer(Masked Spatial-Temporal Diffusion Transformer,MSDiT)。

具體來說,MSDiT結合了空間注意力、時間注意力和交叉注意力機制,可有效生成由文本提示引導的游戲視頻。

對于每個時間步長t,模型會處理捕捉幀細節的潛特征z。

空間注意力通過對空間維度(H′、W′)的自注意力來增強幀內關系。時間注意通過在時間維度F′上進行操作,捕捉幀間的依賴關系,從而確保幀間的一致性。

交叉注意力整合了通過文本編碼器T5獲得的外部文本特征的指導,使視頻生成與文本提示的語義信息保持一致。

而掩碼機制則可以在擴散處理過程中,將某些幀從噪聲添加和去噪中屏蔽掉。

如圖4所示,整體框架采用了將成對的空間和時間區塊堆疊在一起的設計,其中每個區塊都配備了交叉注意和空間或時間注意力機制。

圖片

這樣的設計使模型能夠同時捕捉空間細節、時間序列動態和文本引導,從而使GameGen-X能夠生成高保真、時間上一致的視頻,并與所提供的文本提示緊密結合。

負責實現交互式控制的指令微調的部分由N個InstructNet模塊組成,每個模塊利用專門的操作集成式專家層和指令集成式專家層來整合不同的條件。

輸出特征被注入到基礎模型中以融合原始潛在特征,根據用戶輸入調制潛在表征,并有效地將輸出與用戶意圖對齊,這使用戶能夠影響角色動作和場景動態。

InstructNet主要通過視頻連續訓練來模擬游戲中的控制和反饋機制。此外,還在初始幀中巧妙地添加了高斯噪聲,以減少誤差累積。

實驗結果

為了全面評估GameGen-X在生成高質量、逼真且可交互控制的視頻游戲內容方面的能力,研究團隊采用了一套十分細致的度量標準。

包括Fréchet Inception Distance(FID)、Fréchet Video Distance(FVD)、文本視頻對齊(TVA)、用戶偏好度(UP)、運動平滑度(MS)、動態度(DD)、主體一致性(SC) 和成像質量(IQ)。

表2對比了GameGen-X和4個知名開源模型,即Mira、OpenSora Plan1.2、OpenSora1.2和CogVideoX-5B。

值得注意的是,Mira和OpenSora1.2都明確提到在游戲數據上進行訓練,而其他兩個模型雖然不是專門為此目的設計的,但仍然可以在類似環境中滿足某些生成需求。

結果顯示,GameGen-X在FID、FVD、TVA、MS和SC等指標上表現良好。這表明GameGen-X在生成高質量和連貫的視頻游戲內容方面具有優勢,同時保持了競爭性的視覺和技術質量。

圖片

此外,團隊還使用了有條件的視頻片段和密集提示詞來評估模型的生成響應。

其中,新引入的指標——成功率(SR),負責衡量模型對控制信號的準確響應頻率。這是由人類專家和PLLaVA共同評估的。

SR指標分為兩部分:角色動作的成功率(SR-C),評估模型對角色動作的響應能力,以及環境事件的成功率(SR-E),評估模型對天氣、光照和物體變化的處理能力。

如表3所示,GameGen-X在控制能力方面優于其他模型,突顯了其在生成上下文適宜和互動性游戲內容方面的有效性。

在生成性能方面,有著8fps視頻的CogVideo和場景頻繁變化的OpenSora1.2,獲得了更高的DD。

圖片

圖5展示了GameGen-X在生成各種角色、環境、動作和事件的多樣化生成能力。

這些例子顯示模型可以創建刺客和法師等角色,模擬櫻花森林和熱帶雨林等環境,執行飛行和駕駛等復雜動作,并重現暴風雪和暴雨等環境事件。

圖片

圖6展示了GameGen-X根據文本指令和鍵盤輸入控制環境事件和角色動作的能力。

在提供的示例中,模型有效地操控了場景的各個方面,如光照條件和大氣效果,突顯了其模擬不同時間和天氣條件的能力。此外,角色的動作,主要涉及環境中的導航,通過輸入的鍵盤信號得到精確控制。

通過調整光照和大氣等環境因素,模型提供了一個逼真而沉浸的環境。同時,管理角色動作的能力確保生成的內容能夠直觀地響應用戶的互動。

通過這些能力,GameGen-X展示出了在提升開放世界電子游戲模擬的真實感和參與度方面的潛力。

圖片

如圖7所示,GameGen-X在角色細節、視覺環境和鏡頭邏輯方面更好地滿足了游戲內容的要求,這得益于嚴格的數據集收集和OGameData的構建。

圖片

此外,GameGen-X還與包括Kling、Pika、Runway、Luma和Tongyi在內的其他商業產品進行了比較,如圖8所示。

在左側部分,即最初生成的視頻片段中,只有Pika、Kling1.5和GameGen-X正確地遵循了文本描述。其他模型要么未能顯示角色,要么將其描繪為進入洞穴而非退出。

在右側部分,GameGen-X和Kling1.5都成功引導角色走出洞穴。GameGen-X實現了高質量的控制響應,同時保持了一致的鏡頭邏輯,并遵循了類似游戲的體驗。這得益于整體訓練框架和InstructNet的設計。

圖片

結論

OGameData的開發為模型訓練提供了重要的基礎,使其能夠捕捉開放世界游戲的多樣性和復雜性。而通過兩階段的訓練過程,GameGen-X實現了內容生成和交互控制之間的相互增強,從而實現了豐富且身臨其境般的模擬體驗。

除了技術貢獻之外,更重要的是:GameGen-X 還為游戲內容設計的未來開辟了新的視野。它表明游戲設計與開發有可能轉向更加自動化、數據驅動的流程,從而顯著減少游戲內容早期創建所需的手動工作。

通過利用模型來創建身臨其境的世界和交互式游戲玩法,我們可能對于玩家自己通過創造性的探索來構建一個游戲的未來越來越近了。

盡管挑戰依然存在,GameGen-X代表了游戲設計中向新穎范式邁出的重大飛躍。它為未來的研究和開發奠定了基礎,也為生成模型成為創建下一代交互式數字世界的不可或缺的工具鋪平了道路。

團隊介紹

Haoxuan Che

圖片

Haoxuan Che正在香港科技大學(HKUST)攻讀計算機科學與工程博士學位。他的主要研究興趣在于計算機視覺、醫學圖像分析和可信賴人工智能。

在加入香港科技大學之前,我曾畢業于西北工業大學(NWPU),獲得了軟件與微電子學院的軟件工程學士學位。

Xuanhua He(何炫華)

圖片

何炫華目前是中國科學技術大學的碩士生,由Jie Zhang和Chengjun Xie教授指導。他于2022年在廈門大學獲得了軟件工程學士學位,師從Yongxuan Lai教授。

他的研究興趣集中在計算機視覺領域,特別是圖像超分辨率、圖像增強和視頻生成。此前,他還曾曾探索過遙感圖像處理和聯邦學習。

責任編輯:張燕妮 來源: 新智元
相關推薦

2021-12-06 09:53:09

自然語言神經網絡人工智能

2023-08-21 13:49:00

圖像技術

2025-01-16 10:05:00

3D模型代碼

2013-06-19 11:32:32

計算性能ISCHPC

2025-06-10 09:07:00

2024-06-17 07:10:00

2025-01-09 09:29:57

2024-04-07 09:00:00

數據模型

2012-11-23 10:15:55

SCC12全球超級計算大會

2021-05-07 09:34:20

量子芯片計算機

2023-03-17 07:59:57

AI數字化

2025-04-18 09:13:00

2022-03-28 10:32:28

AI功能手勢

2017-03-23 17:09:45

2022-02-25 23:49:31

量子研究

2021-11-17 16:13:45

IBM 處理器量子

2024-11-11 17:27:26

2013-08-21 15:13:17

英特爾中科大洋廣電行業
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 夜久久| 成年男女免费视频网站 | 欧美日韩综合精品 | 国产一级一级毛片 | 精品一区二区三区在线播放 | 免费在线观看成人av | 色橹橹欧美在线观看视频高清 | 91精品国产乱码久久久久久久 | 国产在线观 | 成人在线电影网站 | 精品免费 | 日韩精品一区二区久久 | 久久久黄色 | 国产亚洲精品a | 国产精品日韩欧美一区二区三区 | 国产精品高潮呻吟久久 | 午夜合集 | 日韩黄色小视频 | 久久综合爱 | 久久成 | 久久69精品久久久久久久电影好 | 精品九九久久 | 欧美激情在线一区二区三区 | 国产一区二区三区在线 | 欧美一卡二卡在线观看 | 欧美一级高潮片免费的 | 日韩精彩视频 | 国产精品美女久久久 | 在线观看中文字幕视频 | 欧美成人a∨高清免费观看 欧美日韩中 | 男女午夜免费视频 | 久久精品亚洲精品国产欧美 | 国产精品一区二区三级 | 日韩一区二区av | 高清久久久| 91精品国产综合久久精品图片 | 精品无码三级在线观看视频 | 国产成人综合网 | 91秦先生艺校小琴 | 鸳鸯谱在线观看高清 | 亚洲一区二区三区在线视频 |