震撼!AI實時生成游戲,每秒20幀輸出,DeepMind擴散模型最新突破一夜爆火 精華
“比Sora還震撼”,?AI可以實時生成游戲了!
谷歌DeepMind打造出了首個完全AI驅(qū)動的實時游戲引擎——GameNGen。
在單個谷歌TPU上,它以每秒20幀模擬起了經(jīng)典射擊類游戲DOOM(毀滅戰(zhàn)士)。
所有游戲畫面都是根據(jù)玩家操作,與復雜環(huán)境進行交互,實時生成。
也就是說你走進一道門之前,門后的內(nèi)容還不存在。
質(zhì)量不輸事先存儲的那種,能“以假亂真”,人類評估者都難以察覺。
各種操作都能絲滑轉(zhuǎn)換:
GameNGen的背后是大家熟悉的擴散模型。
從論文題目就重新定義了游戲引擎:擴散模型是實時游戲引擎。
網(wǎng)友們看到這項研究一時間炸開了鍋,推特、Reddit上相關(guān)帖子熱度持續(xù)不減,誰發(fā)誰火。
不少人表示它提供了一條全新的技術(shù)路徑:
我覺得人們還沒有意識到這有多瘋狂。我是一名開發(fā)人員,專門負責將生成式?AI集成到游戲引擎中,所以我很清楚我在說什么。
這是構(gòu)建虛擬事物的基礎(chǔ)。未來它或許能夠普及到它能夠獲取數(shù)據(jù)的任何視頻游戲,隨后,可能還能為尚未存在的游戲生成數(shù)據(jù),創(chuàng)造新游戲。
作者Shlomi Fruchter也開麥了:
這對我來說是一個個人里程碑,也是從手工編寫在GPU上運行的顯式渲染代碼到訓練同樣在GPU上運行的神經(jīng)網(wǎng)絡(luò)的完整回環(huán),感覺圓滿了。
那么,GameNGen究竟是如何做到的?
用擴散模型造AI DOOMers
GameNGen訓練過程分為兩個主要階段。
首先,訓練一個強化學習Agent來玩游戲,并記錄過程中所有動作、技能和觀察數(shù)據(jù)。這些記錄成為第二階段的訓練數(shù)據(jù)集。
為生成盡可能貼近人類游戲行為的訓練數(shù)據(jù),研究人員設(shè)計了一個簡單的、特定于環(huán)境的獎勵函數(shù),根據(jù)一系列特定的游戲情況來分配分數(shù),條件包括:
玩家被擊中、敵人被消滅、撿起物品或武器、生命值變化、彈藥變化……
在第二階段,基于預訓練的Stable Diffusion v1.4來預測下一幀,模型以過去的幀序列和動作作為條件輸入,并進行了一些關(guān)鍵修改。
具體來說,首先移除了所有文本條件,替換為動作序列。每個動作被編碼為一個單一的token,通過交叉注意力機制與模型交互。
歷史觀察(即之前的幀)被編碼到潛在空間,并與當前噪聲化的潛在表示在通道維度上拼接。
為了解決自回歸生成中的誤差累積,即自回歸漂移問題,GameNGen引入了噪聲增強技術(shù)。
在訓練時,模型對輸入的上下文幀添加不同程度的高斯噪聲,并將噪聲級別作為額外輸入提供給模型。這使得模型能夠?qū)W習糾正之前采樣中的錯誤,對維持長時間序列的圖像質(zhì)量至關(guān)重要。
此外,為了提高圖像質(zhì)量,特別是在細節(jié)和HUD(平視顯示器)方面,研究者對Stable Diffusion的預訓練自編碼器的解碼器部分進行了微調(diào)。這個過程使用MSE損失,針對目標幀像素進行優(yōu)化。
在推理階段,GameNGen使用DDIM采樣方法,并采用了無分類器引導技術(shù),但僅用于過去觀察的條件。研究者發(fā)現(xiàn),對過去動作條件使用引導并不能提高質(zhì)量。
值得注意的是,模型僅使用4步DDIM采樣就能產(chǎn)生高質(zhì)量的結(jié)果,這大大提高了生成速度。
GameNGen在TPU-v5硬件上運行,單個去噪器步驟和自編碼器評估各需要10毫秒。
通過使用4步采樣和單次自編碼器評估,系統(tǒng)能夠達到每秒20幀的生成速度,足以實現(xiàn)實時交互式游戲體驗。
人類難以分辨真實和AI生成
實驗中,在短時軌跡上,人類評估者幾乎無法區(qū)分模擬畫面與實際游戲畫面。
研究人員使用了兩種主要的圖像質(zhì)量評估方法:基于感知的圖像相似度度量方法LPIPS和衡量圖像質(zhì)量的常用指標PSNR。
在teacher-forcing設(shè)置中,模型單幀預測質(zhì)量PSNR為29.43,LPIPS為0.249。PSNR的值與20-30質(zhì)量設(shè)置下的有損JPEG壓縮相似。
換句話說,GameNGen在模擬圖像時能夠在一定程度上保持較高的視覺質(zhì)量,盡管可能存在一些壓縮帶來的細節(jié)損失。
視頻質(zhì)量方面,對于長度為16 幀(0.8 秒)和32幀(1.6 秒)的模擬,F(xiàn)VD分別為114.02、186.23。
在人類評估方面,研究人員為10 名人類評估者提供了130個隨機短片段(1.6秒和3.2 秒的長度),并將模擬與真實游戲并排展示。
在1.6秒和3.2秒的片段中,人類僅有58%、60%的概率能正確區(qū)分真實游戲和模擬。
基于Diffusion的最新突破
除了被效果驚艷到,不少研究者還表示這項研究沒有那么簡單,它是一種基于擴散模型的最新突破。
動作條件化的世界模型已更進一步!神經(jīng)網(wǎng)絡(luò)模擬在擴展實際交互數(shù)據(jù)方面具有巨大潛力,特別是在物理模擬器表現(xiàn)不佳的領(lǐng)域。
不過,在一片好評聲中,也有網(wǎng)友指出,論文很好,但稱其為“游戲引擎”不太妥當:
希望他們能說“渲染引擎”而不是“游戲引擎”。
游戲引擎是一個讓一群人創(chuàng)造東西的工具,它將繼續(xù)存在,特別是與任何集成的超級AI共存。顯然,今天的游戲引擎已經(jīng)過時,但我們已經(jīng)在構(gòu)建下一代引擎了。
對于一些人評論這些模型將取代傳統(tǒng)游戲引擎,也有網(wǎng)友持不同的觀點。
一位a16z的游戲和3D技術(shù)領(lǐng)域投資人、前Unity員工給出了他的看法:
諷刺的是,訓練這些模型需要從傳統(tǒng)游戲引擎輸入控制器動作和輸出幀作為訓練數(shù)據(jù)。
雖然我認為這些由擴散模型實時生成的幀最終會改變我們體驗游戲的方式,但我仍然認為專業(yè)開發(fā)者需要一個3D場景圖來進行觸感控制和創(chuàng)造性表達。
開發(fā)者可能會使用更傳統(tǒng)的3D創(chuàng)作引擎創(chuàng)建游戲的“灰盒”版本,然后一個圖像到圖像的模型實時提升分辨率(類似于英偉達的DLSS技術(shù))。
未來,消費者將能體驗從文本直接創(chuàng)造游戲或虛擬世界的全新方式。但在我看來,專業(yè)工作流程中仍然會有3D場景圖的一席之地。
你怎么看GameNGen這項研究?它會給未來游戲行業(yè)帶來何種改變?
項目主頁:https://gamengen.github.io/
論文鏈接:https://arxiv.org/pdf/2408.14837
本文轉(zhuǎn)自 量子位 ,作者:量子位
