微軟發布創新大模型:一張圖片就能生成游戲,游戲界ChatGPT來了
微軟在官網發布了專用于游戲領域的創新大模型——Muse。
雖然Muse基于Transformer架構,但創建游戲場景的方式卻非常獨特,并不依賴傳統的文本提示,而是通過游戲畫面和控制器操作的序列化數據作為輸入提示,從而生成連貫的游戲場景和玩法,同時更符合游戲機制和物理規則的游戲內容。
例如,僅通過一張游戲截圖,Muse 就能迅速生成多個可能的后續游戲畫面,并通過 Xbox 手柄控制角色生成與開發者操作相匹配的后續游戲內容,游戲開發效率非常高。
游戲開發是一個高度復雜的過程,涉及創意構思、角色設計、場景搭建、玩法策劃等多個環節,需要眾多專業人員協同合作。
以一個小型獨立游戲工作室開發新游戲關卡為例,CEO 提出新角色概念后,角色開發人員需花費數天甚至數周時間繪制概念草圖并反復修改,隨后3D模型師進行建模,動畫師負責角色動畫制作,程序員編寫角色行為代碼,最后由關卡設計師與環境師共同打造適配的關卡。
整個流程繁瑣復雜,且需要大量的創意投入和時間成本。現在,通過Muse可以輕松完成這些復雜的開發流程。
Muse架構簡單介紹
Muse與ChatGPT一樣使用了著名的Transformer作為核心架構。為了將游戲畫面和玩家操作轉化為模型能夠處理的序列化數據,還引入了VQGAN圖像編碼器。
VQGAN的作用是將游戲畫面中的每一幀圖像編碼為一系列離散的tokens,不僅保留了原始圖像的關鍵信息,還能夠被Transformer模型高效處理。
每個游戲畫面被編碼為540個離散tokens,這些標記構成了模型輸入的一部分,幫助模型能夠在生成過程中靈活地處理圖像數據,同時保持對游戲畫面細節的高保真度。
玩家的操作也被離散化處理,以適配模型的輸入格式。玩家控制器的按鈕操作被直接編碼為離散值,而搖桿的連續操作則被劃分為11個離散區間。
在訓練過程中,Muse利用了大規模的計算資源和優化策略,例如,1.6B參數的Muse模型在訓練時使用了高達1×1022算力,使得模型能夠在復雜的3D游戲環境中學習到更精細的動態關系,從而生成更加真實和連貫的游戲玩法序列。
為了進一步提升模型的性能,微軟還在訓練過程中采用了AdamW優化器,并結合了余弦退火學習率策略,在訓練過程中動態調整學習率,從而提高模型的收斂速度和最終性能。模型還采用了批量歸一化和權重衰減等技術,以防止過擬合并提高模型的泛化能力。
高質量訓練數據
為了提升Muse模型的生成性能,微軟與Ninja Theory工作室合作獲取了《Bleeding Edge》的大量真實玩家游戲數據。
為了收集訓練數據,微軟從游戲中提取了超過50萬場玩家的游戲會話,涵蓋了各種游戲場景、角色行為和玩家操作。同時對這些數據經過清洗和匿名化處理,以確保玩家隱私和數據安全。
游戲畫面的圖像幀被提取為300×180像素的分辨率,以確保模型能夠捕捉到足夠的細節;控制器操作則被離散化處理,包括按鈕操作和搖桿的移動方向。這些數據被整合為時間序列,每個序列包含10幀圖像和對應的控制器操作,形成了模型的輸入和輸出對。
最終,從這些數據中提煉出了兩個數據集:7 Maps和 Skygarden 數據集。7 Maps 數據集包含 60,986 場比賽,約500,000個玩家軌跡,數據總量達到27T,相當于7年多的游戲時間。
經過下采樣到10Hz后,約有 14 億幀數據,并按照80:10:10 的比例劃分為訓練集、驗證集和測試集。Skygarden 數據集則聚焦于單個地圖,包含 66,709 個玩家軌跡,約 3.1 億幀數據,同樣進行了80:10:10 的劃分和10Hz下采樣處理。
Muse測試數據
為了測試Muse的性能,微軟使用了連貫性、多樣性和持續性三種測試基準進行了綜合評估。
在連貫性測試中,團隊使用了FVD指標來衡量生成游戲畫面與真實游戲畫面之間的相似度。結果顯示,隨著模型規模的增大和計算資源的增加,FVD指標顯著降低,表明生成的游戲畫面與真實畫面之間的差異越來越小。
例如,1.6B參數的MUSE模型在高分辨率圖像上的表現尤為出色,能夠生成長達2分鐘的連貫游戲畫面。
在多樣性測試中,團隊使用了Wasserstein距離來衡量生成動作與真實人類動作之間的分布差異。測試結果表明,MUSE模型能夠生成多種不同的游戲玩法,且生成的動作分布與人類玩家的真實動作分布高度一致。
此外,團隊還通過定性分析展示了模型生成的多樣化行為,例如,玩家角色可以選擇不同的路徑、使用不同的技能,甚至在外觀上也存在差異。
持續性測試則通過在游戲畫面中插入新的元素,包括游戲角色、道具或地圖等元素,來評估模型是否能夠將這些修改融入后續生成的畫面中。
結果顯示,當模型在生成過程中被提示包含這些修改后的畫面時,能以超過85%持續生成包含這些元素的畫面。這表明MUSE模型能夠有效地支持創意人員的迭代創作過程。
微軟游戲研究負責人KatjaHofmann表示,研發Muse的主要原因是2022年11月OpenAI發布了ChatGPT。當時意識到基于 Transformer 架構的AI模型在大量數據訓練下的巨大商業潛力,同時手中也有豐富的游戲數據,于是想利用這些數據訓練出更好的游戲模型。
目前,Muse模型可以在微軟的Azure AI Foundry上體驗。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
