成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟Muse秒生游戲登Nature,10億級畫面練出最強(qiáng)AI!千億游戲市場重洗牌

人工智能 新聞
一夜之間,游戲產(chǎn)業(yè)要變天了!微軟公布全球首個世界與人類行動模型,名為Muse,可秒生游戲畫面,精準(zhǔn)預(yù)測玩家操作。未來,游戲開發(fā)或?qū)臄?shù)月壓縮至幾分鐘,千億美金游戲市場或被顛覆。

同一天,微軟放出兩個核彈,首個拓?fù)淞孔有酒€有首個世界與人類行動模型。

AI離數(shù)秒生成游戲視頻的未來,又近了一步。

圖片

今天,微軟團(tuán)隊(duì)首次引入了「世界與人類行動模型」(WHAM),并冠以希臘藝術(shù)女神「繆斯」(Muse)之名。

它可以生成游戲視覺效果、控制器動作,甚至可以全都要。最新研究登上Nature期刊。

圖片

論文地址:https://www.nature.com/articles/s41586-025-08600-3

在相同的10幀(1秒)真實(shí)游戲玩法的條件下,Muse生成了行為和視覺多樣性的樣例。

同時,這也是首個基于Ninja Theory的多人對戰(zhàn)游戲Bleeding Edge,超10億張畫面訓(xùn)練的GenAI模型。從單個V100集群,成功scaling到多達(dá)100個GPU上完成訓(xùn)練。

Muse AI強(qiáng)大核心在于,對3D游戲世界的深度理解。

它不僅僅是一個簡單視頻生成工具,而是能夠精準(zhǔn)模擬游戲中物理規(guī)則、玩家行為。

比如,當(dāng)玩家按下手柄某個按鍵時,Muse AI可以預(yù)測游戲世界動態(tài)變化,并生成與之匹配的連貫畫面。

圖片

傳統(tǒng)上,游戲開發(fā)需要數(shù)月甚至數(shù)年,進(jìn)行角色設(shè)計(jì)、動畫制作和游戲測試。而如今,Muse能夠?qū)⑦@一周期從幾個月縮短至幾分鐘。

對于游戲開發(fā)者來說,它的出現(xiàn)無疑是一場革命,是顛覆千億游戲產(chǎn)業(yè)革命的存在。

就連馬斯克在AI游戲上押下重注,據(jù)稱其創(chuàng)辦AI游戲工作室即將要官宣。

圖片

圖片

AI重塑游戲開發(fā),全球30億玩家狂歡

Muse AI誕生之前,還有這么一段精彩的故事。

2022年12月,微軟研究院游戲智能團(tuán)隊(duì)的負(fù)責(zé)人Katja Hofmann剛剛結(jié)束產(chǎn)假,回到工作崗位。

她忽然發(fā)現(xiàn),在自己休假這段時間里,機(jī)器學(xué)習(xí)領(lǐng)域發(fā)生了翻天覆地的變化——

OpenAI發(fā)布ChatGPT,這一基于Transformer架構(gòu)的生成模型,展示出令人驚嘆的能力,尤其是在處理大量文本數(shù)據(jù)時。

這一突破,讓Hofmann開始思考,生成式AI的崛起,對于AI與視頻游戲的交叉領(lǐng)域意味著什么?

圖片

他們發(fā)現(xiàn),盡管GenAI展現(xiàn)出巨大的潛力,但多項(xiàng)研究表明,其能力往往達(dá)不到創(chuàng)意人員的期望值。

特別是,在3D游戲開發(fā)這種高難度復(fù)雜領(lǐng)域,LLM的應(yīng)用還面臨著諸多的挑戰(zhàn)。

眾所周知,3D游戲開發(fā)是一個需要多樣化創(chuàng)意技能的過程,會涉及到角色設(shè)計(jì)、場景構(gòu)建、劇情編寫、互動機(jī)制等多個方面。

在Hofmann看來,豐富且多樣化的游戲玩法數(shù)據(jù),為進(jìn)一步創(chuàng)新提供了關(guān)鍵數(shù)據(jù)。

這種時間相關(guān)、多模態(tài)的數(shù)據(jù)能夠探索日益復(fù)雜的任務(wù),從而生成更高質(zhì)量3D世界、與NPC互動和游戲機(jī)制。

更重要的是,游戲產(chǎn)業(yè)作為全球娛樂產(chǎn)業(yè)最大領(lǐng)域,已經(jīng)覆蓋了超30億人口。

GenAI的出現(xiàn),為世界游戲玩家們,甚至游戲工作室提供了一個絕佳的機(jī)會。

那么,微軟團(tuán)隊(duì)是如何打造出Muse AI?

Xbox真人實(shí)戰(zhàn),超10億張圖像

微軟的游戲智能團(tuán)隊(duì),擁有非常不同的數(shù)據(jù)來源。

多年來,研究團(tuán)隊(duì)與Xbox游戲工作室的Ninja Theory(與游戲智能研究團(tuán)隊(duì)一樣,位于英國劍橋)合作,收集2020年發(fā)布的Xbox游戲《Bleeding Edge》的游戲數(shù)據(jù)。

《Bleeding Edge》是一款4對4的在線游戲。經(jīng)玩家同意EULA后,比賽會被記錄下來。

研究團(tuán)隊(duì)與Ninja Theory的同事以及微軟合規(guī)團(tuán)隊(duì)密切合作,確保數(shù)據(jù)的收集符合道德規(guī)范,并且僅用于研究目的。

圖片

Bleeding Edge部分游戲角色

Ninja Theory的技術(shù)總監(jiān)Gavin Costello,見證了相關(guān)研究,感到非常高興:

在黑客馬拉松中,首次將AI集成到《Bleeding Edge》中,而這只是開始:此后,從構(gòu)建行為更像人類玩家的AI智能體,再到世界和人類行為(WHAM)模型在人類指導(dǎo)下,能夠構(gòu)想出全新的《Bleeding Edge》玩法。


能見證這項(xiàng)技術(shù)的潛力,讓人大開眼界。

Muse訓(xùn)練數(shù)據(jù)

當(dāng)前的Muse模型是在Xbox游戲《Bleeding Edge》的人類游戲玩法數(shù)據(jù)(視覺和控制器操作)上訓(xùn)練的。

下圖左顯示的是訓(xùn)練當(dāng)前模型的300×180像素分辨率。在超過10億張圖像和控制器操作上,Muse(使用WHAM-1.6B)已經(jīng)進(jìn)行了訓(xùn)練,相當(dāng)于人類連續(xù)玩7年多游戲。

下圖右是相關(guān)研究團(tuán)隊(duì),一起體驗(yàn)《Bleeding Edge》游戲。

圖片

直到2022年底,游戲智能團(tuán)隊(duì)一直將《Bleeding Edge》視為類人導(dǎo)航(human-like navigation)實(shí)驗(yàn)平臺,還沒有真正利用手中大量的人類玩家數(shù)據(jù)。

在文本模型的啟發(fā)下,研究團(tuán)隊(duì)開始思考:「如果我們使用基于transformer的模型來訓(xùn)練這些海量的游戲數(shù)據(jù),我們能夠取得什么樣的成果?」

擴(kuò)大模型訓(xùn)練

隨著團(tuán)隊(duì)開始深入研究,面臨的一個關(guān)鍵難題是如何擴(kuò)大模型訓(xùn)練的規(guī)模。

最初,使用了一個V100集群,并成功驗(yàn)證了如何擴(kuò)展到在多達(dá)100個GPU上進(jìn)行訓(xùn)練。這為后續(xù)在H100上進(jìn)行更大規(guī)模訓(xùn)練奠定了基礎(chǔ)。在項(xiàng)目初期,做出了一些關(guān)鍵的設(shè)計(jì)決策,主要是關(guān)于如何充分利用大語言模型(LLM)社區(qū)的見解,包括如何有效地表示控制器操作和圖像。

擴(kuò)大訓(xùn)練規(guī)模努力的第一個成果是一個令人印象深刻的演示。

當(dāng)時Game Intelligence的研究員Tim Pearce整理了一些訓(xùn)練初期與后期的對比示例??粗@些演示,就像看著模型學(xué)習(xí)一樣。

這為后續(xù)展示這些模型中如何出現(xiàn)縮放法則奠定了基礎(chǔ)。

Muse訓(xùn)練中的一致性

給模型的提示是:輸入1秒的人類游戲玩法(視覺和控制器操作)和9秒的真實(shí)控制器操作。

在這種設(shè)定下,Muse如果能夠生成與真實(shí)情況非常接近的視覺圖像,那么它已經(jīng)捕捉到了游戲動態(tài)。

隨著訓(xùn)練的進(jìn)行,觀察到生成的視覺圖像質(zhì)量明顯提高。

在早期訓(xùn)練(10k訓(xùn)練更新)中,看到了初步的成果,但質(zhì)量迅速下降。

在100k訓(xùn)練更新后,模型在時間上保持一致,但尚未捕捉到游戲動態(tài)中相對不常見的場景,如飛行機(jī)制。

隨著額外訓(xùn)練的進(jìn)行,與真實(shí)情況的一致性繼續(xù)提高。例如,在1M訓(xùn)練更新后,模型學(xué)懂了飛行機(jī)制。

圖片

真實(shí)的人類游戲玩法(左)與Muse生成的視覺圖像(使用WHAM-206M)的比較

跨學(xué)科合作:一開始就讓用戶參與

很早以前,研究團(tuán)隊(duì)就開始探索評估這類模型,比如下列3個項(xiàng)目:

  1. 研究實(shí)習(xí)生Gunshi Gupta和高級研究科學(xué)家Sergio Valcarcel Macua,推動了對線性探測學(xué)習(xí)到的表征的理解。
  2. 高級研究科學(xué)家Raluca Georgescu,負(fù)責(zé)探索了在線評估的方式。
  3. 研究實(shí)習(xí)生Tarun Gupta,主導(dǎo)了既有視覺特效又有動作的內(nèi)容生成的研究。

但要系統(tǒng)地評估Muse,需要更廣泛的見解。更重要的是,需要了解人們?nèi)绾问褂眠@些模型,以便知道如何評估它們。

這就是跨學(xué)科研究變得至關(guān)重要的地方。

研究團(tuán)隊(duì)已經(jīng)與高級首席研究經(jīng)理Cecily Morrison和Teachable AI Experiences團(tuán)隊(duì)合作了幾個月,討論了這項(xiàng)工作的各個方面。

在Cecily、設(shè)計(jì)研究員Linda Wen和首席研究軟件工程師Martin Grayson推動下,團(tuán)隊(duì)還與游戲創(chuàng)作者合作,調(diào)查在創(chuàng)意實(shí)踐中,游戲創(chuàng)作者希望如何使用GenAI。

Cecily說:「這是一個很好的機(jī)會,在早期階段就聯(lián)合起來,讓模型滿足創(chuàng)作者的需求,而不是試圖改造已經(jīng)開發(fā)的技術(shù)?!?/span>

關(guān)于如何處理這項(xiàng)工作,Linda提供了一些寶貴見解:

我們已經(jīng)看到技術(shù)驅(qū)動的AI創(chuàng)新如何顛覆創(chuàng)意產(chǎn)業(yè)——通常讓創(chuàng)作者措手不及,讓許多人感到被排斥。


之所以從一開始就邀請游戲創(chuàng)作者,共同塑造這項(xiàng)技術(shù),這就是原因。


北半球主導(dǎo)了AI創(chuàng)新。認(rèn)識到這一點(diǎn),我們還優(yōu)先考慮招募來自代表性不足的背景和地區(qū)的游戲創(chuàng)作者。我們的目標(biāo)是創(chuàng)造一個惠及所有人的技術(shù)——不僅僅是那些已經(jīng)處于特權(quán)地位的人。

WHAM Demonstrator解鎖新創(chuàng)意

現(xiàn)在,隨著模型逐漸顯現(xiàn)的能力和用戶的反饋,是時候?qū)⑺胁糠终显谝黄鹆恕?/span>

在微軟內(nèi)部的黑客馬拉松中,不同團(tuán)隊(duì)共同合作,探索Muse可以解鎖的新交互范式和創(chuàng)意應(yīng)用場景。

最終,開發(fā)了一個原型,命名為WHAM Demonstrator,它允許用戶直接與模型進(jìn)行交互。

Martin 說:「全球黑客馬拉松是一個完美的機(jī)會,大家齊聚一堂,構(gòu)建了了第一個工作原型。我們希望為WHAM模型開發(fā)一個界面,這樣就能探索它的創(chuàng)意潛力,并開始測試從與游戲開發(fā)者的訪談中得到的想法和應(yīng)用?!?/span>

為了與諸如Muse之類的AI模型進(jìn)行互動,WHAM Demonstrator提供了與WHAM實(shí)例互動的視覺接口。

用戶可以探索新玩法,并進(jìn)行調(diào)整,例如使用游戲控制器來控制角色。這些功能展示了 Muse 的能力如何在創(chuàng)作過程中支持迭代和調(diào)整,幫助用戶不斷優(yōu)化和完善游戲體驗(yàn)。

模型架構(gòu)與評估

使用WHAM演示器親身體驗(yàn)Muse的能力,并從用戶研究中獲得見解,研究團(tuán)隊(duì)系統(tǒng)地確定了在使用像Muse這類生成模型時,游戲創(chuàng)作者所需的關(guān)鍵能力:一致性、多樣性和持久性。

  1. 一致性:指的是模型生成游戲玩法時,能夠尊重游戲的動態(tài)特性。例如,角色的移動與控制器操作一致,不會穿過墻壁,通常反映了游戲底層的物理特性。
  2. 多樣性:指的是模型在給定相同的初始提示時,能夠生成多種游戲玩法變體的能力。
  3. 持久性:指的是模型能夠?qū)⒂脩粜薷模ɑ颉赋志谩梗┱系缴傻挠螒蛲娣ㄖ械哪芰?,例如將一個角色復(fù)制粘貼到游戲中。

模型架構(gòu)設(shè)計(jì)

建模設(shè)計(jì)反映了識別出的模型能力,如下圖所示。

  1. 一致性:一個順序模型,能夠準(zhǔn)確捕捉游戲視覺和控制器操作之間依賴關(guān)系。
  2. 多樣性:能夠生成數(shù)據(jù)并保留視覺和控制器操作序列條件分布。
  3. 持久性:基于(修改過的)圖像和/或控制器操作,通用條件化的預(yù)測模型得以實(shí)現(xiàn)。

在全部三個能力中,選擇提供可擴(kuò)展性的組件,這意味著模型應(yīng)該從大量訓(xùn)練數(shù)據(jù)和計(jì)算資源中受益。

WHAM設(shè)計(jì)如圖所示,它建立在transformer架構(gòu)上,作為其序列預(yù)測骨干。

新方法的關(guān)鍵在于將數(shù)據(jù)框定為離散token序列。

為了將圖像編碼為令牌序列,使用VQGAN圖像編碼器。用于編碼每張圖像的令牌數(shù)量是一個關(guān)鍵的超參數(shù),它在預(yù)測圖像的質(zhì)量、生成速度和上下文長度之間進(jìn)行權(quán)衡。

對于Xbox控制器操作,盡管按鈕天生是離散的,將左和右搖桿的x和y坐標(biāo)離散化為11個桶。然后訓(xùn)練一個僅解碼Transformer來預(yù)測交織的圖像和控制器操作序列中的下一個token。

然后,該模型可以通過自回歸采樣下一個token來生成新序列。

還可以在生成過程中修改令牌,允許對圖像和/或操作進(jìn)行修改。也就是說控制器操作或直接編輯圖像本身,可以控制(或提示)生成的能力,這評估持久性的先決條件。

圖片

WHAM架構(gòu)概覽

一致性

通過使用真實(shí)的游戲玩法和控制器動作來提示模型,并讓模型生成游戲視覺效果來評估一致性。此處展示的視頻是使用Muse(基于 WHAM-1.6B)生成的,展示了模型生成長達(dá)兩分鐘的一致游戲玩法序列的能力。

在論文中,還使用FVD(Fréchet Video Distance,視頻生成社區(qū)中一個既定的指標(biāo))將生成的視覺效果與真實(shí)的視覺效果進(jìn)行了比較。


多樣性

在總共102,400個動作(1,024 條軌跡,每條軌跡100個動作)中,對10,000個人類和模型動作進(jìn)行子采樣,并計(jì)算它們之間的距離。

重復(fù)此過程十次,并繪制平均值 ± 1個標(biāo)準(zhǔn)差。越接近人與人之間的基線越好。均勻隨機(jī)動作的距離為5.3。所有模型都通過訓(xùn)練得到改進(jìn),并且可以通過增加動作損失的權(quán)重來進(jìn)一步改進(jìn)。

圖片

圖a:三種WHAM變體的多樣性,通過與人類動作的Wasserstein距離來衡量。

在下圖b中,看到行為多樣性(玩家角色在生成位置附近盤旋與直接前往 Jumppad)和視覺多樣性(玩家角色安裝的懸浮滑板具有不同的皮膚)的示例。

圖片

圖b:使用相同起始上下文生成的1.6B WHAM的三個生成示例。

持久性

下列視頻展示了Muse(基于WHAM-1.6B)如何保持修改的一些示例。

首先,取自原始游戲數(shù)據(jù)的一張視覺圖像,然后將另一個角色的圖像編輯到這張圖像中。

生成的游戲序列展示了該角色是如何被融入到生成的游戲序列中的。

開源資源

與此同時,為了幫助其他研究人員,研究團(tuán)隊(duì)決定將開源 Muse 的權(quán)重、樣本數(shù)據(jù),并提供WHAM Demonstrator可執(zhí)行文件——這是一個概念原型,提供了一個可視化界面,用于與 WHAM 模型進(jìn)行交互,并支持多種方式的模型提示。

圖片

項(xiàng)目鏈接:https://huggingface.co/microsoft/wham

像Muse這樣的模型,能夠?qū)W習(xí)到的游戲世界的豐富結(jié)構(gòu),更重要的是,新研究還展示了如何通過研究洞察來支持生成性AI模型在創(chuàng)意領(lǐng)域的應(yīng)用。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-05-08 12:32:20

AI讀心

2024-09-09 09:05:00

2024-07-23 13:06:53

2017-03-20 11:22:52

云計(jì)算

2012-09-04 10:54:05

HTML5HTML5游戲HTML5資訊

2024-10-15 14:00:00

AdobeAI生成

2013-08-19 09:42:44

移動教育游戲

2010-03-17 09:56:37

游戲程序員

2012-02-28 11:12:46

手機(jī)游戲市場

2013-01-15 22:43:24

手機(jī)游戲CNNIC手游

2014-01-06 10:14:32

2009-05-06 10:35:13

蘋果微軟掌上游戲

2024-08-29 13:30:00

2011-07-26 15:56:53

iPhone 游戲 啟動畫面

2024-11-08 15:07:14

2013-05-02 09:06:08

微軟Windows AzuWindows Azu

2021-04-27 05:36:20

Windows10操作系統(tǒng)微軟

2015-03-17 17:51:21

Testin云測

2013-01-17 09:48:15

手機(jī)游戲移動游戲小團(tuán)隊(duì)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产综合av | 精品视频一区二区 | 欧美日韩视频在线第一区 | 国产激情一区二区三区 | 黄免费看 | 成人一区二区视频 | 日日av| 亚洲一二三区精品 | 亚洲三区在线播放 | 久久色视频 | 日韩一区二区三区在线观看 | 视频一区在线播放 | 国产精品一区在线观看你懂的 | 中文字幕二区三区 | 一级大黄| 欧美激情精品久久久久久 | 国产福利91精品一区二区三区 | 日韩精品在线看 | 亚洲精品乱码久久久久久久久久 | 欧美久久久网站 | 亚洲国产一区二区视频 | 狠狠干狠狠操 | 成人在线一区二区 | 精品一区二区电影 | 国产精品亚洲一区二区三区在线 | 欧美一区在线视频 | 男女视频在线观看免费 | 韩国av一区二区 | 成人精品一区二区三区中文字幕 | 亚洲国产精品久久人人爱 | 久久国产精品视频 | 成人h视频在线 | 国产精品国产三级国产aⅴ中文 | 久久久久国 | 午夜精品福利视频 | 国产精品二区三区在线观看 | 福利视频三区 | 国产免费一区 | 久久久久久国产精品免费免费狐狸 | 久久ww| 亚洲成色777777在线观看影院 |