智能體的ChatGPT時刻!DeepMind通用AI向人類玩家進化,開始理解游戲
視頻游戲是 AI 系統的重要試驗場。與現實世界一樣,游戲也是豐富的學習環境,具有反應靈敏的實時設置和不斷變化的目標。
從早期與雅達利游戲的合作,到人類大師級水平的《星際爭霸 II》系統 AlphaStar,谷歌 DeepMind 在人工智能和游戲領域陸續推出過不少影響力研究。
剛剛,谷歌宣布了又一項里程碑式研究:SIMA(Scalable Instructable Multiworld Agent),一種適用于 3D 虛擬環境的通用 AI 智能體。
加州大學歐文分校助理教授 Roy Fox 表示,SIMA 讓我們離自主智能體的「ChatGPT 時刻」又近了一步。
谷歌 DeepMind 研究工程師 Tim Harley 表示:「想象有一天,我們可以讓像 SIMA 這樣的智能體與你和你的朋友一起玩游戲,而不是讓你與超人智能體對抗。」
但目前的 AI 系統仍然沒有接近人類水平。例如,在《無人深空》游戲中,AI 智能體只能完成人類能完成的 60% 的任務。當研究人員取消人類發出 SIMA 指令的能力時,他們發現該智能體的表現比以前差了很多。
AI 已經不甘心只作 NPC 了
谷歌與八家游戲工作室合作,在九款不同的視頻游戲中對 SIMA 進行了訓練和測試,包括《無人天空》、《拆遷(Teardown)》、《英靈神殿》和《模擬山羊 3》。
SIMA 產品組合中的每款游戲都是全新的互動世界,包括一系列需要學習的技能,從簡單的導航和菜單使用,到開采資源、駕駛飛船或制作頭盔。
同時,谷歌還使用了四個研究環境 — 包括使用 Unity 構建的一個名為「建筑實驗室」的新環境。在這個實驗室中,智能體需要用積木搭建雕塑,以測試對物體的操作能力以及對物理世界的直觀理解。
然后,谷歌在游戲組合中記錄成對的人類玩家,其中一名玩家觀察并指導另一名玩家,以捕獲語言指令。隨后讓玩家自由玩游戲,重新觀察他們的行為,并記錄下可能導致其游戲行為的指令。
所有這些都被提供給 SIMA ,以學習預測屏幕上接下來會發生什么。通過在不同的游戲世界學習,SIMA 捕捉到了語言與游戲行為之間的聯系。
「這項研究標志著首次有 AI 智能體證明自己能夠理解各種游戲世界,并能像人類一樣按照自然語言指令在游戲世界中執行任務。」谷歌表示。
SIMA 并不只是一個由 AI 驅動的 NPC ,而是游戲中影響結果的另一個「玩家」。
谷歌還指出,SIMA 的研究并不是為了獲得高分。對于 AI 系統來說,學會玩一款視頻游戲固然是技術層面的重大突破,但學會在各種游戲環境中遵從指令,可以讓 AI 智能體在任何環境中發揮更大的作用。
在技術報告中,谷歌也展示了如何通過語言界面將高級 AI 模型的能力轉化為現實世界中有用的行動。
技術報告:
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf
SIMA:通用 AI 智能體來了
SIMA 的組件包括預訓練好的視覺模型,以及一個包含內存并輸出鍵盤和鼠標操作的主模型,如下圖所示。
具體來講,SIMA 包含了一個專為精確圖像語言映射而設計的模型和一個預測屏幕上接下來會發生什么的視頻模型。谷歌根據 SIMA 產品組合中特定于 3D 設置的訓練數據對這兩個模型進行了微調。
下圖為 SIMA 智能體架構細節。
作為一種 AI 智能體,谷歌的 SIMA 可以感知和理解各種環境,然后采取行動來實現指定的目標。
重要的是,SIMA 既不需要訪問游戲的源代碼,也不需要定制的 API。它只需要兩個輸入:屏幕上的圖像以及用戶提供的簡單自然語言指令。SIMA 使用鍵盤和鼠標輸出來控制游戲中的核心角色來執行這些指令。人類可以使用這個簡單的界面,這意味著 SIMA 可以與任何虛擬環境進行交互。
下圖為 SIMA 數據中的指令。
當前版本的 SIMA 通過 600 項基礎技能進行評估,涵蓋導航(例如「左轉」)、對象交互(「爬梯子」)和菜單使用(「打開地圖」)。
谷歌訓練 SIMA 執行簡單任務,大約 10 秒內就能完成。
SIMA 智能體的軌跡如下圖所示。
谷歌希望未來的智能體能夠處理需要高級戰略規劃和多個子任務才能完成的任務,例如「尋找資源和建立營地」。這是人工智能的一個重要目標,雖然大型語言模型已經演化出了能夠捕獲世界知識并生成規劃的強大系統,但它們目前缺乏代表人類采取行動的能力。
跨游戲的強泛化能力
谷歌證明,受過多種游戲訓練的智能體比僅學習如何玩一種游戲的智能體表現更好。
在谷歌的評估中,SIMA 智能體在一組九個 3D 游戲上進行了訓練,其表現顯著優于僅在每個單獨的游戲上進行訓練的所有專業智能體。
更重要的是,平均而言,接受過除一款游戲之外的所有游戲訓練的智能體在這個未見過游戲上的表現幾乎與專門訓練過的智能體一樣好。因此,這種在全新環境中發揮作用的能力凸顯了 SIMA 超越其訓練的泛化能力。
谷歌表示,這是一個很有潛力的初步結果,不過 SIMA 需要進行更多的研究才能在見過和未見過游戲中達到人類水平。
此外,SIMA 的性能依賴于語言。在控制測試中,智能體沒有接受任何語言訓練或指令,它的行為方式雖適當但漫無目的。例如,智能體可能會收集資源(這是一種常見行為),而不是按照指令去走。
谷歌評估了 SIMA 按照指令完成近 1500 個具體游戲內(in-game)任務的能力,其中部分使用了人類裁判。作為基線比較,谷歌使用環境專用 SIMA 智能體的性能(經過訓練和評估以遵循單個環境中的指令)作為評估指標。
如下圖所示,谷歌與三種類型的通用 SIMA 智能體進行了比較,每種智能體都經過多個環境的訓練。
未來,谷歌期待在更多訓練環境中進一步構建 SIMA,并納入更強大的模型,從而提高 SIMA 對高級語言指令的理解能力以實現更復雜的目標。當然,隨著 SIMA「暴露」在更多的訓練世界中,谷歌希望它變得更加通用。