成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這場比賽,讓上百個AI智能體「卷起來了」

人工智能 新聞
不遠的將來,智能決策技術(shù)將成為數(shù)字化轉(zhuǎn)型的加速器,推進能源、物流、工業(yè)等產(chǎn)業(yè)領(lǐng)域的研究落地和成果轉(zhuǎn)化。

過去數(shù)年,隨著神經(jīng)網(wǎng)絡(luò)、基于強化學(xué)習(xí)的自我博弈、多智能體學(xué)習(xí)和模仿學(xué)習(xí)等通用機器學(xué)習(xí)理論的突破,AI 智能體的決策能力實現(xiàn)了飛躍式發(fā)展。

可以看到,不管是谷歌、微軟、IBM 等全球科技巨頭,還是國內(nèi)一眾 AI 龍頭企業(yè),在學(xué)術(shù)研究和產(chǎn)業(yè)落地上,它們的關(guān)注焦點都在從智能感知向智能決策過渡。「決策 AI」成了領(lǐng)域內(nèi)的必爭之地。

今年 5 月,谷歌旗下的機構(gòu) DeepMind 發(fā)布 Gato,這款全新的 AI 智能體能夠在「廣泛的環(huán)境中」完成 604 項不同的任務(wù)。Gato 的誕生,再次刷新了單智能體的能力上限。當(dāng)然,關(guān)于 AI 決策能力的探索不會僅限于此,如果讓海量智能體在一個接近真實世界的開放決策環(huán)境中「狹路相逢」,它們會做出何種判斷和選擇,又會怎樣分工合作、競爭呢? 近日,由超參數(shù)科技發(fā)起,麻省理工學(xué)院、清華大學(xué)深圳國際研究生院,以及知名數(shù)據(jù)科學(xué)挑戰(zhàn)平臺 AIcrowd 聯(lián)合主辦的「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰(zhàn)賽」落幕。在這場比賽中,我們發(fā)現(xiàn)了一些進行新探索的可能性。

圖片


復(fù)雜環(huán)境中的多智能體博弈

近年來,多智能體環(huán)境已經(jīng)成為深度強化學(xué)習(xí)的一個有效研究平臺。目前,強化學(xué)習(xí)環(huán)境要么足夠復(fù)雜,但限制條件太多,普適性不強;要么限制條件很少,但過于簡單。這些問題限制了更高復(fù)雜度任務(wù)的創(chuàng)建,也很難激發(fā)出多智能體更高階的決策能力。

2019 年,MIT 博士生 Joseph Suarez 在 OpenAI 實習(xí)期間開發(fā)了 Neural MMO,他借鑒大型多人在線游戲(MMO),模擬出一個龐大的生態(tài)系統(tǒng),系統(tǒng)中包含數(shù)量不等的智能體,并讓它們在持久、廣闊的環(huán)境中競爭。行業(yè)人士普遍認為,「這個模擬相當(dāng)有趣」。與過往著眼于技術(shù)水準(zhǔn)的 AI 游戲?qū)?zhàn)環(huán)境不同,Neural MMO 涉及到了 AI 的長期判斷和選擇,更考驗智能體的決策能力。 「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰(zhàn)賽」使用的正是上述環(huán)境。主辦方表示,選擇 Neural MMO 主要基于兩點:一是 Neural MMO 類似于開放世界生存游戲,本身有一個自運轉(zhuǎn)系統(tǒng),并且定義了采集、攻擊、生存等基本機制,二是它支持海量 AI 共存、交互,并涌現(xiàn)策略。無論在學(xué)術(shù)界還是工業(yè)界,這種環(huán)境都不多見。

圖片

Neural MMO環(huán)境在這場比賽中,每局對戰(zhàn)都包含 16 支隊伍,每支隊伍包含 8 個智能體,這些智能體小分隊要在 128x128 的地圖上進行自由對抗。根據(jù)主辦方的設(shè)計,每個智能體小分隊要達成覓食、探索、競爭、打怪四項成就。這意味著每個環(huán)境里有 128 個智能體同時決策,每支隊伍里的 8 個智能體要為了不同的目標(biāo)進行有效的合作分工。

圖片


在這種情況下,每個智能體都要發(fā)揮自己的強項,必要時,為了團隊能夠獲得「最后的勝利」,一部分智能體還要學(xué)會「主動送人頭」。鑒于環(huán)境里有多個智能體在同時學(xué)習(xí),智能體們不僅需要考慮自己期望得到何種獎勵,還要考慮對手可能會采取什么策略。再加上每一局對戰(zhàn)都要完成四項任務(wù),層層設(shè)置之下,每個智能體面臨的「抉擇」都有更高的決策復(fù)雜度。

讓海量智能體「卷」起來

對一場學(xué)術(shù)性質(zhì)的比賽來說,除了找到好問題,還要有足夠多的好選手。為此,主辦方從賽事規(guī)則、工具、賽事支持等方面對 Neural MMO 挑戰(zhàn)賽進行了全面優(yōu)化。 在工具層面,「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰(zhàn)賽」升級了提交系統(tǒng),讓第一次成功提交到返回結(jié)果的時間從原來的兩個多小時減少到十分鐘;此外,挑戰(zhàn)賽還提供了全新的 StarterKit 和 Baseline 。在 StarterKit 中,參賽者只需要跑一遍代碼,就可以完成第一個提交;在 Baseline 中,用戶只需要訓(xùn)練兩天,就可以完成 Stage 1 0.5 的勝率,運行訓(xùn)練四天,就可以獲得 Stage 1 0.8 的勝率。

這些設(shè)計幫助參賽者在初始階段迅速地熟悉規(guī)則,并以此節(jié)省大量時間。利用省下來的時間,參賽者們可以將思考重點放在定義智能體在 Neural MMO 環(huán)境中的決策方式上,比如進行獎勵信號的設(shè)計等。

在賽制上,這場 Neural MMO 挑戰(zhàn)賽采取了 PvE 與 PvP 結(jié)合的方式。在 PvE 階段,每個 Stage 的內(nèi)置 AI 難度會逐漸增加,參賽者由此感受到「梯度」。Stage 1 的難度是最低的,包含了一些基于簡單規(guī)則編寫的開源腳本。之后,Stage 2 的難度會變得更高,主辦方基于經(jīng)典的 PPO 算法對內(nèi)置 AI 進行訓(xùn)練,并加入自我博弈(Self-Play)的訓(xùn)練機制。到了 Stage 3,智能體的綜合能力進一步升級,選手們面對的已經(jīng)是高度團結(jié)的競爭對手隊伍。

在 PvE 階段獲,成就分達到 25 的隊伍即可晉級;但在 PvP 階段,難度上升,對戰(zhàn)對象從內(nèi)置 AI 變?yōu)槠渌鼌①愡x手隊伍。

讓 8 個智能體組團完成任務(wù),是合作博弈中的一個經(jīng)典問題。如果說在 PvE 階段的前兩個 Stage,依靠單打獨斗還能取得一些成績,那么隨著環(huán)境內(nèi)置 AI 不斷變強,再到對手從環(huán)境內(nèi)置 AI 變?yōu)檎鎸嵤澜缰械膮①悎F隊,出戰(zhàn)的智能體小分隊也需要隨之完成脫胎換骨般的進化,以此去理解怎樣達成「團隊最優(yōu)決策」。

基于上述改進,不同水平的參賽者都能在這場賽事中找到適合自己的參賽目標(biāo)。但同時,要想獲得頂尖名次,智能體的綜合決策能力要能經(jīng)受住考驗,這就要求選手在智能體的算法設(shè)計上具備更深刻的思考。

RL 算法選手,后來者居上

經(jīng)過三個月的激烈角逐,兩支來自業(yè)界的隊伍脫穎而出,斬獲了本屆挑戰(zhàn)賽的冠亞軍。有趣的是,這兩支隊伍均采用強化學(xué)習(xí)算法,且都是在最后一個月才參賽。

冠軍團隊 LastOrder 提到,相較現(xiàn)有的其他多智能體環(huán)境,MMO 有更豐富的內(nèi)容,例如生存、戰(zhàn)斗、升級、團隊 PK、隨機地圖等。與其他同類比賽不同的是,Neural MMO 挑戰(zhàn)賽給參賽者的規(guī)則限制很少,這也為強化學(xué)習(xí)算法的應(yīng)用提供了廣闊的發(fā)揮空間。

NeuralNoob 是亞軍獲得者,他認為 Neural MMO 最明顯的特點在于支持的海量智能體,本場比賽的設(shè)置為 128 個,但實際上可以增加到上千或者更多。「它是一個多任務(wù)的環(huán)境,每個智能體需要在必要的時候改變策略各司其職,具有更大的研究價值。」

在比賽過程中,LastOrder 設(shè)計了分布式強化學(xué)習(xí)訓(xùn)練框架 Newton,該框架具備高度靈活性及可擴展性。

圖片


他們采用獎勵設(shè)計等方法間接鼓勵智能體做出合理的行為。在設(shè)計合理的獎勵、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)等之后,他們觀察到,深度強化學(xué)習(xí)訓(xùn)練后的智能體自行涌現(xiàn)了相互配合的行為。

「啟發(fā)式算法的優(yōu)點是思路更加簡明,反饋更加直接。相比之下,強化學(xué)習(xí)需要更長的訓(xùn)練時間,以進行網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)的調(diào)整。」LastOrder 表示,「但強化學(xué)習(xí)算法所能達到的能力上限更高,更具探索的價值。」

NeuralNoob 同樣采用強化學(xué)習(xí)算法,整體方案是 ppo 算法加自我博弈 ( self-play) 訓(xùn)練機制,所有智能體的訓(xùn)練都將 8 個智能體作為一個團隊來訓(xùn)練,value 部分則會用到整個團隊的共享表征,并按照 CTDE 的方式訓(xùn)練。

在 LastOrder 看來,MMO 這個平臺還存在更多想象空間:例如它可以引入更多游戲要素,甚至可以變成一個開放的線上游戲,促進 Human in the loop 等領(lǐng)域的相關(guān)研究。對此,NeuralNoob 持相似看法,他認為可以有更多樣的裝備供智能體選擇,并設(shè)置一個安全區(qū),智能體到達安全區(qū)后不能發(fā)動攻擊,同時可以和敵方智能體進行裝備交易。

在 NeuralNoob 的設(shè)想里,甚至可以讓智能體臨時和敵方智能體進行合作,聯(lián)手擊殺一些強大的內(nèi)置 AI,而同敵方智能體的合作將會讓 MMO 更符合真實世界中合作與競爭共存的關(guān)系。

NeuralNoob 認為,這些是強化學(xué)習(xí)目前比較難勝任的地方,強大如 openai five,也是通過手寫規(guī)則來實現(xiàn)出裝路線,因為設(shè)計到裝備選擇的訓(xùn)練樣本占比勢必會很小,但依賴鏈卻很長。

智能決策的「今天」和「未來」

更長遠地看,Neural MMO 環(huán)境提供了一個廣闊、高自由度的學(xué)術(shù)框架,可以推動一些種群層面的行為研究,比如如何高效組隊,它甚至能衍生出社會學(xué)、經(jīng)濟學(xué)方面的概念研究,這些都是現(xiàn)階段相關(guān)領(lǐng)域內(nèi)瓶頸仍存的研究方向。正因此,「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰(zhàn)賽」 在學(xué)術(shù)研究層面的意義也更加凸顯。

任何關(guān)于決策智能的學(xué)術(shù)研究,人們都希望它能在真實的產(chǎn)業(yè)場景中發(fā)揮價值,包括但不限于商業(yè)游戲、量化交易。在現(xiàn)實生活中,決策的代價可能會非常大,這是因為,一方面,決策會直接導(dǎo)致結(jié)果,所以決策水平的質(zhì)量高低,跟結(jié)果帶來的收益直接相關(guān);另一方面,決策所設(shè)定的環(huán)境相當(dāng)復(fù)雜,而想要在真實世界中做預(yù)演,成本也會非常高。

在學(xué)界、業(yè)界對智能決策的探索過程中,Neural MMO 無疑有希望成為一個很好的試驗載體。但現(xiàn)實中的智能決策往往更加復(fù)雜,有著更長的決策鏈條。如何進一步仿真模擬,讓 Neural MMO 更大程度上地接近現(xiàn)實決策環(huán)境,這需要整個行業(yè)進行長期探索。

據(jù)了解,超參數(shù)科技將依托 2022 NeurlPS 會議舉辦新一輪 NMMO 挑戰(zhàn)賽。相較于「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰(zhàn)賽」,新賽事增加了交易系統(tǒng),豐富了裝備品類、多職業(yè)分工以及毒圈機制,這使得它本就開放的環(huán)境變得更加貼合現(xiàn)實決策環(huán)境。同時,持續(xù)豐富的智能體之間合作及競爭的交互方式也大大增加了決策多樣性、策略深度以及合作競爭的可能性。

在Neural NMMO系列挑戰(zhàn)賽中,智能體與環(huán)境中的內(nèi)置AI、敵方智能體,以及隊友之間產(chǎn)生了大量交互,形成實時反饋,在動態(tài)的決策環(huán)境中達成最優(yōu)決策,研究結(jié)果推動智能決策技術(shù)的發(fā)展。不遠的將來,智能決策技術(shù)將成為數(shù)字化轉(zhuǎn)型的加速器,推進能源、物流、工業(yè)等產(chǎn)業(yè)領(lǐng)域的研究落地和成果轉(zhuǎn)化,為更多「不確定」的真實決策場景提供相對「確定」的答案。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-10-18 15:20:00

2021-12-16 09:52:18

云計算行業(yè)科技

2013-07-23 16:43:28

Android開源項目

2022-04-18 16:25:17

辦公軟件釘釘飛書

2025-03-24 08:43:00

GrokAI模型

2019-05-22 13:51:04

騰訊AI互聯(lián)網(wǎng)

2020-12-07 10:21:39

漏洞Google Play攻擊

2024-07-19 12:45:23

2025-04-02 09:21:00

DeepSeekAI開源

2020-06-23 14:33:52

惡意軟件谷歌監(jiān)控活動

2024-01-12 10:09:12

谷歌云計算

2014-02-19 10:52:43

ETL項目SSIS框架

2024-03-27 18:14:32

2022-02-28 09:50:27

AI數(shù)字化開發(fā)

2024-04-30 15:06:03

智能體模型工具

2023-08-25 13:27:00

模型開源

2012-02-01 10:13:04

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 波多野吉衣在线播放 | 欧美成人免费 | 黄色av网站在线免费观看 | 亚洲国产精品一区在线观看 | 日本不卡一区二区三区在线观看 | 精品一区二区三区在线观看 | 日韩视频一级 | 中文字幕日韩欧美一区二区三区 | a欧美| 免费久久久 | 亚洲国产69 | 毛片区 | 91精品国产高清久久久久久久久 | 国产98色在线 | 日韩 | 日本久久精品视频 | 麻豆久久久9性大片 | 在线观看av中文字幕 | 日韩精品久久一区 | 久久久精品网站 | 一区二区精品 | 亚洲视频在线看 | 久久99视频这里只有精品 | 黄视频国产 | 99爱在线视频 | 亚洲精品一区二区三区在线 | 欧美精品久久久久久久久久 | 天天爽综合网 | 日本一区二区三区免费观看 | 美女黄视频网站 | av不卡一区 | 精品亚洲永久免费精品 | 亚洲精品字幕 | 久久精品视频免费看 | 精品综合 | 精品久久成人 | 影音先锋成人资源 | 欧美1区2区 | 欧美一区二区三区视频 | 国产成人网 | 一区视频在线免费观看 | 精品久久久av |