成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

策略改寫「一戰(zhàn)歷史」!中科院開(kāi)源全新博弈智能體框架DipLLM

人工智能 新聞
中科院自動(dòng)化所提出DipLLM,這是首個(gè)在復(fù)雜策略游戲Diplomacy中基于大語(yǔ)言模型微調(diào)的智能體框架,僅用Cicero 1.5%的訓(xùn)練數(shù)據(jù)就實(shí)現(xiàn)超越,展現(xiàn)出卓越的策略能力和樣本效率。

圍棋、德州撲克曾是AI崛起的試煉場(chǎng),從AlphaGo到Libratus,人工智能不斷刷新策略上限。

但接下來(lái)的戰(zhàn)場(chǎng)更難——Diplomacy:一款融合協(xié)作與競(jìng)爭(zhēng)的七人博弈游戲,單輪動(dòng)作空間高達(dá)10的64次方,其策略建模復(fù)雜度前所未有!

為此,Meta曾推出智能體Cicero[Meta, Science 2022],結(jié)合人類數(shù)據(jù)與策略搜索,在該領(lǐng)域?qū)崿F(xiàn)突破,但其方法高度依賴超大規(guī)模均衡搜索與重資源訓(xùn)練,難以擴(kuò)展與遷移。

現(xiàn)在,中科院自動(dòng)化所的一項(xiàng)研究成果入選ICML 2025,提出了全新范式的博弈智能體框架——DipLLM,首次在Diplomacy中探索基于大語(yǔ)言模型微調(diào)的策略學(xué)習(xí)方法,顯著降低資源需求,展現(xiàn)出卓越的策略能力與樣本效率。

DipLLM構(gòu)建在自回歸分解框架之上,將高維聯(lián)合動(dòng)作建模任務(wù)轉(zhuǎn)化為序列化子任務(wù),并結(jié)合理論支持的均衡策略目標(biāo)對(duì)LLM進(jìn)行高效微調(diào)。

在僅使用Cicero 1.5%訓(xùn)練數(shù)據(jù)的情況下,便實(shí)現(xiàn)性能超越,展現(xiàn)出強(qiáng)大的策略能力與驚人的樣本效率。

圖片

論文地址:https://arxiv.org/pdf/2506.09655

開(kāi)源代碼:https://github.com/KaiXIIM/dipllm

論文第一作者為徐凱旋,中科院自動(dòng)化所直博二年級(jí);共同第一作者為柴嘉駿,中科院自動(dòng)化所直博五年級(jí);通訊作者為朱圓恒,中科院自動(dòng)化所副研;研究方向?yàn)榇竽P蛷?qiáng)化學(xué)習(xí)后訓(xùn)練和智能體、多智能體強(qiáng)化學(xué)習(xí)、多具身智能。

研究背景

盡管圍棋、國(guó)際象棋等經(jīng)典博弈任務(wù)已被廣泛研究,其動(dòng)作空間一般僅在千級(jí)以內(nèi)。 而在Diplomacy中,玩家需同時(shí)為多個(gè)單位做出決策,每回合聯(lián)合動(dòng)作組合高達(dá)10的64次方,導(dǎo)致策略學(xué)習(xí)與建模難度激增。

目前主流方法多依賴通過(guò)均衡搜索(equilibrium search)產(chǎn)生大規(guī)模博弈數(shù)據(jù)進(jìn)行策略擬合。

例如,Cicero在訓(xùn)練階段使用448張GPU并行生成數(shù)據(jù),成本高昂且難以擴(kuò)展。

近年來(lái),大語(yǔ)言模型(LLM)展現(xiàn)出強(qiáng)大的泛化與推理能力,為復(fù)雜決策任務(wù)帶來(lái)新可能。雖然基于prompt的方法可在部分任務(wù)可快速適配,但在Diplomacy等復(fù)雜博弈中,其策略生成能力仍受限于基礎(chǔ)模型性能。

已有研究表明,對(duì)LLM進(jìn)行微調(diào)(fine-tuning)能顯著提升策略表現(xiàn)[Zhai et al., NeurIPS 2024]。

然而,在復(fù)雜博弈中,如何構(gòu)建合理的訓(xùn)練框架與優(yōu)化目標(biāo)仍面臨諸多挑戰(zhàn),尤其是:超大規(guī)模動(dòng)作空間導(dǎo)致的決策障礙,以及復(fù)雜多智能體博弈下均衡策略的缺乏。

DipLLM

用于復(fù)雜博弈的自回歸策略分解智能體

為了解決上述難題,研究人員提出一種適用于復(fù)雜博弈環(huán)境的 LLM 智能體,構(gòu)建過(guò)程包括了三個(gè)關(guān)鍵步驟。

步驟1:基于大語(yǔ)言模型的自回歸分解框架

在Diplomacy游戲中,玩家需要為最多34個(gè)單位同時(shí)選擇動(dòng)作,每個(gè)單位約有26種選擇,導(dǎo)致聯(lián)合動(dòng)作空間呈指數(shù)級(jí)增長(zhǎng)。

圖片

為此,研究人員提出一種基于大語(yǔ)言模型的自回歸因式分解框架,將復(fù)雜的聯(lián)合決策任務(wù)拆解為一系列有序的單位動(dòng)作選擇(unit-action selection)子任務(wù)。

具體來(lái)說(shuō),將玩家的整體策略表示為:

圖片

每一個(gè)子策略依賴于當(dāng)前游戲狀態(tài)s和前d-1個(gè)單位的動(dòng)作,從而按順序生成當(dāng)前單位的動(dòng)作圖片

這一形式與 LLM 擅長(zhǎng)的「下一個(gè) token 預(yù)測(cè)」(next-token prediction)機(jī)制天然契合,使得模型能夠逐步輸出每個(gè)單位的行動(dòng)決策。

在推理階段,LLM 首先將原始游戲狀態(tài)轉(zhuǎn)化為文本格式s,然后針對(duì)每個(gè)單位,結(jié)合其編號(hào)與前序單位動(dòng)作圖片,構(gòu)造提示(prompt)并生成動(dòng)作圖片,最終拼接為完整聯(lián)合動(dòng)作。

步驟2:自回歸分解框架下的策略學(xué)習(xí)目標(biāo)

為了有效引導(dǎo)微調(diào)過(guò)程,研究人員在自回歸分解框架下重新定義了策略學(xué)習(xí)目標(biāo),以學(xué)習(xí)近似納什均衡策略。

在傳統(tǒng)方法,如piKL-Hedge[Jacob et al., ICML 2022],玩家的策略通常建模為集中式?jīng)Q策,玩家i的策略受到聯(lián)合動(dòng)作價(jià)值函數(shù)圖片以及錨定策略圖片共同引導(dǎo):

圖片

其中錨定策略圖片是基于人類數(shù)據(jù)模仿學(xué)習(xí)得到的類人策略,避免搜索過(guò)程中過(guò)度偏離人類能理解的范圍。

為了定義分解下的策略學(xué)習(xí)目標(biāo),研究人員將聯(lián)合動(dòng)作值圖片分解為一系列單位級(jí)的子動(dòng)作值圖片,表示第d個(gè)單位的分解動(dòng)作價(jià)值:

圖片

基于這一分解,進(jìn)而定義了如下單位級(jí)策略學(xué)習(xí)目標(biāo)

圖片

理論保證

研究人員進(jìn)一步從理論角度分析了該策略學(xué)習(xí)目標(biāo)在博弈環(huán)境中的性質(zhì),并提出了兩個(gè)關(guān)鍵定理加以支撐:

  • 定理1(策略等價(jià)性)通過(guò)自回歸分解策略學(xué)習(xí)目標(biāo)推導(dǎo)出的聯(lián)合策略

圖片

其與原始策略分布π保持等價(jià)性,即在不損失策略表達(dá)能力的前提下,實(shí)現(xiàn)了更高效的建模。

  • 定理2(近似納什均衡收斂)在兩人零和博弈中,若雙方均使用自回歸分解策略學(xué)習(xí)目標(biāo)迭代更新策略T輪,其平均策略將收斂到一個(gè)近似納什均衡。

步驟3:微調(diào)大語(yǔ)言模型以逼近均衡策略目標(biāo)

圖片

為引導(dǎo)模型策略逼近均衡目標(biāo),研究人員構(gòu)建了一套結(jié)合博弈交互與價(jià)值分解的數(shù)據(jù)生成與微調(diào)流程。

數(shù)據(jù)收集

通過(guò)讓特定模型DipNet[Paquette et al., NeurIPS 2019]與Diplomacy環(huán)境交互,收集原始對(duì)局?jǐn)?shù)據(jù),并借助均衡搜索算法piKL-Hedge計(jì)算聯(lián)合動(dòng)作價(jià)值函數(shù)圖片

為適應(yīng)自回歸分解策略結(jié)構(gòu),研究人員將聯(lián)合動(dòng)作價(jià)值進(jìn)一步拆解為單位級(jí)的動(dòng)作價(jià)值圖片

接下來(lái),將每個(gè)聯(lián)合動(dòng)作轉(zhuǎn)化為文本格式,并進(jìn)行拆解,提取出:

  • 當(dāng)前單位的輸入任務(wù)提示(由前d-1個(gè)單位的動(dòng)作構(gòu)成):圖片
  • 當(dāng)前單位的真值動(dòng)作:圖片

任務(wù)提示

圖片與來(lái)自玩家視角的文本狀態(tài)s一同構(gòu)成大語(yǔ)言模型的輸入,當(dāng)前單位的真值動(dòng)作圖片則作為訓(xùn)練的標(biāo)簽。

最終,所有數(shù)據(jù)被整理為自回歸分解格式的訓(xùn)練樣本:

圖片

其中:

  • s為玩家i視角下的文本游戲狀態(tài);
  • 圖片:前d-1個(gè)單位動(dòng)作組成的任務(wù)提示;
  • 圖片:第d個(gè)單位的真值動(dòng)作的文本表示;
  • 圖片:該動(dòng)作對(duì)應(yīng)的單位級(jí)Q值。

損失函數(shù)

在上述構(gòu)造的數(shù)據(jù)基礎(chǔ)上,進(jìn)而對(duì)大語(yǔ)言模型進(jìn)行微調(diào),以引導(dǎo)智能體策略對(duì)齊至前文定義的均衡策略學(xué)習(xí)目標(biāo)。

該過(guò)程通過(guò)最小化大語(yǔ)言模型生成策略與目標(biāo)策略之間的KL散度(Kullback-Leibler Divergence)來(lái)實(shí)現(xiàn),形式化地,該優(yōu)化目標(biāo)可寫作:

圖片

進(jìn)一步推導(dǎo)可得,該目標(biāo)等價(jià)于最大化帶權(quán)對(duì)數(shù)似然函數(shù)

圖片

實(shí)驗(yàn)結(jié)果與分析

為評(píng)估DipLLM在Diplomacy環(huán)境中的策略能力,研究人員構(gòu)建了一個(gè)由四個(gè)強(qiáng)基線模型組成的對(duì)手池,在每輪對(duì)局中隨機(jī)選取兩名智能體進(jìn)行博弈。

通過(guò)大量對(duì)局實(shí)驗(yàn),系統(tǒng)統(tǒng)計(jì)了包括SoS得分、勝率、生存率等在內(nèi)的多個(gè)關(guān)鍵指標(biāo),以全面衡量智能體的策略表現(xiàn)。

實(shí)驗(yàn)結(jié)果顯示,DipLLM 在所有五項(xiàng)測(cè)試指標(biāo)上均優(yōu)于當(dāng)前最先進(jìn)方法(SOTA)

圖片

盡管僅使用了約Cicero訓(xùn)練數(shù)據(jù)的1.5%,DipLLM依然展現(xiàn)出更強(qiáng)的策略能力與博弈表現(xiàn),充分體現(xiàn)了其在復(fù)雜博弈環(huán)境下的高樣本效率與策略優(yōu)化潛力。

總結(jié)與展望

研究人員提出了DipLLM,一種面向復(fù)雜博弈場(chǎng)景的大語(yǔ)言模型微調(diào)智能體。

通過(guò)引入自回歸分解機(jī)制,將高維聯(lián)合決策任務(wù)轉(zhuǎn)化為一系列可控的順序子任務(wù),從根本上緩解了傳統(tǒng)策略建模在動(dòng)作空間維度上的瓶頸。

在此基礎(chǔ)上,構(gòu)建了具備理論保障的均衡策略優(yōu)化目標(biāo),并通過(guò)微調(diào)引導(dǎo)模型策略逐步逼近納什均衡。

盡管僅使用了Cicero訓(xùn)練數(shù)據(jù)的1.5%,DipLLM便實(shí)現(xiàn)超越,充分展現(xiàn)了大語(yǔ)言模型在多智能體博弈中的策略能力與樣本效率。

這項(xiàng)工作為構(gòu)建更通用、更高效、更可遷移的博弈智能體提供了新范式,也預(yù)示著基于LLM的策略學(xué)習(xí)將在更多復(fù)雜決策環(huán)境中釋放潛力。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2009-07-18 13:10:20

中科院中國(guó)網(wǎng)絡(luò)戰(zhàn)

2016-04-19 12:51:26

2018-05-04 13:31:00

人工智能芯片云端

2024-12-20 11:15:25

2017-05-15 15:07:36

納米材料農(nóng)藥

2018-06-14 10:31:12

2018-06-14 09:31:13

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫(kù)

2009-09-18 09:40:57

浪潮中科院合肥

2017-04-16 17:41:43

人工智能

2022-06-07 11:14:23

神經(jīng)網(wǎng)絡(luò)AI中科院

2013-09-02 10:21:31

曙光核高基中科院

2010-05-14 10:09:21

中科院LED無(wú)線上網(wǎng)

2009-10-11 01:04:43

曙光中科院計(jì)算中心

2021-07-13 16:18:55

曙光

2020-01-16 15:20:48

編程語(yǔ)言PythonJava

2009-07-21 09:47:59

龍芯中科院

2021-07-13 05:28:34

智能計(jì)算人工智能AI

2020-09-01 13:30:03

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-10-12 16:46:59

ArrayList接口LinkedList
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 2021天天干夜夜爽 | 91视频精选 | 欧美国产精品久久久 | 中文字幕国产一区 | 在线观看视频一区二区三区 | 九九热精品视频 | 精品视频一区二区在线观看 | 国产视频91在线 | 夜夜爽99久久国产综合精品女不卡 | 色婷婷av久久久久久久 | 成人午夜精品 | 中文字幕亚洲区一区二 | 久久久久久高清 | 伊人久久综合 | 国产99久久久国产精品 | 国产欧美日韩一区二区三区在线 | www.久久精品 | 日韩一级黄色片 | 99久热| av黄色在线 | 精品乱人伦一区二区三区 | 国产精品自产av一区二区三区 | 亚洲视频在线一区 | a级片在线观看 | 日韩在线观看视频一区 | 久久69精品久久久久久国产越南 | 欧美一区二区三区视频 | 久久成人一区二区三区 | 日日夜精品视频 | 一级片av| 国产免费麻豆视频 | 国产色婷婷久久99精品91 | 欧美日韩在线免费 | 午夜影院在线观看免费 | 毛片网站免费观看 | 亚洲欧美一区二区三区国产精品 | 婷婷去俺也去 | 中文字幕av中文字幕 | 国产 日韩 欧美 中文 在线播放 | 欧美日韩中文字幕 | 成人在线视频网站 |