策略改寫「一戰(zhàn)歷史」!中科院開(kāi)源全新博弈智能體框架DipLLM
圍棋、德州撲克曾是AI崛起的試煉場(chǎng),從AlphaGo到Libratus,人工智能不斷刷新策略上限。
但接下來(lái)的戰(zhàn)場(chǎng)更難——Diplomacy:一款融合協(xié)作與競(jìng)爭(zhēng)的七人博弈游戲,單輪動(dòng)作空間高達(dá)10的64次方,其策略建模復(fù)雜度前所未有!
為此,Meta曾推出智能體Cicero[Meta, Science 2022],結(jié)合人類數(shù)據(jù)與策略搜索,在該領(lǐng)域?qū)崿F(xiàn)突破,但其方法高度依賴超大規(guī)模均衡搜索與重資源訓(xùn)練,難以擴(kuò)展與遷移。
現(xiàn)在,中科院自動(dòng)化所的一項(xiàng)研究成果入選ICML 2025,提出了全新范式的博弈智能體框架——DipLLM,首次在Diplomacy中探索基于大語(yǔ)言模型微調(diào)的策略學(xué)習(xí)方法,顯著降低資源需求,展現(xiàn)出卓越的策略能力與樣本效率。
DipLLM構(gòu)建在自回歸分解框架之上,將高維聯(lián)合動(dòng)作建模任務(wù)轉(zhuǎn)化為序列化子任務(wù),并結(jié)合理論支持的均衡策略目標(biāo)對(duì)LLM進(jìn)行高效微調(diào)。
在僅使用Cicero 1.5%訓(xùn)練數(shù)據(jù)的情況下,便實(shí)現(xiàn)性能超越,展現(xiàn)出強(qiáng)大的策略能力與驚人的樣本效率。
論文地址:https://arxiv.org/pdf/2506.09655
開(kāi)源代碼:https://github.com/KaiXIIM/dipllm
論文第一作者為徐凱旋,中科院自動(dòng)化所直博二年級(jí);共同第一作者為柴嘉駿,中科院自動(dòng)化所直博五年級(jí);通訊作者為朱圓恒,中科院自動(dòng)化所副研;研究方向?yàn)榇竽P蛷?qiáng)化學(xué)習(xí)后訓(xùn)練和智能體、多智能體強(qiáng)化學(xué)習(xí)、多具身智能。
研究背景
盡管圍棋、國(guó)際象棋等經(jīng)典博弈任務(wù)已被廣泛研究,其動(dòng)作空間一般僅在千級(jí)以內(nèi)。 而在Diplomacy中,玩家需同時(shí)為多個(gè)單位做出決策,每回合聯(lián)合動(dòng)作組合高達(dá)10的64次方,導(dǎo)致策略學(xué)習(xí)與建模難度激增。
目前主流方法多依賴通過(guò)均衡搜索(equilibrium search)產(chǎn)生大規(guī)模博弈數(shù)據(jù)進(jìn)行策略擬合。
例如,Cicero在訓(xùn)練階段使用448張GPU并行生成數(shù)據(jù),成本高昂且難以擴(kuò)展。
近年來(lái),大語(yǔ)言模型(LLM)展現(xiàn)出強(qiáng)大的泛化與推理能力,為復(fù)雜決策任務(wù)帶來(lái)新可能。雖然基于prompt的方法可在部分任務(wù)可快速適配,但在Diplomacy等復(fù)雜博弈中,其策略生成能力仍受限于基礎(chǔ)模型性能。
已有研究表明,對(duì)LLM進(jìn)行微調(diào)(fine-tuning)能顯著提升策略表現(xiàn)[Zhai et al., NeurIPS 2024]。
然而,在復(fù)雜博弈中,如何構(gòu)建合理的訓(xùn)練框架與優(yōu)化目標(biāo)仍面臨諸多挑戰(zhàn),尤其是:超大規(guī)模動(dòng)作空間導(dǎo)致的決策障礙,以及復(fù)雜多智能體博弈下均衡策略的缺乏。
DipLLM
用于復(fù)雜博弈的自回歸策略分解智能體
為了解決上述難題,研究人員提出一種適用于復(fù)雜博弈環(huán)境的 LLM 智能體,構(gòu)建過(guò)程包括了三個(gè)關(guān)鍵步驟。
步驟1:基于大語(yǔ)言模型的自回歸分解框架
在Diplomacy游戲中,玩家需要為最多34個(gè)單位同時(shí)選擇動(dòng)作,每個(gè)單位約有26種選擇,導(dǎo)致聯(lián)合動(dòng)作空間呈指數(shù)級(jí)增長(zhǎng)。
為此,研究人員提出一種基于大語(yǔ)言模型的自回歸因式分解框架,將復(fù)雜的聯(lián)合決策任務(wù)拆解為一系列有序的單位動(dòng)作選擇(unit-action selection)子任務(wù)。
具體來(lái)說(shuō),將玩家的整體策略表示為:
每一個(gè)子策略依賴于當(dāng)前游戲狀態(tài)s和前d-1個(gè)單位的動(dòng)作,從而按順序生成當(dāng)前單位的動(dòng)作
這一形式與 LLM 擅長(zhǎng)的「下一個(gè) token 預(yù)測(cè)」(next-token prediction)機(jī)制天然契合,使得模型能夠逐步輸出每個(gè)單位的行動(dòng)決策。
在推理階段,LLM 首先將原始游戲狀態(tài)轉(zhuǎn)化為文本格式s,然后針對(duì)每個(gè)單位,結(jié)合其編號(hào)與前序單位動(dòng)作,構(gòu)造提示(prompt)并生成動(dòng)作
,最終拼接為完整聯(lián)合動(dòng)作。
步驟2:自回歸分解框架下的策略學(xué)習(xí)目標(biāo)
為了有效引導(dǎo)微調(diào)過(guò)程,研究人員在自回歸分解框架下重新定義了策略學(xué)習(xí)目標(biāo),以學(xué)習(xí)近似納什均衡策略。
在傳統(tǒng)方法,如piKL-Hedge[Jacob et al., ICML 2022],玩家的策略通常建模為集中式?jīng)Q策,玩家i的策略受到聯(lián)合動(dòng)作價(jià)值函數(shù)以及錨定策略
共同引導(dǎo):
其中錨定策略是基于人類數(shù)據(jù)模仿學(xué)習(xí)得到的類人策略,避免搜索過(guò)程中過(guò)度偏離人類能理解的范圍。
為了定義分解下的策略學(xué)習(xí)目標(biāo),研究人員將聯(lián)合動(dòng)作值分解為一系列單位級(jí)的子動(dòng)作值
,表示第d個(gè)單位的分解動(dòng)作價(jià)值:
基于這一分解,進(jìn)而定義了如下單位級(jí)策略學(xué)習(xí)目標(biāo):
理論保證
研究人員進(jìn)一步從理論角度分析了該策略學(xué)習(xí)目標(biāo)在博弈環(huán)境中的性質(zhì),并提出了兩個(gè)關(guān)鍵定理加以支撐:
- 定理1(策略等價(jià)性)通過(guò)自回歸分解策略學(xué)習(xí)目標(biāo)推導(dǎo)出的聯(lián)合策略
其與原始策略分布π保持等價(jià)性,即在不損失策略表達(dá)能力的前提下,實(shí)現(xiàn)了更高效的建模。
- 定理2(近似納什均衡收斂)在兩人零和博弈中,若雙方均使用自回歸分解策略學(xué)習(xí)目標(biāo)迭代更新策略T輪,其平均策略將收斂到一個(gè)近似納什均衡。
步驟3:微調(diào)大語(yǔ)言模型以逼近均衡策略目標(biāo)
為引導(dǎo)模型策略逼近均衡目標(biāo),研究人員構(gòu)建了一套結(jié)合博弈交互與價(jià)值分解的數(shù)據(jù)生成與微調(diào)流程。
數(shù)據(jù)收集
通過(guò)讓特定模型DipNet[Paquette et al., NeurIPS 2019]與Diplomacy環(huán)境交互,收集原始對(duì)局?jǐn)?shù)據(jù),并借助均衡搜索算法piKL-Hedge計(jì)算聯(lián)合動(dòng)作價(jià)值函數(shù)
為適應(yīng)自回歸分解策略結(jié)構(gòu),研究人員將聯(lián)合動(dòng)作價(jià)值進(jìn)一步拆解為單位級(jí)的動(dòng)作價(jià)值
接下來(lái),將每個(gè)聯(lián)合動(dòng)作轉(zhuǎn)化為文本格式,并進(jìn)行拆解,提取出:
- 當(dāng)前單位的輸入任務(wù)提示(由前d-1個(gè)單位的動(dòng)作構(gòu)成):
- 當(dāng)前單位的真值動(dòng)作:
任務(wù)提示
與來(lái)自玩家視角的文本狀態(tài)s一同構(gòu)成大語(yǔ)言模型的輸入,當(dāng)前單位的真值動(dòng)作
則作為訓(xùn)練的標(biāo)簽。
最終,所有數(shù)據(jù)被整理為自回歸分解格式的訓(xùn)練樣本:
其中:
- s為玩家i視角下的文本游戲狀態(tài);
:前d-1個(gè)單位動(dòng)作組成的任務(wù)提示;
:第d個(gè)單位的真值動(dòng)作的文本表示;
:該動(dòng)作對(duì)應(yīng)的單位級(jí)Q值。
損失函數(shù)
在上述構(gòu)造的數(shù)據(jù)基礎(chǔ)上,進(jìn)而對(duì)大語(yǔ)言模型進(jìn)行微調(diào),以引導(dǎo)智能體策略對(duì)齊至前文定義的均衡策略學(xué)習(xí)目標(biāo)。
該過(guò)程通過(guò)最小化大語(yǔ)言模型生成策略與目標(biāo)策略之間的KL散度(Kullback-Leibler Divergence)來(lái)實(shí)現(xiàn),形式化地,該優(yōu)化目標(biāo)可寫作:
進(jìn)一步推導(dǎo)可得,該目標(biāo)等價(jià)于最大化帶權(quán)對(duì)數(shù)似然函數(shù):
實(shí)驗(yàn)結(jié)果與分析
為評(píng)估DipLLM在Diplomacy環(huán)境中的策略能力,研究人員構(gòu)建了一個(gè)由四個(gè)強(qiáng)基線模型組成的對(duì)手池,在每輪對(duì)局中隨機(jī)選取兩名智能體進(jìn)行博弈。
通過(guò)大量對(duì)局實(shí)驗(yàn),系統(tǒng)統(tǒng)計(jì)了包括SoS得分、勝率、生存率等在內(nèi)的多個(gè)關(guān)鍵指標(biāo),以全面衡量智能體的策略表現(xiàn)。
實(shí)驗(yàn)結(jié)果顯示,DipLLM 在所有五項(xiàng)測(cè)試指標(biāo)上均優(yōu)于當(dāng)前最先進(jìn)方法(SOTA)
盡管僅使用了約Cicero訓(xùn)練數(shù)據(jù)的1.5%,DipLLM依然展現(xiàn)出更強(qiáng)的策略能力與博弈表現(xiàn),充分體現(xiàn)了其在復(fù)雜博弈環(huán)境下的高樣本效率與策略優(yōu)化潛力。
總結(jié)與展望
研究人員提出了DipLLM,一種面向復(fù)雜博弈場(chǎng)景的大語(yǔ)言模型微調(diào)智能體。
通過(guò)引入自回歸分解機(jī)制,將高維聯(lián)合決策任務(wù)轉(zhuǎn)化為一系列可控的順序子任務(wù),從根本上緩解了傳統(tǒng)策略建模在動(dòng)作空間維度上的瓶頸。
在此基礎(chǔ)上,構(gòu)建了具備理論保障的均衡策略優(yōu)化目標(biāo),并通過(guò)微調(diào)引導(dǎo)模型策略逐步逼近納什均衡。
盡管僅使用了Cicero訓(xùn)練數(shù)據(jù)的1.5%,DipLLM便實(shí)現(xiàn)超越,充分展現(xiàn)了大語(yǔ)言模型在多智能體博弈中的策略能力與樣本效率。
這項(xiàng)工作為構(gòu)建更通用、更高效、更可遷移的博弈智能體提供了新范式,也預(yù)示著基于LLM的策略學(xué)習(xí)將在更多復(fù)雜決策環(huán)境中釋放潛力。