棋盤變戰場,大模型卻呆了?普林斯頓、UT Austin新基準SPIN-Bench曝AI智商瓶頸
當棋盤變成戰場,當盟友暗藏心機,當談判需要三十六計,AI 的智商令人嘆息!
近日,來自普林斯頓和德州大學奧斯丁分校最新評測基準 SPIN-Bench,用一套 "組合拳" 暴擊了大模型的軟肋。研究顯示,即便是 o1、o3-mini、DeepSeek R1、GPT-4o、Claude 3.5 等頂尖大模型,在涉及戰略規劃和社會推理的復雜任務中集體 "自閉"。
- 論文標題:SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?
- 論文鏈接:https://arxiv.org/pdf/2503.12349
- 項目主頁:https://spinbench.github.io
在過去的一年里,大語言模型(LLM)展現了令人驚嘆的 "文本生成" 和 "智能代理" 能力。許多社區用戶已經見到了各大模型的「百花齊放」:從高效的簡單問答到多輪對話推理。
然而,當我們談到真正復雜的 "思考" 場景 —— 譬如需要在一個充滿其他 "玩家"(人或智能體)的不確定環境中做出長程策略規劃、臨場談判合作甚至 "背后使壞" 時,當下的 LLM 是否還能站穩腳跟?
傳統 AI 測試總讓大模型做 "乖學生":解數學題、寫代碼、背百科...... 但在真實世界中,人類更常用的智能是動態博弈中的謀略和復雜社交中的洞察。
為解答這一問題,作者推出了全新的多域評估框架 SPIN-Bench(Strategic Planning, Interaction, and Negotiation),將單人規劃、合作游戲、對抗博弈和多方談判統一到一個測試框架中,并系統化地擴大環境規模和復雜度,旨在全面刻畫 LLM 在戰略規劃與社交推理方面的 "短板" 與潛力。
SPIN-Bench: 一覽多維度評估體系
SPIN-Bench 框架包含兩個核心組成部分:
1. 游戲代理,包括 LLM 及其自適應提示;
2. 環境和評估子系統,用于管理游戲邏輯、跟蹤互動和量化性能。
傳統的規劃評測大多在單人、可完全觀察的環境中進行,無法充分反映現實中團隊決策的復雜度。而 SPIN-Bench 試圖通過形式化任務與多人場景相結合,把現實中需要的 "同伴合作"" 談判博弈 " 等關鍵技能一并納入,以幫助找到 LLM 在真實應用落地時可能面臨的問題。
SPIN-Bench 讓 LLM 面對從 "最基礎" 的單智能體規劃,到 "最復雜" 的多智能體混合對抗與合作,逐步升級難度。文章并不僅僅統計 "最終是否獲勝" 或者 "是否達成目標",還額外設置了若干細顆粒度的指標,用來量化模型的決策準確性、協作有效性以及在社交場景下的話術與執行匹配度。
具體而言,該文主要聚焦三個層次:
- 經典規劃(PDDL)- 測試 "單智能體思維" 極限
1、單智能體,確定性環境,多步動作規劃,通過層層遞進的難度,分析模型的錯誤原因。
2、涵蓋 21 個領域(共 1,280 個任務),包含 elevator、grid、floortile 等多個常見子任務,考察點涉及狀態空間的逐步提升和逐漸復雜的約束條件。
3、在經典規劃問題中,題目通常會明確給出初始狀態、可執行的動作集以及希望達到的目標狀態。Agent 的任務則是利用這些已知信息,規劃并生成從初始狀態到目標狀態的動作序列(trajectory)。
例如,在一個電梯控制問題中,Agent 可以執行電梯的上下移動和開關門等動作,它需要通過合理規劃,在最少的步驟內,將所有乘客準確、高效地運送到他們各自對應的目標樓層。在這個例子中 o1 把最后一位乘客(p4)送錯了樓層,說明 LLM 仍有提升空間。
- 多智能體對抗或合作 - 逐步升級的腦力絞殺
1. 對抗場景(井字棋,四子棋,國際象棋):文章分別對比 LLM 的落子行動與專業博弈引擎、啟發式搜索算法的對戰平局概率與選步差異,動作是否符合最優策略,評估其在戰術和戰略層面的深度。
2. 合作場景(Hanabi):考核模型面對不完全信息時,是否能夠通過溝通隱含信息、推測隊友手牌,實現團體協作。
- 戰略游戲與談判 - 七國混戰 + 實時談判,上演 AI 版《權力的游戲》
Diplomacy 是一款融合聯盟、談判、背叛與合作的策略類桌游。玩家之間需要相互通信、結盟或欺騙,最終同時下達指令。文章考察 LLM 在 "多步長程規劃" 與 "社交手段"(如如何爭取盟友、如何制定信息不對稱策略)方面的綜合表現。不僅僅是讓模型 "求解" 問題,更是讓模型在有其他玩家干擾、或需要和其他玩家溝通的場景中,實時地進行策略調整。這就要求 LLM 要在語言能力之外,具備多步推理和心智模型(Theory of Mind),并能兼顧團隊 / 對手的動機。
實驗結果與分析: AI 集體遭遇 "滑鐵盧"
模型配置概述
該文評估了當前流行的閉源和開源大語言模型:
- 閉源模型:包含 OpenAI(如 o1, o3-mini, o1-mini, GPT-4o、GPT-4o mini、GPT-4-turbo 等)和 Anthropic 的 Claude 3.5(Sonnet/Haiku),共 10 個商業模型。
- 開源模型:涵蓋 DeepSeek-R1、Llama3 系列、Qwen2.5-72B 和 Mistral-7B 等 7 個模型。
表 1:PDDL、競技棋盤游戲和合作游戲的結果。Plan Acc 表示規劃準確度。N-Step " 表示 N 步前瞻。TTT、C4、CH 是三種競技游戲。WR 下標表示專業博弈引擎對每個 LLM 的勝率(%)。T3 下標顯示 LLM 在所有對局中的棋步屬于 top 3 choice 的百分比(%)。Hanabi 列顯示 2-5 名棋手參與游戲的平均得分。
PDDL 實驗結果分析
圖 1:o1 的準確度與行動空間之間的關系。左圖描繪的是準確率與合法行動平均數量的函數關系,右圖考察的是準確率與狀態 - 行動空間 大小的關系。
- o1 在經典規劃上表現最佳,但在大型行動 / 狀態空間中仍有明顯下降。
- 核心發現:模型準確率與狀態 - 行動空間規模的關聯性顯著高于與合法行動平均數量的關聯性。
- 認知解讀:模型在規劃時需承擔未來大量潛在分支的認知負擔,即使每一步僅有少量有效選擇。這表明 LLMs 更易受全局復雜性影響,而非單步決策限制。
競技棋盤游戲表現
在 solver 與 LLM 的對決中,solver 幾乎總是獲勝或和棋(表 1):
- 井字棋(Tic-Tac-Toe):較強的模型(如 o1,Claude 3.5 Sonnet)偶爾能與完美 Solver 達成平局,但多數情況仍落敗。
- 四子棋(Connect Four)與國際象棋(Chess):游戲 Solver(如 Stockfish 引擎)對所有測試的 LLMs 保持 100% 勝率。
- LLMs 在四連環中偶爾能選擇最優棋步,但在國際象棋中準確率驟降,凸顯其深層戰術推理與分支擴展能力不足。
Hanabi 多人合作游戲分析
多人協作挑戰:
- 當玩家數量從 2 人增至 5 人時,頂尖模型(如 o1)的平均得分從 16.4 降至 14.2,表明多代理協調對 LLMs 的策略一致性造成壓力。
- 部分模型(如 o1-mini、DeepSeek-R1)它們的高方差以及相對較低的平均得分表明缺乏足夠的策略規劃能力以有效地進行 Hanabi 游戲,無法適應復雜協作場景。
與人類對比:
- 作者團隊爬取并分析了 54,977 場人類 Hanabi 游戲數據,發現人類得分集中在 15-25 分區間。
- 當 LLMs 必須協調多個不完整的信息渠道并跟蹤隊友不斷變化的知識狀態時,所有 LLMs 均未達到人類得分的第一四分位數,暴露其 "社會智能" 普遍不足。
表 2:4 個玩家的 Diplomacy 游戲實驗結果結果,(結果表示:無協商 / 有協商)展示 LLM 不同類別指令的成功率,以及游戲結束時供應中心(SC)和受控區域(CR)的數量。右側從左到右為談判消息的評測指標。基本技能測試(BS)顯示特定模型是否通過了外交游戲的基礎技能測試。
Diplomacy 戰略談判游戲分析(表 2)
基礎技能測試:
- 在無談判的單玩家最簡單基準測試中,僅 o1-preview、o1 和 GPT-4o 能在 20 回合內占領 18 個補給中心,其他模型均失敗,反映 LLMs 在長期戰略規劃上的局限性。
空間指令能力:
- o1 在基本命令(如移動和攻擊)的成功率上超過其他模型(20-30%)。
- 對于需要多步或多智能體邏輯的復雜行動(如自我支援和支援他人),所有模型的性能都明顯下降。
多玩家場景表現:
- 隨著參與國數量增加(2-7),LLMs 的指令準確性、攻擊成功率與供應中心收益顯著下降,表明其難以應對部分可觀測性與動態聯盟關系的疊加復雜度。
- 對模型談判消息的分析表明,大型語言模型在談判中展現出差異化策略:所有模型均表現出高策略一致性(比率 > 0.90),其中 o1 的說服力最強(接受率 65%),而 Claude 3.5 Haiku 較弱(36%)。多數模型傾向提出互利方案(如 GPT-4-turbo),但 DeepSeek-R1 和 3.5 Haiku 更傾向于引發沖突。盡管 GPT-4-turbo 擅長換位思考,DeepSeek-R1 善用條件性戰術,但從結果來看,所有模型均缺乏人類談判者的策略靈活性 —— 尤其在復雜社交互動中表現局限,反映出當前 AI 的社會智能仍處于初級階段。
談判的負面影響:
- 引入談判往往會對 o1 這樣的強推理模型產生反直覺的影響:執行的指令數量與最終得分(補給中心 / 控制區域)大幅下降,而部分較弱模型反而表現穩定。
- 這一結果表明,激烈的社交互動可能會破壞強推理 LLM 的計劃連貫性和推理思維鏈,凸顯其 "思維鏈擴展" 與社會智能間的潛在矛盾。
實驗結論:LLM 的痛點與挑戰
通過這套涵蓋從基礎規劃到多智能體策略博弈的評測,研究者得出了一些關鍵結論:
簡單規劃還行,復雜規劃時大多不行
當狀態空間小、可選動作少時,LLM 可以完成相當不錯的單步或短程規劃,但一旦問題規模擴張,或者游戲進入中后期出現大量分支,模型就很快出現多步推理瓶頸,甚至輸出不合規則的行動。
大模型背后的 "社交" 與 "規劃" 引擎仍需加強
本次評測表明了大模型在多步決策與他人意圖建模方面的不足。未來若想真正讓 LLM 在更復雜、更現實的多智能體協同場景發光發熱,我們需要更先進的強化學習或多智能體訓練框架,結合知識圖譜、記憶模塊或世界模型來避免推理鏈被輕易打斷。
不完全信息和多跳推斷是硬傷
在如 Hanabi 這類帶 "隱含信息" 的合作游戲中,模型需要通過隊友提示來推理自己持有的牌。實驗顯示,大多數 LLM 依舊力不從心,也缺乏對他人思維進行多跳推理的穩定能力。
與人類高水平協作仍有明顯差距
即便是表現最好的大模型,在需要深度合作(如 Hanabi)或多方談判(如 Diplomacy)時,仍遠遠達不到人類玩家的平均成績。這也從一個側面說明:真實多智能體團隊決策中,大模型還需要大量的結構化規劃模塊與更豐富的交互記憶 / 推理機制。
作者的項目主頁提供了不同 LLM 之間的對戰以及游戲軌跡細節和任務的可視化:https://spinbench.github.io