AI Agent、傳統聊天機器人有何區別?如何評測?這篇30頁綜述講明白了
論文作者包括來自上海交通大學的朱家琛、芮仁婷、單榕、鄭琮珉、西云佳、林江浩、劉衛文、俞勇、張偉楠,以及華為諾亞研究所的朱夢輝、陳渤、唐睿明。
本文第一作者是朱家琛,上海交通大學博士生,主要研究興趣集中在大模型推理,個性化 Agent。本文通訊作者是張偉楠,上海交通大學教授,研究方向包含強化學習、數據科學、機器人控制、推薦搜索等。
自從 Transformer 問世,NLP 領域發生了顛覆性變化。大語言模型極大提升了文本理解與生成能力,成為現代 AI 系統的基礎。而今,AI 正不斷向前,具備自主決策和復雜交互能力的新一代 AI Agent 也正加速崛起。
不同于以往只會對話的 LLM 機器人,AI Agent 能夠接入互聯網、調用各類 API,還能根據真實環境反饋靈活調整策略。AI Agent 因此具備了感知環境和自主決策的能力,已經突破了傳統 “問答模式” 的限制,能夠主動執行任務、應對各種復雜場景,真正成為用戶身邊可靠的智能助手。
在這股 AI Agent 浪潮中,每個人都可以有屬于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足夠強大呢?海量的 Agent 評測方式層出不窮,你是否挑得眼花繚亂?如何在這千軍萬馬中挑選出最適合你的測評方式呢?作為 AI Agent 的開發者,你是否也在思考該從哪個角度來提升你的 “秘密武器”,在這場激烈的 AI Agent 大戰中脫穎而出?
因此,這引出了一個順理成章的問題:
AI Agent 到底和傳統聊天機器人有何本質區別?又該如何科學評測 AI Agent?
- 論文標題:Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
- 論文鏈接:https://arxiv.org/pdf/2506.11102
一、從 LLM Chatbot 到 AI Agent
論文指出,AI Agent 的出現是 AI 發展的新階段。它們不僅僅回復人類對話,還具備了五個維度的進化:
1. 復雜環境:Agent 不再局限于單一對話場景,可以與代碼庫、網頁、操作系統、移動端、科學實驗等各類環境交互。
2. 多源指令:Agent 不只接收人工輸入,還能結合自我反思、智能體協作等多源指令。
3. 動態反饋:Agent 運行于連續多樣的反饋環境,可基于指標、獎勵等動態反饋持續優化自身能力,不再局限于被動對話糾正。
4. 多模態:Agent 擁有跨模態處理能力,能理解文本、視覺、聽覺等多種數據。
5. 高級能力:隨著外部環境復雜化,Agent 具備了復雜規劃、持久記憶、自主推理等能力,實現從被動響應到自主執行的躍遷。
圖 1:AI Agent 與 LLM Chatbot 演化的五個維度。
LLM Chatbot 向 AI Agent 的演進,背后主要受兩方面推動:一是外部環境的日益復雜,二是內部能力的不斷提升。復雜的外部環境促使 Agent 不斷成長,而 Agent 能力的提升又推動人們去探索更具挑戰性的應用場景。正是這種內外循環、相互促進,成為現代 AI Agent 加速進化的根本動力。因此,論文的總體框架如圖 2 所示:我們系統梳理了現有 AI Agent 評測基準,提出 “環境 - 能力” 兩方面的分類學。隨后進行趨勢討論,對 Agent 評測方法演化趨勢的討論,涉及環境角度,Agent 角度,評估者角度,指標角度,并最終提出基準選擇的方法論。
圖 2:論文框架總覽
二、評測框架與基準盤點
面對 Agent 能力的指數級擴展,原有的聊天機器人評測方法已無法勝任。論文系統梳理了現有 AI Agent 評測基準,提出 “環境 - 能力” 兩方面的分類:
1. 環境維度:細分為代碼、網頁、操作系統、移動端、科學、游戲等環境。
2. 能力維度:涵蓋規劃、自我反省、交互、記憶等高級能力。
針對每種環境與能力,論文整理了當前最具代表性的評測基準,并梳理出一套 “實用屬性表”,幫助研究者在眼花繚亂的 benchmark 中挑選符合要求的。
以表 1 為例,我們列出了我們認為最重要的屬性:真實性,離線 / 在線,評測者,輸入模態,主要挑戰。并將所有 web 環境的基準歸到這些屬性中。
表 1:Web 環境下的 Agent 基準以及其各類屬性
三、AI Agent 評測方法的進化趨勢
圖 3:AI Agent 評測未來演化的四個視角。
論文深刻總結了 AI Agent 評測方法的未來趨勢,不再只是 “比誰答得對”,而是從四個關鍵視角全面升級:
1. 環境視角:從單模態到多模態、從靜態到動態、從少狀態到多狀態。
最初,Agent 評測只圍繞文本展開,如今則逐漸擴展到圖片、音頻、視頻等多種信息形式。靜態的數據集已經不能滿足需求,動態、實時更新的真實環境成為新常態。同時,評測方式也在轉變,開始關注智能體在連續任務過程中的表現和調整,而不再只看最終結果。
2. 智能體視角:從單 Agent 到多 Agent、從單輪到多輪互動。
新一代評測不僅關注單個 Agent 的能力,更重視多個 Agent 間的協作與博弈。與此同時,任務由簡單的一問一答,演化為多輪對話、持續推理和復雜任務鏈,考驗 Agent 的全局規劃與長期記憶。
3. 評測者視角:從人工到 AI 自動評測、從通用到個性化。
AI 不再只是被動接受人類評分,越來越多的 Agent 可以自動評判同行,實現規模化、自主化評測。同時,未來的評測將更加關注個性化,衡量 Agent 是否能針對不同用戶給出個性化的服務。
4. 指標視角:從粗粒度到細粒度,從關注正確率到關注效率、安全與社會價值。
單一的正確率已無法反映 Agent 真實能力。未來評測更強調任務效率、細粒度決策的質量、安全性和倫理性,比如防止誤操作、保障用戶利益、促進社會善意等。
四、行動指南:如何選擇合適的 Agent 評測基準
面對 AI Agent 的快速發展,論文圍繞 “如何用演化視角系統評估 AI Agent” 這一核心問題,提出了一套二階段的基準選擇方法論:
第一階段:從當下出發。
根據實際任務環境和 Agent 能力,先鎖定對應的環境和能力分類(圖 2),從屬性表(表 1)中精準匹配最適用的評測基準。例如,開發者 Z 開發了能預訂航班和酒店的 Agent,應優先考慮 Web 環境和交互能力,選用如 WebVoyager 和 ComplexFuncBench 等基準進行測試。
第二階段:為未來考慮。
結合評測進化趨勢(圖 3),開發者 Z 應持續關注環境變化、多模態挑戰和社會價值等新維度。隨著產品商業化,適時引入動態環境(如 BFCL)、安全性(如 ST WebAgentBench)和個性化(如 PeToolBench)等多樣化評測基準,確保 Agent 持續優化與進化。
結語
AI Agent 正在從 “會對話” 進化為 “會行動”,推動人工智能邁向更智能、更自主、更有價值的下一個時代。而如何科學評測 AI Agent,是驅動這一切的關鍵。如果讀者你也關心如何評測新穎的 AI Agent,我們的綜述值得一讀。