AI Agent評(píng)測基準(zhǔn)大揭秘:智能體的“體檢標(biāo)準(zhǔn)”
最近通用agent越來越火了,從3月初的manus到昨天的Genspark Super Agent,功能越來越強(qiáng)大,AI Agent的技術(shù)日新月異,眼花繚亂。
越來越多的公司將數(shù)以千計(jì)的agent作為核心競爭力,好不好用并不知道,究竟是數(shù)量取勝還是質(zhì)量更加贏得消費(fèi)者的喜歡?
從數(shù)量上,像扣子、騰訊元器等Agent創(chuàng)建平臺(tái),上面有大量的agent,各行各業(yè)的agent都有,特別方便。
從質(zhì)量上,爆火的通用智能體manus、Genspark Super Agent,以及多智能體mgx.dev,一夜爆火,全球追捧。
什么樣的Agent才算是好的Agent呢?
企業(yè)在推進(jìn)agent業(yè)務(wù)時(shí),究竟是保證質(zhì)量還是數(shù)量為主呢?值得探討。
今天小編帶你一起來了解一下市面上主流的Agent評(píng)測基準(zhǔn)。
先點(diǎn)個(gè)關(guān)注吧,防止走丟。
正文開始。
當(dāng)前主流的AI Agent評(píng)測基準(zhǔn)覆蓋了從通用智能到垂直領(lǐng)域、從英文到中文、從功能到安全的多個(gè)維度。
GAIA基準(zhǔn)測試
核心內(nèi)容與測試范圍
由Meta AI等團(tuán)隊(duì)提出的綜合性基準(zhǔn),旨在評(píng)估通用AI助手解決現(xiàn)實(shí)問題的能力。
任務(wù)類型:466個(gè)問題分為三個(gè)難度級(jí)別,涉及文檔理解、網(wǎng)絡(luò)瀏覽、邏輯推理、多模態(tài)處理(如PPTX、PDF等文件分析)。
目前市面上的agent,可能90%都不能通過這個(gè)嚴(yán)苛的測試基準(zhǔn),做agent容易(prompt就可以,或者+workflow),做一個(gè)好的agent很難。
核心評(píng)價(jià)標(biāo)準(zhǔn)
GAIA 使用以下關(guān)鍵維度評(píng)估代理:
- 任務(wù)執(zhí)行:代理能夠以最小的錯(cuò)誤完成預(yù)定義的任務(wù),并且無需直接人工干預(yù)。
- 適應(yīng)性:代理對(duì)不可預(yù)見的情況的反應(yīng)如何,需要?jiǎng)討B(tài)的問題解決策略。
- 協(xié)作:評(píng)估多代理協(xié)調(diào)和人工代理合作功能。
- 普遍化:測試代理是否可以將學(xué)習(xí)到的知識(shí)應(yīng)用于其訓(xùn)練分布之外的新穎、看不見的場景。
- 真實(shí)世界的推理:GAIA 背離了優(yōu)先考慮人類日益困難的任務(wù)的基準(zhǔn)。相反,它專注于人類認(rèn)為簡單但需要 AI 系統(tǒng)表現(xiàn)出結(jié)構(gòu)化推理、規(guī)劃和準(zhǔn)確執(zhí)行的任務(wù)。
任務(wù)套件
GAIA 分為多個(gè)任務(wù)類別,每個(gè)任務(wù)類別評(píng)估不同的模式和交互模式:
- 語言和推理套件 :復(fù)雜的問答、基于對(duì)話的任務(wù)、解謎和戰(zhàn)略規(guī)劃。
- 視覺和感知套件 :對(duì)象檢測、場景理解和視覺語言任務(wù)。
- 協(xié)作套件 :多智能體協(xié)調(diào)和人機(jī)交互場景。
- Adaptation Suite:需要實(shí)時(shí)戰(zhàn)略轉(zhuǎn)變和動(dòng)態(tài)學(xué)習(xí)的新事件。
評(píng)估指標(biāo)
GAIA 使用可量化和可解釋的指標(biāo)來衡量成功:
- 完成率 :成功完成的任務(wù)的比例。
- 響應(yīng)質(zhì)量 :生成輸出的準(zhǔn)確性、相關(guān)性和精密度。
- 效率 :所花費(fèi)的時(shí)間和計(jì)算開銷。
- 穩(wěn)健性 :對(duì)抗場景下的性能、不完整的指令或誤導(dǎo)性數(shù)據(jù)。
- 泛化分?jǐn)?shù) :將技能擴(kuò)展到訓(xùn)練數(shù)據(jù)之外的新任務(wù)的能力。
特點(diǎn):強(qiáng)調(diào)人類看似簡單但需要結(jié)構(gòu)化推理的任務(wù),例如通過畫作識(shí)別水果并按順序排列。
應(yīng)用領(lǐng)域與認(rèn)可度
應(yīng)用:Meta、Monica的Manus等企業(yè)用于評(píng)估通用AI助手能力,尤其在多模態(tài)和工具調(diào)用場景。
Genspark 超級(jí)代理 GAIA
行業(yè)地位:被認(rèn)為是評(píng)估AGI的重要里程碑,被學(xué)術(shù)界和工業(yè)界廣泛引用。
AgentBench
核心內(nèi)容與測試范圍
清華大學(xué)等機(jī)構(gòu)開發(fā)的系統(tǒng)性基準(zhǔn),評(píng)估LLM作為智能體的推理與決策能力。
任務(wù)類型:8個(gè)環(huán)境,包括操作系統(tǒng)(SQL操作)、知識(shí)圖譜、卡牌游戲、網(wǎng)絡(luò)購物等。
- 操作系統(tǒng):評(píng)估LLM在Linux系統(tǒng)的bash環(huán)境中的操作能力,如文件操作、用戶管理等。
- 數(shù)據(jù)庫:考察LLM利用SQL操作給定的數(shù)據(jù)庫完成查詢、修改等任務(wù)。
- 知識(shí)圖譜:需要LLM利用給定的工具查詢知識(shí)圖譜,完成復(fù)雜的知識(shí)獲取任務(wù)。
- 卡牌游戲:將LLM視為玩家,根據(jù)規(guī)則和狀態(tài)進(jìn)行數(shù)字卡牌游戲,評(píng)估策略決策能力。
- 橫向思維難題:提供難題故事,LLM需要進(jìn)行問答來推理得到真相,檢查橫向思維能力。
- 家庭環(huán)境:在模擬的家中場景下,LLM需要自主完成日常任務(wù),如搬移物品等。
- 網(wǎng)絡(luò)購物:按照要求在模擬購物網(wǎng)站上瀏覽和購買商品,評(píng)估自主探索決策能力。
- 網(wǎng)頁瀏覽:在真實(shí)網(wǎng)頁環(huán)境中,根據(jù)高級(jí)指令實(shí)現(xiàn)操作序列,完成網(wǎng)頁任務(wù)。
關(guān)于LLM的代理能力包括:理解人類意圖并執(zhí)行指令、編碼能力、知識(shí)獲取和推理、策略決策、多輪一致性、邏輯推理、自主探索、可解釋的推理。
指標(biāo):任務(wù)完成率、多輪對(duì)話一致性、代碼生成準(zhǔn)確性。
特點(diǎn):覆蓋代碼與生活場景,如用SQL提取數(shù)據(jù)或預(yù)訂機(jī)票。
應(yīng)用領(lǐng)域與認(rèn)可度
應(yīng)用:OpenAI的GPT-4、Anthropic Claude等主流模型參與測試,GPT-4以4.01分領(lǐng)先。
行業(yè)地位:首個(gè)系統(tǒng)性評(píng)估LLM代理能力的基準(zhǔn),推動(dòng)學(xué)術(shù)界對(duì)開源與閉源模型差距的研究。
PaperBench
核心內(nèi)容與測試范圍
定義:OpenAI推出的新基準(zhǔn),評(píng)估AI代理復(fù)現(xiàn)前沿研究的能力。
任務(wù)類型:復(fù)現(xiàn)20篇ICML 2024論文,包括代碼開發(fā)與實(shí)驗(yàn)執(zhí)行。
PaperBench 分 3 個(gè)階段運(yùn)行:
- 代理推出 :代理在 ubuntu 容器中執(zhí)行,它必須在其中創(chuàng)建其提交:復(fù)制論文的代碼庫。
- 復(fù)制 :代理提交的代碼庫在具有 GPU 訪問權(quán)限的第二個(gè)新容器中執(zhí)行,以便獲得執(zhí)行代碼庫的結(jié)果。這將創(chuàng)建已執(zhí)行的提交 。
- 評(píng)分 :使用論文的評(píng)分量規(guī)對(duì)已執(zhí)行的提交進(jìn)行評(píng)分。在運(yùn)行 judge 的位置創(chuàng)建第三個(gè)容器。
指標(biāo):復(fù)現(xiàn)得分(Claude 3.5 Sonnet平均21.0%)、人類基線對(duì)比。
特點(diǎn):需要深入理解論文貢獻(xiàn),測試科研輔助潛力。
應(yīng)用領(lǐng)域與認(rèn)可度
應(yīng)用:OpenAI內(nèi)部及學(xué)術(shù)機(jī)構(gòu)用于測試模型科研能力,目前模型表現(xiàn)仍低于人類。
行業(yè)地位:新興基準(zhǔn),可能成為評(píng)估AI科研工具的關(guān)鍵標(biāo)準(zhǔn)。
WAA
核心內(nèi)容與測試范圍
定義:微軟開發(fā)的基準(zhǔn),評(píng)估AI代理在Windows環(huán)境中的任務(wù)執(zhí)行能力。
任務(wù)類型:154項(xiàng)任務(wù),涵蓋Edge瀏覽器操作、Visual Studio Code編程、文件管理等。
指標(biāo):任務(wù)成功率(微軟Navi代理為19.5%,人類為74.5%)。
特點(diǎn):支持Azure云并行測試,20分鐘完成全面評(píng)估。
應(yīng)用領(lǐng)域與認(rèn)可度
應(yīng)用:微軟用于優(yōu)化Windows生態(tài)中的AI助手,如Cortana后續(xù)迭代。
行業(yè)地位:首個(gè)聚焦操作系統(tǒng)級(jí)任務(wù)的基準(zhǔn),推動(dòng)企業(yè)級(jí)AI工具開發(fā)。
SuperCLUE-Agent
核心內(nèi)容與測試范圍
中文評(píng)測基準(zhǔn),評(píng)估大模型在中文任務(wù)中的Agent能力。
任務(wù)類型:包括工具使用(API調(diào)用)、任務(wù)規(guī)劃(分解與反思)、長短期記憶(多輪對(duì)話)、十大基礎(chǔ)能力。
維度一:工具使用
- 調(diào)用API:評(píng)估AI Agent能否根據(jù)API描述精確調(diào)用并正確響應(yīng)。
- 檢索API:評(píng)估AI Agent能否選擇合適的API并學(xué)習(xí)使用。
- 規(guī)劃API:評(píng)估AI Agent在復(fù)雜任務(wù)中規(guī)劃多次API調(diào)用的能力。
- 通用工具使用:評(píng)估AI Agent使用搜索引擎、網(wǎng)頁瀏覽、文件操作等通用工具的能力。
維度二:任務(wù)規(guī)劃
- 任務(wù)分解:評(píng)估AI Agent將復(fù)雜任務(wù)分解為小任務(wù)的能力。
- 自我反思:評(píng)估AI Agent從錯(cuò)誤中學(xué)習(xí)并改進(jìn)的能力。
- 思維鏈(CoT):評(píng)估AI Agent將復(fù)雜任務(wù)分解為簡單步驟并逐步解決問題的能力。
維度三:長短期記憶
- 多文檔問答:評(píng)估AI Agent從多個(gè)文檔中提取并組合答案的能力。
- 長程對(duì)話:評(píng)估AI Agent在長對(duì)話中切換多個(gè)主題的能力。
- 少樣本示例學(xué)習(xí):評(píng)估AI Agent通過少量示例解決新任務(wù)的能力,無需微調(diào)。
指標(biāo):中文場景下的任務(wù)完成率,GPT-4領(lǐng)先,國內(nèi)模型接近GPT-3.5水平。
特點(diǎn):填補(bǔ)中文Agent評(píng)估空白,覆蓋金融、醫(yī)療等垂直領(lǐng)域。
應(yīng)用領(lǐng)域與認(rèn)可度
應(yīng)用:商湯科技、智譜AI等國內(nèi)企業(yè)用于優(yōu)化中文助手(如SenseChat 3.0)。
行業(yè)地位:中文領(lǐng)域權(quán)威基準(zhǔn),推動(dòng)國產(chǎn)模型商業(yè)化。
AgentHarm
核心內(nèi)容與測試范圍
評(píng)估LLM代理對(duì)有害請(qǐng)求的魯棒性,由Gray Swan AI等機(jī)構(gòu)提出。
任務(wù)類型:440個(gè)惡意任務(wù)(如欺詐、騷擾),測試越獄后的多步驟執(zhí)行能力。
指標(biāo):合規(guī)率、攻擊成功率(GPT-4等模型易被越獄)。
特點(diǎn):首個(gè)聚焦代理安全性的基準(zhǔn),揭示現(xiàn)有模型的安全漏洞。
應(yīng)用領(lǐng)域與認(rèn)可度
應(yīng)用:AI安全研究機(jī)構(gòu)用于模型防御策略開發(fā),如Anthropic Claude的安全迭代。
行業(yè)地位:AI安全領(lǐng)域的重要工具,被納入英國AI安全研究所的評(píng)估體系。
PromptBench
核心內(nèi)容與測試范圍
微軟開發(fā)的統(tǒng)一評(píng)估庫,支持多樣化提示工程與對(duì)抗攻擊測試。
官方:https://promptbench.readthedocs.io/en/latest/
任務(wù)類型:情感分析、語法檢查、自然語言推理等12類任務(wù)。
- 情感分析(SST-2)
- 語法正確性(CoLA)
- 重復(fù)句子檢測(QQP和MRPC)
- 自然語言推理(MNLI,QNLI,RTE和WNLI)
- 多任務(wù)知識(shí)(MMLU數(shù)據(jù)集)
- 閱讀理解(SQuAD V2數(shù)據(jù)集)
- 翻譯(UN Mult,IWSLT 2017)
- 數(shù)學(xué)問題求解(Math和GSM8K)
- 邏輯推理(布爾表達(dá)式)
- 常識(shí)推理(常識(shí)QA,QASC,NummerSense,日期和對(duì)象跟蹤)
- 符號(hào)推理(LastLetterConcat)
- 算法(有效括號(hào)數(shù)據(jù)集)。
PromptBench目前包括6種提示工程方法:
- 少樣本Chain-of-Thought( few-shot Chainof-Thought)
- 零樣本Chain-of-Thought(zero-shot Chain-of-Thought)
- EmotionPrompt(EmotionPrompt)
- 專家提示(Expert Prompting)
- 生成知識(shí)(Generated Knowledge)
- 最小到最大(Least to Most)。
為便于研究LLM對(duì)提示的魯棒性,PromptBench集成了7種對(duì)抗性提示攻擊:TextBugger,TextFooler,BertAttack,DeepWordBug,Checklist,StressTest和語義。通過提示攻擊接口輕松調(diào)用,方便測試。
指標(biāo):對(duì)抗攻擊下的模型魯棒性、動(dòng)態(tài)評(píng)估性能。
特點(diǎn):模塊化設(shè)計(jì),支持自定義提示與攻擊方法(如字符級(jí)/詞級(jí)攻擊)。
應(yīng)用領(lǐng)域與認(rèn)可度
應(yīng)用:學(xué)術(shù)界用于模型魯棒性研究,微軟內(nèi)部用于優(yōu)化GPT系列提示策略。
行業(yè)地位:提示工程領(lǐng)域的標(biāo)準(zhǔn)化工具,被多篇頂會(huì)論文引用。
本文轉(zhuǎn)載自???AIGC新知??,作者:絳燁
