成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

跨平臺多模態(tài)智能體基準(zhǔn)測試來了!但全班第一只考了35.26分

人工智能 新聞
近日,來自CAMEL AI、KAUST、CMU、斯坦福、清華等高校和機構(gòu)的研究人員推出了一個跨平臺的多模態(tài)智能體基準(zhǔn)測試,全面覆蓋了Agent系統(tǒng)的真實工作場景。

假如你目前正在使用和研究類似CAMEL的多智能體系統(tǒng),現(xiàn)在已經(jīng)有了扮演研究者的Agent和負責(zé)寫論文的Agent,再添加一個事實核查Agent會改善結(jié)果嗎?

圖片

如果無法有效評估這種更改的影響,就很難確定前進的方向。

當(dāng)然,從另一個角度來說,有一個令人信服的基準(zhǔn)測試用來給大家刷分也是很重要的(狗頭)。

近日,來自CAMEL AI、KAUST、清華等高校和機構(gòu)的研究人員推出了一個跨平臺的多模態(tài)智能體基準(zhǔn)測試——CRAB。

值得一提的是,CAMEL AI團隊最早做出了基于大語言模型的多智能體開源項目:https://www.camel-ai.org/、https://github.com/camel-ai/camel。

圖片

論文地址:https://arxiv.org/abs/2407.01511

這個Benchmark涉及當(dāng)前AI應(yīng)用的幾個重點:多模態(tài)、多智能體和跨平臺。

多模態(tài)能力就不用說了,畢竟是現(xiàn)實需求。

而多智能體系統(tǒng)則能夠更好的為人類服務(wù),解決更佳復(fù)雜的任務(wù)。

對于跨平臺,可以舉個例子:比如用手機拍完照片,然后發(fā)到電腦上P圖,這就需要跨越了兩種操作系統(tǒng)(平臺)。

所以,多模態(tài)、多智能體和跨平臺,是當(dāng)下AI打工人能夠完成真實場景下的復(fù)雜任務(wù)所必備的能力。

圖片

上圖展示了CRAB的總體架構(gòu),同時也是多智能體系統(tǒng)基準(zhǔn)測試的工作流程。

通過將指令分配給基準(zhǔn)測試系統(tǒng)內(nèi)的主Agent和圖評估器,來初始化任務(wù)。

工作流是一個循環(huán):主Agent觀察、計劃和指示子Agent,子Agent在各自的平臺中執(zhí)行操作。

圖評估器監(jiān)控平臺中任務(wù)的狀態(tài),在整個工作流中不斷更新和輸出任務(wù)完成指標(biāo)。

總的來說,CRAB是一個與現(xiàn)實世界情況密切相關(guān)的基準(zhǔn)測試,能夠更準(zhǔn)確地反映多智能體系統(tǒng)在復(fù)雜任務(wù)中的表現(xiàn)。

那么,在這種要求甚高的測試中,最強大的一些模型能考多少分呢?

圖片

——答:全班第一考了35.26分(CR指的是完成率)。

其實還行,畢竟是突擊考試。而現(xiàn)在靶子已經(jīng)畫好了,可以期待今后的模型或者AI系統(tǒng)進化出更貼近現(xiàn)實的能力。

跨平臺多模態(tài)智能體評估

Crab提供了一個全面的交互式的任務(wù)評估框架,Agent需要在各種設(shè)備和平臺上同時運行,滿足在不同系統(tǒng)中高效完成任務(wù)的條件。

作者提出了一種稱為圖評估器的新型評估方法,與傳統(tǒng)的基于目標(biāo)或者軌跡的方法不同,圖評估器通過檢查完成任務(wù)的中間過程將任務(wù)分解為多個子目標(biāo)。

每個子目標(biāo)都被分配了一個判斷函數(shù)來驗證其完整性,并且每個節(jié)點都被視為圖評估器中的一個節(jié)點。

圖結(jié)構(gòu)描述了子目標(biāo)之間的順序和并行關(guān)系,因此提供了細粒度的指標(biāo),同時又適應(yīng)多種解決方案。

圖片

上表將Crab與現(xiàn)有框架進行了比較,包括測試涉及的幾項關(guān)鍵能力:

Interactive Environment區(qū)分是使用交互式平臺還是靜態(tài)數(shù)據(jù)集;


Multimodal Observation指定了基于視覺的觀察(例如屏幕截圖)的可用性;


Cross-platform表示支持多個操作系統(tǒng)或平臺;


Evaluation描述了評估指標(biāo),分為基于目標(biāo)(僅根據(jù)最終目標(biāo)檢查平臺狀態(tài))、基于軌跡(將Agent操作軌跡與標(biāo)準(zhǔn)操作序列進行比較)、多重(因任務(wù)而異)或基于圖(每個節(jié)點作為中間檢查點的 DAG);


Task Construction展示了任務(wù)構(gòu)建方法,包括人工制作、LLM啟發(fā)(比如LLM生成任務(wù)草稿,但由人工驗證和注釋)、模板(填寫任務(wù)模板中的空白)或子任務(wù)組合(組成多個子任務(wù)以構(gòu)建任務(wù)和評估器)。

基于Crab框架,作者開發(fā)了一個基準(zhǔn)測試Crab Benchmark-v0,支持Android環(huán)境和Ubuntu環(huán)境。

基準(zhǔn)測試總共包含100個真實世界的任務(wù),包括跨平臺和單平臺跨多個難度級別的任務(wù)。

圖片

任務(wù)涉及各種常見問題,以及實際應(yīng)用程序和工具,包括但不限于日歷、電子郵件、地圖、網(wǎng)絡(luò)瀏覽器、和終端,以及智能手機和臺式機之間的常見交互。

框架

假設(shè)Agent在數(shù)字設(shè)備(比如臺式機)上自主執(zhí)行任務(wù)。這種設(shè)備通常有輸入設(shè)備(鼠標(biāo)和鍵盤)用于人機交互,以及輸出設(shè)備(屏幕)來允許人類觀察其狀態(tài)。

作者將這種類型的設(shè)備表示為一個平臺。在形式上可以定義為一個無獎勵的部分可觀測馬爾可夫決策過程(POMDP),用元組M:=(S,A,T,O)表示。

圖片

其中S表示狀態(tài)空間,A表示動作空間,T:S×A→S是轉(zhuǎn)移函數(shù),O是觀測空間。

考慮到現(xiàn)實場景中多個設(shè)備的協(xié)作性質(zhì),可以將多個平臺組合成一個集合M=M1,M2,...,Mn,其中n是平臺的數(shù)量,每個平臺Mj=(Sj,Aj,Tj,Oj)。

定義一個需要跨多個平臺操作的任務(wù),該任務(wù)被形式化為一個元組(M,I,R),其中M是平臺集合,I是以自然語言指令的形式表示的任務(wù)目標(biāo),R是任務(wù)的獎勵函數(shù)。

系統(tǒng)中的Agent使用預(yù)定義的系統(tǒng)提示、并保留其對話歷史記錄。

Agent系統(tǒng)由負責(zé)規(guī)劃、推理和執(zhí)行操作的單個Agent組成,或者由多個Agent進行協(xié)作。

圖片

把復(fù)雜任務(wù)分解為多個更簡單的子任務(wù),是讓Agent系統(tǒng)能夠更加精準(zhǔn)的完成復(fù)雜任務(wù)的方法之一。

研究人員將這一概念引入基準(zhǔn)測試領(lǐng)域,將復(fù)雜任務(wù)分解為具有順序和并行連接的子任務(wù),也就是上圖中的分解任務(wù)圖(GDT)。

GDT提供了一種新的任務(wù)分解方法:用DAG結(jié)構(gòu)表示分解后的子任務(wù)。在GDT中,每個節(jié)點都是一個子任務(wù),形式化為一個元組(m,i,r),其中m指定了執(zhí)行子任務(wù)的平臺,i提供了自然語言指令,r表示獎勵函數(shù)。

這個函數(shù)評估m(xù)的狀態(tài)并輸出一個布爾值,以確定子任務(wù)是否完成。GDT中的邊表示子任務(wù)之間的順序關(guān)系。

跨平臺

與單一平臺任務(wù)相比,跨平臺任務(wù)有三個主要優(yōu)勢:

首先,跨平臺任務(wù)反映了現(xiàn)實世界場景,人類同時使用多個設(shè)備來完成任務(wù)。

其次,這些任務(wù)需要在平臺之間進行復(fù)雜的消息處理和信息傳遞,要求Agent規(guī)劃行動、為每個平臺構(gòu)建輸出,并記住需要傳遞的內(nèi)容,從而展示出對現(xiàn)實世界的高層次理解,和解決復(fù)雜任務(wù)的能力。

最后,多Agent系統(tǒng)被證明在執(zhí)行復(fù)雜任務(wù)時更加有效,而跨平臺任務(wù)非常適合多Agent系統(tǒng),因為它們可以通過每個平臺中不同的觀測空間、行動空間和專門知識進行劃分。

圖片

Crab使用統(tǒng)一接口允許Agent在所有平臺中操作。作者通過名稱、所屬平臺、功能的具體描述和參數(shù)來定義一個動作。

Agent必須在每個回合提供動作名稱、參數(shù)和目標(biāo)平臺。Crab將動作轉(zhuǎn)換為相應(yīng)的功能,并通過網(wǎng)絡(luò)將其路由到物理或虛擬設(shè)備。

圖評估器

為了評估大語言模型作為Agent的能力,大多數(shù)基準(zhǔn)測試僅基于Agent操作后平臺的最終狀態(tài)來評估Agent。

只判斷最終目標(biāo)是成功還是失敗,顯然不夠公平,就像大題不會做,但寫個解是應(yīng)該給分的。

另一種方法是基于軌跡匹配,將Agent的操作與每個任務(wù)的預(yù)定義標(biāo)準(zhǔn)操作序列進行比較。

然而,在現(xiàn)實世界系統(tǒng)中,任務(wù)可能有多條有效的執(zhí)行路徑,比如復(fù)制文件可以使用文件管理器,也可以使用命令行。

評估指標(biāo)

所以本文采用了與平臺狀態(tài)同步的圖評估器,通過子任務(wù)完成的當(dāng)前狀態(tài)來跟蹤Agent的進度。

除了傳統(tǒng)的成功率(SR),只有在所有子任務(wù)都完成時才將任務(wù)標(biāo)記為成功,作者還引入了三個指標(biāo),衡量Agent的性能和效率:

完成率(CR)測量完成子任務(wù)節(jié)點數(shù)的比例,計算方式為C/N,其中C是已完成節(jié)點的數(shù)量,N是總節(jié)點數(shù)。該指標(biāo)直觀地反映了Agent在給定任務(wù)上的進展情況。

執(zhí)行效率(EE)計算為CR/A,其中A表示執(zhí)行的動作次數(shù),反映了Agent的任務(wù)執(zhí)行效率。

成本效率(CE)計算為CR/T,其中T是Agent使用的總token數(shù),評估了Agent消耗資源的效率。

實驗

要在Crab Benchmark-v0中運行,多模態(tài)模型需要支持:

(1)接受多模態(tài)混合輸入,系統(tǒng)同時提供屏幕截圖和文本指令作為提示;

(2)處理多輪對話,大多數(shù)任務(wù)需要Agent執(zhí)行多個操作,必須在上下文中存儲歷史消息;

(3)通過函數(shù)調(diào)用生成結(jié)構(gòu)化輸出。

實驗選擇了四種滿足這些標(biāo)準(zhǔn)的多模態(tài)模型:GPT-4o、GPT-4 Turbo、Gemini 1.5 Pro和Claude 3 Opus,下表給出了其中一部分結(jié)果:

圖片

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-07-04 16:50:07

工具AI模型

2025-06-09 08:50:00

2016-05-19 13:44:53

云計算大數(shù)據(jù)

2024-07-23 14:10:48

2024-08-14 15:00:00

模型數(shù)據(jù)

2025-05-26 09:49:59

多模態(tài)智能體RAG

2025-06-26 09:01:14

2024-11-14 10:40:00

智能體模型

2018-02-05 10:43:16

旅行青蛙

2024-12-13 07:30:40

2017-11-09 19:22:08

華為

2017-05-15 12:00:05

2024-10-12 12:30:18

2016-06-06 10:12:16

攝像頭智能硬件

2025-05-21 08:47:00

2025-04-14 10:58:53

Agno多模態(tài)智能體LangGraph

2019-08-09 17:53:41

戴爾

2024-04-24 13:46:00

AI訓(xùn)練

2019-10-30 15:27:28

Google谷歌Alphabet
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久亚洲国产精品 | 欧美群妇大交群中文字幕 | 亚洲精品久久久久久下一站 | 久久久国产一区二区三区 | 国产色在线| 欧美自拍第一页 | 国产午夜在线观看 | 一区二区中文字幕 | 亚洲精品影院 | 2019精品手机国产品在线 | 在线不卡视频 | 91精品国产一区二区三区 | 337p日本欧洲亚洲大胆 | 免费观看羞羞视频网站 | 日韩毛片| 少妇一级淫片免费播放 | 色婷婷亚洲国产女人的天堂 | 99re在线观看 | 亚洲电影一区二区三区 | 国产成人免费视频网站高清观看视频 | 亚洲一区二区三区在线视频 | 91色啪 | 精品无码久久久久久国产 | 亚洲国产精品成人无久久精品 | 成人在线电影在线观看 | 欧美综合一区二区 | 亚洲二区在线 | 一区二区三区四区av | 天天射天天干 | 亚洲 欧美 另类 日韩 | 一a一片一级一片啪啪 | 成人h片在线观看 | 韩国主播午夜大尺度福利 | 国产精品欧美大片 | 中文字幕一区二区三区在线视频 | 日韩在线观看一区 | 91精品国产一区二区三区 | 欧美精品久久久 | 成人做爰www免费看视频网站 | 一级免费看片 | aaaa一级毛片 |