成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<abbr id="ygo8q"></abbr>

<center id="ygo8q"><code id="ygo8q"></code></center><s id="ygo8q"></s>

<samp id="ygo8q"><optgroup id="ygo8q"></optgroup></samp>

<s id="ygo8q"></s>

<bdo id="ygo8q"></bdo>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

跨平臺多模態(tài)智能體基準(zhǔn)測試來了！但全班第一只考了35.26分

作者：新智元 2024-08-07 10:17:00

人工智能新聞

近日，來自CAMEL AI、KAUST、CMU、斯坦福、清華等高校和機構(gòu)的研究人員推出了一個跨平臺的多模態(tài)智能體基準(zhǔn)測試，全面覆蓋了Agent系統(tǒng)的真實工作場景。

假如你目前正在使用和研究類似CAMEL的多智能體系統(tǒng)，現(xiàn)在已經(jīng)有了扮演研究者的Agent和負責(zé)寫論文的Agent，再添加一個事實核查Agent會改善結(jié)果嗎？

如果無法有效評估這種更改的影響，就很難確定前進的方向。

當(dāng)然，從另一個角度來說，有一個令人信服的基準(zhǔn)測試用來給大家刷分也是很重要的（狗頭）。

近日，來自CAMEL AI、KAUST、清華等高校和機構(gòu)的研究人員推出了一個跨平臺的多模態(tài)智能體基準(zhǔn)測試——CRAB。

值得一提的是，CAMEL AI團隊最早做出了基于大語言模型的多智能體開源項目：https://www.camel-ai.org/、https://github.com/camel-ai/camel。

論文地址：https://arxiv.org/abs/2407.01511

這個Benchmark涉及當(dāng)前AI應(yīng)用的幾個重點：多模態(tài)、多智能體和跨平臺。

多模態(tài)能力就不用說了，畢竟是現(xiàn)實需求。

而多智能體系統(tǒng)則能夠更好的為人類服務(wù)，解決更佳復(fù)雜的任務(wù)。

對于跨平臺，可以舉個例子：比如用手機拍完照片，然后發(fā)到電腦上P圖，這就需要跨越了兩種操作系統(tǒng)（平臺）。

所以，多模態(tài)、多智能體和跨平臺，是當(dāng)下AI打工人能夠完成真實場景下的復(fù)雜任務(wù)所必備的能力。

上圖展示了CRAB的總體架構(gòu)，同時也是多智能體系統(tǒng)基準(zhǔn)測試的工作流程。

通過將指令分配給基準(zhǔn)測試系統(tǒng)內(nèi)的主Agent和圖評估器，來初始化任務(wù)。

工作流是一個循環(huán)：主Agent觀察、計劃和指示子Agent，子Agent在各自的平臺中執(zhí)行操作。

圖評估器監(jiān)控平臺中任務(wù)的狀態(tài)，在整個工作流中不斷更新和輸出任務(wù)完成指標(biāo)。

總的來說，CRAB是一個與現(xiàn)實世界情況密切相關(guān)的基準(zhǔn)測試，能夠更準(zhǔn)確地反映多智能體系統(tǒng)在復(fù)雜任務(wù)中的表現(xiàn)。

那么，在這種要求甚高的測試中，最強大的一些模型能考多少分呢？

——答：全班第一考了35.26分（CR指的是完成率）。

其實還行，畢竟是突擊考試。而現(xiàn)在靶子已經(jīng)畫好了，可以期待今后的模型或者AI系統(tǒng)進化出更貼近現(xiàn)實的能力。

跨平臺多模態(tài)智能體評估

Crab提供了一個全面的交互式的任務(wù)評估框架，Agent需要在各種設(shè)備和平臺上同時運行，滿足在不同系統(tǒng)中高效完成任務(wù)的條件。

作者提出了一種稱為圖評估器的新型評估方法，與傳統(tǒng)的基于目標(biāo)或者軌跡的方法不同，圖評估器通過檢查完成任務(wù)的中間過程將任務(wù)分解為多個子目標(biāo)。

每個子目標(biāo)都被分配了一個判斷函數(shù)來驗證其完整性，并且每個節(jié)點都被視為圖評估器中的一個節(jié)點。

圖結(jié)構(gòu)描述了子目標(biāo)之間的順序和并行關(guān)系，因此提供了細粒度的指標(biāo)，同時又適應(yīng)多種解決方案。

上表將Crab與現(xiàn)有框架進行了比較，包括測試涉及的幾項關(guān)鍵能力：

Interactive Environment區(qū)分是使用交互式平臺還是靜態(tài)數(shù)據(jù)集；

Multimodal Observation指定了基于視覺的觀察（例如屏幕截圖）的可用性；

Cross-platform表示支持多個操作系統(tǒng)或平臺；

Evaluation描述了評估指標(biāo)，分為基于目標(biāo)（僅根據(jù)最終目標(biāo)檢查平臺狀態(tài)）、基于軌跡（將Agent操作軌跡與標(biāo)準(zhǔn)操作序列進行比較）、多重（因任務(wù)而異）或基于圖（每個節(jié)點作為中間檢查點的 DAG）；

Task Construction展示了任務(wù)構(gòu)建方法，包括人工制作、LLM啟發(fā)（比如LLM生成任務(wù)草稿，但由人工驗證和注釋）、模板（填寫任務(wù)模板中的空白）或子任務(wù)組合（組成多個子任務(wù)以構(gòu)建任務(wù)和評估器）。

基于Crab框架，作者開發(fā)了一個基準(zhǔn)測試Crab Benchmark-v0，支持Android環(huán)境和Ubuntu環(huán)境。

基準(zhǔn)測試總共包含100個真實世界的任務(wù)，包括跨平臺和單平臺跨多個難度級別的任務(wù)。

任務(wù)涉及各種常見問題，以及實際應(yīng)用程序和工具，包括但不限于日歷、電子郵件、地圖、網(wǎng)絡(luò)瀏覽器、和終端，以及智能手機和臺式機之間的常見交互。

框架

假設(shè)Agent在數(shù)字設(shè)備（比如臺式機）上自主執(zhí)行任務(wù)。這種設(shè)備通常有輸入設(shè)備（鼠標(biāo)和鍵盤）用于人機交互，以及輸出設(shè)備（屏幕）來允許人類觀察其狀態(tài)。

作者將這種類型的設(shè)備表示為一個平臺。在形式上可以定義為一個無獎勵的部分可觀測馬爾可夫決策過程（POMDP），用元組M:=（S，A，T，O）表示。

其中S表示狀態(tài)空間，A表示動作空間，T:S×A→S是轉(zhuǎn)移函數(shù)，O是觀測空間。

考慮到現(xiàn)實場景中多個設(shè)備的協(xié)作性質(zhì)，可以將多個平臺組合成一個集合M=M1，M2，...，Mn，其中n是平臺的數(shù)量，每個平臺Mj=（Sj，Aj，Tj，Oj）。

定義一個需要跨多個平臺操作的任務(wù)，該任務(wù)被形式化為一個元組（M，I，R），其中M是平臺集合，I是以自然語言指令的形式表示的任務(wù)目標(biāo)，R是任務(wù)的獎勵函數(shù)。

系統(tǒng)中的Agent使用預(yù)定義的系統(tǒng)提示、并保留其對話歷史記錄。

Agent系統(tǒng)由負責(zé)規(guī)劃、推理和執(zhí)行操作的單個Agent組成，或者由多個Agent進行協(xié)作。

把復(fù)雜任務(wù)分解為多個更簡單的子任務(wù)，是讓Agent系統(tǒng)能夠更加精準(zhǔn)的完成復(fù)雜任務(wù)的方法之一。

研究人員將這一概念引入基準(zhǔn)測試領(lǐng)域，將復(fù)雜任務(wù)分解為具有順序和并行連接的子任務(wù)，也就是上圖中的分解任務(wù)圖（GDT）。

GDT提供了一種新的任務(wù)分解方法：用DAG結(jié)構(gòu)表示分解后的子任務(wù)。在GDT中，每個節(jié)點都是一個子任務(wù)，形式化為一個元組（m，i，r），其中m指定了執(zhí)行子任務(wù)的平臺，i提供了自然語言指令，r表示獎勵函數(shù)。

這個函數(shù)評估m(xù)的狀態(tài)并輸出一個布爾值，以確定子任務(wù)是否完成。GDT中的邊表示子任務(wù)之間的順序關(guān)系。

跨平臺

與單一平臺任務(wù)相比，跨平臺任務(wù)有三個主要優(yōu)勢：

首先，跨平臺任務(wù)反映了現(xiàn)實世界場景，人類同時使用多個設(shè)備來完成任務(wù)。

其次，這些任務(wù)需要在平臺之間進行復(fù)雜的消息處理和信息傳遞，要求Agent規(guī)劃行動、為每個平臺構(gòu)建輸出，并記住需要傳遞的內(nèi)容，從而展示出對現(xiàn)實世界的高層次理解，和解決復(fù)雜任務(wù)的能力。

最后，多Agent系統(tǒng)被證明在執(zhí)行復(fù)雜任務(wù)時更加有效，而跨平臺任務(wù)非常適合多Agent系統(tǒng)，因為它們可以通過每個平臺中不同的觀測空間、行動空間和專門知識進行劃分。

Crab使用統(tǒng)一接口允許Agent在所有平臺中操作。作者通過名稱、所屬平臺、功能的具體描述和參數(shù)來定義一個動作。

Agent必須在每個回合提供動作名稱、參數(shù)和目標(biāo)平臺。Crab將動作轉(zhuǎn)換為相應(yīng)的功能，并通過網(wǎng)絡(luò)將其路由到物理或虛擬設(shè)備。

圖評估器

為了評估大語言模型作為Agent的能力，大多數(shù)基準(zhǔn)測試僅基于Agent操作后平臺的最終狀態(tài)來評估Agent。

只判斷最終目標(biāo)是成功還是失敗，顯然不夠公平，就像大題不會做，但寫個解是應(yīng)該給分的。

另一種方法是基于軌跡匹配，將Agent的操作與每個任務(wù)的預(yù)定義標(biāo)準(zhǔn)操作序列進行比較。

然而，在現(xiàn)實世界系統(tǒng)中，任務(wù)可能有多條有效的執(zhí)行路徑，比如復(fù)制文件可以使用文件管理器，也可以使用命令行。

評估指標(biāo)

所以本文采用了與平臺狀態(tài)同步的圖評估器，通過子任務(wù)完成的當(dāng)前狀態(tài)來跟蹤Agent的進度。

除了傳統(tǒng)的成功率（SR），只有在所有子任務(wù)都完成時才將任務(wù)標(biāo)記為成功，作者還引入了三個指標(biāo)，衡量Agent的性能和效率：

完成率（CR）測量完成子任務(wù)節(jié)點數(shù)的比例，計算方式為C/N，其中C是已完成節(jié)點的數(shù)量，N是總節(jié)點數(shù)。該指標(biāo)直觀地反映了Agent在給定任務(wù)上的進展情況。
執(zhí)行效率（EE）計算為CR/A，其中A表示執(zhí)行的動作次數(shù)，反映了Agent的任務(wù)執(zhí)行效率。
成本效率（CE）計算為CR/T，其中T是Agent使用的總token數(shù)，評估了Agent消耗資源的效率。

實驗

要在Crab Benchmark-v0中運行，多模態(tài)模型需要支持：

（1）接受多模態(tài)混合輸入，系統(tǒng)同時提供屏幕截圖和文本指令作為提示；
（2）處理多輪對話，大多數(shù)任務(wù)需要Agent執(zhí)行多個操作，必須在上下文中存儲歷史消息；
（3）通過函數(shù)調(diào)用生成結(jié)構(gòu)化輸出。

實驗選擇了四種滿足這些標(biāo)準(zhǔn)的多模態(tài)模型：GPT-4o、GPT-4 Turbo、Gemini 1.5 Pro和Claude 3 Opus，下表給出了其中一部分結(jié)果：

責(zé)任編輯：張燕妮來源：新智元

智能體測試

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：久久亚洲国产精品 | 欧美群妇大交群中文字幕 | 亚洲精品久久久久久下一站 | 久久久国产一区二区三区 | 国产色在线| 欧美自拍第一页 | 国产午夜在线观看 | 一区二区中文字幕 | 亚洲精品影院 | 2019精品手机国产品在线 | 在线不卡视频 | 91精品国产一区二区三区 | 337p日本欧洲亚洲大胆 | 免费观看羞羞视频网站 | 日韩毛片| 少妇一级淫片免费播放 | 色婷婷亚洲国产女人的天堂 | 99re在线观看 | 亚洲电影一区二区三区 | 国产成人免费视频网站高清观看视频 | 亚洲一区二区三区在线视频 | 91色啪 | 精品无码久久久久久国产 | 亚洲国产精品成人无久久精品 | 成人在线电影在线观看 | 欧美综合一区二区 | 亚洲二区在线 | 一区二区三区四区av | 天天射天天干 | 亚洲欧美另类日韩 | 一a一片一级一片啪啪 | 成人h片在线观看 | 韩国主播午夜大尺度福利 | 国产精品欧美大片 | 中文字幕一区二区三区在线视频 | 日韩在线观看一区 | 91精品国产一区二区三区 | 欧美精品久久久 | 成人做爰www免费看视频网站 | 一级免费看片 | aaaa一级毛片 |

<samp id="o2ue2"><optgroup id="o2ue2"></optgroup></samp><abbr id="o2ue2"><menu id="o2ue2"></menu></abbr>

<abbr id="o2ue2"><menu id="o2ue2"></menu></abbr>

<button id="o2ue2"><optgroup id="o2ue2"></optgroup></button>

<abbr id="o2ue2"><menu id="o2ue2"></menu></abbr>