成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

T-Eval:大模型智能體能力評測基準(zhǔn)解讀 | ACL 2024

發(fā)布于 2024-7-16 09:21
瀏覽
0收藏

AI Agent(智能體)作為大模型的重要應(yīng)用模式,能夠通過使用外部工具來執(zhí)行復(fù)雜任務(wù),完成多步驟的工作流程。為了能全面評估模型的工具使用能力,司南及合作伙伴團(tuán)隊推出了 T-Eval 評測基準(zhǔn),相關(guān)成果論文已被ACL 2024主會錄用。

查看原文:https://arxiv.org/abs/2312.14033?

PART1為什么需要 T-Eval?

使用了工具的大語言模型有著驚艷的問題解決能力,但是如何評估模型的工具使用能力還有很大的探索空間。現(xiàn)有評估方法通常只關(guān)注模型處理單步驟任務(wù)時的工具調(diào)用表現(xiàn),缺少在多步驟復(fù)雜任務(wù)場景下模型使用工具能力的評估。

因此,為了更全面地評估大語言模型的工具使用能力,司南及合作伙伴團(tuán)隊推出了 T-Eval (a step-by-step Tool Evaluation benchmark for LLMs) 評測基準(zhǔn),相較于之前整體評估模型的方式,論文中將大模型的工具使用分解為多個子過程,包括:規(guī)劃、推理、檢索、理解、指令跟隨和審查。

T-Eval:大模型智能體能力評測基準(zhǔn)解讀 | ACL 2024-AI.x社區(qū)

  • 規(guī)劃(PLAN):將用戶問題分解為多個子問題,制定行動計劃。
  • 推理(REASON):對上個狀態(tài)的完成情況的判斷,下一步行動的思考。
  • 檢索(RETRIEVE):從給定的工具列表中選擇合適的工具。
  • 理解(UNDERSTAND):正確理解工具使用的參考文檔和所需參數(shù)。
  • 指令跟隨(INSTRUCT):生成指定格式的工具調(diào)用請求。
  • 審查(REVIEW):評估每個工具調(diào)用執(zhí)行的結(jié)果,確保回答滿足預(yù)期目標(biāo)。

PART2T-Eval 構(gòu)建過程

T-Eval 的構(gòu)建主要包括 3 個階段:工具收集、指令生成和參考答案標(biāo)注。

首先,我們根據(jù)可用性和使用率,挑選了15種基本工具,涵蓋了研究、旅行、娛樂、網(wǎng)絡(luò)、生活和金融等多個領(lǐng)域。此外,還為每個工具生成了詳細(xì)的API文檔,以減少因工具描述不充分而導(dǎo)致的工具調(diào)用失敗案例。

然后,我們利用 GPT-3.5 生成了初始問題,并通過 GPT-4 進(jìn)一步完善問題。之后,我們開發(fā)了一個多智能體框架,利用所提供的工具解決問題,同時收集解決方案路徑和工具響應(yīng)。最后,我們使用人類專家來挑選高質(zhì)量樣本。

T-Eval:大模型智能體能力評測基準(zhǔn)解讀 | ACL 2024-AI.x社區(qū)

PART3T-Eval 主要貢獻(xiàn)

細(xì)粒度評測:T-Eval將評測過程分解為多個子任務(wù),分別評估模型在工具使用上的細(xì)粒度能力。

多智能體數(shù)據(jù)生成:使用了由人類專家驗證的多智能體數(shù)據(jù)生成流程,顯著減少了外部因素的影響,使評測結(jié)果更加穩(wěn)定、公平。

廣泛實驗:通過在各種大模型上的廣泛實驗,驗證了T-Eval的有效性和普適性,為當(dāng)前大語言模型的工具使用能力瓶頸提供了寶貴的見解,并為改進(jìn)工具使用能力提供了新的視角。

PART4T-Eval 評測結(jié)果

我們在 T-Eval 上對 20 種大語言模型進(jìn)行了評測,包括基于 API 的商業(yè)模型和開源模型。結(jié)果顯示,GPT-4 在整體評分上取得了最高分,顯示出其卓越的工具使用能力。對于開源模型,我們對三種不同規(guī)模的模型進(jìn)行了實驗,它們的尺寸大約是7B、13B和70B,可以發(fā)現(xiàn),隨著模型參數(shù)的增加,其表現(xiàn)也更加優(yōu)秀。特別是 Qwen-72B 模型,其總得分已接近 API 模型水平。

? T-Eval:大模型智能體能力評測基準(zhǔn)解讀 | ACL 2024-AI.x社區(qū) 圖片 ?

本文轉(zhuǎn)載自??司南評測體系??,作者: 司南OpenCompass ????

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久久一二三区 | 免费看a | 午夜成人免费视频 | 国产美女自拍视频 | 美国十次成人欧美色导视频 | a级片在线观看 | 欧美日韩综合一区 | 日本一二区视频 | wwww.8888久久爱站网 | 亚洲精品一区二区三区蜜桃久 | 午夜在线视频 | 国产精品久久久久久久久久久新郎 | 91av在线影院| 久久这里只有精品首页 | 少妇特黄a一区二区三区88av | 国产成人精品一区二区三区视频 | 国产激情 | 国产一区久久 | 成人久草 | 午夜欧美一区二区三区在线播放 | 日日欧美 | 国产在线一区二 | 天天久久 | 亚洲一区二区三区四区五区午夜 | 欧美日韩18 | 国产精品久久久久aaaa | 久久久久亚洲 | 一区二区三区免费 | 日本精品一区二区三区在线观看 | 中文字幕一区二区在线观看 | 国产一区二区激情视频 | 国产精品久久片 | 欧美日韩综合视频 | 欧美综合网 | 日韩中文一区二区 | 国产福利精品一区 | 久久久国产精品 | 国产精品国产精品国产专区不卡 | 中文字幕一区二区在线观看 | 久久三级av | 日本精品一区二区 |