SealTool:Agent微調(diào)與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!
大型語言模型(LLMs)在多種任務(wù)中展現(xiàn)了強大的能力,研究者嘗試將其作為代理,通過使用外部工具或插件幫助用戶完成任務(wù)。為了提高LLMs的工具理解和使用能力,需要準備高質(zhì)量的工具學(xué)習(xí)數(shù)據(jù)集。現(xiàn)有的工具學(xué)習(xí)數(shù)據(jù)集存在一些限制:例如工具數(shù)量有限、評估方法不精確或成本高昂。
提出了一種自指導(dǎo)(self-instruct)方法,通過LLMs生成工具和實例。該方法首先生成不同領(lǐng)域的工具,然后生成調(diào)用這些工具的實例,包括單工具實例和多工具實例。
數(shù)據(jù)集構(gòu)建方法的流程圖
- 工具模板:設(shè)計了工具模板,用于生成具有輸入?yún)?shù)和輸出響應(yīng)的API樣式工具。
Seal-Tools工具模板以及以“getTemperature”工具為例:
- 實例生成:生成實例包括用戶查詢和工具調(diào)用,通過多步驟生成并設(shè)置檢查點以減少錯誤。
一些生成的字段/子字段和工具的示例:
單工具調(diào)用的實例模板
多工具嵌套調(diào)用的實例模板
設(shè)計了三個評估維度:輸出格式、工具選擇和工具參數(shù)填充,以進行詳細評估。
Seal-Tools與幾個工具學(xué)習(xí)數(shù)據(jù)集的比較。? 格式混亂。? 多步驟。
對幾種流行的LLMs和微調(diào)模型在Seal-Tools上進行了評估,結(jié)果顯示基于Seal-Tools微調(diào)的模型顯示出很大的競爭力,但是當前的Agent系統(tǒng)在工具選擇和參數(shù)填充方面仍有改進空間,Seal-Tools可以作為推動LLMs工具學(xué)習(xí)研究的新基準。。
https://arxiv.org/abs/2405.08355
Seal-Tools: Self-Instruct Tool Learning Dataset for Agent Tuning and Detailed Benchmark
https://github.com/fairyshine/Seal-Tools
本文轉(zhuǎn)載自?? PaperAgent??,作者: PaperAgent
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報

回復(fù)
相關(guān)推薦