成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華等開(kāi)源「工具學(xué)習(xí)基準(zhǔn)」ToolBench,微調(diào)模型ToolLLaMA性能超越ChatGPT

人工智能
人工智能基礎(chǔ)模型也類(lèi)似,如果僅靠訓(xùn)練階段得到的權(quán)重,使用場(chǎng)景就會(huì)非常受限,而最近提出的工具學(xué)習(xí)(tool learning),將特定領(lǐng)域的專(zhuān)用工具與大規(guī)?;A(chǔ)模型相結(jié)合,可以實(shí)現(xiàn)更高的效率、性能。

人類(lèi)具有創(chuàng)造和利用工具的能力,使得我們可以突破身體的限制,探索更廣闊的世界。 

人工智能基礎(chǔ)模型也類(lèi)似,如果僅靠訓(xùn)練階段得到的權(quán)重,使用場(chǎng)景就會(huì)非常受限,而最近提出的工具學(xué)習(xí)(tool learning),將特定領(lǐng)域的專(zhuān)用工具與大規(guī)?;A(chǔ)模型相結(jié)合,可以實(shí)現(xiàn)更高的效率、性能。

不過(guò)目前工具學(xué)習(xí)的相關(guān)研究還不夠深入,也缺乏相關(guān)的開(kāi)源數(shù)據(jù)和代碼。

最近,清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室等支持的開(kāi)源社區(qū)OpenBMB (Open Lab for Big Model Base)發(fā)布了ToolBench項(xiàng)目,可以幫助開(kāi)發(fā)者構(gòu)建開(kāi)源、大規(guī)模、高質(zhì)量的指令調(diào)優(yōu)數(shù)據(jù),促進(jìn)構(gòu)建具有通用工具使用能力的大型語(yǔ)言模型。

圖片

倉(cāng)庫(kù)鏈接:https://github.com/OpenBMB/ToolBench

ToolBench倉(cāng)庫(kù)中提供了相關(guān)數(shù)據(jù)集、訓(xùn)練和評(píng)估腳本,以及在ToolBench上微調(diào)的功能模型ToolLLaMA,具體特點(diǎn)為:

1. 支持單工具和多工具方案

其中單工具設(shè)置遵循LangChain提示風(fēng)格,多工具設(shè)置遵循AutoGPT的提示風(fēng)格。

2. 模型回復(fù)不僅包括最終答案,還包含模型的思維鏈過(guò)程、工具執(zhí)行和工具執(zhí)行結(jié)果

3. 支持真實(shí)世界級(jí)別的復(fù)雜性,支持多步工具調(diào)用

4. 豐富的API,可用于現(xiàn)實(shí)世界中的場(chǎng)景,如天氣信息、搜索、股票更新和PowerPoint自動(dòng)化

5. 所有的數(shù)據(jù)都是由OpenAI API自動(dòng)生成并由開(kāi)發(fā)團(tuán)隊(duì)進(jìn)行過(guò)濾,數(shù)據(jù)的創(chuàng)建過(guò)程很容易擴(kuò)展

不過(guò)需要注意的是,目前發(fā)布的數(shù)據(jù)還不是最終版本,研究人員仍然在對(duì)數(shù)據(jù)進(jìn)行后處理來(lái)提高數(shù)據(jù)質(zhì)量,并增加真實(shí)世界工具的覆蓋范圍。

ToolBench

ToolBench的總體思路是基于BMTools,在有監(jiān)督數(shù)據(jù)中訓(xùn)練大型語(yǔ)言模型。

圖片

倉(cāng)庫(kù)中包含31.2萬(wàn)次真實(shí)API調(diào)用得到的9800條數(shù)據(jù),涵蓋單工具場(chǎng)景和多工具場(chǎng)景,下面是單工具的統(tǒng)計(jì)信息。

圖片

其中每行數(shù)據(jù)都是一個(gè)json dict,包含數(shù)據(jù)創(chuàng)建的提示模板、工具使用的人工指令(查詢(xún))、中間思維/工具執(zhí)行循環(huán)和最終答案。

Tool Descrition:
BMTools Tool_name: translation
Tool action: get_translation
action_input: {"text": target texts, "tgt_lang": target language}


Generated Data:
{
    "prompt": "Answer the following questions as best you can. Specifically, you have access to the following APIs:\n\nget_translation: . Your input should be a json (args json schema): {{\"text\" : string, \"tgt_lang\" : string, }} The Action to trigger this API should be get_translation and the input parameters should be a json dict string. Pay attention to the type of parameters.\n\nUse the following format:\n\nQuestion: the input question you must answer\nThought: you should always think about what to do\nAction: the action to take, should be one of [get_translation]\nAction Input: the input to the action\nObservation: the result of the action\n... (this Thought/Action/Action Input/Observation can repeat N times, max 7 times)\nThought: I now know the final answer\nFinal Answer: the final answer to the original input question\n\nBegin! Remember: (1) Follow the format, i.e,\nThought:\nAction:\nAction Input:\nObservation:\nFinal Answer:\n (2) Provide as much as useful information in your Final Answer. (3) Do not make up anything, and if your Observation has no link, DO NOT hallucihate one. (4) If you have enough information and want to stop the process, please use \nThought: I have got enough information\nFinal Answer: **your response. \n The Action: MUST be one of the following:get_translation\nQuestion: {input}\n Agent scratchpad (history actions):\n {agent_scratchpad}",
    "query": "My intention is to convert the data provided in ?? ?? ??????? ??????? ?????? ???????? into Arabic(ara).\n",
    "chains": [
        {
            "thought": "I need to use the get_translation API to convert the text into Arabic.",
            "action": "get_translation",
            "action_input": "{\"text\": \"What are the three branches of the military?\", \"tgt_lang\": \"ara\"}",
            "observation": "\"?? ?? ?????? ??????? ????? ?\""
        }
    ],
    "answer": "The translation of \"What are the three branches of the military?\" into Arabic is \"?? ?? ?????? ??????? ????? ?\"."
}

模型實(shí)驗(yàn)

機(jī)器評(píng)估:研究人員對(duì)每個(gè)工具隨機(jī)抽取100個(gè)鏈步(chain steps)來(lái)構(gòu)建機(jī)器評(píng)估測(cè)試平臺(tái),平均27個(gè)最終步驟和73個(gè)中間工具調(diào)用步驟,其中最終步驟的評(píng)估使用Rouge-L指標(biāo),中間步驟的評(píng)估使用ExactMatch指標(biāo)進(jìn)行評(píng)估。


圖片

人工評(píng)估:在天氣、地圖、股票、翻譯、化學(xué)和WolframAlpha工具中隨機(jī)抽取10個(gè)query,然后評(píng)估工具調(diào)用過(guò)程的通過(guò)率、最終答案以及和ChatGPT最終答案的比較。

ChatGPT評(píng)估:通過(guò)ChatGPT對(duì)LLaMA和ChatGPT的答案和工具使用鏈進(jìn)行自動(dòng)評(píng)估。

評(píng)估結(jié)果如下(分?jǐn)?shù)越高越好),可以看到ToolLLaMA在不同場(chǎng)景下與ChatGPT的性能相同或更好。

圖片

工具學(xué)習(xí)

在清華大學(xué)、人民大學(xué)、北京郵電大學(xué)等個(gè)國(guó)內(nèi)外知名高校和大學(xué)聯(lián)合發(fā)布的一篇論文中,對(duì)工具學(xué)習(xí)進(jìn)行了系統(tǒng)的研究,介紹了工具學(xué)習(xí)的背景,包括認(rèn)知起源、基礎(chǔ)模型的范式轉(zhuǎn)變,以及工具和模型的互補(bǔ)作用。

圖片

論文鏈接:https://arxiv.org/pdf/2304.08354.pdf

文中還回顧了現(xiàn)有的工具學(xué)習(xí)研究,包括工具增強(qiáng)型和工具導(dǎo)向型學(xué)習(xí),并制定了一個(gè)通用的工具學(xué)習(xí)框架:從理解用戶(hù)指令開(kāi)始,模型應(yīng)該學(xué)會(huì)把一個(gè)復(fù)雜的任務(wù)分解成幾個(gè)子任務(wù),通過(guò)推理動(dòng)態(tài)地調(diào)整計(jì)劃,并通過(guò)選擇合適的工具有效地征服每個(gè)子任務(wù)。

文中還討論了如何訓(xùn)練模型以提高工具使用能力并促進(jìn)工具學(xué)習(xí)的普及。

考慮到之前的工作中缺乏系統(tǒng)的工具學(xué)習(xí)評(píng)估,研究人員用17種有代表性的工具進(jìn)行了實(shí)驗(yàn),并展示了當(dāng)前基礎(chǔ)模型在熟練利用工具方面的潛力。

論文最后討論了幾個(gè)需要進(jìn)一步研究的工具學(xué)習(xí)的開(kāi)放性問(wèn)題,例如確保安全和可信賴(lài)的工具使用、用基礎(chǔ)模型實(shí)現(xiàn)工具創(chuàng)建,以及解決個(gè)性化的難題。

參考資料:

https://github.com/OpenBMB/ToolBench

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2023-08-02 13:50:06

2024-04-18 10:39:57

2025-05-28 11:46:18

開(kāi)源模型數(shù)據(jù)

2025-02-05 12:53:21

2023-07-04 10:18:25

開(kāi)源模型

2023-10-17 12:33:27

AI模型

2023-06-05 12:32:48

模型論文

2024-01-03 12:56:39

2021-11-23 09:30:34

架構(gòu)AI技術(shù)

2025-03-19 09:15:00

AI算法模型

2025-02-06 14:28:16

2023-09-11 15:57:16

人工智能模型GPT-4

2023-08-08 14:36:11

模型AI

2024-10-15 13:07:38

2024-03-06 18:09:06

Linux性能工具

2023-10-16 13:28:00

數(shù)據(jù)AI

2024-07-10 14:35:19

2023-09-26 11:58:32

2024-10-09 08:27:30

2025-06-06 09:10:00

模型開(kāi)源AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美精品片 | 夜夜爽99久久国产综合精品女不卡 | 亚洲成人蜜桃 | 91在线观看视频 | 久久久久亚洲 | 日韩日韩日韩日韩日韩日韩日韩 | 中文字幕不卡在线观看 | 国产农村妇女毛片精品久久麻豆 | 国产精品永久久久久 | 久久久av | 欧美成人aaa级毛片在线视频 | 剑来高清在线观看 | 巨大荫蒂视频欧美另类大 | 中文字幕精品一区久久久久 | 久久性| 国产一区在线免费观看 | 中文字幕高清 | 91国内精精品久久久久久婷婷 | 国产精品久久久久久久一区探花 | 久久精品中文 | 亚洲午夜av久久乱码 | 久久国产精品久久久久久 | www.黄色片视频 | 欧美激情在线精品一区二区三区 | 五月激情综合 | 亚洲精品国产电影 | 久久国产欧美日韩精品 | 欧美日韩国产在线 | 午夜网站视频 | 国精产品一品二品国精在线观看 | 国产精品高潮呻吟久久久久 | 五月天激情电影 | 日韩中文一区二区三区 | 天天看天天干 | 成人三级视频 | 久久国产精品精品国产色婷婷 | 丁香六月伊人 | 日日人人| 欧美一区二区三区大片 | 日韩在线大片 | 国产极品车模吞精高潮呻吟 |