成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

快手Agents系統、模型、數據全部開源!

人工智能 新聞
快手聯合哈爾濱工業大學研發的「KwaiAgents」,使7B/13B模型也能達到超越GPT-3.5的效果,并且這些系統、模型、數據、評測都開源了!

7B 大小的模型也能玩轉 AI Agents 了?近期,快手開源了「KwaiAgents」,問它周末滑雪問題,它不但幫你找到場地,連當天的天氣都幫你考慮周到了。

圖片

大家都知道大語言模型(LLM)通過對語言的建模而掌握了大量知識,并具備一定認知和推理能力。但即使是當前最強的 GPT-4,單獨使用的情況下,依然會一本正經地胡說八道,無法跟世界保持實時的交互。AI Agents 就是解決這個問題的道路之一,通過激發大模型任務規劃、反思、調用工具等能力,使大模型能夠借助現實世界工具提升生成內容的準確性,甚至有能力解決復雜問題。這一次,快手聯合哈爾濱工業大學研發的「KwaiAgents」,使 7B/13B 的 “小” 大模型也能達到超越 GPT-3.5 的效果,并且這些系統、模型、數據、評測都開源了!

圖片


  • 技術報告:https://arxiv.org/abs/2312.04889
  • 項目主頁:https://github.com/KwaiKEG/KwaiAgents

從「KwaiAgents」的 Github 主頁中可以看到,本次開源內容包含:

  1. 系統(KAgentSys-Lite):輕量級 AI Agents 系統,并配備事實、時效性工具集;
  2. 模型(KAgentLMs):Meta-Agent Tuning 后,具有 Agents 通用能力的系列大模型及其訓練數據;
  3. 評測(KAgentBench):開箱即用的 Agent 能力自動化評測 Benchmark 與人工評測結果。

圖片

系統

KAgentSys 系統,是基于大模型作為認知內核,配以記憶機制、工具庫,形成的迭代式自動化系統。其主要包含:

  1. 記憶機制:包含知識庫、對話、任務歷史三類記憶,依托于混合向量檢索、關鍵詞檢索等技術的檢索框架,在每一次規劃路徑中檢索所需的信息。
  2. 工具集:包含事實性增強工具集,異構的搜索和瀏覽機制能夠匯集網頁、文本百科、視頻百科等多個來源的知識;包含日歷、節日、時間差、天氣等常見的時效性增強工具集。
  3. 自動化 Loop:在一輪對話中,用戶會給予一個問題,可選知識庫及額外人設整體進行輸入,系統會先進行記憶的更新和檢索,再調用大模型進行任務的規劃,如果需要調用工具則進行調用,如果不用則進入總結階段,大模型綜合歷史的信息給出符合預期的回答。

本次開源 KAgentSys 的部分能力,系統將逐步進行升級和開放。

模型

為了避免訓練中單一模板引起的過擬合問題,團隊提出 Meta-Agent Tuning (MAT) 的方法,通過在訓練數據中引入更多 Agent Prompt 模板,從而提升大模型在 Agent 能力上的通用性,并提升了效果。

圖片

Meta-Agent Tuning (MAT) 分為兩階段:

  1. 模板生成階段:通過設計 Meta-Agent,對特定問題集合,生成實例化的 Agent Prompt 模板(上右圖為一個例子)候選;并在相同的實驗環境下,生成模板產出的候選結果,與開源模板(如 ReAct,AutoGPT 等)產出的高置信結果,用打分模型進行對比打分,從而篩選出高質量的 Agent Prompt 模板庫。通過引入這些多元的模板,能夠顯著降低模型微調時對模板的依賴,提純更本質的 Agents 在任務規劃、工具使用、反思等能力,從而提高模型的泛化性和有效性。
  2. 指令微調階段:基于上萬的模板,構建了超過 20 萬的 Agent 調優指令微調數據。團隊調優了一些熱門開源模型如 Qwen-7B、Baichuan2-13B 等,供大家使用和參考,后續還會陸續放出其他熱門模型。

評測

KAgentBench 通過人工精細化標注的上千條數據,做到了開箱即用,讓大家能夠用一行命令評測一個大模型在不同模板下各方面的 Agents 能力。

如上圖所示,在 KAgentBench 中,會對不同種類的能力構造輸入,每個 query 配備多個模板和多個人工編輯的真實回答,旨在綜合評測準確性和泛化性,下表顯示了經過 MAT 調優后,7B-13B 模型各項能力的提升,且超越了 GPT-3.5 的效果:

同時,該研究還請人類標注者在 200 個事實性和時效性的問題(如 “劉德華今年幾歲了”),對不同的大模型和 Agent 系統進行了交叉評估,可以看到 KAgentSys 系統和 MAT 之后模型提升顯著(百分號前為正確率,括號內為 5 分制均分)。

圖片

通常僅依賴網頁搜索對一些長尾問題和熱門問題返回結果不佳。比如問到 “安東內拉比梅西大多少天?” 這類長尾問題,往往搜索結果返回的都是一些兩者的八卦新聞,而返回不了一些關鍵信息。而 KAgentSys 通過調用百科搜索工具獲取精準的出生日期,再調用 time_delta 時間差工具算出年齡差,就能精準回答這個問題了。

團隊表示,AI Agents 是一條非常有潛力的道路,未來一方面會在這個方向持之以恒地沉淀核心技術,并為整個社區不斷地注入新的活力;另一方面也會積極探索 Agents 技術與快手業務的結合,嘗試更多有趣、有價值的創新應用落地。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-11-26 19:31:18

2024-02-07 09:25:52

數據處理快手大模型

2023-06-06 14:09:32

模型開源

2025-06-13 08:45:00

數據模型可視化

2023-10-12 07:32:27

冷啟動推薦模型

2023-08-18 14:34:00

研究模型

2021-02-02 13:00:30

快手參數推薦精排模型

2025-05-22 06:59:53

2024-04-22 07:56:32

數據倉庫數據中臺數據服務

2021-01-12 15:24:39

數據泄露網絡安全因素認證

2021-11-10 15:10:17

操作系統華為代碼

2022-06-21 09:50:52

Citus 11.0CitusData開源

2024-04-15 12:28:00

AI模型

2024-12-02 09:46:27

2018-07-05 14:29:58

大數據

2021-03-25 12:32:14

樹莓派Linux代碼

2024-06-04 07:29:13

2023-04-07 07:31:17

渠道數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品一区在线观看 | 亚洲黄色av | 亚洲一区二区久久久 | 视频一区二区在线 | 日韩中文字幕区 | 欧美精品a∨在线观看不卡 欧美日韩中文字幕在线播放 | 亚洲一区在线免费观看 | 成人在线视频观看 | 亚洲午夜精品一区二区三区他趣 | 99re视频在线 | 日韩一级免费电影 | 污视频免费在线观看 | 一级黄色毛片 | av网站在线看 | 成人欧美一区二区三区黑人孕妇 | 国产网站在线免费观看 | 亚洲五码在线 | 欧美 日本 国产 | 精品国产视频 | 中文区中文字幕免费看 | 午夜视频在线观看网站 | 欧美亚洲日本 | 91成人在线| 中文字幕在线观看日韩 | 夜久久 | 97久久久| 青娱乐av | 99精品99| av在线一区二区三区 | 精品99久久久久久 | 日韩中文字幕视频在线 | 日韩国产高清在线观看 | 国产99久久久国产精品 | 九九九视频| 国产精品污www一区二区三区 | 国产毛片久久久 | 嫩草91在线| 精品久久久久久亚洲精品 | 韩日一区二区 | 久夜精品 | 99免费精品视频 |