快手Agents系統、模型、數據全部開源！

作者：機器之心 2023-12-27 14:06:00

快手聯合哈爾濱工業大學研發的「KwaiAgents」，使7B/13B模型也能達到超越GPT-3.5的效果，并且這些系統、模型、數據、評測都開源了！

7B 大小的模型也能玩轉 AI Agents 了？近期，快手開源了「KwaiAgents」，問它周末滑雪問題，它不但幫你找到場地，連當天的天氣都幫你考慮周到了。

大家都知道大語言模型（LLM）通過對語言的建模而掌握了大量知識，并具備一定認知和推理能力。但即使是當前最強的 GPT-4，單獨使用的情況下，依然會一本正經地胡說八道，無法跟世界保持實時的交互。AI Agents 就是解決這個問題的道路之一，通過激發大模型任務規劃、反思、調用工具等能力，使大模型能夠借助現實世界工具提升生成內容的準確性，甚至有能力解決復雜問題。這一次，快手聯合哈爾濱工業大學研發的「KwaiAgents」，使 7B/13B 的 “小” 大模型也能達到超越 GPT-3.5 的效果，并且這些系統、模型、數據、評測都開源了！

技術報告：https://arxiv.org/abs/2312.04889
項目主頁：https://github.com/KwaiKEG/KwaiAgents

從「KwaiAgents」的 Github 主頁中可以看到，本次開源內容包含：

系統（KAgentSys-Lite）：輕量級 AI Agents 系統，并配備事實、時效性工具集；
模型（KAgentLMs）：Meta-Agent Tuning 后，具有 Agents 通用能力的系列大模型及其訓練數據；
評測（KAgentBench）：開箱即用的 Agent 能力自動化評測 Benchmark 與人工評測結果。

系統

KAgentSys 系統，是基于大模型作為認知內核，配以記憶機制、工具庫，形成的迭代式自動化系統。其主要包含：

記憶機制：包含知識庫、對話、任務歷史三類記憶，依托于混合向量檢索、關鍵詞檢索等技術的檢索框架，在每一次規劃路徑中檢索所需的信息。
工具集：包含事實性增強工具集，異構的搜索和瀏覽機制能夠匯集網頁、文本百科、視頻百科等多個來源的知識；包含日歷、節日、時間差、天氣等常見的時效性增強工具集。
自動化 Loop：在一輪對話中，用戶會給予一個問題，可選知識庫及額外人設整體進行輸入，系統會先進行記憶的更新和檢索，再調用大模型進行任務的規劃，如果需要調用工具則進行調用，如果不用則進入總結階段，大模型綜合歷史的信息給出符合預期的回答。

本次開源 KAgentSys 的部分能力，系統將逐步進行升級和開放。

模型

為了避免訓練中單一模板引起的過擬合問題，團隊提出 Meta-Agent Tuning (MAT) 的方法，通過在訓練數據中引入更多 Agent Prompt 模板，從而提升大模型在 Agent 能力上的通用性，并提升了效果。

Meta-Agent Tuning (MAT) 分為兩階段：

模板生成階段：通過設計 Meta-Agent，對特定問題集合，生成實例化的 Agent Prompt 模板（上右圖為一個例子）候選；并在相同的實驗環境下，生成模板產出的候選結果，與開源模板（如 ReAct，AutoGPT 等）產出的高置信結果，用打分模型進行對比打分，從而篩選出高質量的 Agent Prompt 模板庫。通過引入這些多元的模板，能夠顯著降低模型微調時對模板的依賴，提純更本質的 Agents 在任務規劃、工具使用、反思等能力，從而提高模型的泛化性和有效性。
指令微調階段：基于上萬的模板，構建了超過 20 萬的 Agent 調優指令微調數據。團隊調優了一些熱門開源模型如 Qwen-7B、Baichuan2-13B 等，供大家使用和參考，后續還會陸續放出其他熱門模型。

評測

KAgentBench 通過人工精細化標注的上千條數據，做到了開箱即用，讓大家能夠用一行命令評測一個大模型在不同模板下各方面的 Agents 能力。

如上圖所示，在 KAgentBench 中，會對不同種類的能力構造輸入，每個 query 配備多個模板和多個人工編輯的真實回答，旨在綜合評測準確性和泛化性，下表顯示了經過 MAT 調優后，7B-13B 模型各項能力的提升，且超越了 GPT-3.5 的效果：

同時，該研究還請人類標注者在 200 個事實性和時效性的問題（如 “劉德華今年幾歲了”），對不同的大模型和 Agent 系統進行了交叉評估，可以看到 KAgentSys 系統和 MAT 之后模型提升顯著（百分號前為正確率，括號內為 5 分制均分）。

通常僅依賴網頁搜索對一些長尾問題和熱門問題返回結果不佳。比如問到 “安東內拉比梅西大多少天？” 這類長尾問題，往往搜索結果返回的都是一些兩者的八卦新聞，而返回不了一些關鍵信息。而 KAgentSys 通過調用百科搜索工具獲取精準的出生日期，再調用 time_delta 時間差工具算出年齡差，就能精準回答這個問題了。

團隊表示，AI Agents 是一條非常有潛力的道路，未來一方面會在這個方向持之以恒地沉淀核心技術，并為整個社區不斷地注入新的活力；另一方面也會積極探索 Agents 技術與快手業務的結合，嘗試更多有趣、有價值的創新應用落地。

責任編輯：張燕妮來源：機器之心

模型訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

快手Agents系統、模型、數據全部開源！

系統

模型

評測