成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

面試題:大模型的FunctionCalling如何訓(xùn)練得到?

發(fā)布于 2025-5-8 06:32
瀏覽
0收藏

主要來說,F(xiàn)unction Calling 的訓(xùn)練主要涉及數(shù)據(jù)構(gòu)造、模型架構(gòu)適配、多階段微調(diào)等關(guān)鍵環(huán)節(jié)。

主要開源方案可以參考Llama3.1或者Qwen-Agent,基本上在Llama3的技術(shù)報告( https://arxiv.org/pdf/2407.21783) 中就可以知道FunctionCalling的實現(xiàn)路徑。

以下是Llama3的技術(shù)報告里面如何用二階段訓(xùn)練來提升Function Calling的準確性。

面試題:大模型的FunctionCalling如何訓(xùn)練得到?-AI.x社區(qū)

一、數(shù)據(jù)預(yù)處理

Llama3設(shè)計了一套多階段數(shù)據(jù)篩選策略,通過質(zhì)量評估與內(nèi)容優(yōu)化提升訓(xùn)練數(shù)據(jù)價值:

1. 主題分級體系

  • 構(gòu)建基于Llama 3 8B的層級分類系統(tǒng),首先將數(shù)據(jù)劃分為"數(shù)學(xué)推理"等宏觀類別;
  • 在頂層分類下建立細粒度子類別(如"幾何與三角學(xué)"),形成樹狀知識結(jié)構(gòu)。

2. 多維質(zhì)量評估

  • 混合評估模型:結(jié)合獎勵模型(RM)與Llama質(zhì)量判別器

通用文本:準確性、指令合規(guī)性、表達規(guī)范(三級評分)

編程數(shù)據(jù):錯誤識別度、需求匹配度(二級評分)

  • RM篩選:保留評分前25%的高質(zhì)量樣本
  • 智能質(zhì)量檢測:通過Llama 3進行多維度評估
  • 采用聯(lián)合篩選機制,保留至少一個評估體系認證的高質(zhì)量樣本

3. 難度量化建模

  • 復(fù)雜性雙因素評估:

意圖密度分析(Instag):通過Llama 3 70B標記對話意圖數(shù)量

難度分級系統(tǒng):基于三階難度評分框架(簡易/中等/復(fù)雜)

  • 生成綜合難度指標:意圖數(shù)量 × 人工難度分級

4. 語義優(yōu)化處理

  • 特征聚類:采用RoBERTa構(gòu)建對話語義向量空間
  • 分級去重策略:

按質(zhì)量×難度綜合得分降序排列

動態(tài)相似度閾值過濾(余弦相似度<0.85)

貪婪選擇算法保留最具代表性的樣本

該方案通過質(zhì)量-難度聯(lián)合建模與語義空間優(yōu)化,在保證數(shù)據(jù)多樣性的前提下,顯著提升訓(xùn)練數(shù)據(jù)的有效信息密度。

實證研究表明,該方法可使模型在復(fù)雜推理任務(wù)上的準確率提升17%,同時減少28%的訓(xùn)練收斂時間。

二、訓(xùn)練流程

構(gòu)建數(shù)據(jù)集

主要是將函數(shù)名、參數(shù)類型、功能說明等以結(jié)構(gòu)化文本輸入模型(如JSON格式)。

[
  {"role": "user", "content": "查詢北京明天天氣"},
  {"role": "assistant", "tool_calls": [{"name": "get_weather", "arguments": {"location": "北京"}}]},
  {"role": "tool", "name": "get_weather", "content": "{\"temperature\": 22}"},
  {"role": "assistant", "content": "北京明天氣溫22℃"}
]

其中,tool這一層就是給大模型當做參數(shù)判斷邏輯輸入,模擬調(diào)度??獲取天氣接口??后返回最終結(jié)果。

二階段訓(xùn)練

  • 預(yù)訓(xùn)練階段:模型在通用語料庫上進行基礎(chǔ)語言建模訓(xùn)練,未涉及工具調(diào)用能力;
  • 后訓(xùn)練微調(diào)(Post-Training):

合成數(shù)據(jù)生成:通過預(yù)訓(xùn)練模型生成包含函數(shù)調(diào)用的對話數(shù)據(jù),例如模擬用戶提問和對應(yīng)的工具調(diào)用參數(shù);

人工標注迭代:標注員逐步標注復(fù)雜場景,例如從單輪工具調(diào)用過渡到多輪交互,并加入異常參數(shù)處理樣本(如無效參數(shù)、多工具選擇等)。

三、訓(xùn)練方法

  1. 監(jiān)督微調(diào)(SFT)
  • 使用標注數(shù)據(jù)對模型進行指令微調(diào),強化其對工具調(diào)用的格式理解和參數(shù)生成能力。(示例:模型輸入包含工具定義的Prompt,輸出需嚴格匹配函數(shù)名及參數(shù)格式。)
  1. 強化學(xué)習(xí)(RLHF/DPO)
  • 對工具調(diào)用的準確性和結(jié)果整合能力進行偏好排序,例如標注員對模型的工具調(diào)用決策打分,優(yōu)化模型生成質(zhì)量。
  1. 多任務(wù)學(xué)習(xí)

同時訓(xùn)練模型完成常規(guī)對話和工具調(diào)用任務(wù),避免單一任務(wù)過擬合。 在報告中,Llama發(fā)現(xiàn) PPO 沒有 DPO 好,所以只用了 DPO,在preference data 中,有5.89%是和reasoning以及tool相關(guān)的。面試題:大模型的FunctionCalling如何訓(xùn)練得到?-AI.x社區(qū)

本文轉(zhuǎn)載自???沐白AI筆記???,作者:楊沐白

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 午夜精品久久久久久久久久久久 | 国产欧美一区二区三区在线看 | 欧美精品在线播放 | 青青草一区二区三区 | 亚洲成年在线 | 国产精品久久久久久一区二区三区 | 一级毛片观看 | 国产999在线观看 | 玖草资源 | hsck成人网| 亚洲欧美激情网 | 亚洲一区在线播放 | 国产精品99久久久久久久久 | 日韩中文字幕在线观看 | 国产精品免费视频一区 | 欧美精品综合在线 | 亚洲综合色婷婷 | 亚洲九九| 欧美xxxx黑人又粗又长 | 曰韩一二三区 | 毛片一区二区三区 | 日韩一区二区av | 91人人看| 精品亚洲一区二区三区 | 一级黄色播放 | 国产亚洲精品久久久久久豆腐 | 91精品国产乱码久久久久久久 | 成人在线观看免费视频 | 欧美精品免费观看二区 | 欧美不卡视频一区发布 | 国产日韩欧美一区二区 | 亚洲一区二区欧美 | 久久男人 | 免费在线观看一区二区三区 | 久久久精 | 精品欧美一区二区精品久久久 | 91视频在线看 | 欧美在线综合 | 成人av播放| 亚洲色图综合 | 久久精品国产久精国产 |