成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

推理模型的必經(jīng)之路-自適應(yīng)推理

發(fā)布于 2025-6-3 06:41
瀏覽
0收藏

自適應(yīng)推理模型的核心就是讓模型自己根據(jù)用戶問題的來判斷是否進(jìn)行推理預(yù)測(cè)。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

Arm存在三種格式:直接回答、短CoT或代碼、長(zhǎng)CoT,同時(shí)引入Ada-GRPO解決傳統(tǒng) GRPO 中的格式崩潰問題。

除了自適應(yīng)模式,Arm還支持另外兩種模式;

  • 指令引導(dǎo)模式,用戶明確強(qiáng)制選擇某一種指定推理格式
  • 共識(shí)引導(dǎo)模式,聚合直接回答、短CoT或代碼三種格式的輸出,當(dāng)答案一致時(shí),直接返回,否則認(rèn)為任務(wù)較復(fù)雜,切換到Long CoT推理模式。

模型的訓(xùn)練分為兩個(gè)階段,SFT和Ada-GRPO。

第一階段:SFT 推理格式理解

SFT作為冷啟動(dòng),讓模型可以用各種推理格式解決問題。

  • 直接答案:直接給出答案,不進(jìn)行任何推理鏈

<ANSWER>answer</ANSWER>
  • 短CoT:先進(jìn)行簡(jiǎn)短的推理,然后給出答案

<COT>cot</COT><ANSWER>answer</ANSWER>
  • 代碼:采用基于代碼的推理方式,格式:

<CODE>code</CODE><ANSWER>answer</ANSWER>
  • 長(zhǎng)CoT:涉及更詳細(xì)、迭代的推理過程,例如自我反思和替代方案生成等

<LONG_COT>cot</LONG_COT><ANSWER>answer</ANSWER>

模型訓(xùn)練采用LlamaFactory框架,lora訓(xùn)練,批次為128,學(xué)習(xí)率為 2e-4,采用余弦學(xué)習(xí)率調(diào)度器,6個(gè)epoch,10%步數(shù)預(yù)熱,訓(xùn)練策略 ZeRO-3。

第二階段:Ada-GRPO訓(xùn)練格式選擇

SFT 之后,模型會(huì)了使用多種推理格式進(jìn)行回復(fù),但無法根據(jù)任務(wù)自適應(yīng)切換的能力,因此提出了自適應(yīng) GRPO,通過格式多樣性獎(jiǎng)勵(lì)機(jī)制,讓模型能夠根據(jù)任務(wù)難度動(dòng)態(tài)地選擇合適的推理格式。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

最后,通過最大化以下目標(biāo)函數(shù)來優(yōu)化模型:

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

結(jié)果

基座模型采用Qwen2.5-Base-3B、7B、14B模型。

SFT數(shù)據(jù)集,使用AQuA-Rat,由于僅存在直接答案和簡(jiǎn)短CoT回答,利用GPT-4o和 DeepSeek-R1分別補(bǔ)充代碼和長(zhǎng)CoT格式,過濾錯(cuò)誤答案后,保留 3K 個(gè)多選題和 7.8K 個(gè)開放問題。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

GPT-4o補(bǔ)充代碼

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

DeepSeek-R1補(bǔ)充長(zhǎng)CoT

RL數(shù)據(jù)集,從簡(jiǎn)單的常識(shí)推理到復(fù)雜的數(shù)學(xué)推理,包括 CommonsenseQA、GSM8K 和 MATH,總共包含 19.8K 條。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

如下表所示,ARM的平均效果下降不到1%,但節(jié)省了超過30%的token。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

同時(shí),SFT只能讓模型學(xué)會(huì)格式,但沒辦法根據(jù)任務(wù)選擇合適的格式,而GRPO 確實(shí)提高了推理能力,但傾向于依賴長(zhǎng)CoT來解決所有任務(wù),如下圖所示。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

比較自適應(yīng)模式、指令引導(dǎo)模式、共識(shí)引導(dǎo)模式如下表所示,共識(shí)引導(dǎo)可以提高整體效果,但消耗token也更多。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

驗(yàn)證,自適應(yīng)模式中格式的選擇不是隨機(jī)選擇,與指令引導(dǎo)模式上每種單獨(dú)模式比較,效果均好。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

比較Ada-GRPO和GRPO,如下圖所示,在早期訓(xùn)練步驟中Ada-GRPO由于選擇了次優(yōu)的推理格式,最初在準(zhǔn)確率上落后于GRPO,但最終都收斂到相似的最終準(zhǔn)確率。而Ada-GRPO最終將平均響應(yīng)長(zhǎng)度減少到大約GRPO的一半。

推理模型的必經(jīng)之路-自適應(yīng)推理-AI.x社區(qū)

最后,想說,自適應(yīng)推理應(yīng)該推理模型的必經(jīng)之路,同時(shí)支持強(qiáng)制選擇推理模式也要支持,應(yīng)用上,可以前置的就選擇強(qiáng)制指令,無法判斷的再讓大模型自己自適應(yīng)。

本文轉(zhuǎn)載自??NLP工作站??,作者:NLP工作站

已于2025-6-3 11:34:36修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 自拍偷拍第1页 | 欧美日韩高清一区二区三区 | 综合色影院 | 99视频在线播放 | 成人亚洲一区 | 国产一区二区三区 | 99久久国产精 | 拍真实国产伦偷精品 | 日韩成人在线免费视频 | 久久久久久久久久性 | 国产日韩欧美另类 | 一级毛片网| 久草久草久草 | 亚洲欧美中文字幕在线观看 | 韩日在线视频 | 懂色av蜜桃av | 91免费在线看 | 国产一区二区在线免费 | 久久久www成人免费无遮挡大片 | 91xh98hx 在线 国产 | 91伊人| 国产乱一区二区三区视频 | 日韩视频在线免费观看 | 精品动漫一区 | 国产亚洲精品综合一区 | 99精品国产一区二区三区 | 爱综合| 国产成人精品一区二区三区在线观看 | 超碰在线网站 | 日韩福利 | 国产精品观看 | 国产精品爱久久久久久久 | 在线免费观看成人 | 99国产视频 | av网址在线 | 伊人超碰在线 | 蜜臀久久 | 91精品国产自产精品男人的天堂 | 欧美视频一区二区三区 | 日韩精品视频在线 | 精品一二三区 |