推理模型的必經(jīng)之路-自適應(yīng)推理
自適應(yīng)推理模型的核心就是讓模型自己根據(jù)用戶問題的來判斷是否進(jìn)行推理預(yù)測(cè)。
Arm存在三種格式:直接回答、短CoT或代碼、長(zhǎng)CoT,同時(shí)引入Ada-GRPO解決傳統(tǒng) GRPO 中的格式崩潰問題。
除了自適應(yīng)模式,Arm還支持另外兩種模式;
- 指令引導(dǎo)模式,用戶明確強(qiáng)制選擇某一種指定推理格式
- 共識(shí)引導(dǎo)模式,聚合直接回答、短CoT或代碼三種格式的輸出,當(dāng)答案一致時(shí),直接返回,否則認(rèn)為任務(wù)較復(fù)雜,切換到Long CoT推理模式。
模型的訓(xùn)練分為兩個(gè)階段,SFT和Ada-GRPO。
第一階段:SFT 推理格式理解
SFT作為冷啟動(dòng),讓模型可以用各種推理格式解決問題。
- 直接答案:直接給出答案,不進(jìn)行任何推理鏈
<ANSWER>answer</ANSWER>
- 短CoT:先進(jìn)行簡(jiǎn)短的推理,然后給出答案
<COT>cot</COT><ANSWER>answer</ANSWER>
- 代碼:采用基于代碼的推理方式,格式:
<CODE>code</CODE><ANSWER>answer</ANSWER>
- 長(zhǎng)CoT:涉及更詳細(xì)、迭代的推理過程,例如自我反思和替代方案生成等
<LONG_COT>cot</LONG_COT><ANSWER>answer</ANSWER>
模型訓(xùn)練采用LlamaFactory框架,lora訓(xùn)練,批次為128,學(xué)習(xí)率為 2e-4,采用余弦學(xué)習(xí)率調(diào)度器,6個(gè)epoch,10%步數(shù)預(yù)熱,訓(xùn)練策略 ZeRO-3。
第二階段:Ada-GRPO訓(xùn)練格式選擇
SFT 之后,模型會(huì)了使用多種推理格式進(jìn)行回復(fù),但無法根據(jù)任務(wù)自適應(yīng)切換的能力,因此提出了自適應(yīng) GRPO,通過格式多樣性獎(jiǎng)勵(lì)機(jī)制,讓模型能夠根據(jù)任務(wù)難度動(dòng)態(tài)地選擇合適的推理格式。
最后,通過最大化以下目標(biāo)函數(shù)來優(yōu)化模型:
結(jié)果
基座模型采用Qwen2.5-Base-3B、7B、14B模型。
SFT數(shù)據(jù)集,使用AQuA-Rat,由于僅存在直接答案和簡(jiǎn)短CoT回答,利用GPT-4o和 DeepSeek-R1分別補(bǔ)充代碼和長(zhǎng)CoT格式,過濾錯(cuò)誤答案后,保留 3K 個(gè)多選題和 7.8K 個(gè)開放問題。
GPT-4o補(bǔ)充代碼
DeepSeek-R1補(bǔ)充長(zhǎng)CoT
RL數(shù)據(jù)集,從簡(jiǎn)單的常識(shí)推理到復(fù)雜的數(shù)學(xué)推理,包括 CommonsenseQA、GSM8K 和 MATH,總共包含 19.8K 條。
如下表所示,ARM的平均效果下降不到1%,但節(jié)省了超過30%的token。
同時(shí),SFT只能讓模型學(xué)會(huì)格式,但沒辦法根據(jù)任務(wù)選擇合適的格式,而GRPO 確實(shí)提高了推理能力,但傾向于依賴長(zhǎng)CoT來解決所有任務(wù),如下圖所示。
比較自適應(yīng)模式、指令引導(dǎo)模式、共識(shí)引導(dǎo)模式如下表所示,共識(shí)引導(dǎo)可以提高整體效果,但消耗token也更多。
驗(yàn)證,自適應(yīng)模式中格式的選擇不是隨機(jī)選擇,與指令引導(dǎo)模式上每種單獨(dú)模式比較,效果均好。
比較Ada-GRPO和GRPO,如下圖所示,在早期訓(xùn)練步驟中Ada-GRPO由于選擇了次優(yōu)的推理格式,最初在準(zhǔn)確率上落后于GRPO,但最終都收斂到相似的最終準(zhǔn)確率。而Ada-GRPO最終將平均響應(yīng)長(zhǎng)度減少到大約GRPO的一半。
最后,想說,自適應(yīng)推理應(yīng)該推理模型的必經(jīng)之路,同時(shí)支持強(qiáng)制選擇推理模式也要支持,應(yīng)用上,可以前置的就選擇強(qiáng)制指令,無法判斷的再讓大模型自己自適應(yīng)。
本文轉(zhuǎn)載自??NLP工作站??,作者:NLP工作站
