成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

性能提升11.74%!騰訊優圖提出激勵推理,專攻復雜指令

人工智能 新聞
騰訊優圖(UTU)研究團隊提出一種系統性方法——激勵推理(Incentivizing Reasoning ),來提升LLM處理復雜指令的能力。

現有的語言大模型(LLMs)在復雜指令下的理解和執行能力仍需提升。

騰訊優圖(UTU)研究團隊提出一種系統性方法——激勵推理(Incentivizing Reasoning ),來提升LLM處理復雜指令的能力。

圖片

結果顯示,該方法能夠有效提升大多數LLM進行復雜指令深度處理時的表現,并在1.5B參數的LLM上實現了11.74%的性能提升,表現可媲美8B參數的LLM。

背景:難處理復雜指令與約束條件

現有的大語言模型(LLMs)在遵循復雜指令時面臨挑戰,尤其當多重約束以并行、鏈式和分支結構組織時,LLMs難以厘清真正的指令與約束條件。

一個直觀的解決方案是通過“思維鏈”(CoT)來普遍提升LLMs的指令跟隨能力。

然而研究團隊發現,原始的CoT由于其表層的推理模式,即僅僅是對指令的簡單釋義與重復,卻對性能產生了負面影響。樸素的CoT未能剖析約束的組成部分,也無法識別不同層級類型和維度關系。

為此,研究團隊提出了一種系統性方法,通過激勵推理能力來提升LLM處理復雜指令的能力:首先,基于現有分類法對復雜指令進行分解,提出了一種基于開源數據與已有約束結構的數據生產方法。其次,利用帶有可驗證、以規則為中心的獎勵建模,通過強化學習(RL)培養模型在遵循指令時的推理能力。

圖片

方法:從數據生產方法到推理能力

復雜規則與約束的復雜指令數據生產

針對復雜指令集的數量問題,研究團隊基于現有分類法對復雜指令進行分解,提出了一種基于開源數據與已有約束結構的數據生產方法以及校驗準則的方法。

種子指令挑選:團隊從WildChat和Alpaca等數據集中多樣化地篩選種子指令,并通過主題和任務標簽進行細致挑選。

帶規則約束的指令發散:團隊在細粒度規則和約束下自演化指令,結合代碼執行和LLM判別兩種驗證方式,確保生成指令的多樣性和有效性。

回復生產與質量校驗:團隊利用LLM生成回復并通過多重驗證篩除低質量樣本,同時用LLM判別典型問題以保證指令和回復的合理性。

圖片

面向復雜指令任務下推理的強化學習

團隊提出利用強化學習(RL)方法(采用GRPO算法),通過規則驅動的獎勵機制,優化大語言模型在復雜指令下的結構化推理能力,提升最終答案的準確性。

基于規則的獎勵建模:團隊設計了基于規則的獎勵函數,分別對推理格式和多約束滿足度進行評價,結合啟發式與獎勵模型,實現對復雜指令響應的精細化引導。

經驗回放緩沖區篩選:團隊引入自適應經驗回放機制,通過對比有無推理過程的樣本表現,篩選并強化能帶來更優結果的推理鏈,提升模型在復雜任務下的推理有效性。

策略模型分布偏移控制:采用行為克隆約束策略分布,防止模型在片面追求約束滿足時犧牲語義或遺忘原有知識,確保推理內容與答案的語義一致性和流暢性。

結果與討論

與基線方法的比較

此方法能有效提升大多數現有LLM在處理復雜指令時的表現,體現了深度推理的泛化能力。

相比之下,CoT提示會導致所有模型性能大幅下降,進一步證實了淺層思考的負面影響。SDC方法將推理與回答分為兩步,但由于其本質上的表面性,仍未能提升推理質量。

SFT技術通過知識蒸餾讓小模型模仿強模型的推理模式,保證了思考的深度和廣度。但SFT的缺點是對訓練外樣本的泛化能力較差。基于RL的訓練方式則教會LLM如何思考,推動多樣化推理的自我發展,而非簡單記憶。

圖片

不同模型大小與基座的比較

小模型(1.5B)在訓練中獲得的提升遠大于大模型,顯示了小模型通過測試時擴展的潛力。

DeepSeek蒸餾的LLM因廣泛模仿任務而在推理的結構學習上有更好的起點。Ministral和LLaMA的能力不如Qwen,且LLaMA3.1-8B在訓練中出現模型崩潰。

LLaMA模型在訓練中出現響應急劇縮短和KL懲罰激增,表明其偏離初始狀態。這可能與底座模型的預訓練知識有關,LLaMA傾向于無休止地生成思考,難以輸出一致的語義響應,最終導致崩潰。

圖片

與SOTA方法的比較

團隊在ComplexBench上實現了多種SOTA方法,并在最復雜的Chain和Selection類別上表現出色。這表明深度推理確實有助于LLM分析并完成真正相關且有約束的請求。

圖片

推理模式的變化

關鍵詞如“first”“second”等的變化顯示,所有LLM在CFBench和ComplexBench等高難度基準上推理詞頻增加,證實了深度推理的重要性。對于沒有復雜結構的指令,慢思考LLM的關鍵詞頻率隨著響應長度變短而略有下降。

圖片

數學數據的重要性

DeepScaleR在推理能力培養上起到了積極作用,數學題數量的增加與CoT token增長和性能提升正相關。

圖片

篩選機制的作用

優秀CoT樣本比例先降后升,說明訓練中淺層到深層推理的轉變被促進,最終帶來更高獎勵的響應。經驗回放中篩選優秀CoT樣本有助于滿足輸出格式約束,防止劣質推理獲得獎勵,并為模仿專家思維留出時間。

圖片

團隊發現,直接模仿專家推理不僅鼓勵模型獲得格式獎勵,還能穩定訓練并彌補規則獎勵的不足。

論文地址:https://arxiv.org/pdf/2506.01413
項目地址:https://github.com/yuleiqin/RAIF
數據:https://huggingface.co/collections/yolay/raif-arxivorg-pdf-250601413-682b16e5c0c2fa9b73811369

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-29 10:40:00

數據模型

2023-06-20 13:44:49

清華推理

2024-12-30 08:50:00

AI數據訓練

2025-02-20 09:36:45

2022-03-31 10:51:20

算法訓練研究

2025-06-04 08:35:00

2024-08-06 11:30:00

2022-03-02 09:53:22

計算Transforme性能

2024-04-11 08:00:00

人工智能機器學習

2017-09-22 14:18:07

AI視覺技術

2020-01-14 09:13:48

Tomcat調優配置

2017-04-11 17:11:43

騰訊云騰訊優圖

2022-05-11 14:45:48

模型人工智能

2025-02-10 13:00:00

模型訓練AI

2014-04-24 10:11:17

iOS性能調優

2020-03-13 07:40:36

Plato數據分析

2024-09-11 14:00:00

3D框架

2024-12-02 12:37:42

2024-04-01 08:04:05

JProfilerJVM工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美一区在线视频 | 五月婷婷 六月丁香 | 亚洲日本中文字幕在线 | 欧美日本韩国一区二区三区 | 国产精品免费视频一区 | 狠狠热视频 | 国产精品精品视频一区二区三区 | 成年精品 | 久久精品亚洲 | 一区二区三区精品 | 日韩精品一区二区三区中文在线 | 精品国产一区二区久久 | 国产精品久久久久久久一区探花 | 日本精品在线播放 | 天天操天天干天天曰 | 日韩视频高清 | 毛片一区 | a黄视频| 国产高清视频一区 | www视频在线观看 | 欧美综合国产精品久久丁香 | 不卡的av在线 | 一区在线视频 | 日韩视频一区二区 | 一级午夜aaa免费看三区 | 粉嫩一区二区三区四区公司1 | 成人一区二区在线 | 亚洲精品电影 | 欧美福利 | 成人免费精品视频 | 国内精品一区二区三区 | 精品91久久| 久久亚洲精品久久国产一区二区 | 久久久久久免费精品一区二区三区 | 91精品国产91久久久久游泳池 | 99精品国产一区二区青青牛奶 | 久久久亚洲一区 | 福利视频网址 | 色吧色综合 | 狠狠色狠狠色综合日日92 | 亚洲欧洲成人av每日更新 |