成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?

發布于 2025-7-11 06:36
瀏覽
0收藏

這篇文章旨在探討**數學推理能力的提升是否能泛化到其他領域?**研究發現,盡管許多LLM在數學基準測試上取得了顯著進步,但這些提升在很大程度上未能有效遷移到其他領域。通過對20多個開源推理調優模型進行評估,并對Qwen3-14B模型進行控制實驗,研究發現,基于強化學習(RL)調優的模型展現出更好的跨領域泛化能力,而基于監督微調(SFT)的模型則常常導致通用能力的遺忘。通過對潛在空間表示和token空間分布漂移的分析,揭示了SFT會導致顯著的表示和輸出漂移,而RL則能保留通用領域的結構。這表明,在推進推理模型時,需要重新思考當前的后訓練方法,特別是對SFT蒸餾數據的依賴。

一、概述

?Title:Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

?URL:?? https://arxiv.org/abs/2507.00432v1??

?Authors:Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue

?Code:?? https://github.com/ReasoningTransfer/Transferability-of-LLM-Reasoning??

1.Motivation

?數學推理能力的進步是否能提高LLM的通用能力?盡管LLM在MATH和AIME等數學基準測試上取得了顯著進展,但這些進步是否能泛化到更廣泛的領域,還是僅僅是狹隘的過擬合?

?現有推理模型的能力遷移性如何?模型在數學推理方面的提升能否遷移到其他推理領域(如科學問答、代碼、智能體規劃、邏輯演繹)以及不需大量推理的任務(如對話問答、指令遵循)?

?SFT和RL對模型通用能力及潛在表示的影響?在數學數據上進行訓練時,SFT和RL這兩種不同的微調范式如何影響模型的泛化能力、內部表示和token分布,以及導致性能差異的原因是什么?

2.Methods

本文通過廣泛評估和控制實驗,發現數學推理能力在LLM中的泛化能力與微調方法密切相關。RL調優的模型在數學任務上取得進步的同時,能更好地保留和泛化通用能力,而SFT調優的模型則容易導致災難性遺忘。 進一步通過潛在空間PCA分析和token分布KL散度分析發現,RL能保持模型內部表示的穩定性和輸出的精確性,而SFT則導致顯著的表示和輸出漂移。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

詳細方法和步驟:

Q1: 實驗如何設計?:

? 基于Qwen3-14B-Base模型進行控制實驗,僅使用高質量的數學數據集進行微調。

?SFT設置:使用Qwen3-32B作為教師模型生成完整的思維鏈(CoT)推理軌跡,并采用拒絕采樣(reject sampling)選擇正確答案作為SFT的訓練目標。

?RL設置:采用標準的GRPO(Generalized Reinforcement Policy Optimization)框架,以答案正確性作為獎勵信號進行訓練,rollout=16,batch size=128。

? 確保SFT和RL從相同的數據樣本中學習,以公平比較兩種范式,數據規模為47k,來自MATH和DeepScaler的數據。

Q2: 采用了哪些數據集來評測?

數學推理,其他推理比如說代碼和agent planning,以及非推理任務比如說QA

?數學推理任務:MATH500、AIME24/25、OlympiadBench,僅包含純數學問題。

?其他推理任務:LiveCodeBench(代碼生成)、GPQA-Diamond(醫學推理)、ACPBench(智能體規劃)、HeadQA(醫療保健領域QA),包含更通用的推理問題。

?非推理任務:CoQA(對話QA)、IFEval(指令遵循)、HaluEval(事實性與幻覺區分)、MC-TACO(時間常識理解),主要包含事實性、對齊或對話問題。

? 使用準確率(accuracy)作為評估指標。

Q3: 評估metrics有哪些?

1.可遷移性指數(Transferability Index, TI)定義:

? 定義了組級別的相對增益 ,其中是組中的所有基準測試集合,和分別是模型和基準模型在基準測試 上的得分。

? TI 計算公式:,。TI 值大于0表示存在正向遷移。

2.潛在空間PCA分析:

? 對模型不同層級的隱藏狀態進行主成分分析(PCA),測量模型內部表示在訓練前后的變化

? 通過計算表示中心(PCA投影坐標的平均值)之間的歐氏距離來量化潛在空間漂移。

3.Token空間分布漂移分析:

? 計算訓練前后模型輸出token分布的KL散度,評估輸出空間的變化

? 分析token排名漂移(token rank shift),即微調后模型生成token的原始排名與基準模型排名的差異,以了解模型對特定token的偏好變化。

3 Conclusion

?相對于SFT,RL調優在數學推理能力提升的同時,能更好地保留并泛化通用能力。盡管RL調優的模型專注于數學推理,但它們在其他推理任務和非推理任務上也能保持甚至提升性能,顯著優于SFT調優的模型,后者常導致通用能力的遺忘。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

?PCA模型訓練穩定性分析分析:RL調優的模型在潛在空間(中間層的特征)中漂移更小,保持了通用領域的結構,而SFT則引起顯著的表示和輸出漂移。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

?Token分布穩定性分析:RL僅選擇性地調整任務相關的token,優化更精準,而SFT會帶來比較大的改變。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

? Case Study:RL對模型的改動比SFT也更小。說明對通用任務的影響也更小。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

4 Limitation

?控制實驗的數學數據集相對較小:控制實驗中使用的數學數據集(47K高質量數學問題)雖然足夠高質量,但相較于真實世界中用于訓練大型LLM的數據集規模仍然較小。這可能會限制研究結論在更大規模和更廣泛數據條件下的普遍適用性。

?未能完全控制所有變量:盡管在控制實驗中努力確保SFT和RL從相同數據中學習,但在實際的模型微調過程中,仍存在其他難以完全控制的變量(如GRPO和拒絕采樣在實現上的差異、超參數的選擇等),這些因素可能對結果產生一定影響,導致結論的普適性受到挑戰。

?獎勵函數的簡單性:RL模型采用的獎勵信號僅為“答案正確性”。這是一種相對簡單的獎勵函數,可能無法完全捕獲復雜推理過程中產生的中間步驟質量、解題的效率或優雅性。如果獎勵函數設計更復雜,結果可能會有所不同,但相應的RL訓練難度也會大幅增加。

?診斷方法的局限性:PCA和KL散度分析提供了對模型內部表示和輸出分布變化的洞察,但這些方法仍然是宏觀的、解釋性的工具。它們可以揭示“發生了什么”,但可能無法深入解釋“為什么會發生”以及更深層次的機制改變,尤其是在面對復雜模型行為時。

5 Future Work

?探索更復雜的RL獎勵設計:未來工作可以研究如何設計更精細、能夠捕獲推理過程質量的獎勵函數,例如基于思維鏈(CoT)步驟的中間獎勵、搜索效率獎勵等,以期在進一步提升推理能力的同時更好地保留通用能力。

?研究結合SFT和RL的混合訓練策略:考慮到SFT在某些方面(如對指令的精確遵循)仍有其優勢,可以探索SFT和RL的有效結合方式,例如先進行少量SFT以建立基礎能力,再通過RL進行精細化優化,看是否能兼顧兩者優點并克服各自的局限性。

?在更大規模和多語言數據集上驗證RL的泛化能力:將本研究的發現推廣到更大規模、更多樣化的數據集和多語言場景中,以驗證RL在不同語言和文化背景下的泛化能力,并探索其在跨文化推理任務中的表現。

?深入分析模型內部機制:運用更先進的可解釋性工具和技術,深入剖析RL和SFT這兩種微調方式如何影響LLM的神經元激活模式、信息流路徑以及知識編碼方式,從而更全面地理解它們對模型通用能力遷移性的影響。

?探索負向遷移的緩解策略:針對SFT可能導致的通用能力遺忘問題,研究具體的緩解策略,例如利用知識蒸餾、多任務學習、持續學習等技術,以避免模型在專業化訓練過程中“顧此失彼”而喪失其他重要能力。

二、總結

結論1: LLM在數學推理能力提升并非總能遷移到其他領域。 通過對20多個開源模型和受控實驗進行評估,發現許多在數學基準測試上表現強勁的模型,在其他推理和非推理任務上往往無法有效遷移其增益,甚至出現災難性遺忘。這推翻了“數學能力提升即通用能力提升”的直觀假設,強調了模型在專業化訓練后泛化能力面臨的挑戰。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

結論2: 強化學習(RL)相比監督微調(SFT)在保持LLM通用能力方面具有顯著優勢。

結論4: 在實際應用中,需要重新思考當前的LLM后訓練策略。

本文轉載自???NLP PaperWeekly???,作者:NLP PaperWeekly

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩视频在线播放 | 日韩在线免费播放 | 色吊丝2288sds中文字幕 | 久久精品高清视频 | 成人午夜网站 | 伊人伊成久久人综合网站 | 精精国产xxxx视频在线 | 国产一区二区三区四区 | 欧美精品一区二区蜜桃 | 99精品网 | 国产伦精品一区二区 | 99精品国产一区二区三区 | 国产精品久久午夜夜伦鲁鲁 | 欧美精品在线一区 | 日韩高清中文字幕 | 欧美精品久久 | 九九综合九九 | 日韩av免费看| 国产农村妇女毛片精品久久麻豆 | 亚洲精品久 | 久久精品亚洲精品国产欧美 | 国产高清在线精品一区二区三区 | 日本电影免费完整观看 | 欧美高清性xxxxhdvideosex | 国产成人精品久久二区二区91 | 久久av一区二区三区 | 日韩在线视频免费观看 | 97精品国产97久久久久久免费 | 久久久精品一区 | 国产乱码精品一区二区三区忘忧草 | 日韩视频在线观看一区二区 | 欧美激情网站 | 日韩精品一区二区三区四区视频 | 欧美日韩在线一区二区三区 | 日韩一区二区三区在线视频 | 精品久久久久久久久久久院品网 | 中文字幕日韩欧美 | 草b视频 | 日韩欧美在线观看视频 | 精品欧美一区二区三区久久久 | 欧美日韩国产中文 |