數學訓練讓AI變笨?強化學習與監督學習的差異
當數學天才遇上現實問題
想象一下,你身邊有個數學天才,能輕松解決高考數學壓軸題,甚至在數學競賽中屢獲佳績。但當你讓他幫忙寫個郵件、回答生活常識問題時,他卻表現得像個"書呆子"——要么答非所問,要么干脆說不會。
這聽起來很熟悉嗎?在AI大模型的世界里,這種現象正在真實上演。
最近,研究人員發現了一個令人意外的現象:那些在數學推理任務上表現出色的AI模型,在處理其他類型問題時卻頻頻"翻車"。更讓人驚訝的是,不同的訓練方法竟然會導致截然不同的結果——同樣是數學訓練,強化學習訓練出來的模型能夠"舉一反三",而監督學習訓練的模型卻容易"一根筋"。
圖片
1、問題的核心:數學能力能否遷移?
數學推理的"虛假繁榮"
近年來,AI在數學推理任務上的表現可謂突飛猛進。各種模型在MATH、AIME等數學競賽基準測試上的分數周周刷新,有些甚至超越了人類專家的平均水平。
圖片
但這里有個關鍵問題:這些數學上的進步,真的代表了AI推理能力的全面提升嗎?
研究團隊決定給這些"數學天才"們來一場全面體檢,測試內容包括:
?數學推理:傳統的數學競賽題目
?其他推理:科學問答、代碼生成、智能體規劃等
?非推理任務:日常對話、指令遵循、常識問答等
令人意外的發現
結果讓人大跌眼鏡:大多數在數學上表現優異的模型,在其他任務上的表現都很糟糕。
為了量化這種現象,研究者提出了"可遷移性指數"的概念。簡單來說,就是看一個模型在數學上的進步,能否帶動其他能力的提升。
關鍵發現來了:使用強化學習(RL)訓練的模型普遍具有更好的遷移性,而使用監督學習(SFT)訓練的模型往往出現"災難性遺忘"——數學能力提升了,但其他能力卻大幅下降。
2、深度實驗:同樣的數據,不同的命運
嚴格的對照實驗
為了確保這個發現的可靠性,研究團隊設計了一個嚴格的對照實驗:
實驗設置:
?使用相同的數學數據集
?采用相同的基礎模型(Qwen3-14B)
?分別用監督學習和強化學習兩種方法訓練
監督學習方法:讓模型學習"標準答案",就像傳統的師傅帶徒弟,手把手教每一步怎么做。
強化學習方法:只告訴模型最終答案對錯,讓它自己探索解題路徑,就像讓學生自己摸索,答對了給獎勵,答錯了給懲罰。
圖片
結果對比一目了然
數學任務表現:
?強化學習模型:AIME24達到55.7%,MATH500達到87.8%
?監督學習模型:表現稍遜,但差距不大
其他推理任務:
?強化學習模型:在代碼生成上比監督學習模型高出17.1%
?監督學習模型:進步不均勻,有些任務甚至退步
非推理任務:
?強化學習模型:不僅沒有下降,反而有所提升
?監督學習模型:普遍出現性能下降
這個結果太有趣了:同樣的數據,不同的訓練方法,竟然造就了完全不同的"AI人格"。
3、技術揭秘:為什么會有這種差異?
從"大腦內部"找答案
研究團隊深入模型內部,用兩種方法分析了訓練對模型造成的影響:
1. 潛在空間分析(PCA分析) 這就像給模型的"大腦"做核磁共振,看看訓練前后神經網絡的內部結構發生了什么變化。
發現:
?強化學習模型:內部表示變化很小,就像在原有知識基礎上精細調整
?監督學習模型:內部表示發生大幅漂移,就像把原來的知識體系推倒重建
2. 輸出分布分析 這相當于分析模型在回答問題時的"思維模式"變化。
發現:
?強化學習模型:只有少數幾個關鍵詞的使用頻率發生變化,比如"定義"、"添加"、"數字"等任務相關詞匯
?監督學習模型:大量不相關詞匯的使用都發生了變化,甚至在不需要推理的問題上也會啟動復雜的推理過程
一個生動的類比
想象你要訓練一個廚師:
監督學習就像:給他一本詳細的食譜,每道菜都有標準做法,他嚴格按照食譜執行。結果是:做食譜上的菜很棒,但遇到新菜品或者需要靈活應變時就抓瞎了。
強化學習就像:只告訴他做出來的菜好不好吃,讓他自己摸索。結果是:他不僅學會了做菜,還培養了味覺直覺,能夠舉一反三,處理各種情況。
論文標題:Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
論文鏈接:???https://arxiv.org/abs/2507.00432??
本文轉載自??????AI帝國??????,作者:無影寺
