數學訓練讓AI變笨？強化學習與監督學習的差異

sbf_2000

發布于 2025-7-11 06:51

瀏覽

0收藏

當數學天才遇上現實問題

想象一下，你身邊有個數學天才，能輕松解決高考數學壓軸題，甚至在數學競賽中屢獲佳績。但當你讓他幫忙寫個郵件、回答生活常識問題時，他卻表現得像個"書呆子"——要么答非所問，要么干脆說不會。

這聽起來很熟悉嗎？在AI大模型的世界里，這種現象正在真實上演。

最近，研究人員發現了一個令人意外的現象：那些在數學推理任務上表現出色的AI模型，在處理其他類型問題時卻頻頻"翻車"。更讓人驚訝的是，不同的訓練方法竟然會導致截然不同的結果——同樣是數學訓練，強化學習訓練出來的模型能夠"舉一反三"，而監督學習訓練的模型卻容易"一根筋"。

數學訓練讓AI變笨？強化學習與監督學習的差異-AI.x社區圖片

1、問題的核心：數學能力能否遷移？

數學推理的"虛假繁榮"

近年來，AI在數學推理任務上的表現可謂突飛猛進。各種模型在MATH、AIME等數學競賽基準測試上的分數周周刷新，有些甚至超越了人類專家的平均水平。

數學訓練讓AI變笨？強化學習與監督學習的差異-AI.x社區圖片

但這里有個關鍵問題：這些數學上的進步，真的代表了AI推理能力的全面提升嗎？

研究團隊決定給這些"數學天才"們來一場全面體檢，測試內容包括：

?數學推理：傳統的數學競賽題目

?其他推理：科學問答、代碼生成、智能體規劃等

?非推理任務：日常對話、指令遵循、常識問答等

令人意外的發現

結果讓人大跌眼鏡：大多數在數學上表現優異的模型，在其他任務上的表現都很糟糕。

為了量化這種現象，研究者提出了"可遷移性指數"的概念。簡單來說，就是看一個模型在數學上的進步，能否帶動其他能力的提升。

關鍵發現來了：使用強化學習（RL）訓練的模型普遍具有更好的遷移性，而使用監督學習（SFT）訓練的模型往往出現"災難性遺忘"——數學能力提升了，但其他能力卻大幅下降。

2、深度實驗：同樣的數據，不同的命運

嚴格的對照實驗

為了確保這個發現的可靠性，研究團隊設計了一個嚴格的對照實驗：

實驗設置：

?使用相同的數學數據集

?采用相同的基礎模型（Qwen3-14B）

?分別用監督學習和強化學習兩種方法訓練

監督學習方法：讓模型學習"標準答案"，就像傳統的師傅帶徒弟，手把手教每一步怎么做。

強化學習方法：只告訴模型最終答案對錯，讓它自己探索解題路徑，就像讓學生自己摸索，答對了給獎勵，答錯了給懲罰。

數學訓練讓AI變笨？強化學習與監督學習的差異-AI.x社區圖片

結果對比一目了然

數學任務表現：

?強化學習模型：AIME24達到55.7%，MATH500達到87.8%

?監督學習模型：表現稍遜，但差距不大

其他推理任務：

?強化學習模型：在代碼生成上比監督學習模型高出17.1%

?監督學習模型：進步不均勻，有些任務甚至退步

非推理任務：

?強化學習模型：不僅沒有下降，反而有所提升

?監督學習模型：普遍出現性能下降

這個結果太有趣了：同樣的數據，不同的訓練方法，竟然造就了完全不同的"AI人格"。

3、技術揭秘：為什么會有這種差異？

從"大腦內部"找答案

研究團隊深入模型內部，用兩種方法分析了訓練對模型造成的影響：

1. 潛在空間分析（PCA分析）這就像給模型的"大腦"做核磁共振，看看訓練前后神經網絡的內部結構發生了什么變化。

發現：

?強化學習模型：內部表示變化很小，就像在原有知識基礎上精細調整

?監督學習模型：內部表示發生大幅漂移，就像把原來的知識體系推倒重建

2. 輸出分布分析這相當于分析模型在回答問題時的"思維模式"變化。

發現：

?強化學習模型：只有少數幾個關鍵詞的使用頻率發生變化，比如"定義"、"添加"、"數字"等任務相關詞匯

?監督學習模型：大量不相關詞匯的使用都發生了變化，甚至在不需要推理的問題上也會啟動復雜的推理過程

一個生動的類比

想象你要訓練一個廚師：

監督學習就像：給他一本詳細的食譜，每道菜都有標準做法，他嚴格按照食譜執行。結果是：做食譜上的菜很棒，但遇到新菜品或者需要靈活應變時就抓瞎了。

強化學習就像：只告訴他做出來的菜好不好吃，讓他自己摸索。結果是：他不僅學會了做菜，還培養了味覺直覺，能夠舉一反三，處理各種情況。

論文標題：Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

論文鏈接：???https://arxiv.org/abs/2507.00432??

本文轉載自??????AI帝國??????，作者：無影寺

標簽

數學訓練

強化學習

贊

回復

舉報

回復

相關推薦

Nature：最大擴散強化學習

ceesoft ? 4279瀏覽 ? 0回復
Transformers學習上下文強化學習的時間差分方法

AIGC最前線 ? 2885瀏覽 ? 0回復
機器學習有哪些類型？ 監督學習、無監督學習、強化學習、深度學習等等！

parson2000 ? 4231瀏覽 ? 0回復
機器學習有哪些類型？ 監督學習、無監督學習、強化學習、深度學習等等

parson2000 ? 4949瀏覽 ? 0回復
什么監督學習，無監督學習與深度學習？它們之間有什么區別和聯系？

AI探索時代 ? 1.1w瀏覽 ? 0回復
大模型的訓練與調優，SFT(監督微調)和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 8627瀏覽 ? 0回復
半監督學習：如何克服數據標簽缺乏問題

51CTO內容精選 ? 4583瀏覽 ? 0回復
訓練模擬人形機器人的五種強化學習技術大PK

51CTO內容精選 ? 4219瀏覽 ? 0回復
大模型的訓練與調優，SFT(監督微調)和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 9400瀏覽 ? 0回復
從具身智能再談強化學習，為什么需要強化學習，以及強化學習的應用場景

AI探索時代 ? 3495瀏覽 ? 0回復
為什么預訓練大模型要使用無監督學習的方式？

AI探索時代 ? 3216瀏覽 ? 0回復
機器學習四大范式：監督學習、無監督學習、半監督學習和自監督學習

智駐未來 ? 1.6w瀏覽 ? 0回復
清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理

Aceryt ? 2823瀏覽 ? 0回復
用強化學習重塑多模態AI：解讀Kimi k1.5的突破與創新

Halo咯咯 ? 3169瀏覽 ? 0回復
強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？

lintoms ? 5117瀏覽 ? 0回復
強化學習與軟件工程：開源軟件獎勵演化的強化學習

AI研究前瞻 ? 2372瀏覽 ? 0回復
多智能體強化學習如何讓AI回答更精準？MMOA-RAG的突破性進展

Halo咯咯 ? 3676瀏覽 ? 0回復
強化學習強在哪里？基礎探索

柏企閱文 ? 1748瀏覽 ? 0回復
英偉達數學推理新突破：監督學習+強化學習的"1+1>2"效應

sbf_2000 ? 690瀏覽 ? 0回復

sbf_2000

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

數學訓練讓AI變笨？強化學習與監督學習的差異

當數學天才遇上現實問題

1、問題的核心：數學能力能否遷移？

數學推理的"虛假繁榮"

令人意外的發現

2、深度實驗：同樣的數據，不同的命運

嚴格的對照實驗

結果對比一目了然

3、技術揭秘：為什么會有這種差異？

從"大腦內部"找答案

一個生動的類比

目錄