清華團(tuán)隊(duì)深度實(shí)證：RL 真能讓大模型進(jìn)化嗎？能力邊界仍被基座“鎖死”！

作者：文摘菌 2025-04-23 12:09:25

近日，清華大學(xué)LeapLab團(tuán)隊(duì)聯(lián)合上海交大，發(fā)布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文，給最近火熱的RLVR（帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)）又“潑了一盆冷水”。

強(qiáng)化學(xué)習(xí)（RL）真的能讓大模型獲得超越基礎(chǔ)模型的新推理能力嗎？

論文地址：https://arxiv.org/pdf/2504.13837

論文標(biāo)題翻譯過來是：強(qiáng)化學(xué)習(xí)（RL）真的能讓大模型獲得推理能力上的躍遷嗎？

論文結(jié)論是：RLVR提升的，其實(shí)只是采樣效率，而不是讓模型學(xué)會(huì)了真正全新的推理能力。

換句話說：RLVR只是把基礎(chǔ)模型本來就會(huì)的東西，采樣采得更有效率了。

這份研究直接打破了AI圈子里的“先驗(yàn)知識(shí)”，大家都覺得RLVR是讓大模型變聰明的“加速器”，特別是在數(shù)學(xué)、代碼等需要推理的任務(wù)上。

比如OpenAI的o1、DeepSeek-R1、Kimi-1.5，都是靠RLVR后處理，成績(jī)一騎絕塵。原理很簡(jiǎn)單：先有個(gè)基礎(chǔ)大模型→用RLVR強(qiáng)化一下→通過自動(dòng)判分（比如答案對(duì)不對(duì)、代碼測(cè)不測(cè)得過）給獎(jiǎng)勵(lì)。

理論上，它能自我提升，學(xué)到以前沒見過的新解題套路。于是，這幾年，大家都在說，RLVR能讓大模型“自我進(jìn)化”，推理能力突破天花板。

清華團(tuán)隊(duì)的“靈魂拷問”：RLVR，真能越過基座嗎？

清華團(tuán)隊(duì)這篇論文，直接拋出了“靈魂三問”：

RLVR強(qiáng)化訓(xùn)練，究竟有沒有讓大模型獲得“超越基座模型”的全新推理能力？
模型的推理邊界到底被RLVR拓寬了嗎？還是只是換了一種方式采樣？
我們是否過于高估了RLVR的“自我進(jìn)化”魔力？

對(duì)于上述三個(gè)問題，作者用pass@k作為研究方法的核心。因?yàn)閭鹘y(tǒng)的模型評(píng)測(cè)，大多用“平均準(zhǔn)確率”或“單次采樣成功率”來衡量模型能否解題。但作者敏銳地意識(shí)到，這種評(píng)估方式其實(shí)低估”了模型的潛力。原因是：有些難題，模型可能前幾次都答錯(cuò)，但多采樣幾次，或許就能“撞”出正確答案。

于是，論文采用了pass@k這個(gè)指標(biāo)：對(duì)于每道題，采樣k次，只要有一次答對(duì)，就算成功。k越大，越能“榨干”模型內(nèi)在的推理極限。

核心邏輯是：如果RLVR真能帶來新能力，那在k再大時(shí)，它也應(yīng)該比基座模型更能解出難題。

實(shí)驗(yàn)結(jié)果有點(diǎn)顛覆大家認(rèn)知——

RLVR訓(xùn)練的模型，在k小的時(shí)候表現(xiàn)更好，但k大了以后，基礎(chǔ)模型能超過它！

也就是：RLVR訓(xùn)練讓模型更高效采樣出正確答案，但沒有帶來全新的推理能力，能力邊界始終被基座模型“鎖死”。

案例1：數(shù)學(xué)推理

以AIME24數(shù)學(xué)競(jìng)賽題為例，RLVR模型一開始比基座模型高出30%的準(zhǔn)確率，但多采樣后，基座模型最終能解出更多題目，RLVR的“能力天花板”反而更低。

圖片

案例2：代碼生成

在LiveCodeBench等編程基準(zhǔn)上，RLVR模型單采樣表現(xiàn)亮眼，但當(dāng)k采樣數(shù)提升到128時(shí)，基座模型解題覆蓋率反超RLVR。

圖片

案例3：視覺推理

多模態(tài)視覺推理同樣復(fù)現(xiàn)上述現(xiàn)象——RLVR提升了采樣效率，卻沒讓模型產(chǎn)生全新的多模態(tài)推理路徑。

圖片

RLVR的“聰明”，其實(shí)是把基礎(chǔ)模型會(huì)的東西，輸出概率調(diào)高了，真正的新推理路徑？并沒有，基礎(chǔ)模型多采樣就能覆蓋所有RLVR模型能做的題

甚至，RLVR還收窄了模型的探索能力——它會(huì)更集中在“能得分的套路”上，但反而失去一些“歪打正著”的能力，導(dǎo)致極限覆蓋沒基礎(chǔ)模型廣。

無論是代碼生成（LiveCodeBench、HumanEval+），還是視覺推理（MathVista、MathVision），趨勢(shì)都是一樣：RLVR提升了單次成功率，但大采樣下基礎(chǔ)模型能覆蓋更多難題。

為什么會(huì)這樣？

清華的這篇論文認(rèn)為有兩點(diǎn)原因：

一是大模型的“先驗(yàn)”太強(qiáng)了。RLVR本質(zhì)上是在基礎(chǔ)模型原有輸出分布里找高分的“套路”，不走新路；RL算法本身不適合探索超大動(dòng)作空間（語言的組合爆炸），靠獎(jiǎng)勵(lì)信號(hào)很難跳出原有思路。

二是探索能力反而被抑制。RLVR讓模型更“穩(wěn)”，但也更“保守”，輸出熵降低，探索新解法的能力變?nèi)酢?/span>

RLVR在大模型推理這件事上，和AlphaGo那種“純RL自我進(jìn)化”完全不是一回事。大模型的RLVR只是“采樣分布微調(diào)”，不是“能力進(jìn)化”。

怎么解決？

論文做了一個(gè)實(shí)驗(yàn)，把更強(qiáng)的模型的推理鏈條喂給小模型，小模型能真的學(xué)到新花樣，推理上限突破原有格局。

所以，如果真想讓模型能力更進(jìn)一步，靠RLVR遠(yuǎn)遠(yuǎn)不夠，得靠知識(shí)蒸餾“老師帶學(xué)生”那一套。

即“讓模型變聰明”的關(guān)鍵，或許在于“注入新知識(shí)”（如蒸餾），而不是單純靠獎(jiǎng)勵(lì)強(qiáng)化。

或者探索“更強(qiáng)的探索范式”，比如結(jié)合RL和生成式探索、提升模型對(duì)“低概率創(chuàng)新路徑”的容忍度等。

圖源：清華大學(xué)LeapLab實(shí)驗(yàn)室官網(wǎng)

責(zé)任編輯：武曉燕來源：大數(shù)據(jù)文摘

RL 大模型進(jìn)化

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看