成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華團(tuán)隊(duì)深度實(shí)證:RL 真能讓大模型進(jìn)化嗎?能力邊界仍被基座“鎖死”!

開發(fā) 測(cè)試
近日,清華大學(xué)LeapLab團(tuán)隊(duì)聯(lián)合上海交大,發(fā)布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文,給最近火熱的RLVR(帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí))又“潑了一盆冷水”。

強(qiáng)化學(xué)習(xí)(RL)真的能讓大模型獲得超越基礎(chǔ)模型的新推理能力嗎?

近日,清華大學(xué)LeapLab團(tuán)隊(duì)聯(lián)合上海交大,發(fā)布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文,給最近火熱的RLVR(帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí))又“潑了一盆冷水”。

論文地址:https://arxiv.org/pdf/2504.13837論文地址:https://arxiv.org/pdf/2504.13837

論文標(biāo)題翻譯過來是:強(qiáng)化學(xué)習(xí)(RL)真的能讓大模型獲得推理能力上的躍遷嗎?

論文結(jié)論是:RLVR提升的,其實(shí)只是采樣效率,而不是讓模型學(xué)會(huì)了真正全新的推理能力。

換句話說:RLVR只是把基礎(chǔ)模型本來就會(huì)的東西,采樣采得更有效率了。

這份研究直接打破了AI圈子里的“先驗(yàn)知識(shí)”,大家都覺得RLVR是讓大模型變聰明的“加速器”,特別是在數(shù)學(xué)、代碼等需要推理的任務(wù)上。

比如OpenAI的o1、DeepSeek-R1、Kimi-1.5,都是靠RLVR后處理,成績(jī)一騎絕塵。原理很簡(jiǎn)單:先有個(gè)基礎(chǔ)大模型→用RLVR強(qiáng)化一下→通過自動(dòng)判分(比如答案對(duì)不對(duì)、代碼測(cè)不測(cè)得過)給獎(jiǎng)勵(lì)。

理論上,它能自我提升,學(xué)到以前沒見過的新解題套路。于是,這幾年,大家都在說,RLVR能讓大模型“自我進(jìn)化”,推理能力突破天花板。

清華團(tuán)隊(duì)的“靈魂拷問”:RLVR,真能越過基座嗎?

清華團(tuán)隊(duì)這篇論文,直接拋出了“靈魂三問”:

  • RLVR強(qiáng)化訓(xùn)練,究竟有沒有讓大模型獲得“超越基座模型”的全新推理能力?
  • 模型的推理邊界到底被RLVR拓寬了嗎?還是只是換了一種方式采樣?
  • 我們是否過于高估了RLVR的“自我進(jìn)化”魔力?

對(duì)于上述三個(gè)問題,作者用pass@k作為研究方法的核心。因?yàn)閭鹘y(tǒng)的模型評(píng)測(cè),大多用“平均準(zhǔn)確率”或“單次采樣成功率”來衡量模型能否解題。但作者敏銳地意識(shí)到,這種評(píng)估方式其實(shí)低估”了模型的潛力。原因是:有些難題,模型可能前幾次都答錯(cuò),但多采樣幾次,或許就能“撞”出正確答案。

于是,論文采用了pass@k這個(gè)指標(biāo):對(duì)于每道題,采樣k次,只要有一次答對(duì),就算成功。k越大,越能“榨干”模型內(nèi)在的推理極限。

核心邏輯是:如果RLVR真能帶來新能力,那在k再大時(shí),它也應(yīng)該比基座模型更能解出難題。

實(shí)驗(yàn)結(jié)果有點(diǎn)顛覆大家認(rèn)知——

RLVR訓(xùn)練的模型,在k小的時(shí)候表現(xiàn)更好,但k大了以后,基礎(chǔ)模型能超過它!

也就是:RLVR訓(xùn)練讓模型更高效采樣出正確答案,但沒有帶來全新的推理能力,能力邊界始終被基座模型“鎖死”。

案例1:數(shù)學(xué)推理

以AIME24數(shù)學(xué)競(jìng)賽題為例,RLVR模型一開始比基座模型高出30%的準(zhǔn)確率,但多采樣后,基座模型最終能解出更多題目,RLVR的“能力天花板”反而更低。

圖片圖片

案例2:代碼生成

在LiveCodeBench等編程基準(zhǔn)上,RLVR模型單采樣表現(xiàn)亮眼,但當(dāng)k采樣數(shù)提升到128時(shí),基座模型解題覆蓋率反超RLVR。

圖片圖片

案例3:視覺推理

多模態(tài)視覺推理同樣復(fù)現(xiàn)上述現(xiàn)象——RLVR提升了采樣效率,卻沒讓模型產(chǎn)生全新的多模態(tài)推理路徑。

圖片圖片

RLVR的“聰明”,其實(shí)是把基礎(chǔ)模型會(huì)的東西,輸出概率調(diào)高了,真正的新推理路徑?并沒有,基礎(chǔ)模型多采樣就能覆蓋所有RLVR模型能做的題

甚至,RLVR還收窄了模型的探索能力——它會(huì)更集中在“能得分的套路”上,但反而失去一些“歪打正著”的能力,導(dǎo)致極限覆蓋沒基礎(chǔ)模型廣。

無論是代碼生成(LiveCodeBench、HumanEval+),還是視覺推理(MathVista、MathVision),趨勢(shì)都是一樣:RLVR提升了單次成功率,但大采樣下基礎(chǔ)模型能覆蓋更多難題。

為什么會(huì)這樣?

清華的這篇論文認(rèn)為有兩點(diǎn)原因:

一是大模型的“先驗(yàn)”太強(qiáng)了。RLVR本質(zhì)上是在基礎(chǔ)模型原有輸出分布里找高分的“套路”,不走新路;RL算法本身不適合探索超大動(dòng)作空間(語言的組合爆炸),靠獎(jiǎng)勵(lì)信號(hào)很難跳出原有思路。

二是探索能力反而被抑制。RLVR讓模型更“穩(wěn)”,但也更“保守”,輸出熵降低,探索新解法的能力變?nèi)酢?/span>

RLVR在大模型推理這件事上,和AlphaGo那種“純RL自我進(jìn)化”完全不是一回事。大模型的RLVR只是“采樣分布微調(diào)”,不是“能力進(jìn)化”。

怎么解決?

論文做了一個(gè)實(shí)驗(yàn),把更強(qiáng)的模型的推理鏈條喂給小模型,小模型能真的學(xué)到新花樣,推理上限突破原有格局。

所以,如果真想讓模型能力更進(jìn)一步,靠RLVR遠(yuǎn)遠(yuǎn)不夠,得靠知識(shí)蒸餾“老師帶學(xué)生”那一套。

即“讓模型變聰明”的關(guān)鍵,或許在于“注入新知識(shí)”(如蒸餾),而不是單純靠獎(jiǎng)勵(lì)強(qiáng)化。

或者探索“更強(qiáng)的探索范式”,比如結(jié)合RL和生成式探索、提升模型對(duì)“低概率創(chuàng)新路徑”的容忍度等。

圖源:清華大學(xué)LeapLab實(shí)驗(yàn)室官網(wǎng)

責(zé)任編輯:武曉燕 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2025-04-25 09:22:44

2023-02-08 08:00:00

算法人工智能大數(shù)據(jù)

2023-09-05 14:43:15

2025-02-10 09:35:00

2023-05-31 15:15:53

2023-09-06 13:17:00

AI數(shù)據(jù)

2023-10-07 08:28:06

語言模型代碼技術(shù)

2024-02-27 09:14:01

AI模型

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2024-07-22 08:10:00

數(shù)據(jù)模型

2025-04-27 09:23:00

模型訓(xùn)練AI

2024-12-10 07:00:00

大模型密度定律人工智能

2023-11-15 15:37:21

大模型人工智能

2023-03-15 09:36:14

模型

2024-12-09 17:20:29

2023-06-15 12:03:32

2011-02-22 14:49:23

vsftpdsubsys

2024-09-13 10:06:21

2023-10-31 17:28:00

數(shù)據(jù)訓(xùn)練

2023-08-23 12:38:10

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 99一级毛片 | 黄色a三级 | 久久久青草婷婷精品综合日韩 | 91免费在线看 | 日韩另类视频 | 91麻豆精品国产91久久久久久久久 | av影音资源 | 亚洲欧美国产毛片在线 | 91www在线观看| 亚洲国产成人精品在线 | 天堂av中文 | 国产区久久| 免费观看一级特黄欧美大片 | 亚洲成人久久久 | 国内精品视频在线观看 | 日韩精品久久久久久 | 九色av| 日韩精品一区在线观看 | 欧洲精品在线观看 | 国产精品美女久久久久久免费 | 午夜极品 | 欧美久久一区 | 日韩国产欧美一区 | 一级a性色生活片久久毛片波多野 | 日韩欧美视频网站 | 国产精品大全 | 中文字幕韩在线第一页 | 欧美色综合一区二区三区 | 亚洲天堂久久 | 日韩精品免费视频 | 成人精品在线视频 | 国产精品国产 | 免费看爱爱视频 | 久草影视在线 | 午夜精品一区二区三区在线视频 | 国产精品福利网站 | 国产日韩欧美精品一区二区三区 | 中文字幕在线视频免费视频 | 伊人一区 | 成人午夜激情 | 成人免费精品 |