成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MSRA清北推出強化預(yù)訓(xùn)練!取代傳統(tǒng)自監(jiān)督,14B模型媲美32B

人工智能 新聞
微軟亞洲研究院(MSRA)聯(lián)合清華大學(xué)、北京大學(xué)提出全新預(yù)訓(xùn)練范式RPT(強化預(yù)訓(xùn)練),首次將強化學(xué)習(xí)深度融入預(yù)訓(xùn)練階段,讓模型在預(yù)測每個token前都能先“動腦推理”,并根據(jù)推理正確性獲得獎勵。

“預(yù)測下一個token”——這個支撐LLM的核心訓(xùn)練機制,正在被強化學(xué)習(xí)顛覆。

微軟亞洲研究院(MSRA)聯(lián)合清華大學(xué)、北京大學(xué)提出全新預(yù)訓(xùn)練范式RPT(強化預(yù)訓(xùn)練),首次將強化學(xué)習(xí)深度融入預(yù)訓(xùn)練階段,讓模型在預(yù)測每個token前都能先“動腦推理”,并根據(jù)推理正確性獲得獎勵。

圖片

傳統(tǒng)預(yù)訓(xùn)練依賴海量文本進行自監(jiān)督學(xué)習(xí),模型通過簡單預(yù)測下一個token建立語言能力,作者將之比喻為一塊蛋糕胚,而RL只是作為上面點綴的一顆櫻桃。

現(xiàn)在RPT要做的就是用櫻桃直接做蛋糕,即將這一過程重構(gòu)為推理任務(wù),促進模型更深層次理解和提升下一個token的預(yù)測準(zhǔn)確度。

圖片

那這塊櫻桃蛋糕到底怎么做?詳細烘焙流程我們接著往下看。

將強化學(xué)習(xí)引入預(yù)訓(xùn)練

傳統(tǒng)的預(yù)訓(xùn)練方法采用自監(jiān)督的下一個token預(yù)測任務(wù),而RL通常承擔(dān)微調(diào)LLM的功能,使其與人類偏好對齊或者增強復(fù)雜推理。

然而基于人類反饋的強化學(xué)習(xí)(RLHF)過度依賴昂貴數(shù)據(jù),且模型容易受到獎勵破解;可驗證獎勵的強化學(xué)習(xí)(RLVR)也會受到數(shù)據(jù)稀缺的限制,只能應(yīng)用于特定領(lǐng)域的微調(diào)。

為了讓強化學(xué)習(xí)更好地作用于LLM,團隊提出的全新范式強化預(yù)訓(xùn)練RPT,激勵使用RL進行有效的Next-Token推理任務(wù),將預(yù)訓(xùn)練語料庫重構(gòu)為推理問題集,推動預(yù)訓(xùn)練從學(xué)習(xí)表面的token相關(guān)性轉(zhuǎn)為理解深層含義。

模型首先需要對多個token生成一個思維鏈推理序列,涉及多種推理模式(如頭腦風(fēng)暴、自我批評和自我糾正),然后再為下一個token生成預(yù)測。

圖片

具體來說,RPT就是通過讓LLM同策略(on-policy)執(zhí)行,以生成多條不同的思維軌跡,每條軌跡包含中間推理步驟和對下一個token的最終預(yù)測。

引入前綴匹配獎勵,驗證預(yù)測的正確性。如果預(yù)測與真實token匹配,則分配正獎勵1,反之為0。該獎勵信號將用于更新LLM,以鼓勵生成能準(zhǔn)確延續(xù)上下文的軌跡。

圖片

團隊使用包含4428個競賽數(shù)學(xué)問題及答案的OmniMATH數(shù)據(jù)集,并通過計算下一token的熵和設(shè)定閾值,進行數(shù)據(jù)過濾,只保留更難預(yù)測的token參與訓(xùn)練。

另外采用Deepseek-R1-Distill-Qwen-14B作為基礎(chǔ)模型,使用GRPO算法和8K的訓(xùn)練長度,批大小為256個問題,每個問題采樣8個響應(yīng)。

更深層次的推理

實驗表明,與R1-Distill-Queen-14B相比,RPT-14B在三種難度(簡單、中等、困難)上均實現(xiàn)了更高的下一個token預(yù)測準(zhǔn)確率,優(yōu)于標(biāo)準(zhǔn)下一token預(yù)測基線和使用推理的預(yù)測基線。

圖片

在性能上,也可與更大的模型R1-Distill-Queen-32B相媲美,說明RPT能有效捕捉token生成背后的復(fù)雜推理信號,并在提升LLM的語言建模能力方面擁有巨大潛力。

圖片

RPT在跨難度的訓(xùn)練計算方面,也表現(xiàn)出清晰的冪律縮放 (Power-law Scaling),預(yù)測準(zhǔn)確性隨著計算的增加而不斷提高,并且與理論曲線緊密擬合。

圖片

與傳統(tǒng)的使用下一個token預(yù)測相比,在具有可驗證答案的問題(即Skywork-OR1)上,使用RL微調(diào)RPT模型顯示出更強的推理能力

在數(shù)據(jù)有限的情況下,可以快速將從下一token推理中學(xué)習(xí)到的強化推理模式遷移至最終任務(wù)。

圖片

另外模型在SuperGPQA和MMLU-Pro基準(zhǔn)測試上的零樣本評估表明,RPT-14B不僅優(yōu)于R1-Distill-Queen-14B,還在推理模式中顯著超過了R1-Distill-Qwen-32B。

圖片

最后團隊還對推理軌跡進行分析,發(fā)現(xiàn)與顯式問題解決模型相比,RPT-14B采用了更多的假設(shè)生成、替代方案的考慮以及對結(jié)構(gòu)線索甚至顆粒度token級細節(jié)的反思。

既包含高級語義理解,又包含低級文本特征,說明RPT在訓(xùn)練過程中會培養(yǎng)更深層次的推理習(xí)慣

圖片

One More Thing

這塊著名的“蛋糕論”最早出自圖靈獎得主Yann LeCun在2016年的演講。

如果智能是一塊蛋糕,那么大部分蛋糕都是無監(jiān)督學(xué)習(xí),蛋糕上的裱花是監(jiān)督學(xué)習(xí),而蛋糕頂部的櫻桃則是強化學(xué)習(xí)。

圖片

而現(xiàn)在試圖用強化學(xué)習(xí)碾碎這塊蛋糕的,還有OpenAI

圖片

在上個月紅杉組織的AI Ascent活動中,OpenAI科學(xué)家Dan Roberts就提及了他們在將RL置于模型預(yù)訓(xùn)練過程中的轉(zhuǎn)變。

在GPT-4o中全是傳統(tǒng)預(yù)訓(xùn)練計算,在o1中引入了一些強化學(xué)習(xí)運算并且取得了不錯的效果,在o3中則引入更多,他們預(yù)計在未來的某一代模型中,將會完全由RL計算主導(dǎo)

圖片

有理由相信,未來RL或許將在LLM預(yù)訓(xùn)練過程中掀起更大的風(fēng)暴,且讓我們拭目以待。

論文鏈接:https://arxiv.org/abs/2506.08007

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-05 23:21:32

2025-04-27 09:19:00

強化學(xué)習(xí)模型AI

2020-07-29 12:16:12

預(yù)訓(xùn)練自訓(xùn)練神經(jīng)網(wǎng)絡(luò)

2024-04-10 08:15:17

模型語言模型GPT

2025-05-14 13:22:08

Qwen3訓(xùn)練小模型

2024-04-08 08:05:00

大模型人工智能開源

2022-01-06 09:57:02

數(shù)據(jù)計算機神經(jīng)網(wǎng)絡(luò)

2025-06-06 09:10:00

模型開源AI

2025-06-18 02:30:00

推理能力強化學(xué)習(xí)大語言模型

2023-09-06 09:59:12

雷達技術(shù)

2022-11-28 14:00:24

人工智能

2023-03-28 16:01:01

PytorchSimCLR算法

2025-04-10 10:02:43

2025-06-13 09:29:51

2025-03-07 08:50:03

2025-06-12 09:48:27

2022-04-12 14:36:58

達摩院訓(xùn)練模型

2025-03-25 09:24:05

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲黄色一区二区三区 | 精品综合久久久 | 日韩国产在线观看 | 先锋资源在线 | 午夜视频在线观看网站 | 成人小视频在线观看 | 狠狠婷婷综合久久久久久妖精 | 亚洲视频一区 | 亚洲一区中文字幕 | 欧美日韩国产免费 | 成人午夜视频在线观看 | 欧美黄 片免费观看 | av片免费 | 特级毛片www | 日韩欧美国产一区二区三区 | 亚洲国产日韩一区 | 国产精品一区二区在线播放 | 久久久青草婷婷精品综合日韩 | 亚洲高清在线观看 | 午夜精品久久久久久久星辰影院 | 亚洲日韩中文字幕一区 | 午夜在线小视频 | 亚洲精品一区二区三区丝袜 | 亚洲成人精品国产 | 欧美一级久久 | 黄色片免费在线观看 | 视频一区二区在线观看 | 国产婷婷在线视频 | 国产欧美精品一区二区色综合 | 成人三级网址 | 欧美福利视频 | 日韩中文一区二区三区 | 色资源站| 国产精品久久久久久久久久三级 | 国产乱码精品一品二品 | 久久小视频 | 色综合桃花网 | 欧洲精品久久久久毛片完整版 | 国产婷婷精品 | 一区二区三区视频免费观看 | 久久久久91 |