成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

突破通用領域推理的瓶頸!清華NLP實驗室強化學習新研究RLPR

人工智能 新聞
清華大學自然語言處理實驗室提出了一項關鍵性技術 —— 基于參考概率獎勵的強化學習(Reinforcement Learning with Reference Probability Reward,RLPR)。

余天予,清華大學計算機系一年級博士生,導師為清華大學自然語言處理實驗室劉知遠副教授。研究興趣主要包括高效多模態大模型、多模態大模型對齊和強化學習,在 CVPR、AAAI等人工智能領域的著名國際會議和期刊發表多篇學術論文,谷歌學術引用1000余次。

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表現充分展現了 RLVR(Reinforcement Learning with Verifiable Reward,基于可驗證獎勵的強化學習)的巨大潛力。

然而,現有方法的應用范圍局限于數學和代碼等少數領域。面對自然語言固有的豐富多樣性,依賴規則驗證器的方法難以拓展到通用領域上。

針對這一關鍵挑戰,清華大學自然語言處理實驗室提出了一項關鍵性技術 —— 基于參考概率獎勵的強化學習(Reinforcement Learning with Reference Probability Reward,RLPR)。

圖片

  • 論文標題:RLPR: Extrapolating RLVR to General Domains without Verifiers
  • 論文地址:https://github.com/OpenBMB/RLPR/blob/main/RLPR_paper.pdf
  • GitHub 倉庫:https://github.com/OpenBMB/RLPR

這項技術通過 Prob-to-Reward 方法顯著提高了概率獎勵(Probability-based Reward, PR)的質量,相比基于似然度的基線方法取得了明顯更佳的性能優勢和訓練穩定性。

同時,RLPR 提出基于獎勵標準差的動態過濾機制,進一步提升強化學習的穩定性和性能提升。目前 RLPR 相關代碼、模型、數據、論文均已開源。

PR 為何有效?挖掘模型的內在評估

研究團隊觀察到,大語言模型(LLM)在推理過程中對于參考答案的生成概率直接反映了模型對于本次推理的質量評估。也就是說,模型的推理越正確,其生成參考答案的概率通常就越高。

在論文中,研究團隊給出了一個具體示例:當模型在輸出 o2 中錯誤地把選項 A 排在了第二位時,可以觀察到參考答案在第二個正確選項位置上的生成概率出現了顯著下降。這一現象清晰地表明,PR 能夠精準捕捉模型對于自身推理質量的判斷,并且與模型推理的正確性表現出高度相關性。

圖片

PR 示例,更深的顏色代表更大的輸出概率

RLPR 核心特點

領域無關的高效獎勵生成

現有 RLVR 方法通常需要投入大量的人力和工程資源,為每個領域編寫特定的驗證規則,相比之下,RLPR 僅需要簡單的一次前向傳播(forward pass)就可以生成獎勵分數。通過使用參考答案的生成概率均值作為獎勵。這種方法能夠有效地應對自然語言固有的復雜多樣性。

如下圖所示(右側示例),基于規則匹配的方式無法識別出 y2 和 y3 和參考答案語義等價,而 RLPR 的 PR 機制準確地給予了這兩個答案更高的分數。

圖片

RLPR 與現有 RLVR 范式的對比

獎勵糾偏和動態過濾

基礎的 PR 已經呈現出和回答質量很高的相關性,但是仍然受到問題和參考答案風格等無關因素的干擾(即存在偏差)。為此,研究團隊提出構建一個不包含思維鏈過程(z)的對照獎勵,并通過做差的方式去除無關因素對于分數的影響,實現獎勵糾偏。

圖片

圖片

傳統基于準確率(Accuracy Filtering)的樣本過濾方法難以適用于連續的 PR 值。RLPR 提出基于獎勵標準差的動態過濾機制,保留那些取得較高獎勵標準差的樣本用于訓練,有效提升了訓練的穩定性和效果。考慮到訓練過程中獎勵的標準差會持續變化,RLPR 進一步采用指數移動平均(EMA)的方式持續動態更新過濾閾值。

可靠的獎勵質量和框架魯棒性

研究團隊通過 ROC-AUC 指標定量評估了不同來源獎勵的質量。結果表明,PR 在 0.5B 規模即取得了顯著優于規則獎勵和驗證器模型獎勵的質量。同時,通用領域獎勵質量隨著模型能力的增強可以進一步提高到 0.91 水平。

圖片

PR 獎勵質量優于規則獎勵和驗證器模型獎勵

為了驗證框架的魯棒性,研究團隊使用多種不同的訓練模板結合 RLPR 訓練 Qwen2.5 3B 模型,并觀察到 RLPR 在不同訓練模板上都可以取得穩定的性能提升。

圖片

RLPR 對不同訓練模板的魯棒性

研究團隊還進一步在 Gemma、Llama 等更多系列的基座模型上進行實驗,驗證 RLPR 框架對于不同基座模型均可以穩定提升模型的推理能力,并超過了使用規則獎勵的 RLVR 基線。

圖片

RLPR 在 Gemma、Llama、Qwen 等不同基座模型上均穩定提升推理能力

總結

RLPR 提出了創新的 Prob-to-Reward 獎勵機制,解決了現有 RLVR 范式的領域依賴問題。通過在 Gemma、Llama、Qwen 等主流模型系列上的廣泛驗證,RLPR 不僅證明了其卓越的有效性和相對于傳統規則獎勵的顯著優勢,更在推動強化學習(RL)向更大規模(scaling)發展的道路上,邁出了堅實而有力的一步。

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-06 12:46:16

模型數據訓練

2022-11-03 14:13:52

強化學習方法

2025-03-03 09:12:00

2024-12-27 12:00:48

2022-12-01 08:00:00

2020-09-02 10:36:52

機器人人工智能系統

2025-05-09 08:40:00

2025-04-25 09:12:00

2025-03-12 09:35:45

2024-10-29 15:20:00

強化學習模型

2025-05-19 08:47:00

強化學習模型開源

2025-06-25 09:28:38

2024-12-16 17:44:18

2025-06-20 08:40:32

2023-10-17 12:33:27

AI模型

2021-08-04 09:48:05

數字化

2020-01-23 15:33:07

AI 數據人工智能

2025-06-03 08:49:00

2021-10-11 09:51:38

谷歌人工智能強化學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品欧美一区二区三区 | 瑟瑟视频在线看 | 日韩精品不卡 | 波多野结衣中文视频 | 久久国产福利 | 国产亚洲精品美女久久久久久久久久 | 日韩在线观看中文字幕 | 91麻豆精品国产91久久久更新资源速度超快 | 国产精品久久久久久久久久久久午夜片 | 欧美综合一区二区三区 | 国产a区| 成人福利电影 | 91大神新作在线观看 | 亚洲中国字幕 | 国产精品不卡一区 | 国产精品18hdxxxⅹ在线 | 国产a视频 | 91精品国产高清一区二区三区 | 国产一区二区免费在线 | 欧美日韩不卡合集视频 | 国产电影一区二区在线观看 | 天天综合日日夜夜 | 天天操夜夜看 | 欧美久久国产 | 欧美在线日韩 | 色综合99 | 国产成人精品一区 | 国产精品毛片一区二区在线看 | 亚洲社区在线 | 成人在线免费观看视频 | 亚洲一区二区三区四区视频 | 性色综合| 国产乱码精品一品二品 | 国产亚洲精品一区二区三区 | 日韩欧美在线免费观看视频 | 超碰地址 | aaaaaaa片毛片免费观看 | 黄色精品 | 国产一区二区不卡 | 成人av一区二区三区 | 欧美日韩免费在线 |