成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從零搭一套可復現、可教學、可觀察的RL for VLM訓練流程,我們試了試

人工智能 新聞
來自上海交通大學、MiniMax、復旦大學和 SII 的研究團隊選擇按下暫停鍵,進行了一次關于 RL Scaling 的重新思考(Rethinking)。

自 Deepseek-R1 發布以來,研究社區迅速響應,紛紛在各自任務中復現 R1-moment。

在過去的幾個月中,越來越多的研究嘗試將 RL Scaling 的成功應用擴展到視覺語言模型(VLM)領域 —— 刷榜、追性能、制造 “Aha Moment”,整個社區正高速奔跑,RL for VLM 的邊界也在不斷被推遠。

但在這樣一個節奏飛快、聚焦結果的研究環境中,基礎設施層面的透明性、評估的一致性,以及訓練過程的可解釋性,往往被忽視。

這會帶來三個問題:

  • 當底層實現依賴封裝復雜的 RL 庫時,整體流程往往難以看清,理解和修改成本高,不利于方法的教學與傳播
  • 缺乏一致、魯棒的評估標準,不同方法之間難以公平比較,也難以積累長期洞察
  • 訓練過程行為不可觀測,模型如何學習、學習出了什么能力、訓練過程中出現了哪些行為變得難以分析

于是,來自上海交通大學、MiniMax、復旦大學和 SII 的研究團隊選擇按下暫停鍵,進行了一次關于 RL Scaling 的重新思考(Rethinking):

他們提出 MAYE —— 一個從零實現的 RL for VLM 框架與標準化評估方案,希望為該領域奠定一個透明、可復現、可教學的研究起點。

圖片

  • 論文標題:Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme
  • 論文地址:https://arxiv.org/pdf/2504.02587
  • 代碼地址:https://github.com/GAIR-NLP/MAYE
  • 數據集地址:https://huggingface.co/datasets/ManTle/MAYE

三大核心貢獻

重塑 RL+VLMs 的研究范式

1. 簡潔透明的 RL for VLM 訓練架構:輕依賴、強可控

MAYE 的實現很「干凈」:

  • 沒有 Ray / DeepSpeed / TRL / Verl / OpenRLHF / AReaL
  • 從零實現,無黑箱封裝,無多余抽象
  • 基于 Transformers / FSDP2 / vLLM 搭建,專為 VLM 設計
  • 支持靈活改動,適合教學與研究場景

這樣的設計不僅提升了訓練過程的可解釋性,也極大降低了 RL for VLM 的入門門檻:每一行代碼、每一個環節都可見、可查、可改,研究者可以更清晰地理解模型是如何學習的,又為何能收斂。

我們并未采用當前 VLM-RL 社區常用的 GRPO,而是選擇探索 Reinforce++ 的替代可能性。整個項目的靈感來源于 OpenAI Spinning Up,我們希望 MAYE 能成為 VLM-RL 研究中的一個輕量、透明、可教學的入門底座。

相比市面上黑盒化程度較高的 RL 框架,MAYE 更像是一個透明的「教學級實驗框架」:既可直接運行,也可任意插拔、修改各個組件,非常適合用于方法對比、原理教學,甚至作為新手入門的第一課。

我們將完整的訓練流程解構為 4 個輕量模塊:

數據流動(data flow)  → 響應采集 (response collection) → 軌跡構造 (trajectory generation)→ 策略更新 (policy update)

每一步都通過清晰的接口呈現,可以像樂高一樣自由拼接、替換,將原本復雜封裝的黑盒流程徹底 “白盒化”。

訓練過程不再是只能看 loss 和 accuracy 的黑箱,而是變成一條可以觀察、分析、干預的路徑。

圖片

RL for VLM,只需四步:結構清晰,可拆可查

 2. 標準化評估方案:看清訓練過程,看懂模型行為

RL 研究中,一直存在兩個老大難問題:訓練過程不穩定,評估過程不透明。

尤其在 VLM 場景下,很多 RL 工作只關注 “最后結果”,缺乏對學習曲線、行為演化的系統性觀察與分析。

那么 —— 模型究竟是如何學會的?反思能力是如何出現的?長輸出真的等于更強推理嗎?過去缺乏統一的方式來回答這些問題。

為此,MAYE 提出了一整套細致、可復現的標準化評估方案(evaluation scheme),用于系統追蹤訓練動態和模型行為演化:

訓練集指標:

  • accuracy curve(準確率曲線)
  • response length(響應長度)
  • 多次獨立運行取均值,展現真實學習趨勢

驗證 & 測試集指標:

  • pass@1 與 pass@8,在不同溫度設置下評估泛化能力
  • 提供平均值 + 最大值,全面覆蓋性能變化

反思行為指標:

  • 反思詞使用頻率統計(e.g., re-check, think again, verify)
  • 五個比例指標,量化反思是否真正帶來了正確率提升

這些指標覆蓋了訓練全過程,既能用于算法開發,也適合橫向比較、機制研究。

無論你是做方法、做分析,還是做認知能力探測,MAYE 都能提供一套清晰可復現的過程視角。

圖片

準確率曲線、輸出長度、反思指標——三類視角還原 RL 全貌

3. 實證發現與行為洞察:RL 不止有效,更值得被理解

MAYE 不只是一個框架和評估工具,也是一套可以產出研究發現的實驗平臺。

 研究團隊在多個主流 VLMs(如 Qwen2 / Qwen2.5-VL-Instruct)和兩類視覺推理數據集(文本主導 / 圖像主導)上開展系統實驗,復現實驗足夠穩健:所有結果均基于 3 次獨立運行,并報告均值與標準差。

在此基礎上,我們觀察到了一些有代表性的現象:

  • 輸出長度會隨著模型架構、數據分布、訓練隨機種子而顯著變化,是判斷模型推理策略演化的重要觀測信號;
  • 反思行為(Reflection)頻率與輸出長度高度相關,但大多數性能提升仍來源于非反思型推理。輸出變長 ≠ 模型變強。長文本可能意味著更豐富的推理,也可能只是訓練過程中的隨機漂移或復讀堆疊。只有當 “更長” 帶來 “更準”,才值得被認為是有效行為;
  • Aha Moment 并不是 RL 訓練憑空生成的,而是在 VLM 模型本身能力基礎上被進一步激發和強化;

圖片

在多個模型和數據集上,系統追蹤了訓練動態與反思行為

在相同高質量監督數據(來自 textbook-style CoT)下,RL 在驗證集和測試集上均顯著優于 SFT,且具有更強的 OOD 泛化能力。即便是 Qwen2.5-VL 這類強基座模型,也能從 RL 中獲得額外提升。

圖片

驗證集與測試集全維度對比:RL 展現出更強的泛化能力

圖片

驗證集與測試集全維度對比:RL 展現出更強的泛化能力

這些實證結果不僅揭示了 RL 對模型行為的真實影響,也為后續研究者提供了穩定、可對照的 baseline 實驗結果。我們也呼吁社區更多采用多次獨立運行報告結果,推動 RL for VLM 從 “能跑通” 邁向 “可分析、可信任”。

結語

MAYE 并不是一項追求極致性能的框架優化工程,而是一套面向研究者與教學場景的基礎設施嘗試。

我們希望它能成為 RL-VLM 研究中一塊干凈的起點,幫助社區更透明地理解訓練過程、更一致地衡量行為變化、也更高效地探索 RL Scaling for VLM 的邊界。

這只是一個起步,希望它對你的工作有所幫助。歡迎反饋、改進、復用。論文與代碼資源全面開源,歡迎研究者探索和復現。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-11-07 20:43:14

React

2022-07-10 20:45:47

React加載動畫庫

2023-03-22 23:23:25

React加載動畫庫

2023-02-09 12:42:40

2015-11-13 10:42:06

微軟表情包爾康少爺

2025-04-27 03:00:00

Spring流程業務

2021-11-29 16:12:38

AI數據強化學習

2021-07-15 10:55:59

SQLLinux日志

2015-07-22 12:51:05

2013-04-03 13:08:54

2010-05-12 09:21:49

2009-06-23 18:01:45

Ajax框架源代碼

2018-08-31 08:42:48

LinuxUnix實用程序

2014-12-02 10:02:21

Android異步任務

2023-03-03 17:00:00

部署Linux內核

2023-07-03 11:03:26

數據庫云遷移

2021-01-08 08:19:36

數據庫TiDB集群

2021-11-14 22:14:08

人工智能機器學習工具

2019-10-11 15:58:25

戴爾

2021-05-27 07:12:19

單點登錄系統
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 青青草原综合久久大伊人精品 | 亚洲天堂日韩精品 | 国产成人免费网站 | 99热在这里只有精品 | 国产亚洲欧美在线 | 国产黄视频在线播放 | 操久久 | 亚洲欧洲中文 | 久久久久久久久久久一区二区 | 亚洲欧美日韩精品久久亚洲区 | 成人国产免费视频 | 国产高清在线精品 | 99久久婷婷国产综合精品电影 | 国产成人久久av免费高清密臂 | 亚洲天堂久久 | 日韩在线 | 久久福利| 美女在线视频一区二区三区 | h片在线播放 | 2021天天躁夜夜看 | 欧美一区二区三区在线看 | 成人免费黄色 | 九色视频网站 | 精品九九九 | 一区二区三区四区在线视频 | 精品国产18久久久久久二百 | 成人免费视频7777777 | 成人av在线播放 | 亚洲精品456 | 久久88 | 欧美成人一区二区三区 | 91中文在线观看 | 日韩一区二区三区在线观看视频 | 91精品久久久久久久久 | 久久伊人免费视频 | 久久久久国产 | 美女视频h| 国产成人高清 | 国产精品a久久久久 | 中文字幕国产精品 | 亚洲xx在线 |