強化學習也能預訓練?效果可提升20倍,華人新作引爆RL新范式!
大規模預訓練已經從根本上改變了機器學習研究的方式:基礎模型只需訓練一次。
之后即便缺乏數據或算力,基礎模型也能在具體任務上直接適配與微調。
從計算機視覺到自然語言處理等多個領域,這種「預訓練-微調」的模式已經取得了巨大成功。
但在「強化學習」(Reinforcement Learning,RL)中,這種模式的效果仍未被完全驗證。
本質上,強化學習更難,是因為這涉及對時間與意圖的推理——
(1)必須能夠推斷當前動作在長期內的影響;
(2)必須識別出多個用戶在執行不同任務時收集的觀察數據。
目前,能處理「時間信息」的主流RL算法有兩類:
一類基于「世界模型」(world models),另一類基于「占據模型」(occupancy models)。
由于誤差累積的問題,世界模型在長時間推理方面的能力仍然有限。
在預測未來事件方面,占據模型表現優異,但通常難以訓練,且忽略了用戶意圖。
近年,「生成式AI」(GenAI)讓復雜分布建模變得可行。
它還能處理多種輸入類型,如「流匹配」(flow matching)。
這為構建依賴于意圖的占據模型提供了新工具:
流匹配(flow matching)+ 占據模型(Occupancy Models)= 意向條件流占用模型(Intention-Conditioned Flow Occupancy Models,InFOM)
傳統方法只預測「下一步觀測」。而InFOM不僅可預測多個未來步驟,還能適應用戶不同的「意圖」。
具體而言,研究人員構建的模型將「意圖」編碼為潛在變量,并通過「流匹配」(flow matching)來預測未來狀態的訪問概率。
圖1:InFOM是用于強化學習預訓練與微調的潛變量模型。(左)數據集由執行不同任務的用戶采集而來。(中)通過最大化數據似然的證據下界(ELBO)對意圖進行編碼,(右)進而實現基于流匹配的意圖感知未來狀態預測。
模型最大化數據似然進行訓練,能高效適應特定任務。
論文地址:https://arxiv.org/abs/2506.08902
博客地址:https://chongyi-zheng.github.io/infom/
由于普通流匹配方法無法拼接多個狀態轉換,研究者引入基于SARSA的時序差分流匹配損失進行改進。
論文鏈接:https://arxiv.org/abs/2503.09817
借助InFOM,可以在下游任務中估算出多個帶有意圖條件的Q函數,然后通過隱式廣義策略改進(implicit GPI)方法提取最終策略。
在強化學習中的預訓練與微調任務中,InFOM表現出色。
面對獎勵稀疏或半稀疏的復雜任務時,傳統方法難以學到有效策略,而InFOM能通過構建具備表達能力的生成模型,配合implicit GPI,更有效地利用高獎勵狀態。
與無監督技能發現或后繼特征學習等方式相比,InFOM提供了一種更簡單、更高效的意圖推理方式,性能更優。
值得一提的是,排名第一的華人作者Chongyi Zheng和排名第4的作者Benjamin Eysenbach,是一對師徒。
此外,強化學習大牛、加州大學伯克利分校EECS系Sergey Levine也參與了這項研究。
方法介紹
針對無獎勵預訓練數據集D中的連續狀態-動作對(s,a,s′,a′),通過編碼器pe(z∣s′,a′)推斷潛在意圖z∈Z,并利用占據度量模型qd(sf∣s,a,z)預測未來狀態sf的占據分布。
基于流匹配(flow matching)方法,通過最大化數據似然的證據下界(ELBO)來聯合優化編碼器與解碼器:
其中先驗分布p(z)=N(0,I)為標準高斯分布。
為實現軌跡級未來狀態預測(動態規劃),采用SARSA變體的時序差分流損失來學習流占據模型的向量場vd:[0,1]×S×S×A×Z→S:
InFOM允許估計一組基于意圖的Q函數用于下游任務。
然后,利用隱式廣義策略改進(implicit GPI)過程來提取一個策略。
具體預訓練和微調算法如下:
結果介紹
為了測試InFOM,能否從無標簽數據集中捕獲基于用戶意圖的可操作信息,能否在微調后訓練出高效的策略來解決下游任務,在36個基于狀態的任務和4個基于圖像的任務中,比較了InFOM和八個基線方法的性能。
研究者在ExORL和OGBench基準測試中評估了該方法,詳見圖3所示結果。
實驗結果表明,InFOM在八個領域中的六個領域表現與基線方法相當或更好。
在ExORL基準測試中,在兩個較容易的領域(獵豹和四足機器人)上,所有方法表現相似。
但在jaco任務上,InFOM獲得了20倍的改進。
在OGBench中更具挑戰性的基于狀態的操作任務上,基線方法與InFOM的表現有顯著差異;新算法在最佳基線方法上取得了36%更高的成功率。
此外,InFOM還能夠在直接使用RGB圖像作為輸入時,超越最強基線31%。
這是由于任務中存在半稀疏獎勵函數,傳統基線方法往往難以應對具有挑戰性的任務。
InFOM通過更強的生成模型和隱式策略優化,更高效地利用高獎勵狀態。
圖3:在ExORL和OGBench任務上的評估結果。
與基于無監督技能發現(unsupervised skill discovery) 或繼任特征學習(successor feature learning)的意圖編碼機制相比,InFOM提供了一種簡單且高效的方式來推斷用戶的意圖。
圖4的結果表明,在4項任務中的3項上,InFOM能以更簡單的方法超越先前的意圖編碼方法。
HILP和FB均基于演員-評論家框架,通過完全無監督的強化學習目標來捕獲意圖;相比之下,新方法僅需在相鄰狀態轉移上訓練基于隱變量模型的意圖編碼器,無需依賴復雜的離線強化學習流程。
圖4:與現有意圖編碼機制的對比
下面視頻展示了一些具體的例子。
- 來自ExORL基準測試的四個領域:獵豹(cheetah)、步態(walker)、四足機器人(quadruped)、Jaco,包括16個基于狀態的任務。
- 來自OGBench基準測試的四個領域:單個立方體(cube single)、雙立方體(cube double)、場景(scene)、謎題4x4(puzzle 4x4),包括20個基于狀態的任務和4個基于圖像的任務,用于評估我們的算法。
作者介紹
Chongyi Zheng是普林斯頓大學計算機科學系的博士生。
他的研究興趣是通過概率推理方法,開發具備長時序推理能力的強化學習(RL)算法。
此前,他在卡耐基梅隆大學攻讀碩士學位。
2020年,他本科畢業于西南大學;之后,在清華大學工作過。