成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

強化學習也能預訓練?效果可提升20倍,華人新作引爆RL新范式!

人工智能 新聞
大模型的預訓練-微調范式,正在悄然改寫強化學習!伯克利團隊提出新方法InFOM,不依賴獎勵信號,也能在多個任務中實現超強遷移,還能做到「讀心術」級別的推理。這到底怎么做到的?

大規模預訓練已經從根本上改變了機器學習研究的方式:基礎模型只需訓練一次。

之后即便缺乏數據或算力,基礎模型也能在具體任務上直接適配與微調。

從計算機視覺到自然語言處理等多個領域,這種「預訓練-微調」的模式已經取得了巨大成功。

但在「強化學習」(Reinforcement Learning,RL)中,這種模式的效果仍未被完全驗證。

本質上,強化學習更難,是因為這涉及對時間與意圖的推理——

(1)必須能夠推斷當前動作在長期內的影響;

(2)必須識別出多個用戶在執行不同任務時收集的觀察數據。

目前,能處理「時間信息」的主流RL算法有兩類:

一類基于「世界模型」(world models),另一類基于「占據模型」(occupancy models)。

由于誤差累積的問題,世界模型在長時間推理方面的能力仍然有限。

在預測未來事件方面,占據模型表現優異,但通常難以訓練,且忽略了用戶意圖。

近年,「生成式AI」(GenAI)讓復雜分布建模變得可行。

它還能處理多種輸入類型,如「流匹配」(flow matching)。

這為構建依賴于意圖的占據模型提供了新工具:

流匹配(flow matching)+ 占據模型(Occupancy Models)= 意向條件流占用模型(Intention-Conditioned Flow Occupancy Models,InFOM)

傳統方法只預測「下一步觀測」。而InFOM不僅可預測多個未來步驟,還能適應用戶不同的「意圖」。

圖片

具體而言,研究人員構建的模型將「意圖」編碼為潛在變量,并通過「流匹配」(flow matching)來預測未來狀態的訪問概率。

圖片

圖1:InFOM是用于強化學習預訓練與微調的潛變量模型。(左)數據集由執行不同任務的用戶采集而來。(中)通過最大化數據似然的證據下界(ELBO)對意圖進行編碼,(右)進而實現基于流匹配的意圖感知未來狀態預測。

模型最大化數據似然進行訓練,能高效適應特定任務。

圖片

論文地址:https://arxiv.org/abs/2506.08902

博客地址:https://chongyi-zheng.github.io/infom/

由于普通流匹配方法無法拼接多個狀態轉換,研究者引入基于SARSA的時序差分流匹配損失進行改進。

圖片

論文鏈接:https://arxiv.org/abs/2503.09817

借助InFOM,可以在下游任務中估算出多個帶有意圖條件的Q函數,然后通過隱式廣義策略改進(implicit GPI)方法提取最終策略。

在強化學習中的預訓練與微調任務中,InFOM表現出色。

面對獎勵稀疏或半稀疏的復雜任務時,傳統方法難以學到有效策略,而InFOM能通過構建具備表達能力的生成模型,配合implicit GPI,更有效地利用高獎勵狀態。

圖片

與無監督技能發現或后繼特征學習等方式相比,InFOM提供了一種更簡單、更高效的意圖推理方式,性能更優。

值得一提的是,排名第一的華人作者Chongyi Zheng和排名第4的作者Benjamin Eysenbach,是一對師徒。

此外,強化學習大牛、加州大學伯克利分校EECS系Sergey Levine也參與了這項研究。

圖片

圖片

方法介紹

針對無獎勵預訓練數據集D中的連續狀態-動作對(s,a,s′,a′),通過編碼器pe(z∣s′,a′)推斷潛在意圖z∈Z,并利用占據度量模型qd(sf∣s,a,z)預測未來狀態sf的占據分布。

基于流匹配(flow matching)方法,通過最大化數據似然的證據下界(ELBO)來聯合優化編碼器與解碼器:

圖片

其中先驗分布p(z)=N(0,I)為標準高斯分布。

為實現軌跡級未來狀態預測(動態規劃),采用SARSA變體的時序差分流損失來學習流占據模型的向量場vd:[0,1]×S×S×A×Z→S:

圖片

InFOM允許估計一組基于意圖的Q函數用于下游任務。

然后,利用隱式廣義策略改進(implicit GPI)過程來提取一個策略。

圖片

具體預訓練和微調算法如下:

圖片

圖片

結果介紹

為了測試InFOM,能否從無標簽數據集中捕獲基于用戶意圖的可操作信息,能否在微調后訓練出高效的策略來解決下游任務,在36個基于狀態的任務和4個基于圖像的任務中,比較了InFOM和八個基線方法的性能。

研究者在ExORL和OGBench基準測試中評估了該方法,詳見圖3所示結果。

實驗結果表明,InFOM在八個領域中的六個領域表現與基線方法相當或更好。

在ExORL基準測試中,在兩個較容易的領域(獵豹和四足機器人)上,所有方法表現相似。

但在jaco任務上,InFOM獲得了20倍的改進。

在OGBench中更具挑戰性的基于狀態的操作任務上,基線方法與InFOM的表現有顯著差異;新算法在最佳基線方法上取得了36%更高的成功率。

此外,InFOM還能夠在直接使用RGB圖像作為輸入時,超越最強基線31%。

這是由于任務中存在半稀疏獎勵函數,傳統基線方法往往難以應對具有挑戰性的任務。

InFOM通過更強的生成模型和隱式策略優化,更高效地利用高獎勵狀態。

圖片

圖3:在ExORL和OGBench任務上的評估結果。

與基于無監督技能發現(unsupervised skill discovery) 或繼任特征學習(successor feature learning)的意圖編碼機制相比,InFOM提供了一種簡單且高效的方式來推斷用戶的意圖。

圖4的結果表明,在4項任務中的3項上,InFOM能以更簡單的方法超越先前的意圖編碼方法。

HILP和FB均基于演員-評論家框架,通過完全無監督的強化學習目標來捕獲意圖;相比之下,新方法僅需在相鄰狀態轉移上訓練基于隱變量模型的意圖編碼器,無需依賴復雜的離線強化學習流程。

圖片

圖4:與現有意圖編碼機制的對比

下面視頻展示了一些具體的例子。

  • 來自ExORL基準測試的四個領域:獵豹(cheetah)、步態(walker)、四足機器人(quadruped)、Jaco,包括16個基于狀態的任務。
  • 來自OGBench基準測試的四個領域:單個立方體(cube single)、雙立方體(cube double)、場景(scene)、謎題4x4(puzzle 4x4),包括20個基于狀態的任務和4個基于圖像的任務,用于評估我們的算法。

作者介紹

圖片

圖片

Chongyi Zheng是普林斯頓大學計算機科學系的博士生。

他的研究興趣是通過概率推理方法,開發具備長時序推理能力的強化學習(RL)算法。

此前,他在卡耐基梅隆大學攻讀碩士學位。

2020年,他本科畢業于西南大學;之后,在清華大學工作過。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-06-30 02:25:00

2020-04-15 16:44:38

谷歌強化學習算法

2022-11-02 14:02:02

強化學習訓練

2025-06-13 09:29:51

2025-06-11 14:45:57

強化學習訓練模型

2025-03-24 10:15:00

2025-05-26 09:16:00

2025-06-09 09:32:35

2025-06-05 08:40:00

2025-06-27 15:44:35

蘋果AI模型

2021-11-16 15:26:23

強化學習火箭人工智能

2024-10-06 12:32:42

2019-01-31 10:42:04

框架AI開發

2021-12-06 17:38:51

強化學習工具人工智能

2021-07-27 15:55:01

人工智能機器學習技術

2024-09-18 10:37:00

強化學習AI模型

2025-05-12 08:24:01

2024-11-01 13:30:56

2022-11-03 14:13:52

強化學習方法
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 麻豆毛片 | 免费一看一级毛片 | 天堂亚洲网 | 欧美日韩一区在线观看 | 91一区二区 | 国产成在线观看免费视频 | 玩丰满女领导对白露脸hd | 欧美激情一区 | 精品在线一区二区 | av毛片 | 男女午夜激情视频 | 亚洲欧洲精品在线 | 日韩在线不卡 | 国产一区二区三区在线看 | 久久不射网 | 日韩无 | 国产9久| 亚洲国产一区二区三区四区 | 欧美日韩亚洲视频 | 欧美激情综合五月色丁香小说 | 国产国产精品 | 在线视频一区二区 | 一区在线观看 | 亚洲精品在线免费观看视频 | 国产精品久久久久久久久久 | 日韩欧美国产精品综合嫩v 一区中文字幕 | 国产一区二区三区免费观看在线 | 欧洲亚洲视频 | 天天色综网 | 国产一区二区精品在线 | 欧美韩一区二区三区 | 久久精品国产99国产精品 | 伊人网在线看 | 成人在线精品视频 | 玩丰满女领导对白露脸hd | 性欧美xxxx | 国产精品国产成人国产三级 | 成人国产在线视频 | 免费激情网站 | 午夜久久久久久久久久一区二区 | 91不卡|