成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用動(dòng)作分塊突破RL極限,伯克利引入模仿學(xué)習(xí),超越離線/在線SOTA

人工智能 新聞
近日,加州大學(xué)伯克利分校的研究者提出了一種名為?Q-chunking?的方法,該方法將動(dòng)作分塊(action chunking)—— 一種在模仿學(xué)習(xí)中取得成功的技術(shù) —— 引入到基于時(shí)序差分(Temporal Difference, TD)的強(qiáng)化學(xué)習(xí)中。

如今,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)在多個(gè)領(lǐng)域已取得顯著成果。

在實(shí)際應(yīng)用中,具有長(zhǎng)時(shí)間跨度和稀疏獎(jiǎng)勵(lì)特征的任務(wù)非常常見(jiàn),而強(qiáng)化學(xué)習(xí)方法在這類(lèi)任務(wù)中的表現(xiàn)仍難令人滿意。

傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在此類(lèi)任務(wù)中的探索能力常常不足,因?yàn)橹挥性趫?zhí)行一系列較長(zhǎng)的動(dòng)作序列后才能獲得獎(jiǎng)勵(lì),這導(dǎo)致合理時(shí)間內(nèi)找到有效策略變得極其困難。

假如將模仿學(xué)習(xí)(Imitation Learning, IL)的思路引入強(qiáng)化學(xué)習(xí)方法,能否改善這一情況呢?

模仿學(xué)習(xí)通過(guò)觀察專家的行為并模仿其策略來(lái)學(xué)習(xí),通常用于強(qiáng)化學(xué)習(xí)的早期階段,尤其是在狀態(tài)空間和動(dòng)作空間巨大且難以設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的場(chǎng)景。

近年來(lái),模仿學(xué)習(xí)不僅在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中取得了進(jìn)展,也開(kāi)始對(duì)大語(yǔ)言模型(LLM)產(chǎn)生一定影響。近日,加州大學(xué)伯克利分校的研究者提出了一種名為 Q-chunking 的方法,該方法將動(dòng)作分塊(action chunking)—— 一種在模仿學(xué)習(xí)中取得成功的技術(shù) —— 引入到基于時(shí)序差分(Temporal Difference, TD)的強(qiáng)化學(xué)習(xí)中。

該方法主要解決兩個(gè)核心問(wèn)題:一是通過(guò)時(shí)間上連貫的動(dòng)作序列提升探索效率;二是在避免傳統(tǒng) n 步回報(bào)引入偏差的前提下,實(shí)現(xiàn)更快速的值傳播。

image.png

  • 論文標(biāo)題:Reinforcement Learning with Action Chunking
  • 論文地址:https://www.alphaxiv.org/overview/2507.07969v1
  • 代碼地址:https://github.com/ColinQiyangLi/qc

如下圖 1 左所示,Q-chunking(1)使用動(dòng)作分塊來(lái)實(shí)現(xiàn)快速的價(jià)值回傳,(2)通過(guò)時(shí)間連貫的動(dòng)作進(jìn)行有效探索。圖 1 右中,本文方法首先在離線數(shù)據(jù)集上進(jìn)行 100 萬(wàn)步的預(yù)訓(xùn)練(灰色部分),然后使用在線數(shù)據(jù)更新,再進(jìn)行另外 100 萬(wàn)步的訓(xùn)練(白色部分)。

image.png

問(wèn)題表述與研究動(dòng)機(jī)

Q-chunking 旨在解決標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法在復(fù)雜操作任務(wù)中存在的關(guān)鍵局限性。

在傳統(tǒng)強(qiáng)化學(xué)習(xí)中,智能體在每一個(gè)時(shí)間步上逐一選擇動(dòng)作,這常常導(dǎo)致探索策略效率低下,表現(xiàn)為抖動(dòng)、時(shí)間不連貫的動(dòng)作序列。這一問(wèn)題在稀疏獎(jiǎng)勵(lì)環(huán)境中尤為嚴(yán)重 —— 在此類(lèi)環(huán)境中,智能體必須執(zhí)行較長(zhǎng)的、協(xié)調(diào)一致的動(dòng)作序列才能獲得有效反饋。

研究者提出了一個(gè)關(guān)鍵見(jiàn)解:盡管馬爾可夫決策過(guò)程中的最優(yōu)策略本質(zhì)上是馬爾可夫性的,但探索過(guò)程卻可以從非馬爾可夫性、時(shí)間上擴(kuò)展的動(dòng)作中顯著受益。這一觀察促使他們將「動(dòng)作分塊」這一原本主要用于模仿學(xué)習(xí)的策略引入到時(shí)序差分學(xué)習(xí)中。

該方法特別面向離線到在線的強(qiáng)化學(xué)習(xí)場(chǎng)景(offline-to-online RL),即智能體先從預(yù)先收集的數(shù)據(jù)集中進(jìn)行學(xué)習(xí),再通過(guò)在線交互進(jìn)行微調(diào)。這一設(shè)定在機(jī)器人應(yīng)用中尤為重要,因?yàn)樵诰€數(shù)據(jù)采集成本高且可能存在安全風(fēng)險(xiǎn)。

方法概覽

Q-chunking 將標(biāo)準(zhǔn)的 Q-learning 擴(kuò)展至?xí)r間擴(kuò)展的動(dòng)作空間,使策略不再僅預(yù)測(cè)單一步驟的動(dòng)作,而是預(yù)測(cè)連續(xù) h 步的動(dòng)作序列。該方法主要包含兩個(gè)核心組成部分:

擴(kuò)展動(dòng)作空間學(xué)習(xí)

傳統(tǒng)方法學(xué)習(xí)的是針對(duì)單步動(dòng)作的策略 π(a? | s?) 和 Q 函數(shù) Q (s?, a?),而 Q-chunking 學(xué)習(xí)的是:

* 塊狀策略(Chunked Policy):π_ψ(a?:??? | s?)

* 塊狀 Q 函數(shù)(Chunked Q-function):Q_θ(s?, a?:???)

核心創(chuàng)新體現(xiàn)在時(shí)間差分損失(TD loss)的構(gòu)造上。塊狀 Q 函數(shù)的更新方式如下:

image.png

該形式實(shí)現(xiàn)了無(wú)偏的 h 步的值傳播,因?yàn)?Q 函數(shù)以整個(gè)動(dòng)作序列作為輸入,從而消除了傳統(tǒng) n 步回報(bào)中存在的離策略偏差(off-policy bias)。

行為約束

為了保證時(shí)間上的連貫性探索,并有效利用離線數(shù)據(jù),Q-chunking 在擴(kuò)展動(dòng)作空間中對(duì)學(xué)習(xí)到的策略施加了行為約束,使其保持接近離線數(shù)據(jù)分布。該約束表達(dá)如下:

image.png

其中,D 表示一種距離度量方法,π_β 是來(lái)自離線數(shù)據(jù)集的行為策略。

算法實(shí)現(xiàn)

研究者展示了Q-chunking框架的兩種實(shí)現(xiàn)方式:

QC(帶有隱式 KL 約束的 Q-chunking)

該分支通過(guò)「從 N 個(gè)中選擇最優(yōu)」(best-of-N)的采樣策略,隱式地施加 KL 散度約束。其方法如下:

1. 在離線數(shù)據(jù)上訓(xùn)練一個(gè)流匹配行為策略 f_ξ(?|s)

2. 對(duì)于每個(gè)狀態(tài),從該策略中采樣 N 個(gè)動(dòng)作序列(action chunks)

3. 選擇具有最大 Q 值的動(dòng)作序列:a* = arg max_i Q (s, a_i)

4. 使用該動(dòng)作序列進(jìn)行環(huán)境交互與 TD 更新

QC-FQL(帶有 2-Wasserstein 距離約束的 Q-chunking)

該實(shí)現(xiàn)基于 FQL(Flow Q-learning)框架:

1. 保持一個(gè)獨(dú)立的噪聲條件策略 μ_ψ(s, z)

2. 訓(xùn)練該策略以最大化 Q 值,并通過(guò)正則項(xiàng)使其靠近行為策略

3. 使用一種蒸餾損失函數(shù),對(duì)平方的 2-Wasserstein 距離進(jìn)行上界估計(jì)

4. 引入正則化參數(shù) α 來(lái)控制約束強(qiáng)度

實(shí)驗(yàn)設(shè)置及結(jié)果

關(guān)于實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集,研究者首先考慮 6 個(gè)稀疏獎(jiǎng)勵(lì)的機(jī)器人操作任務(wù)域,任務(wù)難度各不相同,包括如下:

來(lái)自 OGBench 基準(zhǔn)的 5 個(gè)任務(wù)域:scene-sparse、puzzle-3x3-sparse,以及 cube-double、cube-triple 和 cube-quadruple,每個(gè)任務(wù)域包含 5 個(gè)任務(wù);來(lái)自 robomimic 基準(zhǔn)中的 3 個(gè)任務(wù)。

對(duì)于 OGBench,研究者使用默認(rèn)的「play-style」數(shù)據(jù)集,唯獨(dú)在 cube-quadruple 任務(wù)中,使用了一個(gè)規(guī)模為 1 億大小的數(shù)據(jù)集。

關(guān)于基線方法比較,研究者主要使用了以加速「價(jià)值回傳」為目標(biāo)的已有方法,以及此前表現(xiàn)最好的「離線到在線」強(qiáng)化學(xué)習(xí)方法,包括 BFN(best-of-N)、FQL、BFN-n / FQL-n 以及 LPD、RLPD-AC。

下圖 3 中展示了 Q-chunking 與基線方法在 5 個(gè) OGBench 任務(wù)域上的整體性能表現(xiàn),下圖 4 中展示了在 3 個(gè) robomimic 任務(wù)上的單獨(dú)性能表現(xiàn)。其中在離線階段(圖中為灰色),QC 表現(xiàn)出具有競(jìng)爭(zhēng)力的性能,通常可以比肩甚至有時(shí)超越了以往最優(yōu)方法。而在在線階段(圖中為白色),QC 表現(xiàn)出極高的樣本效率,尤其是在 2 個(gè)最難的 OGBench 任務(wù)域(cube-triple 和 quadruple)中,其性能遠(yuǎn)超以往所有方法(特別是 cube-quadruple 任務(wù))。

image.png

image.png

下圖 5 為消融實(shí)驗(yàn),比較了 QC 與其變體 QC-FQL、以及 2 種 n 步回報(bào)的基線方法(BFN-n 和 FQL-n)。這些 n 步回報(bào)基線方法沒(méi)有利用時(shí)間擴(kuò)展的 critic 或 policy,因此其性能顯著低于 QC 和 QC-FQL。實(shí)際上,它們的表現(xiàn)甚至常常不如 1 步回報(bào)的基線方法 BFN 和 FQL,這進(jìn)一步突顯了在時(shí)間擴(kuò)展動(dòng)作空間中進(jìn)行學(xué)習(xí)的重要性。

image.png

接下來(lái)探討的問(wèn)題是:為什么動(dòng)作分塊有助于探索?研究者在前文提出了一個(gè)假設(shè):動(dòng)作分塊策略能夠生成在時(shí)間上更連貫的動(dòng)作,從而帶來(lái)更好的狀態(tài)覆蓋和探索效果。

為了進(jìn)行實(shí)證,他們首先可視化了訓(xùn)練早期 QC 與 BFN 的末端執(zhí)行器運(yùn)動(dòng)軌跡,具體如下圖 7 所示。可以看到,BFN 的軌跡中存在大量停頓(在圖像中心區(qū)域形成了一個(gè)大而密集的簇),特別是在末端執(zhí)行器下壓準(zhǔn)備抓取方塊時(shí)。而 QC 的軌跡中則明顯停頓較少(形成的簇更少且更淺),并且其在末端執(zhí)行器空間中的狀態(tài)覆蓋更加多樣化。

為了對(duì)動(dòng)作的時(shí)間連貫性進(jìn)行定量評(píng)估,研究者在訓(xùn)練過(guò)程中每 5 個(gè)時(shí)間步記錄一次 3D 末端執(zhí)行器位置,并計(jì)算相鄰兩次位置差向量的平均 L2 范數(shù)。如果存在較多停頓或抖動(dòng)動(dòng)作,該平均范數(shù)會(huì)變得較小,因此可以作為衡量動(dòng)作時(shí)間連貫性的有效指標(biāo)。

正如圖 7(右)所示,在整個(gè)訓(xùn)練過(guò)程中,QC 的動(dòng)作時(shí)間連貫性明顯高于 BFN。這一發(fā)現(xiàn)表明,QC 能夠提高動(dòng)作的時(shí)間連貫性,從而解釋了其更高的樣本效率。

image.png

更多細(xì)節(jié)內(nèi)容請(qǐng)參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2018-10-09 14:00:41

SQL深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2025-05-06 15:31:55

智能模型AI

2025-07-07 13:50:56

AI編程算法

2025-01-22 15:21:00

2024-03-26 15:43:00

訓(xùn)練數(shù)據(jù)機(jī)器人

2024-08-19 14:05:00

2024-01-29 13:03:00

框架3DHM視頻

2023-08-15 14:18:19

智能研究

2021-11-29 16:12:38

AI數(shù)據(jù)強(qiáng)化學(xué)習(xí)

2025-07-02 08:40:00

智能體AI模型

2022-03-28 13:25:42

AI扶貧機(jī)器之心

2025-02-17 09:33:00

AI算法模型

2023-06-21 13:20:14

系統(tǒng)模型

2024-11-29 09:18:01

2024-09-25 09:37:16

2017-04-25 10:44:02

網(wǎng)利寶

2021-01-04 09:18:36

機(jī)器人人工智能系統(tǒng)

2023-09-25 12:42:00

AI數(shù)據(jù)

2025-02-14 09:20:00

模型數(shù)據(jù)訓(xùn)練

2025-04-18 08:47:22

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品av久久久久电影 | 成人免费视频观看视频 | 午夜在线 | 日日天天 | 久综合| 我想看国产一级毛片 | 亚洲人成一区二区三区性色 | 一区二区三区四区视频 | 在线日韩视频 | 日韩在线精品强乱中文字幕 | 一级毛片视频在线 | 91在线一区 | 中文字幕第十页 | 女同久久另类99精品国产 | 一区二区免费在线观看 | 久久成人人人人精品欧 | 日本免费一区二区三区 | 亚洲欧美一区二区三区情侣bbw | 色橹橹欧美在线观看视频高清 | 91中文字幕在线观看 | 成人av观看 | 欧美性受xxxx | 国产九九九九 | 国产精品久久久久久久午夜片 | 国产精品欧美日韩 | 91视频网 | 99久热在线精品视频观看 | 国产精品日本一区二区在线播放 | 亚洲精品乱码8久久久久久日本 | 色片在线观看 | 久久性| 日韩在线视频精品 | 欧美成人激情 | 国产亚洲精品美女久久久久久久久久 | 91精品中文字幕一区二区三区 | 亚洲精品久久久久久久久久久 | 免费午夜视频 | 亚洲国产69 | 91精品国产乱码久久久久久久 | 精品无码久久久久久国产 | 国产精品视频在线播放 |