大神Aviral Kumar：價值學(xué)習(xí)真的是離線 RL 的主要瓶頸嗎？原創(chuàng)

AIGC最前線

發(fā)布于 2024-6-18 12:40

瀏覽

0收藏

大神Aviral Kumar：價值學(xué)習(xí)真的是離線 RL 的主要瓶頸嗎？-AI.x社區(qū)

動機

離線強化學(xué)習(xí) (RL) 和模仿學(xué)習(xí)之間的主要區(qū)別在于使用價值函數(shù)，并且離線 RL 中的大多數(shù)先前工作都側(cè)重于使用更好的技術(shù)學(xué)習(xí)更好的價值函數(shù)。
所以價值函數(shù)學(xué)習(xí)是離線 RL 的主要瓶頸……對嗎？
在這項工作中，研究人員表明，實踐中情況往往并非如此！

分析離線強化學(xué)習(xí)的瓶頸

這項工作的主要目標(biāo)是了解離線 RL 的性能在實踐中如何受到瓶頸限制。

離線 RL 有三個潛在瓶頸：

（B1 ）數(shù)據(jù)價值評估不完善
（B2）從學(xué)習(xí)到的價值函數(shù)中提取不完善的策略
（B3）測試時策略泛化不完善，表明策略在評估期間訪問

請注意，離線 RL 算法的瓶頸總是可以歸因于這些因素中的一個或幾個，因為如果所有因素都完美，代理將獲得最佳性能。因此需要做的就是分別剖析這些組件！

主要假設(shè)

首先陳述本項研究的主要研究假設(shè)：

“離線 RL 的主要瓶頸是策略學(xué)習(xí)，而不是價值學(xué)習(xí)。”

換句話說，盡管價值學(xué)習(xí)當(dāng)然很重要，如何從價值函數(shù)（B2 ）中提取策略以及策略如何很好地推廣到它在評估時訪問的狀態(tài)（B3）通常是顯著影響許多問題中的性能和可擴(kuò)展性的主要因素。

為了驗證這一假設(shè)，在本文中進(jìn)行了兩項主要分析：在第一次分析中，比較了價值學(xué)習(xí)和策略提取（B1和B2）；在第二次分析中，分析了策略泛化的效果（B3）。

長話短說

這是本文分析的簡要內(nèi)容 ??：

（1）策略提取通常比價值學(xué)習(xí)更重要：不要使用加權(quán)行為克隆（AWR）；始終使用行為約束策略梯度（DDPG + BC）。
（2）測試時間策略泛化是離線 RL 中最顯著的瓶頸之一：當(dāng)前的離線 RL 通常已經(jīng)擅長在數(shù)據(jù)集狀態(tài)下學(xué)習(xí)有效策略，而性能通常僅僅由其在分布外狀態(tài)下的性能決定。

分析1：是價值還是政策？（B1和B2）

價值學(xué)習(xí)還是策略提取哪個更重要？
為了回答這個問題，研究人員使用不同數(shù)量的數(shù)據(jù)運行不同的算法進(jìn)行價值函數(shù)訓(xùn)練和策略提取，并繪制數(shù)據(jù)縮放矩陣來可視化結(jié)果。
這說明（1）性能的瓶頸在于價值還是策略；（2）各種價值學(xué)習(xí)和策略提取算法之間的性能差異。
為了清楚地剖析價值學(xué)習(xí)和策略提取，在本研究中重點關(guān)注具有解耦價值和策略學(xué)習(xí)階段的離線 RL 方法（例如IQL、一步式 RL、CRL 等）。這聽起來可能有點限制性，但即使在這些解耦方法中，策略學(xué)習(xí)通常也是主要瓶頸！

分析設(shè)置

在本分析中考慮以下算法和環(huán)境。

三種價值學(xué)習(xí)算法：

（1）隱式 Q 學(xué)習(xí)（IQL）
（2）一步 RL（SARSA）
（3）對比 RL（CRL）。

三種策略提取算法：

（1）加權(quán)行為克隆（例如AWR、RWR、AWAC 等）
（2）行為約束策略梯度（例如DDPG+BC、TD3+BC 等）
(3) 基于采樣的動作選擇（例如，SfBC，BCQ，IDQL 等）

八項任務(wù)（包括目標(biāo)條件（“ gc- ”）和基于像素的任務(wù)！）：

（1） gc-antmaze-large
（2） antmaze-large
（3） d4rl-hopper
（4） d4rl-walker2d
（5） exorl-walker
（6） exorl-cheetah
（7） kitchen
（8）（基于像素的）gc-roboverse。

結(jié)果

大神Aviral Kumar：價值學(xué)習(xí)真的是離線 RL 的主要瓶頸嗎？-AI.x社區(qū)

顯示全部結(jié)果

上圖顯示了數(shù)據(jù)縮放矩陣。重點介紹了exorl-walker和exorl-cheetah上的結(jié)果。單擊上面的按鈕可查看八個任務(wù)的完整數(shù)據(jù)縮放矩陣，這些矩陣是從總共 7744 次運行中匯總而來的。為每個矩陣條目單獨調(diào)整了策略提取超參數(shù)。
通過查看顏色漸變，可以看到每個算法的性能如何隨著更多數(shù)據(jù)的增加而擴(kuò)展以及/或者如何出現(xiàn)瓶頸。下面，重點介紹一些關(guān)鍵觀察結(jié)果。
首先，可以看到，策略提取算法通常對性能和數(shù)據(jù)擴(kuò)展趨勢的影響遠(yuǎn)遠(yuǎn)大于一般的價值學(xué)習(xí)目標(biāo)（也許除了antmaze-large），即使它們從相同的價值函數(shù)中提取策略！
在策略提取算法中，可以發(fā)現(xiàn)DDPG+BC 幾乎總是全面實現(xiàn)最佳性能和擴(kuò)展行為，其次是 SfBC，而 AWR 的性能在許多情況下明顯落后于其他兩種。
還可以看到，AWR 的數(shù)據(jù)縮放矩陣總是具有垂直或?qū)蔷€的顏色漸變，這表明它沒有充分利用價值函數(shù)（請參閱下文以獲得更明顯的證據(jù)）。

分析2：策略泛化（B3）

現(xiàn)在，將注意力轉(zhuǎn)向離線 RL 中的第三個獨特瓶頸：策略泛化。
在離線 RL 中，代理在測試時會遇到新的、可能超出分布的狀態(tài)，而它對這些新狀態(tài)的推廣程度會直接影響性能。

分析設(shè)置

為了理解這個泛化瓶頸，首先定義三個量化策略準(zhǔn)確性的關(guān)鍵指標(biāo)：

大神Aviral Kumar：價值學(xué)習(xí)真的是離線 RL 的主要瓶頸嗎？-AI.x社區(qū)

直觀地講，這些指標(biāo)衡量了該策略在三種不同分布上的準(zhǔn)確度。
也許你已經(jīng)熟悉訓(xùn)練 MSE和驗證 MSE。但還有另一個指標(biāo)：評估 MSE，它看起來可能與驗證 MSE 相似，但實際上非常不同。
驗證 MSE 和評估 MSE 之間的關(guān)鍵區(qū)別在于，驗證 MSE 衡量的是分布內(nèi)的策略準(zhǔn)確率，而評估 MSE 衡量的是分布外的策略準(zhǔn)確率（見上圖）。評估 MSE 恰好對應(yīng)于要測量的泛化瓶頸。
為了了解這些數(shù)量與性能之間的關(guān)系，觀察了這些指標(biāo)和性能如何隨著額外的在線交互數(shù)據(jù)而發(fā)展（通常稱為離線到在線 RL設(shè)置）。

結(jié)果

大神Aviral Kumar：價值學(xué)習(xí)真的是離線 RL 的主要瓶頸嗎？-AI.x社區(qū)

上圖顯示了回報和 MSE 指標(biāo)如何隨著更多在線互動數(shù)據(jù)而改善。用紅色表示在線訓(xùn)練步驟。
結(jié)果非常令人驚訝！可以看到：（1）離線到在線 RL 大多只會改善評估 MSE，而驗證 MSE 和訓(xùn)練 MSE 通常保持完全平坦；（2）離線 RL 的性能與評估 MSE指標(biāo)呈非常強（負(fù)）相關(guān)性。
這是什么意思？這意味著當(dāng)前的離線 RL 算法可能已經(jīng)足夠擅長在離線數(shù)據(jù)集覆蓋的狀態(tài)分布中學(xué)習(xí)最佳策略，并且性能通常僅由代理在測試時遇到的新狀態(tài)的策略準(zhǔn)確性決定！
這為離線 RL 中的泛化提供了一個新的視角，這與之前對悲觀主義和行為正則化的關(guān)注有些不同。
那么，如何才能提高測試時策略的泛化能力呢？不幸的是，這在原則上非常困難，因為它需要泛化到一個可能完全不同的分布。盡管如此，如果稍微放寬假設(shè)，就可以解決這個問題，在本文中提出了兩種這樣的解決方案。

解決方案 1：提高離線數(shù)據(jù)覆蓋率

大神Aviral Kumar：價值學(xué)習(xí)真的是離線 RL 的主要瓶頸嗎？-AI.x社區(qū)

第一個解決方案是使用高覆蓋率的數(shù)據(jù)集。
理由很簡單：如果測試時間分布外的泛化是瓶頸，可以簡單地使用更多數(shù)據(jù)使測試時間狀態(tài)分布內(nèi)（當(dāng)然，當(dāng)可以收集更多數(shù)據(jù)時??）！
在上面的圖中，盡管高覆蓋率數(shù)據(jù)集的次優(yōu)性有所增加，但它們確實提高了性能。另外，請注意，在這種情況下，使用正確的策略提取目標(biāo) (DDPG+BC) 也很重要！

解決方案 2：測試時策略改進(jìn)

如果無法控制數(shù)據(jù)，那么提高測試時間策略準(zhǔn)確性的另一種方法就是在測試時間狀態(tài)下即時訓(xùn)練或指導(dǎo)策略。
為此，在論文中提出了一種非常簡單的方法，稱為即時策略提取（OPEX）。關(guān)鍵思想是在評估時簡單地按照價值梯度的方向調(diào)整策略動作。
具體來說，在測試時從策略?
中采樣一個動作后，會根據(jù)凍結(jié)的學(xué)習(xí)到的 Q 函數(shù)進(jìn)一步調(diào)整該動作，公式如下。

其中

是與測試時“學(xué)習(xí)率”相對應(yīng)的超參數(shù)。

OPEX 在評估時只需要一行額外的代碼，并且根本不會改變訓(xùn)練程序！
在本文中，研究人員提出了另一種方法，即測試時訓(xùn)練（TTT），它在測試時推出期間進(jìn)一步更新策略參數(shù)。
這些即時策略改進(jìn)技術(shù)通過緩解測試時間策略泛化瓶頸，提高了各種任務(wù)的性能。

大神Aviral Kumar：價值學(xué)習(xí)真的是離線 RL 的主要瓶頸嗎？-AI.x社區(qū)

要點：測試時策略泛化是離線強化學(xué)習(xí)中最顯著的瓶頸之一。使用高覆蓋率數(shù)據(jù)集。使用即時策略改進(jìn)技術(shù)提高測試時狀態(tài)下的策略準(zhǔn)確性。

那么，這說明了什么？

與之前認(rèn)為價值學(xué)習(xí)是離線 RL 的主要瓶頸的觀點有些相反，當(dāng)前的離線 RL 方法通常嚴(yán)重受限于從價值函數(shù)中提取策略的準(zhǔn)確性以及該策略推廣到測試時間狀態(tài)的準(zhǔn)確性。
對于實踐者來說，分析表明離線 RL 有一個明確的方案：在盡可能多樣化的數(shù)據(jù)上訓(xùn)練價值函數(shù)，并允許策略最大限度地利用價值函數(shù)，并采用最佳策略提取目標(biāo)（例如DDPG+BC）和/或潛在的測試時間策略改進(jìn)策略。
對于未來的算法研究，強調(diào)離線 RL 中的兩個重要開放問題：（1）從學(xué)習(xí)到的價值函數(shù)中提取策略的最佳方法是什么？有沒有比 DDPG+BC 更好的方法？（2）如何訓(xùn)練策略，使其在測試時間狀態(tài)下具有很好的泛化能力？
第二個問題特別有趣，因為它提出了與離線 RL 中普遍存在的悲觀主義主題截然相反的觀點，其中只有少數(shù)作品明確旨在解決離線 RL 的這種泛化方面！

譯自（有刪改）：https://seohong.me/projects/offrl-bottlenecks/

本文轉(zhuǎn)載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/CIRqxjZld3xSyu980YT9JA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

離線 RL

價值學(xué)習(xí)

贊

回復(fù)