擴散模型如何構建新一代決策智能體?超越自回歸,同時生成長序列規劃軌跡
設想一下,當你站在房間內,準備向門口走去,你是通過自回歸的方式逐步規劃路徑嗎?實際上,你的路徑是一次性整體生成的。
近期的研究表明,采用擴散模型的規劃模塊能夠同時生成長序列的軌跡規劃,這更加符合人類的決策模式。此外,擴散模型在策略表征和數據合成方面也能為現有的決策智能算法提供更優的選擇。
來自上海交通大學的團隊撰寫的綜述論文《Diffusion Models for Reinforcement Learning: A Survey》梳理了擴散模型在強化學習相關領域的應用。綜述指出現有強化學習算法面臨長序列規劃誤差累積、策略表達能力受限、交互數據不足等挑戰,而擴散模型已經展現出解決強化學習問題中的優勢,并為應對上述長期以來的挑戰帶來新的思路。
論文鏈接:https://arxiv.org/abs/2311.01223
項目地址:https://github.com/apexrl/Diff4RLSurvey
該綜述根據擴散模型在強化學習中扮演的角色對現有工作進行分類,并列舉了不同強化學習相關場景下擴散模型的成功案例。綜述最后對用擴散模型解決強化學習問題的領域提出未來發展方向的展望。
圖 1:擴散模型在經典的智能體 - 環境 - 經驗回放池循環中與以往解決方案相比起到不同作用的示意圖。
擴散模型在強化學習中扮演的角色
文章根據擴散模型在強化學習中扮演角色的不同,分類比較了擴散模型的應用方式和特點。
圖 2:擴散模型在強化學習中扮演的不同角色。
軌跡規劃
強化學習中的規劃指通過使用動態模型在想象中做決策,再選擇最大化累積獎勵的適當動作。規劃的過程通常會探索各種動作和狀態的序列,從而提升決策的長期效果。在基于模型的強化學習(MBRL)框架中,規劃序列通常以自回歸方式進行模擬,導致累積誤差。擴散模型可以同時生成多步規劃序列。現有文章用擴散模型生成的目標非常多樣,包括 (s,a,r)、(s,a)、僅有 s、僅有 a 等等。為了在在線評估時生成高獎勵的軌跡,許多工作使用了有分類器或無分類器的引導采樣技術。
策略表征
擴散規劃器更近似傳統強化學習中的 MBRL,與之相對,將擴散模型作為策略更類似于無模型強化學習。Diffusion-QL 首先將擴散策略與 Q 學習框架結合。由于擴散模型擬合多模態分布的能力遠超傳統模型,擴散策略在由多個行為策略采樣的多模態數據集中表現良好。擴散策略與普通策略相同,通常以狀態作為條件生成動作,同時考慮最大化 Q (s,a) 函數。Diffusion-QL 等方法在擴散模型訓練時加上加權的價值函數項,而 CEP 從能量的視角構造加權回歸目標,用價值函數作為因子,調整擴散模型學到的動作分布。
數據合成
擴散模型可以作為數據合成器,來緩解離線或在線強化學習中數據稀少的問題。傳統強化學習數據增強方法通常只能對原有數據進行小幅擾動,而擴散模型強大的分布擬合能力使其可以直接學習整個數據集的分布,再采樣出新的高質量數據。
其他類型
除了以上幾類,還有一些零散的工作以其他方式使用擴散模型。例如,DVF 利用擴散模型估計值函數。LDCQ 首先將軌跡編碼到隱空間上,再在隱空間上應用擴散模型。PolyGRAD 用擴散模型學習環境動態轉移,允許策略和模型交互來提升策略學習效率。
在不同強化學習相關問題中的應用
離線強化學習
擴散模型的引入有助于離線強化學習策略擬合多模態數據分布并擴展了策略的表征能力。Diffuser 首先提出了基于分類器指導的高獎勵軌跡生成算法并啟發了大量的后續工作。同時,擴散模型也能應用在多任務與多智能體強化學習場景。
圖 3:Diffuser 軌跡生成過程和模型示意圖
在線強化學習
研究者證明擴散模型對在線強化學習中的價值函數、策略也具備優化能力。例如,DIPO 對動作數據重標注并使用擴散模型訓練,使策略避免了基于價值引導訓練的不穩定性;CPQL 則驗證了單步采樣擴散模型作為策略能夠平衡交互時的探索和利用。
模仿學習
模仿學習通過學習專家演示數據來重建專家行為。擴散模型的應用有助于提高策略表征能力以及學習多樣的任務技能。在機器人控制領域,研究發現擴散模型能夠在保持時序穩定性的條件下預測閉環動作序列。Diffusion Policy 采用圖像輸入的擴散模型生成機器人動作序列。實驗表明擴散模型能夠生成有效閉環動作序列,同時保證時序一致性。
圖 4:Diffusion Policy 模型示意圖
軌跡生成
擴散模型在強化學習中的軌跡生成主要聚焦于人類動作生成以及機器人控制兩類任務。擴散模型生成的動作數據或視頻數據被用于構建仿真模擬器或訓練下游決策模型。UniPi 訓練了一個視頻生成擴散模型作為通用策略,通過接入不同的逆動力學模型來得到底層控制命令,實現跨具身的機器人控制。
圖 5:UniPi 決策過程示意圖。
數據增強
擴散模型還可以直接擬合原始數據分布,在保持真實性的前提下提供多樣的動態擴展數據。例如,SynthER 和 MTDiff-s 通過擴散模型生成了訓練任務的完整環境轉移信息并將其應用于策略的提升,且結果顯示生成數據的多樣程度以及準確性都優于歷史方法。
圖 6:MTDiff 進行多任務規劃和數據增強的示意圖
未來展望
生成式仿真環境
如圖 1 所示,現有研究主要利用擴散模型來克服智能體和經驗回放池的局限性,利用擴散模型增強仿真環境的研究比較少。Gen2Sim 利用文生圖擴散模型在模擬環境中生成多樣化的可操作物體來提高機器人精密操作的泛化能力。擴散模型還有可能在仿真環境中生成狀態轉移函數、獎勵函數或多智能體交互中的對手行為。
加入安全約束
通過將安全約束作為模型的采樣條件,基于擴散模型的智能體可以做出滿足特定約束的決策。擴散模型的引導采樣允許通過學習額外的分類器來不斷加入新的安全約束,而原模型的參數保持不變,從而節省額外的訓練開銷。
檢索增強生成
檢索增強生成技術能夠通過訪問外部數據集增強模型能力,在大語言模型上得到廣泛的應用。通過檢索與智能體當前狀態相關的軌跡并輸入到模型中,基于擴散的決策模型在這些狀態下的性能同樣可能得到提升。如果檢索數據集不斷更新,智能體有可能在不重新訓練的情況下表現出新的行為。
組合多種技能
與分類器引導或無分類器引導相結合,擴散模型可以組合多種簡單技能來完成復雜任務。離線強化學習中的早期結果也表明擴散模型可以共享不同技能之間的知識,從而有可能通過組合不同技能實現零樣本遷移或持續學習。
表格
圖 7:相關論文匯總分類表格。