一篇持續強化學習技術最新綜述
強化學習(RL)是一種用于解決序列決策問題的重要機器學習范式,然而,RL依賴于大量的訓練數據和計算資源,跨任務泛化能力方面的局限性。隨著持續學習(CL)的興起,持續強化學習(CRL)作為一種有前景的研究方向應運而生,旨在通過使智能體能夠持續學習、適應新任務并保留先前獲得的知識,來解決這些局限性。
文章對CRL進行了全面的考察,重點關注其核心概念、挑戰和方法,提出了一種新的CRL方法分類體系,從知識存儲和/或轉移的角度將它們分為四種類型。
一、CRL總覽
A. 定義(Definition)
- CRL的定義:CRL是強化學習(RL)的擴展,強調智能體在動態、多任務環境中持續學習、適應和保留知識的能力。
- 與傳統RL的區別:傳統RL通常專注于單一任務,而CRL強調在任務序列中保持和提升泛化能力。
- 與多任務RL(MTRL)和遷移RL(TRL)的關系:
MTRL:同時處理多個任務,任務集固定且已知。
TRL:將知識從源任務遷移到目標任務,加速目標任務的學習。
CRL:任務通常按順序到達,環境持續變化,目標是積累知識并快速適應新任務。
B. 挑戰(Challenges)
- CRL面臨的主要挑戰:在可塑性(plasticity)、穩定性(stability)和可擴展性(scalability)之間實現三角平衡。
穩定性:避免災難性遺忘,保持對舊任務的性能。
可塑性:學習新任務的能力,以及利用先前知識提高新任務性能的能力。
可擴展性:在資源有限的情況下學習多個任務的能力。
C. 度量標準(Metrics)
- 傳統RL的度量:通常使用累積獎勵或成功率來衡量智能體的性能。
- CRL的度量:
平均性能(Average Performance):智能體在所有已學習任務上的整體性能。
遺忘(Forgetting):智能體在后續訓練后對舊任務性能的下降程度。
轉移(Transfer):智能體利用先前任務知識提高未來任務性能的能力,包括前向轉移和后向轉移。
D. 任務(Tasks)
- 導航任務:在二維狀態空間中使用離散動作集,智能體探索未知環境以到達目標。
- 控制任務:涉及三維狀態空間和離散動作集,智能體使用控制命令達到特定目標狀態。
- 視頻游戲:狀態空間通常為圖像,動作為離散,智能體執行復雜控制以實現目標。
E. 基準測試(Benchmarks)
- CRL基準測試:如CRL Maze、Lifelong Hanabi、Continual World等,這些基準測試在任務數量、任務序列長度和觀察類型等方面有所不同。
F. 場景設置(Scenario Settings)
- CRL場景分類:
終身適應(Lifelong Adaptation):智能體在任務序列上訓練,僅在新任務上評估性能。
非平穩性學習(Non-Stationarity Learning):任務在獎勵函數或轉移函數上有所不同,智能體在所有任務上評估性能。
任務增量學習(Task Incremental Learning):任務在獎勵和轉移函數上顯著不同,智能體在所有任務上評估性能。
任務無關學習(Task-Agnostic Learning):智能體在沒有任務標簽或身份的情況下訓練,需要推斷任務變化。
二、CRL分類
系統地回顧了持續強化學習(CRL)領域的主要方法,并提出了一種新的分類體系,將CRL方法按照所存儲和/或轉移的知識類型分為四大類:基于策略的(Policy-focused)、基于經驗的(Experience-focused)、基于動態的(Dynamic-focused)和基于獎勵的(Reward-focused)方法。
A. 基于策略的方法
這是最主流的一類方法,強調對策略函數或價值函數的存儲與復用,分為三個子類:
1)策略重用(Policy Reuse)
- 保留并重用先前任務的完整策略。
- 常見做法:使用舊策略初始化新策略(如MAXQINIT、ClonEx-SAC)。
- 高級方法:使用任務組合(如布爾代數)實現零樣本泛化(如SOPGOL)。
- 可擴展性較差,但知識遷移能力強。
2)策略分解(Policy Decomposition)
- 將策略分解為共享組件和任務特定組件。
- 方法包括:
因子分解(如PG-ELLA、LPG-FTW)
多頭網絡(如OWL、DaCoRL)
模塊化結構(如SANE、CompoNet)
層次化結構(如H-DRLN、HLifeRL、MPHRL)
- 優點:結構清晰、可擴展性強、適合復雜任務。
3)策略合并(Policy Merging)
- 將多個策略合并為一個模型,節省存儲資源。
- 技術手段包括:
蒸餾(如P&C、DisCoRL)
超網絡(如HN-PPO)
掩碼(如MASKBLC)
正則化(如EWC、Online-EWC、TRAC)
- 優點:節省內存、適合資源受限場景。
B. 基于經驗的方法
強調對歷史經驗的存儲與復用,類似于經驗回放機制,分為兩類:
1)直接回放(Direct Replay)
- 使用經驗緩沖區保存舊任務數據(如CLEAR、CoMPS、3RL)。
- 優點:簡單有效,適合任務邊界明確的場景。
- 缺點:內存消耗大,存在隱私風險。
2)生成回放(Generative Replay)
- 使用生成模型(如VAE、GAN)合成舊任務經驗(如RePR、SLER、S-TRIGGER)。
- 優點:節省內存,適合任務邊界模糊或資源受限場景。
- 缺點:生成質量影響性能。
C. 基于動態的方法(Dynamic-focused Methods)
通過建模環境動態(狀態轉移函數)來適應非平穩環境,分為兩類:
1)直接建模(Direct Modeling)
- 顯式學習環境轉移函數(如MOLe、LLIRL、HyperCRL)。
- 優點:適合需要長期規劃的任務。
- 缺點:建模復雜,計算開銷大。
2)間接建模(Indirect Modeling)
- 使用潛變量或抽象表示推斷環境變化(如LILAC、3RL、Continual-Dreamer)。
- 優點:更靈活,適合任務邊界不明確或動態變化的環境。
- 常與內在獎勵機制結合使用。
D. 基于獎勵的方法(Reward-focused Methods)
通過修改或重塑獎勵函數來促進知識遷移和探索,常見方法包括:
- 獎勵塑形(Reward Shaping):如SR-LLRL、基于時序邏輯的塑形方法。
- 內在獎勵(Intrinsic Rewards):如IML、Reactive Exploration,通過好奇心驅動探索。
- 逆強化學習(IRL):如ELIRL,從專家演示中學習獎勵函數。
- 大模型輔助獎勵設計:如MT-Core,使用大語言模型生成任務相關的內在獎勵。
https://arxiv.org/pdf/2506.21872
A Survey of Continual Reinforcement Learning
本文轉載自??PaperAgent??
