成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「大模型+強化學習」最新綜述!港中文深圳130余篇論文:詳解四條主流技術路線

人工智能 新聞
用大模型來輔助強化學習,可以提高模型在多任務學習、樣本利用率、任務規劃等復雜任務下的能力,該論文綜述了LLM-enhanced RL領域的最新進展,總結了LLM-enhanced RL的主要技術框架、特性以及四種主要技術路線;并分析了未來該方向的機會與挑戰。

強化學習(RL)通過與環境交互的試錯反饋來優化順序決策問題。

雖然RL在允許大量試錯的復雜電子游戲環境中實現了超越人類的決策能力(例如王者榮耀,Dota 2等),但很難在包含大量自然語言和視覺圖像的現實復雜應用中落地,原因包括但不限于:數據獲取困難樣本利用率低多任務學習能力差泛化性差稀疏獎勵等。

大語言模型(LLM),通過在海量數據集上的訓練,展現了超強的多任務學習通用世界知識目標規劃以及推理能力。以ChatGPT為代表的LLM已經被廣泛應用到各種現實領域中,包括但不限于:機器人、醫療、教育、法律等。

在此背景下,LLM可以提高強化學習在例如多任務學習、樣本利用率、任務規劃等方面的能力,幫助提高強化學習在復雜應用下的學習表現,例如自然語言指令跟隨、談判、自動駕駛等。

為此,來自香港中文大學(深圳)的團隊調研了130余篇大語言模型及視覺-語言模型(VLM)在輔助強化學習(LLM-enhanced RL)方面的最新研究進展,形成了該領域的綜述文章一篇,目前以預印版形式上傳到arXiv網站,期望能為各位研究人員和工程人員提供一定的技術參考。

論文鏈接:https://arxiv.org/abs/2404.00282

該綜述總結了LLM-enhanced RL的主要技術框架、特性以及四種主要技術路線;并分析了未來該方向的機會與挑戰。

下面針對文章主要內容概括介紹,詳細內容請參閱英文綜述論文。

LLM-enhanced RL 框架

LLM-enhanced RL 定義:指利用已預訓練內含知識(knowledge-inherent)的AI模型的多模態(multi-modal)信息處理生成推理等能力來輔助RL范式的各種方法。

主要特性(Characteristics):

1. 多模態信息理解(multi-modal information understanding)

2. 多任務學習和泛化(multi-task learning and generalization)

3. 樣本利用率的提高(improved sample efficiency)

4. 長期軌跡規劃能力(long-horizon handling)

5. 獎勵信號生成能力(reward signal generation)

LLM的主要角色分類

1. 信息處理者(information processor):包括1)文字和視覺表征提取;2)復雜自然語言翻譯。

2. 獎勵設計者(reward designer):即隱式獎勵模型與顯式獎勵模型(獎勵函數代碼生成)。

3. 決策者(decision-maker):包含直接決策與間接輔助決策兩種。

4. 生成者(generator):即1)世界模型中的軌跡生成和2)強化學習中的策略(行為)解釋生成。

LLM 作為信息處理者(LLM as Information Processor)

在富含文字和視覺信息的環境中,深度強化學習(deep RL)通常需要同時學習多模態的信息處理和決策控制策略,因此學習效率大幅下降。且不規范多變的自然語言和視覺信息往往會對代理學習產生大量干擾

圖片

LLM在此情況下可以(1)有效表征提取,加速下游神經網絡學習;(2)自然語言翻譯,將不規范、冗余復雜的自然語言指令和環境信息翻譯為規范的任務語言,幫助代理過濾無效信息。

LLM 作為獎勵設計者(LLM as Reward Designer)

獎勵函數設計和有效獎勵信號生成一直是強化學習在復雜任務或者稀疏獎勵環境下的兩大難題。

圖片

大模型可以通過以下兩種方式緩解該問題

1. 隱式獎勵函數設計:利用上下文理解能力、推理能力和知識,通過任務prompt或文字-視覺對齊的方式生成獎勵。

2. 顯式獎勵函數設計:通過輸入環境規范信息,LLM生成可執行獎勵函數代碼(例如 Python 等),顯式地邏輯計算獎勵函數的各個部分,且可以根據評估自主修正。

LLM 作為決策者(LLM as Decision-Maker)

圖片

在決策問題中,大模型可以作為:

1. 直接決策者:Decision Transformer在離線強化學習中展現了巨大的潛力,大語言模型可視作增強版的大型預訓練Transformer模型,利用本身強大的時序建模能力和自然語言理解能力解決離線強化學習的長期決策問題。

2. 間接決策者:作為一個指導者,結合預訓練專家知識和任務理解能力,生成動作候選(action candidates),縮小動作選擇范圍;或者生成參考策略(reference policy)指導RL策略更新。

LLM 作為生成者(LLM as Generator)

在基于模型的強化學習(model-based RL)中,LLM可以作為多模態世界模型(world model),結合自身知識和建模能力來生成高質量長期軌跡或者學習世界狀態轉移表征

圖片

在可解釋強化學習中,大模型可以通過理解軌跡、環境與任務,根據prompt自動生成代理的自然語言行為解釋,增加用戶在調用、調優RL模型時的理解。

討論(Discussion)

LLM-enhanced RL的未來潛在應用包括但不限于:

1. 機器人:利用多模態理解能力和推理能力,LLM-enhanced RL可以提升人-機器的交互效率;幫助機器人理解人類需求邏輯;提高任務決策和規劃能力。

2. 自動駕駛:自動駕駛使用強化學習做復雜動態場景下的決策問題,涉及多傳感器數據與道路規范、行人舉止等。大模型可以幫助強化學習處理多模態信息以及設計綜合獎勵函數,例如安全、效率、乘客舒適度等。

3. 電力系統能量管理:在能量系統中,運營者或者用戶使用強化學習來高效管理多種能力的使用、轉換和存儲等,其中涉及高不確定性的可再生能源。大模型可以幫助設計多目標函數與提高樣本利用效率。

LLM-enhanced方向的潛在機會:

1. 在強化學習方面:目前的工作都集中在通用強化學習,而針對特定強化學習分支的工作較少,包括多代理強化學習、安全強化學習、遷移強化學習和可解釋強化學習等。

2. 在大模型方面:目前的工作大部分僅僅是使用prompt技術,而檢索增強生成(RAG)技術和API、工具調用能力可以顯著提高LLM在特定情況下的表現。

LLM-enhanced RL 的挑戰:

1. 對大模型的能力依賴:大模型的能力決定了強化學習代理學習到的策略,大模型固有的偏見、幻覺等問題也會影響代理的能力。

2. 交互效率:目前大模型的計算開銷較大、交互效率慢,在在線強化學習中會影響代理與環境的交互速度。

3. 道德、倫理問題:實際人-機器的應用中,大模型的道德、倫理等問題需要被認真考慮。

總結

該綜述文章系統總結了大模型在輔助強化學習方面的最近研究進展,定義了LLM-enhanced RL這樣一類方法,并總結了大模型在其中的四種主要角色及其方法,最后討論了未來的潛在應用、機會與挑戰,希望能給未來該方向的研究者一定啟發。

1. 信息處理者:大模型為強化學習代理提取觀測表征和規范語言,提高樣本利用效率。

2. 獎勵設計者:在復雜或無法量化的任務中,大模型利用知識和推理能力設計復雜獎勵函數和生成獎勵信號。

3. 決策者:大模型直接生成動作或間接生成動作建議,提高強化學習探索效率。

4. 生成者:大模型被用于:(1)作為高保真多模態世界模型減少現實世界學習成本及(2)生成代理行為的自然語言解釋。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-09-10 15:10:00

智能強化學習框架

2024-11-29 18:37:07

2023-08-28 06:52:29

2021-11-10 15:03:17

深度學習算法人工智能

2024-10-12 17:14:12

2020-12-23 06:07:54

人工智能AI深度學習

2025-02-17 10:40:20

2017-02-27 11:36:31

阿里

2025-05-14 09:15:00

2024-03-11 00:20:00

模型論文

2023-10-07 13:17:44

2025-06-09 09:32:35

2022-04-11 15:30:48

深度學習數據分析

2023-05-05 13:11:16

2024-09-02 09:12:00

場景管理

2018-02-03 10:28:52

Java技術項目

2022-02-10 15:15:41

人工智能強化學習谷歌

2024-02-22 09:26:33

AI模型

2023-07-31 11:43:17

研究論文

2015-06-09 11:29:18

云計算平臺企業云混合云
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩第一区 | 日韩精品免费视频 | 国产三级在线观看播放 | 人人鲁人人莫人人爱精品 | 成人免费淫片aa视频免费 | 久久综合九九 | 99精品电影 | 浮生影院免费观看中文版 | 成人精品在线观看 | 三区在线观看 | 免费观看一级特黄欧美大片 | 欧美老少妇一级特黄一片 | 国产精品久久久久久久一区二区 | 精品视频久久久久久 | 高清视频一区二区三区 | 免费看国产片在线观看 | 精品二区 | 久久99视频免费观看 | 久久久久久国产精品免费免费狐狸 | 国产一区二区精品在线观看 | 日本一区二区三区视频在线 | 中文字幕一区二区三区日韩精品 | 国产在线高清 | 理论片午午伦夜理片影院 | 亚洲a视频 | 国内精品视频在线观看 | 欧美视频第二页 | 久久国产精品一区二区三区 | 欧美a∨ | av片在线免费看 | 在线观看特色大片免费网站 | 欧美一区精品 | 欧美视频一区二区三区 | 9999久久| 成人国产精品久久 | 欧美区在线 | 成年人视频免费在线观看 | 91国在线 | 亚洲成人一区 | 日韩1区 | 日韩中文久久 |