成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

系統(tǒng)回顧深度強化學習預訓練,在線、離線等研究這一篇就夠了

人工智能 新聞
本文中,來自上海交通大學和騰訊的研究者系統(tǒng)地回顧了現(xiàn)有深度強化學習預訓練研究,并提供了這些方法的分類,同時對每個子領域進行了探討。

近年來,強化學習 (RL) 在深度學習的帶動下發(fā)展迅速,從游戲到機器人領域的各種突破,激發(fā)了人們對設計復雜、大規(guī)模 RL 算法和系統(tǒng)的興趣。然而,現(xiàn)有 RL 研究普遍讓智能體在面對新的任務時只能從零開始學習,難以利用預先獲取的先驗知識來輔助決策,導致很大的計算開銷。

而在監(jiān)督學習領域,預訓練范式已經(jīng)被驗證為有效的獲得可遷移先驗知識的方式,通過在大規(guī)模數(shù)據(jù)集上進行預訓練,網(wǎng)絡模型能夠快速適應不同的下游任務上。相似的思路同樣在 RL 中有所嘗試,尤其是近段時間關于 “通才” 智能體 [1, 2] 的研究,讓人不禁思考是否在 RL 領域也能誕生如 GPT-3 [3] 那樣的通用預訓練模型。

然而,預訓練在 RL 領域的應用面臨著諸多挑戰(zhàn),例如上下游任務之間的顯著差異、預訓練數(shù)據(jù)如何高效獲取與利用、先驗知識如何有效遷移等問題都阻礙了預訓練范式在 RL 中的成功應用。同時,過往研究考慮的實驗設定和方法存在很大差異,這令研究者很難在現(xiàn)實場景下設計合適的預訓練模型。

為了梳理預訓練在 RL 領域的發(fā)展以及未來可能的發(fā)展方向,來自上海交通大學和騰訊的研究者撰文綜述,討論現(xiàn)有 RL 預訓練在不同設定下的細分方法和待解決的問題

圖片

論文地址:https://arxiv.org/pdf/2211.03959.pdf

RL 預訓練簡介

強化學習(RL)為順序決策提供了一個通用的數(shù)學形式。通過 RL 算法和深度神經(jīng)網(wǎng)絡,在不同領域的各種應用上實現(xiàn)了以數(shù)據(jù)驅(qū)動的方式、優(yōu)化指定獎勵函數(shù)學習到的智能體取得了超越人類的表現(xiàn)。然而,雖然 RL 已被證明可以有效地解決指定任務,但樣本效率和泛化能力仍然是阻礙 RL 在現(xiàn)實世界應用中的兩大障礙。在 RL 研究中,一個標準的范式是讓智能體從自己或他人收集的經(jīng)驗中學習,針對單一任務,通過隨機初始化來優(yōu)化神經(jīng)網(wǎng)絡。與之相反,對人類來說,世界先驗知識對決策過程有很大的幫助。如果任務與以前看到的任務有關,人類傾向于復用已經(jīng)學到的知識來快速適應新的任務,而不需要從頭開始學習。因此,與人類相比, RL 智能體存在數(shù)據(jù)效率低下問題,而且容易出現(xiàn)過擬合現(xiàn)象。

然而,機器學習其他領域的最新進展積極倡導利用從大規(guī)模預訓練中構建的先驗知識。通過對廣泛的數(shù)據(jù)進行大規(guī)模訓練,大型基礎模型 (foundation models) 可以快速適應各種下游任務。這種預訓練 - 微調(diào)范式在計算機視覺和自然語言處理等領域已被證明有效。然而,預訓練還沒有對 RL 領域產(chǎn)生重大影響。盡管這種方法很有前景,但設計大規(guī)模 RL 預訓練的原則面臨諸多挑戰(zhàn)。1)領域和任務的多樣性;2)有限的數(shù)據(jù)源;3)快速適應解決下游任務的難度。這些因素源于 RL 的內(nèi)在特征,需要研究者加以特別考慮。

預訓練對 RL 有很大的潛力,這項研究可以作為對這一方向感興趣的人的起點。本文中,研究者試圖對現(xiàn)有深度強化學習的預訓練工作進行系統(tǒng)的回顧。

近年來,深度強化學習預訓練經(jīng)歷了幾次突破性進展。首先,基于專家示范的預訓練使用監(jiān)督學習來預測專家所采取的行動,已經(jīng)在 AlphaGo 上得到應用。為了追求更少監(jiān)督的大規(guī)模預訓練,無監(jiān)督 RL 領域發(fā)展迅速,它允許智能體在沒有獎勵信號的情況下從與環(huán)境的互動中學習。此外,離線強化學習 (offline RL) 發(fā)展迅猛,又促使研究人員進一步考慮如何利用無標簽和次優(yōu)的離線數(shù)據(jù)進行預訓練。最后,基于多任務和多模態(tài)數(shù)據(jù)的離線訓練方法進一步為通用的預訓練范式鋪平了道路。

圖片

在線預訓練

以往 RL 的成功都是在密集和設計良好的獎勵函數(shù)下實現(xiàn)的。在諸多領域取得巨大進展的傳統(tǒng) RL 范式,在擴展到大規(guī)模預訓練時面臨兩個關鍵挑戰(zhàn)。首先,RL 智能體很容易過擬合,用復雜的任務獎勵預訓練得到的智能體很難在從未見過的任務上取得很好的性能。此外,設計獎勵函數(shù)通常十分昂貴,需要大量專家知識,這在實際中無疑是個很大的挑戰(zhàn)。

無獎勵信號的在線預訓練可能會成為學習通用先驗知識的可用解決方案,并且是無需人工參與的監(jiān)督信號。在線預訓練旨在在沒有人類監(jiān)督的情況下,通過與環(huán)境的交互來獲得先驗知識。在預訓練階段,智能體被允許與環(huán)境進行長時間的交互,但不能獲得外在獎勵。這種解決方案,也被稱為無監(jiān)督 RL,近年來研究者一直在積極研究。

為了激勵智能體在沒有任何監(jiān)督信號的情況下從環(huán)境中獲取先驗知識,一種成熟的方法是為智能體設計內(nèi)在獎勵 (intrinsic reward) ,鼓勵智能體通過收集多樣的經(jīng)驗或掌握可遷移的技能,相應地設計獎勵機制。先前研究已經(jīng)表明,通過內(nèi)在獎勵和標準 RL 算法進行在線預訓練,智能體能夠快速適應下游任務。

圖片

離線預訓練

盡管在線預訓練在無需人類監(jiān)督的情況下能夠取得很好的預訓練效果,但對于大規(guī)模應用來說,在線預訓練仍然是有限的。畢竟,在線的交互與在大型和多樣化的數(shù)據(jù)集上進行訓練的需求在一定程度上是互斥的。為了解決這個問題,人們往往希望將數(shù)據(jù)收集和預訓練環(huán)節(jié)脫鉤,直接利用從其他智能體或人類收集的歷史數(shù)據(jù)進行預訓練。

一個可行的解決方案是離線強化學習。離線強化學習的目的是從離線數(shù)據(jù)中獲得一個獎勵最大化的 RL 策略。其所面臨的一個基本挑戰(zhàn)是分布偏移問題,即訓練數(shù)據(jù)和測試期間看到的數(shù)據(jù)之間的分布差異。現(xiàn)有的離線強化學習方法關注如何在使用函數(shù)近似時解決這一挑戰(zhàn)。例如,策略約束方法明確要求學到的策略避免采取數(shù)據(jù)集中未見的動作,價值正則化方法則通過將價值函數(shù)擬合到某種形式的下限,緩解了價值函數(shù)的高估問題。然而,離線訓練的策略是否能泛化到離線數(shù)據(jù)集中未見的新環(huán)境中,仍然沒有得到充分的探索。

或許,我們可以避開 RL 策略的學習,而是利用離線數(shù)據(jù)學習有利于下游任務的收斂速度或最終性能的先驗知識。更有趣的是,如果我們的模型能夠在沒有人類監(jiān)督的情況下利用離線數(shù)據(jù),它就有可能從海量的數(shù)據(jù)中獲益。本文中,研究者把這種設定稱為離線預訓練,智能體可以從離線數(shù)據(jù)中提取重要的信息(例如,良好的表征和行為先驗)。

圖片

邁向通用智能體

在單一環(huán)境和單一模態(tài)下的預訓練方法主要集中于以上提到的在線預訓練和離線預訓練設定,而在最近,領域內(nèi)的研究者對建立一個單一的通用決策模型的興趣激增(例如,Gato [1] 和 Multi-game DT [2]),使得同一模型能夠處理不同環(huán)境中不同模態(tài)的任務。為了使智能體能夠從各種開放式任務中學習并適應這些任務,該研究希望能夠利用不同形式的大量先驗知識,如視覺感知和語言理解。更為重要地是,如果研究者能成功地在 RL 和其他領域的機器學習之間架起一座橋梁,將以前的成功經(jīng)驗結合起來,或許可以建立一個能夠完成各種任務的通用智能體模型。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-03-11 22:19:09

深度學習

2021-04-08 07:37:39

隊列數(shù)據(jù)結構算法

2022-06-20 09:01:23

Git插件項目

2020-08-03 10:00:11

前端登錄服務器

2023-04-24 08:00:00

ES集群容器

2022-08-01 11:33:09

用戶分析標簽策略

2019-08-13 15:36:57

限流算法令牌桶

2023-09-11 08:13:03

分布式跟蹤工具

2020-02-18 16:20:03

Redis ANSI C語言日志型

2023-02-10 09:04:27

2020-05-14 16:35:21

Kubernetes網(wǎng)絡策略DNS

2020-07-06 08:06:00

Java模塊系統(tǒng)

2021-06-07 06:25:35

畫流程圖開發(fā)技能

2021-03-03 14:55:10

開發(fā)MySQL代碼

2024-04-10 08:22:44

2020-03-09 17:28:51

NoSQLMongoDB數(shù)據(jù)庫

2023-09-04 08:00:00

開發(fā)Java線程

2022-04-07 10:39:21

反射Java安全

2023-11-18 09:30:42

模型AI

2020-07-03 08:21:57

Java集合框架
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品亚洲永久免费精品 | 一区二区三区四区在线视频 | 激情婷婷| 伊人精品视频 | 欧美区在线| 国产在线对白 | 国产精品一区二区视频 | 亚洲福利视频网 | 视频一区二区在线观看 | 久久91| 久草免费福利 | 操操操日日日 | 亚洲在线高清 | 欧美午夜影院 | 在线成人| 中文在线a在线 | 成人精品视频99在线观看免费 | 日本aa毛片a级毛片免费观看 | 精品在线一区二区 | 色婷婷精品国产一区二区三区 | 在线a视频 | 亚洲精品免费在线观看 | 欧美αv | 精品无码三级在线观看视频 | 欧美成人精品一区二区三区 | 久久成人精品视频 | 中文字幕电影在线观看 | 91久久精品 | 久久久久国产精品一区二区 | 羞羞视频在线观免费观看 | 欧美国产激情二区三区 | 999久久久久久久久6666 | 国产精品久久久久久吹潮 | 国产精品久久久久久久久久久久 | 麻豆久久久 | 天天操天天射天天 | 日本久久视频 | 国产精品国产成人国产三级 | 久久国 | 久久国产精品一区 | 日韩精品久久久 |