成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中科大提出動作價值表征學習新方法,率先填補長期決策信息的缺失

人工智能 新聞
來自中科大的研究人員在信息瓶頸(Information Bottleneck)框架下,提出了一種新穎的魯棒動作價值表征學習方法ROUSER。

在視覺強化學習中,許多方法未考慮序列決策過程,導致所學表征缺乏關鍵的長期信息的空缺被填補上了。

來自中科大的研究人員在信息瓶頸(Information Bottleneck)框架下,提出了一種新穎的魯棒動作價值表征學習方法ROUSER。

作者從理論上證明了ROUSER能夠使用學習到的魯棒表征準確估計動作價值,從而避免了智能體在測試環境中的決策能力遭到削弱。

圖片

具體而言,ROUSER通過最大化表征與動作價值之間的互信息,來保留長期信息;同時,最小化表征與狀態-動作對之間的互信息,以濾除無關特征。

由于動作價值是未知的,ROUSER提出將狀態-動作對的魯棒表征分解為單步獎勵和下一狀態-動作對的魯棒表征。

實驗結果表明,在包括背景干擾與顏色干擾的12項任務中,ROUSER于其中的11項任務上優于多種當前的先進方法。

傳統方法難以捕捉關鍵長期信息

視覺強化學習中的泛化問題近年來受到了廣泛關注,其研究潛力在于使智能體具備處理現實復雜任務的能力,并能在多樣化環境中表現良好。

這里的泛化能力是指智能體能夠將其學到的策略直接應用于未知環境,即使這些環境中存在與訓練階段不同的視覺干擾(如動態背景或可控物體顏色變化)。

因此,具備良好泛化能力的智能體可以在面臨未見干擾的環境時依然保持高性能執行任務,無需大量的重新訓練。

盡管現有方法以數據增廣、對比學習等技術增強了智能體面向環境視覺干擾的魯棒性,但值得注意的是,這類研究往往僅聚焦于如何從視覺圖像中提取魯棒的、不隨環境變化的信息,忽略了下游關鍵的決策過程。

這導致這些方法難以捕捉序列數據中關鍵的長期信息,而這正是視覺強化學習泛化能力的核心因素之一。

為了針對性地解決這類問題,作者在信息瓶頸(Information Bottleneck)框架下,提出了魯棒動作價值表征學習方法(ROUSER),通過引入信息瓶頸來學習能有效捕捉決策目標中長期信息的向量化表征。

分解狀態-動作對魯棒表征

本文提出的ROUSER主要包括兩個核心思路:

一是為了學習能有效捕捉決策目標中長期信息的向量化表征,ROUSER基于信息瓶頸框架,通過最大化表征與動作價值之間的互信息,來保留長期信息;

同時,最小化表征與狀態-動作對之間的互信息,以濾除無關特征。

二是由于動作價值是未知的,無法直接最大化表征與動作價值之間的互信息,因此ROUSER提出將狀態-動作對的魯棒表征分解為僅包含單步獎勵信息的表征和下一狀態-動作對的魯棒表征。

這樣一來,可以借助已知的單步獎勵,計算用于魯棒表征學習的損失函數。

方法架構圖如下所示:

圖片

為實現上述思路,ROUSER主要包括兩個核心模塊——獎勵模型(Reward Model)和魯棒損失(Robust Loss)。

其中獎勵模型旨在學習僅包含單步獎勵信息的表征。

具體來說,獎勵模型基于信息瓶頸框架,最大化從狀態-動作對中提取的獎勵表征與單步獎勵之間的互信息,同時最小化獎勵表征與對應狀態-動作對之間的互信息,從而引導模型學習僅包含獎勵信息的表征。

魯棒損失則旨在構建可計算的損失函數,學習能有效捕捉決策目標中長期信息的向量化表征。

基于對狀態-動作對的魯棒表征分解技術,構建遞歸式損失函數,僅利用獎勵模型編碼的表征即可直接計算該損失。

且該部分僅為損失函數的構建,并沒有更改強化學習中批評家(Critic)模型的架構。最終旨在學習的向量化表征為批評家模型的中間層嵌入(Embedding)。

本文理論證明了ROUSER能夠利用學習到的向量化表征準確估計決策目標,即動作價值。

基于這一理論結果,ROUSER能有效結合各類連續和離散控制的視覺強化學習算法,以提升其對動作價值估計的準確性,從而提升整體魯棒性。

實驗結果

在視覺強化學習泛化性研究的12個連續控制任務中,ROUSER于11個任務上取得了最優性能。

其中下圖的6個任務是智能體面向物體動態顏色變化干擾的泛化性能。

圖片

下圖的6個任務展示了智能體面向背景干擾的泛化性能。

圖片

ROUSER方法的一大特點是可以兼容離散控制任務,本文在Procgen環境中進行了相關實驗。

如下表所示,當ROUSER與基于價值的VRL方法結合應用于非連續控制任務時,也能夠提升智能體的泛化性能。

圖片

更多內容請參考原論文與項目主頁。

論文第一作者楊睿,中國科學技術大學2019級碩博連讀生,師從王杰教授、李斌教授,主要研究方向為強化學習、自動駕駛等。

論文地址:
https://openreview.net/pdf?id=PDtMrogheZ

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-10-21 10:35:00

2021-12-06 09:53:09

自然語言神經網絡人工智能

2024-01-15 13:11:22

模型數據

2023-12-04 13:23:00

數據訓練

2024-11-04 13:30:00

模型AI

2017-06-10 16:19:22

人工智能智能體強化學習

2023-12-18 13:11:00

AI論文

2025-05-26 09:41:26

2023-10-05 06:05:54

谷歌時間訓練

2024-12-09 10:15:00

AI技術

2025-01-16 10:20:00

AI生成動畫

2021-05-07 09:34:20

量子芯片計算機

2019-12-30 09:41:59

機器學習人工智能計算機

2024-11-04 08:30:00

2021-05-17 10:05:08

神經網絡數據圖形

2015-07-20 11:49:56

Wi-Fi

2025-03-03 08:00:00

小紅書AI圖像檢測模型AI

2011-12-01 14:15:19

信息優化惠普

2013-06-19 11:32:32

計算性能ISCHPC

2024-09-29 10:40:00

數據模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费观看www7722午夜电影 | 国产精品激情小视频 | 欧美极品一区二区 | 欧美一区在线视频 | 亚洲一区二区三区免费观看 | 日韩欧美国产精品一区二区三区 | 欧美三区在线观看 | 伊久在线| 国产精品免费一区二区 | 在线免费观看a级片 | 在线看片国产精品 | 午夜久久久久久久久久一区二区 | 亚洲成人精品一区 | 欧美 中文字幕 | 成人小视频在线观看 | 亚洲成人精品 | 午夜影院在线免费观看视频 | 自拍偷拍av | 国产高清免费视频 | 久久性| 国产成人99久久亚洲综合精品 | 亚洲一区二区三区观看 | 夜夜夜操 | 一级一级一级毛片 | 一级免费毛片 | 精品自拍视频 | 欧美bondage紧缚视频 | 欧美日韩18 | 99久久精品一区二区毛片吞精 | 狠狠躁天天躁夜夜躁婷婷老牛影视 | 亚洲一区在线播放 | 欧美xxxx色视频在线观看免费 | 一区二区影院 | 久久精品91 | 国产成人精品午夜 | 神马九九 | 欧美黄色大片在线观看 | 爱爱免费视频 | 视频一区二区中文字幕日韩 | 久久免费小视频 | 欧美爱爱视频 |