成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

學習駕駛策略:從抽象表征泛化到新場景

智能汽車
目標是尋求可推廣到新和未知環境的決策方案和駕駛策略。這項工作用了一個思想,即人類駕駛員學習周圍環境的抽象表征,因為其在各種駕駛場景和環境中非常相似。

[[434740]]

 2021年11月5日arXiv上載論文“Towards Learning Generalizable Driving Policies from Restricted Latent Representations“,作者來自Florida的UCF和加州UCSB。

目標是尋求可推廣到新和未知環境的決策方案和駕駛策略。這項工作用了一個思想,即人類駕駛員學習周圍環境的抽象表征,因為其在各種駕駛場景和環境中非常相似。通過這些表征,人類駕駛員能夠快速適應新環境并在未見過的場景條件下駕駛。通過施加信息瓶頸,其提取一個潛表示,通過最小化駕駛場景之間的距離,一種衡量不同駕駛配置之間相似性的量化。然后,該潛空間用作 Q-learning 模塊的輸入,學習可推廣的駕駛策略。

將駕駛場景轉換為與場景無關的潛空間表征可以實現自動駕駛智體的多任務學習,因為只接收對駕駛任務必不可少的信息,不知道其特定的駕駛場景。

這項工作探索把學習的潛空間作為訓練強化學習 (RL) 智體狀態表征的可能性,所提出的解決方案顯示所得策略泛化性的改進。

隨機環境中智體的決策過程可以正式描述為 馬爾可夫決策過程(MDP) 。如果 MDP 完全已知,則價值和策略迭代等動態規劃算法可遞歸求解最優狀態-動作價值函數 Q*。

然而,在現實世界的問題,環境的動態和獎勵函數通常未知,智體只能訪問與底層狀態相關的局部觀測,即 部分可觀測馬爾可夫決策過程 (POMDP) 。

強化學習 (RL) 提供了一種可能性,通過與環境的持續交互來解決具有未知獎勵和狀態轉換函數的 POMDP。在數學上,諸如 時域差 (TD) 學習之類的 RL 算法使智體從環境之間交互中更新價值函數,無需明確已知的完整MDP。

對狀態-動作價值函數近似,比如深度神經網絡( 深度Q-網絡,DQN ),這樣有可能做到:學習更加泛化的策略,規模化一個較大型狀態-空間。

DQN 建立在兩個思想之上,即:經驗回放緩存生成訓練樣本,在訓練期間用兩個獨立的網絡。關鍵思想是每次訓練的迭代更新貪婪網絡,計算最佳 Q 值,并用另一個更新頻率較低的目標網絡來穩定訓練過程。

本文串行地訓練兩個Autoencoder,訓練第二個Autoencoder來學習第一個Autoencoder的隱表征,而第二個Autoencoder本質上是學習第一個Autoencoder權重的概率分布。

作者引入一個相似性度量來衡量不同場景之間的距離,并尋找一個潛空間最大化不同駕駛場景之間的相似性。然后用這個潛空間來表示自車對環境的觀察。

作者旨在用這種潛表征為強化學習模塊提供輸入鞏固規劃和預測,最終學習駕駛策略。特別是選擇了一組 5 種不同的道路拓撲,即環島、交叉路口、高速公路合并、高速公路出口和高速公路巡航。根據車輛速度和位置,進一步隨機化每個場景,以衡量方法的泛化能力。

如圖為例,遵循MDP定義,所有車輛在時間 t 采取行動,使環境狀態從初始狀態演變為目標狀態。 盡管這種轉變具有隨機性,但潛概率分布定義了其動態性,包括人類和智體的行為。 這個概率分布 Pr取決于所有車輛的動作以及世界本身的動態。

首先,最有效和最有用的狀態表征不是靠手工設計,而是從數據中學習。 其次,假設在自動駕駛汽車中,整合用于決策的規劃-預測模塊可以提高處理新和未見過的拓撲結構和配置的泛化能力。

如圖所示:整個架構包括,一個瓶頸編碼器-解碼器結構,以及一個 3 維卷積神經網絡 (CNN),該網絡作函數逼近器來估計Q函數;該系統輸入是一個含噪的時空狀態表示,輸出是給定狀態下動作的概率分布。

注: HV-人類駕駛車 , AV-自動駕駛車 , MV-任務車/自車 , RL-道路布局 。

定義了一個離散動作空間 A,其中第 i 個智體動作可以是 ai ∈ Ai = [Left, Idle, Right, Accelerate, Decelerate] 。 這些離散動作呈現為平滑且合理的軌跡,并利用 PID 控制器生成低級轉向和油門信號,使汽車能夠遵循所需的軌跡。

其中 瓶頸網絡 (BNN) 確保最關鍵的信息通過數據管道,最大化不同駕駛場景之間的相似性。 學習的潛表征通過 Q-learning 學習駕駛策略。引入一種直觀而豐富的狀態表示,帶有關場景的時空信息,并且受到傳感器噪聲的污染。如圖所示:

上面圖中Stacked Multi-channel VelocityMap 顯示了自動駕駛車輛(AV)和人類駕駛車輛(HV)的位置,相對 Frenet 的縱向速度嵌入在像素值中。 為了更好地控制 VelocityMaps 中像素值的動態范圍,我們采用了裁剪對數函數,與線性映射相比,該函數實現增強的性能。

VelocityMaps 中的其他通道嵌入了 道路布局(RL) 以及 自車(MV ) 的位置和絕對速度。

從自動編碼器瓶頸結構開始,通過混合的惡批處理觀測值訓練一個3D 卷積架構。在典型的深度強化學習架構中添加一個中間模塊,消除對駕駛場景的依賴,通過專用的泛化潛表征進行泛化。 為此,依賴于從特征提取到價值函數近似的流水線的信息瓶頸,提出一種方法,即 3D Convolutional Value Function Approximator Net- work (VFAN) ,如圖所示:

在數據流施加這樣的瓶頸,訓練編碼器-解碼器,激勵網絡只傳遞最重要信息到價值函數網絡,其解釋駕駛場景、對車輛定位、協調智體之間的交互。

如圖顯示的是,自動編碼器在環島路口、交叉路口、高速公路出口和高速公路合并等駕駛實例的混合數據集訓練了 100 個epoch。 在 epoch 50 之后,損失的變化在視覺上并不明顯。

如圖所示是潛表征的例子:兩個對比鮮明的環島路口和交叉路口的拓撲結構。

為模擬和生成用于訓練自動編碼器以及 Q -學習過程的訓練數據集,采用基于OpenAI Gym 環境的抽象 2D 駕駛模擬器。 模擬器對給定的道路拓撲和車輛設置生成不同的駕駛場景。 由于目標是學習可泛化的策略,而不是通過 VFAN 記住一系列動作,因此每個模擬事件的初始狀態都是隨機的。 車輛的初始 Frenet 緯度(latitude)來自均勻隨機化的均勻分布,模擬車輛的初始 Frenet 經度(longitude)和 Frenet 縱向速度來自裁剪高斯分布。

采用閉環 PID 控制器,每輛車的元動作渲染為低級轉向和加速信號。 然后,運動學自行車模型根據轉向角和其他參數確定車輛的偏航率。

模擬包括自動駕駛車和人工駕駛車,創建逼真的混合自動駕駛場景。 采用兩種廣泛使用的人類駕駛員模型,HV的橫向動作及其換道的決定,遵循 最小化換道引起的整體制動 (Minimizing Overall Braking Induced by Lane changes,MOBIL) 策略。 MOBIL 模型僅在后面跟車產生的加速度滿足安全標準時才允許換道。 HV 的縱向加速度遵循 智能駕駛員模型 (Intelligent Driver Model,IDM) 。

實驗結果如下為例:

瓶頸網絡的性能提升作用

加速遷移學習

不同潛空間大小的瓶頸網絡,不同的重建特性

不同遷移學習方法比較

域適應

這項工作采用駕駛模擬器從各種道路拓撲(例如環島路口、十字路口和高速公路)生成一個大型混合駕駛事件數據集。 但是,可以對較長時間的駕駛進行更復雜的研究。 此外,必須做更多的工作來解釋學習的潛表征。

責任編輯:張燕妮 來源: 自動駕駛的挑戰和發展
相關推薦

2011-05-25 14:59:35

if elseswitch case

2024-12-26 09:17:27

2023-08-05 13:08:54

2024-12-18 09:34:13

2024-10-22 16:59:07

2024-10-08 16:22:24

2024-08-13 12:39:23

2021-05-17 10:05:08

神經網絡數據圖形

2025-03-28 06:01:00

TypeScript泛型開發

2017-05-09 08:48:44

機器學習

2021-10-09 09:44:50

自動駕駛數據人工智能

2018-04-12 17:06:46

SaaS

2024-01-10 11:01:13

自動駕駛和軟件

2023-04-04 09:50:26

自動駕駛

2024-07-09 10:19:02

2017-03-06 13:00:41

VRAR計算平臺

2020-02-17 10:49:01

數據中心網絡云計算病毒

2023-02-22 15:01:23

神經網絡框架

2023-06-29 11:21:31

證書管理vivo
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美色a v| 在线成人一区 | 日韩免费网站 | 色综合久久久久 | 日韩欧美国产一区二区 | 亚洲视频免费在线播放 | 国产精品久久 | 一区二区三区四区在线 | 天天艹天天干天天 | 7777久久 | 狠狠av| 国产不卡视频在线 | 一级毛毛片 | 久草电影网 | 五月天婷婷狠狠 | 99精品视频一区二区三区 | 在线视频一区二区三区 | 亚洲 欧美 另类 综合 偷拍 | 日韩国产精品一区二区三区 | 欧美黄页 | 在线免费观看欧美 | 国产资源在线观看 | 国产精品久久久久久久久图文区 | 中文字幕视频一区 | 大乳boobs巨大吃奶挤奶 | 狠狠的干| 亚洲国产精品一区二区第一页 | 日韩成人在线观看 | 一区在线视频 | 国产成人精品久久二区二区91 | 四虎永久免费地址 | 久久久久久久国产精品视频 | 九一国产精品 | 免费看国产一级特黄aaaa大片 | 欧洲色综合| 在线国产一区二区 | www.久草.com | 黄色网址av | 91高清在线视频 | 成年人国产在线观看 | 国产激情一区二区三区 |