成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

端到端方法,目前基于learning的打不過基于rule的方法嗎?

人工智能 新聞
這篇文章,想來探究下為什么基于learning的打不過基于rule的(或者這個結論現在是否還成立),帶著這個問題我們來看下相關的文獻

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

目標

如題所屬,這篇文章,想來探究下為什么基于learning的打不過基于rule的(或者這個結論現在是否還成立),帶著這個問題我們來看下相關的文獻

一個不得不提的重要信息
在CVPR 23 AD Challenge NuPlan挑戰中,奪得第一的,是一個Rule Based算法。
Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients
第二個思考點
motion planning(我理解的現階段的端到端)和軌跡預測的關系(原則上motion planing是軌跡預測的一個子集,是一種限制為自車+利用導航route限制可能性的特定traj)

learning打不過rule來源于下面這篇文章,我們來審視下這個觀點現在還成立嗎

Parting with Misconceptions about Learning-based Vehicle Motion Planning

首先這篇文章時間點為CVPR 23 AD Challenge NuPlan,意味著已經過去一年了,我們結合當時的情況和最新的一些進展來看。

abstract

首先文中提出系統規劃包括兩方面-1.短期精確的規劃和2.長期規劃,兩部分完全不同,應該獨立的來看

IDM是基于規則,PDM是基于學習,這是作者的兩個初始base,該圖展示了短期和長期,開環和閉環的評估區別,信息濃度挺高的

然后文中提出基于學習的方式在復雜的現實世界里面的不足和基于rule的價值

最后文中指出他們僅依靠簡單的rule就獲取了挑戰賽最好的成績。

具體細節先不看,看評估方法指標和conclusion,數據說話

評估

基于nuplan benchmark

開環評估
in open-loop evaluation, which measures ego-forecasting accuracy using distance-based metrics

閉環評估

in closed-loopevaluation,which assesses the actual driving performance in simulation with metrics such as progress or collision rates

這里又包含兩類1.非反射式CLS-NR(其他車輛不根據主車調整),2.反射式CLS-R(其他車輛根據主車行為調整,調整的方式用IDM規劃器),這里我有個有趣的想法(如果理論上列舉出了所有可能的合理規劃器,那么這種模仿式的閉環仿真的效果評估,將會非常接近真實環境下的效果,而規劃器就是對交互agent出軌跡,那么可以認為只要采樣出盡可能多的agent的合理軌跡來做反射式評估,就可以訓練出一個不亞于基于真實環境訓練的planner,不知道前人有做過相關的工作沒,先查找下這個方向相關的文獻)

記住這張表,我們后面會基于這張表來看看最近的一些規劃器的效果

上面作為對比基準,接下來我們看看目前效果比較好的planner

DTPP:Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planningin Autonomous Driving

(掛著學習的羊頭,但賣的還是rule的狗肉^^,核心還是rule,其實是用IML學習到cost函數給TPP打分,效果完全取決于TPP(而TPP并不是學習出來的是根據rule產生的),不過意義確實完成了端到端的改造,理論上專家軌跡越多,效果越好。上限取決于后續跟進對TPP的學習化改造)
在這里可以看出改良派有兩個進攻方向(個人覺得DTPP已經可以作為一個很好的對決策規劃做端到端改造的框架和范式了)
a.怎么采樣出更好的待選軌跡(首先基于規則采樣軌跡保證整個框架基本work,其次在前述基礎上換成可學習的基于model的軌跡采樣)
b.怎么提升IML學習效果,能夠根據專家軌跡(人類駕駛軌跡),更有效的更可遷移的學習到應對不同場景的cost function(reward model)

先上指標對比

PDM就是上文rulebased,看起來比較接近了,稍低,文中也做了對比,看原文是不是會做一些辯解

文章主要工作(縫合了之前的想法+做了自己的優化)

a tree-structured policy planner-TPP(靈感因該來源于nvidia,解決規劃問題內在的多模性,不確定性,但是非TPP不可嗎,有沒有更優雅的辦法?) a differentiable joint training framework(可微可學習的框架用于)for both ego-conditioned prediction and cost models

細節

使用了a query-centric Transformer model來進行ego condition prediction

疑問項:

  1. cost model怎么學習,又用來干什么?之前的cost是手工設計,缺陷在哪里?為什么要切換成學習?
    Deep IRL學習,逆強化學習的精髓就是通過專家sample,學習到什么是好的即一個評估函數,也可以叫rewarding function(強化學習術語,而在Deep IRL里面表現就是一個cost model),這個本質弄清楚了,也就好解釋手工設計的缺陷了,就是不夠豐富全面,評估不夠準確。
  2. a tree-structured怎么得到?
    參考Tree-structured policy planning with learned behavior models(nvidia)

一個示例

  1. 文中提到直接把TPP特征編碼到了網絡中,這種編碼方式怎么做的?不同深度和寬度的TPP特征怎么對齊,讓我們來看看?

維度信息,Na和Nm都是確定數量的agent和map元素,比較粗暴

M是最大的branch數

3還有文中提到了這個框架可以有效的提取學習到的cost組件和手工設計的cost組件,這兩種cost怎么整合也是一個值得注意的點?

上面提到的學習的cost和手工設計的cost,匯總在一起是fl圖片

方法

迭代的方式,有點像人做決策,根據當前環境做推演,也有點像MCTS,結合MDP(馬爾科夫決策過程)就可以得到最優軌跡。而這個決策樹其實就是動作空間??雌饋硎菢藴实哪鎻娀瘜W習范式。

文中提到TPP就是對有限的狀態采樣來解決軌跡連續空間的規劃問題。

  • 上圖中個人覺得最重要的一步是Conditional Motion Prediction,也就是對應的(Tree Structure planning),其實這一步是結合了專家信息,也是這一步,區別于力大磚飛的llm,帶了歸納偏置,讓學習變得更簡單。我們來仔細看下

作者在這里說的不全面,他認為該工作最重要的是提出了query-centeric,而個人覺得trajectory tree才是關鍵,這個限制了學習的采樣空間,從而減小了學習難度。當然負面作用可能就是極端case看起來還是不夠智能。但目前是原型驗證,后面可以繼續優化。

可以看出雖然掛著學習的羊頭,但賣的還是rule的狗肉

PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning(最新熱乎的論文,2024年0605,指標超過了rulebased),需要接入chatgpt-4v

還是先上指標

總結起來就是用bev輸出等作為上下文信息,用gpt-4v做resoning engine,結合Cot引導模型做出合理的軌跡選擇。

framework

Cot(思維鏈)

推理引擎示例

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2023-02-01 07:25:12

2009-04-10 22:31:26

2011-12-15 01:12:59

ibmdw

2010-06-19 14:58:23

2010-06-19 14:44:08

2010-06-21 14:33:34

風險評估安全審計

2023-01-03 14:10:32

沉淀數據大數據

2018-11-19 15:26:28

sketch網絡測量網絡

2024-09-26 09:55:33

2022-06-01 17:16:42

端到端KQI業務

2025-03-21 08:08:50

2013-12-18 09:41:01

思科SDBSoftware De

2019-02-21 10:29:53

RFID室內定位

2014-01-07 09:38:34

OpenFlowSDN測試

2022-07-06 13:02:00

高延時電商直播主播互動

2011-11-30 22:05:03

ibmdw云計算

2021-04-29 08:55:54

GitLabDevOps項目

2023-10-30 09:47:00

自動駕駛技術

2014-02-28 10:14:19

云計算IEEE數據中心

2016-03-31 12:49:54

戴爾
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区中文 | 在线播放中文字幕 | 福利视频一区二区 | 97精品超碰一区二区三区 | 国产亚洲日本精品 | 激情av免费看 | 国内久久| 成人影院一区二区三区 | 欧美一区二区在线 | 成人在线观看欧美 | 亚洲日本视频 | 日日摸夜夜添夜夜添特色大片 | 天天弄 | 国产精品毛片一区二区在线看 | 中文字幕11页 | 欧美一区二区三区在线看 | 午夜影院黄 | 日韩综合网 | 亚洲精品视频二区 | 亚洲 欧美 另类 日韩 | 夜夜爽99久久国产综合精品女不卡 | 国产成人自拍一区 | 国产在线播放av | 成人精品国产免费网站 | 在线91| 中文字字幕在线中文乱码范文 | 国产一区二区三区在线 | 久热国产精品 | 中文字幕日韩欧美 | 视频三区 | 日本a在线| 国产日韩欧美一区 | 酒色成人网 | 国产亚洲一区二区三区 | 免费毛片在线 | 国产乱码精品一区二区三区中文 | 亚洲一区二区 | 午夜精品福利视频 | 国产在线精品一区二区 | 久久精品国产亚洲 | 亚洲精品一区二区三区 |