端到端方法,目前基于learning的打不過基于rule的方法嗎?
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
目標
如題所屬,這篇文章,想來探究下為什么基于learning的打不過基于rule的(或者這個結論現在是否還成立),帶著這個問題我們來看下相關的文獻
一個不得不提的重要信息
在CVPR 23 AD Challenge NuPlan挑戰中,奪得第一的,是一個Rule Based算法。
Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients
第二個思考點
motion planning(我理解的現階段的端到端)和軌跡預測的關系(原則上motion planing是軌跡預測的一個子集,是一種限制為自車+利用導航route限制可能性的特定traj)
learning打不過rule來源于下面這篇文章,我們來審視下這個觀點現在還成立嗎
Parting with Misconceptions about Learning-based Vehicle Motion Planning
首先這篇文章時間點為CVPR 23 AD Challenge NuPlan,意味著已經過去一年了,我們結合當時的情況和最新的一些進展來看。
abstract
首先文中提出系統規劃包括兩方面-1.短期精確的規劃和2.長期規劃,兩部分完全不同,應該獨立的來看
IDM是基于規則,PDM是基于學習,這是作者的兩個初始base,該圖展示了短期和長期,開環和閉環的評估區別,信息濃度挺高的
然后文中提出基于學習的方式在復雜的現實世界里面的不足和基于rule的價值
最后文中指出他們僅依靠簡單的rule就獲取了挑戰賽最好的成績。
具體細節先不看,看評估方法指標和conclusion,數據說話
評估
基于nuplan benchmark
開環評估
in open-loop evaluation, which measures ego-forecasting accuracy using distance-based metrics
閉環評估
in closed-loopevaluation,which assesses the actual driving performance in simulation with metrics such as progress or collision rates
這里又包含兩類1.非反射式CLS-NR(其他車輛不根據主車調整),2.反射式CLS-R(其他車輛根據主車行為調整,調整的方式用IDM規劃器),這里我有個有趣的想法(如果理論上列舉出了所有可能的合理規劃器,那么這種模仿式的閉環仿真的效果評估,將會非常接近真實環境下的效果,而規劃器就是對交互agent出軌跡,那么可以認為只要采樣出盡可能多的agent的合理軌跡來做反射式評估,就可以訓練出一個不亞于基于真實環境訓練的planner,不知道前人有做過相關的工作沒,先查找下這個方向相關的文獻)
記住這張表,我們后面會基于這張表來看看最近的一些規劃器的效果
上面作為對比基準,接下來我們看看目前效果比較好的planner
DTPP:Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planningin Autonomous Driving
(掛著學習的羊頭,但賣的還是rule的狗肉^^,核心還是rule,其實是用IML學習到cost函數給TPP打分,效果完全取決于TPP(而TPP并不是學習出來的是根據rule產生的),不過意義確實完成了端到端的改造,理論上專家軌跡越多,效果越好。上限取決于后續跟進對TPP的學習化改造)
在這里可以看出改良派有兩個進攻方向(個人覺得DTPP已經可以作為一個很好的對決策規劃做端到端改造的框架和范式了)
a.怎么采樣出更好的待選軌跡(首先基于規則采樣軌跡保證整個框架基本work,其次在前述基礎上換成可學習的基于model的軌跡采樣)
b.怎么提升IML學習效果,能夠根據專家軌跡(人類駕駛軌跡),更有效的更可遷移的學習到應對不同場景的cost function(reward model)
先上指標對比
PDM就是上文rulebased,看起來比較接近了,稍低,文中也做了對比,看原文是不是會做一些辯解
文章主要工作(縫合了之前的想法+做了自己的優化)
a tree-structured policy planner-TPP(靈感因該來源于nvidia,解決規劃問題內在的多模性,不確定性,但是非TPP不可嗎,有沒有更優雅的辦法?) a differentiable joint training framework(可微可學習的框架用于)for both ego-conditioned prediction and cost models
細節
使用了a query-centric Transformer model來進行ego condition prediction
疑問項:
- cost model怎么學習,又用來干什么?之前的cost是手工設計,缺陷在哪里?為什么要切換成學習?
Deep IRL學習,逆強化學習的精髓就是通過專家sample,學習到什么是好的即一個評估函數,也可以叫rewarding function(強化學習術語,而在Deep IRL里面表現就是一個cost model),這個本質弄清楚了,也就好解釋手工設計的缺陷了,就是不夠豐富全面,評估不夠準確。 - a tree-structured怎么得到?
參考Tree-structured policy planning with learned behavior models(nvidia)
一個示例
- 文中提到直接把TPP特征編碼到了網絡中,這種編碼方式怎么做的?不同深度和寬度的TPP特征怎么對齊,讓我們來看看?
維度信息,Na和Nm都是確定數量的agent和map元素,比較粗暴
M是最大的branch數
3還有文中提到了這個框架可以有效的提取學習到的cost組件和手工設計的cost組件,這兩種cost怎么整合也是一個值得注意的點?
上面提到的學習的cost和手工設計的cost,匯總在一起是fl
方法
迭代的方式,有點像人做決策,根據當前環境做推演,也有點像MCTS,結合MDP(馬爾科夫決策過程)就可以得到最優軌跡。而這個決策樹其實就是動作空間??雌饋硎菢藴实哪鎻娀瘜W習范式。
文中提到TPP就是對有限的狀態采樣來解決軌跡連續空間的規劃問題。
- 上圖中個人覺得最重要的一步是Conditional Motion Prediction,也就是對應的(Tree Structure planning),其實這一步是結合了專家信息,也是這一步,區別于力大磚飛的llm,帶了歸納偏置,讓學習變得更簡單。我們來仔細看下
作者在這里說的不全面,他認為該工作最重要的是提出了query-centeric,而個人覺得trajectory tree才是關鍵,這個限制了學習的采樣空間,從而減小了學習難度。當然負面作用可能就是極端case看起來還是不夠智能。但目前是原型驗證,后面可以繼續優化。
可以看出雖然掛著學習的羊頭,但賣的還是rule的狗肉
PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning(最新熱乎的論文,2024年0605,指標超過了rulebased),需要接入chatgpt-4v
還是先上指標
總結起來就是用bev輸出等作為上下文信息,用gpt-4v做resoning engine,結合Cot引導模型做出合理的軌跡選擇。
framework
Cot(思維鏈)
推理引擎示例