端到端自動駕駛中軌跡引導的控制預測:一個簡單有力的基線方法TCP
arXiv論文“Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline“, 2022年6月,上海AI實驗室和上海交大。
當前的端到端自主駕駛方法要么基于規劃軌跡運行控制器,要么直接執行控制預測,這跨越了兩個研究領域。鑒于二者之間潛在的互利,本文主動探索兩個的結合,稱為TCP (Trajectory-guided Control Prediction)。具體來說,集成方法有兩個分支,分別用于軌跡規劃和直接控制。軌跡支路預測未來軌跡,而控制支路涉及一種新的多步預測方案,推理當前動作和未來狀態之間的關系。這兩個支路相連,以便控制支路在每個時間步從軌跡支路接收相應的引導。然后將兩個分支輸出融合,實現互補優勢。
在具有挑戰性場景的閉環城市駕駛環境中使用Carla模擬器進行評估。即使單目攝像機輸入,該方法在CARLA官方排行榜排名第一。源代碼和數據將開源:https://github.com/OpenPerceptionX/TCP
選擇Roach(“End-to-end urban driving by imitating a reinforcement learning coach“. ICCV, 2021)作為專家。Roach是由RL訓練的一個簡單模型,具有特權信息,包括道路、車道、路線、車輛、行人、交通燈和車站,所有這些都被渲染為2D BEV圖像。與手工規則(hand-crafted)專家相比,這種基于學習的專家可以傳遞除直接監督信號外的更多信息。具體來說,有一個特征損失,這迫使學生模型的最終輸出頭之前的潛特征與專家相似。一個價值損失也被添加為學生模型的輔助任務,以預測預期回報(return)。
如圖所示,整個架構由輸入編碼階段和兩個后續分支組成:輸入圖像i通過基于CNN的圖像編碼器,例如ResNet,生成特征地圖F。同時,導航信息g與當前速度v串聯形成測量輸入m,然后基于MLP的測量編碼器將m作為其輸入并輸出測量特征jm。編碼特征然后由兩個分支共享,用于后續軌跡和控制預測。具體來說,控制支路是一種新的多步預測設計,具有來自軌跡支路的引導。最后,采用了一種基于場景的融合方案,將兩種輸出范式的最佳者結合起來。
如圖所示,TCP通過學習注意圖來尋求軌跡規劃分支的幫助,從編碼的特征圖中提取重要信息。兩個分支(軌跡和控制)之間交互增強了這兩個密切相關輸出范式的一致性,并進一步闡述了多任務學習(MTL)精神。具體地說,利用圖像編碼器F在時間步長t提取2D特征圖 ,來自控制分支和軌跡分支的相應隱藏狀態用于計算注意圖。
信息表示特征被輸入到策略頭中,該策略頭在所有時間t步之間共享,預測相應的控制動作。注意,對于初始步驟,僅用測量特征來計算初始注意圖,并將注意圖像特征與測量特征相結合,形成初始特征向量。為了保證特征確實描述該步驟的狀態并包含用于控制預測的重要信息,在每個步驟中添加了一個特征損失,以便初始特征向量也接近專家的特征。
TCP框架有兩種形式的輸出表示:規劃軌跡和預測控制。為了進一步結合,設計了一種基于場景的融合策略,如算法1偽代碼所示。
具體來說,將α表示為組合權重,其值在0到0.5之間,根據先驗belief,在某種情況下一種表示更適合,通過權重α取平均值,將軌跡和控制預測的結果結合起來,更合適的一個占據更多權重(1 ? α)。注意,組合權重α確實不需要是常數或對稱的,這意味著可以在不同的情況下將其設置為不同值,或者針對特定的控制信號設置為不同值。在實驗中,根據自車是否拐彎來選擇場景,這意味著,如果拐彎,場景是控制特有的,否則是軌跡特有的。
實驗結果如下: