重新思考軌跡預測 | 復旦提出PIFM:如何將規劃引入預測?
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面 && 筆者理解
傳統的自動駕駛主要可以分為感知、預測、規控三個大的部分,其中預測模塊承擔著十分重要的角色,為下游規劃路徑提供重要的信息。然而,現實世界駕駛環境的復雜性,其中包括多個動態智能體(如車輛和行人)之間的相互作用,給預測造成了不小的挑戰。這其中有一個重要任務就是軌跡預測,這涉及到基于它們當前的狀態和環境來預測周圍智能體的未來移動。
傳統上,運動預測模型預測單個智能體的軌跡,而沒有考慮它們之間的相互依賴性。在多智能體環境中,這種方法會導致次優的預測,因為它并不能捕捉到智能體之間的復雜交互。為了克服這些限制,最近的工作開始將規劃信息納入軌跡預測過程,允許系統做出更明智的決策。
- 論文鏈接:https://arxiv.org/pdf/2410.19639
在過去幾年,自動駕駛的軌跡預測也有了顯著的發展,許多方法利用多模態融合技術來提高準確性。比較早期模型依賴于歷史軌跡和地圖數據,通常將這些輸入結合起來做預測。近期的工作會使用基于transformer的架構,引入了注意力機制以更好地整合這些不同的模態。這些模型大大提高了自動駕駛系統的預測能力,尤其是在智能體與其環境動態交互的場景中。另外,Planning-aware模型也作為提高軌跡預測的有效方法之一,比如:PiP和PRIME明確地將規劃信息集成到預測框架中,允許系統在軌跡生成過程中考慮未來的目標。然而,這些方法通常因為處理數據所涉及的計算復雜性,在實時多智能體場景中表現并不理想。因此,基于擴散的模型最近被提出來解決這些問題,同時減少計算負擔,同時保持高預測性能。
在這項工作中,作者提出了軌跡信息規劃擴散(Trajectory-Informed Planning Diffusion,TIP-D)模型,該模型基于擴散框架的優勢,并直接將規劃特征集成到運動預測過程中,目的是結合規劃信息來提高軌跡預測的準確性和可解釋性。作者的方法能夠通過利用交叉注意力機制動態融合規劃特征與環境數據,同時預測多個智能體的軌跡。此外,TIP-D模型在計算復雜性上實現了顯著降低,與現有的最先進方法相比降低了80%以上,同時在復雜的多智能體駕駛場景中保持了高準確性。
相關工作
多模態融合
在運動預測中,準確的軌跡預測依賴于不同信息模態的整合,例如智能體的歷史軌跡和地圖數據。為了更好地捕捉運動動態的復雜性,最近的研究擴展到包括規劃軌跡、交通狀態和車道方向等額外模態。這些增強旨在提供對動態環境更全面的理解,允許模型以更高的準確性預測軌跡。Wayformer優化注意力機制以提高計算效率,而Scene Transformer使用統一的架構有效管理多智能體交互。同樣,LatentFormer采用基于Transformer的方法,結合潛在變量來提高預測精度。這些策略證明了整合多個信息模態對于更準確、更可靠的運動預測的有效性。
Planning-aware運動預測
Planning-aware軌跡預測是多模態預測方法的一個關鍵方面,其中包含動態車輛信息的規劃特征被整合到高級編碼特征中。例如,PiP引入了一個雙模塊系統,其中規劃耦合模塊將未來規劃注入交互特征中,目標融合模塊編碼和解碼智能體之間的未來交互。PRIME通過使用基于模型的場景上下文進一步優化這種方法,通過查詢各種張量生成保證可行性的未來軌跡。TPP專注于通過整合來自自我運動采樣器的樹狀結構規劃結果來改進規劃軌跡,盡管它仍然使用采樣器的輸出作為直接輸入,而不是與地圖交互。此外,像Multipath++這樣的模型已經證明了這些技術在運動預測挑戰中實現最先進的性能的有效性,特別是通過使用有效整合這些多模態信息源的先進注意力和基于擴散的模型。作者的方法進一步發展了這一概念,實現了與Multipath++幾乎相當的性能,同時參數數量極少。
方法論
輸入表示
模型使用多模態嵌入策略將各種數據源,如歷史軌跡、高清地圖和規劃軌跡,轉換為統一的高維空間。這確保了模型能夠捕捉到準確軌跡預測所需的復雜的空間和時間關系。
模型架構和融合機制
訓練目標
作者將損失函數制定為多項任務損失的總和,并使用輔助學習方法來平衡它們。在訓練階段,作者還使用了聯合損失來平衡最終輸出和預測頭部的輸出,遵循TrackFormer的方法。
實驗及結果
數據集
Argoverse 數據集包含 324,000 個場景,包括詳細的軌跡序列、傳感器數據(如 3D 激光雷達和攝像頭圖片)以及高清地圖。數據集被劃分為訓練集、驗證集和測試集,并支持軌跡預測的多模態融合。用于評估模型準確性和預測能力的指標包括最小平均位移誤差(Minimum Average Displacement Error, minADE)、最小最終位移誤差(Minimum Final Displacement Error, minFDE)、未命中率(Miss Rate, MR)和布里爾分數。
指標
實驗結果
作者將提出的方法與最先進的Planning-aware運動預測技術進行比較,包括 PIP 和 PRIME 。PRIME 作為基準,作者的方法顯示出顯著的改進:minFDE 提高了 14.10%,minADE 提高了 30.33%,p-minADE 提高了 2.59%。作者的方法還優于基于圖神經網絡的方法,如 LaneGCN 、VDC 和 HGO。與基于擴散的方法如 mmdiffusion 和 Scenediffusion 相比,作者的方法取得了更優越的結果,與 Multipath++ 相比參數數量減少了 84.43%。
總之,作者提出的方法在 Argoverse 數據集上表現出色,實現了更高的預測準確性和效率,同時顯著減少了參數數量和計算開銷。
消融研究
作者在 Argoverse 數據集上使用 minFDE、minADE、Brier-minFDE 和 Brier-minADE 進行了消融研究,以 mmdiffusion 作為基線。Planning-Aware Encoder,整合 PreFusion-D,改進了 minFDE、minADE、Brier-minFDE 和 Brier-minADE,分別提高了 7.81%、0.24%、1.87% 和 0.33%。擴展聯合損失改進了 minFDE 0.24% 和 minADE 1.45%。為所有智能體添加回歸導致了進一步的增益,分別為 0.82% 和 1.47%。
寫在最后
本文提出了一個Planning-aware的堆疊擴散網絡,這是運動預測中的一個新框架。Planning-aware擴散預測未來軌跡時會使用多模態特征,尤其是先前的規劃特征。為了獲得更好的融合性能,作者設計并探索了四個融合模塊,將規劃信息聚合到堆疊擴散中。作者還提出了一種新的損失函數,迫使網絡關注可行駛區域。在 Argoverse 運動預測基準測試中進行的實驗證明了作者模型的有效性。