軌跡預(yù)測的視覺方法綜述
最近一個綜述論文 “Trajectory-Prediction With Vision: A Survey ”,來自現(xiàn)代和安波福的公司Motional;不過它參考了牛津大學(xué)的綜述文章“Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey ”。
預(yù)測任務(wù)基本分為兩部分:1)意圖,這是一項分類任務(wù),為智體預(yù)先設(shè)計一組意圖類;通常將其視為一個監(jiān)督學(xué)習(xí)問題,需要標(biāo)注智體可能的分類意圖;2)軌跡,需要預(yù)測智體在后面未來幀中的一組可能位置,稱為路點;這構(gòu)成了智體之間以及智體和道路之間的交互。
之前行為預(yù)測模型分類為三種:基于物理的、基于機動的和交互-覺察模型。基于物理的模型構(gòu)成了動力學(xué)方程,為不同類別的智體建模人工設(shè)計的運動。這種方法無法對整個場景的隱態(tài)進(jìn)行建模,并且往往一次只關(guān)注一個特定的智體。然而,在深度學(xué)習(xí)之前的時代,這種趨勢曾經(jīng)是SOTA。基于機動的模型是基于智體預(yù)期運動類型的模型。交互-覺察的模型通常是一種基于機器學(xué)習(xí)的系統(tǒng),對場景中的每個智體進(jìn)行逐對推理,并為所有動態(tài)智體生成交互-覺察的預(yù)測。在場景中附近不同智體目標(biāo)之間存在高度相關(guān)性。對復(fù)雜的智體軌跡注意模塊進(jìn)行建模,可以更好泛化。
行為預(yù)測可以是隱含的,表現(xiàn)為未來軌跡的形式,也可以是顯式的,預(yù)測未來的行動或事件。智體的意圖可能受到以下因素的影響:a)智體自己的信念或意愿(通常不會被觀察到,因此難以建模);b) 社會交互,可以用不同的方法進(jìn)行建模,如社交池化、圖神經(jīng)網(wǎng)絡(luò)、注意力等;c) 環(huán)境約束,如道路布局,可通過高清(HD)地圖進(jìn)行編碼;d) 背景信息,形式為RGB圖像幀、激光雷達(dá)點云、光流、分割圖等。另一方面,軌跡預(yù)測本質(zhì)上更具挑戰(zhàn)性——與意圖這種分類問題不同,軌跡預(yù)測是一個回歸(連續(xù))問題。
軌跡和意圖需要從交互-覺察入手。舉個例子,如果激進(jìn)地試圖進(jìn)入交通擁擠的高速公路,一輛過來的車可能會有點剎車,這是一個合理的假設(shè)。一般來說,軌跡預(yù)測可以在圖像視角(也稱為透視圖)或BEV中建模;最好在BEV空間進(jìn)行。原因是,可以以網(wǎng)格的形式為感興趣區(qū)域(RoI)分配一個專用的距離范圍。然而,由于透視圖中的消失線,圖像視角在理論上可以具有無限的RoI。因為運動更線性地建模,所以在BEV空間中對遮擋進(jìn)行建模更容易。根據(jù)姿態(tài)估計(自車的平移和旋轉(zhuǎn))可以很容易地進(jìn)行自車運動補償。此外,這個空間保留了智體的運動和尺度,即不管離自車有多遠(yuǎn),周圍車輛將占據(jù)相同數(shù)量的BEV像素;但圖像視角的情況并非如此。為了預(yù)測未來,需要對過去有一個了解。這通常可以通過跟蹤來完成,也可以用歷史聚合BEV特征來完成。
下圖是預(yù)測模型的一些組件和數(shù)據(jù)流框圖:
下表是預(yù)測模型的總結(jié):
以下基本從輸入/輸出入手討論預(yù)測模型:
1)Tracklets:感知模塊預(yù)測所有動態(tài)智體的當(dāng)前狀態(tài)。這種狀態(tài)包括3-D中心、維度、速度、加速度等屬性。跟蹤的作用是利用這些數(shù)據(jù)并將其臨時關(guān)聯(lián),這樣每個跟蹤器都能保存所有智體的狀態(tài)歷史。現(xiàn)在,每個tracklet都表示該智體過去的運動。這是一種最簡單的預(yù)測模型形式,因為它只包含稀疏的軌跡作為輸入。一個好的跟蹤器能夠跟蹤一個智體,即使在當(dāng)前幀中被遮擋。傳統(tǒng)的跟蹤器是基于非機器學(xué)習(xí)的網(wǎng)絡(luò),因此使用這種方法很難實現(xiàn)端到端模型。
2)原始傳感器數(shù)據(jù):這是一種端到端方法,模型獲取原始傳感器數(shù)據(jù)信息,并直接預(yù)測場景中每個智體的軌跡預(yù)測。這種方法可能有也可能沒有輔助輸出及其損失來監(jiān)督復(fù)雜的訓(xùn)練。這一類方法的缺點是,用于輸入的信息密集,計算上昂貴。此外,由于將三個問題結(jié)合在一起,即感知、跟蹤和預(yù)測;模型變得很難開發(fā),甚至更難收斂。
3)攝像頭-vs- BEV:BEV方法處理來自頂視類似地圖的數(shù)據(jù),攝像頭預(yù)測算法從自車角度感知世界,由于多種原因,后者通常比前者更具挑戰(zhàn)性;首先,從BEV感知可以獲得更廣闊的視野和更豐富的預(yù)測信息,相比之下攝像頭的視野較短,這限制了預(yù)測范圍,因為汽車無法做視野以外規(guī)劃;此外,攝像頭更容易被遮擋,因此與基于相機的方法相比,BEV方法受到的“部分可觀察性”挑戰(zhàn)更少;其次,除非激光雷達(dá)數(shù)據(jù)可用,否則單目視覺使算法難以推斷關(guān)注智體的深度,這是預(yù)測其行為的重要線索;最后,攝像頭正在移動,這需要處理關(guān)注智體的運動和自車的運動,這與靜態(tài)BEV不同;提一句:作為一種缺點,BEV表征方法仍然存在累積錯誤的問題;盡管在處理相機視圖方面存在固有的挑戰(zhàn),但它仍然比BEV更實用,其實汽車很少能訪問顯示道路上BEV和關(guān)注智體位置的攝像頭。結(jié)論是,預(yù)測系統(tǒng)應(yīng)該能夠從自車的角度看待世界,包括激光雷達(dá)和/或立體相機,其數(shù)據(jù)以3D方式感知世界可能是有利的;另一個重要的相關(guān)點是,每次若必須包括關(guān)注智體的位置以進(jìn)行預(yù)測時,最好使用邊框位置,而不是純粹的中心點,因為前者的坐標(biāo)隱含自車和行人之間的相對距離變化以及相機自運動;換句話說,隨著智體接近自車,邊框變得更大,提供了對深度的附加(盡管是初步的)估計。
4)自運動預(yù)測:自車運動進(jìn)行建模生成更準(zhǔn)確的軌跡。另外一些方法使用深度網(wǎng)絡(luò)或動力學(xué)模型對關(guān)注智體的運動進(jìn)行建模,利用從數(shù)據(jù)集輸入計算的額外量,如姿勢、光流、語義圖和熱圖。
5)時域編碼:由于駕駛環(huán)境是動態(tài)的,有許多活動智體,因此有必要在智體時間維度進(jìn)行編碼可建立一個更好的預(yù)測系統(tǒng),將過去發(fā)生的事情與未來通過現(xiàn)在發(fā)生的事情聯(lián)系起來;了解智體的來源有助于猜測智體下一步可能會去哪里,大多數(shù)基于攝像頭的模型處理較短的時間范圍,而對于較長的時間范圍處理,預(yù)測模型需要一個更復(fù)雜的結(jié)構(gòu)。
6) 社交編碼:為了應(yīng)對“多智體”的挑戰(zhàn),大多數(shù)性能最好的算法使用不同類型的圖神經(jīng)網(wǎng)絡(luò)(GNN)來編碼智體之間的社會交互;大多數(shù)方法分別對時間和社會維度進(jìn)行編碼——要么從時間層面開始,然后考慮社會層面,要么相反順序;有一種基于Transformer的模型,可以同時對兩個維度進(jìn)行編碼。
7)基于預(yù)期目標(biāo)的預(yù)測:行為意圖預(yù)測與場景上下文一樣,通常會受到不同預(yù)期目標(biāo)的影響,并且應(yīng)該通過解釋來推斷;對于以預(yù)期目標(biāo)為條件的未來預(yù)測,這個目標(biāo)會被建模為未來狀態(tài)(定義為目的地坐標(biāo))或智體期望的運動類型;神經(jīng)科學(xué)和計算機視覺的研究表明,人通常是目標(biāo)-導(dǎo)向的智體;此外在做出決策的同時,人遵循一系列連續(xù)級的推理,最終制定出短期或長期計劃;基于此,這個問題可分為兩類:第一類是認(rèn)知性的,回答智體要去哪里的問題;第二個是任意性的,回答這個智體如何實現(xiàn)其預(yù)期目標(biāo)的問題。
8)多模態(tài)預(yù)測:由于道路環(huán)境是隨機的,一個先前的軌跡可以展開不同的未來軌跡;因此,解決“隨機彈性(stocasticity)”挑戰(zhàn)的實用預(yù)測系統(tǒng)會對問題的不確定性進(jìn)行建模;盡管存在離散變量的潛空間建模的方法,但多模態(tài)僅應(yīng)用于軌跡,完全顯示其在意圖預(yù)測方面的潛力;采用注意力機制,可用于計算加權(quán)。