等等我還沒上車！LLM賦能端到端全新范式LeGo-Drive，車速拉滿

作者：自動駕駛之心 2024-04-12 09:31:34

本文通過將所提出的端到端方法作為目標點導航問題來解決，揭示了其與傳統解耦方法相比的明顯優勢。

本文經自動駕駛之心公眾號授權轉載，轉載請聯系出處。

寫在前面&筆者個人理解

這篇論文介紹了一種名為LeGo-Drive的基于視覺語言模型的閉環端到端自動駕駛方法。該方法通過預測目標位置和可微分優化器規劃軌跡，實現了從導航指令到目標位置的端到端閉環規劃。通過聯合優化目標位置和軌跡，該方法提高了目標位置預測的準確性，并生成了平滑、無碰撞的軌跡。在多個仿真環境中進行的實驗表明，該方法在自動駕駛指標上取得了顯著改進，目標到達成功率達到81%。該方法具有很好的可解釋性，可用于實際自動駕駛車輛和智能交通系統中。

圖1：LeGo-Drive導航到基于語言的目標，該目標與軌跡參數共同優化。“將車停在左前方公交車站附近”等命令的預測目標可能會落在不理想的位置（右上：綠色），這可能會導致容易發生碰撞的軌跡。由于軌跡是唯一直接與環境“交互”的組件，因此我們建議讓感知感知了解軌跡參數，從而將目標位置改善為可導航位置（右下角：紅色）

開源地址：https://reachpranjal.github.io/lego-drive

數據集

詳細闡述了作者為開發結合視覺數據和導航指令的智能駕駛agent而創建的數據集和標注策略。作者利用CARLA仿真器提供的視覺中心數據，并輔以導航指令。他們假設agent擁有執行成功閉環導航所需的特權信息。

數據集概覽：先前的工作，如Talk2Car數據集，主要關注通過為目標引用標注邊界框來進行場景理解。進一步的工作，如Talk2Car-RegSeg，則通過標注可導航區域的分割mask來包含導航。作者在此基礎上擴展了數據集，涵蓋各種駕駛操作，包括車道變更、速度調整、轉彎、繞過其他物體或車輛、通過交叉口以及在行人橫道或交通信號燈處停車，并在其中演示了閉環導航。創建的LeGo-Drive數據集包含4500個訓練點和1000個驗證點。作者使用復雜和簡單的命令標注進行了結果、基準比較和消除實驗。

仿真器設置：LeGo-Drive數據集收集過程包括兩個階段：

同步記錄駕駛agent狀態與相機傳感器數據，隨后記錄交通agent，
解析和標注收集的數據，以導航指令為標注。

作者以10 FPS的速率錄制數據，為避免連續幀之間的冗余，數據點在10米的距離間隔內進行過濾。對于每個幀，他們收集了自車的狀態(位置和速度)、自車車道(前后各50米范圍)、前RGB相機圖像，以及使用基于規則的專家agent收集的交通agent狀態(位置和速度)，所有這些都以自車幀為單位。數據集涵蓋了6個不同的城鎮，具有各種獨特的環境，代表不同的駕駛場景，包括不同的車道配置、交通密度、光照和天氣條件。此外，數據集還包括了戶外場景中常見的各種物體，如公交車站、食品攤位和交通信號燈。

語言命令標注：每個幀都手動標注了適當的導航命令，以目標區域分割mask的形式，以涵蓋各種駕駛場景。作者考慮了3種不同的命令類別：

以目標為中心的命令，直接指向當前相機幀中可見的目標，
車道操作命令，與車道變更或車道內調整相關的指令，
復合命令，連接多個指令以模擬實際駕駛場景。

作者利用ChatGPT API生成具有相似語義含義的不同變體。表I展示了他們數據集中的一些示例指令。值得注意的是，作者并未涵蓋誤導性指令的處理。這種能力對于場景推理模型至關重要，可能被視為未來的擴展范圍；然而，它超出了當前研究的范圍。

表I：LeGo-Drive數據集的導航指令示例

LeGo-Drive架構

本文提出了LeGo-Drive框架，旨在解決從VLA進行控制動作的粗略估計的問題，將這一問題視為一個短期目標實現問題。這是通過學習軌跡優化器的參數和行為輸入，生成并改進與導航指令一致的可實現目標來實現的。

圖3：LeGo-Drive架構

如圖3所示，架構由兩個主要部分組成：

目標預測模塊，接受前視圖圖像和相應的語言命令，生成或預測一個分割mask ，然后是一個目標位置。
可微優化器，生成一個軌跡，共同優化估計的目標和軌跡優化器的參數，當進行端到端訓練時，導致所需位置坐標到可導航位置的改進。

目標預測模塊

為編碼給定的導航命令，作者使用CLIP 標記器對語言命令進行標記，并經過CLIP文本編碼器獲得文本嵌入。為了從給定的前攝像頭圖像中獲得圖像特征，使用帶有ResNet-101骨干網絡的CLIP圖像編碼器。提取不同視覺特征，通過卷積塊ConvBlocki進行處理，以標準大小和相等的通道尺寸、高度和寬度進行重塑。

為捕捉圖像和文本特征的跨模態上下文，作者進一步使用來自DETR架構的transformer編碼器。文本特征與不同的個體拼接，得到多模態特征，然后單獨通過transformer編碼器，其中多頭自注意力層幫助跨模態交互不同類型的特征，以獲得形狀相同的編碼器輸出。

有兩個解碼頭，一個用于分割mask預測，另一個用于目標點預測。分割mask預測頭將進行重塑和重組，得到，并使用ASPP解碼器。目標點預測解碼器由卷積層和全連接層組成，輸出形狀為表示圖像上的像素位置。

首先，分割mask預測頭與真實分割mask之間的BCE損失進行端到端訓練。在幾個epoch之后，目標點預測頭以平滑L1損失與真實目標點之間的差異進行類似端到端的訓練。

復雜命令和場景理解:為處理最終目標位置在當前幀中不可見的復合指令，通過將復雜命令分解為需要順序執行的原子命令列表來適應他們的方法。例如，“切換到左車道然后跟著黑色汽車”可以分解為“切換到左車道”和“跟著黑色汽車”。為分解這種復雜命令，作者構建了一個原子命令列表L，涵蓋廣泛的簡單操作，如車道變更、轉彎、速度調整和目標引用。在收到復雜命令后，作者利用小樣本學習技術提示LLM將給定復雜命令分解為原子命令列表li，來自L。這些原子命令隨后迭代執行，預測的目標點位置作為中間路點幫助我們達到最終目標點。

神經可微優化器

計劃采用優化問題的形式，其中嵌入有可學習參數，以改進由VLA生成的下游任務的跟蹤目標，并加速其收斂。作者首先介紹了他們軌跡優化器的基本結構，然后介紹了其與網絡的集成。

基本問題公式:作者假設可以獲得車道中心線，并使用它來構建Frenet框架。在Frenet框架中，軌跡規劃具有優勢，即汽車在縱向和橫向運動與Frenet框架的X和Y軸對齊。在給定這種表示的情況下，他們的軌跡優化問題具有以下形式：

等式約束(1b)確保計劃的軌跡滿足初始和最終邊界條件，在r階導數上。在公式中使用r={0,1,2}。不等式約束(1c)也依賴于r階導數的上界，包括速度、加速度、車道偏移以及避碰和曲率約束。的代數結構取自先前的工作。

為確保他們在平滑軌跡的空間中優化，作者以以下形式參數化沿X-Y方向的運動：

使用(4)，優化(1a)-(1c)可以寫成以下緊湊形式

端到端訓練

LeGo-Drive E2E：表示目標預測模塊和規劃器模塊的聯合訓練。模型在組合損失上訓練，其中目標損失是預測目標與預測軌跡端點之間的均方誤差損失，規劃器損失Lplanner是違反非凸約束g的組合，涉及車道偏移、避碰和運動學約束。梯度從規劃器流向目標預測部分。

LeGo-Drive Decoupled：表示目標預測模塊和規劃器模塊分別訓練的過程。首先，目標預測模塊在預測目標與真實目標之間的均方誤差損失上進行訓練。然后，規劃器在上訓練，同時凍結目標預測模塊的參數。

端到端訓練需要通過優化層建模軌跡規劃過程進行反向傳播，可以通過隱式微分和算法展開兩種方式進行。作者建立了一個自定義的反向傳播程序，遵循算法展開，這種方法可以處理約束，并且反向傳播可以避免矩陣分解。兩種方法的性能在表II中展示，并在后面章節中進行分析。該方法的核心創新在于其模塊化的端到端規劃框架，其中框架優化目標預測模塊，同時優先考慮軌跡優化，確保獲取的行為輸入有效地促進優化器的收斂。不同模塊的迭代改進形成系統設計的基礎，確保系統內部的協同和迭代改進循環。

表II：模型比較：

實驗

實現細節

感知模塊輸入：模型輸入包括1600x1200像素的RGB圖像和最大長度為20個詞的語言指令。使用CLIP提取視覺和文本特征，并使用Transformer進行多模態交互，輸出分割mask和目標點預測。
規劃模塊：基于優化器的可微規劃器在道路對齊的Frenet坐標系中操作，考慮50米范圍內的5個最近障礙物。規劃器以車輛控制和動力學約束為條件，并輸出滿足約束的平滑軌跡
訓練：使用Adam優化器，權重衰減為，batch size為16，學習率初始化為，進行100個epoch的訓練。訓練過程中需要通過算法展開進行反向傳播

評估指標

目標評估：評估預測目標與mask質心和車道中心的接近程度，以及與最近障礙物的距離。這些指標用于衡量模型在理解語言指令并準確預測目標位置方面的性能。
軌跡評估：使用最小最終位移誤差(minFDE)和成功率(SR)評估軌跡性能。minFDE表示預測軌跡終點與目標位置的歐氏距離，SR表示車輛在3米范圍內成功到達目標的比例。這些指標用于評估模型在生成可行、平滑的軌跡方面的性能。
平滑性：評估軌跡接近目標的平穩程度，采用平滑指數度量。較低的平滑指數表示軌跡更平滑地接近目標，該指標用于衡量模型生成軌跡的平滑性。

實驗結果

目標改進：通過比較解耦訓練和端到端訓練的目標預測指標，結果顯示端到端訓練方法在所有指標上表現更好。特別是在復合指令下，目標改進幅度更大，證明了該方法的有效性。
軌跡改進：與基準方法ST-P3相比，LeGo-Drive模型在目標可達性、軌跡平滑性等方面明顯優于基準方法。特別是復合指令下的最小最終位移誤差降低了60%，進一步證明了端到端訓練的優勢。
模型比較：通過比較端到端方法、解耦訓練和基準方法，結果顯示端到端方法在目標可達性和軌跡平滑性方面明顯優于其他方法。
定性結果：定性結果直觀展示了端到端方法生成的軌跡比基準方法更平滑，進一步驗證了實驗結果。

表Ⅲ: Goal Improvement

表IV: Trajectory Evaluation

圖4：不同以目標為中心的停車命令的目標改進。（左）查詢命令的前視圖圖像。（右）場景的俯視圖。目標位置從綠色中不理想的位置（(a)中的汽車頂部和(b)中的路邊邊緣）改進為紅色中的可到達位置

圖5:車削指令情況下的結果。在這兩幅圖中(上、下)，綠色的初始目標與車道中心的偏移量較大。該模型近似于改進版本的紅色顯示到車道中心

圖6:不同導航指令下軌跡改進的定性結果。與我們的(綠色)相比，紅色顯示的基線ST-P3軌跡始終規劃著一個不光滑的軌跡。所有行中的第三張圖顯示了我們在Frenet框架中的規劃，其中紅色矩形表示自我車輛，藍色表示周圍車輛，紅色十字表示目標位置以及用黑色實線表示的車道邊界

實驗結果證明了端到端訓練方法的有效性，能夠提高目標預測的準確性和軌跡的平滑性。

結論

本文通過將所提出的端到端方法作為目標點導航問題來解決，揭示了其與傳統解耦方法相比的明顯優勢。目標預測模塊與基于可微分優化器的軌跡規劃器的聯合訓練突出了方法的有效性，從而提高了準確性和上下文感知目標預測，最終產生更平滑、無碰撞的可導航軌跡。此外，還證明了所提出的模型適用于當前的視覺語言模型，以豐富的場景理解和生成帶有適當推理的詳細導航指令。

責任編輯：張燕妮來源：自動駕駛之心

端到端自動駕駛

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看