成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

駛向『閉環(huán)』| LMDrive:首篇基于LLM的閉環(huán)端到端自動駕駛

人工智能 智能汽車
本文介紹了LMDrive,這是一個語言引導的端到端閉環(huán)自動駕駛框架。LMDrive結合了自然語言指令和多模式傳感器數(shù)據(jù),實現(xiàn)了復雜駕駛場景中的人機交互和導航。

本文經(jīng)自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。

寫在前面&筆者的個人理解

汽車人這兩天在arxiv上看到了港中文MMLab&商湯的一篇關于閉環(huán)自動駕駛的工作,結合了大語言模型。不幸湯老師于12月15日與世長辭,R.I.P.

盡管自動駕駛領域最近取得了重大進展,但當遇到長尾不可預見事件和具有挑戰(zhàn)性的城市場景時,現(xiàn)代方法仍然很困難,可能會發(fā)生嚴重事故。一方面,大型語言模型(LLM)已經(jīng)顯示出接近“通用人工智能”的表達推理能力。另一方面,先前的自動駕駛方法往往依賴于有限的格式輸入(例如傳感器數(shù)據(jù)和導航路線點),限制了車輛理解語言信息和與人類互動的能力。為此,港中文 & MMLab重磅推出LMDrive,這是一種全新的語言引導、端到端閉環(huán)自動駕駛框架。LM-Drive獨特地處理并集成了多模態(tài)傳感器數(shù)據(jù)與自然語言指令,使其能夠在現(xiàn)實的教學環(huán)境中與人類和導航軟件進行交互。為了促進對基于語言的閉環(huán)自動駕駛的進一步研究,我們還公開發(fā)布了相應的數(shù)據(jù)集,其中包括大約64K的指令跟隨數(shù)據(jù)clip,以及測試系統(tǒng)處理復雜指令和具有挑戰(zhàn)性的駕駛場景的能力的LangAuto基準。進行了大量的閉環(huán)實驗來證明LMDrive的有效性。據(jù)我們所知,本文是第一個利用LLM實現(xiàn)閉環(huán)端到端自動駕駛的工作。

開源鏈接:https://github.com/opendilab/LMDrive

總結來說,LMDrive的主要貢獻如下:

  • 提出了一種新的端到端、閉環(huán)、基于語言的自動駕駛框架LMDrive,該框架通過多模態(tài)多視圖傳感器數(shù)據(jù)和自然語言指令與動態(tài)環(huán)境交互;
  • 提供了一個包含約64K個數(shù)據(jù)clip的數(shù)據(jù)集,其中每個片段包括一個導航指令、幾個通知指令、一系列多模態(tài)多視圖傳感器數(shù)據(jù)和控制信號。clip的持續(xù)時間從2秒到20秒不等。
  • 提出了全新的基準—LangAuto,用于評估將語言指令作為導航輸入的自主代理,其中包括誤導性/長指令和具有挑戰(zhàn)性的對抗性駕駛場景。
  • 本文進行了廣泛的閉環(huán)實驗,以證明所提出的框架的有效性,并分析了LMDrive的不同組件,以闡明沿著這一方向的持續(xù)研究。

相關工作回顧

端到端自動駕駛

最近,端到端自動駕駛領域取得了很大進展。UniAD設計了一個包含全棧驅動任務的框架,并利用查詢統(tǒng)一接口在不同任務之間進行通信。ThinkTwice設計了一個Look模塊來檢索關鍵區(qū)域的信息,并利用這些特征來細化粗略預測。ReasonNet利用駕駛場景的時間和全局信息來提高感知性能并有利于遮擋檢測。InterFuser提出了一種基于transformer的框架,以完全融合和處理來自多模態(tài)多視圖傳感器的信息,從而實現(xiàn)全面的場景理解。TCP提出了一種新的多步預測方法,將軌跡規(guī)劃和直接控制這兩個分支集成在一起。LAV引入了一些監(jiān)督任務來學習視點不變表示,該表示可以在訓練時提供更豐富的監(jiān)督信號,并在推理過程中為復雜推理提供更多信息。除了之前討論的模仿訓練方法之外,還有幾種方法試圖結合強化學習策略。以監(jiān)督的方式訓練潛在DRL,以獲得環(huán)境觀測的潛在表示,并使用該表示作為輸入進行強化學習。Roach使用了一個具有特權訪問環(huán)境信息的強化學習代理,并提取一個模型作為最終代理。ASAPRL和TaEcRL利用抽象技能,通過促進有效的探索和獎勵信號,有效提高強化學習效率和最終表現(xiàn)。然而,這些端到端的方法缺乏與人類(乘客)進行口頭或文本交互的能力,并且在決策過程中通常具有較低的可解釋性。

駕駛任務中的大語言模型

在過去的幾個月里,大型語言模型(LLM)取得了新的進展。此外,視覺大語言模型(VLLM)進一步引入了視覺編碼器,并為LLM不僅解釋文本數(shù)據(jù),還解釋其他模態(tài)的圖像和數(shù)據(jù)打開了大門。在自動駕駛領域,最近的研究將LLM集成到自動駕駛系統(tǒng)中,以更好地解釋和與人類的自然互動。一些研究采用了視覺語言模型方法,該方法可以處理多模態(tài)輸入數(shù)據(jù),并為駕駛場景提供文本描述和控制信號。例如,DRIVEGPT4提出了一種多模態(tài)LLM框架,該框架將一系列幀作為輸入,然后生成對人類詢問的響應,并預測下一步的控制信號。然而,由于該框架缺乏輸入命令,預測的控制無法遵循特定的導航命令,這表明該框架很難在真實場景中部署。與此同時,更多的研究人員專注于將駕駛情況轉換為文本描述,作為LLM的輸入,以直接解釋和推理綜合駕駛情況。在這一系列工作中,GPT-Driver通過將異構場景輸入轉換為語言標記,將運動規(guī)劃重新表述為自然語言建模的任務。LanguageMPC利用LLM來推理復雜場景并輸出高級駕駛決策。然后,該方法調諧參數(shù)矩陣以將決策轉換為低電平控制信號。LLM-Driver利用數(shù)字矢量作為輸入模態(tài),并融合矢量化對象級2D場景表示,使LLM能夠基于當前環(huán)境回答問題。

然而,這項工作只考慮了開環(huán)設置中的駕駛問題,而忽略了累積誤差、時間動作一致性和端到端可訓練性等問題,這些問題對于將模型帶入實際的閉環(huán)駕駛任務至關重要。據(jù)我們所知,我們是第一個在閉環(huán)環(huán)境中基于語言的端到端自動駕駛方法。相關數(shù)據(jù)集、基準和訓練模型也是開源的,以促進社區(qū)的進一步研究。

數(shù)據(jù)生成

數(shù)據(jù)集制作的目標是開發(fā)一種智能駕駛代理,該代理可以基于三種輸入源生成駕駛動作:1)傳感器數(shù)據(jù)(環(huán)視相機和激光雷達),使該代理能夠生成感知并符合當前場景的動作;2) 導航指令(例如變道、轉彎),使代理可以駕駛以滿足自然語言的要求(來自人類或導航軟件的指令);以及3)人類注意指令,使代理能夠與人類互動并適應人類的建議和偏好(例如,關注對抗性事件、處理長尾事件等)。本節(jié)描述了如何生成訓練代理所需的多模態(tài)數(shù)據(jù)集,以及導航指令和人工通知指令的提示設計。具體來說,我們選擇CARLA作為仿真器,因為它可以模擬真實的動態(tài)閉環(huán)世界,并且在端到端自動駕駛領域被廣泛采用。數(shù)據(jù)采集包括兩個階段:1)利用專家代理收集傳感器數(shù)據(jù)和控制信號;以及2)用指令解析和標記所收集的數(shù)據(jù)。

傳感器和控制數(shù)據(jù)收集。我們利用基于規(guī)則的專家代理來創(chuàng)建一個包括大約3M個驅動幀的數(shù)據(jù)集。由于專家代理可以訪問CARLA中的特權信息,因此該數(shù)據(jù)集將包括相機數(shù)據(jù)、激光雷達數(shù)據(jù)和每幀的控制動作。為了增強所收集數(shù)據(jù)集的多樣性,該代理在2.5k條路線、8個城鎮(zhèn)和21種環(huán)境條件(如天氣、一天中的時間)上運行。我們使用四個RGB相機(左、前、右、后)和一個激光雷達。側面攝像頭的角度為60°。此外,我們對前面的圖像進行中心裁剪,作為額外的聚焦視圖圖像,以捕捉遠處紅綠燈的狀態(tài)。激光雷達有64個通道,每秒產(chǎn)生600K個點。

解析和語言注釋。在第二階段,我們將收集的數(shù)據(jù)解析為clip,并用適當?shù)膶Ш街噶詈涂蛇x的通知指令標記每個片段。解析過程將一系列幀作為輸入,并將這些幀分段為clip,其中每個clip對應一個導航指令。例如,如果代理在第T0幀開始左轉并在第Tn幀結束,我們將把(T0,Tn)標記為新剪輯,并指示“在下一個十字路口左轉”。此外,如果在時間Ta發(fā)生對抗性事件1,我們將在該片段中添加一條通知指令,模擬真實場景,當緊急情況發(fā)生時,乘客或側面輔助系統(tǒng)將與駕駛員進行通信。如圖2所示,每個片段包括傳感器數(shù)據(jù)、控制信號、相應的導航指令和可選的通知指令。解析后的剪輯在剪輯長度和相應指令方面的分布如圖3所示。在我們的數(shù)據(jù)集中,我們收集了64K個解析片段和464K條通知指令。

指令設計。我們考慮三種類型的導航指令(跟隨、轉向和其他)以及一種類型的通知指令,共由56種不同的指令組成。表1顯示了一些示例,完整列表可在補充材料中找到。為了使代理能夠在現(xiàn)實的教學環(huán)境中駕駛,其中指令來自導航軟件或人類:

  • 使指令多樣化:考慮到自然語言的內在豐富性,對于每種類型的指令,使用ChatGPT API生成了八種不同的變體,每個變體具有相同的語義,但措辭不同。這使得語言解釋更加全面和靈活,能夠適應相同指令的不同傳達方式。
  • 包含誤導性說明:在現(xiàn)實世界中,導航軟件或乘客可能會向AV發(fā)出違反交通規(guī)則或引發(fā)安全問題的誤導性說明。例如,在單行道上,遵循“變左車道”的指示是危險的。為了提高我們的模型對誤導性指令的穩(wěn)健性,我們模擬了這些場景,并將它們添加到我們的數(shù)據(jù)集中。
  • 連接多個指令:在許多情況下,指令可能由兩到三個連續(xù)的指令組成,例如“在這個十字路口右轉,然后直行到下一個十字路口再右轉?!蔽覀冞€構建了一些連續(xù)的復雜指令數(shù)據(jù),以模擬真實的基于導航的駕駛場景。

LMDrive解析

在這項工作中,我們提出了LMDrive,這是一個可以通過自然語言理解和遵循高級駕駛指令的框架。如圖4所示,LM-Drive由兩個主要組件組成:1)視覺編碼器,處理多視圖多模態(tài)傳感器數(shù)據(jù)(相機和激光雷達),用于場景理解和生成視覺標記;2) 一個大型語言模型及其相關組件(標記器、Q-Former和適配器),該組件接收視覺標記和語言指令,以預測控制信號以及給定指令是否完成。

視覺編碼器

在視覺語言社區(qū)中,對齊視覺和語言的最常見方法可以是使用預先訓練的CLIP模型來編碼圖像特征。然而,CLIP模型的大觸發(fā)器和參數(shù)大小增加了其在AV系統(tǒng)中的部署難度。此外,AV感知系統(tǒng)通常是3D的,以包括激光雷達輸入。因此,受InterFuser和TF++的啟發(fā),我們設計了一種多視圖多模態(tài)視覺編碼器來編碼/融合傳感器數(shù)據(jù)。如圖5所示,視覺編碼器由傳感器編碼部分和BEV解碼器組成,傳感器編碼部分分別對圖像和激光雷達輸入進行編碼,BEV解碼器融合圖像和點云特征以生成視覺標記,然后將其傳遞到語言模型。值得注意的是,通過添加額外的預測頭,對視覺編碼器進行感知任務的預訓練,然后凍結編碼器以供大型語言模型稍后使用。

傳感器編碼。對于每個圖像輸入,使用2D主干ResNet來提取圖像特征圖。然后將特征圖展平為一維token。為了從多個角度全面理解全局上下文,來自不同視圖的令牌將通過標準K層transformer編碼器進行融合,每一層都包含多頭自注意力、MLP塊和layer normalization。對于激光雷達輸入,采用3D骨干PointPillars將原始點云數(shù)據(jù)處理為以自車為中心的激光雷達特征,其中每個pillar包含0.25m×0.25m區(qū)域內的點。然后使用PointNet來聚合特征,并將特征圖下采樣到C×H×W,隨后用作BEV查詢。

BEV解碼器。然后將上面編碼的傳感器特征傳遞到BEV解碼器中以生成視覺標記。具體而言,BEV解碼器被設計為具有K層的標準transformer。BEV點云特征作為H×W查詢被饋送到BEV解碼器,以關注多視圖圖像特征并生成BEV令牌。我們還將N個可學習查詢和1個可學習詢問饋送到BEV解碼器,以分別生成N個路點token和1個紅綠燈token。因此,三種類型的視覺標記(BEV、航路點和紅綠燈)將包含豐富的場景信息,然后將饋送給大型語言模型。

使用預測頭進行預訓練。我們考慮了三個視覺編碼器預訓練任務:目標檢測、未來航路點預測和紅綠燈狀態(tài)分類。對于目標檢測,BEVtoken將通過一個階段的中心點來預測Hm×Wm區(qū)域中目標的邊界框和速度。對于航路點預測,我們將N個航路點標記和導航航路點依次傳遞到GRU網(wǎng)絡中,以預測N個未來航路點。對于紅綠燈狀態(tài)分類,將2層MLP應用于紅綠燈令牌??紤]了三個相應的損耗項:1)InterFuser中的檢測損耗;2) l1路失分;以及3)交叉熵交通信號燈狀態(tài)損失。請注意,這些預測頭僅用于視覺編碼器的預訓練,并且將在LLM的訓練和整個模型的推理中被丟棄。

LLM for instruction-following auto driving

如圖4所示,在我們的框架中,LLM在整個駕駛過程中充當“大腦”,處理凍結視覺編碼器為每一幀生成的傳感器token,理解自然語言指令,生成必要的控制信號,并預測給定指令是否完成。具體而言,我們選擇LLaMA作為語言主干,它已被廣泛用于許多語言和視覺教學調整模型。我們還有三個相關的組件來橋接LLM與指令、視覺信息輸入和動作預測:1)標記器,2)Q-Former,3)兩個適配器。

指令和可視化tokenization。給定導航指令和可選通知指令,使用LLaMA標記器將指令轉換為文本標記。請注意,執(zhí)行一條指令的持續(xù)時間將從幾秒鐘到幾分鐘不等,并且我們的模型是在閉環(huán)設置中部署的。因此,在每一幀,我們利用所有歷史傳感器信息(具有最大極限Tmax)來降低累積誤差并提高模型的時間一致性。具體而言,對于每幀的多視圖多模態(tài)傳感器輸入,我們利用上一節(jié)中預先訓練的視覺編碼器來生成視覺標記(H×W BEV標記、N個航路點標記和一個紅綠燈標記)。然而,視覺標記的數(shù)量(例如,每幀406個標記)對于LLM來說迅速增長得太大,因為通常需要數(shù)百個幀來完成一條指令。為了克服這一點,本文遵循BLIP-2 使用Q-Former來減少視覺標記的數(shù)量。具體來說,對于每一幀,我們使用M個可學習查詢來通過交叉注意力層處理視覺令牌,這可以將每一幀的視覺令牌數(shù)量減少到M。隨后,我們使用2層MLP適配器將Q-Former提取的令牌轉換為與語言令牌共享相同的維度,然后將其饋送到LLM中。

行為預測。在接收到一系列指令和視覺標記后,LLM預測動作標記。然后應用另一個2層MLP適配器來預測未來的路點,以及指示給定指令是否已完成的標志。注意,為了增強監(jiān)督信號,我們還將在訓練期間對每個歷史幀進行預測,并且在推理時只執(zhí)行最新幀的預測。為了獲得最終的控制信號,包括制動、節(jié)流和轉向,遵循LBC,使用兩個PID控制器進行橫向和縱向控制,分別跟蹤預測航路點的航向和速度。

訓練目標。當微調LLM及其相關組件時,我們考慮兩個損失項:1)l1航路點損失;2) 分類損失(交叉熵),用于確定當前幀是否完成給定的指令。

LangAuto基準

我們提出了LangAuto(語言引導的自動駕駛)CARLA基準,這是第一個評估語言指令下閉環(huán)駕駛性能的基準。與之前的CARLA基準測試Town05和Longest6相比,我們的基準測試僅為AV提供自然語言的導航指令和可選通知指令。

具體而言,LangAuto基準涵蓋了CARLA的所有8個公共城鎮(zhèn),包括各種場景(如高速公路、十字路口、環(huán)形交叉口)。我們還考慮了16種環(huán)境條件,包括7種天氣條件(晴朗、多云、潮濕、中雨、多云、大雨、軟雨)和3種日光條件(夜間、中午、日落)的組合。此外,LangAuto由三個軌道組成,以全面測試agent的指令跟隨能力:

  • LangAuto跟蹤:對于每條路線,都會根據(jù)代理的當前位置向代理提供并更新導航指令。我們還將這條賽道分為三個不同路線長度的經(jīng)典賽道,以更好地區(qū)分性能。路線長度超過500米的LangAuto,路線長度在150米到500米之間的LangAuto Short,以及路線長度短于150米的LangAuto Tiny。
  • LangAuto-Notice跟蹤:在LangAuto跟蹤的基礎上,我們向代理添加了額外的通知說明。該設置模擬了乘客或其他輔助系統(tǒng)可以在長距離復雜或對抗性場景中發(fā)出實時通知的真實情況,這通常是AV系統(tǒng)難以自行處理的。理想情況下,能夠理解和利用指令的代理可以實現(xiàn)更好的性能。
  • LangAuto-Sequential跟蹤:基于LangAuto跟蹤,我們將10%的連續(xù)2到3條指令合并為一條長指令。此設置模擬了來自乘客或導航軟件的多語句指令的現(xiàn)實場景。

請注意,誤導性指示將隨機(~5%)間歇性地提供給駕駛代理,并持續(xù)一定的時間(1-2秒)。駕駛代理應拒絕這些誤導性指令,并執(zhí)行符合當前場景的安全操作,直到產(chǎn)生下一個正確指令。

實驗結果

定量結果

消融實驗

LangAuto-Notice Benchmark

LangAuto-Sequential Benchmark

可視化結果

結論

本文介紹了LMDrive,這是一個語言引導的端到端閉環(huán)自動駕駛框架。LMDrive結合了自然語言指令和多模式傳感器數(shù)據(jù),實現(xiàn)了復雜駕駛場景中的人機交互和導航。我們還提出了語言引導駕駛數(shù)據(jù)集,包括大約64K個多模態(tài)數(shù)據(jù)片段以及相應的導航指令。此外還建立了LangAuto基準,用于評估考慮自然語言指令的自動駕駛系統(tǒng)。通過廣泛的閉環(huán)實驗證明了LMDrive的有效性,強調了改善自動駕駛汽車與人類和環(huán)境相互作用的潛力。我們的工作是在基于語言的閉環(huán)端到端自動駕駛領域進一步探索和發(fā)展的一個鼓勵起點。

原文鏈接:https://mp.weixin.qq.com/s/2TSWGZTiBYkwF8xteKcu8w

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2024-06-05 09:22:43

2024-01-04 09:27:00

模型自動駕駛

2023-04-28 09:24:50

自動駕駛數(shù)據(jù)

2023-10-30 09:47:00

自動駕駛技術

2025-04-11 09:48:26

2024-04-29 09:36:14

仿真器傳感器

2024-08-29 10:20:00

3D自動駕駛

2020-09-28 14:00:06

自動駕駛AI網(wǎng)絡

2023-08-05 13:08:54

2023-08-24 09:52:44

自動駕駛設計

2024-04-15 11:40:37

自動駕駛端到端

2024-08-14 10:40:00

模型自動駕駛

2024-02-21 09:14:32

端到端自動駕駛

2023-10-13 09:43:36

自動駕駛數(shù)據(jù)

2023-12-08 09:50:44

自動駕駛機器學習數(shù)據(jù)

2022-08-09 14:42:44

自動駕駛算力

2024-01-04 09:35:41

自動駕駛端到端

2022-08-29 09:15:54

自動駕駛數(shù)據(jù)

2025-02-10 10:35:00

自動駕駛端到端模型

2024-03-13 09:39:45

端到端自動駕駛
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人午夜电影在线观看 | 国产精品久久久久久久久久妞妞 | 在线观看亚洲专区 | 久久久久国产精品午夜一区 | 国产一区在线免费观看视频 | 91精品国产一区 | 伊人精品在线视频 | 国产一区高清 | 精品国产一区二区三区性色av | 最新av在线播放 | 久久国产成人 | 国产精品视频一二三区 | 在线观看www | 国产成人精品在线 | 免费一级淫片aaa片毛片a级 | 玖玖视频国产 | 青青草原精品99久久精品66 | 欧美在线一区二区三区 | 狠狠爱免费视频 | 亚洲91精品 | 亚洲一区 中文字幕 | 精品无码久久久久久久动漫 | 免费看av大片| 日日碰狠狠躁久久躁婷婷 | 三区四区在线观看 | 丁香婷婷在线视频 | 一区二区三区四区国产精品 | 欧美一级欧美三级在线观看 | 欧美亚州综合 | 国产真实精品久久二三区 | 国产黄a一级 | 国产精品日韩欧美一区二区 | 精品一区二区久久久久久久网精 | 亚洲欧美久久 | 国产色片在线 | 久久久久久久综合色一本 | 在线一区视频 | 亚洲播放一区 | 日本精品裸体写真集在线观看 | 午夜羞羞| 97伦理电影|