成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<label id="16166"><wbr id="16166"></wbr></label>

<blockquote id="16166"><option id="16166"></option></blockquote><blockquote id="16166"><option id="16166"><code id="16166"></code></option></blockquote>

<cite id="16166"><dl id="16166"></dl></cite>

<abbr id="16166"><strong id="16166"></strong></abbr>

<ol id="16166"><dl id="16166"></dl></ol>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

駛向『閉環(huán)』| LMDrive：首篇基于LLM的閉環(huán)端到端自動駕駛

作者：汽車人 2023-12-18 10:15:30

人工智能智能汽車

本文介紹了LMDrive，這是一個語言引導的端到端閉環(huán)自動駕駛框架。LMDrive結合了自然語言指令和多模式傳感器數(shù)據(jù)，實現(xiàn)了復雜駕駛場景中的人機交互和導航。

本文經(jīng)自動駕駛之心公眾號授權轉載，轉載請聯(lián)系出處。

寫在前面&筆者的個人理解

汽車人這兩天在arxiv上看到了港中文MMLab&商湯的一篇關于閉環(huán)自動駕駛的工作，結合了大語言模型。不幸湯老師于12月15日與世長辭，R.I.P.

盡管自動駕駛領域最近取得了重大進展，但當遇到長尾不可預見事件和具有挑戰(zhàn)性的城市場景時，現(xiàn)代方法仍然很困難，可能會發(fā)生嚴重事故。一方面，大型語言模型（LLM）已經(jīng)顯示出接近“通用人工智能”的表達推理能力。另一方面，先前的自動駕駛方法往往依賴于有限的格式輸入（例如傳感器數(shù)據(jù)和導航路線點），限制了車輛理解語言信息和與人類互動的能力。為此，港中文 & MMLab重磅推出LMDrive，這是一種全新的語言引導、端到端閉環(huán)自動駕駛框架。LM-Drive獨特地處理并集成了多模態(tài)傳感器數(shù)據(jù)與自然語言指令，使其能夠在現(xiàn)實的教學環(huán)境中與人類和導航軟件進行交互。為了促進對基于語言的閉環(huán)自動駕駛的進一步研究，我們還公開發(fā)布了相應的數(shù)據(jù)集，其中包括大約64K的指令跟隨數(shù)據(jù)clip，以及測試系統(tǒng)處理復雜指令和具有挑戰(zhàn)性的駕駛場景的能力的LangAuto基準。進行了大量的閉環(huán)實驗來證明LMDrive的有效性。據(jù)我們所知，本文是第一個利用LLM實現(xiàn)閉環(huán)端到端自動駕駛的工作。

開源鏈接：https://github.com/opendilab/LMDrive

總結來說，LMDrive的主要貢獻如下：

提出了一種新的端到端、閉環(huán)、基于語言的自動駕駛框架LMDrive，該框架通過多模態(tài)多視圖傳感器數(shù)據(jù)和自然語言指令與動態(tài)環(huán)境交互；
提供了一個包含約64K個數(shù)據(jù)clip的數(shù)據(jù)集，其中每個片段包括一個導航指令、幾個通知指令、一系列多模態(tài)多視圖傳感器數(shù)據(jù)和控制信號。clip的持續(xù)時間從2秒到20秒不等。
提出了全新的基準—LangAuto，用于評估將語言指令作為導航輸入的自主代理，其中包括誤導性/長指令和具有挑戰(zhàn)性的對抗性駕駛場景。
本文進行了廣泛的閉環(huán)實驗，以證明所提出的框架的有效性，并分析了LMDrive的不同組件，以闡明沿著這一方向的持續(xù)研究。

相關工作回顧

端到端自動駕駛

最近，端到端自動駕駛領域取得了很大進展。UniAD設計了一個包含全棧驅動任務的框架，并利用查詢統(tǒng)一接口在不同任務之間進行通信。ThinkTwice設計了一個Look模塊來檢索關鍵區(qū)域的信息，并利用這些特征來細化粗略預測。ReasonNet利用駕駛場景的時間和全局信息來提高感知性能并有利于遮擋檢測。InterFuser提出了一種基于transformer的框架，以完全融合和處理來自多模態(tài)多視圖傳感器的信息，從而實現(xiàn)全面的場景理解。TCP提出了一種新的多步預測方法，將軌跡規(guī)劃和直接控制這兩個分支集成在一起。LAV引入了一些監(jiān)督任務來學習視點不變表示，該表示可以在訓練時提供更豐富的監(jiān)督信號，并在推理過程中為復雜推理提供更多信息。除了之前討論的模仿訓練方法之外，還有幾種方法試圖結合強化學習策略。以監(jiān)督的方式訓練潛在DRL，以獲得環(huán)境觀測的潛在表示，并使用該表示作為輸入進行強化學習。Roach使用了一個具有特權訪問環(huán)境信息的強化學習代理，并提取一個模型作為最終代理。ASAPRL和TaEcRL利用抽象技能，通過促進有效的探索和獎勵信號，有效提高強化學習效率和最終表現(xiàn)。然而，這些端到端的方法缺乏與人類（乘客）進行口頭或文本交互的能力，并且在決策過程中通常具有較低的可解釋性。

駕駛任務中的大語言模型

在過去的幾個月里，大型語言模型（LLM）取得了新的進展。此外，視覺大語言模型（VLLM）進一步引入了視覺編碼器，并為LLM不僅解釋文本數(shù)據(jù)，還解釋其他模態(tài)的圖像和數(shù)據(jù)打開了大門。在自動駕駛領域，最近的研究將LLM集成到自動駕駛系統(tǒng)中，以更好地解釋和與人類的自然互動。一些研究采用了視覺語言模型方法，該方法可以處理多模態(tài)輸入數(shù)據(jù)，并為駕駛場景提供文本描述和控制信號。例如，DRIVEGPT4提出了一種多模態(tài)LLM框架，該框架將一系列幀作為輸入，然后生成對人類詢問的響應，并預測下一步的控制信號。然而，由于該框架缺乏輸入命令，預測的控制無法遵循特定的導航命令，這表明該框架很難在真實場景中部署。與此同時，更多的研究人員專注于將駕駛情況轉換為文本描述，作為LLM的輸入，以直接解釋和推理綜合駕駛情況。在這一系列工作中，GPT-Driver通過將異構場景輸入轉換為語言標記，將運動規(guī)劃重新表述為自然語言建模的任務。LanguageMPC利用LLM來推理復雜場景并輸出高級駕駛決策。然后，該方法調諧參數(shù)矩陣以將決策轉換為低電平控制信號。LLM-Driver利用數(shù)字矢量作為輸入模態(tài)，并融合矢量化對象級2D場景表示，使LLM能夠基于當前環(huán)境回答問題。

然而，這項工作只考慮了開環(huán)設置中的駕駛問題，而忽略了累積誤差、時間動作一致性和端到端可訓練性等問題，這些問題對于將模型帶入實際的閉環(huán)駕駛任務至關重要。據(jù)我們所知，我們是第一個在閉環(huán)環(huán)境中基于語言的端到端自動駕駛方法。相關數(shù)據(jù)集、基準和訓練模型也是開源的，以促進社區(qū)的進一步研究。

數(shù)據(jù)生成

數(shù)據(jù)集制作的目標是開發(fā)一種智能駕駛代理，該代理可以基于三種輸入源生成駕駛動作：1）傳感器數(shù)據(jù)（環(huán)視相機和激光雷達），使該代理能夠生成感知并符合當前場景的動作；2）導航指令（例如變道、轉彎），使代理可以駕駛以滿足自然語言的要求（來自人類或導航軟件的指令）；以及3）人類注意指令，使代理能夠與人類互動并適應人類的建議和偏好（例如，關注對抗性事件、處理長尾事件等）。本節(jié)描述了如何生成訓練代理所需的多模態(tài)數(shù)據(jù)集，以及導航指令和人工通知指令的提示設計。具體來說，我們選擇CARLA作為仿真器，因為它可以模擬真實的動態(tài)閉環(huán)世界，并且在端到端自動駕駛領域被廣泛采用。數(shù)據(jù)采集包括兩個階段：1）利用專家代理收集傳感器數(shù)據(jù)和控制信號；以及2）用指令解析和標記所收集的數(shù)據(jù)。

傳感器和控制數(shù)據(jù)收集。我們利用基于規(guī)則的專家代理來創(chuàng)建一個包括大約3M個驅動幀的數(shù)據(jù)集。由于專家代理可以訪問CARLA中的特權信息，因此該數(shù)據(jù)集將包括相機數(shù)據(jù)、激光雷達數(shù)據(jù)和每幀的控制動作。為了增強所收集數(shù)據(jù)集的多樣性，該代理在2.5k條路線、8個城鎮(zhèn)和21種環(huán)境條件（如天氣、一天中的時間）上運行。我們使用四個RGB相機（左、前、右、后）和一個激光雷達。側面攝像頭的角度為60°。此外，我們對前面的圖像進行中心裁剪，作為額外的聚焦視圖圖像，以捕捉遠處紅綠燈的狀態(tài)。激光雷達有64個通道，每秒產(chǎn)生600K個點。

解析和語言注釋。在第二階段，我們將收集的數(shù)據(jù)解析為clip，并用適當?shù)膶Ш街噶詈涂蛇x的通知指令標記每個片段。解析過程將一系列幀作為輸入，并將這些幀分段為clip，其中每個clip對應一個導航指令。例如，如果代理在第T0幀開始左轉并在第Tn幀結束，我們將把（T0，Tn）標記為新剪輯，并指示“在下一個十字路口左轉”。此外，如果在時間Ta發(fā)生對抗性事件1，我們將在該片段中添加一條通知指令，模擬真實場景，當緊急情況發(fā)生時，乘客或側面輔助系統(tǒng)將與駕駛員進行通信。如圖2所示，每個片段包括傳感器數(shù)據(jù)、控制信號、相應的導航指令和可選的通知指令。解析后的剪輯在剪輯長度和相應指令方面的分布如圖3所示。在我們的數(shù)據(jù)集中，我們收集了64K個解析片段和464K條通知指令。

指令設計。我們考慮三種類型的導航指令（跟隨、轉向和其他）以及一種類型的通知指令，共由56種不同的指令組成。表1顯示了一些示例，完整列表可在補充材料中找到。為了使代理能夠在現(xiàn)實的教學環(huán)境中駕駛，其中指令來自導航軟件或人類：

使指令多樣化：考慮到自然語言的內在豐富性，對于每種類型的指令，使用ChatGPT API生成了八種不同的變體，每個變體具有相同的語義，但措辭不同。這使得語言解釋更加全面和靈活，能夠適應相同指令的不同傳達方式。
包含誤導性說明：在現(xiàn)實世界中，導航軟件或乘客可能會向AV發(fā)出違反交通規(guī)則或引發(fā)安全問題的誤導性說明。例如，在單行道上，遵循“變左車道”的指示是危險的。為了提高我們的模型對誤導性指令的穩(wěn)健性，我們模擬了這些場景，并將它們添加到我們的數(shù)據(jù)集中。
連接多個指令：在許多情況下，指令可能由兩到三個連續(xù)的指令組成，例如“在這個十字路口右轉，然后直行到下一個十字路口再右轉?！蔽覀冞€構建了一些連續(xù)的復雜指令數(shù)據(jù)，以模擬真實的基于導航的駕駛場景。

LMDrive解析

在這項工作中，我們提出了LMDrive，這是一個可以通過自然語言理解和遵循高級駕駛指令的框架。如圖4所示，LM-Drive由兩個主要組件組成：1）視覺編碼器，處理多視圖多模態(tài)傳感器數(shù)據(jù)（相機和激光雷達），用于場景理解和生成視覺標記；2）一個大型語言模型及其相關組件（標記器、Q-Former和適配器），該組件接收視覺標記和語言指令，以預測控制信號以及給定指令是否完成。

視覺編碼器

在視覺語言社區(qū)中，對齊視覺和語言的最常見方法可以是使用預先訓練的CLIP模型來編碼圖像特征。然而，CLIP模型的大觸發(fā)器和參數(shù)大小增加了其在AV系統(tǒng)中的部署難度。此外，AV感知系統(tǒng)通常是3D的，以包括激光雷達輸入。因此，受InterFuser和TF++的啟發(fā)，我們設計了一種多視圖多模態(tài)視覺編碼器來編碼/融合傳感器數(shù)據(jù)。如圖5所示，視覺編碼器由傳感器編碼部分和BEV解碼器組成，傳感器編碼部分分別對圖像和激光雷達輸入進行編碼，BEV解碼器融合圖像和點云特征以生成視覺標記，然后將其傳遞到語言模型。值得注意的是，通過添加額外的預測頭，對視覺編碼器進行感知任務的預訓練，然后凍結編碼器以供大型語言模型稍后使用。

傳感器編碼。對于每個圖像輸入，使用2D主干ResNet來提取圖像特征圖。然后將特征圖展平為一維token。為了從多個角度全面理解全局上下文，來自不同視圖的令牌將通過標準K層transformer編碼器進行融合，每一層都包含多頭自注意力、MLP塊和layer normalization。對于激光雷達輸入，采用3D骨干PointPillars將原始點云數(shù)據(jù)處理為以自車為中心的激光雷達特征，其中每個pillar包含0.25m×0.25m區(qū)域內的點。然后使用PointNet來聚合特征，并將特征圖下采樣到C×H×W，隨后用作BEV查詢。

BEV解碼器。然后將上面編碼的傳感器特征傳遞到BEV解碼器中以生成視覺標記。具體而言，BEV解碼器被設計為具有K層的標準transformer。BEV點云特征作為H×W查詢被饋送到BEV解碼器，以關注多視圖圖像特征并生成BEV令牌。我們還將N個可學習查詢和1個可學習詢問饋送到BEV解碼器，以分別生成N個路點token和1個紅綠燈token。因此，三種類型的視覺標記（BEV、航路點和紅綠燈）將包含豐富的場景信息，然后將饋送給大型語言模型。

使用預測頭進行預訓練。我們考慮了三個視覺編碼器預訓練任務：目標檢測、未來航路點預測和紅綠燈狀態(tài)分類。對于目標檢測，BEVtoken將通過一個階段的中心點來預測Hm×Wm區(qū)域中目標的邊界框和速度。對于航路點預測，我們將N個航路點標記和導航航路點依次傳遞到GRU網(wǎng)絡中，以預測N個未來航路點。對于紅綠燈狀態(tài)分類，將2層MLP應用于紅綠燈令牌?？紤]了三個相應的損耗項：1）InterFuser中的檢測損耗；2） l1路失分；以及3）交叉熵交通信號燈狀態(tài)損失。請注意，這些預測頭僅用于視覺編碼器的預訓練，并且將在LLM的訓練和整個模型的推理中被丟棄。

LLM for instruction-following auto driving

如圖4所示，在我們的框架中，LLM在整個駕駛過程中充當“大腦”，處理凍結視覺編碼器為每一幀生成的傳感器token，理解自然語言指令，生成必要的控制信號，并預測給定指令是否完成。具體而言，我們選擇LLaMA作為語言主干，它已被廣泛用于許多語言和視覺教學調整模型。我們還有三個相關的組件來橋接LLM與指令、視覺信息輸入和動作預測：1）標記器，2）Q-Former，3）兩個適配器。

指令和可視化tokenization。給定導航指令和可選通知指令，使用LLaMA標記器將指令轉換為文本標記。請注意，執(zhí)行一條指令的持續(xù)時間將從幾秒鐘到幾分鐘不等，并且我們的模型是在閉環(huán)設置中部署的。因此，在每一幀，我們利用所有歷史傳感器信息（具有最大極限Tmax）來降低累積誤差并提高模型的時間一致性。具體而言，對于每幀的多視圖多模態(tài)傳感器輸入，我們利用上一節(jié)中預先訓練的視覺編碼器來生成視覺標記（H×W BEV標記、N個航路點標記和一個紅綠燈標記）。然而，視覺標記的數(shù)量（例如，每幀406個標記）對于LLM來說迅速增長得太大，因為通常需要數(shù)百個幀來完成一條指令。為了克服這一點，本文遵循BLIP-2 使用Q-Former來減少視覺標記的數(shù)量。具體來說，對于每一幀，我們使用M個可學習查詢來通過交叉注意力層處理視覺令牌，這可以將每一幀的視覺令牌數(shù)量減少到M。隨后，我們使用2層MLP適配器將Q-Former提取的令牌轉換為與語言令牌共享相同的維度，然后將其饋送到LLM中。

行為預測。在接收到一系列指令和視覺標記后，LLM預測動作標記。然后應用另一個2層MLP適配器來預測未來的路點，以及指示給定指令是否已完成的標志。注意，為了增強監(jiān)督信號，我們還將在訓練期間對每個歷史幀進行預測，并且在推理時只執(zhí)行最新幀的預測。為了獲得最終的控制信號，包括制動、節(jié)流和轉向，遵循LBC，使用兩個PID控制器進行橫向和縱向控制，分別跟蹤預測航路點的航向和速度。

訓練目標。當微調LLM及其相關組件時，我們考慮兩個損失項：1）l1航路點損失；2）分類損失（交叉熵），用于確定當前幀是否完成給定的指令。

LangAuto基準

我們提出了LangAuto（語言引導的自動駕駛）CARLA基準，這是第一個評估語言指令下閉環(huán)駕駛性能的基準。與之前的CARLA基準測試Town05和Longest6相比，我們的基準測試僅為AV提供自然語言的導航指令和可選通知指令。

具體而言，LangAuto基準涵蓋了CARLA的所有8個公共城鎮(zhèn)，包括各種場景（如高速公路、十字路口、環(huán)形交叉口）。我們還考慮了16種環(huán)境條件，包括7種天氣條件（晴朗、多云、潮濕、中雨、多云、大雨、軟雨）和3種日光條件（夜間、中午、日落）的組合。此外，LangAuto由三個軌道組成，以全面測試agent的指令跟隨能力：

LangAuto跟蹤：對于每條路線，都會根據(jù)代理的當前位置向代理提供并更新導航指令。我們還將這條賽道分為三個不同路線長度的經(jīng)典賽道，以更好地區(qū)分性能。路線長度超過500米的LangAuto，路線長度在150米到500米之間的LangAuto Short，以及路線長度短于150米的LangAuto Tiny。
LangAuto-Notice跟蹤：在LangAuto跟蹤的基礎上，我們向代理添加了額外的通知說明。該設置模擬了乘客或其他輔助系統(tǒng)可以在長距離復雜或對抗性場景中發(fā)出實時通知的真實情況，這通常是AV系統(tǒng)難以自行處理的。理想情況下，能夠理解和利用指令的代理可以實現(xiàn)更好的性能。
LangAuto-Sequential跟蹤：基于LangAuto跟蹤，我們將10%的連續(xù)2到3條指令合并為一條長指令。此設置模擬了來自乘客或導航軟件的多語句指令的現(xiàn)實場景。

請注意，誤導性指示將隨機（～5%）間歇性地提供給駕駛代理，并持續(xù)一定的時間（1-2秒）。駕駛代理應拒絕這些誤導性指令，并執(zhí)行符合當前場景的安全操作，直到產(chǎn)生下一個正確指令。

實驗結果

定量結果

消融實驗

LangAuto-Notice Benchmark

LangAuto-Sequential Benchmark

可視化結果

結論

本文介紹了LMDrive，這是一個語言引導的端到端閉環(huán)自動駕駛框架。LMDrive結合了自然語言指令和多模式傳感器數(shù)據(jù)，實現(xiàn)了復雜駕駛場景中的人機交互和導航。我們還提出了語言引導駕駛數(shù)據(jù)集，包括大約64K個多模態(tài)數(shù)據(jù)片段以及相應的導航指令。此外還建立了LangAuto基準，用于評估考慮自然語言指令的自動駕駛系統(tǒng)。通過廣泛的閉環(huán)實驗證明了LMDrive的有效性，強調了改善自動駕駛汽車與人類和環(huán)境相互作用的潛力。我們的工作是在基于語言的閉環(huán)端到端自動駕駛領域進一步探索和發(fā)展的一個鼓勵起點。

原文鏈接：https://mp.weixin.qq.com/s/2TSWGZTiBYkwF8xteKcu8w

責任編輯：張燕妮來源：自動駕駛之心

自動駕駛自然語言

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：成人午夜电影在线观看 | 国产精品久久久久久久久久妞妞 | 在线观看亚洲专区 | 久久久久国产精品午夜一区 | 国产一区在线免费观看视频 | 91精品国产一区 | 伊人精品在线视频 | 国产一区高清 | 精品国产一区二区三区性色av | 最新av在线播放 | 久久国产成人 | 国产精品视频一二三区 | 在线观看www | 国产成人精品在线 | 免费一级淫片aaa片毛片a级 | 玖玖视频国产 | 青青草原精品99久久精品66 | 欧美在线一区二区三区 | 狠狠爱免费视频 | 亚洲91精品 | 亚洲一区中文字幕 | 精品无码久久久久久久动漫 | 免费看av大片| 日日碰狠狠躁久久躁婷婷 | 三区四区在线观看 | 丁香婷婷在线视频 | 一区二区三区四区国产精品 | 欧美一级欧美三级在线观看 | 欧美亚州综合 | 国产真实精品久久二三区 | 国产黄a一级 | 国产精品日韩欧美一区二区 | 精品一区二区久久久久久久网精 | 亚洲欧美久久 | 国产色片在线 | 久久久久久久综合色一本 | 在线一区视频 | 亚洲播放一区 | 日本精品裸体写真集在线观看 | 午夜羞羞| 97伦理电影|

<abbr id="16616"></abbr>

<ol id="16616"><dl id="16616"><td id="16616"></td></dl></ol>

<mark id="16616"><form id="16616"></form></mark>

<mark id="16616"><form id="16616"></form></mark>