全球首個基于大語言模型的自動駕駛語言控制模型

作者：Haicheng Liao 2024-03-19 13:12:36

今天為大家分享澳門大學最新的工作—CAVG，首個基于大語言模型的自動駕駛語言控制模型！

Arxiv論文鏈接：https://arxiv.org/abs/2312.03543
項目主頁：https://github.com/Petrichor625/Talk2car_CAVG

近年來，工業界和學術界都爭先恐后地研發全自動駕駛汽車（AVs）。盡管自動駕駛行業已經取得了顯著進展，但公眾仍然難以完全接受且信任自動駕駛汽車。公眾對完全將控制權交給人工智能的接受度仍然相對謹慎，這主要受到了對人機交互可靠性的擔憂以及對失去控制的恐懼的阻礙。這些挑戰在復雜的駕駛情境中尤為凸顯，車輛必須做出分秒必爭的決定，這強調了加強人與機器之間溝通的緊迫需求。因此，開發一個能讓乘客通過語言指令控制車輛的系統顯得尤為重要。這要求系統允許乘客基于當前的交通環境給出相應指令，自動駕駛汽車需準確理解這些口頭指令并做出符合發令者真實意圖的操作。

得益于大型語言模型（LLMs）的快速發展，與自動駕駛汽車進行語言交流已經變得可行。澳門大學智慧城市物聯網國家重點實驗室須成忠教授、李振寧助理教授團隊聯合重慶大學，吉林大學科研團隊提出了首個基于大語言模型的自動駕駛自然語言控制模型（CAVG）。該研究使用了大語言模型（GPT-4）作為乘客的語意情感分析，捕捉自然語言命令中的細膩情感內容，同時結合跨模態注意力機制，讓自動駕駛車輛識別乘客的語意目的，進而定位到對應的交通道路區域，改變了傳統乘客和自動駕駛汽車交互的方式。該研究還利用區域特定動態層注意力機制(RSD Layer Attention)作為解碼器，幫助汽車精確識別和理解乘客的語言指令，定位到符合意圖的關鍵區域，從而實現了一種高效的“與車對話”（Talk to Car）的交互方式。

自動駕駛汽車理解乘客語意，涉及到兩個關鍵領域——計算機視覺和自然語言處理。如何利用跨模態的算法，在復雜的語言描述和實際場景之間建立有效的橋梁，使得駕駛系統能夠全面理解乘客的意圖，并在多樣的目標中進行智能選擇，是當前研究的一個關鍵問題。

鑒于乘客的語言表達與實際場景之間存在較大的差異，傳統方法通常難以準確地將乘客的語言描述轉化為實際駕駛目標。現有的挑戰在于：傳統模型很難實現乘客的意圖分析，模型往往無法在全局場景下進行綜合信息分析，由于陷入局部分析而給出錯誤的定位結果。同時在面對多個符合語義的潛在目標時，模型如何判斷篩選，從中選擇最符合乘客期待的結果也是研究的一個關鍵難題。

現有的視覺定位的算法主要分為兩大類，One-Stage Methods和Two-Stage Methods：

One-Stage Methods: One-Stage Methods本質上是一種端到端的算法，它只需要一個單一的網絡就能夠同時完成定位和分類兩件事。在這種方法中的核心思想是將文本特征和圖片特征進行編碼，然后映射到特定的語意空間中，接著直接在整張圖像上預測對象的類別和位置，沒有單獨的區域提取步驟。
Two-Stage Methods：在Two-Stage Methods中，視覺定位任務拆成先定位、后識別的兩個階段。其核心思想是利用一個視覺網絡(如CenterNet)，在圖像中識別出潛在的感興趣區域(Regions of Interest, ROI)，將潛在的符合語意的位置和對應的特征向量保存下來。ROI區域將有用的前景信息盡可能多地保留下來，同時濾除掉對后續任務無用的背景信息，隨后在第二個識別階段，結合對應的語意信息在多個ROI區域中挑選出最符合語意的結果。

但不管是哪個任務，如何更好地理解不同模態信息之間的交互關系是圖文視覺定位必須解決的核心問題。

算法和模型介紹

作者將視覺定位問題歸納為:“通過給出乘客的目標指令與自動駕駛汽車的前視圖，模型能夠處理一幅車輛的正面視圖圖像，以遵循給定的命令，在圖像中準確指出車輛應導航至的目的地區域。”

圖1.1 Region Proposal示意圖

為了使這一目標具體化，模型將考慮為一個映射問題：將文本向量映射到候選子區域中最合適的子區域。具體而言，CAVG基于Two-Stage Methods的架構思想，利用CenterNet模型在圖像I提取分割出多個候選區域（Region Proposal），提取出對應區域的區域特征向量和候選區域框(bounding boxes)。如下圖所示, CAVG使用Encoder-Decoder架構：包含文本、情感、視覺、上下文編碼器和跨模態編碼器以及多模態解碼器。該模型利用最先進的大語言模型（GPT-4V）來捕捉上下文語義和學習人類情感特征,并引入全新的多頭跨模態注意力機制和用于注意力調制的特定區域動態（RSD）層進一步處理和解釋一系列跨模態輸入，在所有Region Proposals中選擇最契合指令的區域。

圖1.2 CAVG模型架構圖

Text Encoder: 文本編碼器使用BERT的文本編碼表示生成對映Command的文本向量，表示為c。輸入命令c通過BERT的Tokenizer分詞器分詞成序列，然后輸入到BERT模型中，生成對應的文本向量，包含了輸入命令的文本特征。

Emotion Encoder: 情感編碼器調用 GPT-4 進行情感分析。利用GPT4將每條輸入命令都經過預處理，然后它分析文本，識別乘客對應的情感狀態，劃分歸類為預定義的類別之一。如Urgent，Comamanding，Informative等。假如對乘客的指令的情感分析歸類為Urgent，意味著乘客的命令由于其時間敏感性或關鍵性質需要立即采取行動。例如，乘客使用的指令為：“Wow hold on! That looks like my stolen bike over there! Drop me off next to it.”，指令中傳達了一種需要立即關注的緊急情緒。情感編碼器識別出這種情感狀態，作為文本情感向量輸入到模型中，幫助模型推斷的目的地應該在最近的靠邊區域搜索。

Vison Encoder: 視覺編碼器專門用于從輸入的視覺圖像中提取豐富的視覺信息。視覺編碼器的架構基于先進的圖像處理技術，編碼器利用CenterNet提取出候選區域（如樹木、車輛、自行車和行人等），利用ResNet-101網絡架構將這候選區域的局部特征向量提取出來。

Context Encoder: 上下文編碼器利用預訓練模型BLIP作為骨架，輸入對應的提取文本向量和全局圖片，將這部分向量進行文本-圖片跨模態對齊。上下文編碼器采取了一種更全面的方法。該部分編碼器不僅旨在識別輸入圖像中的關鍵焦點，而且還超越了Region Proposal局部區域邊界框的限制，辨別整個視覺場景中更廣泛的上下文關系。這部分全局特征向量捕捉了一些例如車道標記、行人路徑、交通標志的關鍵的上下文細節。通過引入全局向量擴展的視野使我們的模型能夠吸收更廣泛的視覺信息和上下文線索，確保全面的語義解釋。

圖1.3 Context Encoder中不同層輸出示意圖

Cross-Modal Encoder: 文章通過提出一種新的跨模態注意力機制方法，將跨模態編碼器通過多頭注意力機制融合前面的多種模態向量，將視覺和文本數據對齊和整合。將文本編碼器和情感編碼器得到的文本向量和拼接后，通過線性層映射到和和圖片向量同一個維度，作為多頭注意力機制中的查詢向量Q 。同理將視覺編碼器和上下文編碼器得到的向量和分別映射到多頭注意力機制中的和和特征向量。

圖1.4 跨模態注意力機制示意圖

數據集介紹

本工作采用了Talk2Car數據集。下圖詳細比較了Talk2Car和其他Visual Grounding相關數據集（如ReferIt、RefCOCO、RefCOCO+、RefCOCOg、Cityscape Ref和CLEVR-Ref）的異同。Talk2Car數據集包含11959個自然語言命令和對應場景環境視圖的數據集，用于自動駕駛汽車的研究。這些命令來自nuScenes訓練集中的850個視頻，其中55.94%的視頻拍攝于波士頓，44.06%的視頻拍攝于新加坡。數據集對每個視頻平均給出了14.07個命令。每個命令平均由11.01個單詞、2.32個名詞、2.29個動詞和0.62個形容詞組成。在每幅圖像中，平均有4.27個目標與描述目標屬于相同類別，平均每幅圖片有10.70個目標。下圖解釋了文章所統計數據集中的指令長度和場景中交通車輛種類的布局。

圖1.5 不同Visual Grounding任務數據集之間的場景比較

圖1.6 對Talk2Car挑戰任務的統計分析結果

符合C4AV挑戰賽的要求，我們將預測區域利用bounding boxes在圖中標出表示，同時采用左上坐標和右下坐標(x1，y1，x2，y2)的格式來提交對應的數據結果。t同時我們使用scores作為評估指標，定義為預測的bounding boxes中交并區域與實際邊界框相交的比中超過0.5閾值的占比（IoU0.5）。這一評估指標在PASCAL（Everingham和Winn，2012年）、VOC（Everingham等人，2010年）和COCO（Lin等人，2014年）數據集等挑戰和基準測試中廣泛使用，為我們的預測準確性提供了嚴格的量化，并與計算機視覺和對象識別任務中的既定實踐相一致。以下方程詳細說明了預測邊界框和實際邊界框之間的IoU的計算方法：

實驗結果

本文使用度量在Talk2Car數據集上的模型與各種SOTA方法的性能比較。模型分為三種類型：One-stage、Two-stage和Others，并基于架構骨干進行評估：視覺特征提取視覺、語義信息提取語言和整體數據同化全局。其他被評估的成分包括是否使用情緒分類（EmoClf.），全局圖像特征提取（全局Img特征表示），語言增強（NLP Augm.），和視覺增強（Vis Augm.）。“Yes”表示使用了相關的技術或者功能組件，“No”表示模型未使用對應的功能和組件，“-”表示

在對應文章中未公開相關的星系。這種分類闡明了影響每個模型性能的基本組件和策略。下圖中的粗體值和下劃線值分別代表最佳的模型和第二好的模型。

為了嚴格評估CAVG的模型在現實場景中的有效性，文章根據語言命令的復雜性和視覺環境的挑戰，文章精心地劃分了測試集。一方面，由于較長的命令可能會引入不相關的細節，或者對自動駕駛汽車來說更難理解。對于長文本測試集，我們采用了一種數據增強策略，在不偏離原始語義意圖的情況下，增加了數據集的豐富性。我們使用GPT擴展了命令長度，得到的命令范圍從23到50個單詞。進一步評估模型處理擴展的語言輸入的能力，對模型的適應性和魯棒性進行全面的評估。

另一方面，為了進一步衡量模型的泛用性，本文還額外選取構造了特定的測試場景場景：如低光的夜晚場景、復雜物體交互的擁擠城市環境、模糊的命令提示以及能見度下降的場景，使預測更具困難。將而外構造的兩個測試集合分別稱為為Long-text Test和Corner-case Test。

除此之外，僅使用一半的數據集CAVG（50%）和CAVG（75%）迭代顯示出令人印象深刻的性能。提供足夠的訓練數據時，我們的模型CAVG和CAVG（75%）在部分特殊場景中表現出色。

本文在RSD Layer Attention機制的多模態解碼器中可視化了13層的層注意權值的分布，以進一步展示文章所使用的RSD層注意機制的有效性。根據其與地面真實區域對齊，將輸入區域劃分為兩個不同的組：> 0：包含所有超過0的區域，表明與地面真實區域有重疊。= 0：構成沒有重疊的區域，其精確地為0。如下圖所示，較高的解碼器層（特別是第7至第10層）被賦予了較大比例的注意權重。這一觀察結果表明，向量對這些更高的層有更大的影響，可能是由于增加的跨模態相互作用。與直觀預期相反，最頂層并不主導注意力的權重。這與傳統的主要依賴于最頂層表示來預測最佳對齊區域的技術明顯不同，RSD Layer Attention機制會避開其他層中固有的微妙的跨模態特征。