萬字總結 | 2023大模型與自動駕駛論文走馬觀花
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
2023年已經匆匆過去大半,不知各位自動駕駛小伙伴今年的工作生活情況是否順利呢?高階ADAS方案量產了嗎?新的文章和實驗進展又是否順利呢?今天給大家總結了2023年前后的一些自動駕駛結合大模型的開創性研究工作。
2023年是大模型蓬勃發展的一年,也是高階自動(輔助)駕駛走向現實和落地的一個關鍵節點。一些頭部自動駕駛企業和學術團隊也積極的在大模型與自動駕駛這個領域積極探索。其中除了上海人工智能實驗室,清華大學,港大,港科大等自動駕駛研究強校外。也有Nvidia,waymo,wayve,GigaAI,Bosch,華為諾亞這些自動駕駛創新公司以及傳統巨頭分別提出了自己對于自動駕駛以及大模型的視角與展望。
具體而言,LLM直接參與自動駕駛 (LLM + 端到端的自動駕駛,LLM + 語義場景理解,LLM + 駕駛行為生成)成為了一個比較火熱的主旋律。另一些研究方向則關注在了多模態大模型進行仿真或世界模型的構建,也有部分學者嘗試對大模型在自動駕駛應用中的安全性和可解釋性作出了探討。本篇文章一共總結了30余篇自動駕駛結合大模型的論文和開源項目,并進行了非常簡單的總結,希望對大家有用!
Drive Like a Human: Rethinking Autonomous Driving with Large Language Models [paper][github]
論文來自上海AILAB和東南大學,通過LLM的理解環境能力,作者嘗試構建閉環系統探索LLM在自動駕駛的環境理解和環境互動的可行性,并且發現其在推理和解決長尾問題上也有一定的能力。
DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [paper][github]
來自港大和諾亞實驗室,DriveGPT4是一個使用LLM的可解釋的端到端自動駕駛系統,能夠解釋車輛行為并提供相應的推理,還可以回答用戶提出的各種問題,以增強互動性。此外,DriveGPT4以端到端的方式預測車輛的低級控制信號。
DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models [paper][github]
這是一個上海AI Lab提出了DiLu框架,它結合了推理和反思模塊,使系統能夠基于常識知識做出決策并不斷演化。大量實驗證明DiLu能夠積累經驗,并在泛化能力上明顯優于基于強化學習的方法。此外,DiLu能夠直接從現實世界的數據集中獲取經驗,突顯了其在實際自動駕駛系統上的潛力。
GPT-Driver: Learning to Drive with GPT [paper][github]
這是一篇南加州大學的論文,可以將OpenAI GPT-3.5模型轉化為可靠的自動駕駛車輛運動規劃器。GPT-Driver將規劃器的輸入和輸出表示為語言標記,并利用LLM通過坐標位置的語言描述生成駕駛軌跡。提出了一種新穎的提示-推理-微調策略,以激發LLM的數值推理潛力。借助這一策略,LLM可以用自然語言描述高度精確的軌跡坐標,以及其內部的決策過程。
Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving [paper][github]
這篇文章來自于Wayve, 論文中引入了一種獨特的物體級多模態LLM架構,將向量化數字模態與預訓練的LLM相結合,以提高在駕駛情景中的上下文理解能力。除此之外論文還提供了一個包含來自1萬個駕駛情景的160,000個問答對的新數據集,與由RL代理程序收集的高質量控制命令和由教師LLM(GPT-3.5)生成的問答對相配對。
LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [paper][page]
這篇文章來自于清華大學和UC Berkeley,本研究將大型語言模型(LLMs)作為復雜AD場景的決策組件,這些場景需要人類的常識理解。作者設計了認知路徑,以使LLMs能夠進行全面的推理,并開發了將LLM決策轉化為可執行駕駛命令的算法。通過這種方法,LLM決策可以通過引導參數矩陣適應與低級控制器無縫集成。
Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles [paper]
本文來自Purdue University,研究包括在HighwayEnv中進行的實驗,這是一個用于自動駕駛和戰術決策任務的環境集合,旨在探討LLMs在不同場景中的解釋、互動和推理能力。作者還研究了實時個性化,展示了LLMs如何基于口頭命令影響駕駛行為。論文的實證結果突顯了采用“思維鏈”提示的重大優勢,從而改進了駕駛決策,并展示了LLMs通過持續的口頭反饋提升個性化駕駛體驗的潛力。
Drive as You Speak: Enabling Human-Like Interaction with Large Language Models in Autonomous Vehicles [paper]
本文來自Purdue University,本文主要討論如何利用大型語言模型(LLMs)來增強自動駕駛汽車的決策過程。通過將LLMs的自然語言能力和語境理解、專用工具的使用、推理與自動駕駛汽車上的各種模塊的協同作用整合在一起。
SurrealDriver: Designing Generative Driver Agent Simulation Framework in Urban Contexts based on Large Language Model [paper]
本文來自清華大學,提出了一種基于大型語言模型(LLMs)的生成式駕駛代理模擬框架,能夠感知復雜的交通場景并提供逼真的駕駛操控。值得注意的是,我們與24名駕駛員進行了訪談,并使用他們對駕駛行為的詳細描述作為“思維鏈”提示,開發了一個“教練代理”模塊,該模塊可以評估和協助駕駛代理積累駕駛經驗并培養類似人類的駕駛風格。
Language-Guided Traffic Simulation via Scene-Level Diffusion [paper]
哥倫比亞大學和Nvidia聯合提出了CTG++,一種能夠受到語言指導的場景級條件擴散模型。開發這一模型需要解決兩個挑戰:需要一個現實且可控的交通模型骨干,以及一種使用語言與交通模型進行交互的有效方法。為了解決這些挑戰,我們首先提出了一個配備有時空變換器骨干的場景級擴散模型,用于生成現實且可控的交通。然后,我們利用大型語言模型(LLM)將用戶的查詢轉化為損失函數,引導擴散模型生成符合查詢的結果。
Language Prompt for Autonomous Driving [paper][github]
本文由北理和曠世提出,在駕駛場景中使用語言提示的進展受到了數據匹配的瓶頸問題的限制,因為匹配語言提示和實例數據的配對數據相對稀缺。為了解決這一挑戰,本文提出了第一個針對三維、多視圖和多幀空間內的駕駛場景的以物體為中心的語言提示集,名為NuPrompt。它通過擴展Nuscenes數據集,構建了共計35,367個語言描述,每個描述涉及平均5.3個物體軌跡?;谛碌臄祿械奈矬w-文本配對,我們提出了一項新的基于提示的駕駛任務,即使用語言提示來預測跨視圖和幀描述的物體軌跡。
Talk2BEV: Language-Enhanced Bird's Eye View (BEV) Maps [paper][github]
本文來自海得拉巴國際信息技術學院,Talk2BEV結合了通用語言和視覺模型的最新進展以及BEV結構化地圖表示,消除了需要專門的任務模型。這使得一個單一系統能夠滿足各種自動駕駛任務,包括視覺和空間推理、預測交通參與者的意圖以及基于視覺線索進行決策
BEVGPT: Generative Pre-trained Large Model for Autonomous Driving Prediction, Decision-Making, and Planning [paper]
港科大提出了BEVGPT,這是一個集成了駕駛情境預測、決策和運動規劃的生成式預訓練大模型。該模型以鳥瞰圖(BEV)圖像作為唯一的輸入源,并基于周圍的交通情景做出駕駛決策。為了確保駕駛軌跡的可行性和平穩性,我們開發了一種基于優化的運動規劃方法。我們在Lyft Level 5數據集上實例化了BEVGPT,并使用Woven Planet L5Kit進行了真實駕駛模擬。
DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving [paper]
GigaAI和清華攜手推出DriveDreamer,這是一個全新的世界模型,完全源自真實的駕駛場景。鑒于在復雜的駕駛場景中對世界進行建模涉及龐大的搜索空間,該文章提出利用強大的擴散模型構建復雜環境的綜合表示。此外,論文中引入了一個兩階段訓練流程。在初始階段,DriveDreamer深入了解結構化的交通約束,而隨后的階段賦予其預測未來狀態的能力。DriveDreamer是第一個建立在真實世界駕駛場景中的世界模型。
MagicDrive: Street View Generation with Diverse 3D Geometry Control [paper]
MagicDrive,這是一個新穎的街景生成框架,提供多樣的3D幾何控制,包括相機位置、道路地圖和3D邊界框,還包括文本描述,通過定制的編碼策略實現。此外,論文的設計還包括一個跨視圖注意力模塊,確保多個相機視圖之間的一致性。使用MagicDrive實現了高保真的街景合成,捕捉了精細的3D幾何形狀和各種場景描述,增強了鳥瞰圖分割和3D物體檢測等任務的性能。
GAIA-1: A Generative World Model for Autonomous Driving [paper]
近期大名鼎鼎的GAIA-1('Generative AI for Autonomy')這是一個生成式世界模型,由Wayve推出,利用視頻、文本和行為輸入來生成逼真的駕駛場景,同時對自車行為和場景特征進行精細控制。我們的方法將世界建模視為一個無監督的序列建模問題,通過將輸入映射到離散標記,并預測序列中的下一個標記。我們模型中的新特性包括學習高級結構和場景動態、上下文意識、泛化能力以及對幾何形狀的理解。GAIA-1學得的表示能夠捕獲未來事件的期望,再加上其生成逼真樣本的能力,為自動駕駛技術領域的創新提供了新的可能性,實現了自動駕駛技術的增強和加速訓練。
HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving [paper]
本文由港科大和諾亞實驗室提出,首次利用單一的多模態大型語言模型(MLLMs)來整合多個自動駕駛任務,即風險目標定位和意圖與建議預測(ROLISP)任務。ROLISP使用自然語言來同時識別和解釋風險目標,理解自動駕駛汽車的意圖,并提供運動建議,消除了需要特定任務架構的必要性。
Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving [paper]
這篇文章來自自動駕駛Tier 1, Bosch,文章提出了一種新穎的基于文本的交通場景表示,并使用預訓練的語言編碼器處理它。首先,我們展示了文本表示與傳統的柵格化圖像表示相結合,可以產生描述性的場景嵌入。
OpenAnnotate3D: Open-Vocabulary Auto-Labeling System for Multi-modal 3D Data [paper][github]
復旦大學提出了OpenAnnotate3D,這是一個開源的開放詞匯自動標注系統,可以自動生成用于視覺和點云數據的2D掩模、3D掩模和3D邊界框注釋。我們的系統整合了大型語言模型(LLMs)的思維鏈能力和視覺語言模型(VLMs)的跨模態能力。
LangProp: A Code Optimization Framework Using Language Models Applied to Driving [openreview][github]
LangProp自動評估了輸入-輸出對數據集上的代碼性能,以及捕獲任何異常,并將結果反饋給LLM在訓練循環中,使LLM可以迭代地改進其生成的代碼。通過采用度量和數據驅動的代碼優化過程的訓練范式,可以輕松地借鑒傳統機器學習技術,如模仿學習、DAgger和強化學習等的發現。在CARLA中展示了自動代碼優化的第一個概念驗證,證明了LangProp可以生成可解釋且透明的駕駛策略,可以以度量和數據驅動的方式進行驗證和改進。
Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [openreview]
作者確定了兩個主要瓶頸原因:處理復雜和無結構的觀測空間以及具備可擴展性的生成模型。因此,我們提出了一種新穎的世界建模方法,首先使用VQVAE對傳感器觀測進行標記,然后通過離散擴散來預測未來。為了高效地并行解碼和去噪標記,我們將遮蔽的生成式圖像變換器重新構建成離散擴散框架,只需進行一些簡單的更改,結果有顯著的改進。
Planning with an Ensemble of World Models [openreview]
特定于城市的gym(例如波士頓-Gym和匹茲堡-Gym)來評估規劃性能。使用我們提出的gym集合來評估最先進的規劃器導致性能下降,這表明一個優秀的規劃器必須適應不同的環境。借助這一見解,我們提出了City-Driver,一種基于模型預測控制(MPC)的規劃器,它展開了適應不同駕駛條件的城市特定世界模型。
Large Language Models Can Design Game-Theoretic Objectives for Multi-Agent Planning [openreview]
論文首先展示了更強大的LLM(如GPT-4)在調整連續目標函數參數方面的zero-shot能力,以符合自動駕駛示例的指定高級目標。然后,作者開發了一種規劃器,它將LLM作為矩陣游戲的設計者,用于具有離散有限動作空間的場景。在給定場景歷史、每個智能體可用的動作和高級目標(用自然語言表達)時,LLM評估與每種動作組合相關的回報。從獲得的博弈結構中,智能體執行Nash最優動作,重新評估場景,并重復該過程。
TrafficBots: Towards World Models for Autonomous Driving Simulation and Motion Prediction [paper]
作者展示了數據驅動的交通仿真可以被構建為一個世界模型。文章提出了TrafficBots,這是一個基于運動預測和端到端駕駛的多智能體策略,基于TrafficBots獲得了一個專門為自動駕駛車輛的規劃模塊定制的世界模型?,F有的數據驅動交通仿真器缺乏可配置性和可擴展性。為了生成可配置的行為,對于每個智能體引入了目的地作為導航信息,以及一個不隨時間變化的潛在個性,指定了行為風格。為了提高可擴展性提出了一種用于角度的位置編碼的新方案,允許所有智能體共享相同的矢量化上下文,以及基于點積注意力的架構。
BEV-CLIP: Multi-Modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving [openreview]
在現有的二維圖像檢索方法下,可能會出現一些場景檢索的問題,比如缺乏全局特征表示和次優的文本檢索能力。為了解決這些問題,本文作者提出了BEV-CLIP,這是第一個利用描述性文本作為輸入以檢索相應場景的多模態BEV檢索方法。這種方法應用了大型語言模型(LLM)的語義特征提取能力,以便進行廣泛的文本描述的零次檢索,并結合了知識圖的半結構信息,以提高語言嵌入的語義豐富性和多樣性。
Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research [paper][github]
Waymo引入了Waymax,這是一種用于自動駕駛多智體場景的新型數據驅動模擬器,專為大規模模擬和測試而設計。Waymax使用已公開發布的實際駕駛數據(例如Waymo開放運動數據集)來初始化或回放各種多智體模擬場景。它完全在硬件加速器上運行,如TPU/GPU,并支持用于訓練的圖內模擬,使其適用于現代的大規模分布式機器學習工作流。
Semantic Anomaly Detection with Large Language Models [paper]
這篇論文隨著機器人獲得越來越復雜的技能并觀察到越來越復雜和多樣化的環境,邊緣案例或異常故障的威脅隨時存在。這些系統級故障不是由于自動駕駛系統堆棧的任何單個組件的故障,而是由于語義推理方面的系統級缺陷。這種稱之為語義異常的邊緣情況對于人類來說很容易解開,但需要具有深刻推理能力。為此,作者研究了賦予大型語言模型(LLMs)廣泛的上下文理解和推理能力,以識別這類邊緣情況,并引入了一種基于視覺策略的語義異常檢測的監控框架。我們將這一框架應用于自動駕駛的有限狀態機策略和物體操作的學習策略。
Driving through the Concept Gridlock: Unraveling Explainability Bottlenecks in Automated Driving [paper]
在人工輔助或自動駕駛的背景下,可解釋性模型可以幫助用戶接受和理解自動駕駛車輛所做的決策,這可以用來解釋和說明駕駛員或車輛的行為。論文中提出了一種新方法,使用概念瓶頸作為控制命令預測和用戶以及車輛行為解釋的視覺特征。作者學習了一個人可以理解的概念層,用來解釋順序駕駛場景,同時學習車輛控制命令。這種方法可以用來確定人類(或自動駕駛車輛)對于首選車距或轉向命令的改變是否受到外部刺激或偏好的改變的影響。
Drama: Joint risk localization and captioning in driving [paper]
考慮到在安全關鍵的自動化系統中的情境感知功能,對駕駛場景中風險的感知以及其可解釋性對于自動駕駛和合作駕駛尤為重要。為實現這一目標,本文提出了一個新的研究方向,即駕駛場景中的風險聯合定位及其以自然語言描述的風險解釋。由于缺乏標準基準,作者的研究團隊收集了一個大規模數據集,名為DRAMA(帶有字幕模塊的駕駛風險評估機制),其中包括了在日本東京收集的17,785個交互式駕駛場景。我們的DRAMA數據集包含了有關駕駛風險的視頻和對象級問題,以及與重要對象相關的問題,以實現自由形式的語言描述,包括多級問題的封閉和開放式回答,可用于評估駕駛場景中的各種圖像字幕能力。
3D Dense Captioning Beyond Nouns: A Middleware for Autonomous Driving[openreview]
作者認為一個主要的大語言模型很難獲得安全駕駛的障礙是缺乏將感知和規劃連接起來的綜合和標準的中間件表示。作者重新思考了現有中間件的局限性(例如,3D框或占用情況)并提出了超越名詞的3D密集字幕(簡稱為DESIGN)。對于每個輸入場景,DESIGN指的是一組帶有語言描述的3D邊界框。特別是,綜合的描述不僅包括這個框是什么(名詞),還包括它的屬性(形容詞),位置(介詞)和運動狀態(副詞)。我們設計了一種可擴展的基于規則的自動標注方法來生成DESIGN的地面真實數據,以確保中間件是標準的。
SwapTransformer: Highway Overtaking Tactical Planner Model via Imitation Learning on OSHA Dataset [openreview]
這篇論文研究了關于在高速公路情境中進行變道和超越其他較慢車輛的高級決策問題。具體來說,本文旨在改進旅行輔助功能,以實現對高速公路上的自動超車和變道。在模擬中收集了大約900萬個樣本,包括車道圖像和其他動態對象。這些數據構成了"模擬高速公路上的超車"(OSHA)數據集,用于解決這一挑戰。為了解決這個問題,設計并實施了一種名為SwapTransformer的架構,作為OSHA數據集上的模仿學習方法。此外,提出了輔助任務,如未來點和汽車距離網絡預測,以幫助模型更好地理解周圍環境。提出的解決方案的性能與多層感知器(MLP)和多頭自注意力網絡作為基線在模擬環境中進行了比較。
NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario [paper][github]
本文來自于復旦大學,作者引入了一個新穎的視覺問答(VQA)任務,即自動駕駛背景下的VQA任務,旨在基于街景線索回答自然語言問題。與傳統的VQA任務相比,自動駕駛場景中的VQA任務具有更多挑戰。首先,原始的視覺數據是多模態的,包括由攝像機和激光雷達(LiDAR)捕獲的圖像和點云數據。其次,由于連續實時采集,數據是多幀的。第三,室外場景同時包括移動的前景和靜態的背景?,F有的VQA基準未能充分解決這些復雜性。為了填補這一差距,作者提出了NuScenes-QA,這是自動駕駛場景中的第一個VQA基準,包括34,000個視覺場景和460,000個問題-答案對。具體而言利用現有的3D檢測注釋生成場景圖,并手動設計問題模板。隨后,問題-答案對是基于這些模板自動生成的。全面的統計數據證明了我們的NuScenes-QA是一個平衡的大規模基準,具有多樣的問題格式。
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models [paper]
隨著自動駕駛技術的成熟,端到端方法已經成為一種主要策略,承諾通過深度學習實現從感知到控制的無縫集成。然而,現有系統面臨著意想不到的開放環境和黑盒模型復雜性等挑戰。與此同時,深度學習的發展引入了更大的多模態基礎模型,提供了多模態的視覺和文本理解。在本文中,作者利用這些多模態基礎模型來增強自動駕駛系統的健壯性和適應性,實現了端到端的多模態和更具解釋性的自主性,使其能夠在分布之外、端到端、多模態和更具解釋性的環境下進行操作。具體而言,作者提出了一種應用端到端開放集(任何環境/場景)自動駕駛的方法,能夠從可通過圖像和文本查詢的表示中提供駕駛決策。為此,文中引入了一種從Transformer中提取微妙的空間(像素/補丁對齊)特征的方法,以實現空間和語義特征的封裝。我們的方法在多種測試中表現出色,同時在分布之外的情況下具有更大的健壯性,并允許通過文本進行潛在空間模擬,從而改進訓練(通過文本進行數據增強)和策略調試。
Vision Language Models in Autonomous Driving and Intelligent Transportation Systems [paper]
最后這篇是一篇綜述,這篇文章來自于慕尼黑工業大學的IEEE Fellow, Alois C. Knoll. 2023年是視覺-語言大模型的爆發年,其的出現改變了計算機領域的方方面面。同樣的,視覺語言大模型在自動駕駛(AD)和智能交通系統(ITS)領域的應用引起廣泛關注。通過整合視覺語言數據,車輛和交通系統能夠深入理解現實場景環境,提高駕駛安全性和效率。這篇綜述全面調研了該領域視覺語言大模型的各類研究進展,包括現有的模型和數據集。此外,該論文探討了視覺語言大模型在自動駕駛領域潛在的應用和新興的研究方向,詳細討論了挑戰和研究空白。