六大數據集全部SOTA！最新DriveMM：自動駕駛一體化多模態大模型（美團&中山大學）

作者：Zhijian Huang等 2024-12-20 09:39:05

今天為大家分享中山大學&美團最新的多模態大模型工作—DriveMM！全面邁向一體化，六大數據集全面SOTA。

寫在前面 & 筆者的個人理解

近年來，視覺-語言數據和模型在自動駕駛領域引起了廣泛關注。許多精心設計和標注的數據集用于微調多模態大模型，使模型不僅能理解視覺輸入并生成文本回答，更能適用于自動駕駛多種應用場景。由于駕駛場景的復雜多變以及駕駛行為的多樣性，現有的自動駕駛模型和數據往往專注于單一場景和任務。雖然這些方法表現出了顯著的性能，但模型的適用性局限于特定場景和任務，比如特定的輸入類型和數據集特定的任務。一方面，我們注意到不同數據集的收集方法是由其特定任務決定的。例如，專注于極端情況和特殊物體感知的數據集只需要前視圖圖像，而與車輛行為預測和自車決策相關的任務則需要多視角甚至視頻的輸入。另一方面，每個數據集都聚焦于特定子任務。因此，在單一數據集上訓練的專有模型缺乏處理現實世界中復雜多樣任務所需的通用能力和遷移至新場景新任務的泛化能力。為了解決這些問題，本文提出了DriveMM，一種通用的大型多模態模型，旨在處理多種數據輸入，如圖像和多視角視頻，同時執行廣泛的自動駕駛任務，包括感知、預測和決策。

總結來說，本文的主要貢獻如下：

提出了一種新型的一體化多模態大模型DriveMM，它具有執行各種AD任務的通用能力和有效轉移到新數據集的泛化能力。
介紹了評估自動駕駛LMM的綜合基準，其中包括六個公共數據集、四種輸入類型和十三個具有挑戰性的任務。據我們所知，這是首次使用多個基準來評估自動駕駛LLM。
提出了一個大模型原則，用于對不同的多模態數據和AD數據進行預訓練和微調。DriveMM展示了最先進的性能，并在所有評估的基準測試中始終優于在單個數據集上訓練的模型。

DriveMM方法詳解

概覽

本文提出的DriveMM是一種一體化的LMM，旨在有效地處理AD中的各種駕駛數據和任務。形式上，給定車輛傳感器捕獲的視覺信號Xv和用戶指令Xt，DriveMM F（·）提供了與駕駛相關的分析和建議：

Xv可以表示各種數據格式，包括單目、環視圖像或LiDAR捕獲的圖像、多圖像、視頻和多視頻，而Xt則包含與感知、預測、推理、決策等有關的問題。通過整合不同的數據和任務，DriveMM可以在廣泛的AD視覺語言數據上進行訓練，從而在不同的數據集和任務之間實現相互改進。此外，一旦經過訓練，DriveMM可以有效地部署在各種現實世界的AD場景中，例如不同的相機和雷達系統配置，以及各種AD任務。

在接下來的部分中，我們首先描述DriveMM的架構，它能夠處理不同傳感器捕獲的多種類型的數據。為了促進模型對AD場景的理解，我們收集了具有多種數據格式和任務的不同數據集，然后增強和標準化它們的問答對，以加強不同數據集之間的協作。為了在各種數據集和任務上有效地訓練DriveMM，我們采用了一種課程學習方法來逐步提高模型的能力。

Model Architecture

我們的目標是設計一個高效的模型架構，可以同步處理廣告場景中的單幅圖像、多幅圖像、單視圖視頻和多視圖視頻。如圖2所示，DriveMM遵循了LLaVA等主要LMM的設計。它由三個部分組成：視覺編碼器Fe（·）、投影儀Fp（·）和LLM Fl（·）。

視覺編碼器SigLIP：

之后，投影儀將圖像特征投影到單詞嵌入空間中：

基于視覺標記Hv和用戶指令Xt，LLM逐步計算目標單詞的概率：

視角感知提示。在方程式（4）中，典型的LMM[2,26]會使LLM輸入的視覺特征變平，無法區分視角（如前視圖或后視圖）和格式（如圖像或視頻）。為了解決這個問題，我們提出了一種感知視角的提示。如表2所示，我們使用不同的占位符（即image和video）進行圖像和視頻輸入，其中占位符在輸入LLM之前將被相應的令牌替換。我們還為具有不同視角的圖像/視頻分配了數字標簽，并在文中解釋了每種圖像/視頻的具體相機或激光雷達。為了提高計算效率，我們對視頻特征Hv應用2×2的空間池，然后將它們展平為視覺標記。DriveMM結合了視角和數據格式的信息，可以更好地解釋復雜的交通狀況，識別多個對象及其空間關系，并做出更明智的決策。

數據

在LMM的訓練中，數據在啟用和激活LLM理解多模態信息的能力方面發揮著至關重要的作用。為了提高DriveMM在多模態AD場景中的理解和推理能力，我們構建了三個不同的數據集：傳統多模態數據、感知數據和自動駕駛數據。

Conventional Multimodal Data

最近的研究表明，隨著數據量的增加，LMM可以實現更高的性能。然而，與在線可用的豐富圖像文本數據相比，AD圖像文本數據明顯有限。為了提高DriveMM的性能，我們使用廣泛的多模態數據預訓練了一個基礎模型，從而能夠使用單幅圖像、多幅圖像和視頻進行推理。

具體來說，我們構建了一個多模態數據集，其中包括圖像-文本對和各種視覺指令調整數據。圖像-文本對的目標是對齊視覺編碼器和LLM，使模型能夠對圖像有基本的理解。我們使用了多個數據集，包括LCS-558K、COCO118K、CC3M。為了增強模型處理各種傳感器配置（如單視圖和多視圖相機）中的視覺數據的能力，我們利用OneVision數據中的視覺指令調整數據，包括圖像、多圖像和視頻。

Perception Data

為了使DriveMM具備AD感知能力，我們創建了一個全面的基礎數據集，包括各種數據格式。對于單幅圖像數據，我們使用COCO和Object365數據集。我們從圖像中隨機選擇一個類別，并使用基礎提示（例如，“檢測圖像中的所有<category>”）來提示模型檢測該類別中的所有對象。我們用邊界框[xmin，ymin，xmax，ymax]或區域中心[xcenter，ycenter]表示對象的位置。基于圖像的大小，x和y值在0到100的范圍內進行歸一化。對于多視圖圖像和多視圖視頻，我們采用nuScenes[3]數據集。為了給模型注入空間意識，我們希望它不僅能預測物體邊界框，還能估計相機的視角。因此，我們用[cam，xmin，ymin，xmax，ymax]或[cam，xcenter，ycenter]表示對象的位置，其中cam表示相機視角，如“cam BACK”。圖3左下角展示了感知數據的一個示例。

Autonomous Driving Data

在這里，我們收集了不同的數據集來訓練一個一體化的LMM，該LMM可以同步處理不同場景中的各種AD任務。具體來說，我們使用了六個自動駕駛數據集：CODA-LM、MAPLM、DriveLM、LingoQA、OmniDrive和NuInstruct。表1顯示了六個數據集的詳細描述。這些數據集包括各種傳感器配置，如攝像頭和激光雷達，以及不同的AD任務，包括感知、預測和規劃。值得一提的是，不同的數據集可能會表現出不同的問題模態。為了促進協作增強，我們對問答對進行了如下擴充和標準化。問答增強。一些數據集僅限于一組固定的模板。例如，CODA-LM僅包含三個問題模板，而MAPLM則使用了五個。這阻礙了模型推廣的潛力。為了克服這一局限性，我們使用GPT-4o-mini來增強問答對并增加其多樣性。此外，很大一部分問題是開放式的。為了進一步增強多樣性，我們將一些開放式問題隨機轉換為多項選擇題。圖3右下角展示了一個增強示例。

問答標準化。不同的數據集可能在問答風格上表現出不一致。例如，DriveLM使用“<c6，CAM BACK，1088.3，497.5>”來表示一個對象，其中“c6”表示類ID。相比之下，NuInstruct使用“<car>[c6，139，343，1511，900]”的格式，其中“c6”表示相機ID。為了確保跨數據集的兼容性，我們標準化了對象的表示并明確指定了表示格式。此外，為了適應不同大小的圖像中的邊界框，我們根據圖像的大小將邊界框的坐標標準化為0到100的范圍。例如，對于NuInstruct數據集，我們將對象重新表示為“<car>[CAM BACK RIGHT，8.688，38.111，94.438，100.000]”，并在問題末尾添加格式化指令，如圖3右下角所示。

訓練

在本節中，我們將介紹一種課程學習方法，以逐步提高模型在各種AD數據和任務上的性能，從而形成一體化的自動駕駛模型DriveMM。具體來說，我們逐漸增加數據的復雜性，從單個圖像到多個視頻，以及從圖像字幕到駕駛推理的任務復雜性，以訓練DriveMM。如圖3所示，訓練過程分為四個步驟：

第一階段：語言圖像對齊。這一階段的目標是為預訓練的法學碩士提供多模態理解的基本能力。為了實現這一點，我們訓練投影儀與LLM的單詞嵌入空間對齊。我們凍結了視覺編碼器和LLM，只優化了LCS-558K上的投影儀。

第二階段：單幅圖像預訓練。在這個階段，我們通過集體優化整個模型來進一步增強模型理解單個圖像的能力。我們使用所概述的圖像-文本對并優化模型的所有參數，以提高LLM對多模態任務的適用性。

第三階段：多能力預訓練。為了獲得訓練AD系統的穩健基礎模型，我們增強了模型在不同場景下的推理和感知能力。為此，我們利用所描述的視覺指令調優數據來增強模型，以推理基本的視覺元素。此外，我們使用所描述的感知數據來促進模型的感知能力。值得注意的是，訓練數據包括多種數據格式，包括單圖像、單視頻、多視圖圖像和多視圖視頻。通過為模型配備處理各種數據和任務的能力，我們為訓練一體化AD模型奠定了基礎。

第四階段：Driving微調。為了使DriveMM能夠處理廣泛的AD任務，我們在不同的駕駛數據集上進一步微調了模型。具體來說，我們利用了六個增強和標準化的自動駕駛數據集。在這個階段，我們優化了模型的所有參數。一旦經過訓練，所提出的一體化DriveMM可以有效地部署在各種AD場景中，例如不同的攝像頭和雷達系統配置，以及各種AD任務。

實驗結果

結論

本文提出了一種一體化的大型多模態自動駕駛模型DriveMM，它可以處理各種類型的數據，并在現實世界中執行多種駕駛任務，表現出出色的通用性和魯棒性。據我們所知，我們是第一個開發AD綜合模型并在各種AD場景中跨多個數據集評估模型的公司。通過增強和標準化幾個開源數據集并設計與數據相關的提示，我們從頭開始對模型進行多步預訓練和微調。DriveMM在現實場景中的各種數據和任務中實現了最先進的性能。

責任編輯：張燕妮來源：自動駕駛之心

AI 模型自動駕駛

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看