閉環仿真殺器!DrivingSphere:理想提出直接構建高保真4D世界
寫在前面&筆者的個人理解
近年來,端到端自動駕駛算法取得了重大進展,準確評估這些模型是一項非常緊迫的任務。為了安全、負責任地進行評估,必須有一個精確的模擬環境,準確反映現實世界的駕駛條件。這個要求通常包括兩個方面:一是高保真傳感數據的生成,二是閉環反饋機制的實現。
當前最常使用的評估方法是開環仿真方法。雖然這些基準測試提供了真實的駕駛數據,但它們的分布相對固定,且缺乏多樣性,限制了它們評估自動駕駛算法的泛化能力。總而言之,盡管具有高保真傳感數據,但這些開環評估解決方案無法提供評估自主系統如何響應動態變化和決策所需的動態反饋。
另外一種即閉環仿真方法,其提供反饋驅動系統,其中代理的行為會影響其他代理和環境,并受其影響。然而,由于缺乏處理視覺傳感器輸入的能力,限制了它們與基于視覺的端到端模型的相互作用。基于游戲引擎的模擬器創造了可擴展且物理上逼真的環境,但它們的輸出通常與現實世界的傳感器數據不同,限制了它們在驗證基于實際輸入的算法方面的作用。
針對上述提到的相關問題,為了應對這些挑戰,我們提出了一種新穎的幾何感知閉環模擬框架,可捕捉二維視覺和三維幾何特性,同時與基于視覺的端到端驅動代理無縫集成,它利用幾何先驗信息來生成逼真且可控的駕駛場景,稱之為DrivingSphere。與現有的相關仿真框架相比,我們提出的DrivingSphere。與現有的仿真算法框架相比,DrivingSphere 有三個顯著特點
- 豐富的仿真粒度:與過去僅對道路和汽車進行建模的方法不同,我們的方法允許包括以前未建模的元素,例如建筑物、植被和其他環境結構。雖然這些非交通元素并不直接參與交通流,但它們的存在會顯著影響駕駛模型的輸入,從而影響復雜駕駛場景中的決策過程。
- 物理和空間真實感:由于我們的模型明確地表示了 4D 空間中的場景和交通參與者,因此它能夠精確地描繪不同交通元素之間的物理相互作用和遮擋關系。這確保每個視點和位置自然地遵循深度和遮擋等物理原理,從而實現全球道路布局、交通參與者及其行為的結構化協調。
- 高視覺一致性和保真度:我們的模型更加努力地將場景中每個交通參與者的外觀和唯一 ID 關聯起來,從而跨幀和視圖提供穩定且高保真的時間和空間一致性。
下圖是我們的算法模型和開環與閉環仿真的整體框架進行對比
論文鏈接:https://arxiv.org/pdf/2411.11252
算法模型網絡結構&技術細節梳理
在詳細介紹本文提出的DrivingSphere算法框架之前,下圖展示了DrivingSphere的整體網絡結構圖。
DrivingSphere 是一個生成閉環模擬框架,它將基于占用的 4D 世界建模與先進的視頻渲染技術相結合,提供高保真視覺輸出,增強自動駕駛場景中的仿真真實感和代理與環境的相互作用。具體來說,DrivingSphere 從動態環境合成開始,從地圖草圖生成靜態背景,從參與者庫中選擇交通參與者,并更新參與者位置,以構成具有占用格式的 4D 駕駛環境。接下來,視覺場景合成調節自車周圍的占用數據,準確捕捉遮擋關系和細粒度語義信息,以生成高保真多視圖視頻。最后,閉環反饋機制實現動態、響應調整,其中自主代理不斷接收更新的視覺數據并生成修改模擬環境的控制信號,為算法測試和改進提供全面的平臺。
Dynamic Environment Composition
以前的駕駛模擬方法經常忽略建筑物、障礙物和植被等靜態和多樣化元素。雖然這些元素不是直接的交通參與者,但它們是自動駕駛系統感知輸入的一部分,影響最終的駕駛決策。例如,建筑物等靜態物體可能會阻擋傳感器的視線,導致其他車輛或行人的遮擋。障礙物或植被會給自動駕駛系統帶來傳感器偽影或誤報。這兩種情況都可能導致錯誤的決策,例如不必要的剎車或車道變換。為了解決這個問題,我們提出了一種動態環境組合來構建一個配備復雜數字資產的綜合自動駕駛駕駛世界。
靜態場景生成:一種生成靜態3D場景的直接方法是直接使用現有數據集中的真值占用數據,例如 nuScenes中的波士頓地區。然而,這種方法僅限于數據收集期間捕獲的特定區域,限制了其對其他城市地區的適用性。為了解決這一限制,我們提出了一個占用擴散模型 OccDreamer,該模型以 BEV 地圖和文本描述為條件,能夠為任何所需的城市區域生成靜態場景。OccDreamer 的框架集成了以下組件,如下圖所示。
獲得潛在表示后,我們使用占用 VAE 解碼器對其進行解碼,得到擴展區域,然后通過合并操作將兩個區域組合成更大的場景
動態參與者選擇:為了補充靜態場景,我們在 4D 駕駛世界中填充了動態參與者,從而創建了逼真的交通流。我們構建了一個參與者庫,根據與用戶通過 CLIP 提供的描述的語義相似性來選擇參與者,如果未指定,則從相關類別中隨機抽樣,以確保上下文多樣性。這種靈活的選擇過程允許在 4D 駕駛世界中動態地集成相關和多樣化的參與者,支持現實和適應性強的交通模擬。
4D 世界構成:通過計算靜態背景、動態前景參與者及其位置,我們將它們整合到綜合 4D 駕駛世界中。任意時間 t 的世界狀態由以下公式表示:
Visual Scene Synthesis
先前的生成模型傾向于采用 2D 視覺條件,無法準確捕捉現實世界駕駛場景中固有的幾何和語義復雜性。因此,我們的視覺場景合成采用了 VideoDreamer,將上一步構建的占用驅動的 4D 駕駛世界轉換為高保真視覺結果。整體框架如下圖所示。
具體來說,我們引入了一種雙路徑條件編碼策略,該策略專注于將占用數據編碼為其主要條件。我們通過開發一種 ID 感知的參與者編碼方法,進一步增強了視圖和幀之間外觀的一致性。最后,我們集成了 OpenSora 的時空擴散變換器 (ST-DiT) 作為基礎技術,以確保視覺一致性并生成無偽影的幀。
每一個參與者的embedding可以按照如下的公式進行定義
ControlNet-DiT:為了增強生成視頻的視覺保真度和時間一致性,我們將 STDiT集成為我們的去噪器,利用堆疊有視圖感知空間自注意力 (VSSA)、時間自注意力、交叉注意力和 FFN 的 ST-DiT 塊。這種方法可確保對空間和時間連貫性的細粒度控制,從而生成無偽影的幀,滿足自動駕駛模擬的高保真度要求。
Agent Interplay and Closed-Loop Simulation
我們實現了 DrivingSphere 模擬環境中自動駕駛代理的無縫協調,將代理分為兩種主要類型:自車代理和環境代理。
自車代理:自車代理代表正在評估的自動駕駛系統。它由端到端模型驅動,接收視覺輸入幀并每次輸出預測的控制信號
環境代理:環境代理負責控制模擬世界中所有其他參與者的行為和動作。為了實現真實的信息交換,我們使用支持多代理模擬的流量引擎。環境代理從模擬狀態接收輸入并輸出控制信號,指示環境中參與者的移動和相互作用。整個過程可以描述如下
實驗結果&評價指標
我們首先根據真實的 nuScenes 數據評估 OccDreamer 中基于體素的場景和 VideoDreamer 中的視頻序列的保真度,以評估領域差距。
我們進行定量和定性分析,以評估 OccDreamer 生成的占用數據的保真度。我們的方法在定量上優于現有方法,如下表所示。
下圖更加直觀的展現了我們的方法在保持連貫性和保真度方面表現出了顯著的優越性,遠遠優于其他方法。這一成功主要歸功于幾何感知占用編碼和實例編碼,它們確保了外觀一致性,凸顯了 VideoDreamer 在創建視覺一致、詳細的駕駛環境以捕捉真實場景動態方面的穩健性。
開環實驗結果
在開環設置中,自動駕駛代理被動接收環境輸入而不影響模擬動態,我們評估了 UniAD 在 DrivingSphere 和其他仿真器上的性能,如下表所示。
相關的實驗結果展示了自動駕駛代理在 DrivingSphere 上取得的優異 PDMS分數,表明其更高的視覺保真度減少了可能誤導代理決策的感知不準確性。這一改進凸顯了 DrivingSphere 適用于在緊密模擬真實世界條件的環境中測試自動駕駛系統。
閉環實驗結果
在閉環評估中,自動駕駛代理接收視覺輸入和輸出控制信號,從而以交互方式塑造模擬。此評估設置涉及 100 條預定義軌跡,用于在受控但多樣的場景中進行測試。相關實驗結果如下表所示,UniAD的路線完成度 (RC) 得分相對較低,平均每條路線的完成度僅為 11.7%。與 DriveArena相比,我們的模擬始終能獲得更好的性能指標,并且還表現出卓越的視覺保真度。
結論
在本文中,我們提出了DrivingSphere,一個生成式閉環模擬框架,它彌補了傳統閉環模擬和開環生成模型之間的差距。通過先進的基于占用的建模和可控的生成機制,DrivingSphere 為自動駕駛創建了逼真的高保真模擬。我們的實驗展示了卓越的視覺質量、時間一致性以及在動態環境中有效測試自動駕駛算法的能力。