北航&清華聯合發力!Stag-1:視頻生成模型實現超逼真的4D駕駛場景算法!
寫在前面&筆者的個人理解
近年來,隨著自動駕駛在感知、預測和規劃方面取得的重大進步,端到端算法網絡也取得了重大進展。隨著現如今這些技術的飛速進步,自動駕駛汽車的全面測試和驗證也變得越來越重要。然而,真實世界的車輛測試仍然耗時、費用昂貴,并且場景的覆蓋范圍也非常有限。
現在,主流研究越來越依賴仿真軟件進行廣泛的算法測試和驗證。然而,基于 3D 建模的仿真難以準確復制真實的駕駛場景,從而導致合成環境與現實世界之間存在巨大的差距。為了解決這個問題,當前的自動駕駛測試解決方案力求構建高度逼真的場景來驗證駕駛算法。隨著文本到圖像和文本到視頻生成模型的快速發展,一些研究集中于生成軌跡可控的圖像或視頻來模擬自動駕駛場景,并以地圖和周圍車輛位姿為指導,以提高場景的準確性。然而,現實世界的駕駛涉及不斷移動的行人、車輛和物體,這些都會給環境帶來結構性的變化。視頻生成方法通常難以捕捉這些動態變化或元素之間的密切相互作用,從而導致場景連續性不一致,例如背景和車輛類型變化,這使保持時序一致性變得非常復雜。
最近,基于 NeRF 和 3DGS 的方法旨在通過渲染和建模 3D 場景來更精確地捕捉動態元素。盡管如此,這些方法在從任意視角重建 4D 場景、處理具有顯著相機移動的廣泛動態視圖變化以及管理靜態視圖下的長期時序變換方面仍然面臨挑戰。
針對上述提到的相關挑戰,為了實現更真實的自動駕駛測試,我們提出了一個基于真實世界自動駕駛場景的可控 4D 模擬框架,稱之為Stag-1。
經過大量的多級場景訓練后,我們提出的Stag-1可以從任何需要的視角進行仿真,并且可以在靜態的時間和空間條件下實現對于場景演變的深入理解。與現有方法相比,我們的方法在多視角場景一致性、背景連貫性和準確性方面表現出色,并為現實自動駕駛模擬的持續進步做出了貢獻。
論文鏈接:https://arxiv.org/pdf/2412.05280
網絡模型的結構&技術細節
4D Autonomous Driving Simulation
生成式4D自動駕駛仿真旨在解決傳統自動駕駛仿真場景缺乏真實感的問題,并克服圖像生成模型在場景質量和控制能力方面的限制。
形式上來看,生成式 4D 自動駕駛仿真會根據真實世界場景和一組控制信號生成一個場景,如下公式所示。
然而,傳統的方法往往不能有效捕捉場景中真實的時間和空間關系,導致生成的場景出現時間跳躍和可控性不足的問題。因此,我們需要探索4D場景點云重建,以便使用生成模型實現真實的場景理解和高質量的圖像生成。該方法結合4D點云、相機參數和時間信息,利用生成框架有效捕捉時間和空間的獨立變化,實現更自然、更精確的自動駕駛仿真,可表示為如下的公式形式:
通過上述的這種方式,我們就可以生成與控制信號一致的逼真的模擬場景。
為了準確控制場景,我們從當前場景中提取 4D 點云信息,并將點云投影到連續的 2D 圖像上從而形成一組關鍵幀視頻。然后,我們使用視頻生成網絡生成連續、準確、可控的4D自動駕駛仿真場景。
Spatial-Temporal Aligned Reconstruction
生成式4D自動駕駛仿真場景的構建依賴于精確的4D點云數據信息。根據自動駕駛的實際需求,我們采用了如下的三種原則來定義點云的形式。
- 真實性:4D點云數據必須用真實的參數進行構建,需要知道準確的場景大小和范圍,而不僅僅是相對的比例大小。
- 準確性:場景應精確估計物體的位置和距離,以提高 3D 點云的精度。
- 一致性:每個場景幀應與車輛或相機的參數保持一致,以保持一致性。
遵循以上提到的這些原則,我們首先估計并使用環視攝像頭參數來生成環視 3D 點云數據信息。我們進一步使用自車參數進行點云對齊,并對其進行迭代細化,以構建精確的 4D 點云場景。
單幀的3D點云重建
為了從單幀當中重建3D場景,我們對每一幅圖像進行了處理。然后,我們使用相應的相機位姿來獲得準確的環視點云。通過組合所有視角的點云,我們得到 了在時刻t的環視點云,其整體流程可以用如下的公式進行表述。
連續幀4D點云的粗糙對齊
對于每一個時刻的點云數據信息,我們還會采用如下的公式實現連續幀的4D點云對齊。
然后,為了構建完整的4D點云數據,我們在時間戳上對齊4D 點云序列,記作如下的形式。
連續幀4D點云的精修對齊
鑒于3D點云是通過深度估計的方式得到的,缺乏精確的真值,僅基于參數的對齊方式并不能保證完全的對齊精度。因此,我們引入了一種精細對齊方法,該方法通過多次迭代來完善對齊過程。在每次迭代的過程中,旋轉和平移都會根據點云對齊誤差進行更新,該誤差測量了變換點與參考對齊點之間的差異。通過最小化對齊誤差來更新變換參數。
通過將此過程迭代應用于每一幀,我們生成一系列的3D點云數據。最后,我們獲得對齊的點云 ,用于支持后續的時空場景解耦。
Point-Conditioned Video Generation
實現時空解耦是自動駕駛模擬的關鍵方面。然而,現有模型由于結構限制,在單獨捕捉場景中的空間和時間變化方面存在著不少的挑戰,因此很難在同一環境中將空間和時間進行解耦。為了解決這個問題,我們提出的Stag-1 處理一系列連續的 4D 稀疏點云數據以生成 2D 稀疏關鍵幀視頻,如下公式所示。
時間解耦關鍵幀
在固定相機位姿的情況下,我們提出了一種有效的時空解耦關鍵幀建模方法,通過提取每個關鍵幀的 3D 點云數據并將其投影到 2D 圖像中。具體來說,對于每個時間戳,我們選擇與當前幀對應的 3D 點云。隨后,我們使用相機矩陣以及當前時間戳的旋轉矩陣和平移向量來投影每個關鍵幀的3D點云數據,用于實現獲取圖像中的稀疏二維點云。
通過這種方法,動態點云數據可以從固定的視點準確地投影到二維圖像中。
空間解耦關鍵幀
在空間解耦關鍵幀建模中,我們使用對齊的空間信息將當前幀的 3D 點云投影到 2D 圖像平面上。通過透視投影,我們將 3D 點云映射到 2D 圖像平面。
通過使用對齊的空間信息,我們精確地將當前幀的 3D 點云轉換為其 2D 投影。該方法有效地利用了空間信息,將其轉換為 2D 點云表示,同時減輕了時間變化對關鍵幀提取的影響。
4D Spatial-Temporal Simulation
下圖展示了我們提出的自動駕駛 4D 生成仿真模型的整體訓練框架。具體而言,我們的訓練整體過程遵循兩階段的方法:Time-Focused Stage階段在時間背景下訓練單視圖場景,而The Spatial-Focused Stage階段整合環視信息來捕捉空間和時間關系。
The Time-Focused Stage
我們使用奇數幀連續圖像作為真值數據,并根據奇數幀的位姿和相機內參將偶數幀 3D 點云投影到圖像平面上。
我們通過創建投影的 3D 點云序列及其對應的真實圖像來生成配對訓練數據。為了提高訓練效率,我們將條件信號編碼到潛在空間中,并在其中進行優化。為了確保準確對齊和有效的模型學習過程,我們定義了一個自定義損失函數來指導優化過程。損失函數定義如下。
The Spatial-Focused Stage
我們使用與Time-Focused Stage階段相同的輸入方法。為了利用自動駕駛中環視圖像之間的重疊信息和交互,我們引入了一種用于跨圖像信息交換的注意機制
,如下圖所示。
我們的方法捕捉了每幀內不同視角的空間關系,同時也考慮了連續時間步驟之間的時間聯系。
實驗結果&評價指標
4D重建與合成效果分析
為了評估我們的方法在 4D 重建方面的能力,我們在 Waymo-NOTR 數據集上進行了零樣本評估的相關實驗,實驗結果如下表所示。
通過相關的實驗結果可以看出,與現有方法相比,我們的方法在場景重建和新穎視圖合成方面表現出色。
對于static-32數據集,我們遵循傳統指標,使用 PSNR、SSIM 和 LPIPS 來評估渲染質量,對于動態數據,我們使用 PSNR* 和 SSIM* 來關注動態對象。我們的結果優于其他方法,展示了該模型在零樣本條件下的泛化能力及其對靜態場景和動態對象進行建模的能力。為了更加直觀的展現我們算法的效果,我們也對相關的實驗結果進行了可視化,如下圖所示。從質量上講,我們的方法在單目場景重建和多視圖合成方面表現出色。
此外,我們對Street Gaussian數據集上的場景重建進行了定量和定性評估,其中相關的實驗結果如下表。
更加直觀的可視化效果如下圖所示。
為了準確地將我們的方法與最新方法進行比較,我們Waymo Open Dataset數據集下進行了定量分析。相關的實驗結果如下表所示,我們的方法在重建方面優于其他方法。因此,在三種不同實驗條件下的定量比較結果表明,我們提出的重建和新穎的視圖合成方法優于其他相關方法。
4D駕駛仿真
基于真實場景的自動駕駛生成式 4D 仿真需要能夠解耦時空關系。這涉及根據當前時間狀態從不同的攝像機視角觀察場景,或根據固定的空間狀態分解時間運動。我們在 NuScenes 和 Waymo 數據集上進行了定量和定性比較實驗,以證明所提方法的能力和有效性。
自動駕駛 4D 仿真的一個關鍵方面是在凍結時間條件下實現動態視角變化的能力。我們將我們提出的方法與現有方法進行了比較,可視化結果表明我們的方法成功實現了所需的任務,如下圖所示。
可視化的相關結果表明我們的方法可以實現準確的變換。為了與基于 3DGS 的方法進行公平的比較,我們在 Waymo 數據集上進行了類似的測試。如下圖所示,我們的方法在圖像精度方面優于其他方法。
此外,我們也實現了視角的轉換以測試模型處理各種相機變換的能力。相關的可視化結果如下圖所示,通過可視化的結果可以看出,我們的模型成功完成了這項任務。
4D仿真的另一個關鍵方面是它能夠在保持相機位置固定的同時改變時間范圍,從而實現多種功能。我們通過在凍結空間的條件下模擬時間運動來展示這種能力,如下圖的左側所示。該圖顯示了相對于真值的移動車輛,而背景保持穩定,驗證了該方法在固定空間環境中模擬時間變化的能力。
結論
本文提出了一種用于自動駕駛的生成式 4D 仿真模型,旨在編輯真實場景以實現可控的自動駕駛仿真??梢暬投拷Y果均表明,所提出的方法可以提取真實場景中的關鍵元素以進行可控仿真,為自動駕駛測試和驗證提供了可行的解決方案。