成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICLR 2025 Spotlight | 讓城市「動」起來!DynamicCity突破4D大場景生成技術邊界

人工智能 新聞
上海人工智能實驗室、卡耐基梅隆大學、新加坡國立大學和新加坡南洋理工大學團隊提出DynamicCity。

過去一年,3D 生成技術迎來爆發式增長。在大場景生成領域,涌現出一批 “靜態大場景生成” 工作,如 SemCity [1]、PDD [2]、XCube [3] 等。這些研究推動了 AI 利用擴散模型的強大學習能力來解構和創造物理世界的趨勢。

盡管這些方法在生成復雜且稀疏的三維環境方面表現出色,現有技術仍面臨一個核心挑戰:在生成大型 3D 場景時,它們將環境視為靜止的 “快照”—— 道路凝固、行人懸停、車輛靜止不動。這種靜態生成方式缺乏真實世界瞬息萬變的交通流,難以反映復雜多變的交通場景,限制了實際應用。

那么,如何讓生成的 3D 場景突破靜態單幀的限制,真正捕捉動態世界的時空演化規律?

對此,上海人工智能實驗室、卡耐基梅隆大學、新加坡國立大學和新加坡南洋理工大學團隊提出DynamicCity,給出了突破性的解答。這項創新性工作以4D 到 2D 的特征降維為核心突破點,首次實現了高質量、高效的 4D 場景建模,并在生成質量、訓練速度和內存消耗三大關鍵維度上取得跨越式進展。

DynamicCity已被 ICLR 2025 接收為Spotlight論文,項目主頁和代碼均已公開。

  • 論文:https://arxiv.org/abs/2410.18084
  • 主頁:https://dynamic-city.github.io
  • 代碼:https://github.com/3DTopia/DynamicCity

引言

3D 大型場景生成技術旨在利用深度學習模型,如擴散模型,構建高保真、可擴展的場景。該技術有望為智能系統的訓練與驗證提供近乎無限的虛擬試驗場。然而,現有方法大多還在探索靜態場景的單幀生成(如 XCube [1]、PDD [2]、SemCity [3] 等),難以捕捉真實駕駛環境中交通流、行人運動等動態要素的時空演化規律。這種靜態與動態的割裂,嚴重制約了生成場景在復雜任務中的應用價值。

主流的靜態場景生成方法 [1, 2, 3] 主要依賴體素超分或 TriPlane 壓縮,以實現大規模靜態場景的高效生成,其本質仍是對單幀 3D 場景的 “快照式” 建模。盡管近期研究嘗試將生成范圍擴展至動態(如 OccSora [4], DOME [5]),4D 場景的復雜性 —— 包含數十個移動物體、百米級空間跨度及時序關聯 —— 仍導致生成質量與效率的嚴重失衡。例如 OccSora 無法在大壓縮率的情況保證較好的重建效果,以及擴散模型生成的結果也較為粗糙。

針對這一難題,上海人工智能實驗室等提出DynamicCity—— 面向 4D 場景的生成框架。核心思想是,通過在潛空間顯式建模場景的空間布局與動態變化,并借助擴散模型,直接生成高質量的動態場景。具體而言,DynamicCity 采用以下兩步方法:1) 通過變分自編碼器(Variational Autoencoder, VAE)將復雜的 4D 場景壓縮為緊湊的 2D HexPlane [5][6] 特征表示,避免高維潛空間過于復雜導致生成模型難以學習;2) 采用 Padded Rollout Operation (PRO) 使潛空間捕捉到更多時空結構,幫助擴散模型(Diffusion Transformer, DiT [7])更好生成場景的空間結構與動態演化。

DynamicCity 的主要貢獻如下:

1. 時空特征壓縮:提出基于 Transformer 的投影模塊(Projection Module),將 4D 點云序列壓縮為六個 2D 特征平面(HexPlane),相較于傳統平均池化方法,mIoU 提升 12.56%。結合 Expansion and Squeeze Strategy (ESS),在提升 7.05% 重建精度的同時,將內存消耗降低 70.84%。

2. 特征重組:提出 Padded Rollout 操作,將 HexPlane 特征重組為適配 DiT 框架的特征圖,最大程度保留 HexPlane 結構化信息,幫助生成 DiT 更好的學習潛空間。

3. 可控生成:支持軌跡引導生成、指令驅動生成、4D 場景修改、布局條件生成等功能,并可輕松擴展至更多應用,實現更可控的生成。

DynamicCity:基于 HexPlane 的動態場景擴散模型

DynamicCity 采用HexPlane 表征DiT構建了一個高效的4D 場景生成框架 。核心思想通過特征降維的方式,將 4D 場景映射到緊湊的 2D HexPlane,并在此基礎上訓練 DiT 進行場景生成。如圖所示,DynamicCity 主要由以下兩個核心模塊構成:

1. 基于 HexPlane 表征的 VAE:利用投影模塊 (HexPlane Projection Module),將 4D 場景壓縮到六個互相正交的2D 特征平面,并通過  Expansion & Squeeze Strategy (ESS) 進行解碼,以高效恢復原始時空信息。

2. 在重組 HexPlane 上訓練的擴散模型:基于Padded Rollout Operation (PRO),對 HexPlane 進行結構化展開,并在此潛空間訓練DiT進行采樣,以生成新的 4D 動態場景。

DynamicCity 通過這兩個核心模塊,解決了現有 4D 生成模型重建效果和生成結果差的問題,提供了更緊湊的表征、更高效的訓練、更高質量的動態場景合成。

基于 HexPlane 表征的 VAE

DynamicCity 使用 VAE 將 4D 點云轉換為緊湊的 HexPlane 表征。一個 4D 場景被表示為時空體素數據,其中分別表示時間、空間維度,而代表特征通道數。VAE 將 4D 數據進行降維成 HexPlane:

其中,下標表示每個平面保留的維度。負責建模空間維度信息負責建模時空關聯。這一映射成功將 4D 表達壓縮至 2D 空間,使得后續的生成任務更高效。

投影模塊(Projection Module)

為了高效獲取 HexPlane,作者設計了投影模塊 (Projection Module),用于將高維特征映射至 HexPlane。在通過共享 3D 卷積特征提取器提取初步的時空 4D 特征后,作者使用多個投影網絡 ,將 4D 特征投影到 2D 平面,每一個投影網絡會壓縮一個或兩個維度。

投影模塊由 7 個小型的投影網絡組成,其中 首先進行時間維度壓縮,而后三個小型網絡分別提取空間特征平面。而時空特征平面 則是通過三個小型網絡直接從 4D 特征中提取得到。

Expansion & Squeeze Strategy (ESS) 解碼

在動態 NeRF 等領域中,HexPlane 常用一個多層感知機(MLP)進行逐點解碼。然而在 4D 場景中,點的數量非常多,導致模型速度慢,顯存占用大。DynamicCity 提出 ESS 解碼策略,用卷積神經網絡代 MLP,減少顯存占用,加速訓練,同時顯著提升重建效果。

首先,對每個 2D 特征平面進行擴展和重復,使其匹配 4D 體素特征;然后,利用 Hadamard 乘積進行信息融合:

最終,通過卷積解碼器生成完整 4D 語義場景。

在重組 HexPlane 上訓練的擴散模型

在 VAE 編碼器學習到 4D 場景的 HexPlane 表征之后,DynamicCity 使用 DiT在學習 HexPlane 空間的分布,并生成時空一致的動態場景

HexPlane 的六個特征平面共享部分空間維度或時間維度。作者希望能夠用一種簡單有效的方式,在訓練擴散模型時,六個平面并非互相獨立,而是共享部分時空信息。Padded Rollout Operation (PRO)將六個特征平面排列成單個統一的 2D 矩陣,并在未對齊的區域填充零值,以最大程度地保留 HexPlane 的結構化信息 。

具體而言,PRO 將六個 2D 特征平面轉換為一個方形特征矩陣,通過將空間維度和時間維度盡可能的對齊,PRO 能夠最小化填充區域的大小,并確保空間與時間維度之間的信息一致性。

隨后,Patch Embedding將該 2D 特征矩陣劃分為小塊,并將其轉換為 token 序列。在訓練過程中,作者為所有 token 添加位置嵌入,并將填充區域對應的 token排除在擴散過程之外,從而保證生成過程中時空信息的完整性。

可控生成與應用

為了讓 HexPlane 生成過程具備可控性,作者引入 Classifier-Free Guidance (CFG)[8]機制,以支持不同條件約束下的場景生成

對于任意輸入條件,作者采用AdaLN-Zero技術來調整 DiT 模型內部的歸一化參數,從而引導模型生成符合特定約束的場景。此外,對于圖像條件 (Image-based Condition),作者額外添加跨模態注意力模塊 (Cross-Attention Block),以增強 HexPlane 與外部視覺信息的交互能力。

通過 CFG 和 HexPlane Manipulation,DynamicCity 支持以下的應用,且可以輕松拓展到其他的條件

1. HexPlane 續生成 (Long-term Prediction):通過自回歸方式擴展 HexPlane,實現 4D 場景未來預測,長序列 4D 場景生成等任務。

2. 布局控制 (Layout-conditioned Generation):根據鳥瞰 (BEV) 視角語義圖,生成符合交通布局的動態場景。

3. 車輛軌跡控制 (Trajectory-conditioned Generation):通過輸入目標軌跡,引導場景中車輛的運動。

4. 自車運動控制 (Ego-motion Conditioned Generation):允許用戶輸入特定指令,引導自車在合成場景中的運動路徑。

5. 4D 場景修改 (4D Scene Inpainting):通過掩膜 HexPlane 中的局部區域,并利用 DiT 進行局部補全,實現 4D 動態場景的高質量修復。

結果

下面展示了一些 DynamicCity 的結果,包括無條件生成的結果,布局控制生成結果等。

無條件生成(左:OccSora [4]; 右:DynamicCity)

長序列生成

布局控制生成

車輛軌跡 / 自車運動生成

4D 場景編輯

總結 

DynamicCity 提出了基于 HexPlane 的 4D 場景擴散生成模型,通過 HexPlane 表征、Projection Module、Expansion & Squeeze Strategy、Padded Rollout Operation (PRO),以及Diffusion Transformer 擴散采樣,實現了高效、可控且高質量的 4D 場景生成。此外,DynamicCity 還支持多種可控生成方式,并可應用于軌跡預測、布局控制、自車運動控制及場景修改等多個自動駕駛任務。

作者介紹

DynamicCity是上海人工智能實驗室、卡耐基梅隆大學、新加坡國立大學和新加坡南洋理工大學團隊的合作項目。

本文第一作者卞恒瑋,系卡耐基梅隆大學碩士研究生,工作完成于其在上海人工智能實驗室實習期間,通訊作者為上海人工智能實驗室青年科學家潘亮博士。

其余作者分別為新加坡國立大學計算機系博士生孔令東,新加坡南洋理工大學謝浩哲博士、劉子緯教授,以及上海人工智能實驗室喬宇教授。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2018-05-23 16:07:52

智慧城市

2025-02-24 10:20:00

模型訓練數據

2025-03-10 08:25:00

機器人AI模型

2017-04-21 16:32:42

4D3D打印

2016-02-17 13:31:35

智能交通華為

2025-04-03 10:12:30

2025-04-07 08:35:00

3DAI生成

2024-10-28 13:30:00

2025-02-24 13:40:00

模型生成訓練

2023-10-15 12:57:38

數據訓練

2023-06-09 13:40:47

2024-12-16 14:40:00

AI模型訓練

2021-04-01 13:53:26

深度學習大數據人工智能

2017-02-24 08:56:47

API云計算IaaS

2024-06-12 09:48:39

2023-11-27 09:49:37

自動駕駛數據

2025-06-03 08:35:00

大模型技術AI

2015-03-16 11:54:55

云計算

2024-04-12 10:46:26

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美国产一区二区三区 | 日韩欧美国产综合 | av片在线观看 | 亚洲精品一区中文字幕乱码 | 久久国产精品99久久久久久丝袜 | 日本成人综合 | 国产91丝袜在线播放 | 精品不卡| 亚洲三区在线观看 | 亚洲图片一区二区三区 | 免费在线视频精品 | 国产精品污www一区二区三区 | 国产精品电影网 | 亚洲激情综合 | 午夜影院网站 | 亚洲一区二区三区免费在线观看 | 丁香久久| 成人精品一区 | 在线视频一区二区 | 成人国产精品 | 久草免费福利 | 狠狠干网站 | 亚州春色 | 精品一二区 | 国产一区二区三区四区五区加勒比 | 一区二区三区久久久 | 亚洲精品自在在线观看 | 久久久九九九九 | 欧美极品在线观看 | 国产一二三区在线 | 一区二区三区免费 | 精品一区av | 亚洲欧美综合精品久久成人 | 全部免费毛片在线播放网站 | 亚洲成人一区 | 亚洲精品无 | 久草新在线 | 91久久久久 | 青青草中文字幕 | 亚洲一区二区三区在线播放 | 久久一本 |