4090玩轉大場景幾何重建,RGB渲染和幾何精度達SOTA|上海AI Lab&西工大新研究
僅用4090就能實現大規模城市場景重建!
高效幾何重建新架構CityGS-X來了,通過一種新型并行化混合分層三維表征架構(PH2-3D)的可擴展系統,突破了傳統三維重建在算力消耗和幾何精度上的限制。
算力瓶頸無處不在,當前3D高斯潑濺技術雖取得顯著進展,卻仍面臨三大核心挑戰:處理速度緩慢、計算成本高昂、幾何精度有限。
來自上海AI Lab和西工大的研究團隊認為,這些問題的根源在于其非結構化設計本質與并行化機制的缺失。
這就引出一個關鍵命題:能否構建一個兼具高效性、擴展性和精確性的新一代幾何重建框架?
由此,團隊提出了CityGS-X,研究的主要貢獻在于:
- 提出并行化混合層次三維表征(PH2-3D)的可擴展架構,摒棄了傳統大場景分塊算法造成的訓練冗余,相比現有的SOTA幾何重建方法,訓練速度提升了一倍。
- 提出多任務批渲染框架下的動態分配錨點的并行機制,在訓練階段以及渲染階段可以利用多張低端卡平替以及超越目前單張高端顯卡,對于5000+圖的大場景(Matrixcity),只需4卡4090即可實現。
- 提出在模態批渲染框架下的漸進式RGB-深度-法向聯合訓練方法,在RGB渲染和幾何精度上都達到同類任務中的SOTA。
以下是更多細節。
CityGS-X的構建
CityGS-X提出基于并行化混合層次三維表征(PH2-3D)的可擴展架構,摒棄傳統繁瑣的合并-分區流程,首創批處理級多任務渲染機制;
開發動態多細節層次體素分配策略,實現顯存占用與計算效率的平衡;
設計漸進式RGB-深度-法線聯合訓練方案,通過多視角約束與深度先驗的協同優化,顯著提升幾何一致性。
PH2-3D的設計
團隊提出一種基于分布式數據并行(DDP)范式的可擴展三維表示方法,采用K層細節層次(LoDs)的混合結構來表征大規模場景,其中每層級Xk Xk,1 Xk,v包含不同分辨率的體素集合。
體素坐標通過公式計算生成:
其中δ為初始體素尺寸,P為SfM得到的稀疏點云。為實現多GPU負載均衡,團隊設計空間平均采樣策略將體素均勻分配到M個GPU上,滿足分配規則:
每個體素Xk,v(m)關聯可學習嵌入Fv(m)∈R、縮放因子lv(m)∈R、空間位置xv(m)和n個偏移量Ov(m)∈Rn×3。通過多GPU共享的高斯解碼器de(·)實現并行屬性預測:
其中和
分別表示視角相對距離和觀察方向。
該設計通過顯式存儲高斯屬性和梯度同步機制,顯著降低顯存消耗和GPU間通信開銷。
批處理級多任務渲染機制
團隊采用批處理級多任務渲染機制,首先將批量渲染圖像分割為16×16像素的圖塊,并基于Grendal-GS的自適應負載均衡策略分配到不同GPU。
在每塊渲染任務中,提出視角相關高斯遷移策略:并行搜索所有GPU上各LoD層級的相交體素,預測對應高斯屬性(如公式所示),并遷移至任務分配GPU。
隨后各區塊遵循經典基于瓦片的光柵化并行渲染:
其中N為遷移高斯點數量,π(·)為遷移高斯重排序函數。
同時基于PGSR策略生成當前視角法線圖:
RcT表示相機到世界坐標的旋轉矩陣,nπ(i)為第π(i)個重排序高斯的法線。
此外采用無偏深度渲染技術計算深度圖,將深度視為光線與高斯平面的交點:
D表示通過alpha混合的距離圖,dπ(i)為第π(i)個重排序高斯的距離,P為齊次坐標表示,K-1為相機內參逆矩陣。
傳統方法如MVGS受限于單GPU顯存需梯度累積,而多GPU并行機制可實現靈活擴展訓練批次。
批處理級連續性漸進訓練
作者提出三階段漸進式訓練策略:
階段一:批處理級RGB訓練
研究表明合適的批尺寸能提升神經網絡性能。通過批量渲染多視角圖像,作者將單視角RGB損失擴展為批處理級損失:
其中B為預設批尺寸,和
分別為渲染圖像和真實圖像。
該策略使高斯解碼器能跨多視角更新梯度,有效緩解視角過擬合問題。
階段二:增強深度先驗訓練
基于最新單目深度估計器具有平滑連續的表面預測特性,作者提出改進方案:
1)通過最小二乘法恢復偽深度的真實尺度
2)計算目標視圖與鄰近視圖的重投影誤差E
3)采用閾值τd過濾不一致區域,得到增強偽深度
批處理級深度正則化損失定義為:
階段三:批處理級幾何訓練
為修正小物體深度誤差,作者構建圖像對:{(,
),...,(
,
)}對每個圖像對,7×7像素塊中心點P2n,通過單應矩陣,H2n-1,2n映射到配對圖像最小化塊間歸一化相關(NCC)誤差,
其中sg[·]表示梯度截斷,NCC(·)表示歸一化互相關。
實驗結果
以下是與主流方法的渲染指標對比(本文方法均使用4卡4090):
深度圖可視化結果:
對比試驗中,團隊在RGB渲染、深度渲染與其它方法對比,實驗表明CityGS-X在RGB渲染最優的情況下,深度圖也最準確,具有更少的浮點以及地面的空洞。
同時對于法線圖渲染,CityGS-X也展現出更準確的細節。
法線圖可視化:
與目前的SOTA方法相比,CityGS-X在整體的mesh可視化上都有顯著提升。
texture和mesh可視化對比:
時間對比實驗結果:
F1分數對比實驗結果:
在MatriCity數據集上進行定量對比,CityGS-X在重建精度上有顯著提升,同時在訓練速度上也有明顯提升。
論文鏈接:https://arxiv.org/pdf/2503.23044