無論真實還是AI視頻,「摩斯卡」都能重建恢復4D動態可渲染場景
雷嘉暉,美國賓夕法尼亞大學計算機系博士生 (2020 - 今), 導師為 Kostas Daniilidis 教授,目前主要研究方向為四維動態場景幾何的建模表示和算法以及應用。他在計算機視覺和機器學習頂會 (CVPR、NeurIPS、ICML、ECCV) 以第一或共一作者身份發表文章 7 篇。此前他本科 (2016-2020) 以專業第一名的成績畢業于浙江大學控制系,竺可楨學院混合班。
從任意單目視頻重建可渲染的動態場景是計算機視覺研究領域的一個圣杯。本文中,賓夕法尼亞大學和斯坦福大學研究團隊嘗試向這一目標邁進一小步。
互聯網上有海量單目視頻,其中蘊含了大量物理世界的信息,但三維視覺仍缺乏行之有效的手段,將三維動態信息從這些視頻中提取出來,從而支撐未來三維大模型建模及理解動態物理世界。盡管重要,這個反問題極具挑戰性。
- 其一,真實拍攝的二維視頻往往缺乏多視角信息,因此不能利用多視角幾何進行三維重建,甚至在很多情況下無法通過已有軟件(如 COLMAP)求解相機位姿和內參。
- 其二,動態場景的自由度極高,其變形和長時間信息融合的四維表示仍然不成熟,使這一困難的反問題更加復雜。
本文提出了一種新穎的神經信息處理系統 —— 摩斯卡 (MoSca),只需提供一連串視頻幀圖片,無需任何額外信息,即可從 SORA 生成的視頻、電影電視劇片段、互聯網視頻和公開數據集的單目野生 (in-the-wild) 視頻中重建可渲染的動態場景。
- ArXiv地址: https://arxiv.org/pdf/2405.17421
- 代碼 (近期將開源):www.github.com/JiahuiLei/MoSca
- 項目網站: www.cis.upenn.edu/~leijh/projects/mosca/
- 視頻 (bilibili): www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4
以下為兩個視頻Demo。
方法概覽
為了克服上述的困難,摩斯卡首先利用了存儲在計算機視覺基石模型 (foundation models) 中的強先驗知識將問題解空間縮小。
具體而言,摩斯卡利用了單目有尺度的深度估計 (mono metric-depth) 模型 UniDepth、 視頻任一點長時間跟蹤 (track any point) 模型 CoTracker、光流估計 (optical flow) 模型 RAFT 計算出的對極幾何誤差 (epipolar error), 以及預訓練語義模型 DINO-v2 提供的語義特征。詳參論文 3.1 章節.
我們觀察到,大多數真實世界的動態變形本質上都是緊湊和稀疏的,其復雜度往往遠低于真實幾何結構的復雜度。比如,一個硬物體的運動可以用旋轉和平移表示,一個人的運動大致可以用多個關節的旋轉平移近似。
基于這一觀察,本文提出了一種新穎的緊湊動態場景表示 —— 四維運動腳手架 (4D Motion Scaffold),將上述基石模型輸出從二維提升至四維并進行融合,同時也融入物理啟發的變形正則化 (ARAP) 。
四維運動腳手架是一個圖,圖的每一個節點是一串剛體運動 (SE (3)) 軌跡,圖的拓撲結構是全局考慮剛體運動軌跡曲線距離而構建的最近鄰邊。通過使用對偶四元數 (dual-quaternion) 在時空中平滑插值圖上節點的剛體軌跡,可表示空間中任意一點的變形。這一表示大大簡化了需解的運動參數。(詳見論文 3.2 章節)。
四維運動腳手架的另一個巨大優勢在于可以直接被單目深度和視頻二維點跟蹤初始化,再通過高效的物理正則項優化求解出未知的遮擋點位置以及局部坐標系方向。詳參論文 3.3 章節.
有了四維運動腳手架,任何時刻的任何一點都可以被變形到任意目標時刻,這讓全局融合觀測信息變得可能。具體而言,視頻每一幀都可以利用估計的深度圖反投影到三維空間并初始化三維高斯 (3DGS)。這些高斯被「綁定」在四維運動腳手架上,自由穿梭于任何時刻。想要渲染某一時刻的場景,只需將全局所有其他時刻的高斯通過四維腳手架傳送到當前時刻融合即可。這一基于四維運動腳手架和高斯的動態場景表示可高效地被高斯渲染器優化(詳見論文 3.4 章節)。
最后值得一提的是,摩斯卡是一個無需相機內外參的系統。通過利用上述基石模型輸出的對極幾何誤差確定靜態背景掩碼,利用基石模型輸出的深度和點跟蹤,摩斯卡可以高效地優化重投影誤差,求解全局集束優化 (bundle adjustment),從而直接輸出相機內參和位姿,并通過后續的渲染持續優化相機(詳見論文 3.5 章節)。
實驗結果
摩斯卡可以在 DAVIS 數據集視頻中重建動態場景。值得注意的是,摩斯卡可靈活支持多種基于高斯的渲染器。除了原生的 3DGS 渲染器,本文還測試了近期的高斯表面重建渲染器 GOF (Gaussian Opacity Field),如圖中最右列的火車,GOF 可渲染出更高質量的 normal 和 depth。
摩斯卡在極具挑戰性的 IPhone DyCheck 數據集上取得了顯著提升,同時也在廣泛對比的 Nvidia 數據集上對比了其他方法。