SLAM3R:北大陳寶權團隊等只用單目長視頻就能實時重建高質(zhì)量的三維稠密點云
北京大學陳寶權團隊和香港大學等高校及業(yè)界機構聯(lián)合推出實時三維重建系統(tǒng) SLAM3R,首次實現(xiàn)從長視頻(單目 RGB 序列)中實時且高質(zhì)量地重建場景的稠密點云。SLAM3R 使用消費級顯卡(如 4090D)即可達到 20+ FPS 的性能,重建點云的準確度和完整度達到當前最先進水平,同時兼顧了運行效率和重建質(zhì)量。該研究成果被 CVPR 2025 接收為 Highlight 論文,并在第四屆中國三維視覺大會(China3DV 2025)上被評選為年度最佳論文,合作者為董思言博士(共同一作)、王書哲博士、尹英達博士、楊言超助理教授和樊慶楠博士,第一作者為北京大學本科生劉宇政。
- 論文標題:SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos
- 論文地址:https://arxiv.org/pdf/2412.09401
- 代碼地址:https://github.com/PKU-VCL-3DV/SLAM3R
SLAM3R 的交互界面(視頻經(jīng)過加速)。用戶只需使用普通手機攝像頭拍攝 RGB 視頻,即可通過部署于服務器的 SLAM3R 系統(tǒng)實時重建出高質(zhì)量的場景稠密點云,將二維視頻轉(zhuǎn)化為"可交互"、"可編輯"的三維世界。
在計算機視覺與機器人感知領域,基于單目攝像頭的高質(zhì)量三維環(huán)境感知與重建一直是個極具挑戰(zhàn)性的課題——這主要是因為需要從有限的二維觀測中恢復在相機投影過程中丟失的三維空間信息。過去的三十年間,研究者們建立了較為完善的多視角幾何理論和計算框架,通常依賴多種算法的集成,包括運動恢復結構(Structure-from-Motion,簡稱 SfM)、同時定位和地圖構建(Simultaneous Localization and Mapping,簡稱 SLAM)以及多視角立體視覺(Multi-View Stereo,簡稱 MVS)等。
由于擁有扎實的數(shù)學原理和優(yōu)化算法作為"護城河",三維重建領域較少受到神經(jīng)網(wǎng)絡等深度學習方法的"入侵"。在傳統(tǒng)方法中,神經(jīng)網(wǎng)絡主要作為算法流程的輔助模塊,用于提升特征匹配的魯棒性和深度估計的完整性。近年來,隨著以 DUSt3R 為代表的大型神經(jīng)網(wǎng)絡模型出現(xiàn),這一傳統(tǒng)范式正在改變:通過端到端的前饋神經(jīng)網(wǎng)絡,可以直接從多視角 RGB 圖像預測三維幾何,避免了傳統(tǒng)方法中迭代優(yōu)化所帶來的效率瓶頸。
SLAM3R(發(fā)音:/sl?m?r/)進一步革新了這一范式的演進,首次將大模型應用于長視頻序列的稠密重建任務。該方案通過前饋神經(jīng)網(wǎng)絡,將局部多視角三維重建與全局增量式坐標配準無縫集成,為基于單目 RGB 視頻輸入的稠密點云重建提供了高效率解決方案,無需迭代優(yōu)化相機參數(shù)或三維點云。實驗結果表面,SLAM3R 不僅在多個數(shù)據(jù)集上展現(xiàn)出最先進的重建質(zhì)量,還能在消費級顯卡上保持 20+ FPS 的實時性能。更為重要的是,SLAM3R 的成功展示了純數(shù)據(jù)驅(qū)動的方法在長視頻序列三維幾何感知任務中的潛力,為未來重建系統(tǒng)的研究提供了新思路。
SLAM3R 漸進式重建過程展示。輸入 RGB 圖像序列(如左上圖所示)后,SLAM3R 首先進行局部多視角三維重建(左下圖),然后執(zhí)行全局增量式坐標配準(右圖),從而逐步構建完整場景的點云模型。
三位一體的挑戰(zhàn):準確、完整、高效
基于多視角幾何理論的傳統(tǒng)方法通常將三維重建分為兩個階段:首先通過 SLAM 或 SfM 算法估計相機參數(shù)和場景結構,然后使用 MVS 算法補充場景的幾何細節(jié)。這類方法雖然能夠獲得高質(zhì)量的重建結果,但是需要離線優(yōu)化等處理,因此實時性能較差。
近年來,DROID-SLAM 和 NICER-SLAM 等集成了相機定位和稠密重建的 SLAM 系統(tǒng)相繼問世。然而,這些系統(tǒng)或是重建質(zhì)量不夠理想,或是無法達到實時運行的要求。DUSt3R 開創(chuàng)性地提出端到端的高效點云重建,但其僅局限于圖像對(雙目),在視頻場景下仍需全局迭代優(yōu)化,因而影響了效率。同期工作 Spann3R 雖將 DUSt3R 擴展為增量重建方式并提高了效率,但也帶來了明顯的累積誤差,降低了重建質(zhì)量。
此外,重建的準確度和完整度之間存在著固有的權衡關系,導致當前重建系統(tǒng)難以同時實現(xiàn)準確、完整和高效這三個目標。因此,在單目視頻稠密重建領域中,要同時達到高質(zhì)量和高效率極具挑戰(zhàn)性。
SLAM3R:大模型時代背景下的實時稠密重建系統(tǒng)
DUSt3R 首次證明了大型神經(jīng)網(wǎng)絡模型的 Scaling Law 在雙目立體視覺中的可行性。SLAM3R 在此基礎上更進一步,通過引入傳統(tǒng) SLAM 系統(tǒng)的經(jīng)典設計理念,成功將大模型應用于長視頻序列的稠密重建任務。這種端到端的方法不僅具有天然的高運行效率,而且經(jīng)過大規(guī)模訓練后能達到高質(zhì)量的重建效果,從而實現(xiàn)了一個在準確度、完整讀和效率方面都表現(xiàn)出色的三維重建系統(tǒng)。
SLAM3R 系統(tǒng)示意圖。給定單目 RGB 視頻,SLAM3R 使用滑動窗口機制將其轉(zhuǎn)換為互有重疊的片段(稱為窗口)。每個窗口輸入至 Image-to-Points(I2P)網(wǎng)絡,用于恢復局部坐標系中的稠密點云。隨后,這些局部點逐步輸入至 Local-to-World(L2W)網(wǎng)絡,以創(chuàng)建全局一致的場景模型。I2P 網(wǎng)絡選擇一個關鍵幀作為參考建立局部坐標系,并利用窗口中的其余幀估計該窗口的稠密點云。第一個窗口用于建立世界坐標系,之后 L2W 網(wǎng)絡逐步融合后續(xù)窗口。在增量融合過程中,系統(tǒng)檢索最相關的已注冊關鍵幀作為參考,并整合新的關鍵幀。通過這個迭代過程,最終完成整個場景的重建。
SLAM3R 主要由兩個部分組成:Image-to-Points(I2P)網(wǎng)絡和 Local-to-World(L2W)網(wǎng)絡。I2P 網(wǎng)絡負責從視頻片段中恢復局部坐標系下的稠密點云,而 L2W 網(wǎng)絡則將局部重建結果逐步注冊到全局場景坐標系中。在整個點云重建過程中,系統(tǒng)直接使用網(wǎng)絡在統(tǒng)一坐標系中預測 3D 點云,無需顯式計算相機參數(shù)和三角化場景點云,從而避免了傳統(tǒng)重建方法中迭代優(yōu)化等耗時的操作。
窗口內(nèi)的多視角三維重建(I2P 網(wǎng)絡)。在每個窗口內(nèi),選擇一幀作為關鍵幀來建立參考系,其余幀(稱為支持幀)用于輔助該關鍵幀的重建。我們基于 DUSt3R 解碼器設計了關鍵幀解碼器,通過引入簡單的最大值池化操作來聚合多個支持幀的交叉注意力特征,從而有效整合多視角信息。這一改進在保持模型結構簡潔的同時具有多重優(yōu)勢:1)繼承 DUSt3R 預訓練權重,從而保證預測質(zhì)量;2)未引入過多計算開銷,保持實時性能;3)支持任意數(shù)量的圖像輸入,具有良好的擴展性。
窗口間的增量式點云注冊(L2W 網(wǎng)絡)。窗口間的注冊與窗口內(nèi)的重建相似,不同之處在于前者使用多幀重建結果作為參考系,用以輔助注冊新的關鍵幀。因此,L2W 采用了 I2P 的整體架構。在此基礎上,引入簡單的坐標編碼器來處理點云輸入,并通過逐層特征疊加的方式注入解碼器。這種機制讓模型在解碼過程中持續(xù)接收幾何和坐標系的雙重引導,既確保了信息傳遞的充分性,又避免了復雜特征交互設計帶來的計算負擔。這一設計巧妙地繼承了 DUSt3R 的坐標轉(zhuǎn)換能力,并將其轉(zhuǎn)化為可控的注冊過程。
場景幀檢索模塊。我們提出了一種前饋檢索機制,用于確定 L2W 網(wǎng)絡在注冊新關鍵幀時所使用的參考幀。當 SLAM3R 系統(tǒng)需要調(diào)用 L2W 融合新窗口(關鍵幀)時,系統(tǒng)會先通過場景幀檢索模塊從已注冊窗口中檢索 K 個最優(yōu)參考幀,再將這些參考幀與新幀一同輸入 L2W 模型進行坐標系轉(zhuǎn)換。這種設計既保持了全局一致性,又有效緩解了傳統(tǒng) SLAM 系統(tǒng)中的累積誤差問題。檢索模塊通過在 I2P 網(wǎng)絡中附加額外的輕量級 MLP 實現(xiàn),完成前饋式快速檢索。
大規(guī)模訓練。SLAM3R 系統(tǒng)的各個模塊均采用前饋式神經(jīng)網(wǎng)絡實現(xiàn),最大程度地復用了 DUSt3R 大規(guī)模預訓練的權重,并在大規(guī)模視頻數(shù)據(jù)集上進行訓練。具體來說,我們收集了約 85 萬個來自 ScanNet++、Aria Synthetic Environments 和 CO3D-v2 數(shù)據(jù)集的視頻片段,使用 8 張 4090D 顯卡進行訓練。訓練完成后,該系統(tǒng)可在單張 4090D 顯卡上實現(xiàn)實時推理。
單目視頻稠密重建邁入高質(zhì)高效新時代
我們在室內(nèi)場景數(shù)據(jù)集 7-Scenes 和 Replica 上評估了 SLAM3R。在重建速度較快(FPS 大于 1)的方法中,SLAM3R 實現(xiàn)了最佳的準確度和完整度。
7-Scenes(上方表格)和 Replica(下方表格)數(shù)據(jù)集的重建結果評估。我們以厘米為單位報告重建的準確度和完整性。FPS 欄目的顏色漸變從紅色變?yōu)辄S色,再變?yōu)榫G色,表示實時性能提升。
值得特別指出的是,即使沒有進行任何后續(xù)全局優(yōu)化,SLAM3R 的重建質(zhì)量也達到了與需要復雜優(yōu)化的離線方法相當?shù)乃健_@表明 SLAM3R 在準確度、完整度和運行效率三方面達到了理想的平衡。
SLAM3R 基于公開數(shù)據(jù)集與日常視頻的場景重建結果展示。
未來展望
SLAM3R 在保持 20+ FPS 實時性能的同時,其重建質(zhì)量可達到離線方法相近的水平,旨在推動三維重建向高質(zhì)量、高效率方向發(fā)展。通過將傳統(tǒng)多階段的三維重建流程簡化為輕便的前饋網(wǎng)絡,SLAM3R 降低了使用門檻,使三維重建有望從專業(yè)領域拓展至大眾化應用。隨著模型輕量化技術的突破,該方案未來有望進一步應用于移動終端,為三維資產(chǎn)快速獲取、通用人工智能和具身智能的落地提供基礎三維數(shù)據(jù)支持。
目前,SLAM3R 仍存在諸多局限性。由于跳過了相機參數(shù)預測和優(yōu)化等環(huán)節(jié),SLAM3R 無法執(zhí)行顯式的全局優(yōu)化(Bundle Adjustment)。因此,在大規(guī)模場景中,系統(tǒng)仍會受到累積誤差的影響。此外,基于場景重建推導出的相機參數(shù)的精度仍不如專門針對相機定位的 SLAM 系統(tǒng)。解決這些局限性是我們未來工作的重點。
歡迎試用!期待寶貴的意見和建議!