清華大學提出三維重建的新方法：O2-Recon，用2D擴散模型補全殘缺的3D物體

作者：機器之心 2023-12-29 09:36:51

隨著 NeRF 和 NeuS 等技術的發展，imap 和 vMap 等技術能夠利用可微渲染來優化物體的幾何結構，這些方法能夠重建出更加貼合真實物體表面的網格模型，也能夠重建多個類別的物體，打破單一物體類別的限制。

在計算機視覺中，物體級別的三維表面重建技術面臨諸多挑戰。與場景級別的重建技術不同，物體級別的三維重建需要為場景中的每個物體給出獨立的三維表示，以支持細粒度的場景建模和理解。這對 AR/VR/MR 以及機器人相關的應用具有重要意義。

許多現有方法利用三維生成模型的隱空間來完成物體級別的三維重建，這些方法用隱空間的編碼向量來表示物體形狀，并將重建任務建模成對物體位姿和形狀編碼的聯合估計。得益于生成模型隱空間的優秀性質，這些方法可以重建出完整的物體形狀，但僅限于特定類別物體的三維重建，如桌子或椅子。即使在這些類別中，這類方法優化得到的形狀編碼也往往難以準確匹配實際物體的三維形狀。另外一些方法則從數據庫中檢索合適的 CAD 模型，并輔以物體位姿估計來完成三維重建，這類方法也面臨著類似的問題，其可擴展性比較有限，重建準確性低，很難貼合物體真實的三維表面結構。

隨著 NeRF 和 NeuS 等技術的發展，imap 和 vMap 等技術能夠利用可微渲染來優化物體的幾何結構，這些方法能夠重建出更加貼合真實物體表面的網格模型，也能夠重建多個類別的物體，打破單一物體類別的限制。然而，由于場景內部拍攝角度的約束，很多物體都是被遮擋的，比如靠近墻壁的物體，或者彼此遮擋的物體。在物體被遮擋的情況下，這些方法重建出的物體往往是不完整的，如下圖所示。這些不完整的三維模型無法支持大角度的旋轉和大范圍平移，就很難被各種下游任務利用。

遮擋下的重建結果

清華大學劉永進教授團隊提出物體三維重建的新方法 O2-Recon，利用已有的 2D 擴散模型補全物體圖像中被遮擋的區域，繼而用神經隱式表面場從補全后的圖像中重建完整的三維物體。該論文利用重投影機制保持填充區域的三維一致性，并且在隱式重建過程中加入 CLIP 損失函數監督不可見角度的語義信息，最終重建出完整且合理的三維物體模型，支持大角度的旋轉和平移，可以用于各種下游任務。目前，該論文已被人工智能頂會之一 AAAI 2024 接收。

論文鏈接：https://arxiv.org/abs/2308.09591

O2-Recon 簡介

方法介紹

受到 2D 擴散模型在圖像補全任務中出色表現的啟發，研究者設計了 O2-Recon 方法，旨在利用預訓練的擴散模型來補全圖像中物體被遮擋的區域。雖然現有的擴散模型在圖像補全中表現出強勁的性能，但如果沒有準確的遮罩（Mask）來指出物體應當被補全的區域，擴散模型就很有可能生成錯誤的圖像內容，比如超出正確區域的結構或者錯誤的形狀。在 O2-Recon 方法中，研究者引入了少量的人工操作來構建準確的 Mask，從而保證 2D 補全和 3D 重建的質量。

給定一段帶有物體 Mask 的 RGB-D 視頻序列，需要用戶選擇 1-3 幀圖像，并推測這 1-3 幀圖像中物體被遮擋的區域，繪制被遮擋區域的 Mask。結合擴散模型補全出的深度信息，研究者將這些視角下的 Mask 投影到所有其他視角，得到其他視角下的遮擋區域 Mask。通過加入少量的人機交互，研究者保證了 Mask 的質量，同時由于這些 Mask 是重投影得到的，它們在不同視角下具有的幾何一致性，從而能夠引導 2D 擴散模型為遮擋區域填充出合理且一致的圖像內容。

在三維重建階段，研究者利用類似于 NeuS 的神經隱式表面場來完成表面重建，并利用體渲染構建損失函數進行優化。考慮到補全的圖像仍然可能存在不一致性，這種隱式表示能在多視角優化的過程中逐漸學習出合理的三維結構。另一方面，研究者從兩個角度來提升完全不可見區域的重建效果：首先，研究者利用 CLIP 特征監督新視角下渲染結果與和物體類別文本的一致性；其次，研究者設計了一個級聯網絡結構來編碼隱式表面場，其中包括一個淺層的 MLP+低頻位置編碼來確保表面的整體平滑性，以及一個更深的 MLP 分支+高頻 PE 位置編碼來預測 SDF 的殘差。這種結構既保證可見區域表面的靈活性，又確保了物體不可見區域的平滑性。

實驗效果

物體的三維重建效果

主要實驗結果展示

與其他物體級別的三維重建方法相比，O2-Recon 能重建出更準確，更完整的三維結構，如上圖所示。其中 FroDO 是基于隱空間形狀編碼的方法，Scan2CAD 是基于數據庫檢索的方法，vMap 是利用 NeRF 做表面重建的方法，MonoSDF 是場景級別的三維重建方法。

動圖對比

重建后物體的位置編輯

由于 O2-Recon 重建出的物體較為完整，我們可以對這些物體做大幅度的旋轉或平移，在編輯位置之后，從新的角度觀察這些物體，其表面質量仍然不錯，如下圖所示。

在編輯之前，這些物體在原場景中的位置下：

多物體動圖對比

在編輯之后，這些物體在新的位置下：

多物體動圖對比

總結

本文提出了 O2-Recon 方法，來利用預訓練的 2D 擴散模型重建場景中被遮擋物體的完整 3D 幾何形狀。研究者利用擴散模型對多視角 2D 圖像中的遮擋部分進行補全，并從補全后的圖像利用神經隱式表面重建 3D 物體。為了防止 Mask 的不一致性，研究者采用了一種人機協同策略，通過少量人機交互生成高質量的多角度 Mask，有效地引導 2D 圖像補全過程。在神經隱式表面的優化過程中，研究者設計了一個級聯的網絡架構來保證 SDF 的平滑性，并利用預訓練的 CLIP 模型通過語義一致性損失監督新視角。研究者在 ScanNet 數據集上的實驗證明，O2-Recon 能夠為任意類別的被遮擋物體重建出精確完整的 3D 表面。這些重建出的完整 3D 物體支持進一步的編輯操作，如大范圍旋轉和平移。

責任編輯：張燕妮來源：機器之心

三維模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華大學提出三維重建的新方法：O2-Recon，用2D擴散模型補全殘缺的3D物體

O2-Recon 簡介

實驗效果

總結