南洋理工 & 牛津 & 新加坡理工提出Amodal3R,可從遮擋 2D 圖像重建完整 3D 資產,3D生成也卷起來了!
Amodal3R 是一種條件式 3D 生成模型,能夠從部分可見的 2D 物體圖像中推測并重建完整的 3D 形態和外觀,顯著提升遮擋場景下的 3D 重建質量。
給定圖像中 部分可見的物體,Amodal3R 重建具有合理幾何形狀和合理外觀的語義上有意義的 3D 資產。
相關鏈接
- 論文:https://arxiv.org/pdf/2503.13439
- 主頁:https://sm0kywu.github.io/Amodal3R
- 代碼:即將開放...
- 模型:https://huggingface.co/Sm0kyWu/Amodal3R
- 試用:https://huggingface.co/spaces/Sm0kyWu/Amodal3R
論文介紹
Amodal3R 的示例結果。 給定圖像中部分可見的物體(遮擋區域顯示為黑色,可見區域顯示為紅色輪廓),Amodal3R 會生成具有合理幾何形狀和合理外觀的多種語義上有意義的 3D 資產。
大多數基于圖像的 3D 對象重建器都假設對象是完全可見的,而忽略了現實場景中常見的遮擋。論文介紹的 Amodal3R 是一種條件 3D 生成模型,旨在從部分觀察中重建 3D 對象。從“基礎”3D 生成模型開始,并將其擴展為從遮擋對象中恢復合理的 3D 幾何形狀和外觀。作者引入了一種掩模加權多頭交叉注意機制,隨后是一個遮擋感知注意層,該層明確利用遮擋先驗來指導重建過程。論文證明通過僅對合成數據進行訓練,Amodal3R 即使在現實場景中存在遮擋的情況下也能學會恢復完整的 3D 對象。它大大優于現有的獨立執行 2D 非模態完成然后進行 3D 重建的方法,從而為遮擋感知 3D 重建建立了新的基準。
與2D非模態補全+3D重建相比,Amodal3R在遮擋物體的3D重建質量方面取得了更好的效果。目標物體和遮擋物以紅色和綠色輪廓標記。
方法
方法概述: 給定一張圖像作為輸入,并在感興趣的區域中給出提示,Amodal3R 首先使用現成的 2D 分割器提取部分可見的目標對象以及可見性和遮擋蒙版。然后,它應用 DINOv2 提取特征 cdino 作為 3D 重建器的額外條件。為了增強遮擋推理,每個轉換器塊都包含一個蒙版加權交叉注意力和遮擋感知注意層,確保3D重建器準確感知可見信息,同時有效推斷被遮擋部分。
Amodal3R 的 Transformer 結構。與原始 TRELLIS 設計相比,我們進一步引入了 mask 加權交叉注意和遮擋感知層。它適用于稀疏結構和 SLAT 擴散模型。
3D 一致性蒙版示例。給定一個 3D 網格,我們以與其他三角形不同的顏色渲染選定的三角形,以生成多視圖一致性蒙版。它允許評估 處理接觸遮擋的多視圖方法。(遮擋區域顯示為紅色。)
結論
Amodal3R 是一種從部分可見的 2D 圖像重建完整 3D 形狀和外觀的新方法。通過構建 mask 加權交叉注意機制和遮擋感知層,以有效利用可見和遮擋信息。與依賴于順序 2D 完成然后 3D 生成的最先進方法相比,Amodal3R 通過直接在 3D 空間中操作實現了顯著更好的性能。此外,在野外圖像上的結果表明它在 3D 分解和場景理解中的后續應用潛力,標志著朝著在具有復雜遮擋的現實環境中進行穩健的 3D 資產重建邁出了一步。