可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D場景、任意提示!
文章鏈接:https://arxiv.org/pdf/2408.16768
在線demo: https://huggingface.co/spaces/ZiyuG/SAM2Point
code鏈接:https://github.com/ZiyuGuo99/SAM2Point
亮點直擊
- 無投影 3D 分割:SAM2POINT 通過將 3D 數據體素化為視頻格式,避免了復雜的 2D-3D 投影,實現了高效的零樣本 3D 分割,同時保留了豐富的空間信息。
- 多樣的提示支持:該方法支持 3D 點、3D框和mask三種提示類型,實現了靈活的交互式分割,增強了 3D 分割的精確度和適應性。
- 強大的泛化能力:SAM2POINT 在多種 3D 場景中表現出優越的泛化能力,包括單個物體、室內場景、室外場景和原始 LiDAR 數據,顯示了良好的跨領域轉移能力。
今天和小伙伴們一起學習的是SAM2POINT,這是一種初步探索,是將 Segment Anything Model 2 (SAM 2) 適配于零樣本和可提示的3D分割。SAM2POINT 將任何 3D 數據解釋為一系列多方向視頻,并利用 SAM2 進行3D空間分割,無需進一步訓練或 2D-3D 投影。框架支持多種提示類型,包括 3D 點、3D框和mask,并且可以在各種場景中進行泛化,例如 3D 單個物體、室內場景、室外場景和原始 LiDAR。在多個 3D 數據集上的演示,如 Objaverse、S3DIS、ScanNet、Semantic3D 和 KITTI,突出了 SAM2POINT 的強大泛化能力。本方法展示了 SAM 在 3D 中的最忠實實現,這可能成為未來可提示 3D 分割研究的起點。
效果展示
下圖 3到圖7 展示了 SAM2POINT 在使用不同 3D 提示對不同數據集進行 3D 數據分割的演示。
SAM2Point的3D物體的多方向視頻:
SAM2Point的3D室內場景多方向視頻:
SAM2Point的3D室外場景多方向視頻:
SAM2Point的3D原始激光雷達的多方向視頻:
SAM2POINT
SAM2POINT 的詳細方法如下圖 2 所示。下面介紹了 SAM2POINT 如何高效地將 3D 數據格式化以兼容 SAM 2,從而避免復雜的投影過程。接下來,以及詳細說明了支持的三種 3D 提示類型及其相關的分割技術。最后,展示了 SAM2POINT 有效解決的四種具有挑戰性的 3D 場景。
3D 數據作為視頻
任意 3D 場景
憑借簡潔的框架設計,SAM2POINT 在各種領域中表現出優越的零樣本泛化能力,從對象到場景、從室內到室外場景。在下文中詳細闡述了四種不同的 3D 場景:
- 3D 單個物體,如 Objaverse,具有多種類別,具有不同實例的獨特特征,包括顏色、形狀和幾何結構。對象的相鄰組件可能會重疊、遮擋或融合,這要求模型準確識別細微差別以進行部分分割。
- 室內場景,如 S3DIS和 ScanNet,通常具有多個在封閉空間內(如房間)排列的對象。復雜的空間布局、外觀相似性和對象間的不同方向給模型從背景中分割這些對象帶來挑戰。
- 室外場景,如 Semantic3D,與室內場景不同,主要由于對象的大小對比明顯(建筑物、車輛和人)和點云的尺度更大(從一個房間到整個街道)。這些變化使得在全球尺度或細粒度水平上分割對象變得復雜。
- 原始 LiDAR,如 KITTI在自動駕駛中,與典型點云不同,其分布稀疏且缺乏 RGB 信息。稀疏性要求模型推斷缺失的語義以理解場景,且缺乏顏色迫使模型僅依靠幾何線索區分對象。在 SAM2POINT 中,直接通過 LiDAR 強度設置 3D 體素的 RGB 值。
總結展望
SAM2Point,利用 Segment Anything 2 (SAM 2) 實現 3D 分割,采用零樣本和可提示框架。通過將 3D 數據表示為多方向視頻,SAM2POINT 支持多種類型的用戶提供的提示(3D 點、框和mask),并在多種 3D 場景(3D 單個物體、室內場景、室外場景和原始稀疏 LiDAR)中展示了強大的泛化能力。作為初步探索,SAM2POINT 提供了關于將 SAM 2 適配于有效和高效的 3D 理解的獨特見解。希望本文的方法能夠作為可提示 3D 分割的基礎基準,鼓勵進一步研究以充分發揮 SAM 2 在 3D 領域的潛力。
本文轉自 AI生成未來 ,作者:AI生成未來
