成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<input id="oic8i"></input>

<s id="oic8i"><tbody id="oic8i"></tbody></s>

<s id="oic8i"><tbody id="oic8i"></tbody></s><s id="oic8i"><source id="oic8i"></source></s>

<abbr id="oic8i"><code id="oic8i"></code></abbr><abbr id="oic8i"><code id="oic8i"></code></abbr>

<bdo id="oic8i"></bdo>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

CVPR 2025 | 2D 大模型賦能3D Affordance 預測，GEAL助力可泛化的3D場景可交互區域識別

作者：機器之心 2025-04-11 09:44:23

人工智能新聞

所謂?3D Affordance Learning，就是希望模型能夠根據視覺和語言線索，自動推理出物體可供哪些操作、以及可交互區域的空間位置，從而為機器人或人工智能系統提供對物體潛在操作方式的理解。

GEAL 由新加坡國立大學的研究團隊開展，第一作者為博士生魯東岳，通訊作者為該校副教授 Gim Hee Lee，團隊其他成員還包括孔令東與黃田鑫博士。

主頁：https://dylanorange.github.io/projects/geal/
論文：https://arxiv.org/abs/2412.09511
代碼：https://github.com/DylanOrange/geal

在現實世界中，如何讓智能體理解并挖掘 3D 場景中可交互的部位（Affordance）對于機器人操作與人機交互至關重要。所謂 3D Affordance Learning，就是希望模型能夠根據視覺和語言線索，自動推理出物體可供哪些操作、以及可交互區域的空間位置，從而為機器人或人工智能系統提供對物體潛在操作方式的理解。

與 2D 任務相比，3D 數據的獲取與高精度標注通常更為困難且成本高昂，這使得大規模高質量的 3D 標注數據十分稀缺，也阻礙了模型在新物體或場景中的泛化。與此同時，現有 3D 多依賴幾何與位置編碼來表征空間結構，難以從外觀語義中充分汲取上下文信息，因而在傳感器不準、場景復雜或處理誤差等情形下更易受到噪聲影響，導致其魯棒性不足，難以穩定應對真實環境中的多變挑戰。

為克服標注與數據分布限制，一些工作嘗試將 2D 視覺模型或大語言模型融入 3D 場景理解。但由于 3D 與 2D 的特征存在顯著模態差異，以及受限于對空間幾何關系與紋理細節的保留，直接對接往往導致可交互區域定位不準確或易受點云噪聲的干擾，難以在真實復雜場景中保持魯棒性和通用性。因此，如何充分利用大規模預訓練的 2D 模型所蘊含的強大表征能力，同時兼顧 3D 模態下細節和結構信息的準確對齊，成為提升 3D Affordance Learning 效果的關鍵挑戰。

針對上述問題，新加坡國立大學的研究團隊提出了 GEAL（Generalizable 3D Affordance Learning），無需額外收集與標注大規模 3D 數據，便可借助 2D 基礎模型實現對 3D 場景中可交互區域的精確預測。具體而言，GEAL 首先利用 3D Gaussian Splatting 將稀疏點云轉換為可在 2D 模型中處理的真實感渲染圖，并通過跨模態一致性對齊（Cross-Modal Consistency Alignment）有效融合 2D 視覺與 3D 空間特征，顯著提升模型對多種物體與場景的泛化能力。此外，團隊還構建了針對真實場景擾動的全新基準數據集，全面評估模型的穩健性。實驗結果表明，GEAL 無論在公共數據集還是各種噪聲環境下，都顯著優于現有方法，為通用且魯棒的 3D Affordance Learning 提供了新思路。

目前，GEAL 已被 CVPR 2025 接收，論文、代碼和模型權重均已公開。

2D-3D 跨模態對齊

完成 3D 可交互區域預測

如圖所示，在 GEAL 的整體框架中，我們通過 2D 分支與 3D 分支的協同合作，將預訓練 2D 模型的強語義表達能力注入到稀疏點云的三維世界中，并通過跨模態特征對齊來獲得更強的魯棒性與泛化能力。下面對各個關鍵步驟加以說明

利用 3D Gaussian Splatting 渲染稀疏點云，高效引入 2D 分支

考慮到三維數據通常存在采樣稀疏、標注昂貴、遮擋嚴重等問題，我們在網絡結構中單獨設置了一個 2D 分支，借助在海量 2D 數據上預訓練的視覺 backbone（如 DINOV2），獲取包含豐富語義上下文與外觀信息的多粒度圖像特征，從而為后續的三維功能區域預測提供更具魯棒性與泛化力的先驗。由于該分支與 3D 分支并行存在，我們可在后期設計中靈活地融合并對齊 2D/3D 特征，避免簡單拼接帶來的模態失配。為了讓預訓練的 2D 模型充分 “看見” 三維場景的紋理與遮擋信息，GEAL 采用了 3D Gaussian Splatting 技術來渲染點云。具體而言，我們用可學習的高斯基元對每個三維點進行表示，并通過光柵化與 α- 混合在 2D 圖像中生成具有深度、透明度與顏色信息的像素，從而獲得更為平滑、逼真的二維視圖。這些視圖不僅能夠為 2D 模型提供足以辨別紋理和輪廓的語義特征，還能在后續跨模態步驟中與點云的幾何結構建立一一對應關系，為特征對齊打下基礎。

跨模態特征對齊

在兩條分支分別獲得多尺度 2D/3D 特征后，GEAL 通過顆粒度自適應融合模塊（Granularity-Adaptive Fusion Module, GAFM）與一致性對齊模塊（Consistency Alignment Module，CAM）實現語義與幾何間的雙向對齊。

顆粒度自適應融合模塊

針對 2D 與 3D 在不同層級上所捕獲的細節與全局信息，通過自適應權重聚合和文本引導的視覺對齊，將最相關的多粒度特征與用戶指令相互融合。這樣既能突出與功能需求緊密關聯的目標局部，又確保對全局場景保持整體把握。

一致性對齊模塊

基于 Gaussian Splatting 所構建的像素 - 點云映射，將 3D 分支提取的點云特征再度渲染至二維平面，與 2D 分支形成逐像素對應，然后通過一致性損失（如 L2 距離）使兩者在同一空間區域的表征盡可能相似。這種策略能讓 2D 分支的通用語義向 3D 分支擴散，同時也讓 3D 分支在幾何維度上對 2D 特征形成有益補充，最終實現更準確的可交互區域定位。

Corrupt Data Benchmark 評估魯棒性

為了更全面地測試 GEAL 在真實干擾環境中的表現，我們基于常見的 PIAD 與 LASO 數據集，構建了包含多種擾動形式的 Corrupt Data Benchmark。它涵蓋局部或全局的隨機丟失、噪聲注入、尺度變化、抖動及旋轉等多種干擾場景，模擬復雜感知條件下的真實挑戰。實驗結果表明，GEAL 在該基準上依然能夠保持高精度與魯棒性，印證了跨模態對齊對于三維功能區域預測在噪聲環境中的關鍵價值。

通過以上幾個核心環節，GEAL 成功將 2D 模型的強大語義理解與 3D 數據的空間幾何細節有機結合，不僅免去了大規模 3D 標注數據的依賴，還顯著提升了可交互區域預測的可靠性與泛化水平，為 3D Affordance Learning 邁向真實應用場景提供了新的技術思路。

實驗結果

為評估 GEAL 在 3D 場景可交互區域預測上的整體表現，作者在主流數據集 PIAD 與 LASO 上進行了系統實驗。結果顯示，GEAL 相較現有最優方法均取得了更高分數，尤其在 unseen 類別測試中依然保持高準確率，證明其對未見過的物體形狀與類別具備良好適應能力。這一優勢主要得益于 2D 語義先驗的充分利用，以及跨模態一致性帶來的 2D-3D 特征對齊，使得模型能在幾何細節與語義信息之間保持平衡。

為了模擬實際感知場景中的各種干擾，如傳感器噪聲、局部丟失或隨機旋轉等，作者還在新提出的 Corrupt Data Benchmark 上對 GEAL 進行了測試。結果表明，即便在高度不確定的環境下，GEAL 依然能夠穩定預測可交互區域，展現出優異的魯棒性。這主要歸功于 2D 分支在大規模預訓練模型中的抗干擾特性，以及與 3D 分支通過一致性約束實現的高效信息傳遞。

相比僅使用 2D 分支或 3D 分支的基礎版本，融合雙分支并加入 CAM 后，在未見類別和高噪聲條件下的準確率均顯著提升；進一步引入 GAFM 后，則在見類與未見類任務中同時提高精度與 IoU，說明多粒度特征融合對于捕捉局部細節和全局語義至關重要。

綜上所述，多項實驗結果與消融研究均驗證了 GEAL 的有效性：該方法不僅在常規數據集上表現出卓越的精度與泛化能力，還能在真實干擾環境中保持穩健，展現出跨模態對齊與雙分支架構在 3D 場景可交互區域預測中的強大潛力。

結論

綜上所述，GEAL 通過雙分支架構與 3D Gaussian Splatting 的巧妙結合，在不依賴大規模 3D 標注的情況下，充分挖掘了大規模 2D 預訓練模型蘊含的豐富語義信息，實現了對 3D 場景可交互區域的精確預測。該成果為在機器人操作、增強現實和智能家居等領域中靈活、高效地獲取三維可交互區域提供了新思路，對構建通用、穩健的 3D Affordance Learning 系統具有重要意義。

責任編輯：張燕妮來源：機器之心

3D 智能體 AI

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板： 99精品99 | 久久国产精品一区二区三区 | 成人免费观看视频 | 亚洲视频免费在线观看 | 成人黄色三级毛片 | 青青草视频网 | 视频二区| 欧美www在线 | 在线观看国产网站 | 亚洲在线一区二区 | 一区二区精品视频 | 欧美成人精品 | 久久午夜视频 | 日韩中文一区二区三区 | 久久av综合 | 成人午夜视频在线观看 | 久草视频在线播放 | 国产你懂的在线观看 | 九九看片| 亚洲一区二区在线电影 | 少妇一区在线观看 | 欧美不卡网站 | 久久精品欧美一区二区三区麻豆 | 国产精品福利网 | 日韩国产欧美 | 成人在线视频网 | 亚洲国产精品久久久久婷婷老年 | 欧美精品国产精品 | 国产在线视频在线观看 | 午夜在线| 亚洲成人一区二区在线 | 国产在线精品一区二区 | 久久久激情视频 | 亚洲一区二区三区免费 | 国产精品久久二区 | 日韩一区二区免费视频 | 精品国产欧美一区二区三区成人 | 色天天综合 | 午夜激情小视频 | 国产高清视频 | 9191成人精品久久 |

<bdo id="msgui"></bdo>

<abbr id="msgui"></abbr>

<pre id="msgui"><code id="msgui"></code></pre>

<s id="msgui"></s>

<bdo id="msgui"></bdo>

<code id="msgui"><source id="msgui"></source></code>