成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR2025最新!探索3D場景推理問答新高度:雙視覺感知網絡

人工智能 新聞
該論文提出了一種用于3D問答的雙視覺感知網絡 DSPNet。

0.背景信息

在人工智能的前沿領域,3D場景問答(3D QA)正在成為視覺與語言理解的關鍵挑戰。相比于傳統的2D視覺問答(VQA),3D QA需要模型不僅能夠感知復雜的三維空間結構,還要理解語言描述與場景之間的關系。然而,目前的3D QA方法大多依賴于3D點云數據,而忽視了多視角圖像提供的豐富局部紋理信息,這使得模型在面對小型、扁平物體時表現受限。

在這一背景下, 研究人員提出了一種名為DSPNet(Dual-vision Scene Perception Network)的新型網絡架構,它融合了點云與多視角圖像信息,實現更魯棒的3D場景問答推理。

1.論文信息

  • 標題:DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering
  • 作者:Jingzhou Luo, Yang Liu, Weixing Chen, Zhen Li, Yaowei Wang, Guanbin Li,Liang Lin
  • 機構:中山大學、香港中文大學(深圳)、鵬城實驗室
  • 原文鏈接:http://arxiv.org/abs/2503.03190
  • 代碼鏈接:https://github.com/LZ-CH/DSPNet

2. 挑戰與解決方案

現有的多數3D QA方法主要依賴3D點云(比如ScanQA和3DGraphQA),通過檢測和建模物體之間的關系來推理問題答案,而忽略了多視角圖像對于全面 3D 場景感知和推理的關鍵作用。

例如,考慮圖 1 中給出的問題“電視位于圖畫的哪一側?”不僅需要識別幾何場景中的實體,還需要理解場景實體和問題之間復雜的語義和空間關系。然而,現有的 3D QA 模型僅依靠點云信息很難準確識別一些扁平和小物體(例如電視、圖片、地毯、手機等),而多視角圖像可以通過豐富的局部紋理細節彌補這一點。

圖片

圖 1 通過雙視覺(點云和多視角圖像)實現更全面的場景感知

由于相機位姿噪聲、視角缺失和遮擋問題,簡單采用多視角圖像的反投影(back-projection)來融合特征,往往會導致特征退化,影響QA模型的穩定性。如圖 2(a) 所示,在多視角特征聚合過程中,若對所有視圖賦予相同的權重,可能無法充分考慮不同視圖對特定任務的重要性。理想情況下,各視圖的貢獻應依據具體問題動態調整。此外,如圖 2(b) 所示,由于相機位姿固有噪聲、部分視角的缺失以及復雜的遮擋,在將多視角圖像反投影到 3D 點云空間時,特征退化在所難免。

圖片

圖 2 反投影的固有局限性。紅色點表示反投影期間遺漏的點(即無效點),紅色橢圓突出顯示與原始點云特征相比明顯退化的區域。

DSPNet旨在解決上述問題,通過雙視角感知策略,使得3D QA模型能夠同時利用點云與多視角圖像信息:

  • 基于文本引導的多視角融合(TGMF):融合多視角圖像特征,在多視角特征融合過程中也能考慮文本上下文語境,促進挖掘更有利于回答問題的視角圖像特征。
  • 自適應雙視覺感知(ADVP):逐點逐通道地自適應融合源于點云與圖像的特征,緩解在多視角圖像在反向投影過程中存在的特征退化問題
  • 多模態上下文引導推理(MCGR):執行跨模態的高效交互與推理,綜合利用較為密集的與下采樣后的較為稀疏的視覺特征,在節省計算資源的同時,還能兼顧感知理解細致的場景信息。

3. 方法簡介

3.1 網絡架構

圖片

圖 3 DSPNet的總體架構

DSPNet的整體架構如圖 3所示,包括文本編碼器、點云編碼器、多視角圖像編碼器三大輸入模塊,以及TGMF、ADVP和MCGR等關鍵模塊。

  • 文本編碼器:采用Sentence-BERT(SBERT)提取上下文信息,并對情景描述與問題進行編碼。
  • 點云編碼器:使用PointNet++提取點云特征,保留空間結構信息。
  • 圖像編碼器:利用Swin Transformer提取多視角圖像特征,增強局部紋理感知能力。

3.2 核心模塊解析

(1)基于文本引導的多視角融合(TGMF)模塊

  • 如圖4,該模塊執行反向投影,并通過計算文本內容與多視角圖像的注意力,對不同視角在特征融合時賦予不同權重,從而使得多視角融合過程中能優先考慮與文本相關的視角。
  • 步驟1:根據相機參數,將多視角圖像特征反向投影到3D點云坐標空間。
  • 步驟2:利用跨模態注意力機制根據文本與視角池化特征的相互注意力計算每個視角的權重,使得與問題相關的視角獲得更高關注度。
  • 步驟3:融合加權后的多視角特征,形成融合后的視覺信息。

圖片

圖 4 文本引導的多視角融合(TGMF)模塊旨在融合多視圖特征。

(2)自適應雙視覺感知(ADVP)模塊

  • 傳統的點云與多視角圖像融合方法難以應對特征退化問題,如圖 5所示,ADVP模塊通過逐點逐通道的注意力機制來動態調整特征的權重:
  • 步驟1:拼接點云特征和回投后的多視角特征。
  • 步驟2:使用MLP學習自適應權重。
  • 步驟3:使用加權增強高置信度特征,同時抑制低置信度特征。并最終使用一層全連接層映射到統一的特征空間。

圖片

圖 5 自適應雙視覺感知(ADVP)模塊旨在自適應地感知來自點云和多視角圖像的視覺信息。

(3)多模態上下文引導推理(MCGR)模塊

  • MCGR模塊旨在通過跨模態交互,綜合利用密集與稀疏的視覺特征,在節省計算資源的同時,能兼顧感知理解細致的場景信息(見圖 3的MCGR模塊)。
  • 步驟1:使用最遠點采樣(FPS)提取較為稀疏的關鍵點級別特征,減少計算量。引入位置編碼,保持空間信息完整性。
  • 步驟2:在MCGR子層中,稀疏的點特征通過cross-attention與密集點特征進行交互,并采用跨模態Transformer,與文本信息進行深度融合。這避免了密集點特征直接與文本進行交互,既降低了計算成本,又確保了空間視覺信息的完整性。
  • 步驟3:通過堆疊L層的MCGR子層,來將視覺信息與文本信息進行深度融合,提高空間推理能力。

4. 實驗部分

4.1 在SQA3D上的表現

如表 1所示,DSPNet在“What”、“How”和“Other”問題類型上取得最佳結果,并且在平均準確率方面優于其他方法,包括使用了外部3D-文本成對數據集預訓練的方法。這證明了DSPNet具有強勁的多模態空間推理能力。

圖片

表 1 在SQA3D數據集上的問答準確率。測試集欄中:括號內表示各題型的樣本數。最好結果以粗體顯示,次好結果以下劃線顯示。

4.2 在ScanQA上的表現

如表 2所示,DSPNet在大多數評估指標上都優于現有的代表性方法,尤其是在 CIDEr、ROUGE 和 METEOR 中,它明顯超越了其他方法。

圖片

表 2 ScanQA 上的答案準確率。每個條目表示“有對象測試”/“無對象測試”。最佳結果以粗體標記,次佳結果以下劃線標記。

4.3 消融實驗

如表 3所示,實驗表明,TGMF、ADVP和MCGR這三個模塊對提升DSPNet的3D空間推理能力至關重要。進一步驗證了DSPNet的方法有效性。

圖片

表 3 各組件的消融研究。在 ScanQA 數據集的驗證集和 SQA3D 數據集的測試集上進行,使用 EM@1 作為評測指標。

如表 4所示,去除DSPNet的2D模態,僅使用點云作為視覺信息來源,此時模型在兩個評測集上的準確率大幅下降,這進一步驗證了多視角圖像在三維場景問答任務中的重要性。

圖片

表 4 使用 2D 模態的有效性消融研究

5. 定性研究

如圖 6所示,DSPNet 在感知和推理一些具有挑戰性的實體方面表現更好,例如那些具有平面形狀和豐富局部紋理細節的實體,這些實體僅基于點云幾何形狀難以識別。此外,DSPNet 可以區分細微的顏色差異,例如白色和銀色之間的差異,從而增強了其在識別細粒度視覺區別方面的魯棒性。

圖片

圖 6 DSPNet方法與 ScanQA 和 SQA 的定性比較

6. 結論

該論文提出了一種用于3D問答的雙視覺感知網絡 DSPNet。DSPNet 通過基于文本引導的多視角融合(TGMF) 模塊融合多視角圖像特征,并采用自適應雙視角感知(ADVP)模塊,將圖像與點云特征融合為統一的表征。最終,引入多模態上下文引導推理(MCGR) 模塊,實現對3D場景的綜合推理。實驗結果表明,DSPNet 在 3D問答任務中優于現有方法,預測答案與參考答案在語義結構上的對齊性更好,表現更加出色。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2021-10-18 17:40:07

AI 數據人工智能

2025-05-23 09:12:00

2023-06-02 10:33:35

2025-07-02 07:25:00

惡意數據集LLMAI

2022-07-13 10:20:14

自動駕駛3D算法

2025-03-05 00:15:00

2024-05-09 09:29:31

3D模型自動駕駛

2025-04-11 09:44:23

2022-01-20 11:17:27

自動駕駛智能汽車

2011-10-13 10:08:51

iOS 5iOS

2025-01-07 13:19:48

模型AI訓練

2022-05-23 10:26:10

人工智能機器學習機器視覺

2025-04-07 08:35:00

3DAI生成

2020-07-03 18:01:06

邊緣計算物聯網技術

2025-04-26 16:44:45

2015-09-14 16:12:12

云計算大數據高度

2025-01-23 20:42:44

2024-04-23 09:30:07

3D模型

2024-10-09 09:42:26

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 四虎影院美女 | 久久亚洲一区 | 91av在线影院| 密室大逃脱第六季大神版在线观看 | 91视频91| 亚洲国产网址 | 久久视频精品 | 国产乱码精品一区二区三区五月婷 | 日韩一区二区三区四区五区六区 | 欧美一区久久 | 毛片99| 国产91丝袜在线熟 | 欧美日韩精品专区 | 欧美激情网站 | 精品国产乱码久久久久久88av | 欧美激情在线播放 | 日本在线播放一区二区 | 美女黄18岁以下禁止观看 | 在线观看第一区 | 一区二区三区视频 | 麻豆changesxxx国产 | 精品国产乱码久久久久久闺蜜 | 免费国产一区二区 | 中文字幕第100页 | 99久久久久久久久 | h视频在线观看免费 | 亚洲精品一区二三区不卡 | 亚洲精品欧美 | 人人干人人草 | 亚洲高清av| 欧美一级做性受免费大片免费 | 99久久婷婷国产综合精品首页 | 一区二区视频在线 | 91精品国产综合久久久久久丝袜 | 另类 综合 日韩 欧美 亚洲 | 天天综合久久 | 久久国产成人午夜av影院武则天 | 人人做人人澡人人爽欧美 | 国产线视频精品免费观看视频 | 91成人免费 | 中文字幕在线精品 |