成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

浙大李璽團隊:指代表達理解新方法,ScanFormer粗到細迭代消除視覺冗余

人工智能 新聞
基于以上分析,我們提出了 coarse-to-fine 的迭代感知框架 ScanFormer,在圖像金字塔中逐層 scan,從低分辨率的粗尺度圖像開始,逐步過濾掉指代表達無關 / 背景區域來降低計算浪費,使模型更多地關注前景 / 任務相關區域。

該論文作者均來自于浙江大學李璽教授團隊,論文第一作者為博士生蘇偉同學,通訊作者為李璽教授(IET Fellow,國家杰青)。李璽教授團隊近年來在國際權威期刊(如 TPAMI、IJCV 等)和國際頂級學術會議(ICCV、CVPR、ECCV 等)上發表 180 余篇 CV/AIGC 相關的研究工作,和國內外知名高校、科研機構廣泛開展合作。

作為基礎的視覺語言任務,指代表達理解(referring expression comprehension, REC)根據自然語言描述來定位圖中被指代的目標。REC 模型通常由三部分組成:視覺編碼器、文本編碼器和跨模態交互,分別用于提取視覺特征、文本特征和跨模態特征特征交互與增強。

目前的研究大多集中在設計高效的跨模態交互模塊以提升任務精度,缺少對視覺編碼器探索。常見做法是利用在分類、檢測任務上預訓練的特征提取器,如 ResNet、DarkNet、Swin Transformer 或 ViT 等。這些模型以滑動窗口或劃分 patch 的方式遍歷圖像所有的空間位置來提取特征,其計算復雜度會隨圖像分辨率快速增長,在基于 Transformer 的模型中更加明顯。

由于圖像的空間冗余特性,圖像中存在大量低信息量的背景區域以及與指代表達無關的區域,以相同的方式在這些區域提取特征會增加計算量但對有效特征提取沒有任何幫助。更加高效的方式是提前預測圖像區域的文本相關性和內容的豐富程度,對文本相關的前景區域充分提取特征,對背景區域粗略提取特征。對于區域預測,一個較為直觀的方式是通過圖像金字塔來實現,在金字塔頂層的粗粒度圖像中提前辨識背景區域,之后逐步加入高分辨率的細粒度前景區域。

基于以上分析,我們提出了 coarse-to-fine 的迭代感知框架 ScanFormer,在圖像金字塔中逐層 scan,從低分辨率的粗尺度圖像開始,逐步過濾掉指代表達無關 / 背景區域來降低計算浪費,使模型更多地關注前景 / 任務相關區域。

圖片

  • 論文標題:ScanFormer: Referring Expression Comprehension by Iteratively Scanning
  • 論文鏈接:https://arxiv.org/pdf/2406.18048

方法介紹

一、Coarse-to-fine 迭代感知框架

為簡化結構,我們采用統一文本和視覺模態的 ViLT [1] 模型,并將其沿深度維度分為 Encoder1 和 Encoder2 兩部分以用于不同的任務。

首先,提取文本特征并將其存入 KV Cache;然后構造圖像金字塔并從金字塔頂層依次往下迭代,在每次迭代中,輸入當前尺度被選擇的 patch,Encoder1 用于預測每個 patch 對應的下一個尺度的細粒度 patch 的選擇情況,特別地,頂層圖像的 patch 全部被選上,以保證模型能獲得粗粒度的全圖信息。Encoder2 進一步提取特征并基于當前尺度的 [cls] token 來預測該尺度的 bounding box。

與此同時,Encoder1 和 Encoder2 的中間特征會被存入 KV Cache 以方便被后續的尺度利用。隨著尺度的增加,細粒度特征被引入,位置預測會更加準確,同時大部分無關的 patch 被丟棄以節省大量計算。

此外,每個尺度內部的 patch 具有雙向注意力,同時會關注前序尺度所有的 patch 和文本特征。這種尺度間的因果注意力可以進一步降低計算需求。

圖片

二、動態 patch 選擇

每個 patch 的選擇情況由前一尺度生成的選擇因子決定,對于應用的位置有兩種方案,其一是用于 Encoder 每層 MHSA 的所有 head 中,然而,對于 N 層 H 頭的 Encoder,很難獲得有效的的梯度信息來更新,因此學到的選擇因子不太理想;其二是直接用于 Encoder 的輸入,即 patch embedding 上,由于只用在這一個位置,因此更容易學習,本文最終也采用了此方案。

另外,需要注意的是,即使輸入 patch embedding 被置 0,由于 MHSA 和 FFN 的存在,該 patch 在后續層的特征仍然會變為非 0 并影響其余 patch 的特征。幸運的是,當 token 序列中存在許多相同 token 時,可以簡化 MHSA 的計算,實現實際的推理加速。此外,為了增強模型的靈活性,本文并沒有直接將 patch embedding 置 0,而是將其替換為一個可學習的常量 token。

因此,patch 的選擇問題被轉換成 patch 的替換問題。patch 選擇的過程可以分解為常量 token 替換和 token 合并兩步。未被選擇的 patch 會被替換為同一個常量 token。由于這些未被選擇的 token 是相同的,根據 scaled dot product attention 的計算方式,這些 token 可以被合并為一個 token 并乘上總數,等價于將加到維度上,因此點積注意力的計算方式不變,常見的加速方法依舊可用。

圖片

實驗結果

本文方法在 RefCOCO、RefCOCO+、RefCOCOg 和 ReferItGame 四個數據集上取得了和 state-of-the-art 相近的性能。通過在大規模數據集上預訓練并在具體數據集上微調,模型的性能可以進一步大幅提升,并達到和預訓練模型如 MDETR [2] 和 OFA [3] 等相近的結果。

圖片

圖片

在推理速度上,提出的方法達到了實時的推理速度,同時能保證較高的任務精度。

圖片

此外,實驗部分也對模型的 patch 選擇情況以及每個尺度(scale1 和 scale2)定位精度的分布做了統計。

如左圖所示,隨著尺度的增加,細粒度的圖像特征被加入,模型精度逐步提升。因此可以嘗試加入早退機制,在定位精度滿足要求時及時退出,避免進一步在高分辨率圖像上計算,實現根據樣本自適應選擇合適的分辨率的效果。本文也進行了一些初步的嘗試,包括加入 IoU、GIoU 和不確定性等預測分支,回歸 early exit 的指標,但發現效果不太理想,如何設計合適且準確的 early exit 指標有待繼續探索。

右圖展示了不同尺度的 patch 選擇情況,在所有的尺度上,被選擇的 patch 占均比較小,大部分的 patch 都可以被剔除,因此可以有效地節省計算資源。對于每個樣本(圖像 + 指代表達),實際選擇的 patch 數量相對較少,大概占總數的 65%。

圖片

最后,實驗部分展示了一些可視化結果,隨著尺度的增加(紅→綠→藍),模型的定位精度逐步提高。另外,根據由被選擇的 patch 重建的圖像,可以看出模型對于背景區域只關注了粗尺度的信息,對于相關的前景區域,模型能夠關注細粒度的細節信息。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2022-07-25 15:34:01

量化仿真數據誤差內存占用

2022-12-08 13:00:10

AI性別偏見

2022-11-28 07:32:46

迭代器remove數據庫

2024-09-03 14:10:00

模型測試

2015-08-21 09:14:40

大數據

2010-04-01 09:30:57

2018-10-07 07:00:59

2019-07-12 13:50:36

物聯網大數據安全

2022-07-07 10:47:16

IngressKubernetes

2011-12-01 14:15:19

信息優化惠普

2010-06-18 09:48:22

2011-03-14 10:10:01

2024-01-23 17:33:36

2009-07-31 08:56:59

ASP.NET頁面刷新

2024-10-23 19:47:54

2023-07-06 15:29:52

數據中心能源回收

2025-06-06 09:15:00

2023-07-27 13:12:55

自動駕駛RGB機器

2014-03-11 09:42:42

網絡可視化網絡監控
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久一区二区三区 | 精品一区二区三区在线观看国产 | 台湾a级理论片在线观看 | 色网站在线 | 欧美精品中文字幕久久二区 | 永久www成人看片 | 成人在线小视频 | 欧美国产视频 | 精品欧美一区二区三区免费观看 | 免费看a | 亚洲综合成人网 | 国产精品久久久久久久岛一牛影视 | 国产一区二区免费电影 | 麻豆亚洲 | 久久久精彩视频 | 天天狠狠 | 精品一区二区三区av | 超碰一区二区 | 日韩免费视频一区二区 | 日本亚洲一区二区 | 中文字幕第十一页 | 国产精品国产精品国产专区不片 | 人人干人人舔 | 久久久久久国产精品免费免费 | 午夜激情国产 | 国产精品久久久久久久久久三级 | 午夜精品在线观看 | 极品销魂美女一区二区 | 男女午夜免费视频 | 五月综合激情网 | 一区二区在线 | 精品国产精品国产偷麻豆 | 中文精品视频 | 99精品免费 | 久久成人免费观看 | 99久久精品国产一区二区三区 | 久久精品国产精品青草 | 91看片免费| 丝袜久久 | 国产三级大片 | 久草免费在线视频 |