MSCI:解決 CLIP 在組合式零樣本學習中的固有局限性 原創
摘要
組合式零樣本學習(CZSL)旨在通過利用已知組合來識別未見的狀態 - 對象組合。現有研究基本依賴 CLIP 的跨模態對齊能力,但往往忽略了其在捕捉細粒度局部特征方面的局限性,這些局限性源于其架構和訓練范式。為解決這一問題,我們提出了一種多階段跨模態交互(MSCI)模型,該模型有效探索和利用 CLIP 視覺編碼器的中間層信息。具體而言,我們設計了兩個自適應聚合器,分別從低層視覺特征中提取局部信息和從高層視覺特征中整合全局信息。這些關鍵信息通過分階段交互機制逐步融入文本表示,顯著增強了模型對細粒度局部視覺信息的感知能力。此外,MSCI 根據不同的組合以及同一組合內的不同元素,動態調整全局和局部視覺信息之間的注意力權重,使其能夠靈活適應各種場景。在三個廣泛使用的數據集上的實驗充分驗證了所提出模型的有效性和優越性。數據和代碼可在??https://github.com/ltpwy/MSCI??獲取。
1、引言
組合式零樣本學習(CZSL)[Misra 等人,2017] 旨在策略性地分解和重組已見組合(由狀態和對象組成,如 “高樓” 或 “綠樹”)的視覺表示,以構建新組合類(如 “高樹”)的表示,從而實現對它們的精確識別。
在 CZSL 的早期研究中,更多關注的是如何有效整合和利用現有視覺信息來識別未見類別。一些方法將狀態 - 對象對視為單個實體,直接學習它們與圖像的兼容性特征表示 [Purushwalkam 等人,2019;Naeem 等人,2021]。此外,研究 [Nagarajan 和 Grauman,2018;Nan 等人,2019] 嘗試通過空間嵌入技術顯式分離屬性和對象,以優化它們的組合過程。然而,由于缺乏統一的特征空間和有效的屬性 - 對象解耦建模,這些方法在跨模態對齊方面存在困難,顯著限制了模型的性能。
圖 1:我們工作的核心思想。通過有效利用視覺編碼器低層特征中豐富的局部細節,可以增強 CLIP 捕捉細粒度局部信息的能力。
CLIP [Radford 等人,2021] 的發明有效解決了跨模態對齊的挑戰。利用大規模預訓練數據和對比學習策略,CLIP 展示了強大的跨模態對齊能力,這導致了許多將 CLIP 應用于下游 CZSL 任務的方法的出現。Zhou 等人 [Zhou 等人,2022] 首次將 CLIP 與提示工程相結合,提出了一種單路徑聯合訓練范式,其中 CLIP 生成的狀態 - 對象對的文本嵌入被用作參數,并在反向傳播過程中進行更新。Nayak 等人 [Nayak 等人,2022] 通過引入可調節的詞匯標記以組合方式表示原始概念,進一步改進了這種方法。Huang 等人 [Huang 等人,2024] 提出了一種創新的多路徑范式,訓練解耦器來解耦視覺特征,并將解耦后的特征分別與相應的提示嵌入進行交互。Jing 等人 [Jing 等人,2024] 通過探索相同對象組合和相同狀態組合之間的內部聯系,加強了狀態和對象的解耦表示。
這些方法充分利用了 CLIP 強大的跨模態對齊能力,取得了顯著的成果。然而,它們普遍忽略了 CLIP 本身的固有局限性。從局部角度來看,基于 Transformer 架構的 CLIP 圖像編碼器將整個圖像壓縮為固定的全局特征向量。為了提高計算效率和訓練速度,模型傾向于關注全局視覺信息,而對細粒度的局部細節不太敏感。從全局角度來看,CLIP 的對比學習目標旨在最大化匹配圖像 - 文本對的全局特征之間的相似性,同時最小化不匹配對的相似性。這種全局優化策略優先捕捉圖像和文本在語義空間中的整體對齊,而不是對齊細粒度的局部特征。因此,對于需要精確區分局部特征的任務,如 CZSL 中狀態 - 對象組合的細粒度建模,CLIP 的性能往往受到限制。
因此,為解決上述問題,本文提出了 MSCI,一種用于組合式零樣本圖像分類的多階段跨模態交互模型。該模型充分利用 CLIP 在跨模態對齊方面的優勢,同時彌補其在處理細粒度局部特征方面的不足,如圖 1 所示。與以往僅依賴輸出層特征的 CZSL 模型不同,MSCI 采用兩個可訓練的特征聚合器,分別從低層和高層視覺特征中提取局部視覺信息和全局視覺信息。通過與文本嵌入分階段交互,MSCI 不僅將全局視覺信息整合到文本特征中,還捕捉到常被忽視的有價值的局部細節,從而顯著提高了模型識別未見組合的準確性和泛化能力。
此外,為了使模型能夠根據不同的組合以及同一組合內的不同元素(即狀態和對象)動態調整對局部和全局視覺信息的關注,我們提出了一個融合模塊來調節局部和全局視覺特征對最終文本嵌入的相對影響。這種機制極大地增強了模型處理復雜任務的能力,并提高了其對廣泛場景的適應性。
本文的貢獻總結如下:
?我們首次強調了 CLIP 由于其架構和訓練范式,在 CZSL 任務中對局部特征感知的固有局限性,并提出通過有效利用其視覺編碼器的中間層信息來解決這一問題。
?我們提出了用于組合式零樣本學習的 MSCI 模型。通過分階段的特征融合和交互,我們逐步增強文本嵌入、局部視覺信息和全局視覺信息之間的關系,確保它們在跨模態任務中的協同交互。
?我們通過實驗驗證了所提出模型的有效性,結果表明,在開放世界和封閉世界設置下,該模型在三個廣泛使用的數據集上的大多數關鍵指標上均實現了最先進的性能。
2、相關工作
2.1 組合式零樣本學習
CZSL 是零樣本學習的一種特殊形式,不依賴任何輔助信息。其核心目標是通過解耦和重組視覺特征,實現從已知組合到未見組合的泛化。當前的 CZSL 模型大致可分為兩類:基于 CLIP 的模型和非基于 CLIP 的模型。
在基于 CLIP 的 CZSL 模型中,Zhou 等人 [Zhou 等人,2022] 首次提出將提示工程與預訓練視覺語言模型(VLM)相結合,以解決為下游任務設計提示時的效率問題。通過學習可調節的上下文詞向量,他們實現了提示句子的自動生成,有效減輕了對特定任務提示設計的依賴。為解決 VLM 在下游 CZSL 任務中的局限性,Nayak 等人 [Nayak 等人,2022] 將定義類別的屬性和對象標記視為可學習參數,通過提示的多種組合對其進行優化。Xu 等人 [Xu 等人,2024a] 進一步將對象和屬性之間的組合關系建模為圖結構,將屬性和對象標簽視為圖節點,并利用圖神經網絡(GNNs)[Scarselli 等人,2008;Du 等人,2021] 來更新和優化軟提示表示。
特別是,Huang 等人 [Huang 等人,2024] 將單路徑范式擴展到多路徑框架,為狀態、對象及其組合建立獨立的識別分支。他們還引入了跨模態對齊模塊,以更好地將提示表示與當前視覺內容對齊。然而,這種方法僅關注最終層視覺特征與文本之間的交互,導致視覺編碼器前向傳播過程中大量局部信息的丟失。在多路徑范式的基礎上,Jing 等人 [Jing 等人,2024] 通過構建相關樣本數據庫,進一步增強了視覺特征的解耦。
盡管這些方法在將 CLIP 的跨模態對齊能力適應 CZSL 任務方面取得了顯著進展,但它們往往忽略了 CLIP 在其架構和對比學習訓練范式中的固有局限性,特別是其對細粒度局部特征的較弱敏感性。相比之下,所提出的 MSCI 模型直接解決了這一關鍵局限性,為 CZSL 任務提供了更穩健和更高性能的解決方案。
2.2 多層特征聚合
近年來,針對下游任務對 Transformer 中間層信息的探索在計算機視覺領域引起了廣泛關注。通過利用中間層包含的多層次和多尺度特征信息,這種方法有效解決了傳統深度學習模型僅依賴高層特征的局限性。例如,Tang 等人 [Tang 等人,2023] 利用低層特征的邊界特征和高層特征的語義信息,將其應用于醫學圖像分割任務。類似地,Liu 等人 [Liu 等人,2024] 通過將多層特征學習和編碼模塊與 Transformer 聯合訓練,增強了多尺度局部細節和結構關系的捕捉,在惡意網頁檢測中取得了出色性能。此外,這一思想已擴展到其他領域 [Li 等人,2024b;Miao 等人,2025],如跨模態檢索 [Yang 等人,2023;Li 等人,2024a] 和視覺定位 [Wang 等人,2022;Xu 等人,2024b],展示了其廣泛的適用性。
3、方法論
本節首先對 CZSL 任務進行形式化定義,這是分析 CLIP 在處理下游 CZSL 任務時固有局限性的基礎。在此分析的基礎上,我們詳細介紹了我們提出的模型。該模型的核心在于聚合 CLIP 視覺編碼器的多層信息,并與文本嵌入進行分階段跨模態交互。這種設計使模型能夠精確地將全局視覺信息與局部視覺特征相結合,促進提示表示的自適應調整。通過這樣做,我們的模型有效解決了 CLIP 在感知細粒度局部特征方面的局限性。所提出模型的總體框架如圖 2 所示。
、
3.1 預備知識
問題表述
給定一個狀態集S = \{s_0, s_1, ..., s_n\}和一個對象集O = \{o_0, o_1, ..., o_m\},可以通過笛卡爾積構建一個標簽空間C,表示為C = S × O。從C中提取兩個不相交的子集:已見類集C_s和未見類集C_u,滿足C_s ∪ C_u ? C且C_s ∩ C_u = ?。在訓練階段,CZSL 的任務是學習從輸入圖像空間X到C_s的判別映射P: X →C_s。在測試階段,給定一幅圖像I,任務是使用學習到的判別映射P從測試類集C_{test}中預測一個類標簽c = (s, o):
根據搜索空間的不同,CZSL 任務在兩種設置下配置:在封閉世界設置中,僅考慮預定義的組合空間,即C_{test} = C_s ∪ C_u;在更具挑戰性的開放世界設置中,搜索空間包括狀態對象的所有可能對,即C_{test} = C。
CLIP 的局限性
CLIP 在局部特征感知方面的局限性主要歸因于兩個因素:其視覺編碼器架構的設計和基于對比學習的訓練范式。CLIP 的視覺編碼器基于 Transformer 架構,該架構通過其全局注意力機制在建模長程特征依賴方面表現出色,但代價是犧牲了局部細節。這種局限性在捕捉邊緣和紋理等低層特征時表現得尤為明顯。此外,CLIP 的訓練目標旨在通過對比學習最大化圖像和文本之間的全局語義對齊,導致模型優先捕捉一般語義信息,而忽略更精細的局部細節。此外,對比學習范式要求模型快速區分圖像間的顯著特征,進一步降低了其對細粒度局部特征的敏感性。
特征編碼
我們使用 CLIP 圖像編碼器作為視覺主干,其基于 ViT-L/14 架構。對于圖像集X中的輸入圖像I,我們從輸出層提取 [CLS] 標記I_{cls}作為其嵌入表示。在此基礎上,我們遵循先前工作的三路徑范式,其中圖像嵌入I_{cls}作為輸入到三個獨立的多層感知機(MLPs)[Kruse 等人,2022],以生成組合、狀態和對象的視覺表示,分別表示為V_{com}、V_{state}、V_{obj}。在文本層面,我們設計了以下形式的軟提示模板:“a photo of [state] [object]”、“a photo of [state] object” 和 “a photo of [object]”,分別用于構建所有候選組合、狀態和對象的提示。這些提示隨后被輸入到 CLIP 文本編碼器中,生成提示嵌入t_{com}、t_{state}和t_{obj}。它們的維度分別為[N_{com}, d]、[N_{state}, d]和[N_{obj}, d],其中N_{com}、N_{state}和N_{obj}分別表示所有候選組合、狀態和對象的數量,d表示嵌入維度。我們將 [state] 和 [object] 的嵌入視為可訓練參數進行微調。
3.2 多層信息聚合
在 CLIP 視覺編碼器采用的 ViT 架構中,不同層次的特征表現出獨特的信息特征:低層包含圖像豐富的局部細節信息,而高層則傾向于整合全局結構特征。為了有效利用層間信息,我們設計了一個自適應特征聚合模塊,如圖 3 所示。
圖 3:低層特征聚合器示意圖。
假設第i層的視覺特征表示為F_i,維度為[b, l, d],其中b是圖像集X中的圖像數量,l表示卷積后生成的補丁數(包括 [CLS] 標記)。我們從 CLIP 視覺編碼器的前N層和后M層提取特征,然后分別沿特征維度拼接,形成更豐富的特征表示。拼接后的特征可以表示為:
其中S是 CLIP 視覺編碼器中編碼器塊的總數,F_{\text{first\_n}}和F_{\text{last\_m}}分別表示前N層和后M層特征的拼接,維度分別為[b, l, N×d]和[b, l, M×d]。拼接后的特征首先經過線性變換,將其從拼接維度(N(M)×d)映射到目標特征維度d,然后進行層歸一化以確保訓練穩定性。接著應用 ReLU 激活函數引入非線性,增強模型捕捉復雜特征關系的能力。最后,使用 Dropout 層提高模型的泛化能力。最終融合的低層和高層特征F_{\text{low}}和F_{\text{high}}可以表示為:
其中W∈\mathbb{R}^{d×(N(M)×d)}是線性變換的權重矩陣,b ∈ \mathbb{R}^d是偏置項,\mu和\sigma是全連接層輸出特征的均值和標準差,\mathcal{D}(\cdot, p)表示以p為 dropout 概率的 Dropout 操作。
3.3 多階段跨模態交互
融合的低層特征F_{\text{low}}捕捉了豐富的局部視覺細節,而融合的高層特征F_{\text{high}}整合了更抽象的全局視覺信息。它們與來自任何分支的提示嵌入t(即t可以是t_{com}、t_{state}或t_{obj}中的任意一個)分階段交互。
在第一階段,提示嵌入t與融合的低層特征F_{\text{low}}進行跨模態交互,以有效地將低層特征中包含的豐富局部細節整合到提示嵌入中。這種交互通過結合殘差連接的跨注意力層實現,如公式所示:
其中t'表示跨模態交互后的更新提示嵌入,d是注意力的維度。
此外,我們采用 Huang 等人 [Huang et al., 2024] 提出的前饋網絡(FFN)設計,通過多層感知機(MLP)實現。該網絡旨在優化交互后的特征表示,并通過結合殘差連接生成輸出,如公式所示:
其中t_1表示經過 FFN 后的更新提示嵌入。第一階段后,提示嵌入整合了來自低層特征的豐富局部視覺信息。
第二階段采用與第一階段類似的交互模式,旨在進一步將高層特征中包含的更抽象的全局視覺信息整合到提示嵌入中。我們將第一階段獲得的提示嵌入t_1和融合的高層視覺特征F_{\text{high}}作為輸入,通過跨注意力層和前饋網絡進行處理,導致提示嵌入的進一步更新。該過程表示如下:
與t_1相比,t_2進一步整合了高層視覺特征中包含的抽象全局視覺信息。為了根據不同的組合以及同一組合的不同提示分支,動態為局部和全局視覺信息分配注意力權重,我們引入兩個可學習參數\lambda_1和\lambda_2,以調節t_1和t_2在最終提示嵌入中的權重。最終提示嵌入表示如下:
3.4 訓練與推理
我們遵循多路徑范式的標準訓練和推理過程。假設初始提示嵌入t_{com}、t_{state}和t_{obj}通過多階段交互轉換為T_{com}、T_{state}和T_{obj}。將圖像I分配給組合標簽c(s, o)、狀態標簽s和對象標簽o的概率可以表示為:
其中\tau ∈ \mathbb{R}表示預訓練溫度參數,T_{com}^c、T_{state}^s和T_{obj}^o分別表示組合c、狀態s和對象o的提示嵌入。使用交叉熵將每個分支預測的概率與獨熱編碼標簽進行比較,以計算損失。總訓練損失隨后作為各分支損失的加權和獲得,公式如下:
在推理階段,對于輸入圖像A,假設C(s_i, o_j)是搜索空間S中的任意組合,模型根據以下公式預測最可能的組合\hat{c}:
其中\beta是預定義參數,用于控制推理過程中各分支結果的比例。
4、實驗
4.1 實驗設置
數據集
我們在三個廣泛使用的組合式零樣本學習數據集上評估了所提出的 MSCI 的性能:MIT-States [Isola 等人,2015]、UT-Zappos [Yu 和 Grauman,2014] 和 C-GQA [Naeem 等人,2021]。MIT-States 數據集包含 53,753 張圖像,涉及 245 個對象類別和 115 個狀態類別。UT-Zappos 數據集包括 50,025 張圖像,涵蓋 12 個對象類別和 16 個狀態類別。C-GQA 基于 GQA 數據集 [Hudson 和 Manning,2019] 構建,包含 870 個對象類別和 453 個狀態類別。與先前研究一致,我們采用 Purushwalkam 等人 [Purushwalkam et al., 2019] 提出的數據集劃分方法,具體細節見表 1。
、
表 1:數據集統計信息
評估指標
我們遵循先前研究 [Nayak 等人,2022] 采用的標準評估協議,在封閉世界和開放世界設置下全面評估模型的性能。具體而言,評估指標包括最佳已見準確率(S)、最佳未見準確率(U)、最佳調和均值(HM)和已見 - 未見準確率曲線下面積(AUC)。其中,S 衡量當校準偏差設置為 +∞時模型對已見組合的最高準確率,而 U 反映當偏差設置為 -∞時對未見組合的最高準確率。HM 表示模型在已見和未見類別預測準確率之間實現最佳平衡的點。AUC 通過動態調整偏差范圍從 -∞到 +∞計算,代表已見與未見準確率曲線下的面積。因此,AUC 是最能反映模型整體性能的核心指標。
實現細節
我們基于 PyTorch 實現了所提出的模型,使用具有 ViT-L/14 架構的 CLIP 主干,通過低秩適應(LoRA)[Hu 等人,2021] 進行微調。所有實驗均在 Nvidia H20 GPU 上進行。訓練期間,我們使用 Adam 優化器,結合學習率衰減和權重衰減策略。為了簡化模型復雜度,在三個數據集上,我們對局部特征交互和全局特征融合均僅使用一個跨注意力層,具有 12 個注意力頭, dropout 率設置為 0.1。控制各分支推理權重的參數\beta,在封閉世界設置中,MIT-States、UT-Zappos 和 C-GQA 分別設置為 0.1、1.0 和 0.1,在開放世界設置中分別設置為 0.3、1.0 和 0.3。此外,在開放世界設置中,我們引入可行性分數作為閾值,以消除不合理的組合,有效減少搜索空間。具體閾值根據模型在驗證集上的性能確定。
4.2 主要結果
我們將 MSCI 與使用相同主干(ViT-L/14)的其他 CZSL 模型進行了比較,包括基于 CLIP 的模型和非基于 CLIP 的模型。封閉世界設置的結果見表 2,開放世界設置的結果見表 3。
在封閉世界設置中,MSCI 在所有三個數據集上均實現了最佳的 AUC 和 HM 指標,與次優模型相比,MIT-States、UT-Zappos 和 C-GQA 的 AUC 分別提高了 1.8%、9.8% 和 14.5%。這些提升百分比與數據集中包含的細粒度信息水平密切相關:與 MIT-States 相比,UT-Zappos 和 C-GQA 包含更豐富的細粒度細節,導致性能提升更為顯著。
在開放世界設置中,MSCI 繼續表現出卓越性能,UT-Zappos 和 C-GQA 的 AUC 分別提高了 13.0% 和 40.7%。開放世界設置中獲得的更大性能提升可歸因于搜索空間的擴大,其中判別性局部信息在推理過程中變得越來越關鍵。MSCI 有效利用了這些信息,保持了強大的泛化能力和優越性能。
4.3 消融實驗
為了進一步驗證 MSCI 中每個模塊的有效性,我們在 UT-Zappos 數據集上進行了消融實驗。結果見表 4。
表 4:UT-Zappos 封閉世界設置下的消融實驗結果
聚合器消融
為了驗證多層特征聚合模塊的有效性,我們將其替換為以下兩種替代方法:首先,使用視覺編碼器第一層和最后一層的特征分別在第一階段和第二階段進行跨模態交互(w/o Agg a)。其次,使用前 N 層特征的平均值和后 N 層特征的平均值進行分階段跨模態交互(w/o Agg b)。實驗結果表明,與上述兩種方法相比,所提出的自適應融合模塊在保持信息豐富性的同時實現了更好的聚合效果。
多階段跨模態交互消融
為了驗證多階段跨模態交互模塊的有效性,我們在兩個獨立的消融場景中分別移除了第一階段(w/o Ms a)和第二階段(w/o Ms b)的交互模塊。實驗結果表明,與單階段跨模態交互相比,分階段跨模態交互能夠將全局視覺信息融入提示嵌入,并進一步整合豐富的局部視覺信息,從而取得更好的結果。
動態融合消融
為了驗證所提出的融合方法的有效性,我們將其替換為直接使用多階段跨模態交互模塊的輸出(即移除公式 9 中的\lambda_1 t_1項)(w/o Df)。根據實驗結果,與單一融合方法相比,我們提出的融合方法可以根據不同的組合以及同一組合的不同提示分支,動態調整對全局和局部視覺信息的關注,實現了更優的性能。
4.4 定性結果
在 MSCI 框架內,我們根據每個數據集的復雜度調整所選層數。對于相對簡單的 UT-Zappos 數據集,選擇前三層和后三層的特征進行聚合已被證明可以優化模型性能。相比之下,對于結構更復雜的 MIT-States 和 C-GQA 數據集,處理前四層和后四層的特征更有效,以確保最佳結果。每個數據集的 AUC 指標隨所選層數 N 的變化如圖 4 所示。值得注意的是,廣泛的評估表明,將 M 和 N 設置為相同值可產生更好的性能;因此,默認采用此配置。
此外,我們從三個數據集中各選一個典型案例進行定性分析,如圖 5 所示。通過兩個成功案例可以直觀地觀察到,與單階段交互模型相比,MSCI 的多階段交互能夠更有效和全面地整合跨模態信息,展示出顯著優勢。然而,在失敗案例中,我們觀察到某些干擾項與實際物品高度相似,導致 MSCI 誤判了局部和全局特征,進而導致最終預測結果錯誤。
5、結論
在本研究中,我們為組合式零樣本學習提出了一種新穎的模型 MSCI。MSCI 采用自適應機制,逐步整合來自低層和高層視覺特征層的局部和全局信息,并以分階段的方式將其融入提示嵌入中,有效克服了 CLIP 在捕捉局部視覺細節方面的固有局限性。此外,MSCI 可以根據不同的組合以及同一組合內的不同元素,自主優化對局部細節和全局視覺信息的注意力權重分配。實驗表明,MSCI 在三個廣泛使用的數據集上的各項評估指標均取得了顯著改進。
本文轉載自??AIRoobt?? ,作者:Yue Wang等
