北大王選所：讓多模態大模型更懂人類在做什么｜ECCV 2024

作者：量子位 2024-08-13 15:00:00

人工智能新聞

北京大學最新提出多模態提示學習（Conditional Multi-Modal Prompt, CMMP）方法，利用提示詞工程技術教會多模態大模型理解區域級的人物交互關系。

只用提示詞，多模態大模型就能更懂場景中的人物關系了。

北京大學最新提出多模態提示學習（Conditional Multi-Modal Prompt, CMMP）方法，利用提示詞工程技術教會多模態大模型理解區域級的人物交互關系。

在這個過程中，最難的部分在于教會模型識別未見過的人物交互類型。

要知道，大多數現有研究都集中在封閉環境，一旦變成更接近現實的開放環境，模型就懵逼了！

比如下圖，先前的檢測器在平衡已見和未見類別時遇到了困難，導致調和平均值較低，并且在未見類別上的表現較差。

相比之下，CMMP方法有效解決了這一平衡問題，大幅提升了性能，并為未見類別建立了新的最佳性能。

至于CMMP方法如何解決未見類別，一句話：

在特征提取過程中使用視覺空間線索，幫助識別未見的人物-物體交互概念，并通過條件提示學習提高對未見類別的泛化能力。

總之，CMMP方法提供了一種新的范式，可以微調多模態大模型，使其具備泛化的區域級人物交互關系檢測能力。

以上研究來自北大王選計算機技術研究所，相關論文已被頂會ECCV 2024接收。

零樣本人物交互檢測新框架

團隊提出了一種使用CMMP進行零樣本HOI（Human-Object Interaction）檢測的新框架。

具體來說，CMMP將零樣本人物交互檢測分為兩個子任務：

交互性感知的視覺特征提取
可泛化的交互分類

然后為每個子任務分別提出了解耦的視覺和文本提示，以消除它們之間的依賴性并緩解錯誤傳播。

條件視覺提示（P_v）用于將空間和交互性感知的知識注入圖像編碼器，并通過實例級視覺先驗（C_ins）和交互的全局空間模式（C_gsp）進行約束。條件語言提示（P_L）通過正則化損失受人設計的提示（C_L）的約束。

交互性感知的視覺特征提取

團隊采用的多模態模型的圖像編碼器最初通過對大規模圖像-文本對進行對比學習預訓練（CLIP），其能力可能僅限于理解圖像級的一階語義。

為了使圖像編碼器能夠區分圖像中所有的人物交互性，團隊提出將不同粒度的先驗知識整合到條件視覺提示中，使其理解為人物交互關系檢測任務定制的區域級二階語義。

具體來說，研究人員將實例級信息作為先驗知識融入條件視覺提示中。

給定輸入圖像，首先使用預訓練的物體檢測器獲取所有實例級先驗知識，包括邊界框、置信度分數和檢測到的實例的語義編碼。

此外，為了鼓勵每個實例意識到其潛在的交互對象，團隊將訓練集中交互的全局空間模式（Global Spatial Pattern）與實例級先驗知識（Instance-level Visual Prior）結合。

具體來說，對于每個標注的交互人物對，研究人員首先計算其一元和二元空間特征。

隨后，使用K-means聚類算法確定聚類中心，并將其用作交互人物對的代表性空間模式。

全局空間交互模式提供了一種類別無關的代表性空間配置，作為理解已見和未見人物交互概念之間交互性的橋梁。

最終，研究人員將結合后的知識通過輕量級適配器融入到圖像編碼器中。

可泛化的交互分類

為了在學習人物交互檢測任務特定表示的同時保留CLIP的可泛化通用知識，團隊在文本分支中采用了帶有一致性約束的語言感知提示學習（Language-aware Prompt Learning）。

該約束確保已見和未見類別的學習原型（Prototype）之間保持合理的分離邊界，不會彼此過度偏離。

具體來說，對于每個動作類別，研究人員首先使用人工設計的提示對其進行格式化。利用可學習的上下文詞充當已見和未見類別語義之間的橋梁。

類別的最終表示通過將可學習的上下文詞與上述句子的詞向量拼接，然后通過文本編碼器獲得。

為了進一步利用多模態模型文本編碼器本身學習到的特征空間并提高對未見類別的泛化能力，研究人員提出使用人工設計的提示來指導可學習語言提示的特征空間。

該約束確保已見和未見類別的原型之間保持合理的分離邊界，不會彼此過度偏離。

團隊應用正則化對比學習損失來減少特征表示與人工設計語言提示的特征表示之間的差異。

訓練CMMP

基于交互性感知的特征圖和預訓練物體檢測器提取的人和物體的邊界框，團隊首先應用ROI-Pooling來提取不同區域的特征。

然后，將不同區域提取的特征進行融合，并通過交互分類器進行最終的交互類別預測。

整個模型在交互分類訓練中使用了focal loss，同時還應用了語言正則化損失。

實驗結果

在結果驗證階段，團隊采用人物交互檢測常用數據集HICO-DET，其中的600個人物交互類別由80個物體類別和117個動詞類別組成。

為了驗證模型的零樣本性能，研究人員在HICO-DET上評估了五種零樣本設置。

為了和現有方法實現公平比較，研究默認采用ViT-B/16作為骨干網絡。

如下表所示，實驗結果表明，CMMP在所有的零樣本設定上，都在未見類上取得了最佳的性能，這證明了引入條件多模態提示的有效性。

如表中每種類型的最后一行所示，通過利用ViT-L/14骨干網來擴展CMMP以匹配CLIP4HOI的FLOPs，新方法在所有劃分中都取得了最佳性能。

這表明團隊的模型在視覺特征的空間關系提取和交互分類的原型學習方面具有卓越的能力。

此外，先前的方法在已見和未見類別之間表現出嚴重的性能差異，表明其缺乏泛化能力。

而本研究的模型能夠在很大程度上緩解這一問題，并且在泛化到以前未見的交互類別方面具有很高的潛力，這證實了帶有約束的多模態提示的有效性。

更多細節請參考原論文。

項目主頁：https://sites.google.com/view/eccv24-cmmp/%E9%A6%96%E9%A1%B5
代碼鏈接：https://github.com/ltttpku/CMMP
論文鏈接：https://arxiv.org/pdf/2408.02484

責任編輯：張燕妮來源：量子位

大模型提示學習