在12個視頻理解任務中,Mamba先打敗了Transformer
探索視頻理解的新境界,Mamba 模型引領計算機視覺研究新潮流!傳統架構的局限已被打破,狀態空間模型 Mamba 以其在長序列處理上的獨特優勢,為視頻理解領域帶來了革命性的變革。
來自南京大學、上海人工智能實驗室、復旦大學、浙江大學的研究團隊發布了一項開創性工作。他們全面審視了 Mamba 在視頻建模中的多重角色,提出了針對 14 種模型 / 模塊的 Video Mamba Suite,在 12 項視頻理解任務中對其進行了深入評估。結果令人振奮:Mamba 在視頻專用和視頻 - 語言任務中均展現出強勁的潛力,實現了效率與性能的理想平衡。這不僅是技術上的飛躍,更是對未來視頻理解研究的有力推動。
- 論文標題:Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding
- 論文鏈接:https://arxiv.org/abs/2403.09626
- 代碼鏈接:https://github.com/OpenGVLab/video-mamba-suite?
在當今快速發展的計算機視覺領域,視頻理解技術已成為推動行業進步的關鍵驅動力之一。眾多研究者致力于探索和優化各種深度學習架構,以期實現對視頻內容的更深層次解析。從早期的循環神經網絡(RNN)和三維卷積神經網絡(3D CNN),到目前廣受矚目的 Transformer 模型,每一次技術的飛躍都極大地拓寬了我們對視頻數據的理解和應用。
特別是 Transformer 模型,以其卓越的性能在視頻理解的多個領域 —— 包括但不限于目標檢測、圖像分割、以及多模態問答等 —— 取得了顯著成就。然而,面對視頻數據固有的超長序列特性,Transformer 模型也暴露出了其固有的局限性:由于其計算復雜度呈平方增長,使得對超長視頻序列的直接建模變得異常困難。
在這樣的背景下,狀態空間模型架構 —— 以 Mamba 為代表 —— 應運而生,以其線性計算復雜度的優勢,展現出處理長序列數據的強大潛力,為 Transformer 模型的替代提供了可能。盡管如此,目前對于狀態空間模型架構在視頻理解領域的應用,還存在一些局限性:一是主要集中在視頻全局理解任務,如分類和檢索;二是主要探索了直接進行時空建模的方式,而對于更多樣化的建模方法的探索尚顯不足。
為了克服這些局限,并全面評估 Mamba 模型在視頻理解領域的潛力,研究團隊精心打造了 video-mamba-suite(視頻 Mamba 套件)。該套件旨在補充現有研究的不足,通過一系列深入的實驗和分析,探索 Mamba 在視頻理解中的多樣化角色和潛在優勢。
研究團隊將 Mamba 模型的應用劃分為四種不同的角色,并據此構建了一個包含 14 個模型 / 模塊的視頻 Mamba 套件。經過在 12 個視頻理解任務上的全面評估,實驗結果不僅揭示了 Mamba 在處理視頻和視頻 - 語言任務上的巨大潛力,還展現了其在效率和性能之間取得的卓越平衡。論文作者們期待著這項工作能夠為視頻理解領域的未來研究提供可參考的資源和深刻的見解。
研究背景
視頻理解作為計算機視覺研究的基礎問題,其核心在于捕捉視頻中的時空動態,用一識別并推斷活動的性質及其演變過程。目前,針對視頻理解的架構探索主要分為三個方向。
首先,基于幀的特征編碼方法通過循環網絡(如 GRU 和 LSTM)進行時間依賴性建模,但這種分割的時空建模方式難以捕獲聯合時空信息。其次,三維卷積核的使用在卷積神經網絡中實現了對空間和時間相關性的同步考慮。
隨著語言和圖像領域的 Transformer 模型取得巨大成功,視頻 Transformer 模型也在視頻理解領域取得了顯著進展,展現出超越 RNNs 和 3D-CNNs 的能力。視頻 Transformer 通過將視頻封裝在一系列 token 中,并利用注意力機制實現全局上下文交互和數據依賴的動態計算,從而在統一的方式下處理視頻中的時間或時空信息。
然而,由于視頻 Transformer 在處理長視頻時的計算效率有限,出現了一些變體模型,它們在速度和性能之間取得了平衡。最近,狀態空間模型(SSMs)在自然語言處理(NLP)領域展現了其優勢。現代 SSMs 在長序列建模中表現出強大的表征能力,同時保持線性時間復雜度。這是因為它們的選擇機制消除了存儲完整上下文的需要。特別是 Mamba 模型,將時變參數納入 SSM,并提出了一種硬件感知算法,以實現高效的訓練和推理。Mamba 的出色擴展性能表明,它有望成為 Transformer 的一個有前景的替代方案。
同時,Mamba 的高性能和效率使其非常適合視頻理解任務。盡管已有一些初步嘗試探索 Mamba 在圖像 / 視頻建模中的應用,但其在視頻理解中的有效性尚不明確。針對 Mamba 在視頻理解中的潛力進行全面研究的缺失,限制了對其在多樣化視頻相關任務中能力的進一步探索。
針對以上問題,研究團隊對 Mamba 在視頻理解領域的潛力進行了探索。他們的研究目標是評估 Mamba 是否可以成為該領域的 Transformer 的一個可行替代方案。為此,他們首先要解決的問題是如何看待 Mamba 在理解視頻方面中的不同角色。基于此,他們進一步研究了 Mamba 在哪些任務中表現得更出色。
論文將 Mamba 在視頻建模中的作用分為以下四類:1) 時序模型,2) 時序模塊,3) 多模態交互網絡,4) 時空模型。針對每種角色,研究團隊都在不同的視頻理解任務上研究了其視頻建模能力。為了公平地讓 Manba 與 Transformer 一較高下,研究團隊根據標準或改進的 Transformer 架構精心選擇了用于對比的模型。在此基礎上,他們得到了一個包含 14 個模型 / 模塊的 Video Mamba Suite,適用于 12 個視頻理解任務。研究團隊希望 Video Mamba Suite 能成為未來探索基于 SSM 的視頻理解模型的基礎型資源。
四種角色
Mamba 作為視頻時序模型
任務和數據:研究團隊對 Mamba 在五個視頻時間任務上的性能進行了評估:時間動作定位(HACS Segment),時間動作分割(GTEA),密集視頻字幕(ActivityNet,YouCook),視頻段落字幕(ActivityNet,YouCook)和動作預測(Epic-Kitchen-100)。
基準線和挑戰者:研究團隊選擇了基于 Transformer 的模型作為各項任務的基線。具體來說,這些基線模型包括 ActionFormer,ASFormer,Testra 和 PDVC。為了構建 Mamba 的挑戰者,他們將基線模型中的 Transformer 模塊替換為基于 Mamba 的模塊,包括如上圖三種模塊,原始的 Mamba (a),ViM (b),以及研究團隊原創設計的 DBM (c) 模塊。值得注意的是,在涉及因果推斷的動作預測任務中,論文中將基線模型與原始的 Mamba 模塊進行了性能比較。
結果和分析:論文中展示了不同模型在四項任務上的比較結果。總體而言,盡管一些基于 Transformer 的模型已經加入了注意力變體來提升性能。下表展示了 Mamba 系列相比現有 Transformer 系列方法,展示出了更加卓越的性能。
Mamba 用于多模態交互
研究團隊不僅關注了單模態任務,還評估了 Mamba 在跨模態交互任務中的性能。論文中采用視頻時間定位(VTG)任務評估了 Mamba 的表現。所涉及的數據集包括 QvHighlight 和 Charade-STA。
任務和數據:研究團隊對 Mamba 在五個視頻時間任務上的性能進行了評估:時間動作定位(HACS Segment),時間動作分割(GTEA),密集視頻字幕(ActivityNet,YouCook),視頻段落字幕(ActivityNet,YouCook)和動作預測(Epic-Kitchen-100)。
基準線和挑戰者:研究團隊使用 UniVTG 來構建基于 Mamba 的 VTG 模型。UniVTG 采用 Transformer 作為多模態交互網絡。給定視頻特征和文本特征,他們首先為每個模態添加可學習的位置嵌入和模態類型嵌入,以保留位置和模態信息。然后,將文本和視頻標記連接起來,形成一個聯合輸入,進一步輸入到多模態 Transformer 編碼器中。最后,提取文本增強的視頻特征,并將其送入預測頭。為了創建跨模態的 Mamba 競爭者,研究團隊選擇了堆疊雙向 Mamba 塊,形成一個多模態的 Mamda 編碼器,以替代 Transformer 基線。
結果和分析:該論文通過 QvHighlight 測試了多個模型的性能。Mamba 的平均 mAP 為 44.74,與 Transformer 相比有顯著提升。在 Charade-STA 上,基于 Mamba 的方法展示出了和 Transformer 類似的競爭力。這表明 Mamba 具有有效整合多種模態的潛力。
考慮到 Mamba 是基于線性掃描的模型,而 Transformer 基于全局標記交互,研究團隊直觀地認為文本在標記序列中的位置可能會影響多模態聚合的效果。為了調查這一點,他們在表格中包括了不同的文本 - 視覺融合方法,并在圖中展示了四種不同的標記排列方式。結論是,當文本條件與視覺特征的左側融合時,可以獲得最佳結果。QvHighlight 對此融合的影響較小,而 Charade-STA 對文本的位置特別敏感,這可能歸因于數據集的特性。
Mamba 作為視頻時序適配器
在評估 Mamba 在時序后建模方面的性能之外,研究團隊還考察了其作為視頻時間適配器的有效性。通過在以自我為中心的數據上執行視頻文本對比學習來預訓練雙塔模型,該數據包含 400 萬個帶有細粒度敘述的視頻片段。
任務和數據:研究團隊對 Mamba 在五個視頻時間任務上的性能進行了評估,其中包括:時序動作定位(HACS Segment),時序動作分割(GTEA),密集視頻字幕(ActivityNet,YouCook),視頻段落字幕(ActivityNet,YouCook)和動作預測(Epic-Kitchen-100)。
基準線和挑戰者:TimeSformer 采用了分開的時空注意力塊來分別建模視頻中的空間和時間關系。為此,研究團隊引入了雙向 Mamba 塊作為時序適配器,以取代原始的時序自注意力,改善分開的時空交互。為了公平比較,TimeSformer 中的空間注意力層保持不變。在這里,研究團隊使用了 ViM 塊作為時序模塊,并將結果模型稱為 TimeMamba。
值得注意的是,標準 ViM 塊比自注意力塊有更多的參數(略多于
),其中 C 是特征維度。因此,論文中將 ViM 塊的擴展比率 E 設置為 1,將其參數量減少到
,以進行公平比較。除了 TimeSformer 使用的普通殘差連接形式,研究團隊還探索了 Frozen 風格適配方式。以下是 5 種適配器結構:
結果和分析
1.零樣本多實例檢索。研究團隊首先在表中評估了具有分開時空交互操作的不同模型,發現文中復現的 Frozen 風格殘差連接與 LaViLa 的一致。當比較原始和 Frozen 風格時,不難觀察到 Frozen 風格始終產生更好的結果。此外,在相同的適配方法下,基于 ViM 的時間模塊始終優于基于注意力的時間模塊。
值得注意的是,論文中使用的 ViM 時間塊與時間自注意力塊相比參數更少,突出了 Mamba 選擇性掃描的較好的參數利用率和信息提取能力。
此外,研究團隊進一步驗證了時空 ViM 塊。時空 ViM 塊用整個視頻序列上的聯合時空建模取代了時序 ViM 塊。令人驚訝的是,盡管引入了全局建模,但時空 ViM 塊實際上導致了性能下降。為此,研究團隊推測基于掃描的時空可能會破壞預訓練空間注意力塊產生空間特征分布。以下是實驗結果:
2.微調多實例檢索和動作識別。研究團隊繼續在 Epic-Kitchens-100 數據集上使用 16 幀微調預訓練模型進行多實例檢索和動作識別。可以從實驗結果中國呢觀察到 TimeMamba 在動詞識別的上下文中顯著優于 TimeSformer,超出了 2.8 個百分點,這說明 TimeMamba 能夠在細粒度時序方面有效地建模。
3.零樣本長視頻問答。研究團隊在 EgoSchema 數據集上進一步評估了模型的長視頻問答性能。以下是實驗結果:
無論是 TimeSformer 還是 TimeMamba,在 Ego4D 上預訓練后,都超過了大規模預訓練模型(例如 InternVideo)的性能。此外,研究團隊從視頻開始以固定的 FPS 不斷增加了測試幀的數量,以探索 ViM 塊長視頻時間建模能力的影響。盡管兩個模型都是用 4 幀預訓練的,但隨著幀數的增加,TimeMamba 和 TimeSformer 的性能穩步提高。同時,當使用 8192 幀時,可以觀察到顯著的改進。當輸入幀超過 32 時,TimeMamba 通常比 TimeSformer 從更多的幀數中受益,表明時間 ViM 塊在時序自注意力方面具有優越性。
Mamba 用于時空建模
任務和數據:此外,論文中還評估了 Mamba 在空間 - 時間建模方面的能力,具體在 Epic-Kitchens-100 數據集上評估了模型在零樣本多實例檢索方面的性能。
基線和競爭者:ViViT 和 TimeSformer 研究了將具有空間注意力的 ViT 轉化為具有空間 - 時間聯合注意力的模型。基于此,研究團隊進一步擴展了 ViM 模型的空間選擇性掃描,以包含時空選擇性掃描。命名這個擴展后的模型為 ViViM。研究團隊使用在 ImageNet-1K 上預訓練的 ViM 模型進行初始化。ViM 模型包含了一個 cls token,該 token 被插入到拍平的 token 序列的中間。
下圖中展示了將 ViM 模型轉換為 ViViM的方法。對于給定的包含 M 幀的輸入,在每幀對應的 token 序列的中間插入 cls token。此外,研究團隊添加了時間位置嵌入,對每個幀初始化為零。然后將展平的視頻序列輸入到 ViViM 模型中。模型的輸出是通過計算每幀的 cls token 的平均值來得到的。
結果和分析:論文中進一步研究了 ViViM 在零樣本多實例檢索方面的結果,實驗結果如下表所示:
結果展示了不同時空模型在零樣本多實例檢索上的性能。當比較 ViT 和 ViViM 時,兩者都是在 ImageNet-1K 上預訓練的,可以觀察到 ViViM 的性能超過了 ViT。有趣的是,盡管在 ImageNet-1K 上 ViT-S 和 ViM-S 之間的性能差距很小(79.8 vs 80.5),但 ViViM-S 在零樣本多實例檢索上顯示出顯著的改進(+2.1 mAP@Avg),這表明 ViViM 在建模長序列方面非常有效,從而提高了性能。
結論
這篇論文通過全面評估 Mamba 視頻理解領域的表現,展示了 Mamba 可以作為傳統 Transformers 的可行替代方案的潛力。通過包含 12 個視頻理解任務的 14 個模型 / 模塊組成的 Video Mamba Suite,研究團隊展示了 Mamba 高效處理復雜時空動態的能力。Mamba 不僅性能超群,還能夠更好地實現效率 - 性能之間的平衡。這些發現不僅強調了 Mamba 適用于視頻分析任務,而且還為其在計算機視覺領域的應用開辟了新的途徑。未來的工作可以進一步探索 Mamba 的適應性,并將其效用擴展到更復雜的多模態視頻理解挑戰中。
本文轉自 機器之心 ,作者:機器之心
