長視頻理解新突破!Mamba混合架構讓顯存消耗腰斬,處理10萬視頻token不費力
Mamba混合架構視頻模型來了,不再對視頻token進行壓縮——
而是通過改進模型架構設計的方式提升模型在訓練及推理預填充階段處理視頻token的效率。
圖片
滑鐵盧大學陳文虎團隊與多倫多大學、零一萬物、向量學院以及M-A-P的研究人員提出了一種新的Mamba-Transformer混合模型Vamba。
圖片
通過大量實驗驗證,研究團隊發現Vamba在同等硬件條件下可處理的視頻幀數較傳統Transformer架構提升4倍,訓練內存消耗降低50%以上,并且可實現單步訓練速度的翻倍。
同時,該方法完整保留了原始視頻的時空特征,避免傳統方法因降采樣或池化操作導致的關鍵動作或場景的信息丟失。
在多個長視頻的評價標準上,Vamba保持了高準確率和出色的性能,尤其在LVBench長視頻理解基準上相較先前的高效長視頻理解模型達到了約4.3%的性能提升。團隊現已開源Vamba模型的代碼、模型權重以及訓練、推理腳本供研究社區進一步探索與應用。
核心方法
目前流行的多模態大語言模型多使用Transformer作為模型的基本結構,其中的因果注意力機制相對于輸入的token序列長度存在二次時間/空間復雜度關系。
在長視頻理解任務中,多模態大模型一般會將視頻轉化為一段極長的token序列,因此這些模型往往需要高昂的訓練或推理成本。舉例來說,一種較為流行的視頻編碼方式為使用CLIP或者SigLIP編碼器將視頻的每幀轉換為約196個token。
基于這種編碼方式,一個512幀的視頻輸入將會轉換為約10萬個視頻token,從而造成極高的訓練或推理復雜度?,F有方法在處理這個問題時,往往采用壓縮視頻token數量的模型設計,即通過不同的壓縮機制合并或刪除一些非必要的視頻token并縮短視頻token序列長度,從而降低多模態模型在長視頻理解任務上的資源消耗。
盡管相關研究已經取得了一定的進展,這些高效的長視頻理解模型仍然存在一個共同的問題,即過度的視頻token序列壓縮可能會造成一定程度的信息損失。這使得目前的高效長視頻理解模型在性能方面仍然與最頂級的模型存在一定差距。
Vamba的核心設計思路是將原本作用于整個視頻+文本序列的運算成本高昂的因果自注意力運算操作分解為兩個更為高效且協同操作的計算組件。
(1)在處理文字token的過程中,通過引入交叉注意力機制使文字token獲得視頻token的信息。此類操作的計算開銷相比將文字與視頻同時經由因果注意力模塊處理更為可控,同時確保文本語義與視覺信息的高效對齊。
(2)針對海量的視頻token,采用基于狀態空間模型(SSM)的Mamba-2模塊進行序列建模。該模塊通過選擇性掃描機制,在保持了更新視頻token序列時可以檢索全局序列信息的同時,將計算復雜度從Transformer的二次復雜度降至線性復雜度,從而突破了長視頻序列的處理瓶頸。
如圖所示,對于文字token輸入,Vamba使用了因果自注意力機制和交叉注意力機制同時處理文字token,從而省去了視頻token在因果注意力模塊中所需要的計算成本。在此基礎上,Vamba使用Mamba-2模塊處理視頻token序列,從而既保持了對視頻序列的信息更新又將該操作所需要的復雜度控制在了線性范圍。
圖片
研究團隊通過不同幀數的視頻輸入,對Vamba與Transformer模型在訓練與推理中的計算成本進行了比較。對比發現Vamba在長視頻/高幀數輸入的情景下(128幀及以上的視頻輸入),相比Transformer類模型達到了50%以上的運行時間與顯存需求下降。同時,Vamba可以準確地描述視頻內容,根據用戶輸入的問題對視頻進行分析,并作出相應的回答。
圖片
總結
本文介紹了Vamba模型,一種專為高效理解超長視頻設計的Mamba-Transformer混合模型。
該方法通過集成面向文本token的交叉注意力機制與面向視頻token的Mamba-2模塊更新策略,在顯著降低計算復雜度與顯存占用的同時,實現了對長、中、短視頻理解任務的性能提升?;贚VBench等數據集的大量實驗評估表明,Vamba在長視頻理解任務中以4.3%的顯著優勢超越了現有的高效長視頻理解模型,并在多個分布各個視頻時常區間的基準測試中展現出了卓越的競爭力。
論文地址:https://arxiv.org/abs/2503.11579
項目主頁:https://tiger-ai-lab.github.io/Vamba/