成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<bdo id="2ume2"><source id="2ume2"></source></bdo>

<li id="2ume2"></li>

<rt id="2ume2"><tr id="2ume2"></tr></rt>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

長視頻理解新突破！Mamba混合架構讓顯存消耗腰斬，處理10萬視頻token不費力

2025-03-27 12:20:25

本文介紹了Vamba模型，一種專為高效理解超長視頻設計的Mamba-Transformer混合模型。該方法通過集成面向文本token的交叉注意力機制與面向視頻token的Mamba-2模塊更新策略，在顯著降低計算復雜度與顯存占用的同時，實現了對長、中、短視頻理解任務的性能提升。

Mamba混合架構視頻模型來了，不再對視頻token進行壓縮——

而是通過改進模型架構設計的方式提升模型在訓練及推理預填充階段處理視頻token的效率。

圖片

滑鐵盧大學陳文虎團隊與多倫多大學、零一萬物、向量學院以及M-A-P的研究人員提出了一種新的Mamba-Transformer混合模型Vamba。

圖片

通過大量實驗驗證，研究團隊發現Vamba在同等硬件條件下可處理的視頻幀數較傳統Transformer架構提升4倍，訓練內存消耗降低50%以上，并且可實現單步訓練速度的翻倍。

同時，該方法完整保留了原始視頻的時空特征，避免傳統方法因降采樣或池化操作導致的關鍵動作或場景的信息丟失。

在多個長視頻的評價標準上，Vamba保持了高準確率和出色的性能，尤其在LVBench長視頻理解基準上相較先前的高效長視頻理解模型達到了約4.3%的性能提升。團隊現已開源Vamba模型的代碼、模型權重以及訓練、推理腳本供研究社區進一步探索與應用。

核心方法

目前流行的多模態大語言模型多使用Transformer作為模型的基本結構，其中的因果注意力機制相對于輸入的token序列長度存在二次時間/空間復雜度關系。

在長視頻理解任務中，多模態大模型一般會將視頻轉化為一段極長的token序列，因此這些模型往往需要高昂的訓練或推理成本。舉例來說，一種較為流行的視頻編碼方式為使用CLIP或者SigLIP編碼器將視頻的每幀轉換為約196個token。

基于這種編碼方式，一個512幀的視頻輸入將會轉換為約10萬個視頻token，從而造成極高的訓練或推理復雜度?，F有方法在處理這個問題時，往往采用壓縮視頻token數量的模型設計，即通過不同的壓縮機制合并或刪除一些非必要的視頻token并縮短視頻token序列長度，從而降低多模態模型在長視頻理解任務上的資源消耗。

盡管相關研究已經取得了一定的進展，這些高效的長視頻理解模型仍然存在一個共同的問題，即過度的視頻token序列壓縮可能會造成一定程度的信息損失。這使得目前的高效長視頻理解模型在性能方面仍然與最頂級的模型存在一定差距。

Vamba的核心設計思路是將原本作用于整個視頻+文本序列的運算成本高昂的因果自注意力運算操作分解為兩個更為高效且協同操作的計算組件。

（1）在處理文字token的過程中，通過引入交叉注意力機制使文字token獲得視頻token的信息。此類操作的計算開銷相比將文字與視頻同時經由因果注意力模塊處理更為可控，同時確保文本語義與視覺信息的高效對齊。

（2）針對海量的視頻token，采用基于狀態空間模型（SSM）的Mamba-2模塊進行序列建模。該模塊通過選擇性掃描機制，在保持了更新視頻token序列時可以檢索全局序列信息的同時，將計算復雜度從Transformer的二次復雜度降至線性復雜度，從而突破了長視頻序列的處理瓶頸。

如圖所示，對于文字token輸入，Vamba使用了因果自注意力機制和交叉注意力機制同時處理文字token，從而省去了視頻token在因果注意力模塊中所需要的計算成本。在此基礎上，Vamba使用Mamba-2模塊處理視頻token序列，從而既保持了對視頻序列的信息更新又將該操作所需要的復雜度控制在了線性范圍。

圖片

研究團隊通過不同幀數的視頻輸入，對Vamba與Transformer模型在訓練與推理中的計算成本進行了比較。對比發現Vamba在長視頻/高幀數輸入的情景下（128幀及以上的視頻輸入），相比Transformer類模型達到了50%以上的運行時間與顯存需求下降。同時，Vamba可以準確地描述視頻內容，根據用戶輸入的問題對視頻進行分析，并作出相應的回答。

圖片

總結

本文介紹了Vamba模型，一種專為高效理解超長視頻設計的Mamba-Transformer混合模型。

該方法通過集成面向文本token的交叉注意力機制與面向視頻token的Mamba-2模塊更新策略，在顯著降低計算復雜度與顯存占用的同時，實現了對長、中、短視頻理解任務的性能提升?；贚VBench等數據集的大量實驗評估表明，Vamba在長視頻理解任務中以4.3%的顯著優勢超越了現有的高效長視頻理解模型，并在多個分布各個視頻時常區間的基準測試中展現出了卓越的競爭力。

論文地址：https://arxiv.org/abs/2503.11579

項目主頁：https://tiger-ai-lab.github.io/Vamba/

代碼倉庫：https://github.com/TIGER-AI-Lab/Vamba

模型權重：https://huggingface.co/TIGER-Lab/Vamba-Qwen2-VL-7B

責任編輯：武曉燕來源：量子位

長視頻 Mamba 混合架構

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美性生活一区二区三区 | 九九综合| 亚洲视频免费观看 | 日韩综合网 | 国产精品无码专区在线观看 | 成人三级在线观看 | 青青草一区| 免费黄色片在线观看 | 一区二区不卡 | 午夜视频网| 拍拍无遮挡人做人爱视频免费观看 | 国产成人综合一区二区三区 | 亚洲一区久久 | 欧美日韩在线免费观看 | 九九精品在线 | 精品国产一区二区 | 一区二区三区av | 国产农村妇女毛片精品久久麻豆 | 国产精品亚洲欧美日韩一区在线 | 亚洲第一成年免费网站 | 成人a视频片观看免费 | 在线播放一区 | 成人做爰www免费看午夜精品久久久久久久久久久久 | 午夜精品久久久久久久久久久久 | 婷婷福利视频导航 | 欧美中文字幕 | 久久亚洲综合 | 国产在线1区 | 在线看中文字幕 | 色爱综合网 | 九色网址 | 亚洲视频在线观看免费 | 午夜精品一区二区三区在线视频 | 久久手机视频 | 三级成人在线观看 | 久久久久久久综合色一本 | 国产羞羞视频在线观看 | 久久久久久91 | 在线视频一区二区 | 久久精品小视频 | 久久大陆 |

<rt id="iogu2"></rt>

<li id="iogu2"><source id="iogu2"></source></li>