成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<label id="fydna"><style id="fydna"></style></label>

<blockquote id="fydna"></blockquote>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

CNN、Transformer、Uniformer之外，我們終于有了更高效的視頻理解技術

作者：機器之心 2024-03-25 07:45:00

人工智能新聞

視頻理解因大量時空冗余和復雜時空依賴，同時克服兩個問題難度巨大，CNN 和 Transformer 及 Uniformer 都難以勝任，Mamba 是個好思路，讓我們看看本文是如何創造視頻理解的 VideoMamba。

視頻理解的核心目標在于對時空表示的把握，這存在兩個巨大挑戰：短視頻片段存在大量時空冗余和復雜的時空依賴關系。盡管曾經占主導地位的三維卷積神經網絡 (CNN) 和視頻 Transformer 通過利用局部卷積或長距離注意力有效地應對其中之一的挑戰，但它們在同時解決這兩個挑戰方面存在不足。UniFormer 試圖整合這兩種方法的優勢，但它在建模長視頻方面存在困難。

S4、RWKV 和 RetNet 等低成本方案在自然語言處理領域的出現，為視覺模型開辟了新的途徑。Mamba 憑借其選擇性狀態空間模型 (SSM) 脫穎而出，實現了在保持線性復雜性的同時促進長期動態建模的平衡。這種創新推動了它在視覺任務中的應用，正如 Vision Mamba 和 VMamba 所證實的那樣，它們利用多方向 SSM 來增強二維圖像處理。這些模型在性能上與基于注意力的架構相媲美，同時顯著減少了內存使用量。

鑒于視頻產生的序列本身更長，一個自然的問題是：Mamba 能否很好地用于視頻理解？

受 Mamba 啟發，本文引入了 VideoMamba 專為視頻理解量身定制的純 SSM (選擇性狀態空間模型)。VideoMamba 以 Vanilla ViT 的風格，將卷積和注意力的優勢融合在一起。它提供一種線性復雜度的方法，用于動態時空背景建模，非常適合高分辨率的長視頻。相關評估聚焦于 VideoMamba 的四個關鍵能力：

在視覺領域的可擴展性：本文對 VideoMamba 的可擴展性進行了檢驗，發現純 Mamba 模型在不斷擴展時往往容易過擬合，本文引入一種簡單而有效的自蒸餾策略，使得隨著模型和輸入尺寸的增加，VideoMamba 能夠在不需要大規模數據集預訓練的情況下實現顯著的性能增強。

對短期動作識別的敏感性：本文的分析擴展到評估 VideoMamba 準確區分短期動作的能力，特別是那些具有細微動作差異的動作，如打開和關閉。研究結果顯示，VideoMamba 在現有基于注意力的模型上表現出了優異的性能。更重要的是，它還適用于掩碼建模，進一步增強了其時間敏感性。

在長視頻理解方面的優越性：本文評估了 VideoMamba 在解釋長視頻方面的能力。通過端到端訓練，它展示了與傳統基于特征的方法相比的顯著優勢。值得注意的是，VideoMamba 在 64 幀視頻中的運行速度比 TimeSformer 快 6 倍，并且對 GPU 內存需求減少了 40 倍 (如圖 1 所示)。

與其他模態的兼容性：最后，本文評估了 VideoMamba 與其他模態的適應性。在視頻文本檢索中的結果顯示，與 ViT 相比，其性能得到了改善，特別是在具有復雜情景的長視頻中。這凸顯了其魯棒性和多模態整合能力。

本文的深入實驗揭示了 VideoMamba 在理解短期 (K400 和 SthSthV2) 和長期 (Breakfast，COIN 和 LVU) 視頻內容方面的巨大潛力。鑒于其高效性和有效性，VideoMamba 注定將成為長視頻理解領域的重要基石。所有代碼和模型均已開源，以促進未來的研究努力。

論文地址：https://arxiv.org/pdf/2403.06977.pdf
項目地址：https://github.com/OpenGVLab/VideoMamba
論文標題：VideoMamba: State Space Model for Efficient Video Understanding

方法介紹

下圖 2a 顯示了 Mamba 模塊的細節。

圖 3 說明了 VideoMamba 的整體框架。本文首先使用 3D 卷積 (即 1×16×16) 將輸入視頻 Xv ∈ R 3×T ×H×W 投影到 L 個非重疊的時空補丁 Xp ∈ R L×C，其中 L=t×h×w (t=T,h= H 16, 和 w= W 16)。輸入到接下來的 VideoMamba 編碼器的 token 序列是

時空掃描：為了將 B-Mamba 層應用于時空輸入，本文圖 4 中將原始的 2D 掃描擴展為不同的雙向 3D 掃描：

(a) 空間優先，通過位置組織空間 token，然后逐幀堆疊它們；

(b) 時間優先，根據幀排列時間 token，然后沿空間維度堆疊；

(c) 時空混合，既有空間優先又有時間優先，其中 v1 執行其中的一半，v2 執行全部 (2 倍計算量)。

圖 7a 中的實驗表明，空間優先的雙向掃描是最有效但最簡單的。由于 Mamba 的線性復雜度，本文的 VideoMamba 能夠高效地處理高分辨率的長視頻。

對于 B-Mamba 層中的 SSM，本文采用與 Mamba 相同的默認超參數設置，將狀態維度和擴展比例分別設置為 16 和 2。參照 ViT 的做法，本文調整了深度和嵌入維度，以創建與表 1 中相當大小的模型，包括 VideoMamba-Ti，VideoMamba-S 和 VideoMamba-M。然而實驗中觀察到較大的 VideoMamba 在實驗中往往容易過擬合，導致像圖 6a 所示的次優性能。這種過擬合問題不僅存在于本文提出的模型中，也存在于 VMamba 中，其中 VMamba-B 的最佳性能是在總訓練周期的四分之三時達到的。為了對抗較大 Mamba 模型的過擬合問題，本文引入了一種有效的自蒸餾策略，該策略使用較小且訓練良好的模型作為「教師」，來引導較大的「學生」模型的訓練。如圖 6a 所示的結果表明，這種策略導致了預期的更好的收斂性。

關于掩碼策略，本文提出了不同的行掩碼技術，如圖 5 所示，專門針對 B-Mamba 塊對連續 token 的偏好。

實驗

表 2 展示了在 ImageNet-1K 數據集上的結果。值得注意的是，VideoMamba-M 在性能上顯著優于其他各向同性架構，與 ConvNeXt-B 相比提高了 + 0.8%，與 DeiT-B 相比提高了 + 2.0%，同時使用的參數更少。VideoMamba-M 在針對增強性能采用分層特征的非各向同性主干結構中也表現出色。鑒于 Mamba 在處理長序列方面的效率，本文通過增加分辨率進一步提高了性能，僅使用 74M 參數就實現了 84.0% 的 top-1 準確率。

表 3 和表 4 列出了短期視頻數據集上的結果。(a) 監督學習：與純注意力方法相比，基于 SSM 的 VideoMamba-M 獲得了明顯的優勢，在與場景相關的 K400 和與時間相關的 Sth-SthV2 數據集上分別比 ViViT-L 高出 + 2.0% 和 + 3.0%。這種改進伴隨著顯著降低的計算需求和更少的預訓練數據。VideoMamba-M 的結果與 SOTA UniFormer 不相上下，后者在非各向同性結構中巧妙地將卷積與注意力進行了整合。(b) 自監督學習：在掩碼預訓練下，VideoMamba 的性能超越了以其精細動作技能而聞名的 VideoMAE。這一成就突顯了本文基于純 SSM 的模型在高效有效地理解短期視頻方面的潛力，強調了它適用于監督學習和自監督學習范式的特點。

如圖 1 所示，VideoMamba 的線性復雜度使其非常適合用于與長時長視頻的端到端訓練。表 6 和表 7 中的比較突顯了 VideoMamba 在這些任務中相對于傳統基于特征的方法的簡單性和有效性。它帶來了顯著的性能提升，即使在模型尺寸較小的情況下也能實現 SOTA 結果。VideoMamba-Ti 相對于使用 Swin-B 特征的 ViS4mer 表現出了顯著的 + 6.1% 的增長，并且相對于 Turbo 的多模態對齊方法也有 + 3.0% 的提升。值得注意的是，結果強調了針對長期任務的規模化模型和幀數的積極影響。在 LVU 提出的多樣化且具有挑戰性的九項任務中，本文采用端到端方式對 VideoMamba-Ti 進行微調，取得了與當前 SOTA 方法相當或優秀的結果。這些成果不僅突顯了 VideoMamba 的有效性，也展示了它在未來長視頻理解方面的巨大潛力。

如表 8 所示，在相同的預訓練語料庫和類似的訓練策略下，VideoMamba 在零樣本視頻檢索性能上優于基于 ViT 的 UMT。這突顯了 Mamba 在處理多模態視頻任務中與 ViT 相比具有可比較的效率和可擴展性。值得注意的是，對于具有更長視頻長度 (例如 ANet 和 DiDeMo) 和更復雜場景 (例如 LSMDC) 的數據集，VideoMamba 表現出了顯著的改進。這表明了 Mamba 在具有挑戰性的多模態環境中，甚至在需求跨模態對齊的情況下的能力。

更多研究細節，可參考原論文。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：一区二区三区四区在线 | 日韩精品不卡 | 操到爽| 成人免费观看男女羞羞视频 | 欧美精品网 | 国产1区| 国产天天操 | 国产精品久久久久久久免费观看 | 国产精品免费在线 | 国产精品一区二区三区久久 | 中文字幕国产精品 | 福利片在线看 | 福利在线观看 | 天天色图 | 全免费a级毛片免费看视频免 | 成人国内精品久久久久一区 | 狠狠久 | 美女操网站 | 国产午夜精品视频 | 日韩欧美三级电影在线观看 | 很黄很污的网站 | 第四色播日韩第一页 | 一级毛片免费完整视频 | 成人小视频在线免费观看 | 午夜免费在线观看 | 国产精品综合一区二区 | 欧美日韩视频 | 久久国产免费 | 一二三四av | 一道本一区二区 | 欧美日韩亚洲一区 | 久久草在线视频 | 国产免费一级片 | 国产在线h| 成人精品久久 | 亚洲精品国产一区 | 午夜视频在线 | 欧美极品在线视频 | 日本精a在线观看 | 国产精品美女久久久久aⅴ国产馆 | 免费在线观看成人 |

<blockquote id="jkrns"><ins id="jkrns"><em id="jkrns"></em></ins></blockquote>