考考大模型視頻理解能力，中科院人大百川提出新基準合成框架

發布于 2024-6-21 09:27

瀏覽

0收藏

測試Gemini1.5 Pro、GPT-4o等多模態大模型的新基準來了，針對視頻理解能力的那種。

直接在視頻內容中插入多個無關的圖像或文本“針”，嚴格評估模型對時間理解的能力。

來看下面的栗子。

比如插入密碼詞“Alice”，讓模型找到這個密碼詞；插入蘋果圖片，讓模型解答這個水果是什么；又或者插入多個“針”，詢問模型插入針的順序是什么。

考考大模型視頻理解能力，中科院人大百川提出新基準合成框架-AI.x社區

這就是來自中科院、人大、百川的研究團隊聯合提出的利用合成視頻構建視頻理解測試基準的方法。

該方法名為VideoNIAH，可以解耦視頻內容與其對應的查詢-響應對，通過插入無關的圖像或文本“針”來生成測試數據，既保證了視頻來源的多樣性和查詢響應的多樣性，還通過插入多個針來嚴格評估模型對時間理解的能力。

此外，使用與現實視頻內容相對應的查詢-響應對可能存在數據泄露風險，影響基準測試的公平性，使用合成視頻生成方法可以有效避免這一問題。

研究團隊利用VideoNIAH方法制作了一個能夠有效評估視頻模型的細粒度理解能力和時空建模能力，同時支持長上下文評估的合成視頻理解基準VNBench，包含1350個樣本。

隨后對Gemini1.5 Pro、GPT-4o、GPT-4-turbo以及其它開源模型進行了測試，并分析了一系列結果。

研究團隊發現，即使是GPT-4o等最先進的專有模型，在需要檢測和追蹤視頻中特定空間區域內的“針”等計數任務上的表現也不理想；在排序任務上，專有模型與開源模型之間的性能差距尤為顯著……

考考大模型視頻理解能力，中科院人大百川提出新基準合成框架-AI.x社區

VNBench更多細節以及更多實驗結果我們接著往下看。

用VideoNIAH構建新基準

隨著視頻中心的MLLMs模型的提出，需要有更全面的基準測試來評估這些模型在視頻理解方面的能力，包括細粒度理解、時空建模以及長上下文處理等。

傳統的視頻基準測試通常需要基于目標能力精心選擇視頻，并進行繁瑣的查詢-響應對標注，以匹配特定視頻內容。這個過程不僅挑戰重重，而且資源消耗巨大。

為了開發和評估視頻理解模型，需要一個既能夠擴展到不同視頻源和長度，又能夠高效運行的基準測試框架。

研究團隊提出了VideoNIAH。

如前文所述，VideoNIAH（Video Needle In A Haystack）創新性地將測試視頻內容與其查詢-響應對解耦，通過在原始視頻中插入無關的圖像/文本“針”（needles），并僅從這些針生成注釋。

這種方法不僅確保了視頻來源的多樣性和查詢響應的多樣性，還通過插入多個針來嚴格評估模型對時間理解的能力。

考考大模型視頻理解能力，中科院人大百川提出新基準合成框架-AI.x社區

利用VideoNIAH，研究者們構建了一個全面的視頻基準測試VNBench，包括檢索、排序和計數等任務。VNBench能夠有效評估視頻模型的細粒度理解能力和時空建模能力，同時支持長上下文評估。

VNBench的特點主要表現在以下三個方面：

“針”類型（Needle Type）的多樣性

視頻”干草堆”（Video Haystack）的多樣性

時間分布：VNBench使用的視頻”干草堆”來自不同的數據源，視頻時長從10秒到180秒不等，覆蓋了短、中、長三種不同的視頻長度，以評估模型對不同視頻長度的適應能力。
內容覆蓋：視頻內容包含多種場景，確保了評估的廣泛性和視頻源的多樣性。

查詢（Query）的多樣性

檢索任務：要求模型從視頻中檢索出特定的”針”，考察模型的細粒度理解和信息提取能力。
排序任務：要求模型識別并排序視頻中所有插入”針”的時間順序，考察模型對視頻時間動態和事件序列的理解能力。
計數任務：要求模型計算視頻中特定對象的出現次數，包括對單個幀內和跨幀的重復模式的識別和追蹤，考察模型在時空維度上的理解能力。
任務分類：VNBench的三個任務類型分別對應不同的視頻理解能力評估，檢索任務評估信息檢索能力，排序任務評估時間推理能力，計數任務評估對視頻內容的長期記憶和模式識別能力。

通過這些設計，VNBench能夠全面地評估視頻理解模型在多樣化的視頻內容和查詢條件下的性能，為視頻理解技術的研究提供了一個有力的基準測試工具。