微軟推出深度視頻探索智能體，登頂多個長視頻理解基準(zhǔn)

2025-06-30 14:01:03

本文提出了一種新穎的智能體 Deep Video Discovery (DVD)，通過將長視頻分割為更短的片段并將其視作環(huán)境，利用 LLM 先進(jìn)的推理能力來思考問題并自主規(guī)劃，選擇具有適當(dāng)參數(shù)的工具來從環(huán)境中逐步獲取信息，最終回答問題。

盡管大型語言模型（LLMs）和大型視覺 - 語言模型（VLMs）在視頻分析和長語境處理方面取得了顯著進(jìn)展，但它們在處理信息密集的數(shù)小時長視頻時仍顯示出局限性。

論文標(biāo)題：Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding
論文鏈接：https://arxiv.org/pdf/2505.18079

本文提出了一種新穎的智能體 Deep Video Discovery (DVD)，通過將長視頻分割為更短的片段并將其視作環(huán)境，利用 LLM 先進(jìn)的推理能力來思考問題并自主規(guī)劃，選擇具有適當(dāng)參數(shù)的工具來從環(huán)境中逐步獲取信息，最終回答問題。在最新的推理模型 OpenAI o3 的幫助下， DVD 以這一簡潔有效的 agentic 框架在非常具有挑戰(zhàn)性的 LVBench 上以 74.2% 的準(zhǔn)確率大幅超越了之前的工作。這一工作將以 MCP Server 的形式開源。

圖 1：左：DeepVideoDiscovery 的流程示意圖。右：LVBench 上的性能比較。

不同于之前的視頻智能體框架依賴于手動設(shè)計的固定工作流程，DVD 強(qiáng)調(diào)其作為智能體的自主性，即通過自主規(guī)劃，決策和行動來解決問題。

為了充分利用這一自主性，我們將原始的長視頻轉(zhuǎn)換為多粒度視頻數(shù)據(jù)庫，并提供了一套以搜索為中心的工具使得智能體在不同階段搜集不同粒度的信息。具體來說該系統(tǒng)主要由三個核心組件構(gòu)成：多粒度視頻數(shù)據(jù)庫、以搜索為中心的工具集以及作為智能體協(xié)調(diào)器的 LLM。

圖 2：DeepVideoDiscovery 分為兩個 stage，首先將長視頻轉(zhuǎn)化為多粒度的視頻數(shù)據(jù)庫，然后通過自主搜索和工具使用對用戶的問題生成回答。

在 “多粒度視頻數(shù)據(jù)庫構(gòu)建” 階段，系統(tǒng)將超長視頻轉(zhuǎn)換為一個結(jié)構(gòu)化數(shù)據(jù)庫，通過統(tǒng)一將視頻分割成短片段（例如 5 秒），并提取全局、片段和幀級別的多粒度信息，包括主題中心化摘要、片段字幕及其嵌入向量，以及原始解碼幀...。

隨后在 “智能體搜索和回答” 階段，DVD 智能體配備了三個核心工具：

(1) 全局瀏覽（Global Browse），用于獲取高層上下文信息和視頻內(nèi)容的全局摘要（包括視頻物體和事件摘要）。

(2) 片段搜索（Clip Search）工具，實(shí)現(xiàn)通過片段描述 Embedding 對視頻內(nèi)容進(jìn)行高效語義檢索，并返回排名靠前的相關(guān)視頻片段及其字幕和時間范圍。

(3) 幀檢查（Frame Inspect），用于從指定時間范圍內(nèi)的像素級信息中提取細(xì)粒度細(xì)節(jié)，并提供開放格式的視覺問答（VQA）響應(yīng)。

LLM 作為核心認(rèn)知驅(qū)動器，在迭代的 “觀察 - 推理 - 行動” 循環(huán)中，根據(jù)累積的知識和推理證據(jù)采取行動，從而賦予智能體自主、證據(jù)引導(dǎo)和靈活的行動機(jī)制，有效地將原始查詢分解為逐步細(xì)化的子查詢來解答問題。

表 1：本文提出的 Deep Video Discovery 在 LVBench 上以較大的幅度領(lǐng)先已有的工作。

該系統(tǒng)在多個長視頻基準(zhǔn)測試上進(jìn)行了全面評估，展現(xiàn)了其卓越的效率和強(qiáng)大的性能。在極具挑戰(zhàn)性的 LVBench 數(shù)據(jù)集上，DVD 智能體取得了 74.2% 的最新準(zhǔn)確率，大幅超越了所有現(xiàn)有工作，包括先前的最先進(jìn)模型 MR. Video（13.4% 的提升）和 VCA（32.9% 的提升）。在輔助轉(zhuǎn)錄的幫助下，準(zhǔn)確率進(jìn)一步提高到 76.0%。在 LongVideoBench、Video MME Long 子集和 EgoSchema 等其他長視頻基準(zhǔn)測試中，DVD 也持續(xù)超越了先前的最先進(jìn)性能。

圖 3：不同基礎(chǔ)模型在智能體中的行為分析。圖中可以明顯看出不同基礎(chǔ)模型表現(xiàn)出顯著的行為模式差異，不具有推理能力 GPT-4o 表現(xiàn)出非常單一的行為模型。

消融研究證實(shí)了工具設(shè)計的有效性，并強(qiáng)調(diào)了推理模型在整個智能體系統(tǒng)中的關(guān)鍵作用：更換推理模型（如使用 OpenAI o4-mini 或 GPT-4o）會導(dǎo)致性能下降，這表明 LLM 推理能力的缺失會導(dǎo)致智能體行為崩潰。對智能體推理行為的分析也揭示了不同模型在工具調(diào)用模式、推理深度和準(zhǔn)確性之間的關(guān)聯(lián)，例如 GPT-4o 表現(xiàn)出過度自信和行為崩潰，傾向于過早結(jié)束推理。這些行為模式的分析進(jìn)一步為未來的智能體設(shè)計以及基礎(chǔ)語言模型的發(fā)展提供了實(shí)踐參考。

責(zé)任編輯：張燕妮來源：機(jī)器之心

LLM 模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟推出深度視頻探索智能體，登頂多個長視頻理解基準(zhǔn)