成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟推出深度視頻探索智能體,登頂多個長視頻理解基準(zhǔn)

人工智能 新聞
本文提出了一種新穎的智能體 Deep Video Discovery (DVD),通過將長視頻分割為更短的片段并將其視作環(huán)境,利用 LLM 先進(jìn)的推理能力來思考問題并自主規(guī)劃,選擇具有適當(dāng)參數(shù)的工具來從環(huán)境中逐步獲取信息,最終回答問題。

盡管大型語言模型(LLMs)和大型視覺 - 語言模型(VLMs)在視頻分析和長語境處理方面取得了顯著進(jìn)展,但它們在處理信息密集的數(shù)小時長視頻時仍顯示出局限性。

圖片

  • 論文標(biāo)題:Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding
  • 論文鏈接:https://arxiv.org/pdf/2505.18079

本文提出了一種新穎的智能體 Deep Video Discovery (DVD),通過將長視頻分割為更短的片段并將其視作環(huán)境,利用 LLM 先進(jìn)的推理能力來思考問題并自主規(guī)劃,選擇具有適當(dāng)參數(shù)的工具來從環(huán)境中逐步獲取信息,最終回答問題。在最新的推理模型 OpenAI o3 的幫助下, DVD 以這一簡潔有效的 agentic 框架在非常具有挑戰(zhàn)性的 LVBench 上以 74.2% 的準(zhǔn)確率大幅超越了之前的工作。這一工作將以 MCP Server 的形式開源。

圖片

圖片

圖 1:左:DeepVideoDiscovery 的流程示意圖。右:LVBench 上的性能比較。

不同于之前的視頻智能體框架依賴于手動設(shè)計的固定工作流程,DVD 強(qiáng)調(diào)其作為智能體的自主性,即通過自主規(guī)劃,決策和行動來解決問題。

為了充分利用這一自主性,我們將原始的長視頻轉(zhuǎn)換為多粒度視頻數(shù)據(jù)庫,并提供了一套以搜索為中心的工具使得智能體在不同階段搜集不同粒度的信息。具體來說該系統(tǒng)主要由三個核心組件構(gòu)成:多粒度視頻數(shù)據(jù)庫、以搜索為中心的工具集以及作為智能體協(xié)調(diào)器的 LLM。

圖片

圖 2:DeepVideoDiscovery 分為兩個 stage,首先將長視頻轉(zhuǎn)化為多粒度的視頻數(shù)據(jù)庫,然后通過自主搜索和工具使用對用戶的問題生成回答。

在 “多粒度視頻數(shù)據(jù)庫構(gòu)建” 階段,系統(tǒng)將超長視頻轉(zhuǎn)換為一個結(jié)構(gòu)化數(shù)據(jù)庫,通過統(tǒng)一將視頻分割成短片段(例如 5 秒),并提取全局、片段和幀級別的多粒度信息,包括主題中心化摘要、片段字幕及其嵌入向量,以及原始解碼幀...。

隨后在 “智能體搜索和回答” 階段,DVD 智能體配備了三個核心工具:

(1) 全局瀏覽(Global Browse),用于獲取高層上下文信息和視頻內(nèi)容的全局摘要(包括視頻物體和事件摘要)。

(2) 片段搜索(Clip Search)工具,實(shí)現(xiàn)通過片段描述 Embedding 對視頻內(nèi)容進(jìn)行高效語義檢索,并返回排名靠前的相關(guān)視頻片段及其字幕和時間范圍。

(3) 幀檢查(Frame Inspect),用于從指定時間范圍內(nèi)的像素級信息中提取細(xì)粒度細(xì)節(jié),并提供開放格式的視覺問答(VQA)響應(yīng)。

LLM 作為核心認(rèn)知驅(qū)動器,在迭代的 “觀察 - 推理 - 行動” 循環(huán)中,根據(jù)累積的知識和推理證據(jù)采取行動,從而賦予智能體自主、證據(jù)引導(dǎo)和靈活的行動機(jī)制,有效地將原始查詢分解為逐步細(xì)化的子查詢來解答問題。

圖片

表 1:本文提出的 Deep Video Discovery 在 LVBench 上以較大的幅度領(lǐng)先已有的工作。

該系統(tǒng)在多個長視頻基準(zhǔn)測試上進(jìn)行了全面評估,展現(xiàn)了其卓越的效率和強(qiáng)大的性能。在極具挑戰(zhàn)性的 LVBench 數(shù)據(jù)集上,DVD 智能體取得了 74.2% 的最新準(zhǔn)確率,大幅超越了所有現(xiàn)有工作,包括先前的最先進(jìn)模型 MR. Video(13.4% 的提升)和 VCA(32.9% 的提升)。在輔助轉(zhuǎn)錄的幫助下,準(zhǔn)確率進(jìn)一步提高到 76.0%。在 LongVideoBench、Video MME Long 子集和 EgoSchema 等其他長視頻基準(zhǔn)測試中,DVD 也持續(xù)超越了先前的最先進(jìn)性能。

圖片

圖 3:不同基礎(chǔ)模型在智能體中的行為分析。圖中可以明顯看出不同基礎(chǔ)模型表現(xiàn)出顯著的行為模式差異,不具有推理能力 GPT-4o 表現(xiàn)出非常單一的行為模型。

消融研究證實(shí)了工具設(shè)計的有效性,并強(qiáng)調(diào)了推理模型在整個智能體系統(tǒng)中的關(guān)鍵作用:更換推理模型(如使用 OpenAI o4-mini 或 GPT-4o)會導(dǎo)致性能下降,這表明 LLM 推理能力的缺失會導(dǎo)致智能體行為崩潰。對智能體推理行為的分析也揭示了不同模型在工具調(diào)用模式、推理深度和準(zhǔn)確性之間的關(guān)聯(lián),例如 GPT-4o 表現(xiàn)出過度自信和行為崩潰,傾向于過早結(jié)束推理。這些行為模式的分析進(jìn)一步為未來的智能體設(shè)計以及基礎(chǔ)語言模型的發(fā)展提供了實(shí)踐參考。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-04-07 07:55:00

視頻訓(xùn)練生成

2013-10-31 10:43:10

微軟Windows 8.1教程

2020-10-15 12:24:00

JavaScript開發(fā) 教程

2024-07-15 08:58:00

2011-07-29 14:10:51

微軟GmailMan

2025-07-02 08:50:00

AI智能體模型

2024-03-11 00:50:00

AI框架數(shù)據(jù)

2024-11-15 09:36:07

2024-10-30 15:00:00

AI視頻模型

2025-04-07 02:00:00

2011-12-08 09:42:33

微軟未來銀行

2024-06-13 09:20:26

2021-03-31 08:35:40

人工智能AIFacebook

2024-10-29 13:24:15

2025-03-27 12:20:25

2011-05-25 14:29:36

MangoWindows Pho

2024-06-21 13:04:43

2025-02-19 11:28:00

2023-09-06 09:50:29

人工智能模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产精品精品视频一区二区三区 | 日本成人中文字幕 | 亚洲精品白浆高清久久久久久 | 亚洲免费在线观看视频 | 国产精品免费观看视频 | 欧美一级久久 | 国产精品亚洲精品久久 | 国产精品一区二区三区在线 | 在线午夜 | 美女黄网 | 四虎伊人 | 久久久久久免费精品一区二区三区 | 综合网在线 | 国产在线一区二区三区 | 亚洲国产成人精品久久 | 国产精品一区二区av | 色视频在线免费观看 | 久久99精品久久久久久噜噜 | 久久se精品一区精品二区 | 97国产在线视频 | 欧美激情 一区 | 正在播放国产精品 | 成年人免费看的视频 | 亚洲精品综合 | 精品国产视频在线观看 | 在线观看欧美一区 | 中文字幕日韩欧美一区二区三区 | 欧美成年人视频在线观看 | 狠狠干网站 | 日韩精品一区二区三区中文在线 | 午夜电影福利 | 精品国产欧美一区二区三区成人 | 99久久精品免费看国产小宝寻花 | 特级特黄特色的免费大片 | 视频在线一区二区 | 99精品久久久 | 神马福利| 网色| 日本在线精品视频 | 99这里只有精品视频 | 超碰97人人人人人蜜桃 |