成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

TRACE:因果事件建模助力視頻理解大模型的時間定位能力

人工智能 新聞
TRACE 用 “因果事件建模” 撕開了長視頻的迷霧,以 “任務分治” 策略破解了效率與精度的不可能。它為 AI 理解視頻的方式提供了一種新的可能 —— 不是囫圇吞棗,而是邏輯推演 。

論文第一作者為香港中文大學(深圳)理工學院在讀博士生郭永新,指導老師為通訊作者為香港中文大學(深圳)理工學院 / 人工智能學院助理教授唐曉瑩,課題組研究方向包括大模型、聯邦學習、充電智能優化與博弈等。

下班回家后你正深陷于一部兩小時的綜藝節目中,渴望找到那些讓人捧腹的爆笑片段,卻如同大海撈針。或者,在緊張刺激的足球賽中,你渴望捕捉到那決定性的絕殺瞬間,但傳統 AI 視頻處理技術效率低下,且模型缺乏泛化能力。為解決這些問題,香港中文大學(深圳)唐曉瑩課題組聯合騰訊 PCG 發布 TRACE 技術,通過因果事件建模為視頻理解大模型提供精準的時間定位能力。

圖片

圖片


  • 論文標題:TRACE: Temporal Grounding Video LLM via Causal Event Modeling
  • VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding
  • 論文地址:https://arxiv.org/pdf/2410.05643
  • https://arxiv.org/pdf/2405.13382
  • Github:https://github.com/gyxxyg/TRACE

一. 背景

在長視頻內容檢索的研究領域中,用戶常面臨時間線導航效率低下的困境。傳統的視頻檢索方法采用逐幀分析的線性處理策略,如同逐幀查字典,效率低下且泛化能力差。而現有的多模態大模型,雖然泛化能力更強,但是效果仍然差強人意。

我們認為這背后的矛盾本質上源于視頻理解大模型的輸出依然使用自然語言建模,無法清晰準確地描述視頻本身的結構。TRACE 的絕妙之處是給視頻事件構建結構化表征,將每個模型的輸出表示為一系列事件,進一步把每個事件拆成三元組「時間戳 - 顯著性分數 - 文本描述」,通過因果推理鏈重構視頻邏輯骨架。

TRACE 技術突破了傳統方法的局限,不再依賴沒有清晰結構的文字描述,而是通過事件級別的因果建模,顯著提升了時序理解與定位精度,為視頻內容檢索實現了 “大海撈針”。

二. 方法

TRACE 方法引入了結構化建模創新:把視頻理解大模型的輸出拆解成「時間戳 - 顯著性分數 - 文本描述」三元事件單元,實現因果事件建模 —— 通過視覺輸入、文本指令和已有事件預測下一個事件

圖片

I:文本指令,F:視頻幀的輸入,tk, sk 和 ck:時間戳、顯著性分數和文本描述。

我們通過條件概率分解發現,因果事件建模可表示為自回歸模型,具有特殊的 token 順序。基于這一發現,我們提出了視頻大模型 TRACE(Temporal grounding via Causal Event modeling)。而且,TRACE 還為時間和分數設計了專用的 tokenizer,就像給它們創建了特定的表征系統。這樣,模型就能更準確地理解和生成時間戳和顯著性分數了,并為每個任務設計不同的編碼器和解碼器頭,解碼器頭能根據任務自動切換,從而提高整體性能和適應性。

圖片

針對時間和分數的特殊編碼器

我們為時間和分數設計專用 tokenizer:時間用 6 位編碼(例:[10.23, 125.37]→<0><0><1><0><.><2><sep><0><1><2><5><.><4><sync>),分數用 3 位編碼(例:[4.5] →<4><.><5><sync>)。每個詞庫含 13個token,包括10個數字token以及三個特殊token:<.><sep><sync > ,通過組合實現精確數值表達。

通過切換 head 來生成不同的任務

在推理階段,模型通過 < sync > 令牌切換任務專用解碼器:依次生成時間→分數→描述,每個任務配備獨立解碼頭。<sync > 出現時自動切換解碼任務。

圖片

視頻幀的特征編碼

TRACE 使用 CLIP ViT-L 從每幀提取大量的原始 token,然后通過基于 slot 的 token 壓縮方案將每一幀壓縮為 8 個 token。這些精煉后的 token 既保留了關鍵視覺信息的完整性,又有效地將時間感知元素融入特征表征中。

圖片

訓練策略和數據

模型 backbone 模型基于 Mistral-7B 架構,分兩階段訓練:

  1. 第一階段:訓練視覺壓縮模塊 + 任務頭(抽 128 幀,學習率 1e-3)
  2. 第二階段:凍結上述模塊,專注調 LLM 基座(同抽 128 幀,學習率 5e-6)

圖片

三. 評測

zero-shot

我們在三大 zero-shot 任務測試表現:

  1. Dense video caption:Youcook2
  2. Moment retrieval:Charades-STA
  3. Video highlight detection:QVHighlights

圖片

從表中可以看出,TRACE 模型都取得了 “碾壓” 其他通用 video LLM 的效果,比 Temporal grouding LLM 有更大優勢。

Ablation study

在 zero-shot 模式下,我們測試了 causal event modeling 和 independent encoder/heads 等關鍵模塊在消融實驗下的結果,如下表所示。

圖片

實驗結果驗證了我們提出的因果事件建模以及對時間 / 分數使用獨立的編解碼器的有效性。另外,從結果中我們還可以發現,隨著采樣幀數的增加,模型的效果隨之增加。

Fine tune

在實驗中,我們還比較了 TRACE 與其他模型在 finetune 之后的效果。

圖片

在評測中,TRACE 相比 TimeChat 等模型有了巨大的提升,在 Youcook2 數據集上取得了 SOTA 效果。無論是 zero-shot 任務還是 finetune 后的效果,TRACE 都取得了優于其他模型的成績。

四.結語

總之,TRACE 用 “因果事件建模” 撕開了長視頻的迷霧,以 “任務分治” 策略破解了效率與精度的不可能。它為 AI 理解視頻的方式提供了一種新的可能 —— 不是囫圇吞棗,而是邏輯推演 。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-25 07:10:00

NumPro視頻大模型AI

2023-11-23 07:41:54

因果推斷大模型

2025-04-02 01:25:00

2023-08-14 20:18:20

模型神經元

2023-08-11 13:54:31

AI因果

2024-10-30 15:00:00

AI視頻模型

2023-03-13 08:00:00

機器學習算法

2025-04-02 08:40:00

人工智能大模型AI

2025-01-26 09:15:00

模型視頻生成AI

2023-10-07 08:28:06

語言模型代碼技術

2023-09-05 14:43:15

2023-04-27 13:46:08

語言模型ChatGPT人工智能

2024-11-04 12:48:12

2023-09-27 09:00:00

大型語言模型自然語言處理

2024-05-27 12:05:23

2025-05-20 13:02:23

2023-12-22 14:31:52

2023-05-05 13:29:04

模型推理

2024-01-15 06:15:00

模型數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲视频精品在线 | 欧美精品一区二区三区一线天视频 | 欧美福利久久 | 亚洲精品成人网 | 天天影视网天天综合色在线播放 | 岛国二区| 色伊人网 | 日韩无| 成人免费视频 | 综合久久综合久久 | 毛片在线视频 | 一级在线观看 | 亚洲永久精品国产 | 日韩毛片在线免费观看 | 亚洲一区二区免费视频 | 中文一区二区 | 91久久久久久久久 | 日本一卡精品视频免费 | 91精品国产乱码久久久久久久久 | 国产小视频在线观看 | 久久精品国产一区二区三区不卡 | 国产精品国产精品国产专区不片 | 午夜视频一区 | 国产精品99久久久精品免费观看 | 高清人人天天夜夜曰狠狠狠狠 | 国产欧美精品 | 日韩第一区| 成人高清网站 | 亚洲一区二区三区高清 | 亚洲国产福利视频 | www国产亚洲精品久久网站 | 国产东北一级毛片 | 一区二区三区在线观看视频 | 久久久精品视频一区二区三区 | 国产精品123区 | 中文字幕久久久 | 91啪亚洲精品 | 日韩欧美国产精品一区二区三区 | 欧美日本一区二区 | 成人亚洲视频 | 久久综合一区二区三区 |