成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源視頻版GPT-4o?快速記憶,實(shí)時(shí)問答,拿下CVPR'24長(zhǎng)視頻問答競(jìng)賽冠軍

人工智能 新聞 開源
大模型產(chǎn)業(yè)發(fā)展,需要可信中立的數(shù)據(jù)深加工平臺(tái),如何填補(bǔ)空白?
  • 張顥繼:清華大學(xué)本科生,師從唐彥嵩老師,主要研究方向?yàn)橐曨l理解。
  • 王逸欽:清華大學(xué)深圳國(guó)際研究生院碩士生,師從唐彥嵩老師,主要研究方向?yàn)槎嗄B(tài)學(xué)習(xí)。
  • 唐彥嵩博士:清華大學(xué)深圳國(guó)際研究生院助理教授,主要研究方向?yàn)橛?jì)算機(jī)視覺與模式識(shí)別。
  • 劉鏞:清華大學(xué)深圳國(guó)際研究生院博士生,師從唐彥嵩老師,主要研究方向?yàn)橐曈X分割、視頻理解。
  • 馮佳時(shí)博士:字節(jié)跳動(dòng)視覺研究的負(fù)責(zé)人,他的研究領(lǐng)域包括深度學(xué)習(xí)及其在計(jì)算機(jī)視覺中的應(yīng)用。
  • 代季峰博士:清華大學(xué)電子工程系副教授,主要研究方向?yàn)橐曈X基礎(chǔ)模型與自動(dòng)駕駛。
  • 項(xiàng)目 Leader,靳瀟杰博士:現(xiàn)就職于字節(jié)跳動(dòng)美國(guó)研究院,研究方向包括多模態(tài)基礎(chǔ)模型、生成式學(xué)習(xí)、視頻編輯等。

基于 ChatGPT、LLAMA、Vicuna [1, 2, 3] 等大語言模型(Large Language Models,LLMs)的強(qiáng)大理解、生成和推理能力,多模態(tài)大模型(Large Multimodal Models,LMMs)在圖片視覺理解任務(wù)上取得了成功,如 MiniGPT-4、LLAVA [4, 5, 6] 等等。更進(jìn)一步地,一些工作將 LMM 強(qiáng)大的圖片理解能力遷移到視頻領(lǐng)域,使得視頻內(nèi)容理解和推理成為可能,例如 Video-ChatGPT、Vista-LLaMA [7, 8] 等。

然而,大多數(shù)多模態(tài)模型僅能對(duì)較短的離線視頻數(shù)據(jù)進(jìn)行文本描述或問答,對(duì)于長(zhǎng)視頻和在線視頻流的理解能力比較有限。讓模型具有理解長(zhǎng)視頻的能力是通往更智能的模型甚至達(dá)到 AGI 的路徑。這一研究空白限制了多模態(tài)大模型在許多在線場(chǎng)景中的實(shí)際應(yīng)用,如具身人工智能、智能監(jiān)控系統(tǒng)等。

針對(duì)這點(diǎn),一些工作 [9, 10] 開始研究如何增強(qiáng)對(duì)長(zhǎng)視頻的理解能力,大多基于幀采樣和特征融合的方法。然而,現(xiàn)有的方法存在以下缺點(diǎn):1) 顯存開銷和回答延遲隨輸入幀數(shù)量增長(zhǎng),這為長(zhǎng)視頻理解帶來困難,只能使用稀疏采樣等方式,而這會(huì)顯著影響模型性能。2) 無法處理在線視頻流,只能將在線視頻流進(jìn)行分段處理,難以處理新輸入的視頻片段與舊視頻片段之間的信息交互,阻礙了 LMM 對(duì)長(zhǎng)視頻流整體的理解能力。

為了解決此問題,字節(jié)跳動(dòng)聯(lián)合清華大學(xué)的研究人員仿照人類的感知和記憶機(jī)制,提出了首個(gè)針對(duì)長(zhǎng)視頻流的在線理解多模態(tài)大模型 Flash-VStream。

在具體介紹它之前,先來體驗(yàn)一下 Flash-VStream 的實(shí)時(shí)問答能力:

我們可以看到模型對(duì)長(zhǎng)視頻上下文有比較好的記憶能力,能夠給出符合視頻情景的回復(fù)。例如在 56:00 時(shí)刻提問抓取面粉(發(fā)生在十幾分鐘之前)之后主人公做了什么動(dòng)作,模型能夠迅速給出正確而詳細(xì)的回答。Flash-VStream 模型能夠處理針對(duì)大時(shí)間跨度的視頻問題,反映了模型具有高效記憶長(zhǎng)視頻視覺信息的能力。

相比之前的工作,F(xiàn)lash-VStream 的優(yōu)勢(shì)在于:

  • 能夠在線處理極長(zhǎng)的視頻流數(shù)據(jù),快速記憶重要信息,實(shí)時(shí)回答用戶提問。
  • 隨著輸入幀數(shù)量的增加,顯存開銷和回答延遲幾乎沒有變化,實(shí)現(xiàn)了高效的長(zhǎng)視頻理解。
  • 利用 STAR 記憶機(jī)制對(duì)不同粒度語義信息進(jìn)行高效融合,在多個(gè)長(zhǎng)視頻問答 benchmark 上達(dá)到 SOTA。

圖片

圖片

Flash-VStream 不僅在多個(gè)長(zhǎng)視頻理解 benchmark 上表現(xiàn)優(yōu)秀,還獲得了 CVPR'24 長(zhǎng)視頻問答競(jìng)賽 Long-Term Video Question Answering Challenge @ CVPR 2024 Workshop 的冠軍。

地址:https://sites.google.com/view/loveucvpr24/track1

更進(jìn)一步,為了支持這一研究領(lǐng)域的模型評(píng)價(jià)和改進(jìn),研究團(tuán)隊(duì)在 Ego4D [11] 和 Movienet [12] 的基礎(chǔ)上,借助 GPT-4V 構(gòu)建了一個(gè)面向在線視頻流問答場(chǎng)景的數(shù)據(jù)集 VStream-QA,它包含總計(jì) 21h 的視頻,平均長(zhǎng)度為 40min,每個(gè)問答對(duì)都基于特定的已標(biāo)注的時(shí)間區(qū)間。在評(píng)價(jià)時(shí),要求模型在多個(gè)時(shí)間點(diǎn),基于到當(dāng)時(shí)刻為止的視頻片段回答問題。

圖片


  • 項(xiàng)目主頁(yè):https://invinciblewyq.github.io/vstream-page
  • 論文鏈接:https://arxiv.org/abs/2406.08085
  • 代碼倉(cāng)庫(kù):https://github.com/IVGSZ/Flash-VStream
  • 在線體驗(yàn):https://huggingface.co/spaces/IVGSZ/Flash-VStream-demo

圖片

不同于傳統(tǒng)視頻理解 LMM,F(xiàn)lash-VStream 將視覺信息感知記憶和問答交互解耦,使用多進(jìn)程系統(tǒng)實(shí)現(xiàn)了對(duì)長(zhǎng)視頻流的實(shí)時(shí)處理。那么這項(xiàng)研究具體是如何做的呢?

模型核心:STAR 記憶機(jī)制

圖片

如論文中的框架圖所示,F(xiàn)lash-VStream 架構(gòu)十分簡(jiǎn)潔,由幀處理進(jìn)程和問題處理進(jìn)程組成,其模型包括四個(gè)主要部分:1) 預(yù)訓(xùn)練的 CLIP-ViT 視覺編碼器;2) 大語言模型;3)STAR 記憶機(jī)制;4)特征緩沖區(qū)。其中,后兩者是 Flash-VStream 的核心。STAR 記憶包括 “空間”、“時(shí)間”、“抽象”、“檢索” 四種記憶模塊,用于高效融合不同粒度的語義信息,實(shí)現(xiàn)了幀級(jí)別的信息聚合。特征緩沖區(qū)輔助檢索記憶,類似于人類回憶起印象深刻的事件一樣,從歷史視頻中檢索出關(guān)鍵信息,以提高模型對(duì)長(zhǎng)視頻中重要事件細(xì)節(jié)的理解能力。

其中,空間記憶和檢索記憶每幀具有最多的 token 數(shù)量,時(shí)間記憶次之,抽象記憶每幀僅用 1 個(gè) token 表示。這種設(shè)計(jì)高效表示了從最具體到最抽象的視覺特征。為了得到更小的特征圖,F(xiàn)lash-VStream 在空間維度使用平均池化操作。

圖片

根據(jù)研究人員的描述,STAR 記憶采用了四種簡(jiǎn)潔高效的記憶更新機(jī)制:

  • 對(duì)于空間記憶和特征緩沖區(qū),通過 FIFO(First-In-First-Out)隊(duì)列更新。隊(duì)列維護(hù)了最新的若干幀,確保模型對(duì)最新的細(xì)粒度空間信息有較強(qiáng)的感知能力。
  • 對(duì)于時(shí)間記憶,當(dāng)輸入 token 數(shù)量超過記憶容量時(shí),采用加權(quán) K-means 聚類算法進(jìn)行幀級(jí)別的特征聚合。該算法將時(shí)間記憶的 token 和新輸入的 token 一起聚類為一些簇(簇的數(shù)量就是記憶容量,簇的大小是其所包含幀的數(shù)量),并用這些簇的質(zhì)心作為新記憶,代表相應(yīng)的關(guān)鍵事件信息。這種方法可以簡(jiǎn)潔高效地存儲(chǔ)時(shí)序相關(guān)的上下文信息。
  • 對(duì)于抽象記憶,引入了語義注意力模型(Semantic Attention),將空間與時(shí)間特征抽象成最高層次的語義特征。該模型用基于注意力和動(dòng)量的方式更新抽象記憶,使其始終表示視頻級(jí)別的高層次語義信息。
  • 對(duì)于檢索記憶,通過識(shí)別關(guān)鍵幀特征進(jìn)行更新。首先從時(shí)間記憶中選擇出最大的若干簇,然后從特征緩沖區(qū)中檢索出與這些簇的質(zhì)心 L2 距離最近的幀的特征,以此作為關(guān)鍵事件的回憶,為時(shí)間記憶補(bǔ)充相應(yīng)的細(xì)粒度信息。

Flash-VStream 憑借其創(chuàng)新性的 STAR 記憶機(jī)制,不僅能夠高效融合不同粒度的語義信息,還能通過特征緩沖區(qū)的輔助,精確地回憶和檢索長(zhǎng)視頻中重要事件的細(xì)節(jié)信息,從而顯著提升模型的理解能力與性能。

VStream-QA 數(shù)據(jù)集

有了上述實(shí)現(xiàn)方案,還需要有合適的測(cè)試數(shù)據(jù)來評(píng)價(jià)模型對(duì)在線視頻流的理解能力?;仡櫖F(xiàn)有的長(zhǎng)視頻問答數(shù)據(jù)集,它們的主要目的大多是評(píng)價(jià)模型的描述性問答能力、時(shí)序理解能力、電影理解能力等,均屬于離線理解能力。并且它們的視頻平均長(zhǎng)度局限在 4 分鐘以內(nèi)。

圖片

為了解決這些問題,研究團(tuán)隊(duì)篩選了 Ego4d 和 Movienet 中的一部分視頻片段,為每個(gè)視頻片段標(biāo)注了多個(gè)問答對(duì),并標(biāo)記了答案所在的視頻區(qū)間。在測(cè)試時(shí),要求模型在多個(gè)時(shí)間點(diǎn),基于到當(dāng)時(shí)刻為止的視頻片段回答問題,以此測(cè)試模型的在線視頻流理解能力。這就是 VStream-QA 數(shù)據(jù)集,其樣例如下圖所示:

圖片

和主流的開放詞典離線視頻問答數(shù)據(jù)集相同,VStream-QA 數(shù)據(jù)集也采用基于 GPT-3.5 的評(píng)價(jià)指標(biāo)。具體來說,向 GPT-3.5 輸入問題、標(biāo)準(zhǔn)答案、模型的預(yù)測(cè)三元組,由 GPT 模型來判斷該答案是否準(zhǔn)確回答,以及可信度分?jǐn)?shù)是多少。統(tǒng)計(jì)所有問題的指標(biāo)即為準(zhǔn)確率(Acc.)和可信度分?jǐn)?shù)(Sco.)。

算法測(cè)評(píng)

研究團(tuán)隊(duì)在新提出的在線視頻流問答 Real-time VStream-QA Benchmark 上評(píng)測(cè)了 Flash-VStream 的實(shí)時(shí)視頻理解性能,包括 RVS-Ego 和 RVS-Movie 兩個(gè)子集。得益于 STAR 記憶機(jī)制的高效設(shè)計(jì),F(xiàn)lash-VStream 具有極低的回答延遲和顯存占用,并且?guī)缀醪浑S輸入幀的數(shù)量變化,為實(shí)時(shí)問答的性能提供保障。

圖片

同時(shí),為了評(píng)價(jià) Flash-VStream 模型對(duì)于離線視頻的理解能力,研究團(tuán)隊(duì)在四個(gè)離線視頻問答 Benchmark 上評(píng)測(cè)了 Flash-VStream 的視頻理解性能。此外,還在離線版 VStream-QA 數(shù)據(jù)集進(jìn)行了測(cè)試,分為 VS-Ego 和 VS-Movie 兩個(gè)子集。離線版 VStream-QA 數(shù)據(jù)集針對(duì)每個(gè)問題,只輸入該問題答案所在的視頻片段并進(jìn)行提問,相比于在線版 Real-time VStream-QA 難度較低。

圖片

在六個(gè) benchmark 的準(zhǔn)確率和可信度分?jǐn)?shù)上,F(xiàn)lash-VStream 的性能均優(yōu)于其他方法,證明其強(qiáng)大的離線視頻理解能力。

感興趣的小伙伴可以關(guān)注一波,代碼已經(jīng)開源啦~

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-08-14 14:30:00

AI訓(xùn)練

2024-06-21 13:04:43

2024-08-30 14:35:00

2025-04-08 02:26:00

2025-04-03 09:34:36

2025-05-26 09:05:00

2024-05-21 12:23:17

2024-06-05 08:29:35

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2024-05-24 15:37:42

2024-09-24 11:13:14

2024-05-14 07:20:49

模型AI

2024-09-23 15:10:00

2024-05-14 11:29:15

2024-06-07 08:25:16

2024-05-24 14:04:04

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2023-05-26 08:22:08

MySQL索引數(shù)據(jù)

2020-04-20 10:08:22

AI 代碼開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 91中文字幕| 自拍偷拍第一页 | 国产在线精品一区二区 | 久久亚洲一区二区三区四区 | 色在线免费视频 | 少妇一区二区三区 | 亚洲一区av | 久久久久久国产 | 欧美一级毛片在线播放 | 中文日韩字幕 | 亚洲三级在线观看 | 国产伦精品一区二区三区精品视频 | 亚洲大片 | 日韩黄色av | 欧美日韩国产一区二区 | 一区二区三区欧美在线 | 欧美人妇做爰xxxⅹ性高电影 | 在线中文字幕视频 | 天天色图 | 台湾佬久久 | 自拍偷拍精品 | 亚洲 自拍 另类 欧美 丝袜 | 日韩精品在线一区 | 精品国产欧美一区二区三区成人 | 成人亚洲综合 | 老外黄色一级片 | 欧美一区二区三区在线播放 | 欧美一页 | 精品国模一区二区三区欧美 | 国外激情av| 狠狠操天天干 | 91天堂| 国产一区在线免费观看 | 亚洲在线一区 | av一区二区三区四区 | 成人在线视频免费观看 | 天天操天天干天天爽 | 男女羞羞视频免费 | 精品一区电影 | 精品国产亚洲一区二区三区大结局 | 日韩一区二区黄色片 |