成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4o差點沒及格!首個多任務長視頻評測基準,它有億點難

人工智能 新聞
研究進一步證明,提升上下文窗口,提升圖像理解能力,以及使用更強大的LLM Backbone對長視頻理解的性能具有顯著的提升作用。

難度大升級的多任務長視頻理解評測基準MLVU來了!

由智源聯合北郵、北大和浙大等多所高校推出。

究竟有多難呢?最終排名第一的GPT-4o單選正確率還不足65%。

圖片

而且研究發現,大部分模型的性能都會隨著視頻時長增加顯著下降。

研究進一步證明,提升上下文窗口,提升圖像理解能力,以及使用更強大的LLM Backbone對長視頻理解的性能具有顯著的提升作用。

目前相關論文及數據集已公開,具體細節下面一起看看吧~

MLVU的構建過程

當前流行的Video Benchmark主要針對短視頻設計,大部分視頻的長度都在1分鐘以內

且現有評測基準往往專注在特定領域的視頻(例如電影、第一視角)和特定的視頻評測任務(例如Captioning,Temporal Perception,Action Understanding)。

此外,現有部分長視頻理解評測任務往往只和局部幀有關,或者針對經典電影進行問答,這導致MLLMs可以直接憑借text prompt正確回答而無需對視頻進行分析。

圖片

針對以上不足,新基準MLVU從以下3個層面進行構建:

時長和來源更豐富

MLVU的視頻時長覆蓋了3分鐘到超過2小時,平均視頻時長12分鐘,極大擴展了當前流行的Video Benchmark的時長范圍。

圖片

另外,MLVU的大部分任務標注過程中進行了片段-問題對應標注。

例如,Video Summarization任務分段標注了視頻的前3分鐘,前6分鐘……

這意味著,MLLMs可以靈活地在MLVU上選擇測試不同時長情況下的長視頻理解能力。

同時,MLVU收集了包括電影、電視劇、紀錄片、卡通動畫片、監控視頻、第一視角視頻和游戲視頻等多個類型的長視頻,覆蓋了長視頻理解的多個領域范圍。

圖片

任務類別更全面

團隊針對長視頻理解設計了9類不同的任務,并進一步將任務分為三類:全面理解、單細節理解、多細節理解。

  • 全面理解任務:要求MLLMs理解和利用視頻的全局信息來解決問題
  • 單細節理解任務:要求MLLMs根據問題定位長視頻中的某一細節,并利用該細節來解決問題
  • 多細節理解任務:要去MLLMs定位和理解長視頻中的多個相關片段來完成和解決問題

此外,還包括了單項選擇題開放生成式問題,全面考察MLLMs在不同場景下的長視頻理解能力。

以下為9大任務的示例:

圖片

問題設置與答案標注更合理

為了突出新舊基準變化,直接以情節問答(Plot Question Answering)任務為例。

假如以電影、電視的角色作為問題線索來對MLLMs進行提問,舊基準的常見問題有兩種。

一是挑“經典”下手,這導致MLLMs在沒有對視頻進行分析的情況下,直接使用了自有知識回答問題。

另一部分試圖避免這個問題,但由于長視頻的復雜性,僅僅利用代詞和描述性語句來指代情節細節非常困難。

他們的問題非常寬泛或者需要在問題中額外指定具體的時間片段而不是讓MLLMs自己根據題目尋找對應細節。

圖片

MLVU通過精細的人工標注克服了這些問題。

在所有的情節問答任務中,MLVU均使用“具有詳細細節的代詞”來指代情節中的人物、事件或背景,避免了問題泄露帶來的潛在影響,MLLMs需要根據問題提供的線索識別和定位相關片段才能進一步解決問題。

此外,MLVU的Plot QA問題具備豐富的多樣性,增強了評測的合理性和可靠性。

圖片

模型在MLVU上的表現

團隊在MLVU上對20個流行的MLLM進行了評測,包括開源模型和閉源模型。

圖片

實驗結果表明,盡管GPT-4o在所有任務中均取得了第1名,但它的單選平均準確率只有64.6%。

且所有模型都在需要細粒度理解能力的任務上(單細節、多細節理解任務)表現糟糕。

此外,大部分模型的性能都會隨著視頻時長增加顯著下降。

圖片

另一明顯結論是,開源模型和閉源模型之間存在較大的差距。

開源模型中單項選擇題性能最強的InternVL-1.5單選平均準確度僅有50.4%;開放生成式題目最強的LLaMA-Vid得分僅有4.22,均遠遠落后于GPT-4o的64.6%和5.80。

不過研究發現,提升上下文窗口提升MLLM的圖像理解能力,以及使用更強大的LLM Backbone對長視頻理解的性能具有顯著的提升作用。

圖片

這揭示了未來MLLMs在提升長視頻理解能力的重要改進方向。

論文:https://arxiv.org/abs/2406.04264

項目鏈接:https://github.com/JUNJIE99/MLVU


責任編輯:張燕妮 來源: 量子位
相關推薦

2024-06-27 12:45:30

2025-01-02 11:01:45

2024-07-11 11:53:56

2024-06-17 18:06:17

2024-05-21 12:23:17

2025-02-28 09:32:00

2024-06-05 08:29:35

2024-05-20 08:20:00

OpenAI模型

2024-06-28 18:13:05

2024-07-08 08:25:00

2024-07-16 13:24:38

2024-12-26 07:10:00

2025-06-27 16:06:55

AI網絡模型

2024-05-24 14:04:04

2025-04-08 02:26:00

2023-08-24 13:59:57

模型數據

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-07-04 15:30:07

2025-03-31 08:44:00

GPT-4o模型技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久草网站 | 精品欧美乱码久久久久久1区2区 | 欧美日韩精品久久久免费观看 | 看片91 | 欧美福利专区 | 成人一区二区三区 | 日日夜精品视频 | 久久综合香蕉 | 成人欧美一区二区 | 国内精品久久久久久影视8 最新黄色在线观看 | 亚洲精品久久久一区二区三区 | 成人国产在线观看 | 波多野结衣二区 | 日韩一级| 久久免费视频在线 | 欧美一二三 | 精品视频一区二区三区四区 | 亚洲精品久久久久久久久久久 | 免费在线观看一区二区 | 91麻豆精品国产91久久久更新资源速度超快 | 全免费a级毛片免费看视频免 | 国产色婷婷精品综合在线手机播放 | caoporn免费在线视频 | 欧美日韩国产精品一区二区 | 久久久久九九九女人毛片 | 国产在线精品一区二区 | 午夜理伦三级理论三级在线观看 | 99热精品国产 | 男人av在线播放 | 国产日韩精品视频 | 中文字幕一区二区三区四区五区 | 狠狠干影院 | 国产福利小视频 | 久久免费高清 | 国产欧美一区二区三区久久人妖 | 99热这里 | 韩日在线观看视频 | 国产xxxx搡xxxxx搡麻豆 | 久久精品久久久久久 | 九九热在线视频免费观看 | 亚洲综合一区二区三区 |