成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

突破短視頻局限!MMBench 團(tuán)隊(duì)構(gòu)建中長視頻開放問答評(píng)測(cè)基準(zhǔn),全面評(píng)估多模態(tài)大模型視頻理解能力

人工智能 新聞
MMBench-Video是一個(gè)針對(duì)視頻理解任務(wù)設(shè)計(jì)的全新長視頻、多鏡頭基準(zhǔn),涵蓋了廣泛的視頻內(nèi)容和細(xì)粒度能力評(píng)估。

GPT-4o 四月發(fā)布會(huì)掀起了視頻理解的熱潮,而開源領(lǐng)軍者Qwen2也對(duì)視頻毫不手軟,在各個(gè)視頻評(píng)測(cè)基準(zhǔn)上狠狠秀了一把肌肉。

但當(dāng)前的大部分評(píng)測(cè)基準(zhǔn)仍然具有以下幾個(gè)缺陷:

  • 多注重于短視頻,視頻長度或視頻鏡頭數(shù)不足,難以考察到模型的長時(shí)序理解能力;
  • 對(duì)模型的考察局限在部分較為簡(jiǎn)單的任務(wù),更多細(xì)粒度的能力未被大部分基準(zhǔn)所涉及到
  • 現(xiàn)有的基準(zhǔn)仍可以僅憑單幀圖像以獲取較高的分?jǐn)?shù),說明問題和畫面的時(shí)序性關(guān)聯(lián)不強(qiáng)
  • 對(duì)開放性問題的評(píng)估仍舊采用較舊的GPT-3.5,打分和人類偏好有較大的偏差且并不準(zhǔn)確,容易高估模型性能。

針對(duì)這些問題,有沒有對(duì)應(yīng)的基準(zhǔn)能夠較好解決這些問題呢?

在最新的NeurIPS D&B 2024中由浙江大學(xué)聯(lián)合上海人工智能實(shí)驗(yàn)室,上海交通大學(xué)和香港中文大學(xué)提出的MMBench-Video打造了一個(gè)全面的開放性視頻理解評(píng)測(cè)基準(zhǔn),并針對(duì)當(dāng)前主流MLLM構(gòu)建了開源的視頻理解能力評(píng)估榜單。

圖片

全能力鏈條覆蓋高質(zhì)量數(shù)據(jù)集

圖片

MMBench-Video這一視頻理解評(píng)測(cè)基準(zhǔn)采取全人工標(biāo)注,歷經(jīng)一次標(biāo)注和二次質(zhì)量核驗(yàn),視頻種類豐富且質(zhì)量高,問答涵蓋模型能力全面,準(zhǔn)確回答問題需要橫跨時(shí)間維度對(duì)信息進(jìn)行提取,更好的考察了模型的時(shí)序理解能力。

圖片

與其他數(shù)據(jù)集相比,MMBench-Video具有如下幾個(gè)突出特點(diǎn):

視頻時(shí)長跨度較廣,鏡頭數(shù)多變:采集的視頻時(shí)長從30秒到6分鐘不等,避免了過短視頻語意信息簡(jiǎn)單,過長視頻評(píng)測(cè)帶來的資源消耗大等問題。同時(shí)視頻涵蓋的鏡頭數(shù)整體呈長尾分布,一個(gè)視頻最多具有210個(gè)鏡頭,包含了豐富的場(chǎng)景與語境信息。

圖片

全方位能力大考,感知與推理的全面挑戰(zhàn):模型的視頻理解能力主要包含感知推理兩個(gè)部分,每個(gè)部分能力可以再額外進(jìn)行細(xì)化。受MMBench啟發(fā)并結(jié)合視頻理解所涉及到的具體能力,研究者建立了一個(gè)包含26個(gè)細(xì)粒度能力的綜合能力譜系,每個(gè)細(xì)粒度能力都用數(shù)十到數(shù)百個(gè)問答對(duì)進(jìn)行評(píng)估,且并不為現(xiàn)有任務(wù)的集合。

視頻種類豐富,問答語言多樣性強(qiáng):覆蓋了人文、體育、科教、美食、金融等16個(gè)主要領(lǐng)域,每個(gè)領(lǐng)域視頻均占到5%以上。同時(shí)問答對(duì)相比傳統(tǒng)VideoQA數(shù)據(jù)集有了進(jìn)一步的長度及語意豐富度提升,不局限于’what’’when’等簡(jiǎn)單問題類型。

圖片

時(shí)序獨(dú)立性佳,標(biāo)注質(zhì)量高:在研究中發(fā)現(xiàn),大部分VideoQA數(shù)據(jù)集能夠僅通過視頻內(nèi)的1幀獲得充足的信息,從而進(jìn)行準(zhǔn)確的回答。這可能是因?yàn)橐曨l內(nèi)前后畫面變化較小,視頻鏡頭少,也可能是因?yàn)閱柎饘?duì)質(zhì)量較低。研究者將這一情況稱之為數(shù)據(jù)集的時(shí)序獨(dú)立性較差。與他們相比,MMBench-Video由于在標(biāo)注時(shí)給出了詳細(xì)的規(guī)則限制,且問答對(duì)經(jīng)過二次核驗(yàn),具有顯著較低的時(shí)序獨(dú)立性,能夠更好的考察模型的時(shí)序理解能力。

圖片

主流多模態(tài)大模型成績(jī)單

為了更加全面評(píng)估多個(gè)模型的視頻理解性能,MMBench-Video選取了11個(gè)代表性的視頻語言模型,6個(gè)開源圖文多模態(tài)大模型及GPT-4o等5個(gè)閉源模型進(jìn)行全面的實(shí)驗(yàn)分析。

圖片

在所有模型當(dāng)中,GPT-4o在視頻理解方面表現(xiàn)突出,同時(shí)Gemini-Pro-v1.5也展現(xiàn)出了出眾的模型性能。

令人訝異的是,現(xiàn)有的開源圖文多模態(tài)大模型在MMBench-Video上表現(xiàn)整體優(yōu)于經(jīng)過視頻-問答對(duì)微調(diào)的視頻語言模型,最優(yōu)的圖文模型VILA1.5在整體性能上超出最優(yōu)的視頻模型LLaVA-NeXT-Video近40%。

圖片

經(jīng)過進(jìn)一步探究發(fā)現(xiàn),圖文模型之所以在視頻理解上表現(xiàn)更優(yōu),可能歸因于它們?cè)谔幚盱o態(tài)視覺信息時(shí)的精細(xì)化處理能力更強(qiáng),而視頻語言模型在面向靜態(tài)圖像的感知及推理性能均有不足,進(jìn)而面對(duì)更復(fù)雜的時(shí)序推理和動(dòng)態(tài)場(chǎng)景時(shí)顯得力不從心。

這種差異揭示了現(xiàn)有視頻模型在空間和時(shí)間理解上的顯著不足,尤其是在處理長視頻內(nèi)容時(shí),其時(shí)序推理能力亟待提升。此外,圖文模型通過多幀輸入在推理上的性能提升表明,它們有潛力進(jìn)一步拓展至視頻理解領(lǐng)域,而視頻模型則需要在更廣泛的任務(wù)上加強(qiáng)學(xué)習(xí),以彌補(bǔ)這一差距。

視頻長度和鏡頭數(shù)量被認(rèn)為是影響模型性能的關(guān)鍵因素

實(shí)驗(yàn)結(jié)果表明,隨著視頻長度的增加,GPT-4o在多幀輸入下的表現(xiàn)有所下降,而開源模型如InternVL-Chat-v1.5和Video-LLaVA的表現(xiàn)相對(duì)穩(wěn)定。相比視頻長度,鏡頭數(shù)量對(duì)模型性能的影響更為顯著

當(dāng)視頻鏡頭超過50個(gè)時(shí),GPT-4o的性能下降至原始得分的75%。這表明,頻繁的鏡頭切換使得模型更難以理解視頻內(nèi)容,導(dǎo)致其表現(xiàn)下降。

圖片

除此之外,MMBench-Video還借助接口獲取到了視頻的字幕信息,從而通過文字引入了音頻模態(tài)。

在引入后,模型在視頻理解上的表現(xiàn)得到了顯著提升,當(dāng)音頻信號(hào)與視覺信號(hào)結(jié)合時(shí),模型能夠更加準(zhǔn)確地回答復(fù)雜問題。這一實(shí)驗(yàn)結(jié)果表明,字幕信息的加入能極大豐富模型的上下文理解能力,尤其是在長視頻任務(wù)中,語音模態(tài)的信息密度為模型提供了更多線索,幫助其生成更精確的回答。然而,需要注意的是,雖然語音信息可以提升模型性能,但同時(shí)也可能增加生成幻覺內(nèi)容的風(fēng)險(xiǎn)。

圖片

在裁判模型選擇方面,實(shí)驗(yàn)顯示GPT-4具備更為公正和穩(wěn)定的評(píng)分能力,其抗操縱性強(qiáng),評(píng)分不偏向于自己的回答,能夠更好地與人工評(píng)判對(duì)齊。

相比之下,GPT-3.5在評(píng)分時(shí)容易出現(xiàn)偏高的問題,導(dǎo)致最終結(jié)果的失真。與此同時(shí),開源的大語言模型,如Qwen2-72B-Instruct,也展現(xiàn)了出色的評(píng)分潛力,其在與人工評(píng)判的對(duì)齊度上表現(xiàn)突出,證明其有望成為一種高效的評(píng)估模型工具。

使用VLMEvalKit一鍵評(píng)測(cè)

MMBench-Video目前支持在VLMEvalKit中一鍵評(píng)測(cè)。

VLMEvalKit是一個(gè)專為大型視覺語言模型評(píng)測(cè)設(shè)計(jì)的開源工具包。它支持在各種基準(zhǔn)測(cè)試上對(duì)大型視覺語言模型進(jìn)行一鍵評(píng)估,無需進(jìn)行繁重的數(shù)據(jù)準(zhǔn)備工作,使評(píng)估過程更加簡(jiǎn)便。VLMEvalKit適用于圖文多模態(tài)模型及視頻多模態(tài)模型的評(píng)測(cè),支持單對(duì)圖文輸入、圖文交錯(cuò)輸入及視頻-文本輸入。它實(shí)現(xiàn)70多個(gè)基準(zhǔn)測(cè)試,覆蓋了多種任務(wù),包括但不限于圖像描述、視覺問答、圖像字幕生成等。所支持的模型及評(píng)測(cè)基準(zhǔn)正在不斷更新中。

同時(shí)基于現(xiàn)有視頻多模態(tài)模型的評(píng)測(cè)結(jié)果較為分散,難以復(fù)現(xiàn)等現(xiàn)實(shí),團(tuán)隊(duì)還建立了OpenVLM Video Leaderboard這一針對(duì)模型的綜合視頻理解能力評(píng)測(cè)榜單。OpenCompass VLMEvalKit團(tuán)隊(duì)將持續(xù)更新最新多模態(tài)大模型及評(píng)測(cè)benchmark,打造主流,開放,便捷的多模態(tài)開源評(píng)測(cè)體系。

圖片

最后總結(jié)一下,MMBench-Video是一個(gè)針對(duì)視頻理解任務(wù)設(shè)計(jì)的全新長視頻、多鏡頭基準(zhǔn),涵蓋了廣泛的視頻內(nèi)容和細(xì)粒度能力評(píng)估。

基準(zhǔn)測(cè)試包含從YouTube收集的600多個(gè)長視頻,涵蓋新聞、體育等16個(gè)主要類別,旨在評(píng)估MLLMs的時(shí)空推理能力。與傳統(tǒng)的視頻問答基準(zhǔn)不同,MMBench-Video通過引入長視頻和高質(zhì)量的人工標(biāo)注問答對(duì),彌補(bǔ)了現(xiàn)有基準(zhǔn)在時(shí)序理解和復(fù)雜任務(wù)處理方面的不足。

通過GPT-4評(píng)估模型的答案,該基準(zhǔn)展現(xiàn)了更高的評(píng)估精度和一致性,為視頻理解領(lǐng)域的模型改進(jìn)提供了有力的工具。

MMBench-Video 的推出為研究人員和開發(fā)者提供了一個(gè)強(qiáng)大的評(píng)估工具,幫助開源社區(qū)深入理解和優(yōu)化視頻語言模型的能力。

論文鏈接:https://arxiv.org/abs/2406.14515
Github鏈接:https://github.com/open-compass/VLMEvalKit
HomePage:https://mmbench-video.github.io/
MMBench-Video LeaderBoard:https://huggingface.co/spaces/opencompass/openvlm_video_leaderboard

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-17 18:06:17

2025-06-03 08:22:00

模型評(píng)估視頻

2024-11-11 08:30:00

2024-08-05 08:46:00

模型測(cè)評(píng)

2024-12-20 12:30:00

模型AI數(shù)據(jù)

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2024-10-21 13:20:00

視頻數(shù)據(jù)集

2025-05-20 13:02:23

2025-05-15 09:10:00

2022-08-11 13:37:41

多模態(tài)算法多模態(tài)網(wǎng)絡(luò)

2025-05-21 08:47:00

2025-04-07 07:55:00

視頻訓(xùn)練生成

2025-04-03 09:51:20

2025-02-27 10:08:19

2025-01-02 11:01:45

2025-03-17 08:45:00

AI模型數(shù)據(jù)

2024-01-03 17:40:49

模型AI

2017-06-27 13:38:38

互聯(lián)網(wǎng)

2017-06-27 11:42:53

互聯(lián)網(wǎng)

2024-09-18 08:15:00

模型數(shù)據(jù)AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品乱码一二三区的特点 | 少妇性l交大片免费一 | 国产免费一区二区 | 亚洲视频免费在线观看 | 国产精品午夜电影 | 色婷婷av一区二区三区软件 | 蜜桃精品噜噜噜成人av | 久久精品久久久久久 | 久久久资源 | 97视频在线观看网站 | 天天操天天操 | 欧美激情五月 | 日韩精品在线网站 | 欧美日韩午夜精品 | 成人免费在线电影 | 操操日 | 蜜桃在线一区二区三区 | 免费成人高清在线视频 | 欧美亚洲一区二区三区 | 亚洲国产一区二区视频 | 成人黄页在线观看 | 农村真人裸体丰满少妇毛片 | 亚洲五码久久 | 中文字幕久久精品 | 色约约视频| 亚洲网站在线观看 | 97人人澡人人爽91综合色 | 成人精品一区二区三区四区 | 亚洲国产成人在线视频 | 在线观看亚洲精品视频 | 亚洲一区 | 中文字幕视频免费 | 欧美freesex黑人又粗又大 | 国产亚洲精品精品国产亚洲综合 | 精品乱人伦一区二区三区 | 日韩欧美字幕 | 欧美激情在线精品一区二区三区 | 国产在线一区二区三区 | 国产一区二区三区高清 | 国产成人在线看 | 日韩在线欧美 |