成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

年末重磅!ByteDance Research視頻理解大模型「眼鏡猴」正式發(fā)布

人工智能 新聞
Tarsier 在生成詳細(xì)且準(zhǔn)確的視頻描述方面超越了現(xiàn)有的閉源和開(kāi)源工作,更是在廣泛的視頻理解任務(wù)中樹(shù)立了新的標(biāo)桿。

最近,ByteDance Research 的視頻理解大模型眼鏡猴(Tarsier) 迎來(lái)了巨大更新,發(fā)布了第二代模型 Tarsier2 及相關(guān)技術(shù)報(bào)告。研究團(tuán)隊(duì)此前發(fā)布的 Tarsier-7B/34B 在視頻描述領(lǐng)域已經(jīng)是最強(qiáng)開(kāi)源模型,僅次于閉源模型 Gemini-1.5-Pro 和 GPT-4o。那么這次新版 Tarsier2 又會(huì)帶給我們什么樣的驚喜呢?

直接上強(qiáng)度!來(lái)看看 Tarsier2 對(duì)下面這兩個(gè)影視名場(chǎng)面的理解如何:

《燕子,沒(méi)有你我怎么活》

《曹操蓋飯》

可以看到,Tarsier2 不僅對(duì)于視頻中人物動(dòng)作捕捉得細(xì)致入微(如小岳岳追車(chē)、跪地,曹操蓋飯、揮手),還可以充分結(jié)合視頻中的字幕信息,從而進(jìn)一步分析人物的動(dòng)機(jī) / 心理,理解人物關(guān)系和情節(jié)發(fā)展。

既然如此復(fù)雜的影視片段能夠分析清楚,Tarsier 最擅長(zhǎng)的視頻描述任務(wù)自然也不在話下:

Tarsier2 視頻描述效果合集

無(wú)論是真人還是動(dòng)畫(huà)、橫屏還是豎屏、多場(chǎng)景還是多鏡頭,Tarsier2 總是能敏銳地捕捉視頻中的核心視覺(jué)元素動(dòng)態(tài)事件,使用簡(jiǎn)練的語(yǔ)言表述出來(lái),并且很少產(chǎn)生幻覺(jué)。這么看來(lái),Tarsier2 已經(jīng)可以和 GPT-4o 扳一扳手腕了。

圖片

“火眼金睛” 是怎么煉成的?

Tarsier2 是一個(gè) 7B 大小的輕量級(jí)模型,支持動(dòng)態(tài)分辨率,能夠看得懂長(zhǎng)達(dá)幾十分鐘的視頻,尤其擅長(zhǎng)對(duì)幾十秒的短視頻片段進(jìn)行分析。研究團(tuán)隊(duì)公開(kāi)了詳盡的技術(shù)報(bào)告,相關(guān)數(shù)據(jù)、代碼和模型也在持續(xù)開(kāi)源中:

圖片


  • 論文地址:https://arxiv.org/abs/2501.07888
  • 項(xiàng)目倉(cāng)庫(kù):https://github.com/bytedance/tarsier
  • HuggingFace:https://huggingface.co/omni-research

Tarsier2 強(qiáng)大的視頻理解能力主要得益于預(yù)訓(xùn)練后訓(xùn)練兩個(gè)階段的精益求精

預(yù)訓(xùn)練

Tarsier2 在 4000 萬(wàn)個(gè)互聯(lián)網(wǎng)視頻 - 文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。不同于文本模型只需要互聯(lián)網(wǎng)上的單語(yǔ)語(yǔ)料就可訓(xùn)練,視頻理解模型嚴(yán)重依賴高質(zhì)量的視頻 - 文本對(duì)齊數(shù)據(jù)。因此,如何大規(guī)模地獲取對(duì)齊數(shù)據(jù)是模型訓(xùn)練的最大難點(diǎn)。團(tuán)隊(duì)主要通過(guò)以下兩個(gè)途徑來(lái)解決:

  • 數(shù)據(jù)收集方面:Tarsier2 海量收集互聯(lián)網(wǎng)上的視頻 - 文本數(shù)據(jù)。這些數(shù)據(jù)分布廣泛,涵蓋電影、電視劇、短視頻等各種來(lái)源,涉及人機(jī)交互、自動(dòng)駕駛等多個(gè)領(lǐng)域。值得一提的是,Tarsier2 篩選了一大批影視劇解說(shuō)的視頻。這些視頻不僅能夠幫助模型學(xué)會(huì)簡(jiǎn)單的動(dòng)作、事件,還能輔助模型理解更高層次的情節(jié)信息。
  • 數(shù)據(jù)篩選方面:Tarsier2 設(shè)計(jì)了一套嚴(yán)謹(jǐn)?shù)牧鞒蹋瑏?lái)篩選高質(zhì)量訓(xùn)練數(shù)據(jù)。每條數(shù)據(jù)都會(huì)經(jīng)歷 “分鏡 → 過(guò)濾 → 合并” 3 個(gè)階段。“分鏡” 階段,視頻會(huì)被切分成多個(gè)單一鏡頭片段;“過(guò)濾” 階段針對(duì)不同的數(shù)據(jù)使用不同的模型過(guò)濾低質(zhì)數(shù)據(jù),如過(guò)濾掉動(dòng)態(tài)性太差的、文本和畫(huà)面無(wú)關(guān)的等;“合并” 階段再將剩下的相鄰的視頻片段合在一起,增加視頻的復(fù)雜度。

后訓(xùn)練

后訓(xùn)練分為 SFT 和 DPO 兩個(gè)階段。

SFT:這一階段,模型在人工標(biāo)注的視頻描述數(shù)據(jù)上進(jìn)行訓(xùn)練。這個(gè)階段的描述數(shù)據(jù)也是大有講究。Tarsier2 提出在視頻描述中引入針對(duì)每個(gè)子事件的具體定位信息(即明確每個(gè)事件源自哪些幀),以強(qiáng)化模型對(duì)時(shí)序信息與視覺(jué)特征的關(guān)注度,增強(qiáng)文本與視覺(jué)信號(hào)的對(duì)齊。

圖片

SFT數(shù)據(jù)樣例

DPO:這一階段,模型在自動(dòng)化構(gòu)造的正負(fù)樣本上進(jìn)行 DPO 訓(xùn)練。其中,正樣來(lái)源于模型對(duì)原始視頻的預(yù)測(cè)結(jié)果;負(fù)樣本來(lái)源于模型對(duì)經(jīng)過(guò)預(yù)先設(shè)計(jì)的隨機(jī)擾動(dòng)的視頻的預(yù)測(cè)結(jié)果。這種直觀高效的構(gòu)造方式使得模型能夠在描述視頻時(shí),“又準(zhǔn)確又全面”,減少描述中存在的幻覺(jué)。

是騾子是馬,牽出來(lái)溜溜!

俗話說(shuō),“光說(shuō)不練假把式”,Tarsier2 在多達(dá) 19 個(gè)視頻理解公開(kāi)基準(zhǔn)上進(jìn)行了性能測(cè)試,和最新最強(qiáng)的 10+ 個(gè)開(kāi)源模型(Qwen2-VL、InternVL2.5、LLaVA-Video 等)以及閉源模型(Gemini-1.5, GPT-4o)來(lái)了場(chǎng) “硬碰硬”。

Tarsier2 在包括視頻描述、短 / 長(zhǎng)視頻問(wèn)答在內(nèi)的通用視頻理解任務(wù)上表現(xiàn)亮眼。在視頻描述評(píng)測(cè)集 DREAM-1K 上,Tarsier2 相比 GPT-4o 提升 +2.8%,相比 Gemini-1.5-Pro 提升 +5.8%;在人工評(píng)估中,Tarsier2-7b 相比 GPT-4o 優(yōu)勢(shì)占比 +7.8%,相比 Gemini-1.5-Pro 優(yōu)勢(shì)占比 +12.3%。

圖片

視頻描述質(zhì)量人工評(píng)估結(jié)果

此外,Tarsier2 更是在 10+ 個(gè)視頻理解公開(kāi)榜單上,超越了 Qwen2-VL-7B、InternVL2.5-8B 等同規(guī)模的模型,取得了 SOTA 成績(jī):

圖片


Tarsier2在廣泛的視頻理解任務(wù)上樹(shù)立了新的標(biāo)桿

除了勝任各種通用視頻理解任務(wù),Tarsier2 作為基座模型在機(jī)器人、智能駕駛等下游任務(wù)場(chǎng)景中也展現(xiàn)出了極強(qiáng)的泛化能力。在機(jī)器人領(lǐng)域,Tarsier2 能為指定的任務(wù)生成詳細(xì)的步驟指令。在智能駕駛方面,Tarsier2 也能夠幫助車(chē)輛識(shí)別道路情況,并輔助進(jìn)行決策。

機(jī)器人場(chǎng)景。

智能駕駛場(chǎng)景。

向更強(qiáng)的智能進(jìn)發(fā)

Tarsier 在生成詳細(xì)且準(zhǔn)確的視頻描述方面超越了現(xiàn)有的閉源和開(kāi)源工作,更是在廣泛的視頻理解任務(wù)中樹(shù)立了新的標(biāo)桿。文本、語(yǔ)音、圖片、視頻多模態(tài)深度融合是當(dāng)下人工智能發(fā)展的核心趨勢(shì)與關(guān)鍵方向,Tarsier2 在這條道路上已經(jīng)邁出了堅(jiān)實(shí)的步伐。期待未來(lái) Tarsier2 能在多模態(tài)融合的浪潮中持續(xù)領(lǐng)航,為人工智能的發(fā)展帶來(lái)更多驚喜與突破 。


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-05-24 20:23:50

云知聲AGI大模型

2025-05-16 16:00:15

Spring AI大模型) 人工智能

2015-02-05 09:52:14

MongoDB

2024-10-09 15:06:56

2017-11-23 15:42:03

視頻

2021-07-16 09:55:37

iSQE峰會(huì)

2025-02-21 13:00:00

2020-12-07 11:22:09

私域流量運(yùn)營(yíng)

2024-03-21 10:32:55

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 天堂一区二区三区 | 国产精品久久av | 欧美日韩国产一区二区三区 | 九九免费视频 | 国产99久久久国产精品 | av大片| 亚洲欧美激情国产综合久久久 | 日日干夜夜操 | 亚洲一区二区三区四区五区中文 | 男人的天堂在线视频 | 日日淫| 久久亚洲一区二区三 | 国产一区二区免费 | 国精日本亚洲欧州国产中文久久 | 鸳鸯谱在线观看高清 | 最新黄色在线观看 | 久久精品天堂 | 一区二区三区四区视频 | 久久精品成人热国产成 | 免费看a | 免费电影av | 国产黄色小视频 | 久久综合色综合 | 国产成人精品免费视频大全最热 | 亚洲欧美日韩精品久久亚洲区 | 日韩av一区二区在线观看 | 日韩一级黄色毛片 | 91久久精品国产 | 欧美 日韩 亚洲91麻豆精品 | 91av在线视频观看 | 中文字幕1区2区3区 日韩在线视频免费观看 | 亚洲欧美一区二区三区1000 | 久久av一区二区 | 在线国产一区二区 | www视频在线观看 | japan25hdxxxx日本 做a的各种视频 | 成人在线视 | 亚洲综合一区二区三区 | av片免费| 99久久免费精品国产免费高清 | 盗摄精品av一区二区三区 |