成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI解讀視頻張口就來?這種「幻覺」難題Vista-LLaMA給解決了

人工智能 新聞
Vista-LLaMA 在處理長視頻內(nèi)容方面的顯著優(yōu)勢,為視頻分析領(lǐng)域帶來了新的解決框架。

近年來,大型語言模型如 GPT、GLM 和 LLaMA 等在自然語言處理領(lǐng)域取得了顯著進(jìn)展,基于深度學(xué)習(xí)技術(shù)能夠理解和生成復(fù)雜的文本內(nèi)容。然而,將這些能力擴(kuò)展到視頻內(nèi)容理解領(lǐng)域則是一個(gè)全新的挑戰(zhàn) —— 視頻不僅包含豐富多變的視覺信息,還涉及時(shí)間序列的動(dòng)態(tài)變化,這使得大語言模型從視頻中提取信息變得更為復(fù)雜。

面對(duì)這一挑戰(zhàn),字節(jié)跳動(dòng)聯(lián)合浙江大學(xué)提出了能夠輸出可靠視頻描述的多模態(tài)大語言模型 Vista-LLaMA。Vista-LLaMA 專門針對(duì)視頻內(nèi)容的復(fù)雜性設(shè)計(jì),能夠有效地將視頻幀轉(zhuǎn)換為準(zhǔn)確的語言描述,從而極大地提高了視頻內(nèi)容分析和生成的質(zhì)量。

圖片

論文主頁:https://jinxxian.github.io/Vista-LLaMA/

圖片

圖 1

技術(shù)創(chuàng)新路徑

現(xiàn)有多模態(tài)視覺與語言模型在處理視頻內(nèi)容時(shí),通常將視頻幀轉(zhuǎn)化為一系列的視覺 token,并與語言 token 結(jié)合以生成文本。然而,隨著生成文本長度的增加,視頻內(nèi)容的影響往往逐漸減弱,導(dǎo)致生成的文本越來越多地偏離原視頻內(nèi)容,產(chǎn)生所謂的 “幻覺” 現(xiàn)象。

Vista-LLaMA 通過創(chuàng)新的方式處理視頻和文本間的復(fù)雜互動(dòng),突破了傳統(tǒng)視頻語言模型的限制。Vista-LLaMA 的核心創(chuàng)新在于其獨(dú)特的視覺與語言 token 處理方式。不同于其他模型,它通過維持視覺和語言 token 間的均等距離,有效避免了文本生成中的偏差,尤其是在長文本中更為顯著。這種方法大幅提高了模型對(duì)視頻內(nèi)容的理解深度和準(zhǔn)確性。

圖片

圖 2

Vista-LLaMA 采用了一種改良的注意力機(jī)制 —— 視覺等距離 token 注意力(EDVT),它在處理視覺與文本 token 時(shí)去除了傳統(tǒng)的相對(duì)位置編碼,同時(shí)保留了文本與文本之間的相對(duì)位置編碼。EDVT 機(jī)制通過特定的函數(shù)處理隱藏層輸入,有效區(qū)分視覺 token 來源。

圖片

具體而言,它首先對(duì)輸入進(jìn)行查詢、鍵和值的映射轉(zhuǎn)換,接著對(duì)查詢和鍵輸入應(yīng)用旋轉(zhuǎn)位置編碼(RoPE),分別計(jì)算帶 RoPE 和不帶 RoPE 的注意力權(quán)重。隨后,根據(jù)視覺 token 的存在與否合并這兩種注意力權(quán)重,通過 softmax 函數(shù)實(shí)現(xiàn)注意力的歸一化,并最終通過基于注意力權(quán)重的線性映射更新表示,生成輸出結(jié)果。這種創(chuàng)新使得多模態(tài)大語言模型能夠更加關(guān)注視頻的內(nèi)容,尤其在復(fù)雜的視頻場景中,能夠有效地捕捉關(guān)鍵視覺元素,提升了文本生成的質(zhì)量和相關(guān)性。

圖片

圖 3

同時(shí),該模型引入的序列化視覺投影器為視頻中的時(shí)間序列分析提供了新的視角,它不僅能夠處理當(dāng)前視頻幀,還能利用前一幀的信息,從而增強(qiáng)視頻內(nèi)容的連貫性和時(shí)序邏輯。

視覺投影器的作用是將視頻特征映射到語言嵌入空間,以便大型語言模型融合和處理視覺與文本輸入。如圖 4 所示,早期的視覺投影器通常使用線性層或查詢轉(zhuǎn)換器(Q-Former)直接將幀特征轉(zhuǎn)換為語言 token。然而,這些方法忽略了時(shí)間關(guān)系,限制了語言模型對(duì)視頻的全面理解。Vista-LLaMA 中引入了序列化視覺投影器,它通過線性投影層編碼視覺 token 的時(shí)間上下文,增強(qiáng)了模型對(duì)視頻動(dòng)態(tài)變化的理解能力,這對(duì)于提升視頻內(nèi)容分析的質(zhì)量至關(guān)重要。

圖片

圖 4

基準(zhǔn)測試結(jié)果

Vista-LLaMA 在多個(gè)開放式視頻問答基準(zhǔn)測試中展現(xiàn)了卓越性能。它在 NExT-QA 和 MSRVTT-QA 測試中取得了突破性成績,這兩個(gè)測試是衡量視頻理解和語言生成能力的關(guān)鍵標(biāo)準(zhǔn)。在零樣本 NExT-QA 測試中,Vista-LLaMA 實(shí)現(xiàn)了 60.7% 的準(zhǔn)確率。而在 MSRVTT-QA 測試中達(dá)到了 60.5% 的準(zhǔn)確率,超過了目前所有的 SOTA 方法。這些成績?cè)谛袠I(yè)中屬于先進(jìn)水平,顯著超越了其他 SOTA 模型,如 Video-ChatGPT 和 MovieChat。

圖片

圖 5

圖片

這些測試結(jié)果證明了 Vista-LLaMA 在視頻內(nèi)容理解和描述生成方面的高效性和精準(zhǔn)性,Vista-LLaMA 能夠準(zhǔn)確理解和描述視頻內(nèi)容,顯示了其強(qiáng)大的泛化能力。這些成績不僅展示了 Vista-LLaMA 在理解復(fù)雜視頻內(nèi)容方面的能力,還證明了其在多模態(tài)語言處理領(lǐng)域的領(lǐng)先地位。

數(shù)據(jù)集:CineClipQA

圖片

圖 6

與 Vista-LLaMA 一同提出的還有 CineClipQA 新數(shù)據(jù)集。

CineClipQA 包含了 153 個(gè)精選視頻片段,這些片段來自五部風(fēng)格和敘事手法各異的電影。每個(gè)片段代表電影情節(jié)的一個(gè)或多個(gè)獨(dú)特部分,并附有 16 個(gè)量身定制的問題,共計(jì) 2448 個(gè)問題。問題分為系統(tǒng)提示和問題兩部分:

  • 系統(tǒng)提示提供了當(dāng)前視頻片段中關(guān)鍵角色的基本信息,并在必要時(shí)為角色的初始行動(dòng)提供提示。
  • 問題主要分為五類:識(shí)別、時(shí)間性(預(yù)測)、空間性(互動(dòng))、意圖和感知。具體來說,識(shí)別包括地點(diǎn)和行動(dòng)的問題;時(shí)間性涉及下一個(gè)行動(dòng)、之前的行動(dòng)、同時(shí)發(fā)生的行動(dòng)和預(yù)測行動(dòng)的問題;空間性涉及物體與人之間的空間信息問題;意圖涉及行動(dòng)目的地三種相似問題;最后,感知檢查情感識(shí)別和詢問 “如何”(方式、態(tài)度等)。

該研究還提供了所有 16 種類型的詳細(xì)解釋和相應(yīng)案例。在 CineClipQA 數(shù)據(jù)集中,Vista-LLaMA 也表現(xiàn)出了卓越的性能。

圖片

圖 7

簡言之,Vista-LLaMA 在處理長視頻內(nèi)容方面的顯著優(yōu)勢,為視頻分析領(lǐng)域帶來了新的解決框架,推動(dòng)人工智能在視頻處理和內(nèi)容創(chuàng)作方面的發(fā)展,預(yù)示著未來多模態(tài)交互和自動(dòng)化內(nèi)容生成領(lǐng)域的廣泛機(jī)遇。

更多詳情,請(qǐng)?jiān)L問項(xiàng)目頁面 [https://jinxxian.github.io/Vista-LLaMA]。

關(guān)于字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)

智能創(chuàng)作團(tuán)隊(duì)是字節(jié)跳動(dòng)音視頻創(chuàng)新技術(shù)和業(yè)務(wù)中臺(tái),覆蓋了計(jì)算機(jī)視覺、圖形學(xué)、語音、拍攝編輯、特效、客戶端、服務(wù)端工程等技術(shù)領(lǐng)域,借助字節(jié)跳動(dòng)豐富的業(yè)務(wù)場景、基礎(chǔ)設(shè)施資源和良好的技術(shù)協(xié)作氛圍,實(shí)現(xiàn)了前沿算法 - 工程系統(tǒng) - 產(chǎn)品全鏈路的閉環(huán),旨在以多種形式向公司內(nèi)部各業(yè)務(wù)線以及外部合作客戶提供業(yè)界前沿的內(nèi)容理解、內(nèi)容創(chuàng)作、互動(dòng)體驗(yàn)與消費(fèi)的能力和行業(yè)解決方案。

目前,智能創(chuàng)作團(tuán)隊(duì)已通過字節(jié)跳動(dòng)旗下的云服務(wù)平臺(tái)火山引擎向企業(yè)開放技術(shù)能力和服務(wù)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-07-24 12:32:41

2024-08-20 07:47:12

AI零代碼網(wǎng)關(guān)

2024-12-02 11:45:48

2015-09-25 13:56:27

APM

2023-05-24 15:15:55

2025-06-13 08:06:41

2025-05-08 06:00:00

AI幻覺AI人工智能

2023-09-06 09:50:29

人工智能模型

2021-03-21 20:08:56

AI人工智能機(jī)器學(xué)習(xí)

2023-12-12 13:52:00

數(shù)據(jù)訓(xùn)練

2025-02-19 11:28:00

2023-11-17 22:55:09

量化模型

2022-04-18 14:52:13

人工智能地震監(jiān)測噪音

2023-06-16 09:45:36

AI視頻

2025-05-21 01:00:00

2019-03-22 10:29:15

ELKRedis轉(zhuǎn)換

2025-04-16 08:35:00

2025-03-05 11:09:20

2024-05-27 10:52:06

2017-02-23 10:10:32

PythonAIPyWren
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲播放一区 | 99国产精品视频免费观看一公开 | 国产精品色av | 国产精品视频专区 | 91视频在线| 亚洲三区视频 | 中文字幕一区二区三区不卡 | 日韩视频在线免费观看 | 欧美电影在线观看网站 | 国产精品成人一区二区三区 | 狠狠av | 久久精品网 | 亚洲不卡一 | 亚洲一区三区在线观看 | 毛片在线免费 | 亚洲精品国产电影 | 成在线人视频免费视频 | 欧美精品一区二区三区在线播放 | 国产亚洲www | 91se在线 | 99久久久国产精品 | 欧美日韩在线免费 | a级片在线观看 | 国产一区二区三区久久久久久久久 | 蜜桃臀av一区二区三区 | 免费观看日韩精品 | 久久精品亚洲 | 久久综合九色综合欧美狠狠 | 成人一区av | 国产成人精品一区二区三区在线观看 | 亚洲成人久久久 | 国产亚洲精品美女久久久久久久久久 | 999久久久 | 天天综合国产 | 亚洲精品成人av久久 | 久久久av | 91高清免费| 亚洲黄色av | 久久久国产精品入口麻豆 | 日本免费在线观看视频 | www狠狠爱com |