成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

給語言大模型加上綜合視聽能力,達摩院開源Video-LLaMA

人工智能 新聞
Video-LLaMA 作為一個具有綜合視聽能力的大模型,在音頻視頻理解領域取得了令人印象深刻的效果。隨著研究者的不斷攻堅,以上挑戰也將逐個被克服,使得音視頻理解模型具有廣泛的實用價值。

視頻在當今社交媒體和互聯網文化中扮演著愈發重要的角色,抖音,快手,B 站等已經成為數以億計用戶的熱門平臺。用戶圍繞視頻分享自己的生活點滴、創意作品、有趣瞬間等內容,與他人互動和交流。

近期,大語言模型展現出了令人矚目的能力。我們能否給大模型裝上 “眼睛” 和 “耳朵”,讓它能夠理解視頻,陪著用戶互動呢?

從這個問題出發,達摩院的研究人員提出了 Video-LLaMA,一個具有綜合視聽能力大模型。Video-LLaMA 能夠感知和理解視頻中的視頻和音頻信號, 并能理解用戶輸入的指令,完成一系列基于音視頻的復雜任務,例如音 / 視頻描述,寫作,問答等。目前論文,代碼,交互 demo 都已開放。另外,在 Video-LLaMA 的項目主頁中,該研究團隊還提供了中文版本的模型,讓中文用戶的體驗更絲滑。

圖片

  • 論文鏈接:https://arxiv.org/abs/2306.02858
  • 代碼地址:https://github.com/DAMO-NLP-SG/Video-LLaMA


模型設計

Video-LLaMA 采用了模塊化設計原則,把視頻中的視覺和音頻模態信息映射到到大語言模型的輸入空間中,以實現跨模態指令跟隨的能力。與之前側重于靜態圖像理解的大模型研究(MiNIGPT4,LLaVA)不同,Video-LLaMA 面臨著視頻理解中的兩個挑戰:捕捉視覺中的動態場景變化和整合視聽信號。

為了捕捉視頻中的動態場景變化,Video-LLaMA 引入了一個可插拔的視覺語言分支。該分支首先使用 BLIP-2 中預訓練好的圖片編碼器得到每一幀圖像的單獨特征,再與對應的幀位置嵌入結合后,所有圖像特征被送入 Video Q-Former,Video Q-Former 將聚合幀級別的圖像表示并且生成定長的綜合視頻表征。最后采用一個線性層將視頻表征對齊到大語言模型的 embedding 空間。

圖片

至于視頻中的聲音信號,Video-LLaMA 使用音頻 - 語言分支進行處理。首先從原始視頻中均勻采樣多個時長兩秒的音頻片段,并將每個片段轉換為 128 維的梅爾頻譜圖。然后,采用強大的 ImageBind 作為音頻編碼器,單獨提取每個聲音片段的特征。在添加可學習的位置嵌入后,Audio Q-Former 將片段特征進行整體聚合,并生成固定長度的音頻特征。與視覺語言分支類似,最后采用線性層將音頻表征對齊到大語言模型的 embedding 空間。

為了減少訓練成本,Video-LLaMA 凍結了預訓練好的圖片 / 音頻編碼器,只更新了視覺和音頻分支中的以下參數:Video/Audio Q-Former,位置編碼層以及線性層(如圖 1 所示)。

為了學習視覺和文本的對齊關系,作者們首先利用大規模的視頻 - 文本數據集 (WebVid-2M) 和圖像 - 文本數據集(CC-595K)對視覺分支進行預訓練。之后,作者們利用來自 MiniGPT-4,LLaVA 的圖像指令數據集和來自 Video-Chat 的視頻指令數據集來微調,從而達到更好的跨模態指令跟隨能力。

至于音頻 - 文本對齊關系的學習,由于缺乏大規模高質量的音頻 - 文本數據,作者們采用了一種變通策略來達到這一目標。首先,音頻 - 語言分支中可學習參數的目標可以理解為將音頻編碼器的輸出與 LLM 的嵌入空間對齊。而音頻編碼器 ImageBind 具有非常強的多模態對齊能力,它能將不同模態的嵌入對齊到一個共同的空間中。因此,作者們使用視覺 - 文本數據來訓練音頻 - 語言分支,將 ImageBind 的公共嵌入空間對齊到 LLM 的文本嵌入空間,從而實現音頻模態到 LLM 文本嵌入空間對齊。通過這種巧妙的方式,Video-LLaMA 能在推理過程中展現出理解音頻的能力,即使從未接受過音頻數據的訓練。

實例展示

作者展示了 Video-LLaMA 基于視頻 / 音頻 / 圖像的對話的一些例子。 

(1)下面兩個例子展示了 Video-LLaMA 的視聽綜合感知能力,例子中的會話圍繞有聲視頻展開。在例子二中,畫面上僅僅顯示了這個演奏家,但是聲音中是觀眾的歡呼聲和掌聲,如果模型只能接受視覺信號,將無法推測到觀眾的積極響應,音頻中并沒有樂器的聲音,但畫面中出現了薩克斯,如果模型僅能接受聽覺信號,也將無法得知演奏家演奏了薩克斯。

圖片

(2)Video-LLaMA 對于靜態圖像也有較強的感知理解能力,可以完成圖片描述,問答等任務。

圖片

(3)令人驚奇的是,Video-LLaMA 能成功識別著名的地標和人物,并能進行常識性問答。比如下面 VIdeo-LLaMA 就成功識別出了白宮,并介紹了白宮的情況。又比如輸入一張龍媽和囧雪的劇照(經典影視劇《權利的游戲》中角色),VIdeo-LLaMA 不僅能夠成功識別,而且能說出他們剪不斷理還亂的關系。

圖片

圖片

(4)針對于視頻的動態事件,Video-llama 也能很好捕捉,例如噓聲的動作,小船行駛的方向。

圖片

總結

目前,音頻視頻理解依舊是一個非常復雜,尚未有成熟解決方案的研究問題,Video-LLaMA 雖然表現出了令人印象深刻的能力,作者也提到了其存在一些局限性。

(1)有限的感知能力:Video-LLaMA 的視覺聽覺能力仍然較為初級,對復雜的視覺聲音信息依然難以辨認。其中一部分原因是數據集的質量和規模還不夠好。該研究團隊正在積極構建高質量的音頻 - 視頻 - 文本對齊數據集,以增強模型的感知能力。

(2)難以處理長視頻的:長視頻 (如電影和電視節目) 包含大量的信息,對模型的推理能力和計算資源都較高。

(3)語言模型固有的幻覺問題,在 Video-LLaMA 中依然存在。

總的來說,Video-LLaMA 作為一個具有綜合視聽能力的大模型,在音頻視頻理解領域取得了令人印象深刻的效果。隨著研究者的不斷攻堅,以上挑戰也將逐個被克服,使得音視頻理解模型具有廣泛的實用價值。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-06-22 15:56:24

人工智能深度語言開源

2023-08-14 07:20:10

2021-01-13 12:39:46

科技趨勢電子器件量子霸權

2018-06-07 16:00:28

阿里巴巴語音識別開源

2023-01-11 12:48:48

AI研究

2024-07-19 13:31:41

2022-12-09 14:07:11

框架開源

2024-02-23 11:27:00

數據技術

2020-01-02 11:19:55

阿里巴巴2020科技趨勢5G

2020-12-29 09:36:57

科技趨勢阿里

2018-06-07 10:34:22

開源DFSMN語音識別

2023-07-05 09:57:11

2025-01-20 07:58:51

2021-12-02 13:43:42

達摩院AliceMind人工智能

2023-08-21 10:36:23

2024-04-19 14:52:13

MetaGPT-4模型

2023-05-08 10:14:07

模型AI

2025-05-23 08:47:00

2024-03-04 00:00:00

GemmaAI模型

2023-02-01 13:29:46

機器學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久av网| 日本午夜免费福利视频 | 精品久久香蕉国产线看观看亚洲 | 国产一区二区三区久久久久久久久 | 涩涩视频在线观看免费 | 一级黄色片网址 | 国产精品五月天 | 91精品综合久久久久久五月天 | caoporn免费在线视频 | 免费的色网站 | 久久久久国产精品一区三寸 | 五月婷婷在线播放 | 亚洲性人人天天夜夜摸 | 国产99热在线 | 成年男女免费视频网站 | av香港经典三级级 在线 | 免费黄视频网站 | 日本精品视频一区二区 | 国产精品高潮呻吟久久久久 | 特黄特黄a级毛片免费专区 av网站免费在线观看 | aaa在线 | 欧洲一区二区三区 | 观看av | 美女天天干 | 久久久精品一区二区三区 | 亚洲精品国产综合区久久久久久久 | 久久亚洲精品国产精品紫薇 | 久久com | 99久久亚洲| 日韩免费av | 中文区中文字幕免费看 | 羞羞视频在线观免费观看 | caoporn视频 | 日韩欧美国产精品 | 国产精品久久久精品 | 国产农村妇女毛片精品久久麻豆 | tube国产 | 亚洲国产精品99久久久久久久久 | 99久久精品国产一区二区三区 | 婷婷开心激情综合五月天 | 亚洲人成人一区二区在线观看 |