成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

規(guī)模小、效率高:DeepMind推出多模態(tài)解決方案Mirasol 3B

人工智能 新聞
最近,來自 Google DeepMind 的研究團(tuán)隊(duì)將多模態(tài)模型解耦成多個(gè)獨(dú)立的、專門的自回歸模型,根據(jù)各種模態(tài)的特征來處理輸入。

多模態(tài)學(xué)習(xí)面臨的主要挑戰(zhàn)之一是需要融合文本、音頻、視頻等異構(gòu)的模態(tài),多模態(tài)模型需要組合不同來源的信號(hào)。然而,這些模態(tài)具有不同的特征,很難通過單一模型來組合。例如,視頻和文本具有不同的采樣率。

最近,來自 Google DeepMind 的研究團(tuán)隊(duì)將多模態(tài)模型解耦成多個(gè)獨(dú)立的、專門的自回歸模型,根據(jù)各種模態(tài)的特征來處理輸入。

具體來說,該研究提出了多模態(tài)模型 Mirasol3B。Mirasol3B 由時(shí)間同步模態(tài)(音頻和視頻)自回歸組件,以及用于上下文模態(tài)的自回歸組件組成。這些模態(tài)不一定在時(shí)間上對(duì)齊,但是按順序排列的。

圖片

論文地址:https://arxiv.org/abs/2311.05698

Mirasol3B 在多模態(tài)基準(zhǔn)測(cè)試中達(dá)到了 SOTA 水平,優(yōu)于規(guī)模更大的模型。通過學(xué)習(xí)更緊湊的表征,控制音頻 - 視頻特征表征的序列長(zhǎng)度,并根據(jù)時(shí)間對(duì)應(yīng)關(guān)系進(jìn)行建模,Mirasol3B 能夠有效滿足多模態(tài)輸入的高計(jì)算要求。

方法簡(jiǎn)介

Mirasol3B 是一個(gè)音頻 - 視頻 - 文本多模態(tài)模型,其中將自回歸建模解耦成時(shí)間對(duì)齊模態(tài)(例如音頻、視頻)的自回歸組件,以及針對(duì)非時(shí)間對(duì)齊的上下文模態(tài)(例如文本)的自回歸組件。Mirasol3B 使用交叉注意力權(quán)重來協(xié)調(diào)這些組件的學(xué)習(xí)進(jìn)程。這種解耦使得模型內(nèi)部的參數(shù)分布更合理,也為模態(tài)(視頻和音頻)分配了足夠的容量,并使得整體模型更加輕量。

如下圖 1 所示,Mirasol3B 主要由兩個(gè)學(xué)習(xí)組件組成:自回歸組件,旨在處理(幾乎)同步的多模態(tài)輸入,例如視頻 + 音頻,并及時(shí)組合輸入。

圖片

圖片

該研究還提出將時(shí)間對(duì)齊的模態(tài)分割成時(shí)間段,在時(shí)間段中學(xué)習(xí)音頻 - 視頻聯(lián)合表征。具體來說,該研究提出了一種名為「Combiner」的模態(tài)聯(lián)合特征學(xué)習(xí)機(jī)制。「Combiner」融合了同一時(shí)間段中的模態(tài)特征,產(chǎn)生了更緊湊的表征。

「Combiner」從原始的模態(tài)輸入中提取初級(jí)的時(shí)空表示,捕捉視頻的動(dòng)態(tài)特性,并結(jié)合與其共時(shí)的音頻特征,模型可以在不同的速率接收多模態(tài)輸入,在處理較長(zhǎng)的視頻時(shí)表現(xiàn)良好。

「Combiner」有效地滿足了模態(tài)表征既要高效又要信息量豐富的需求。它可以充分涵蓋視頻與其他同時(shí)發(fā)生的模態(tài)中的事件和活動(dòng),并能夠用于后續(xù)的自回歸模型,學(xué)習(xí)長(zhǎng)期依賴關(guān)系。

圖片

為了處理視頻和音頻信號(hào),并適應(yīng)更長(zhǎng)的視頻 / 音頻輸入,它們被分割成(在時(shí)間上大致同步)的小塊,再通過「Combiner」學(xué)習(xí)聯(lián)合視聽表示。第二個(gè)組件處理上下文,或時(shí)間上未對(duì)齊的信號(hào),如全局文本信息,這些信息通常仍然是連續(xù)的。它也是自回歸的,并使用組合的潛在空間作為交叉注意力輸入。

視頻 + 音頻學(xué)習(xí)組件有 3B 參數(shù);沒有音頻的組件是 2.9B。多半?yún)?shù)用于音頻 + 視頻自回歸模型。Mirasol3B 通常處理 128 幀的視頻,也可以處理更長(zhǎng)(例如 512 幀)的視頻。

由于設(shè)計(jì)了分區(qū)和「Combiner」的模型架構(gòu),增加更多幀,或增加塊的大小、數(shù)目等,只會(huì)使參數(shù)略有增加,解決了更長(zhǎng)視頻需要更多參數(shù)、更大的內(nèi)存的問題。

實(shí)驗(yàn)及結(jié)果

該研究在標(biāo)準(zhǔn) VideoQA 基準(zhǔn)、長(zhǎng)視頻 VideoQA 基準(zhǔn)和音頻 + 視頻基準(zhǔn)上對(duì) Mirasol3B 進(jìn)行了測(cè)試評(píng)估。

在 VideoQA 數(shù)據(jù)集 MSRVTTQA 上的測(cè)試結(jié)果如下表 1 所示,Mirasol3B 超越了目前的 SOTA 模型,以及規(guī)模更大的模型,如 PaLI-X、Flamingo。

圖片

在長(zhǎng)視頻問答方面,該研究在 ActivityNet-QA、NExTQA 數(shù)據(jù)集上對(duì) Mirasol3B 進(jìn)行了測(cè)試評(píng)估,結(jié)果如下表 2 所示:

圖片

最后,該研究選擇使用 KineticsSound、VGG-Sound、Epic-Sound 進(jìn)行音頻 - 視頻基準(zhǔn)測(cè)試,采用開放式生成評(píng)估,實(shí)驗(yàn)結(jié)果如下表 3 所示:

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2011-09-13 09:57:25

谷歌云計(jì)算

2025-05-27 08:30:00

AI多模態(tài)模型VLR1-3B

2021-07-03 08:08:25

AkamaiAccount Pro安全決策

2009-11-02 18:10:39

綜合接入解決方案

2011-08-05 17:09:48

Informatica數(shù)據(jù)復(fù)制

2014-10-16 09:32:43

Akamai

2020-03-23 16:06:11

Nutanix

2015-03-20 15:55:20

AppCan金融行業(yè)解決方案

2012-03-31 17:33:53

2015-03-09 16:51:04

PTCPTC PLM Clo

2015-02-05 20:41:49

惠普移動(dòng)辦公

2011-07-14 10:36:06

H3CZero Config

2009-04-20 16:15:59

2014-11-12 14:28:22

CA Technolo云計(jì)算

2014-12-17 09:18:29

賽門鐵克

2011-11-01 12:51:13

美信VMware

2015-03-10 09:13:36

醫(yī)療數(shù)據(jù)存儲(chǔ)解決方案華為

2011-06-03 21:07:19

飛魚星防雷

2015-03-03 10:47:06

視頻監(jiān)控解決方案昆騰公司

2010-04-19 20:59:18

IT運(yùn)維管理數(shù)據(jù)中心H3C
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 91精品国产综合久久精品图片 | 日韩欧美在线免费观看 | 五月婷婷 六月丁香 | 国产精品区二区三区日本 | 毛色毛片免费看 | 日韩一区二区在线播放 | 国产一区二区三区精品久久久 | 成人在线免费视频 | 国产精品一区二区三区久久久 | 国产福利在线视频 | 国产aa | 欧美国产日韩在线 | 国产久| 成人一区二区在线 | 欧美a在线看 | 成人精品| 色综合久久88色综合天天 | 欧美成人影院在线 | 91麻豆精品一区二区三区 | 91社区在线观看 | 国产精品成人在线播放 | 极品粉嫩国产48尤物在线播放 | 欧美综合一区二区 | 精品在线一区二区三区 | 亚洲精品一区av在线播放 | 91n成人| 日韩在线精品视频 | 伦理二区| 做a视频在线观看 | 国产一区二区av | 亚洲国产精品一区二区三区 | 蜜臀av日日欢夜夜爽一区 | www.欧美| 国产精品精品视频一区二区三区 | 日韩图区 | 蜜臀av日日欢夜夜爽一区 | 成人午夜免费福利视频 | 男人电影天堂 | 99re在线视频 | 国产免费观看视频 | 日韩精品在线一区 |