成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「無(wú)需配對(duì)數(shù)據(jù)」就能學(xué)習(xí)!浙大等提出連接多模態(tài)對(duì)比表征C-MCR

人工智能 新聞
C-MCR利用現(xiàn)有多模態(tài)對(duì)比表征間可能存在的重疊模態(tài),來(lái)連接不同的對(duì)比表征,從而學(xué)到更多模態(tài)間的對(duì)齊關(guān)系,實(shí)現(xiàn)了在缺乏配對(duì)數(shù)據(jù)的多模態(tài)間進(jìn)行訓(xùn)練。

多模態(tài)對(duì)比表示(multi-modal contrastive representation, MCR)的目標(biāo)是將不同模態(tài)的輸入編碼到一個(gè)語(yǔ)義對(duì)齊的共享空間中。

隨著視覺(jué)-語(yǔ)言領(lǐng)域中CLIP模型的巨大成功,更多模態(tài)上的對(duì)比表征開(kāi)始涌現(xiàn)出來(lái),并在諸多下游任務(wù)上得到了明顯的提升,但是這些方法嚴(yán)重依賴于大規(guī)模高質(zhì)量的配對(duì)數(shù)據(jù)。

為了解決這個(gè)問(wèn)題,來(lái)自浙江大學(xué)等機(jī)構(gòu)的研究人員提出了連接多模態(tài)對(duì)比表示(C-MCR),一種無(wú)需配對(duì)數(shù)據(jù)且訓(xùn)練極為高效的多模態(tài)對(duì)比表征學(xué)習(xí)方法。

圖片

論文地址:https://arxiv.org/abs/2305.14381

項(xiàng)目主頁(yè):https://c-mcr.github.io/C-MCR/

模型和代碼地址:https://github.com/MCR-PEFT/C-MCR

該方法在不使用任何配對(duì)數(shù)據(jù)的情況下,通過(guò)樞紐模態(tài)連接不同的預(yù)訓(xùn)練對(duì)比表征,我們學(xué)習(xí)到了強(qiáng)大的音頻-視覺(jué)和3D點(diǎn)云-文本表征,并在音頻-視覺(jué)檢索、聲源定位、3D物體分類等多個(gè)任務(wù)上取得了SOTA效果。

介紹

多模態(tài)對(duì)比表示(MCR)旨在將不同模態(tài)的數(shù)據(jù)映射到統(tǒng)一的語(yǔ)義空間中。隨著CLIP在視覺(jué)-語(yǔ)言領(lǐng)域的巨大成功,學(xué)習(xí)更多模態(tài)組合之間的對(duì)比表示已成為一個(gè)熱門(mén)研究課題,吸引了越來(lái)越多的關(guān)注。

然而,現(xiàn)有多模態(tài)對(duì)比表示的泛化能力主要受益于大量高質(zhì)量數(shù)據(jù)對(duì)。這嚴(yán)重限制了對(duì)比表征在缺乏大規(guī)模高質(zhì)量數(shù)據(jù)的模態(tài)上的發(fā)展。例如,音頻和視覺(jué)數(shù)據(jù)對(duì)之間的語(yǔ)義相關(guān)性往往是模糊的,3D點(diǎn)云和文本之間的配對(duì)數(shù)據(jù)稀缺且難以獲得。

不過(guò),我們觀察到,這些缺乏配對(duì)數(shù)據(jù)的模態(tài)組合,往往和同一個(gè)中間模態(tài)具有大量高質(zhì)量配對(duì)數(shù)據(jù)。比如,在音頻-視覺(jué)領(lǐng)域,盡管視聽(tīng)數(shù)據(jù)質(zhì)量不可靠,但音頻-文本和文本-視覺(jué)之間存在大量高質(zhì)量的配對(duì)數(shù)據(jù)。

同樣,雖然3D點(diǎn)云-文本配對(duì)數(shù)據(jù)的可用性有限,但3D點(diǎn)云-圖像和圖像-文本數(shù)據(jù)卻非常豐富。這些樞紐模態(tài)可以為模式之間建立進(jìn)一步關(guān)聯(lián)的紐帶。

考慮到具有大量配對(duì)數(shù)據(jù)的模態(tài)間往往已經(jīng)擁有預(yù)訓(xùn)練的對(duì)比表示,本文直接嘗試通過(guò)樞紐模態(tài)來(lái)將不同模態(tài)間的對(duì)比表征連接起來(lái),從而為缺乏配對(duì)數(shù)據(jù)的模態(tài)組合構(gòu)建新的對(duì)比表征空間。

連接多模態(tài)對(duì)比表示(C-MCR)可以通過(guò)重疊模態(tài)為現(xiàn)有大量多模態(tài)對(duì)比表示構(gòu)建連接,從而學(xué)習(xí)更廣泛的模態(tài)之間的對(duì)齊關(guān)系。其中,學(xué)習(xí)過(guò)程不需要任何配對(duì)數(shù)據(jù)且極為高效。

C-MCR具有兩個(gè)關(guān)鍵優(yōu)勢(shì):

1. 靈活性:

C-MCR能夠?yàn)槿狈χ苯优鋵?duì)配對(duì)的模態(tài)學(xué)習(xí)對(duì)比表征。從另一個(gè)視角來(lái)看,C-MCR將每個(gè)已有的多模態(tài)對(duì)比表示空間視為一個(gè)節(jié)點(diǎn),并將不同表示空間的重疊模態(tài)視為樞紐模態(tài)。

通過(guò)連接各個(gè)孤立的多模態(tài)對(duì)比表征,我們可以靈活地?cái)U(kuò)展了獲得的多模態(tài)對(duì)齊知識(shí),并挖掘出更廣泛模態(tài)間的對(duì)比表示。

2、高效性:

由于C-MCR僅需為已有的表征空間構(gòu)建連接,因此只用學(xué)習(xí)兩個(gè)簡(jiǎn)單的映射器,其訓(xùn)練參數(shù)和訓(xùn)練成本都是極低的。

實(shí)驗(yàn)利用文本作為樞紐連接視覺(jué)-文本(CLIP)和文本-音頻(CLAP)對(duì)比表示空間,獲得了高質(zhì)量的視覺(jué)-音頻表示。 

類似地,通過(guò)使用圖像連接文本-視覺(jué)(CLIP)和視覺(jué)-3D點(diǎn)云(ULIP)對(duì)比表示空間,也可以獲得一組3D點(diǎn)云-文本對(duì)比表示。

方法

圖1 (a) 介紹了C-MCR的算法流程(以使用文本連接CLIP和CLAP為例)。

圖片

文本(重疊模態(tài))的數(shù)據(jù)分別被CLIP和CLAP的文本編碼器編碼為文本特征:、。

同時(shí),大量非配對(duì)單模態(tài)數(shù)據(jù)也分別被編碼到CLIP和CLAP空間,構(gòu)成image memory  和 audio memory

1. 特征語(yǔ)義增強(qiáng)

我們首先提出從語(yǔ)義一致性和語(yǔ)義完整性兩個(gè)角度來(lái)增強(qiáng)表征中的語(yǔ)義信息,從而實(shí)現(xiàn)更魯棒更全面的空間連接。

模態(tài)間語(yǔ)義一致性

CLIP和CLAP分別已經(jīng)學(xué)到了可靠的對(duì)齊的圖像-文本和文本-音頻表征。

我們利用CLIP和CLAP中這種內(nèi)在的模態(tài)對(duì)齊性來(lái)生成與第i個(gè)文本語(yǔ)義一致的圖像和音頻特征,從而更好地量化對(duì)比表征空間中的modality gap以及更直接的挖掘非重疊模態(tài)間的關(guān)聯(lián)性:

圖片

模態(tài)內(nèi)語(yǔ)義完整性

不同表征空間對(duì)于數(shù)據(jù)的語(yǔ)義表達(dá)會(huì)有不同的傾向性,因此不同空間下的同一個(gè)文本也會(huì)不可避免的存在語(yǔ)義偏差和丟失。在連接表示空間時(shí),這種語(yǔ)義偏差會(huì)被累積并且放大。

為了增強(qiáng)每個(gè)表征的語(yǔ)義完整性,我們提出將零均值高斯噪聲添加到表征中,并將它們重新歸一化為單位超球面上:

圖片

如圖1 (c) 中所示,在對(duì)比表征空間中,每個(gè)表征可以看代表是在單位超球面上的一個(gè)點(diǎn)。添加高斯噪聲并重新歸一化則使表征能夠代表了單位球面上的一個(gè)圓。

因?yàn)閮蓚€(gè)特征的空間距離越接近,其語(yǔ)義相似度也越高。所以圓內(nèi)的特征都具有相似語(yǔ)義,圓所能表示的語(yǔ)義更加完整。

2. Inter-MCR的對(duì)齊

完成表征語(yǔ)義增強(qiáng)后,我們學(xué)習(xí)兩個(gè)映射器  和  來(lái)分別將CLIP和CLAP表征重新映射到一個(gè)新的共享空間:

圖片

新空間需要確保來(lái)自不同空間的語(yǔ)義相似的表征彼此接近。

來(lái)源于同一文本的 (,) 是天然語(yǔ)義一致的,可以被看做真實(shí)標(biāo)簽對(duì),而源自于 (,) 的 (,) 可以被視為偽標(biāo)簽對(duì)。

(,) 之間的語(yǔ)義高度一致,但從它們中學(xué)習(xí)到的連接對(duì)于音頻-視覺(jué)來(lái)說(shuō)是間接的。 而(,)對(duì)的語(yǔ)義一致性雖然不太可靠,但其更直接地有利于音頻-視覺(jué)表征。

為了更全面地連接兩個(gè)對(duì)比表征空間,我們同時(shí)對(duì)齊 (,) 和 (,):

圖片

3. Intra-MCR的對(duì)齊

除了空間之間的連接,對(duì)比表征空間內(nèi)部還存在著modality gap的現(xiàn)象。即在對(duì)比表征空間中,不同模態(tài)的表征雖然語(yǔ)義對(duì)齊,但它們分布在完全不同的子空間中。這意味著從 (,) 學(xué)習(xí)到的更穩(wěn)定的連接可能不能很好的被音頻-視覺(jué)繼承。

為了解決這個(gè)問(wèn)題,我們提出重新對(duì)齊各個(gè)對(duì)比表征空間的不同模態(tài)表征。具體來(lái)說(shuō),我們?nèi)コ龑?duì)比損失函數(shù)中的負(fù)例排斥結(jié)構(gòu),來(lái)推導(dǎo)出用于減小modality gap的損失函數(shù)。典型的對(duì)比損失函數(shù)可以表述為:

圖片

我們?nèi)コ渲胸?fù)對(duì)排斥項(xiàng),最終的公式可以被簡(jiǎn)化為:

圖片

實(shí)驗(yàn)

實(shí)驗(yàn)上,我們通過(guò)使用文本連接音頻-文本空間(CLAP)和文本-視覺(jué)空間(CLIP)來(lái)獲得音頻-視覺(jué)表征,使用圖像連接3D點(diǎn)云-圖像空間(ULIP)和圖像-文本空間(CLIP)來(lái)獲得3D點(diǎn)云-文本表征。

在AVE和Flickr-SoundNet上的zero-shot 音頻圖像檢索結(jié)果如下:

圖片

在MUSIC-Solo和VGGSS上的zero-shot 聲源定位結(jié)果如下:

圖片

在Ex-VGGSS和Ex-FlickrNet上的zero-shot反事實(shí)音頻圖像識(shí)別結(jié)果如下:

圖片

在ModelNet40上的zero-shot 3D點(diǎn)云分類結(jié)果如下:

圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-11-13 09:39:13

2023-07-22 13:17:33

人工智能框架

2024-08-08 13:04:28

2023-11-09 15:10:00

訓(xùn)練數(shù)據(jù)

2023-04-13 15:25:14

模型

2023-11-13 07:51:58

ChatGPT研究

2023-05-28 23:26:16

多模態(tài)機(jī)器學(xué)習(xí)大腦

2022-05-12 13:39:48

AI研究模型

2025-04-07 04:30:00

2025-06-09 08:50:00

2025-01-20 09:43:00

AI算法

2022-07-25 15:34:01

量化仿真數(shù)據(jù)誤差內(nèi)存占用

2021-08-17 11:29:13

框架架構(gòu)開(kāi)發(fā)

2024-11-04 13:30:00

模型AI

2023-11-07 18:08:03

GPT-4模型

2022-04-12 11:35:43

IDE工具OHOS應(yīng)用鴻蒙

2023-04-28 15:24:06

模型研究

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2023-12-28 17:31:44

PixelLM性能模型

2021-11-15 10:00:22

模型人工智能NLP
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 人人种亚洲 | 精品欧美一区二区精品久久久 | 在线观看中文字幕亚洲 | 久久草在线视频 | 在线观看视频一区 | 亚洲一区二区中文字幕 | 午夜小电影 | av天天爽 | 久久中文字幕av | 午夜电影在线播放 | 日韩一级黄色片 | 成人美女免费网站视频 | 337p日本欧洲亚洲大胆精蜜臀 | 亚洲视频 欧美视频 | 日日想夜夜操 | www日日日 | 亚洲精品2区 | 天天玩天天操天天干 | 在线免费国产 | 久久骚| 亚洲成人播放器 | 亚洲色图综合 | 91视频大全 | 久久亚洲美女 | aaa在线观看 | 中文字幕乱码一区二区三区 | 91精品国产综合久久婷婷香蕉 | 中文字幕成人在线 | 久久亚洲一区二区三区四区 | 欧美视频免费在线观看 | 欧美a v在线 | 成人在线影视 | 久久婷婷国产麻豆91 | 午夜一区二区三区在线观看 | 国产自产c区| 亚洲免费高清 | 91精品国产欧美一区二区 | 国产精品网址 | 亚洲一区二区三区在线视频 | 狠狠色香婷婷久久亚洲精品 | 国产美女精品 |