「無(wú)需配對(duì)數(shù)據(jù)」就能學(xué)習(xí)！浙大等提出連接多模態(tài)對(duì)比表征C-MCR

作者：新智元 2023-11-20 08:52:46

C-MCR利用現(xiàn)有多模態(tài)對(duì)比表征間可能存在的重疊模態(tài)，來(lái)連接不同的對(duì)比表征，從而學(xué)到更多模態(tài)間的對(duì)齊關(guān)系，實(shí)現(xiàn)了在缺乏配對(duì)數(shù)據(jù)的多模態(tài)間進(jìn)行訓(xùn)練。

多模態(tài)對(duì)比表示（multi-modal contrastive representation, MCR）的目標(biāo)是將不同模態(tài)的輸入編碼到一個(gè)語(yǔ)義對(duì)齊的共享空間中。

隨著視覺(jué)-語(yǔ)言領(lǐng)域中CLIP模型的巨大成功，更多模態(tài)上的對(duì)比表征開(kāi)始涌現(xiàn)出來(lái)，并在諸多下游任務(wù)上得到了明顯的提升，但是這些方法嚴(yán)重依賴于大規(guī)模高質(zhì)量的配對(duì)數(shù)據(jù)。

為了解決這個(gè)問(wèn)題，來(lái)自浙江大學(xué)等機(jī)構(gòu)的研究人員提出了連接多模態(tài)對(duì)比表示（C-MCR），一種無(wú)需配對(duì)數(shù)據(jù)且訓(xùn)練極為高效的多模態(tài)對(duì)比表征學(xué)習(xí)方法。

論文地址：https://arxiv.org/abs/2305.14381

項(xiàng)目主頁(yè)：https://c-mcr.github.io/C-MCR/

模型和代碼地址：https://github.com/MCR-PEFT/C-MCR

該方法在不使用任何配對(duì)數(shù)據(jù)的情況下，通過(guò)樞紐模態(tài)連接不同的預(yù)訓(xùn)練對(duì)比表征，我們學(xué)習(xí)到了強(qiáng)大的音頻-視覺(jué)和3D點(diǎn)云-文本表征，并在音頻-視覺(jué)檢索、聲源定位、3D物體分類等多個(gè)任務(wù)上取得了SOTA效果。

介紹

多模態(tài)對(duì)比表示（MCR）旨在將不同模態(tài)的數(shù)據(jù)映射到統(tǒng)一的語(yǔ)義空間中。隨著CLIP在視覺(jué)-語(yǔ)言領(lǐng)域的巨大成功，學(xué)習(xí)更多模態(tài)組合之間的對(duì)比表示已成為一個(gè)熱門(mén)研究課題，吸引了越來(lái)越多的關(guān)注。

然而，現(xiàn)有多模態(tài)對(duì)比表示的泛化能力主要受益于大量高質(zhì)量數(shù)據(jù)對(duì)。這嚴(yán)重限制了對(duì)比表征在缺乏大規(guī)模高質(zhì)量數(shù)據(jù)的模態(tài)上的發(fā)展。例如，音頻和視覺(jué)數(shù)據(jù)對(duì)之間的語(yǔ)義相關(guān)性往往是模糊的，3D點(diǎn)云和文本之間的配對(duì)數(shù)據(jù)稀缺且難以獲得。

不過(guò)，我們觀察到，這些缺乏配對(duì)數(shù)據(jù)的模態(tài)組合，往往和同一個(gè)中間模態(tài)具有大量高質(zhì)量配對(duì)數(shù)據(jù)。比如，在音頻-視覺(jué)領(lǐng)域，盡管視聽(tīng)數(shù)據(jù)質(zhì)量不可靠，但音頻-文本和文本-視覺(jué)之間存在大量高質(zhì)量的配對(duì)數(shù)據(jù)。

同樣，雖然3D點(diǎn)云-文本配對(duì)數(shù)據(jù)的可用性有限，但3D點(diǎn)云-圖像和圖像-文本數(shù)據(jù)卻非常豐富。這些樞紐模態(tài)可以為模式之間建立進(jìn)一步關(guān)聯(lián)的紐帶。

考慮到具有大量配對(duì)數(shù)據(jù)的模態(tài)間往往已經(jīng)擁有預(yù)訓(xùn)練的對(duì)比表示，本文直接嘗試通過(guò)樞紐模態(tài)來(lái)將不同模態(tài)間的對(duì)比表征連接起來(lái)，從而為缺乏配對(duì)數(shù)據(jù)的模態(tài)組合構(gòu)建新的對(duì)比表征空間。

連接多模態(tài)對(duì)比表示（C-MCR）可以通過(guò)重疊模態(tài)為現(xiàn)有大量多模態(tài)對(duì)比表示構(gòu)建連接，從而學(xué)習(xí)更廣泛的模態(tài)之間的對(duì)齊關(guān)系。其中，學(xué)習(xí)過(guò)程不需要任何配對(duì)數(shù)據(jù)且極為高效。

C-MCR具有兩個(gè)關(guān)鍵優(yōu)勢(shì)：

1. 靈活性：

C-MCR能夠?yàn)槿狈χ苯优鋵?duì)配對(duì)的模態(tài)學(xué)習(xí)對(duì)比表征。從另一個(gè)視角來(lái)看，C-MCR將每個(gè)已有的多模態(tài)對(duì)比表示空間視為一個(gè)節(jié)點(diǎn)，并將不同表示空間的重疊模態(tài)視為樞紐模態(tài)。

通過(guò)連接各個(gè)孤立的多模態(tài)對(duì)比表征，我們可以靈活地?cái)U(kuò)展了獲得的多模態(tài)對(duì)齊知識(shí)，并挖掘出更廣泛模態(tài)間的對(duì)比表示。

2、高效性：

由于C-MCR僅需為已有的表征空間構(gòu)建連接，因此只用學(xué)習(xí)兩個(gè)簡(jiǎn)單的映射器，其訓(xùn)練參數(shù)和訓(xùn)練成本都是極低的。

實(shí)驗(yàn)利用文本作為樞紐連接視覺(jué)-文本（CLIP）和文本-音頻（CLAP）對(duì)比表示空間，獲得了高質(zhì)量的視覺(jué)-音頻表示。

類似地，通過(guò)使用圖像連接文本-視覺(jué)（CLIP）和視覺(jué)-3D點(diǎn)云（ULIP）對(duì)比表示空間，也可以獲得一組3D點(diǎn)云-文本對(duì)比表示。

方法

圖1 (a) 介紹了C-MCR的算法流程（以使用文本連接CLIP和CLAP為例）。

文本（重疊模態(tài)）的數(shù)據(jù)分別被CLIP和CLAP的文本編碼器編碼為文本特征：、。

同時(shí)，大量非配對(duì)單模態(tài)數(shù)據(jù)也分別被編碼到CLIP和CLAP空間，構(gòu)成image memory 和 audio memory

1. 特征語(yǔ)義增強(qiáng)

我們首先提出從語(yǔ)義一致性和語(yǔ)義完整性兩個(gè)角度來(lái)增強(qiáng)表征中的語(yǔ)義信息，從而實(shí)現(xiàn)更魯棒更全面的空間連接。

模態(tài)間語(yǔ)義一致性

CLIP和CLAP分別已經(jīng)學(xué)到了可靠的對(duì)齊的圖像-文本和文本-音頻表征。

我們利用CLIP和CLAP中這種內(nèi)在的模態(tài)對(duì)齊性來(lái)生成與第i個(gè)文本語(yǔ)義一致的圖像和音頻特征，從而更好地量化對(duì)比表征空間中的modality gap以及更直接的挖掘非重疊模態(tài)間的關(guān)聯(lián)性：

模態(tài)內(nèi)語(yǔ)義完整性

不同表征空間對(duì)于數(shù)據(jù)的語(yǔ)義表達(dá)會(huì)有不同的傾向性，因此不同空間下的同一個(gè)文本也會(huì)不可避免的存在語(yǔ)義偏差和丟失。在連接表示空間時(shí)，這種語(yǔ)義偏差會(huì)被累積并且放大。

為了增強(qiáng)每個(gè)表征的語(yǔ)義完整性，我們提出將零均值高斯噪聲添加到表征中，并將它們重新歸一化為單位超球面上：

如圖1 (c) 中所示，在對(duì)比表征空間中，每個(gè)表征可以看代表是在單位超球面上的一個(gè)點(diǎn)。添加高斯噪聲并重新歸一化則使表征能夠代表了單位球面上的一個(gè)圓。

因?yàn)閮蓚€(gè)特征的空間距離越接近，其語(yǔ)義相似度也越高。所以圓內(nèi)的特征都具有相似語(yǔ)義，圓所能表示的語(yǔ)義更加完整。

2. Inter-MCR的對(duì)齊

完成表征語(yǔ)義增強(qiáng)后，我們學(xué)習(xí)兩個(gè)映射器和來(lái)分別將CLIP和CLAP表征重新映射到一個(gè)新的共享空間：

新空間需要確保來(lái)自不同空間的語(yǔ)義相似的表征彼此接近。

來(lái)源于同一文本的 (,) 是天然語(yǔ)義一致的，可以被看做真實(shí)標(biāo)簽對(duì)，而源自于 (,) 的 (,) 可以被視為偽標(biāo)簽對(duì)。

(,) 之間的語(yǔ)義高度一致，但從它們中學(xué)習(xí)到的連接對(duì)于音頻-視覺(jué)來(lái)說(shuō)是間接的。而(,)對(duì)的語(yǔ)義一致性雖然不太可靠，但其更直接地有利于音頻-視覺(jué)表征。

為了更全面地連接兩個(gè)對(duì)比表征空間，我們同時(shí)對(duì)齊 (,) 和 (,)：

3. Intra-MCR的對(duì)齊

除了空間之間的連接，對(duì)比表征空間內(nèi)部還存在著modality gap的現(xiàn)象。即在對(duì)比表征空間中，不同模態(tài)的表征雖然語(yǔ)義對(duì)齊，但它們分布在完全不同的子空間中。這意味著從 (,) 學(xué)習(xí)到的更穩(wěn)定的連接可能不能很好的被音頻-視覺(jué)繼承。

為了解決這個(gè)問(wèn)題，我們提出重新對(duì)齊各個(gè)對(duì)比表征空間的不同模態(tài)表征。具體來(lái)說(shuō)，我們?nèi)コ龑?duì)比損失函數(shù)中的負(fù)例排斥結(jié)構(gòu)，來(lái)推導(dǎo)出用于減小modality gap的損失函數(shù)。典型的對(duì)比損失函數(shù)可以表述為：