1億圖文對(duì)!格靈深瞳開源RealSyn數(shù)據(jù)集,CLIP多任務(wù)性能刷新SOTA
新的億級(jí)大規(guī)模圖文對(duì)數(shù)據(jù)集來了,CLIP達(dá)成新SOTA!
格靈深瞳最新發(fā)布的高質(zhì)量數(shù)據(jù)集RealSyn,不僅規(guī)模大——包含1億組圖文對(duì),而且每張圖片都同時(shí)關(guān)聯(lián)多個(gè)真實(shí)和合成文本。
所有的圖像和句子都基于冗余進(jìn)行了嚴(yán)格過濾,在確保數(shù)據(jù)質(zhì)量的同時(shí),引入基于簇的語(yǔ)義平衡采樣策略,構(gòu)建了可滿足多樣工作需求的三種規(guī)模大小的數(shù)據(jù)集:15M、30M、100M。
這下CLIP終于可以大展身手了!
RealSyn所展現(xiàn)的超強(qiáng)擴(kuò)展性,以及在視覺語(yǔ)言表征學(xué)習(xí)中極為優(yōu)越的表現(xiàn),讓模型性能在多任務(wù)中達(dá)到了新的SOTA。
目前,該數(shù)據(jù)集已全面開源,可點(diǎn)擊文末鏈接一鍵獲取~
以下是RealSyn的更多相關(guān)細(xì)節(jié)。
相關(guān)工作
大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集
近年來,多個(gè)從互聯(lián)網(wǎng)收集的大規(guī)模圖像-文本數(shù)據(jù)集陸續(xù)發(fā)布。
YFCC100M數(shù)據(jù)集提供了自 Flickr 2004 年創(chuàng)立至2014年初期照片和視頻記錄及分享演變的全面概覽。由于下載失敗和非英語(yǔ)標(biāo)題,DeCLIP重新處理 YFCC15M 數(shù)據(jù)集并提出了一個(gè)新版本。此外,LAION400M數(shù)據(jù)集包含從 Common Crawl 收集的4億個(gè)圖像-文本對(duì)并被廣泛的應(yīng)用到視覺-語(yǔ)言預(yù)訓(xùn)練。
最近還推出了幾個(gè)大規(guī)模圖文交錯(cuò)文檔數(shù)據(jù)集。OBELICS數(shù)據(jù)集使用全面的過濾策略,包括1.41億個(gè)網(wǎng)頁(yè)、3.53億張相關(guān)圖片和從 Common Crawl 提取的1150億文本標(biāo)記。
然而,由于數(shù)據(jù)格式的限制和訓(xùn)練效率的低下,圖文交錯(cuò)文檔目前不適用于視覺語(yǔ)言對(duì)比表示學(xué)習(xí)。
視覺語(yǔ)言預(yù)訓(xùn)練
作為視覺語(yǔ)言預(yù)訓(xùn)練領(lǐng)域的開創(chuàng)性工作,CLIP因其強(qiáng)大的零樣本識(shí)別能力和卓越的遷移學(xué)習(xí)表現(xiàn)而受到廣泛關(guān)注。受 CLIP 啟發(fā),近年來誕生了大量視覺-語(yǔ)言預(yù)訓(xùn)練研究。
SLIP通過結(jié)合自監(jiān)督學(xué)習(xí)與 CLIP 預(yù)訓(xùn)練提高性能。DeCLIP通過整合跨模態(tài)的多視角監(jiān)督和來自相似對(duì)的最近鄰監(jiān)督,提高了預(yù)訓(xùn)練效率。為了減輕噪聲數(shù)據(jù)的影響,ALIP引入了一種動(dòng)態(tài)樣本權(quán)重分配的門控機(jī)制。
盡管這些方法取得了顯著的進(jìn)展,但它們主要依賴于從互聯(lián)網(wǎng)上爬取的大規(guī)模圖像-文本對(duì)。最近的研究表明,隨著高質(zhì)量圖像-文本數(shù)據(jù)集的擴(kuò)展,CLIP的能力也在增強(qiáng)。因此迫切需要開發(fā)新的數(shù)據(jù)構(gòu)建范式以進(jìn)一步擴(kuò)大高質(zhì)量圖像-文本數(shù)據(jù)的規(guī)模。
合成標(biāo)題
最近的研究表明,從網(wǎng)站獲得的圖像-文本對(duì)含有內(nèi)在噪聲,這直接影響視覺-語(yǔ)言預(yù)訓(xùn)練的有效性。
為提高現(xiàn)有數(shù)據(jù)集的質(zhì)量,LaCLIP利用大型語(yǔ)言模型的上下文學(xué)習(xí)能力重寫與每張圖片相關(guān)的文本描述。CapsFusion使用大型語(yǔ)言模型精煉來自網(wǎng)絡(luò)的圖像-文本對(duì)和合成標(biāo)題信息,提高多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量。類似地,DreamLIP 使用預(yù)訓(xùn)練的大型多模態(tài)模型為3000萬張圖片生成詳細(xì)描述。
然而,這些方法主要關(guān)注合成數(shù)據(jù)的增強(qiáng),忽視了現(xiàn)實(shí)世界數(shù)據(jù)的重要性。此外,這些方法生成的合成標(biāo)題的多樣性和分布本質(zhì)上受到所用生成模型能力的限制。
RealSyn數(shù)據(jù)集
真實(shí)世界數(shù)據(jù)抽取
為了將圖文交錯(cuò)文檔轉(zhuǎn)換為視覺-語(yǔ)言表示學(xué)習(xí)的形式,團(tuán)隊(duì)建立了一個(gè)真實(shí)世界數(shù)據(jù)提取Pipeline以提取高質(zhì)量的圖像和文本。
該流程包括三個(gè)步驟:數(shù)據(jù)提取、圖像過濾和句子過濾。
- 數(shù)據(jù)提取:
團(tuán)隊(duì)使用來自OBELICS的1.18億個(gè)圖文交錯(cuò)文檔作為主要數(shù)據(jù)源。所有圖像都被提取并存儲(chǔ)在專用的圖像數(shù)據(jù)庫(kù)中,句子則使用自然語(yǔ)言工具包(NLTK)進(jìn)行分割,并存儲(chǔ)在單獨(dú)的句子數(shù)據(jù)庫(kù)中。這個(gè)過程共計(jì)從多模態(tài)文檔中抽取了3.36億張圖像和21.3億個(gè)句子。
- 圖像過濾:
在提取了3.36億張圖像后,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)兩階段的過濾過程,以提升數(shù)據(jù)質(zhì)量并降低冗余。
首先,丟棄符合以下任一條件的圖像:
- 圖像短邊長(zhǎng)度少于100像素。
- 寬高比超過3或低于1/3。
這一步去除了5100萬張低質(zhì)量圖像。
接下來,參考CLIP-CID,使用EVA02-CLIP E/14-plus模型來提取圖像嵌入,并應(yīng)用Union-Find算法來消除感知和語(yǔ)義上的冗余圖像。這一步去除了額外的8700萬張圖像,最終得到了一組精煉的1.98億張高質(zhì)量圖像數(shù)據(jù)集。
- 句子過濾:
從圖文交錯(cuò)文檔中提取了21.3億個(gè)句子后,研究人員基于質(zhì)量、語(yǔ)義和冗余進(jìn)行嚴(yán)格過濾。
首先,根據(jù)以下標(biāo)準(zhǔn)來過濾低質(zhì)量句子:
- 包含表情符號(hào)或URL;
- 句子包含少于3個(gè)或多于81個(gè)單詞;
- 根據(jù)CAT,保留至少具有C1復(fù)雜度并包含動(dòng)作的樣本。
這一階段將語(yǔ)料庫(kù)規(guī)模從21.3億減少到18.2億。
然后,對(duì)剩余的句子進(jìn)行語(yǔ)義過濾,研究人員通過信息熵來排除掉語(yǔ)義信息較少的句子:
其中,表示句子中的單詞數(shù),
表示句子
中的第
個(gè)單詞,
是整個(gè)語(yǔ)料庫(kù)中單詞
的概率。
基于人類認(rèn)知原則和經(jīng)驗(yàn),過濾掉得分低于0.3的句子。為了進(jìn)一步通過消除困難或模糊的句子來完善語(yǔ)料庫(kù),研究人員使用GTP2-large來計(jì)算每個(gè)句子的困惑度分?jǐn)?shù):
其中,表示句子中token數(shù)量,
表示給定前序tokens時(shí)第
個(gè)token的似然概率。
研究人員保留困惑度分?jǐn)?shù)在30到200之間的句子。經(jīng)過整體語(yǔ)義過濾后,語(yǔ)料庫(kù)縮減至11.6億個(gè)句子。在最后階段,類似于冗余圖像過濾,對(duì)句子進(jìn)行了感知和語(yǔ)義去重。
這一過程最終得到了一個(gè)包含大量現(xiàn)實(shí)世界知識(shí)的精煉語(yǔ)料庫(kù),共計(jì)8.4億個(gè)句子。
檢索和生成框架
在從文檔中提取高質(zhì)量圖像和句子后,團(tuán)隊(duì)提出了一個(gè)高效且可擴(kuò)展的框架,用于為每個(gè)圖像檢索多個(gè)語(yǔ)義相關(guān)文本,并利用大型語(yǔ)言模型將檢索的真實(shí)文本與細(xì)粒度的視覺信息整合,生成合成文本。
框架的架構(gòu)主要包括三個(gè)組件:文本語(yǔ)義聚類、層次化檢索和圖像語(yǔ)義增強(qiáng)生成。
- 文本語(yǔ)義聚類:
為了有效地為每個(gè)圖像檢索多個(gè)語(yǔ)義相關(guān)文本,首先使用EVA02-CLIP E/14-plus模型對(duì)所有句子進(jìn)行編碼。受Unicom啟發(fā),研究人員利用標(biāo)準(zhǔn)的K-means算法離線將8.4億個(gè)文本通過高效特征量化劃分為200萬個(gè)簇。
- 層次化檢索:
考慮到直接從8.4億個(gè)句子中檢索語(yǔ)義文本的計(jì)算開銷過高(在8個(gè)A100 GPU上超過10,000小時(shí)),團(tuán)隊(duì)設(shè)計(jì)了一種層次檢索方法來優(yōu)化計(jì)算效率。
首先執(zhí)行簇間檢索,找到每個(gè)圖像最相關(guān)的簇中心。然后,研究人員將共享相同簇中心的圖像分組,并執(zhí)行簇內(nèi)檢索,以獲取多個(gè)語(yǔ)義相關(guān)句子。
這種方法能夠在40小時(shí)內(nèi)使用8個(gè)A100 GPU完成對(duì)1.98億圖像和8.4億句子的檢索。
- 圖像語(yǔ)義增強(qiáng)生成:
盡管檢索到的真實(shí)文本表現(xiàn)出滿意的性能,但它們?cè)诓蹲郊?xì)粒度視覺語(yǔ)義方面存在限制。為了解決這個(gè)問題,團(tuán)隊(duì)引入了圖像語(yǔ)義增強(qiáng)生成模塊。
該模塊最初采用OFA模型為每張圖片生成一個(gè)簡(jiǎn)潔的標(biāo)題。然后,團(tuán)隊(duì)集成了開放集圖片標(biāo)簽?zāi)P蚏AM++,該模型提取對(duì)象檢測(cè)標(biāo)簽??紤]到RAM++僅支持4000個(gè)標(biāo)簽,研究人員通過加入額外的4000個(gè)來自真實(shí)世界句子的標(biāo)簽,將這個(gè)集合擴(kuò)展到8000個(gè)標(biāo)簽。
參考CapsFusion,團(tuán)隊(duì)利用ChatGPT4 Turbo將檢索到的真實(shí)文本與簡(jiǎn)潔標(biāo)題和圖片標(biāo)簽合并,構(gòu)建一個(gè) 10 萬條指令的數(shù)據(jù)集。隨后,使用LLaMA Factory對(duì) LLaMA3-8B模型進(jìn)行微調(diào),并部署vLLM進(jìn)行大規(guī)模推理。
最終,將1.18億多模態(tài)交錯(cuò)文檔轉(zhuǎn)換為1.98億圖文對(duì),其中每張圖片都與多個(gè)檢索到的真實(shí)文本和合成文本相關(guān)聯(lián)。
語(yǔ)義均衡采樣
為了進(jìn)一步提升數(shù)據(jù)集的質(zhì)量和多樣性,團(tuán)隊(duì)在1.98億圖文對(duì)中進(jìn)行語(yǔ)義均衡采樣。具體來說,使用EVA02-CLIP E/14-plus來編碼并計(jì)算圖像和合成文本之間的余弦相似性。
為了減少在預(yù)訓(xùn)練期間因OCR相關(guān)或不匹配對(duì)的影響,研究人員過濾掉余弦相似度高于0.61或低于0.51的2970萬對(duì)數(shù)據(jù)。受到MetaCLIP的啟發(fā),還引入了一種簡(jiǎn)單但高效的基于簇的語(yǔ)義平衡采樣策略,并將剩余的 1.683億對(duì)中的圖像嵌入聚類到100萬個(gè)中心。
為了增強(qiáng)數(shù)據(jù)集的語(yǔ)義多樣性,團(tuán)隊(duì)從超過這些閾值的簇中隨機(jī)選擇20,35和180個(gè)樣本,同時(shí)保留較小簇中的所有樣本。這種方法最終構(gòu)建了 RealSyn15M、RealSyn30M和RealSyn100M數(shù)據(jù)集。
實(shí)驗(yàn)
實(shí)現(xiàn)細(xì)節(jié)
團(tuán)隊(duì)最初從OBELICS收集了1.18億個(gè)交錯(cuò)的圖像-文本文檔作為主要數(shù)據(jù)源。并使用和
來生成簡(jiǎn)潔的標(biāo)題和語(yǔ)義標(biāo)簽。
為了驗(yàn)證數(shù)據(jù)集的性能,他們受LaCLIP的啟發(fā),預(yù)訓(xùn)練標(biāo)準(zhǔn)CLIP,監(jiān)督文本隨機(jī)從三個(gè)檢索到的真實(shí)文本和一個(gè)合成文本中選擇。
在預(yù)訓(xùn)練期間,采用AdamW作為優(yōu)化器,學(xué)習(xí)率為1e-3,權(quán)重衰減為0.2。參數(shù)和
分別設(shè)為0.9和0.98。輸入圖像尺寸為224×224,輸入文本序列長(zhǎng)度為77。溫度參數(shù)??初始化為0.07。研究人員在8×A100(80G)GPU上訓(xùn)練32個(gè)周期,batch大小為4096。
為了驗(yàn)證RealSyn數(shù)據(jù)集的有效性,團(tuán)隊(duì)將RealSyn與之前的數(shù)據(jù)集在不同模型和數(shù)據(jù)規(guī)模上進(jìn)行比較,將RealSyn15M與DeCLIP過濾的YFCC15M進(jìn)行比較。遵循ALIP的方法,還與LAION15M、LAION30M和LAION100M(從LAION400M隨機(jī)選取的子集)進(jìn)行比較。
主要結(jié)果
- 線性探測(cè):
在下表中,展示了ViT-B/32模型在20個(gè)下游數(shù)據(jù)集中的線性探測(cè)性能。
當(dāng)在1500萬規(guī)模上預(yù)訓(xùn)練時(shí),RealSyn15M在20個(gè)數(shù)據(jù)集中的16個(gè)中超過了YFCC15M,平均性能提高了6.9%。
此外,RealSyn15M在20個(gè)數(shù)據(jù)集中的18個(gè)中表現(xiàn)優(yōu)于LAION15M,平均改進(jìn)了 1.6%。當(dāng)數(shù)據(jù)集擴(kuò)展到3000萬和1億時(shí),RealSyn分別在LAION上實(shí)現(xiàn)了平均1.3%和1.4%的性能提升。
這些結(jié)果證明了RealSyn數(shù)據(jù)集在視覺-語(yǔ)言表示學(xué)習(xí)中的有效性。
- 零樣本遷移:
團(tuán)隊(duì)使用與SLIP相同的提示模板,評(píng)估了ViT-B/32模型在20個(gè)分類基準(zhǔn)測(cè)試中的零樣本遷移性能。如表所示,RealSyn15M在20個(gè)數(shù)據(jù)集中的18個(gè)上超過了YFCC15M,平均性能提高了14.3%。
與LAION15M相比,RealSyn15M在20個(gè)數(shù)據(jù)集中的18個(gè)上表現(xiàn)優(yōu)異,平均改進(jìn)了 5.2%。當(dāng)數(shù)據(jù)集規(guī)模擴(kuò)大到3000萬和1億時(shí),RealSyn分別比LAION實(shí)現(xiàn)了平均3.5%和2.3%的性能提升,凸顯了其效率和可擴(kuò)展性。
- 零樣本圖文檢索:
在表中,展示了ViT-B/32模型在不同規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練后的零樣本圖文檢索性能。
RealSyn 在所有評(píng)估指標(biāo)上均取得了優(yōu)異的結(jié)果。具體而言,RealSyn15M在Flickr30K上將召回率提高了35.8%&26%,在MSCOCO上提高了22.5%&12.6%。RealSyn30M在Flickr30K上將召回率提高了16.4%&11.6%,在MSCOCO上提高了12.3%&7.4%。
這種在跨模態(tài)檢索性能上的顯著提升表明,RealSyn數(shù)據(jù)集通過利用真實(shí)和合成文本有效地改善了視覺-語(yǔ)言表示學(xué)習(xí),從而實(shí)現(xiàn)了健壯的表示和增強(qiáng)的跨模態(tài)對(duì)齊。
- 零樣本魯棒性:
在下表中,展示了零樣本魯棒性性能。結(jié)果顯示,RealSyn顯著提升了視覺-語(yǔ)言預(yù)訓(xùn)練模型的魯棒性。
具體而言,與LAION相比,RealSyn分別在15M、30M萬和100M的數(shù)據(jù)集上平均性能提高了4.3%、4.2%和2.8%。
這一顯著的性能提升主要源自于使用檢索到的真實(shí)文本,這些文本不受生成模型限制,并且與YFCC和LAION相比具有更優(yōu)越的概念多樣性,從而大幅增強(qiáng)了模型的魯棒性。
- 通過MLLM進(jìn)行圖像描述:
圖中展示了使用不同數(shù)據(jù)集(LAION與RealSyn)訓(xùn)練的LLaVA-1.5在圖像描述性能上的表現(xiàn)。
最初,團(tuán)隊(duì)首先使用LLaVA-1.5的初始558k數(shù)據(jù)集將視覺特征映射到文本特征空間。然后,他們從LAION和RealSyn開發(fā)了一個(gè)圖像描述數(shù)據(jù)集進(jìn)行指令調(diào)優(yōu)。具體來說,從每個(gè)數(shù)據(jù)集隨機(jī)選擇100萬樣本,并進(jìn)行了兩個(gè)周期的訓(xùn)練。
由此可見,RealSyn在COCO2017和Flickr30k基準(zhǔn)測(cè)試的所有評(píng)估指標(biāo)上均顯著優(yōu)于LAION。這一顯著的性能提升證實(shí)了RealSyn數(shù)據(jù)集的更高質(zhì)量和更好的圖像-文本對(duì)齊。
分析
統(tǒng)計(jì)分析
- 基于主題的評(píng)估:
參考MMC4的方法,團(tuán)隊(duì)在隨機(jī)抽取的100萬圖像-真實(shí)文本對(duì)上運(yùn)行了LDA,涵蓋30個(gè)主題。
下圖中展示了六個(gè)主題的比例和示例:動(dòng)物、食物、飛機(jī)、花卉、汽車和地標(biāo)。值得注意的是,數(shù)據(jù)集中與“花卉”和“汽車”主題相關(guān)的樣本極少,分別僅占總數(shù)的0.4%和0.9%。
這種樣本的稀缺限制了模型充分學(xué)習(xí)這些概念的能力,從而在Flower和Car數(shù)據(jù)集的線性探針和零樣本遷移評(píng)估中影響了其性能。
- 豐富性評(píng)估:
圖中展示了來自YFCC15、LAION、RealSyn-R1(檢索到的最相關(guān)真實(shí)文本)和 RealSyn-S1(基于RealSyn-R1的語(yǔ)義增強(qiáng)合成文本)的1500萬樣本的圖文相似性和文本令牌分布。
與從互聯(lián)網(wǎng)收集的數(shù)據(jù)集相比,即使在移除OCR數(shù)據(jù)之后,RealSyn仍展示出穩(wěn)健的相似性指標(biāo)。此外,檢索到的真實(shí)文本和合成文本都包含更多的詞匯量,這可以提供更豐富的文本環(huán)境,從而增強(qiáng)視覺-語(yǔ)言表示學(xué)習(xí)。
- 多樣性評(píng)估:
RealSyn是基于現(xiàn)實(shí)世界中交錯(cuò)的圖文文件構(gòu)建的,包含了廣泛的多樣性信息。遵循之前的研究,團(tuán)隊(duì)隨機(jī)選擇了20萬樣本來計(jì)算標(biāo)題中獨(dú)特實(shí)體的數(shù)量,以評(píng)估不同數(shù)據(jù)集的數(shù)據(jù)多樣性。
如圖所示,檢索到的真實(shí)文本和圖像語(yǔ)義增強(qiáng)的合成文本均展示了更高數(shù)量的不同實(shí)體。這種多樣性豐富了數(shù)據(jù)集,有助于模型獲得全面的知識(shí),并提升了性能和魯棒性。
- 數(shù)據(jù)縮放分析:
團(tuán)隊(duì)從RealSyn數(shù)據(jù)集推導(dǎo)出數(shù)據(jù)縮放定律,證明了其在樣本規(guī)模上的可擴(kuò)展性。具體來說,他們使用提議的數(shù)據(jù)集進(jìn)行一系列視覺-語(yǔ)言預(yù)訓(xùn)練,數(shù)據(jù)集規(guī)模從12M到60M不等,并且將每個(gè)性能指標(biāo)擬合于對(duì)數(shù)函數(shù)的倒數(shù),其中訓(xùn)練樣本數(shù)為百萬。
基于這些初步實(shí)驗(yàn)的擬合結(jié)果,將每個(gè)性能規(guī)模定律外推至100M樣本,并使用RealSyn100M數(shù)據(jù)集驗(yàn)證其預(yù)測(cè)的規(guī)模趨勢(shì),如圖所示。
值得注意的是,如方程中所示的系數(shù)所指示的那樣,這些性能規(guī)律也可能表明通過團(tuán)隊(duì)提出的視覺-語(yǔ)言預(yù)訓(xùn)練范式以及多模態(tài)交錯(cuò)文檔,ViT-B/32可能達(dá)到的模型能力的上限:
- 模型縮放分析:
為了進(jìn)一步探索模型擴(kuò)展能力,研究人員在圖中展示了三種模型的下游任務(wù)性能。值得注意的是,與LAION相比,RealSyn在線性探測(cè)、零樣本遷移和魯棒性的性能曲線上顯示出更陡峭的斜率,這表明其具有更優(yōu)越的模型擴(kuò)展能力。
消融實(shí)驗(yàn)
- 語(yǔ)義平衡采樣的消融研究:
為了展示所提出的語(yǔ)義平衡采樣方法的有效性,團(tuán)隊(duì)將其與隨機(jī)采樣進(jìn)行比較。如表所示,概念平衡采樣在線性探測(cè)、零樣本遷移和魯棒性中分別提高了0.7%、1.1% 和1.0%的性能。
此外,團(tuán)隊(duì)通過將1500萬樣本聚類到100萬個(gè)中心,使用不同的采樣方法可視化數(shù)據(jù)分布。如圖所示,來自語(yǔ)義平衡采樣的分布更為平滑,有助于學(xué)習(xí)長(zhǎng)尾概念。
- 擴(kuò)展到純圖像:
研究人員發(fā)現(xiàn)本文所提出數(shù)據(jù)構(gòu)建范式除了應(yīng)用到圖文交錯(cuò)文檔以外還可以直接用于純圖像,為此他們?cè)贗mageNet上進(jìn)行實(shí)驗(yàn)。
首先從本文構(gòu)建的句子數(shù)據(jù)庫(kù)中為每個(gè)ImageNet圖像檢索語(yǔ)義相關(guān)的真實(shí)文本,并生成圖像語(yǔ)義增強(qiáng)的合成文本。然后,隨機(jī)從檢索到的真實(shí)文本和合成文本中選擇一個(gè)文本作為監(jiān)督信號(hào)來對(duì)ResNet50進(jìn)行預(yù)訓(xùn)練。
與SimCLR在相同條件下進(jìn)行比較分析顯示,使用團(tuán)隊(duì)構(gòu)建的數(shù)據(jù),在12個(gè)數(shù)據(jù)集上的線性探測(cè)平均性能提高了2.1%。
- 真實(shí)文本和合成文本消融實(shí)驗(yàn):
團(tuán)隊(duì)進(jìn)行了消融實(shí)驗(yàn)來評(píng)估真實(shí)文本和合成文本數(shù)量變化對(duì)CLIP-B/32模型性能的影響。
如表所示,真實(shí)文本量從一增加到三,模型性能得到提升,這歸功于集成了廣泛的現(xiàn)實(shí)世界知識(shí)的文本增強(qiáng)。然而,將這一數(shù)量從三增加到五時(shí),由于信息飽和和噪聲引入,性能略有下降。相反,合成文本的數(shù)量從一增加到五,性能逐漸下降,反映了噪聲引入的增加。
值得注意的是,僅使用真實(shí)文本進(jìn)行訓(xùn)練可以顯著提升性能,與使用LAION15M數(shù)據(jù)集的69.8%相比,達(dá)到了71.2%的準(zhǔn)確率,突顯了現(xiàn)實(shí)世界知識(shí)在推進(jìn)視覺-語(yǔ)言表征學(xué)習(xí)中的重要作用。
論文鏈接:https://arxiv.org/pdf/2502.12513
代碼鏈接:https://github.com/deepglint/RealSyn
項(xiàng)目鏈接:https://garygutc.github.io/RealSyn/
數(shù)據(jù)集鏈接:https://huggingface.co/datasets/Kaichengalex/RealSyn100M