谷歌&Mistral AI發(fā)布TIPS:具有空間意識的文本-圖像預訓練(適配各種計算機視覺任務)
文章鏈接:https://arxiv.org/pdf/2410.16512
亮點直擊
- 通用圖像表示模型:TIPS 結合圖像-文本和自監(jiān)督學習的優(yōu)勢,適用于密集和全局預測任務,實現(xiàn)了廣泛的下游應用。
- 增強的文本監(jiān)督信號:利用合成生成的圖像描述標簽,提升了模型對圖像內(nèi)容和空間關系的理解,尤其有利于密集視覺任務。
- 雙重標簽對比損失:通過合成和噪聲標簽分別訓練模型,使其在密集和全局任務上均表現(xiàn)優(yōu)異。
- 空間一致性與多任務性能:TIPS 通過自蒸餾和掩碼圖像建模技術,增強了空間一致性,在 8 項任務和 16 個數(shù)據(jù)集上展示了強大的即插即用能力。
TIPS:具有空間意識的文本圖像預訓練。TIPS是一種通用的圖像-文本編碼器模型,可有效用于密集和全局理解,用于純視覺或視覺語言任務,整體應用流程見下圖:
總結速覽
解決的問題
現(xiàn)有的圖像-文本表示學習模型通常缺乏空間意識,難以直接用于密集理解任務(例如深度估計、語義分割)。因此,許多密集視覺任務仍然依賴于圖像的自監(jiān)督預訓練方法,盡管缺乏明確的監(jiān)督信號。
提出的方案
提出了一種新穎的通用圖像-文本模型,稱為 TIPS(Text-Image Pretraining with Spatial awareness),通過加入空間意識來提升圖像-文本學習的效果,使其能夠在密集和全局視覺任務中直接應用。
應用的技術
- 文本監(jiān)督改進:使用合成生成的文本描述代替噪聲較大的網(wǎng)絡圖像描述,提供更豐富的空間表示學習信號;并通過一種新的訓練方法,將噪聲與合成文本描述結合,提升密集與全局理解任務的效果。
- 學習技術:結合對比圖像-文本學習與自監(jiān)督的圖像掩碼建模,增強空間一致性,以提高模型在下游應用中的性能。
達到的效果
基于上述策略,構建了基于Transformer的模型,使用公共圖像數(shù)據(jù)集進行訓練,實驗證明該模型在8項任務和16個數(shù)據(jù)集上表現(xiàn)優(yōu)異,具有強大的密集和全局理解的即插即用能力,并適用于多種圖像-文本及僅圖像的任務。
TIPS
本文的目標是創(chuàng)建一個通用的圖像表示模型,具備文本對齊功能,可即插即用地應用于密集和全局視覺任務。雖然圖像-文本對比技術能夠有效地建模全局圖像信息,但在密集理解任務中表現(xiàn)欠佳,而自監(jiān)督模型目前在這些任務中表現(xiàn)更優(yōu)。為彌補這一差距,本文提出了具備空間感知的圖像-文本預訓練方法(TIPS),如下圖2所示,通過合成圖像描述增強弱監(jiān)督,以及自監(jiān)督掩碼建模,顯著提高了圖像特征質量,適用于密集和全局理解。
使用合成圖像描述增強弱監(jiān)督
使用大規(guī)模網(wǎng)絡數(shù)據(jù)進行標準圖像-文本學習的一個限制在于描述質量,這些描述往往噪聲較大,可能無法準確描述圖像。如下圖3(上)所示,“for sale dealership $30k”這一文本未描述圖像內(nèi)容。雖然這可能會影響模型學習,但描述仍捕捉到了主要物體。
然而觀察到的一個更深層問題是,這些描述通常僅提到顯著的物體,而未描述其在場景中的布局。換句話說,這些描述通常作為噪聲的圖像級監(jiān)督,通常對學習具有空間感知的表示用處不大。這促使研究合成描述的自動生成,其可作為密集任務的有效預訓練弱監(jiān)督。
融合自蒸餾和掩碼以增強圖像特征
討論。本文的方法基于弱監(jiān)督和自監(jiān)督學習的表示學習理念。據(jù)所知,這是首次將對比圖文學習與自蒸餾和掩碼圖像建模結合,展示出在多個任務上的改進,表明這些目標間存在積極的協(xié)同作用。最接近的方法是 SILC,它將 CLIP 與自蒸餾結合。然而,如實驗消融顯示,添加掩碼圖像損失在密集任務中的表現(xiàn)顯著提升,對于下游應用至關重要。指出與先前方法的一些關鍵區(qū)別。由于使用 CLIP 損失,自監(jiān)督組件可以簡化,相比 DINO和 iBOT的原始形式。一大區(qū)別是使用單一全局“裁剪”,而非 DINO、iBOT 和 SILC 中的雙裁剪,提升了25%的處理效率。此外,與許多自監(jiān)督方法不同,使用相對簡單的數(shù)據(jù)增強:局部裁剪只是原始圖像的隨機裁剪,全局裁剪是更大的隨機裁剪并水平翻轉。這與 Assran 等 (2023); Moutakanni 等 (2024) 的觀點相似,即復雜的增強可能對于表示學習并非必要。最后,本文的掩碼方法為隨機掩碼,而非 iBOT 中的塊狀掩碼。
擴展 TIPS
本文的目標是創(chuàng)建一個高度通用的模型,因此關鍵是將其擴展到大模型架構和大規(guī)模訓練數(shù)據(jù)集,以獲得增強的圖像表示。
模型。ViT 架構已證明在多個任務中可擴展到十億級參數(shù)的模型。將 TIPS 模型擴展至 ViT-g 架構,采用14的補丁大小,并使用 SwiGLU前饋網(wǎng)絡變體。類似于 Oquab 等,將嵌入維度調整為1536,并設置24個頭。這樣,使得圖像編碼器與 DINOv2-g 直接可比,總參數(shù)量達1.1B。在文本側,將 transformer 擴展到12層,具有與圖像編碼器相同的嵌入維度和頭數(shù)。
數(shù)據(jù)集。利用了 WebLI 數(shù)據(jù)集 ,這是一個包含公共圖像及其 alt 文本的大規(guī)模、噪聲較大的網(wǎng)絡數(shù)據(jù)集,總共包含 100 億對圖文樣本。通過多輪過濾來提升數(shù)據(jù)集質量,從而更適合模型訓練,類似于先前在語言和視覺領域的研究。首先,根據(jù)預訓練對齊模型計算的圖文相似度,對圖文對進行內(nèi)容過濾,丟棄那些相似度低的樣本,類似于 Schuhmann et al. 。然后,篩選僅包含英文描述的樣本。這兩個步驟得到一個包含 17 億張圖像的數(shù)據(jù)集。最后,參考先前研究 的方法,使用預訓練模型計算圖像嵌入,從經(jīng)過策劃的數(shù)據(jù)集中選擇足夠相似的圖像。還刪除了在評估數(shù)據(jù)集中出現(xiàn)的近重復圖像。該過程最終生成了一個包含 1.16 億對圖文樣本的主要預訓練數(shù)據(jù)集。
實驗
實驗設置
評估數(shù)據(jù)集與協(xié)議。本文的模型在包含 16 個數(shù)據(jù)集的 8 項任務上進行評估,包括僅圖像任務和圖文任務。在各種條件下全面評估所學習的表示的質量,涵蓋室內(nèi)/室外場景和以物體為中心的圖像。在所有評估中,保持圖文表示凍結,以評估其作為即用型特征提取器的適用性。評估了 3 項密集預測任務、2 項全局圖像理解任務和 3 項多模態(tài)檢索任務。
語義分割 是在 PASCAL和 ADE20k數(shù)據(jù)集上使用平均交并比(mIoU)評估的密集任務。使用類似于 (Oquab et al., 2024) 的簡單線性探測設置,從空間特征中預測類別。
單目深度估計 旨在預測圖像中每個像素的深度值。在場景中心的 NYUv2和以物體為中心的 NAVI數(shù)據(jù)集上對深度估計進行基準測試,使用 RMSE 作為評估指標。對于 NYUv2,使用類似于 (Oquab et al., 2024) 的線性探測設置,將補丁標記與全局嵌入連接,然后線性分類器在 256 個量化深度值中進行預測。對于 NAVI,遵循 (El Banani et al., 2024) 并使用 DPT解碼器。
表面法線估計 是密集預測每個像素的 3D 表面法線方向的任務,也在 NYUv2 和 NAVI 數(shù)據(jù)集上進行評估。使用 (El Banani et al., 2024) 的設置并報告角度 RMSE。
圖像分類 在 ImageNet-1K 數(shù)據(jù)集上進行評估,使用 K 最近鄰(KNN)和線性探測法基于學習的特征進行評估,并報告 top-1 準確率。
細粒度和實例級檢索 使用 Universal Embeddings Dataset (UnED) 評估,該基準集包含 8 個領域的數(shù)據(jù)集:食品 (Food2k)、汽車 (CARS196)、在線產(chǎn)品 (SOP)、服裝 (InShop)、自然世界 (iNat)、藝術品 (Met)、地標 (GLDv2) 和零售產(chǎn)品 (Rp2k)。報告 8 個領域的平均 R@1,并在附錄中提供分領域結果。
圖像到文本(I→T)檢索 使用 Flickr30K、DOCCI和 COCO數(shù)據(jù)集進行評估,報告 R@1 指標。
文本到圖像(T→I)檢索 同樣使用 Flickr30K、DOCCI 和 COCO 數(shù)據(jù)集,使用 R@1 指標。
zero-shot 分類在 ImageNet-1K 上進行,通過檢索與每個測試圖像嵌入最接近的類文本嵌入,遵循(Radford et al., 2021),并使用 top-1 準確率。使用一組策劃數(shù)據(jù)集中的圖像作為查詢,在大量網(wǎng)頁圖像中進行挖掘。遵循 DINOv2采用的步驟,使用一些評估數(shù)據(jù)集的訓練集作為策劃查詢,細節(jié)在附錄中提供。這導致了一個包含 1.16 億對圖像-文本的基于網(wǎng)頁的訓練數(shù)據(jù)集。此外,對于擴展的 ViT-g 實驗,將 Mapillary SLS 數(shù)據(jù)集的訓練集原封不動地添加到訓練集中,以補償網(wǎng)頁圖像中缺乏街景圖像,并且在沒有任何替代文本的情況下,使用生成的合成描述來訓練兩個 CLS token。這使訓練集中的圖像總數(shù)增加到 1.17 億。DINOv2 對其 LVD-142M 數(shù)據(jù)集也進行了類似的處理。
實現(xiàn)細節(jié)。對于所有模型,使用 1 個全局裁剪,分辨率為 224,和 M = 6 個局部裁剪,分辨率為 98。以批量大小 16k 訓練 ViT-B 模型 70 輪,這在 256 個 TPUv3 芯片上耗時 4 天。對于更大的 ViT-g 模型,以批量大小 16k 訓練 15 輪,這在 512 個 TPUv5 芯片上耗時 2 天,結果是低分辨率模型(TIPS-g/14 LR)。對于高分辨率變體(TIPS-g/14 HR),添加了一個額外的微調階段,使用分辨率為 448 的全局裁剪和分辨率為 140 的局部裁剪,運行 0.1 輪,批量大小為 4k。僅使用隨機調整大小的裁剪和水平翻轉作為圖像增強。
描述生成模型。利用最近的 PaliGemma模型進行圖像描述生成。使用在 COCO 上微調的版本,224 像素版本用于核心預訓練運行,448 像素版本用于短期高分辨率微調階段。
比較技術。提供大量與最近工作的比較。對于每個現(xiàn)有模型家族,與最大的實例進行比較,直到 ViT 大小為“g”或“G”,圖像編碼器中的參數(shù)約為 18 億或更少。本文的方法與一系列方法進行了基準測試,包括自監(jiān)督、弱監(jiān)督和監(jiān)督文獻。所有方法均使用現(xiàn)成的、凍結的權重進行公平比較。作為自監(jiān)督方法,與 DINO、MAE、iBOT和 DINOv2進行了比較。作為弱監(jiān)督方法,與 CLIP、OpenCLIP、SigLIP、SILC和 EVA-CLIP進行了比較。作為監(jiān)督方法,基準測試了在 JFT-3B 上訓練的 ViT-g,正如(Zhai et al., 2022)所述。
結果
消融實驗。在 5 個不同任務上展示了消融實驗(見下表 1),以孤立增強文本監(jiān)督和新?lián)p失的效果,其中使用了 ViT-B 骨干網(wǎng)。基線 CLIP 模型的噪聲網(wǎng)頁描述呈現(xiàn)于(A)。表的部分(B)消融了增強文本監(jiān)督的貢獻。僅僅用 PaliGemma 生成的描述替換網(wǎng)頁描述就提高了 10.1 個百分點的分割精度,并減少了 0.076 的深度 RMSE,這都是巨大的正收益。這顯示了合成描述在使用圖像-文本模型進行密集理解中的潛力。然而,同時,全球任務顯示出顯著的退步,KNN 分類損失減少了 6.9 分。但通過結合網(wǎng)頁和合成描述,CLIP 性能可以在所有任務中提高:使用雙嵌入方法,在各個領域實現(xiàn)了巨大的收益。還將雙重方法與 Fan et al.(2023)提出的其他兩種描述組合選項進行比較:“采樣”,其中隨機選擇網(wǎng)頁或合成描述;或“多文本”,其中兩個描述分別與相同的圖像嵌入匹配。雙重方法在 5 個案例中有 3 個表現(xiàn)優(yōu)于其他描述組合,并在其他 2 個案例中達到競爭性結果,這表明其有效性。
部分(C)消融了自監(jiān)督損失的效果,使用網(wǎng)頁描述。自蒸餾的加入在所有任務中帶來了改善。這是一個類似于 SILC的設置:確認了它們在 I→T 和 T→I 檢索中的發(fā)現(xiàn),并且還表明自蒸餾損失對僅圖像任務(尤其是密集任務)是有效的。通過額外的掩蔽圖像建模(MIM)損失,密集任務中觀察到了顯著改善,而在其他任務中保持了高分數(shù):分割精度提高了 5.6 分,深度 RMSE 降低了 0.078。
部分(D)結合了(B)和(C)的發(fā)現(xiàn),為基線 CLIP 設置提供了非常顯著的改進,在所有任務中,特別是在分割中提高了 14.6 分,深度 RMSE 減少了 0.142,I→T 檢索提高了 10.1 分,T→I 檢索提高了 14.4 分。
與現(xiàn)有通用方法的比較在下表 2 和表 3 中提供,涉及僅圖像或圖像和文本的任務,其中 TIPS 的結果在高分辨率微調前(“LR”)和后(“HR”)提供。總體而言,TIPS 實現(xiàn)了強勁的結果,在廣泛的任務中表現(xiàn)出競爭力,在 16 個報告的評估中,有 13 項達到了最佳或第二最佳的結果。與現(xiàn)有的圖像-文本方法相比,TIPS 在 I→T 和 T→I 檢索上有所改善,同時在密集預測任務中也取得了實質性的收益,在某些情況下達到了 DINOv2 的水平并超過了它。有趣的是,盡管最近的圖像-文本模型在多模態(tài)檢索或zero-shot 分類中取得了優(yōu)異的結果,但這些收益并沒有轉化為密集理解的改進,其性能明顯落后于 TIPS 和自監(jiān)督方法。特別是,即使 CLIP-L 在圖像級預測任務上的表現(xiàn)較差,但在所有 6 個密集評估中都超越了最近的 SigLIP-SO。另一種最近且規(guī)模更大的通過對比學習訓練的圖像模型 InternViT-6B在 ADE20k 上的得分為 47.2%,遠低于本文的11 億 TIPS-g 模型。在監(jiān)督方法方面,在 JFT-3B 上訓練的 ViT-g 在密集任務上的表現(xiàn)也不如 CLIP-L。甚至更大的 ViT-22B,也在 JFT 上訓練,在相同設置下的 ADE20k 上僅獲得 34.6% 的得分,如 Chen et al.(2024)所報告。與自監(jiān)督技術相比,TIPS 實現(xiàn)了強勁的結果,在大多數(shù)情況下與 DINOv2 的數(shù)字相當,并在分割和檢索方面顯著超越它,同時實現(xiàn)了自監(jiān)督方法單獨無法執(zhí)行的多模態(tài)任務。下圖 4 展示了密集特征探針的定性示例。
應用:單圖像到三維。現(xiàn)代大型重建模型依賴高質量的預訓練圖像編碼器,以產(chǎn)生圖像標記供編碼器/解碼器Transformer使用。例如,LRM根據(jù)單個輸入圖像的圖像特征預測神經(jīng)渲染模型的參數(shù)。作者選擇基于 ViT 的 DINO 編碼器,而不是更具語義意識的編碼器(如 CLIP),因為 DINO 編碼器掌握了進行三維任務所需的結構和紋理信息。
為了更好地理解本文模型在神經(jīng)三維重建方面的能力,在 LRM 框架中評估 TIPS 的性能,并將 DINO-B/16 與同等規(guī)模的 TIPS-B/14 進行比較。選擇使用 DINO-B/16,以遵循原始論文的實現(xiàn)。單圖像到三維的結果在 Objaverse 數(shù)據(jù)集中展示在下表 4 中,結果表明 TIPS 作為大型重建模型的圖像編碼器優(yōu)于 DINO,具有增強的新視圖合成能力(PSNR 增加 0.62)。
結論
TIPS(具有空間意識的文本-圖像預訓練),這是一種新的通用圖像-文本編碼器。TIPS 可以成功地應用于各種計算機視覺任務,實現(xiàn)密集和圖像級預測,利用兩個簡單有效的貢獻。首先,利用現(xiàn)有的多模態(tài)生成模型生成高質量的合成圖像描述,這些描述用于改善對比學習并提升在密集圖像預測上的性能。本文提出了一種雙嵌入方法,以利用合成和噪聲網(wǎng)頁描述,從而在廣泛的任務中獲得收益。其次,將對比圖像-文本學習與自蒸餾和掩蔽圖像建模相結合,激勵模型學習空間感知的表示。這兩個貢獻是互補的,能夠有效地將模型擴展到在 1.17 億圖像的精心策劃數(shù)據(jù)集上訓練的 ViT-g 架構。全面實驗在包括 16 個數(shù)據(jù)集的 8 項任務上展示了強大的現(xiàn)成結果,使涉及僅圖像或圖像和文本的各種計算機視覺應用成為可能。
本文轉自AI生成未來 ,作者:AI生成未來
