模態編碼器 | CLIP技術改進之EVA-CLIP
上一篇看了EVA,趁熱打鐵,今天來看EVA-CLIP,同樣是智源曹越團隊的工作,主要研究主題是結合EVA改進CLIP。
研究動機:訓練CLIP模型面臨計算成本高和訓練不穩定等挑戰,尤其是在擴大模型規模時。因此,這項工作的研究動機是提供一種高效且有效的解決方案,以促進更大規模CLIP模型的訓練和發展。
01、方法介紹
簡單介紹下EVA-CLIP與CLIP相比做了哪些改進:
- 初始化:為了改善特征表示并加速CLIP模型的收斂,采用預訓練的EVA模型來初始化EVA-CLIP的圖像編碼器。具體來說,預訓練的EVA模型已經在大規模圖像數據集上進行了預訓練,能夠提供高質量的視覺特征表示。通過使用這些預訓練的權重來初始化CLIP模型的圖像編碼器,可以顯著提高模型的初始性能,并加快訓練過程。
- 優化器:訓練大規模CLIP模型通常需要非常大的批量大小,這會帶來高昂的計算成本和訓練不穩定的問題。為此選擇使用LAMB(Layer-wise Adaptive Moments optimizer for Batch training)優化器進行EVA-CLIP模型的訓練。LAMB優化器專為大批量訓練設計,其自適應的元素級更新和層級學習率提高了訓練效率并加速了收斂速度。
- 掩碼策略:利用隨機掩碼策略FLIP技術提高訓練CLIP模型的時間效率。具體來說,在訓練期間隨機掩碼50%的圖像標記,顯著降低了時間復雜度,同時允許在不增加額外內存成本的情況下將批量大小增加2倍。
- 內存和訓練加速:使用DeepSpeed優化庫、ZeRO階段1優化器、梯度檢查點和Flash Attention技術來節省內存并加速訓練過程。
訓練數據集
為了訓練EVA-CLIP模型,構建了一個名為Merged-2B的數據集,該數據集由以下部分組成:
- LAION-2B數據集:包含16億個樣本,這些樣本來自互聯網上的大量圖像和文本對。
- COYO-700M數據集:包含4億個樣本,這些樣本經過清洗和過濾,質量較高。
通過合并這兩個數據集,得到了一個包含20億樣本的大型訓練數據集,這為模型提供了豐富的訓練材料。
02、實驗結果
系統級比較
表1展示了EVA-CLIP在ImageNet變體和ObjectNet上的零樣本top-1準確率。EVA-02-CLIP-E/14+在所有6個基準測試中平均準確率達到80.9%,性能下降最小(與ImageNet-1K top-1準確率的差距僅為1.1%)
表2進一步展示了EVA-CLIP在27個零樣本圖像分類基準上的效果。EVA-02-CLIP-E/14+在所有27個基準上平均準確率達到77.5%。
表3顯示了EVA-CLIP在UCF-101和Kinetics-400、600、700視頻識別基準上的效果。EVA-CLIP在這些基準上也表現出色
表4報告了EVA-CLIP在Flickr30K和COCO數據集上的零樣本圖像和文本檢索結果。EVA-CLIP在基礎和大型模型尺寸上均優于競爭對手
消融實驗
表5展示了EVA-CLIP設計的消融研究,包括EVA初始化、LAMB優化器和50%圖像標記掩碼的效果
表6展示了實現EVA-CLIP所需的內存和時間成本。結果顯示,掩碼50%的圖像標記可以加速訓練時間2倍,使用Flash Attention可以減少額外15%的訓練時間
03、總結
實驗部分展示了EVA-CLIP在多個基準測試中的卓越性能,并通過消融研究驗證了其設計的有效性。EVA-CLIP不僅在性能上取得了優異的結果,還在訓練效率和資源利用上展現了顯著的優勢。這些實驗結果進一步證明了EVA-CLIP方法在大規模CLIP訓練中的可行性和優越性。
CLIP是開創性的工作,奠定了基礎,EVA-CLIP通過改進架構和訓練策略提升了性能,在當前多模態大模型中,也常被用來作為視覺編碼器,對跨模態的發展有較大意義。