模態編碼器 | CLIP技術改進之EVA-CLIP

作者：Goldma 2025-04-07 05:30:00

今天來看EVA-CLIP，同樣是智源曹越團隊的工作，主要研究主題是結合EVA改進CLIP。

上一篇看了EVA，趁熱打鐵，今天來看EVA-CLIP，同樣是智源曹越團隊的工作，主要研究主題是結合EVA改進CLIP。

研究動機：訓練CLIP模型面臨計算成本高和訓練不穩定等挑戰，尤其是在擴大模型規模時。因此，這項工作的研究動機是提供一種高效且有效的解決方案，以促進更大規模CLIP模型的訓練和發展。

簡單介紹下EVA-CLIP與CLIP相比做了哪些改進：

初始化：為了改善特征表示并加速CLIP模型的收斂，采用預訓練的EVA模型來初始化EVA-CLIP的圖像編碼器。具體來說，預訓練的EVA模型已經在大規模圖像數據集上進行了預訓練，能夠提供高質量的視覺特征表示。通過使用這些預訓練的權重來初始化CLIP模型的圖像編碼器，可以顯著提高模型的初始性能，并加快訓練過程。
優化器：訓練大規模CLIP模型通常需要非常大的批量大小，這會帶來高昂的計算成本和訓練不穩定的問題。為此選擇使用LAMB（Layer-wise Adaptive Moments optimizer for Batch training）優化器進行EVA-CLIP模型的訓練。LAMB優化器專為大批量訓練設計，其自適應的元素級更新和層級學習率提高了訓練效率并加速了收斂速度。
掩碼策略：利用隨機掩碼策略FLIP技術提高訓練CLIP模型的時間效率。具體來說，在訓練期間隨機掩碼50%的圖像標記，顯著降低了時間復雜度，同時允許在不增加額外內存成本的情況下將批量大小增加2倍。
內存和訓練加速：使用DeepSpeed優化庫、ZeRO階段1優化器、梯度檢查點和Flash Attention技術來節省內存并加速訓練過程。

訓練數據集

為了訓練EVA-CLIP模型，構建了一個名為Merged-2B的數據集，該數據集由以下部分組成：