成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

模態編碼器 | EVA改進之EVA-02

人工智能
在預訓練過程中,作者選擇了使用一個具有10億參數的大型CLIP模型(EVA-CLIP)作為教師模型,以生成目標視覺特征。這一選擇基于一個假設:更大的教師模型能夠提供更魯棒和可遷移的目標表示,從而幫助學生模型(EVA-02)學習到更強的視覺表示。

來自智源曹越團隊在EVA的優化改進方面的工作EVA-02,項目地址:https://github.com/baaivision/EVA

研究動機如下:在CV領域,訓練、調優和評估非常大的視覺模型需要大量的計算資源,限制了許多研究人員和開發者的參與。因此,本研究主要目的是提供一種高效且性能強大的預訓練方法,不僅能夠在多種下游任務中展現出色的遷移學習能力,而且還能顯著減少參數數量和計算成本。

01、模型架構

圖片

EVA-02的基礎是一個改進版的純Transformer架構,該架構在原始ViT的基礎上進行了若干重要的修改,以更好地適應大規模預訓練任務的需求。這些修改包括norm,參數初始化,FFN,位置編碼方式,如下表所示:

  • 多頭自注意力(MHSA)層:使用MHSA層來捕獲圖像中的全局空間信息。然后相比于相對位置編碼(Relative Position Encoding, RP)引入了旋轉位置編碼(Rotary Position Embedding, RoPE),以增強模型對位置信息的理解。
  • 位置感知前饋網絡(FFN):引入了SwiGLU機制,替代傳統的GELU激活函數,以增強模型的表達能力。
  • 歸一化方案:對于較大的EVA-02模型(如B和L),采用了sub-LN(子層歸一化)作為默認的歸一化方案,去掉了內部注意力層的層歸一化(Layer Normalization, LN)。對于較小的模型(如Ti和S),則繼續使用標準的預歸一化配置。
  • 權重初始化:所有TrV(Transformer Vision)塊中的權重都使用Xavier正態分布初始化,其中MHSA和FFN的權重矩陣是從特定的標準差采樣的高斯分布中抽取的。

圖片

02、模型訓練

在預訓練過程中,作者選擇了使用一個具有10億參數的大型CLIP模型(EVA-CLIP)作為教師模型,以生成目標視覺特征。這一選擇基于一個假設:更大的教師模型能夠提供更魯棒和可遷移的目標表示,從而幫助學生模型(EVA-02)學習到更強的視覺表示。

預訓練數據

  • 小型模型(EVA-02-Ti, EVA-02-S, EVA-02-B):使用ImageNet-21K數據集進行預訓練,該數據集包含1420萬張圖像
  • 大型模型(EVA-02-L):使用合并的數據集進行預訓練,該數據集包括ImageNet-21K、CC12M、CC3M、COCO、ADE20K、Object365和OpenImages,總共有3800萬張圖像

預訓練過程

  1. 數據預處理:輸入圖像被劃分為固定大小的patch。隨機選擇40%的patch并用[MASK]標記替換,形成掩碼圖像。使用塊狀掩碼策略,即一次遮蓋多個相鄰的patch,以模擬自然界的遮擋情況。
  2. 目標表示:使用EVA-CLIP視覺編碼器提取目標視覺特征,目標特征經過歸一化處理,并通過一個線性層投影到與EVA-02模型輸出相同的空間維度。
  3. 損失函數:使用負余弦相似度作為損失函數,衡量模型預測的特征與目標特征之間的相似度。損失函數定義為:圖片其中,圖片是模型預測的特征,y是目標特征。

預訓練結果

大型教師模型(如EVA-CLIP)生成的目標表示更為復雜和精細。這使得學生模型在短時間內難以完全理解和學習這些復雜的表示。因此,學生模型在快速預訓練過程中可能無法充分吸收教師模型的知識,導致性能下降。為了驗證這一假設,作者延長了預訓練的時間,將預訓練周期從300個epoch增加到1600個epoch。結果顯示,隨著預訓練時間的增加,學生模型的性能顯著提升,相對于使用小型教師模型的基線方法,取得了1.3個百分點的提升。另外結構上的改進也會使得模型在較短的預訓練時間內也能獲得一定的性能提升。

圖片

圖片

圖片

另外,通過調整模型大小、圖像分辨率以及通過中間微調注入標簽可以進一步提高性能,僅使用304M參數的EVA-02就可以在IN-1K上達到90.0的top-1精度。

圖片


03、實驗結果

相比于EVA,EVA-02的性能提升如下:

圖片

圖像分類

EVA-02在ImageNet-1K驗證集上取得了90.0%的微調Top-1準確率,顯著優于其教師模型(1011M參數)和其他現有方法。

圖片

圖片

圖片

對比圖像-文本預訓練(CLIP)

EVA-02-CLIP在ImageNet-1K上的零樣本Top-1準確率達到了80.4%,顯著優于之前的最佳開源CLIP模型(參數量約為六分之一,訓練數據量也為六分之一)。

表9進一步證明了該方法在26個額外的zero-shot分類基準上的有效性和穩健性。并且EVA-02 -CLIP-L模型,只有1/2的模型大小和1/5的圖像-文本對,比OpenCLIP-H實現了1.2點的提升。

圖片

圖片

11中表明EVA-02 -CLIP在zero-shot視頻識別基準測試中也相當有效。

圖片

圖片

目標檢測與實例分割

圖片

圖片

語義分割

圖片

04、總結

蒸餾方向的論文,基本都是為了讓一個小的student網絡在不損失太多性能的前提下,學習到大的teacher網絡的特征。

而在大模型時代,EVA探索了student網絡能達到的規模上限,并且在測試集上效果略微超過了teacher網絡。伴隨著EVA-01的成功,EVA-02做了更精細的調整,并且為了變得“可用”,參數量做了大量的縮減,而性能相比EVA-01有明顯的提升。

為什么EVA蒸餾后的網絡會比teacher網絡有更好的效果呢?個人感覺是CLIP確實足夠強大,而且EVA中student網絡的MIM訓練方式足夠的好。具體而言CLIP在4億的圖文對上做了預訓練,輸出的圖像特征和語言的特征做了對齊,是一種高維的語義信息,而VIT作為一個backbone,更利于提取到低維的結構特征,并且MIM的方式迫使VIT學習遮擋不變的特征,最終的特征具有了很好的魯棒性。

責任編輯:龐桂玉 來源: 小白學AI算法
相關推薦

2025-04-07 05:30:00

2025-04-08 03:00:00

2025-04-07 04:30:00

2025-04-09 02:10:00

模態編碼器SigLIP多模態

2025-04-07 03:30:00

2025-04-10 06:30:00

2025-04-10 11:52:55

2025-04-08 04:20:00

2025-04-11 00:16:00

模態編碼器MAECLIP

2009-03-16 19:22:26

HPSSD虛擬化

2009-03-11 12:41:20

HP虛擬化存儲

2025-02-28 10:15:00

3D模型編碼器

2021-03-22 10:52:13

人工智能深度學習自編碼器

2023-10-07 09:29:09

2021-11-02 20:44:47

數字化

2021-03-29 11:37:50

人工智能深度學習

2012-04-01 16:40:45

編碼器

2010-03-01 15:55:00

Fedora Eva

2012-04-10 16:55:22

PowerSmart編碼器
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 九九视频在线观看 | 亚洲欧美中文字幕 | 欧美精品一区二区三区四区 在线 | 精品欧美乱码久久久久久 | 99re视频精品 | 国产精品精品久久久 | 91视视频在线观看入口直接观看 | 久久精品国产一区二区电影 | 色婷婷一区二区三区四区 | 久久69精品久久久久久国产越南 | caoporon| 91亚洲欧美 | 成人不卡 | 真人女人一级毛片免费播放 | 国产精品久久久亚洲 | 国产欧美在线 | av网站在线看 | 精品久久久久久亚洲国产800 | 97日韩精品| 国产成人av在线 | 99久久免费精品国产免费高清 | 日韩看片 | 欧美精品二区 | 91网视频 | 久久精品中文字幕 | 国产一区免费视频 | 国产精品成人国产乱 | 日日噜噜噜夜夜爽爽狠狠视频97 | 亚洲一区二区电影网 | 久久精品国产一区二区电影 | 人人人艹 | 午夜精品一区二区三区在线视 | 午夜精品影院 | 色影视 | 成人性生交大片免费看中文带字幕 | 观看毛片| 北条麻妃一区二区三区在线观看 | 91欧美精品成人综合在线观看 | 爱爱爱av| 波多野结衣先锋影音 | 国产精品日日做人人爱 |