成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

模態(tài)編碼器 | 最強CLIP模型EVA-CLIP-18B

人工智能
這篇論文最大的核心貢獻是提出了一種“弱到強”(weak-to-strong)的視覺模型縮放方法,通過逐步增大的模型規(guī)模來持續(xù)提升視覺模型的性能。這種方法的核心思想是從一個較小的初始模型開始,逐步訓(xùn)練更大的模型,從而實現(xiàn)性能的穩(wěn)步提升。

來自智源王鑫龍團隊的工作,將EVA-CLIP模型參數(shù)擴展至18B,簡單看下結(jié)果,EVA-CLIP-18B性能遠(yuǎn)超其他模型。

項目地址:https://github.com/baaivision/EVA

這篇工作的研究動機旨在解決當(dāng)前多模態(tài)模型發(fā)展中的兩個關(guān)鍵問題。首先,隨著大型語言模型(LLMs)參數(shù)量的增長至千億級別,與其配套的視覺基礎(chǔ)模型卻未能同步擴展,這種不對等限制了多模態(tài)應(yīng)用的整體效能。其次,現(xiàn)有的頂級CLIP模型雖然在特定任務(wù)中表現(xiàn)出色,但它們依賴難以獲取的大規(guī)模內(nèi)部數(shù)據(jù)集進行訓(xùn)練,并且在零樣本學(xué)習(xí)等挑戰(zhàn)性任務(wù)上的表現(xiàn)還有待提高。

01、方法介紹

圖片

這篇論文最大的核心貢獻是提出了一種“弱到強”(weak-to-strong)的視覺模型縮放方法,通過逐步增大的模型規(guī)模來持續(xù)提升視覺模型的性能。這種方法的核心思想是從一個較小的初始模型開始,逐步訓(xùn)練更大的模型,從而實現(xiàn)性能的穩(wěn)步提升。

簡單來說,從一個大的EVA視覺模型開始,它從一個小的EVA-CLIP模型中提取知識,然后這個小模型作為視覺編碼器初始化,以穩(wěn)定和加速更大EVA-CLIP模型的訓(xùn)練。之后,閉環(huán)擴展循環(huán)繼續(xù)進行,從中提取出更大的EVA模型。在整個模型擴展周期中,訓(xùn)練數(shù)據(jù)集保持相對固定,以展示特定于模型規(guī)模擴展的有效性。

  • 初始模型的選擇
    小模型作為教師:選擇了一個較小的EVA-CLIP模型(EVA-02-CLIP-E/14+)作為教師模型。這個小模型經(jīng)過預(yù)訓(xùn)練,能夠生成高質(zhì)量的圖像-文本對齊特征。
    大模型作為學(xué)生:使用一個較大的EVA模型(EVA-18B)作為學(xué)生模型,通過知識蒸餾(knowledge distillation)從教師模型中學(xué)習(xí)。
  • 訓(xùn)練過程
    大模型(EVA-18B)通過重建小模型(EVA-02-CLIP-E/14+)生成的掩碼圖像-文本對齊特征來進行訓(xùn)練。這種訓(xùn)練方式有助于大模型學(xué)習(xí)到小模型中的關(guān)鍵特征,同時避免過擬合。小模型生成的特征用于初始化大模型的視覺編碼器,這有助于穩(wěn)定和加速大模型的訓(xùn)練過程。
    隨后,利用EVA模型作為EVA-CLIP預(yù)訓(xùn)練的視覺編碼器初始化,使用圖像-文本對比學(xué)習(xí)目標(biāo)訓(xùn)練。
  • 循環(huán)縮放
    在訓(xùn)練完一個較大規(guī)模的模型后,可以將其用作下一個更大模型的教師模型,繼續(xù)進行知識蒸餾。這一過程形成了一個閉環(huán)的縮放循環(huán),逐步提升模型的性能。
  • 數(shù)據(jù)集
    EVA-CLIP-18B基于公開可用的數(shù)據(jù)集LAION-2B和COYO-700M進行訓(xùn)練,這些數(shù)據(jù)集的規(guī)模遠(yuǎn)小于其他最先進CLIP模型所使用的內(nèi)部數(shù)據(jù)集(如DFN-5B和WebLI-10B)。

02、實驗結(jié)果

零樣本圖像分類

EVA-CLIP在所有27個零樣本圖像分類基準(zhǔn)測試中表現(xiàn)出色。EVA-CLIP-18B在所有27個基準(zhǔn)測試中平均達到了80.7%的top-1準(zhǔn)確率。這些結(jié)果顯著優(yōu)于之前最佳的開源DFN5B-CLIP-H/14+(提高了+1.5%),以及現(xiàn)有的最大CLIP模型InternVL-C(提高了+2.7%)。

圖片

零樣本圖像-文本檢索

EVA-CLIP-18B在所有檢索基準(zhǔn)測試中平均召回率為87.8%,顯著優(yōu)于其他模型

圖片

零樣本視頻分類

圖片

魯棒性

通過擴展EVA-CLIP顯著增強了視覺表示的魯棒性。EVA-CLIP在ImageNet變體(包括對抗性樣本)之間的性能下降最小

圖片

Linear Probing

ImageNet-1K上的線性探測(Linear Probing)是一種評估預(yù)訓(xùn)練模型特征提取能力的方法。這個任務(wù)的目的是測試一個模型在沒有經(jīng)過特定任務(wù)微調(diào)(fine-tuning)的情況下,直接在一個新的數(shù)據(jù)集上的表現(xiàn)。

通過在相同的測試集上進行線性探測,可以比較不同預(yù)訓(xùn)練模型的性能,了解哪個模型能更好地捕捉到對后續(xù)任務(wù)有用的特征。

圖片

3D表示

圖片


消融

視頻數(shù)據(jù):消融研究表明,將視頻數(shù)據(jù)納入訓(xùn)練可以顯著提高模型在視頻分類任務(wù)上的性能,這表明視頻數(shù)據(jù)為模型提供了額外的信息,有助于改善其對動作和事件的理解。

圖像分辨率:提高圖像分辨率可以提升模型的零樣本性能,因為更高分辨率的圖像提供了更多的細(xì)節(jié)信息,有助于模型更好地學(xué)習(xí)和泛化。

圖片

圖片

03、總結(jié)

很有意思的一篇文章,雖然文章很短,但是從弱到強的視覺模型縮放思想,對模型進行漸進式擴展,這種方式不僅模型訓(xùn)練穩(wěn)定并且性能也在持續(xù)提高,非常巧妙一個訓(xùn)練方法。在大模型時代,可能非常值得實驗。

責(zé)任編輯:龐桂玉 來源: 小白學(xué)AI算法
相關(guān)推薦

2025-04-07 05:30:00

2025-04-07 03:30:00

2025-04-08 04:20:00

2025-04-10 06:30:00

2025-04-11 00:16:00

模態(tài)編碼器MAECLIP

2025-04-07 06:30:00

2025-04-09 02:10:00

模態(tài)編碼器SigLIP多模態(tài)

2025-04-07 04:30:00

2024-12-18 14:50:00

AI訓(xùn)練數(shù)據(jù)

2025-04-10 11:52:55

2024-01-11 16:24:12

人工智能RAG

2024-11-27 14:00:00

模型訓(xùn)練

2025-02-28 10:15:00

3D模型編碼器

2024-03-22 15:08:47

CLIP機器學(xué)習(xí)人工智能

2022-07-28 12:18:40

視覺語言模型

2022-08-08 09:47:09

AI算法模型

2023-09-12 13:59:41

OpenAI數(shù)據(jù)集

2010-09-01 13:37:58

CSSclip屬性

2023-02-03 16:31:02

模型

2022-12-19 10:40:07

模型中文
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 精品国产一区二区三区久久久久久 | 视频一区二区在线观看 | 在线黄色网 | 中文字幕一区二区三区精彩视频 | 欧美精品一区二区三区在线播放 | 久久精品亚洲成在人线av网址 | 亚洲综合无码一区二区 | 日韩一区三区 | 日韩欧美中文字幕在线视频 | 亚洲视频在线观看免费 | 成人三级网址 | 在线观看深夜视频 | 四虎永久在线精品免费一区二 | 午夜av一区二区 | 亚洲国产欧美日韩 | 一区二区在线观看av | 国产高清在线 | 亚洲第一天堂 | 国产精品亚洲欧美日韩一区在线 | 国产欧美日韩 | 亚洲一区二区久久久 | 中文字幕视频在线观看免费 | 国产精品视屏 | 日韩国产一区二区三区 | 亚洲国产一区二区三区在线观看 | 成年人免费网站 | 久久精品91久久久久久再现 | www.中文字幕.com | 国产精品久久久久久久久久久久 | 午夜爽爽爽男女免费观看影院 | 亚洲电影免费 | 亚洲欧美日韩久久 | 亚洲欧美日韩在线不卡 | 91成人免费看 | 瑞克和莫蒂第五季在线观看 | 国产精品永久免费 | 亚洲精品国产第一综合99久久 | 96av麻豆蜜桃一区二区 | 久久新视频 | 国产精品久久久久久久久久久免费看 | 午夜视频网站 |