成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

文生圖的基石CLIP模型的發展綜述

人工智能 機器學習
CLIP的英文全稱是Contrastive Language-Image Pre-training,即一種基于對比文本-圖像對的預訓練方法或者模型。CLIP是一種基于對比學習的多模態模型,CLIP的訓練數據是文本-圖像對:一張圖像和它對應的文本描述,這里希望通過對比學習,模型能夠學習到文本-圖像對的匹配關系。

CLIP的英文全稱是Contrastive Language-Image Pre-training,即一種基于對比文本-圖像對的預訓練方法或者模型。CLIP是一種基于對比學習的多模態模型,CLIP的訓練數據是文本-圖像對:一張圖像和它對應的文本描述,這里希望通過對比學習,模型能夠學習到文本-圖像對的匹配關系。

Open AI在2021年1月份發布的DALL-E和CLIP,這兩個都屬于結合圖像和文本的多模態模型,其中DALL-E是基于文本來生成模型的模型,而CLIP是用文本作為監督信號來訓練可遷移的視覺模型。

而Stable Diffusion模型中將CLIP文本編碼器提取的文本特征通過cross attention嵌入擴散模型的UNet中,具體來說,文本特征作為attention的key和value,而UNet的特征作為query。也就是說CLIP其實是連接Stable Diffusion模型中文字和圖片之間的橋梁。

CLIP

這是OpenAI在21年最早發布的論文,要想理解CLIP,我們需要將縮略詞解構為三個組成部分:(1)Contrastive ,(2)Language-Image,(3)Pre-training。

我們先從Language-Image開始。

傳統上,機器學習模型的架構是接受來自單一模式的輸入數據:文本、圖像、表格數據或音頻。如果你想使用不同的模態來生成預測,則需要訓練一個不同的模型。CLIP中的“Language-Image”指的是CLIP模型接受兩種類型的輸入:文本(語言)或圖像。

CLIP通過兩個編碼器處理這些不同的輸入-一個文本編碼器和一個圖像編碼器。這些編碼器將數據投影到較低維的潛在空間中,為每個輸入生成嵌入向量。一個關鍵的細節是,圖像和文本編碼器都將數據嵌入到相同的空間中在原始的CLIP是一個512維向量空間。

Contrastive

在同一向量空間中嵌入文本和圖像數據是一個開始,但就其本身而言,它并不能保證模型對文本和圖像的表示可以進行有意義的比較。例如,在“狗”或“一張狗的照片”的文本嵌入與狗的圖像嵌入之間建立一些合理且可解釋的關系是有用的。但是我們需要一種方法來彌合這兩種模式之間的差距。

在多模態機器學習中,有各種各樣的技術來對齊兩個模態,但目前最流行的方法是對比。對比技術從兩種模式中獲取成對的輸入:比如一張圖像和它的標題并訓練模型的兩個編碼器盡可能接近地表示這些輸入的數據對。與此同時,該模型被激勵去接受不配對的輸入(如狗的圖像和“汽車的照片”的文本),并盡可能遠地表示它們。CLIP并不是第一個圖像和文本的對比學習技術,但它的簡單性和有效性使其成為多模式應用的支柱。

Pre-training

雖然CLIP本身對于諸如零樣本分類、語義搜索和無監督數據探索等應用程序很有用,但CLIP也被用作大量多模式應用程序的構建塊,從Stable Diffusion和DALL-E到StyleCLIP和OWL-ViT。對于大多數這些下游應用程序,初始CLIP模型被視為“預訓練”的起點,并且整個模型針對其新用例進行微調。

雖然OpenAI從未明確指定或共享用于訓練原始CLIP模型的數據,但CLIP論文提到該模型是在從互聯網收集的4億對圖像-文本上進行訓練的。

https://arxiv.org/abs/2103.00020

ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

使用CLIP, OpenAI使用了4億對圖像-文本,因為沒有提供細節,所以我們不可能確切地知道如何構建數據集。但是在描述新的數據集時,他們參考了谷歌的Google’s Conceptual Captions 作為靈感——一個相對較小的數據集(330萬圖像描述對,這個數據集使用了昂貴的過濾和后處理技術,雖然這些技術很強大,但不是特別可擴展)。

所以高質量的數據集就成為了研究的方向,在CLIP之后不久,ALIGN通過規模過濾來解決這個問題。ALIGN不依賴于小的、精心標注的、精心策劃的圖像字幕數據集,而是利用了18億對圖像和替代文本。

雖然這些替代文本描述平均而言比標題噪音大得多,但數據集的絕對規模足以彌補這一點。作者使用基本的過濾來去除重復的,有1000多個相關的替代文本的圖像,以及沒有信息的替代文本(要么太常見,要么包含罕見的標記)。通過這些簡單的步驟,ALIGN在各種零樣本和微調任務上達到或超過了當時最先進的水平。

https://arxiv.org/abs/2102.05918

K-LITE: Learning Transferable Visual Models with External Knowledge

與ALIGN一樣,K-LITE也在解決用于對比預訓練的高質量圖像-文本對數量有限的問題。

K-LITE專注于解釋概念,即將定義或描述作為上下文以及未知概念可以幫助發展廣義理解。一個通俗的解釋就是人們第一次介紹專業術語和不常用詞匯時,他們通常會簡單地定義它們!或者使用一個大家都知道的事物作為類比。

為了實現這種方法,微軟和加州大學伯克利分校的研究人員使用WordNet和維基詞典來增強圖像-文本對中的文本。對于一些孤立的概念,例如ImageNet中的類標簽,概念本身被增強,而對于標題(例如來自GCC),最不常見的名詞短語被增強。通過這些額外的結構化知識,對比預訓練模型在遷移學習任務上表現出實質性的改進。

https://arxiv.org/abs/2204.09222

OpenCLIP: Reproducible scaling laws for contrastive language-image learning

到2022年底,transformer 模型已經在文本和視覺領域建立起來。在這兩個領域的開創性經驗工作也清楚地表明,transformer 模型在單峰任務上的性能可以通過簡單的縮放定律來很好地描述。也就是說隨著訓練數據量、訓練時間或模型大小的增加,人們可以相當準確地預測模型的性能。

OpenCLIP通過使用迄今為止發布的最大的開源圖像-文本對數據集(5B)將上面的理論擴展到多模式場景,系統地研究了訓練數據對模型在零樣本和微調任務中的性能的影響。與單模態情況一樣,該研究揭示了模型在多模態任務上的性能在計算、所見樣本和模型參數數量方面按冪律縮放。

比冪律的存在更有趣的是冪律縮放和預訓練數據之間的關系。保留OpenAI的CLIP模型架構和訓練方法,OpenCLIP模型在樣本圖像檢索任務上表現出更強的縮放能力。對于ImageNet上的零樣本圖像分類,OpenAI的模型(在其專有數據集上訓練)表現出更強的縮放能力。這些發現突出了數據收集和過濾程序對下游性能的重要性。

https://arxiv.org/abs/2212.07143

但是在OpenCLIP發布不久,LAION數據集因包含非法圖像已從互聯網上被下架了。

MetaCLIP: Demystifying CLIP Data

OpenCLIP試圖理解下游任務的性能如何隨數據量、計算量和模型參數數量的變化而變化,而MetaCLIP關注的是如何選擇數據。正如作者所說,“我們認為CLIP成功的主要因素是它的數據,而不是模型架構或預訓練目標。”

為了驗證這一假設,作者固定了模型架構和訓練步驟并進行了實驗。MetaCLIP團隊測試了與子字符串匹配、過濾和平衡數據分布相關的多種策略,發現當每個文本在訓練數據集中最多出現20,000次時,可以實現最佳性能,為了驗證這個理論他們甚至將在初始數據池中出現5400萬次的單詞 “photo”在訓練數據中也被限制為20,000對圖像-文本。使用這種策略,MetaCLIP在來自Common Crawl數據集的400M圖像-文本對上進行了訓練,在各種基準測試中表現優于OpenAI的CLIP模型。

https://arxiv.org/abs/2309.16671

DFN: Data Filtering Networks

有了MetaCLIP的研究,可以說明數據管理可能是訓練高性能多模態模型(如CLIP)的最重要因素。MetaCLIP的過濾策略非常成功,但它也主要基于啟發式的方法。研究人員又將研究目標變為是否可以訓練一個模型來更有效地進行這種過濾。

為了驗證這一點,作者使用來自概念性12M的高質量數據來訓練CLIP模型,從低質量數據中過濾高質量數據。這個數據過濾網絡(DFN)被用來構建一個更大的高質量數據集,方法是只從一個未經管理的數據集(在本例中是Common Crawl)中選擇高質量數據。在過濾后的數據上訓練的CLIP模型優于僅在初始高質量數據上訓練的模型和在大量未過濾數據上訓練的模型。

https://arxiv.org/abs/2309.17425

總結

OpenAI的CLIP模型顯著地改變了我們處理多模態數據的方式。但是CLIP只是一個開始。從預訓練數據到訓練方法和對比損失函數的細節,CLIP家族在過去幾年中取得了令人難以置信的進步。ALIGN縮放噪聲文本,K-LITE增強外部知識,OpenCLIP研究縮放定律,MetaCLIP優化數據管理,DFN增強數據質量。這些模型加深了我們對CLIP在多模態人工智能發展中的作用的理解,展示了在連接圖像和文本方面的進步。

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2024-07-01 10:19:22

2025-04-24 06:02:45

2023-11-29 18:56:43

圖像搜索FAISS

2022-10-11 16:34:28

深度學習模型

2009-11-19 17:23:13

路由器技術

2024-05-10 07:58:03

2023-12-25 15:15:17

模型訓練

2020-02-07 17:48:53

RGB視頻數據分類模型

2024-06-19 16:11:22

2010-06-24 17:03:45

BitTorrent協

2020-02-06 15:31:55

視頻數據分類模型發展

2025-03-11 00:22:00

DeepSeekAI圖片

2024-10-18 16:10:00

AI文生圖框架

2013-10-25 11:21:38

阿里云開發者大會阿里云飛天5K

2010-10-09 21:30:57

FTTx

2023-10-26 15:38:03

混元大模型騰訊

2025-04-08 03:00:00

2025-06-18 08:53:00

AI模型語音
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品中文字幕一区二区 | 中文字幕视频在线观看免费 | 免费国产一区二区视频 | 国产精品久久久久久久久久久久久久 | 精品亚洲一区二区三区 | 国产精品人人做人人爽 | 国产高清免费 | 一级毛片成人免费看a | 亚洲视频免费观看 | 成人av一区二区亚洲精 | 福利社午夜影院 | 国产探花在线观看视频 | 久久精品免费一区二区三 | 日本人做爰大片免费观看一老师 | 91av在线免费播放 | 毛片网在线观看 | 日韩成人免费视频 | 秋霞电影一区二区 | 国产日韩欧美一区 | 欧美精品一区在线观看 | 欧美日韩不卡合集视频 | 91国产视频在线观看 | av在线天堂网 | 黄色亚洲| 狠狠操在线 | 91精品国产乱码久久久久久 | 久久久久国产 | 亚洲在线免费观看 | 91精品国产91久久久久游泳池 | 免费在线观看av片 | 欧美日韩在线高清 | 日干夜操| 成人毛片视频免费 | 午夜免费观看体验区 | 国产精品成人一区 | 99re99 | 日韩欧美久久 | 精品国产一区二区三区久久久久久 | 国产日韩欧美在线 | 酒色成人网 | av在线天堂 |