成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CLIP:語(yǔ)言-圖像表示之間的橋梁

開(kāi)發(fā) 架構(gòu)
最近GPT4的火爆覆蓋了一個(gè)新聞:midjourney v5發(fā)布,DALLE2,midjourney都可以從文本中生成圖像,這種模型要求人工智能同時(shí)理解語(yǔ)言和圖像數(shù)據(jù)。

最近GPT4的火爆覆蓋了一個(gè)新聞:midjourney v5發(fā)布,DALLE2,midjourney都可以從文本中生成圖像,這種模型要求人工智能同時(shí)理解語(yǔ)言和圖像數(shù)據(jù)。

傳統(tǒng)的基于人工智能的模型很難同時(shí)理解語(yǔ)言和圖像。因?yàn)樽匀徽Z(yǔ)言處理和計(jì)算機(jī)視覺(jué)一直被視為兩個(gè)獨(dú)立的領(lǐng)域,這使得機(jī)器在兩者之間進(jìn)行有效溝通具有挑戰(zhàn)性。

然而CLIP的多模態(tài)架構(gòu)通過(guò)在相同的潛在空間中學(xué)習(xí)語(yǔ)言和視覺(jué)表現(xiàn)在二者之間建立了橋梁 。因此,CLIP允許我們利用其他架構(gòu),使用它的“語(yǔ)言-圖像表示”進(jìn)行下游任務(wù)。

CLIP是一個(gè)基于超大數(shù)據(jù)量的pair-wise 預(yù)訓(xùn)練模型但是在它的下游任務(wù)DalleE-2,Stable-Diffusion中,CLIP也是其中打通文本和圖像的核心模塊,比如開(kāi)源的SD2就是使用了OpenCLIP來(lái)學(xué)習(xí)二者的表示,因此了解CLIP是深入了解后續(xù)擴(kuò)散模型非常重要的一環(huán),所以我們今天來(lái)主要介紹一下CLIP:

Contrastive Language-Image Pre-training (CLIP)利用自然語(yǔ)言描述圖像的數(shù)據(jù),訓(xùn)練了一個(gè)同時(shí)對(duì)圖像和文本具有深度理解能力的神經(jīng)網(wǎng)絡(luò)模型。通過(guò)使用自然語(yǔ)言作為監(jiān)督信號(hào),CLIP 可以自然地跨越多個(gè)視覺(jué)和語(yǔ)言數(shù)據(jù)集,且具有較強(qiáng)的可遷移性。CLIP 可以與最先進(jìn)的視覺(jué)和語(yǔ)言模型相媲美,且可以在多個(gè)視覺(jué)和語(yǔ)言任務(wù)上進(jìn)行零樣本學(xué)習(xí)。

架構(gòu)

CLIP架構(gòu)由兩個(gè)主要組件組成:圖像編碼器和文本編碼器。每個(gè)編碼器都能夠分別理解來(lái)自圖像或文本的信息,并將這些信息嵌入到向量中。CLIP的思想是在圖像-文本對(duì)的大型數(shù)據(jù)集中訓(xùn)練這些編碼器,并使嵌入變得相似。

“給定一批N(圖像,文本)對(duì),CLIP被訓(xùn)練來(lái)預(yù)測(cè)一批中N × N個(gè)可能的(圖像,文本)對(duì)中哪一個(gè)是真實(shí)的實(shí)匹配。”它通過(guò)聯(lián)合訓(xùn)練編碼器來(lái)學(xué)習(xí)多模態(tài)嵌入空間,對(duì)N個(gè)圖像和文本嵌入進(jìn)行余弦相似度的計(jì)算,最大小化正確的匹配,最大化不正確的匹配。

由于CLIP是在一個(gè)大的預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練的,它可以很好地泛化許多下游任務(wù)。CLIP為我們提供了兩個(gè)編碼器,可以將文本和圖像嵌入到相同的潛在空間中,所以我們可以有效地將其用于許多應(yīng)用程序。

應(yīng)用

以下是一些使用CLIP的下游任務(wù)示例:

1、圖像分類

CLIP可用于圖像分類任務(wù),CLIP將圖像與其對(duì)應(yīng)的文本描述相關(guān)聯(lián)的能力使其能夠很好地泛化到新的類別,并與其他圖像分類模型相比提高性能。

比如說(shuō)HuggingFace提供了的這個(gè)簡(jiǎn)單的例子

from PIL import Image
import requests

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities

2、圖像描述

CLIP可用于圖像描述任務(wù),利用它將圖像與相應(yīng)的文本描述相關(guān)聯(lián)的能力,我們可以將CLIP與其他序列到序列模型結(jié)合起來(lái),使用CLIP的嵌入來(lái)生成標(biāo)題等。我們可以參考我們的CoCa(對(duì)比字幕),或者CLIPCap,它將CLIP與GPT模型結(jié)合起來(lái)生成字幕。

3、文本到圖像

CLIP在文本到圖像生成上下文中的一個(gè)有趣應(yīng)用是潛在擴(kuò)散模型。該模型使用CLIP作為一種方法來(lái)指導(dǎo)從文本描述中生成逼真的圖像。

在潛在擴(kuò)散模型中使用CLIP有幾個(gè)優(yōu)點(diǎn)。首先,它允許模型生成更忠實(shí)于文本描述的圖像,因?yàn)镃LIP可以就生成的圖像和文本描述之間的語(yǔ)義相似性提供反饋。其次,它允許模型生成更多樣化和更有創(chuàng)造性的圖像,因?yàn)镃LIP可以引導(dǎo)生成過(guò)程朝著不太常見(jiàn)但仍然合理的圖像表示。

CLIP處理圖像和文本輸入的能力及其預(yù)訓(xùn)練過(guò)程使其成為各種領(lǐng)域中下游任務(wù)的多功能和強(qiáng)大的工具。

總結(jié)

CLIP 將語(yǔ)言和圖像表示合二為一的能力為許多應(yīng)用打開(kāi)了大門。雖然我們?nèi)祟惪梢愿兄煌愋偷臄?shù)據(jù),包括文本、數(shù)據(jù)、音頻等。但是過(guò)去基于 AI 的模型已經(jīng)顯示出它們只能理解一種模態(tài)的弱點(diǎn)。有了 CLIP,我們可以想象一個(gè)未來(lái),人工智能模型可以像我們一樣“理解”這個(gè)世界。

責(zé)任編輯:華軒 來(lái)源: DeepHub IMBA
相關(guān)推薦

2012-09-21 09:31:48

Linux服務(wù)器Windows

2024-09-26 16:51:23

2012-09-20 09:17:18

LinuxWindows

2012-09-20 15:54:46

LinuxWindows服務(wù)器

2016-06-29 10:42:42

云計(jì)算混合云

2023-05-08 14:56:33

大型語(yǔ)言模型代碼

2023-11-21 16:06:04

計(jì)算機(jī)視覺(jué)人工智能

2024-11-21 13:02:42

2015-01-21 10:57:17

云存儲(chǔ)混合云

2023-11-29 18:56:43

圖像搜索FAISS

2012-05-16 13:19:38

SAP移動(dòng)應(yīng)用移動(dòng)辦公

2025-04-11 00:16:00

模態(tài)編碼器MAECLIP

2017-03-18 23:19:49

2023-01-03 15:42:29

機(jī)器學(xué)習(xí)視頻搜索

2022-04-20 20:37:58

鴻蒙操作系統(tǒng)

2010-03-10 19:46:07

Python編程語(yǔ)言

2022-08-06 16:33:01

C語(yǔ)言數(shù)組內(nèi)存

2025-04-07 05:30:00

2021-11-02 09:25:00

AI 數(shù)據(jù)人工智能

2022-09-25 17:07:27

訓(xùn)練圖像
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 99riav3国产精品视频 | 天天射影院 | 久久99久久98精品免观看软件 | 亚洲欧美激情网 | 欧美lesbianxxxxhd视频社区 | 在线免费观看视频黄 | 一区二区三区在线免费观看 | 一区二区三区国产视频 | 天堂久久一区 | 中文字幕一区二区三区四区 | 日韩羞羞 | 97久久精品午夜一区二区 | 精品国产欧美一区二区三区成人 | 亚洲毛片在线观看 | 国产一区二区三区欧美 | 99精品国产一区二区青青牛奶 | 国产精品一区二区视频 | www.久草.com| 两性午夜视频 | 日韩黄色av | 91黄色片免费看 | 三级黄色片在线播放 | 亚洲天堂二区 | 欧美一区二区三区四区视频 | 国产一区二区在线视频 | 91九色婷婷 | 在线免费观看黄色av | 日本一区二区三区四区 | 欧美精品一区二区在线观看 | 噜久寡妇噜噜久久寡妇 | av片免费| 男女午夜激情视频 | 国产欧美一区二区三区久久 | 国产一区二区在线免费观看 | 亚洲精品一区二区网址 | 精品久久久久久红码专区 | 欧美精品91爱爱 | h片在线免费看 | 亚洲欧美日韩一区 | 成人性生交大片免费看中文带字幕 | 成人九区|