成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

學習視覺和語言的多粒度對齊?字節(jié)提出新多模態(tài)預訓練方法 X-VLM:代碼已開源!

人工智能 新聞
在本文中,字節(jié)跳動人工智能實驗室提出了 X-VLM,以統(tǒng)一的方法學習多粒度的視覺和語言對齊,不依賴目標檢測方法且不局限于學習圖片級別或物體級別的對齊。

?寫在前面

視覺語言預訓練提高了許多視覺語言任務的性能。但是,現(xiàn)有的多數(shù)預訓練方法依賴目標檢測器(object detectors)提取基于物體的視覺特征,以此學習細粒度的視覺和語言對齊,例如物體(object)級別。然而,這種方法存在識別視覺概念有限、圖像編碼上下文信息丟失和計算效率低下的問題。

在本文中,字節(jié)跳動人工智能實驗室提出了 X-VLM,以統(tǒng)一的方法學習多粒度的視覺和語言對齊,不依賴目標檢測方法且不局限于學習圖片級別或物體級別的對齊。 該方法在廣泛的視覺語言任務上獲得了最先進的結果,例如:圖像文本檢索 (image-text retrieval)、視覺問答(VQA)、視覺推理(NLVR)、視覺定位 (visual grounding)、圖片描述生成(image captioning)。

論文標題:

Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

論文鏈接:

https://arxiv.org/abs/2111.08276

代碼鏈接:

https://github.com/zengyan-97/X-VLM

研究背景

▲ 圖1:現(xiàn)有兩類的方法(a, b)和X-VLM(c)

現(xiàn)有的多模態(tài)預訓練模型大致分為兩類:1)依賴目標檢測器提取基于物體的視覺特征,以此學習細粒度的視覺和語言對齊,如圖 1 中(a)。這些方法要么直接利用預先訓練的目標檢測器,要么將目標檢測過程合并到多模態(tài)預訓練中;2)用 CNN 或者視覺 Transformer 編碼整張圖片,直接學習文本和圖片特征之間的粗粒度對齊,如圖 1(b)。

這兩種方法都存在問題。首先,基于目標檢測的方法會識別圖片中所有可能的物體,其中不乏一些與配對文本無關的。此外,這種方法所提取的基于物體的視覺特征可能會丟失物體之間的信息(可以認為是一種上下文信息)。而且,我們也很難預先定義需要識別的物體種類。而第二種方法則較難學習到細粒度的視覺和語言對齊,例如:物體級別的對齊。這種細粒度的對齊關系被之前的工作證實對于視覺推理(visual reasoning)和視覺定位(visual grounding)任務很有幫助。

實際上,對于多模態(tài)預訓練,有以下公開數(shù)據(jù)以供模型訓練:1)圖片和圖片標題;2)區(qū)域標注,例如:圖 1 中的文本“man crossing the street”關聯(lián)到了圖片中的某個具體區(qū)域。然而,之前的工作卻粗略地將區(qū)域標注與整張圖片對齊;3)物體標簽,例如“backpack”,這些標簽被之前的工作用來訓練目標檢測器。

與之前的做法不同,本文中作者提出 X-VLM,以統(tǒng)一的方式利用上述數(shù)據(jù)學習多粒度的視覺和語言對齊,而不依賴目標檢測方法且不局限于學習圖像級別或物體級別的對齊。作者提出學習多粒度視覺和語言對齊的關鍵在于,如圖 1(c)所示:1)給出文本,定位圖片中的視覺概念,以邊界框的回歸損失和交并比損失優(yōu)化;2)同時拉齊文本和對應的視覺概念,通過常用的對比學習損失,匹配損失,MLM 損失優(yōu)化。實驗證明,X-VLM 能在下游任務中有效利用預訓練時學到的多粒度視覺和語言對齊,在多種視覺語言任務上獲得非常優(yōu)秀的表現(xiàn)。

方法

▲ 圖2:X-VLM框架

X-VLM 由一個圖像編碼器,一個文本編碼器,一個跨模態(tài)編碼器組成。

圖 2 左側給出了視覺概念 V(可以是物體/區(qū)域/圖片)的編碼過程:該圖像編碼器采用視覺 Transformer,將輸入圖片分成 patches 編碼。然后,給出任意一個邊界框,簡單地通過取框中所有 patch 表示的平均值獲得區(qū)域的全局表示。

再將該全局表示和原本框中所有的 patch 表示按照原本順序整理成序列,作為該邊界框所對應的視覺概念的表示。 通過這樣的方式獲得圖片本身( )和圖片中視覺概念(    )的編碼。與視覺概念對應的文本,則通過文本編碼器一一編碼獲得,例如圖片標題、區(qū)域描述、物體標簽。

X-VLM 采用常見的模型結構,其不同之處在于預訓練的方法。作者通過以下兩類損失進行優(yōu)化:

第一,給出文本,例如: (text)、 (text1)、 (text2)、 (text3),預測圖片 中的對應視覺概念的邊界框:

是跨模態(tài)編碼器在 [CLS] 位置的輸出向量。Sigmoid 函數(shù)是為了標準化。Ground-truth 對應了( ),依次是標準化后的的中心橫坐標、中心縱坐標、寬、高。最后,該損失是邊界框的 GIoU 損失和 L1 損失之和。作者認為在同一張圖片中,給不同文字,要求模型預測出對應的視覺概念,能使模型更有效地學習到多粒度的視覺語言對齊。該損失也是首次被使用在多模態(tài)預訓練中。

第二,同時優(yōu)化模型去拉齊文本和對應的視覺概念,包括了物體/區(qū)域/圖片與文本的對齊。 作者使用多模態(tài)預訓練中常見的三個損失優(yōu)化,依次是:

1)對比學習損失:

 是 ground-truth 相似度,對角線為 1,其余為 0 。  是模型基于文字編碼器輸出和圖像編碼器輸出所計算的相似度。

2)匹配損失:

是基于跨模態(tài)編碼器計算,預測所給( )對是否匹配(換句話說,0/1分類)。對于每對正例,作者采樣一對負例。

3)Masked Language Modeling 損失:

中的一些詞已經被隨機替換成了 [MASK], 是跨模態(tài)編碼器在詞 位置的輸出向量所計算的詞表概率分布。

實驗

作者使用多模態(tài)預訓練中常見的 4M 圖片數(shù)據(jù)集進行實驗,同時也在一個 16M 數(shù)據(jù)集下驗證了模型效果,如下表所示:

▲ 表1:兩種預訓練數(shù)據(jù)集

其中,標注(# Ann)是區(qū)域標注和物體標簽的總稱。可以看出,有些數(shù)據(jù)集沒有圖片標題(Captions),例如 Visual Genome,有些數(shù)據(jù)集沒有圖片標注,例如 CC-3M/12M。

▲ 表2:在圖像文本檢索任務上的實驗結果

表 2 展示了在圖像文本檢索任務(MSCOCO 和 Flickr30K)上的表現(xiàn)。可以看出在 4M 圖片數(shù)據(jù)集下訓練的 X-VLM 就已經超過了之前的方法。   

▲ 表3:在多種下游視覺語言任務上的實驗結果

表 3 展示了在視覺推理(VQA2.0 和 NLVR2)、視覺定位(RefCOCO+)、圖片描述生成(COCO Captio)上的模型表現(xiàn)。結合表 2 和表 3,可以看出,相比之前的方法,X-VLM 支持更多種類的下游任務,并且在這些常見的視覺語言任務上都取得了最先進的表現(xiàn)。

總結

在本文中,作者提出了 X-VLM,以統(tǒng)一的方法學習多粒度的視覺和語言對齊,不依賴目標檢測方法且不局限于學習圖片級別或物體級別的對齊。這種預訓練方法適用于廣泛的下游任務,除了視覺推理,還同時在圖像文本檢索、視覺定位、圖片描述生成任務上取得了最先進的表現(xiàn)。全部代碼均已開源,可掃下方二維碼體驗。

責任編輯:張燕妮 來源: PaperWeekly
相關推薦

2024-11-04 13:30:00

模型AI

2022-07-28 12:18:40

視覺語言模型

2025-01-20 09:43:00

AI算法

2024-11-13 09:39:13

2025-01-13 03:00:00

模型數(shù)據(jù)訓練

2023-08-15 14:35:48

2022-03-04 19:07:03

模型視覺人工智能

2023-11-09 15:10:00

訓練數(shù)據(jù)

2024-03-25 12:30:18

AI訓練開源

2024-05-27 07:21:43

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2023-04-13 15:25:14

模型

2022-02-25 23:38:29

開源數(shù)據(jù)庫算法

2025-04-15 09:22:00

AI訓練模型

2025-03-10 02:00:00

2024-11-19 15:00:00

模型開源

2025-05-28 09:17:00

端到端模型視覺

2023-05-28 23:26:16

多模態(tài)機器學習大腦

2025-05-27 15:23:05

智能體訓練AI

2025-04-07 00:00:00

多模態(tài)大模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久亚洲天堂 | 久久久久久久久久影视 | 久久精品一区 | 九一国产精品 | 中文字字幕在线中文乱码范文 | 色伊人久久| 欧美成人专区 | 亚洲国产免费 | 国产91丝袜在线播放 | 成人免费一区二区三区视频网站 | 国产在线1区 | 久久国产精品免费一区二区三区 | 久久午夜精品福利一区二区 | 草久久 | 久久久免费 | 国产精品国产成人国产三级 | 欧美精品成人影院 | 精品国产乱码久久久久久图片 | 91免费视频观看 | 黑人一级片视频 | 91在线中文字幕 | 成人在线中文字幕 | 91精品国产麻豆 | 一区二区成人 | 久久久成人精品 | 91国产在线视频在线 | jizz在线看片 | 亚洲高清视频一区 | 亚洲欧美日韩激情 | 国产一在线观看 | 在线精品一区二区三区 | 久久久久国产精品 | 在线免费观看a级片 | 91大片| 精产国产伦理一二三区 | 毛片毛片毛片毛片毛片 | 免费国产网站 | 中文字幕中文字幕 | 亚洲欧美一区二区三区视频 | 久久久久中文字幕 | 一区二区在线不卡 |