成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

新聞 人工智能
在一篇最新的論文中,他們提出了適用于視覺任務(wù)的大規(guī)模預(yù)訓(xùn)練方法 iBOT,通過對圖像使用在線 tokenizer 進(jìn)行 BERT [1]式預(yù)訓(xùn)練讓 CV 模型獲得通用廣泛的特征表達(dá)能力。

[[435721]]

前段時間,何愷明等人的一篇論文成為了計算機視覺圈的焦點。這篇論文僅用簡單的 idea(即掩蔽自編碼器,MAE)就達(dá)到了非常理想的性能,讓人們看到了 Transformer 擴展到 CV 大模型的光明前景,給該領(lǐng)域的研究者帶來了很大的鼓舞(參見《大道至簡,何愷明新論文火了:Masked Autoencoders 讓計算機視覺通向大模型》)。

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

那么,MAE 就是大模型視覺模型預(yù)訓(xùn)練方法的巔峰了嗎?顯然不是,一大波挑戰(zhàn)者已經(jīng)在路上了,比如字節(jié)跳動、約翰霍普金斯大學(xué)等機構(gòu)組成的聯(lián)合團(tuán)隊。

在一篇最新的論文中,他們提出了適用于視覺任務(wù)的大規(guī)模預(yù)訓(xùn)練方法 iBOT,通過對圖像使用在線 tokenizer 進(jìn)行 BERT [1]式預(yù)訓(xùn)練讓 CV 模型獲得通用廣泛的特征表達(dá)能力。該方法在十幾類任務(wù)和數(shù)據(jù)集上刷新了 SOTA 結(jié)果,在一些指標(biāo)上甚至超過了 MAE [2]。

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

論文鏈接:https://arxiv.org/abs/2111.07832

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

方法介紹

在 NLP 的大規(guī)模模型訓(xùn)練中,MLM(Masked Language Model)是非常核心的訓(xùn)練目標(biāo),其思想是遮住文本的一部分并通過模型去預(yù)測這些遮住部分的語義信息,通過這一過程可以使模型學(xué)到泛化的特征。NLP 中的經(jīng)典方法 BERT 就是采用了 MLM 的預(yù)訓(xùn)練范式,通過 MLM 訓(xùn)練的模型已經(jīng)被證明在大模型和大數(shù)據(jù)上具備極好的泛化能力,成為 NLP 任務(wù)的標(biāo)配。

在該工作中,研究者主要探索了這種在 NLP 中主流的 Masked Modeling 是否能應(yīng)用于大規(guī)模 Vision Transformer 的預(yù)訓(xùn)練。作者給出了肯定的回答,并認(rèn)為問題關(guān)鍵在于 visual tokenizer 的設(shè)計。不同于 NLP 中 tokenization 通過離線的詞頻分析即可將語料編碼為含高語義的分詞,圖像 patch 是連續(xù)分布的且存在大量冗余的底層細(xì)節(jié)信息。而作者認(rèn)為一個能夠提取圖像 patch 中高層語義的 tokenizer 可幫助模型避免學(xué)習(xí)到冗余的這些細(xì)節(jié)信息。作者認(rèn)為視覺的 tokenizer 應(yīng)該具備兩個屬性:(a)具備完整表征連續(xù)圖像內(nèi)容的能力;(b) 像 NLP 中的 tokenizer 一樣具備高層語義。

如何才能設(shè)計出一個 tokenizer,使之同時具備以上的屬性呢?作者首先將經(jīng)過 mask 過的圖片序列輸入 Transformer 之后進(jìn)行預(yù)測的過程建模為知識蒸餾的過程:

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE
BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

作者發(fā)現(xiàn),通過使用在線 tokenizer 監(jiān)督 MIM 過程,即 tokenizer 和目標(biāo)網(wǎng)絡(luò)同步學(xué)習(xí),能夠較好地保證語義的同時并將圖像內(nèi)容轉(zhuǎn)化為連續(xù)的特征分布。具體地,tokenizer 和目標(biāo)網(wǎng)絡(luò)共享網(wǎng)絡(luò)結(jié)構(gòu),在線即指 tokenizer 其參數(shù)從目標(biāo)網(wǎng)絡(luò)的歷史參數(shù)中滑動平均得出。該形式近期在 DINO [3]中以自蒸餾被提出,并被用以針對同一張圖片的兩個不同視野在 [CLS] 標(biāo)簽上的優(yōu)化:

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

在該損失函數(shù)的基礎(chǔ)之上,作者將 MIM 同樣也使用自蒸餾的思路進(jìn)行優(yōu)化,其中在線 tokenizer 的參數(shù)即為目標(biāo)網(wǎng)絡(luò)歷史參數(shù)的平均。其過程可表示為:

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

基于上述訓(xùn)練目標(biāo),作者提出了一種新的自監(jiān)督預(yù)訓(xùn)練框架 iBOT。iBOT 同時優(yōu)化上述兩項損失函數(shù)。其中,在 [CLS] 標(biāo)簽上的自蒸餾保證了在線 tokenizer 學(xué)習(xí)到高語義特征,并將該語義遷移到 MIM 的優(yōu)化過程中;而在 patch 標(biāo)簽上的自蒸餾則將在線 tokenizer 表征的 patch 連續(xù)分布作為目標(biāo)監(jiān)督 masked patch 的復(fù)原。該方法在保證模型學(xué)習(xí)到高語義特征的同時,通過 MIM 顯式建模了圖片的內(nèi)部結(jié)構(gòu)。同時,在線 tokenizer 與 MIM 目標(biāo)可以一起端到端地學(xué)習(xí),無需額外的 tokenizer 訓(xùn)練階段。

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

預(yù)訓(xùn)練時采用孿生網(wǎng)絡(luò)結(jié)構(gòu),其中在線 tokenizer 可以看作教師分支的一部分。教師、學(xué)生兩分支包括結(jié)構(gòu)相同的 backbone 網(wǎng)絡(luò)和 projection 網(wǎng)絡(luò)。作者廣泛驗證了 iBOT 方法搭配不同的 Transformers 作為 backbone,如 Vision Transformers(ViT-S/16, ViT-B/16, ViT-L/16)及 Swin Transformers(Swin-T/7, Swin-T/14)。作者發(fā)現(xiàn)共享 [CLS] 標(biāo)簽與 patch 標(biāo)簽的 projection 網(wǎng)絡(luò)能夠有效提升模型在下游任務(wù)上的遷移性能。作者還采用了隨機 MIM 的訓(xùn)練機制,對每張圖片而言,以 0.5 的概率不進(jìn)行 mask,以 0.5 的概率從 [0.1, 0.5] 區(qū)間隨機選取一個比例進(jìn)行 mask。實驗表明隨機 MIM 的機制對于使用了 multi-crop 數(shù)據(jù)增強的 iBOT 非常關(guān)鍵。

實驗結(jié)果

為了驗證 iBOT 預(yù)訓(xùn)練方法的有效性,作者在大量的下游任務(wù)上進(jìn)行了驗證,同時也在附錄里提供了比較詳細(xì)的不同任務(wù)超參數(shù)對最終結(jié)果的影響。

從 Linear probing(線性分類)及 k-NN 分類的結(jié)果上來看,iBOT 使用 ViT-B/16 達(dá)到 79.5% 線性分類準(zhǔn)確度,超越了 DINO 的 78.2%;使用 Swin-T/14 達(dá)到 79.3% 準(zhǔn)確度,超越了 EsViT 的 78.7%;使用 ViT-L/16 及 ImageNet-22K 作為預(yù)訓(xùn)練數(shù)據(jù)達(dá)到 81.6% 準(zhǔn)確度,為目前 ImageNet-1K 線性分類基準(zhǔn)上最高的結(jié)果。

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE
BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

從 Fine-tuning 的結(jié)果上來看,使用 ImageNet-1K 作為預(yù)訓(xùn)練數(shù)據(jù)及 ViT-B/16 時 iBOT 可達(dá)到 83.8% 準(zhǔn)確率,高于 DINO、MAE 的 83.6%;使用 ImageNet-22K 作為預(yù)訓(xùn)練數(shù)據(jù)及 ViT-L/16 時 iBOT 可達(dá)到 86.3%,高于 BEiT [4]的 86.0%。

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

在半監(jiān)督及無監(jiān)督分類的結(jié)果上來看,iBOT 也顯著優(yōu)于沒有 MIM 訓(xùn)練目標(biāo)的 DINO。其中在半監(jiān)督的基準(zhǔn)下,作者發(fā)現(xiàn)微調(diào)數(shù)據(jù)越少時,iBOT 的優(yōu)勢越明顯。在無監(jiān)督的基準(zhǔn)下,iBOT 能達(dá)到 43.4% 的準(zhǔn)確率以及 78.6% 的 NMI。

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

除此之外,因為 MIM 顯示建模了圖片內(nèi)部結(jié)構(gòu),作者發(fā)現(xiàn) iBOT 在密集的下游任務(wù)也有非常好的遷移結(jié)果。其中 iBOT 使用 ViT-B/16 及 Cascade Mask R-CNN 在目標(biāo)檢測下可達(dá)到 51.2 APb;使用 ViT-B/16 及 UperNet 在語義分割下可達(dá)到 50.0 mAP,高于 MAE 達(dá)到的 48.1 mAP。

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

同時作者也進(jìn)一步探究了 MIM 訓(xùn)練目標(biāo)所帶來的特性,以幫助分析 iBOT 在全局圖像任務(wù)及密集圖像任務(wù)出色表現(xiàn)的原因。作者根據(jù) ImageNet 驗證集中所有圖片 patch 的概率分布,可視化了部分類別中心所代表的模式。作者在大量的可視化結(jié)果中發(fā)現(xiàn) iBOT 針對局部語義有非常好的可視化結(jié)果,如下圖左一、左二中所示的車燈、狗耳朵展現(xiàn)了不同局部類別語義的出現(xiàn),而在下圖左三、左四中展現(xiàn)了不同局部紋理語義的出現(xiàn)。

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

在大量魯棒性分析及測評中,作者發(fā)現(xiàn) iBOT 相較沒有 MIM 訓(xùn)練目標(biāo)的 DINO 有更出色的表現(xiàn),這說明局部語義的出現(xiàn)能夠幫助模型在遮擋、模糊等一系列干擾存在的圖像識別任務(wù)下有更好的準(zhǔn)確性。

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

方法對比

近期 masked autoencoding 的思路可謂在視覺領(lǐng)域大火,和近期一些工作對比,BEiT 使用了一個預(yù)訓(xùn)練好的 DALL-E encoder 作為 tokenizer,將每個 patch 標(biāo)簽離散化后的 one-hot 編碼作為目標(biāo)模型的標(biāo)簽。

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

而 MPP [5]及近期較火的 MAE 則可將 tokenizer 視為恒等變換,即直接在像素空間內(nèi)進(jìn)行回歸而非分類。

BERT是圖像預(yù)訓(xùn)練未來?字節(jié)iBOT刷新十幾項SOTA,部分指標(biāo)超MAE

而 iBOT 則指出了上述幾種方式的 tokenizer 存在過度關(guān)注低級信息的問題,這也可以從上述幾種方法線性分類的性能不是很高可以看出。但近期 MAE 中指出當(dāng)圖片中被 mask 的比例足夠大時,可使網(wǎng)絡(luò)無法從相近 patches 中插值獲取信息從而迫使其學(xué)到全局信息;MAE 還指出線性分類并不是唯一評估特征表征能力的基準(zhǔn),且和下游遷移學(xué)習(xí)的表現(xiàn)不能較好相關(guān)。

 

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2022-01-07 09:56:49

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2020-03-17 09:42:00

谷歌開源機器學(xué)習(xí)

2021-03-22 11:23:09

云計算混合云微軟

2024-01-16 17:17:30

模型訓(xùn)練

2023-09-06 09:59:12

雷達(dá)技術(shù)

2021-03-30 08:52:35

微信新功能移動應(yīng)用

2023-06-20 16:19:00

機器3D

2025-03-18 08:19:01

2024-03-01 10:04:11

研究訓(xùn)練編碼器

2023-02-28 13:09:53

訓(xùn)練模型

2021-12-06 09:53:09

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2023-12-07 07:16:57

Meta訓(xùn)練

2021-09-07 13:22:57

模型人工智能計算

2020-03-13 15:33:54

Google 開源技術(shù)

2022-05-16 11:06:54

SOTA谷歌預(yù)訓(xùn)練

2025-07-02 09:21:30

2020-07-29 12:16:12

預(yù)訓(xùn)練自訓(xùn)練神經(jīng)網(wǎng)絡(luò)

2024-09-26 16:51:23

2023-01-08 13:15:56

2023-06-26 07:10:51

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 免费一级黄色录像 | 国产精品视频区 | 国产日产欧产精品精品推荐蛮挑 | 成人国内精品久久久久一区 | 国产亚洲精品久久19p | 在线视频成人 | 免费成人高清在线视频 | 欧美高清视频在线观看 | 69精品久久久久久 | 欧美群妇大交群中文字幕 | 成人在线一区二区三区 | 国产欧美精品区一区二区三区 | 亚洲 欧美 另类 综合 偷拍 | 精品国产一区二区在线 | 日韩一区不卡 | 成人一区av| 久久国产精品网站 | 日本在线观看视频 | 99国产精品99久久久久久 | 日本三级线观看 视频 | 91麻豆精品国产91久久久久久 | 91在线精品播放 | 久久最新精品 | 亚洲毛片在线观看 | 午夜精品 | 在线观看午夜视频 | 四虎影音 | 欧美成人精品 | 精品欧美一区二区精品久久久 | 91久久久久久久久久久 | 国产在线视频在线观看 | 伊大人久久| 精品国产伦一区二区三区观看方式 | 亚洲国产成人精品女人久久久 | 日韩精品在线免费 | 97综合在线 | 国产精品久久久久久久久大全 | 成人国产一区二区三区精品麻豆 | 国产精品高潮呻吟久久av野狼 | 成人高潮片免费视频欧美 | xxx.在线观看|