OmniTokenizer-視覺tokenizer生成
本文介紹一種視覺tokenizer的生成。
AIGC生成模型在人工智能領(lǐng)域發(fā)展迅速,視覺生成主要有基于語言模型和擴(kuò)散模型兩種范式,而tokenizer是其核心組件?,F(xiàn)有tokenizer分別針對圖像或視頻輸入設(shè)計,存在應(yīng)用靈活性和數(shù)據(jù)可擴(kuò)展性的局限。因此需要一種聯(lián)合圖像 - 視頻標(biāo)記器,以實現(xiàn)從兩種數(shù)據(jù)中聯(lián)合學(xué)習(xí),緩解單模態(tài)數(shù)據(jù)稀缺問題,并提高模型的通用性和可擴(kuò)展性。
今天介紹一種OmniTokenizer方法,感興趣的小伙伴可以看看原文:https://arxiv.org/abs/2406.09399
模型架構(gòu)
上圖為OmniTokenize架構(gòu)圖,從中可以看出:
- OmniTokenizer 由 patch 嵌入層和獨(dú)立的時空注意力塊組成。采用時空解耦架構(gòu),在空間維度使用窗口注意力機(jī)制,因其具有局部聚合能力和效率;在時間維度使用因果注意力機(jī)制,以捕捉視頻中的運(yùn)動并確保時間連貫性。
- 輸入數(shù)據(jù)首先進(jìn)行 Patchify 操作,將圖像和視頻幀分別分割為不重疊的塊并投影得到嵌入,然后通過時空分離的編碼器獲取潛在代碼,解碼器與編碼器對稱,最后通過線性投影層將時空標(biāo)記映射回像素空間。
訓(xùn)練過程
漸進(jìn)式訓(xùn)練策略,包括兩個連續(xù)階段:
- 首先在固定分辨率的圖像數(shù)據(jù)上進(jìn)行訓(xùn)練,以建立對靜態(tài)視覺信息的理解,即基礎(chǔ)的空間編碼能力
- 然后引入視頻數(shù)據(jù),在多分辨率上進(jìn)行聯(lián)合訓(xùn)練,學(xué)習(xí)時間動態(tài)信息,從而使模型能夠準(zhǔn)確捕捉單幀的空間細(xì)節(jié)和視頻序列的時間關(guān)系。訓(xùn)練過程中使用向量量化目標(biāo)函數(shù),并在后期通過 KL 散度進(jìn)行微調(diào)
實驗結(jié)果
在 ImageNet、CelebA - HQ 和 FFHQ 等圖像數(shù)據(jù)集以及 UCF - 101 和 Moments - in - Time 等視頻數(shù)據(jù)集上評估。在相同壓縮率和碼本大小下,OmniTokenizer - VQVAE 在圖像數(shù)據(jù)集上的重建 FID 指標(biāo)優(yōu)于現(xiàn)有方法,在 ImageNet 上達(dá)到 1.11,比之前的 SOTA 方法 ViT - VQGAN 提高了 13%;OmniTokenizer - VAE 進(jìn)一步將 FID 降低到 0.69。在視頻數(shù)據(jù)集上也取得了最佳的重建結(jié)果。
文轉(zhuǎn)載自公眾號瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷
