AI版「女媧」來了!文字生成圖像、視頻,八類任務(wù)一個模型搞定
近來,視覺合成任務(wù)備受關(guān)注。幾天前英偉達的 GauGAN 剛剛上新了 2.0 版本,現(xiàn)在一個新視覺合成模型 Nüwa(女媧)也火了。
相比于 GauGAN,「女媧」的生成模式更加多樣,不僅有文本涂鴉生成圖像,還能從文本生成視頻。
隨著 VQ-VAE 這種離散化 VAE 方案的出現(xiàn),高效和大規(guī)模的預(yù)訓練被逐漸應(yīng)用于視覺合成任務(wù),例如 DALL-E(圖像)、GODIVA(視頻)。這些模型雖然取得了巨大的成功,但仍然存在一些局限性——它們分別處理圖像和視頻,專注于生成其中一種,這限制了模型從圖像和視頻數(shù)據(jù)中受益。相比之下,「女媧」是一個統(tǒng)一的多模態(tài)預(yù)訓練模型,在 8 種包含圖像和視頻處理的下游視覺任務(wù)上具有出色的合成效果。

論文地址:https://arxiv.org/pdf/2111.12417.pdf
GitHub 地址:https://github.com/microsoft/NUWA
模型概覽
該研究提出了一個通用的 3D transformer——編碼器 - 解碼器框架(如下圖所示),同時涵蓋了語言、圖像和視頻,可用于多種視覺合成任務(wù)。該框架由以文本或視覺草圖作為輸入的自適應(yīng)編碼器和由 8 個視覺合成任務(wù)共享的解碼器組成。

「女媧」整體架構(gòu)圖。
該框架還包含一種 3D Nearby Attention (3DNA) 機制,以考慮空間和時間上的局部特征。3DNA 不僅降低了計算復(fù)雜度,還提高了生成結(jié)果的視覺質(zhì)量。與幾個強大的基線相比,「女媧」在文本到圖像生成、文本到視頻生成、視頻預(yù)測等方面都得到了 SOTA 結(jié)果。此外,「女媧」還顯示出驚人的零樣本學習能力。
「女媧」的 8 種跨模態(tài)合成模式分別是:
文本轉(zhuǎn)圖像:

涂鴉轉(zhuǎn)圖像:

圖像補全:

根據(jù)文本編輯圖像:

文本轉(zhuǎn)視頻:
視頻預(yù)測:
涂鴉轉(zhuǎn)視頻:
根據(jù)文本編輯視頻:
實驗結(jié)果
還研究通過多項實驗評估了合成結(jié)果。
首先研究者將「女媧」在三個數(shù)據(jù)集上進行預(yù)訓練:用于文本 - 圖像 (T2I) 生成的 Conceptual Captions,包括 2.9M 文本 - 圖像對;用于視頻預(yù)測 (V2V) 的 Moments in Time,包括 727K 視頻;用于文本 - 視頻 (T2V) 生成的 VATEX 數(shù)據(jù)集,包括 241K 文本 - 視頻對。
與 SOTA 方法比較
文本 - 圖像 (T2I) 微調(diào):該研究比較了「女媧」在 MSCOCO 數(shù)據(jù)集上的性能,如表 1 和圖 3 所示:在表 1 中,「女媧」明顯優(yōu)于 CogView,其中 FID-0 為 12.9,CLIPSIM 為 0.3429 。盡管 XMC-GAN 的 FID-0 為 9.3,優(yōu)于「女媧」,但「女媧」能生成更逼真的圖像,如圖 3 所示。特別是在最后一個例子中,「女媧」生成的男孩臉更清晰,并且男孩旁邊的氣球也很逼真。


文本 - 視頻 (T2V) 微調(diào):該研究在 Kinetics 數(shù)據(jù)集上評估了「女媧」,結(jié)果如表 2 和圖 4 所示。在表 2 中,「女媧」在所有指標上實現(xiàn)了最好的性能。

在圖 4 中,該研究還展示了「女媧」強大的零樣本生成能力,可以生成沒見過的圖像,例如:在游泳池里打高爾夫球,在海里奔跑:

視頻預(yù)測 (V2V) 微調(diào):該研究在 BAIR Robot Pushing 數(shù)據(jù)集上對「女媧」和其他模型進行了比較,結(jié)果如表 3 所示:為了進行公平比較,所有模型都使用 64×64 分辨率。雖然只給出了一幀作為條件(Cond.),但「女媧」仍然將 SOTA FVD 得分從 94±2 降到 86.9 。

草圖 - 圖像 (S2I)微調(diào):該研究在 MSCOCO stuff 上進行實驗,如圖 5 所示。與 Taming-Transformers 和 SPADE 相比,「女媧」生成了種類繁多的逼真汽車, 甚至巴士車窗的反射也清晰可見。

圖像補全 (I2I) 零樣本評估:給定塔樓的上部,與 Taming Transformers 模型進行比較,「女媧」可以生成對塔樓下半部分更豐富的想象,包括生成周圍建筑物、湖泊、花草、樹木、山脈等。
文本 - 指導(dǎo)圖像處理 (TI2I) 零樣本評估:「女媧」顯示了其強大的處理能力,可以生成高質(zhì)量的文本一致性結(jié)果,而不會改變圖像的其他部分。
消融實驗
圖 5 顯示了文本 - 視頻 (T2V) 生成任務(wù)中多任務(wù)預(yù)訓練的有效性。該研究在具有挑戰(zhàn)性的數(shù)據(jù)集 MSR-VTT(具有自然描述和真實視頻) 上進行了實驗。「女媧」FID-vid 為 47.68,CLIPSIM 為 0.2439。
圖 9 顯示了文本指導(dǎo)視頻處理(TV2V)。第一行顯示了原始視頻幀,潛水員在潛水;第二行為潛水員正在向水面游;第三行顯示可以讓潛水員游到海底,如果我們想生成讓潛水員飛向天空的圖片?「女媧」可以實現(xiàn),從圖中可以看出,潛水員像火箭一樣飛向天空。
