前言
什么是 AI?在你的腦海中可能浮現(xiàn)由一個(gè)個(gè)神經(jīng)元堆疊起來(lái)的神經(jīng)網(wǎng)絡(luò)。那什么是繪畫(huà)藝術(shù)?是達(dá)芬奇的《蒙娜麗莎的微笑》,是梵高的《星空夜》、《向日葵》,還是約翰內(nèi)斯·維米爾的《戴珍珠耳環(huán)的少女》?當(dāng) AI 遇上繪畫(huà)藝術(shù),它們之間能擦出什么樣的火花呢??
2021年初,OpenAI 團(tuán)隊(duì)發(fā)布了能夠根據(jù)文本描述生成圖像的 DALL-E 模型。由于其強(qiáng)大的跨模態(tài)圖像生成能力,引起自然語(yǔ)言和視覺(jué)圈技術(shù)愛(ài)好者的強(qiáng)烈追捧。僅僅一年多的時(shí)間,多模態(tài)圖像生成技術(shù)如雨后春筍般開(kāi)始涌現(xiàn),期間也誕生了許多利用這些技術(shù)進(jìn)行 AI 藝術(shù)創(chuàng)作的應(yīng)用,比如最近火得一塌糊涂的 Disco Diffusion。如今,這些應(yīng)用正逐漸走進(jìn)藝術(shù)創(chuàng)作者和普通大眾的視野,成為了很多人口中的“神筆馬良”。
?本文從技術(shù)興趣出發(fā),對(duì)多模態(tài)圖像生成技術(shù)與經(jīng)典工作進(jìn)行介紹,最后探索如何使用多模態(tài)圖像生成進(jìn)行神奇的 AI 繪畫(huà)藝術(shù)創(chuàng)作。????筆者使用 Disco Diffusion 創(chuàng)作的 AI 繪畫(huà)藝術(shù)作品?
多模態(tài)圖像生成概念
多模態(tài)圖像生成(Multi-Modal Image Generation)旨在利用文本、音頻等模態(tài)信息作為指導(dǎo)條件,生成具有自然紋理的逼真圖像。不像傳統(tǒng)的根據(jù)噪聲生成圖像的單模態(tài)生成技術(shù),多模態(tài)圖像生成一直以來(lái)就是一件很有挑戰(zhàn)的任務(wù),要解決的問(wèn)題主要包括:
(1)如何跨越“語(yǔ)義鴻溝”,打破各模態(tài)之間固有的隔閡?
(2)如何生成合乎邏輯的,多樣性的,且高分?辨率的圖像?近兩年,隨著 Transformer 在自然語(yǔ)言處理(如 GPT)、計(jì)算機(jī)視覺(jué)(如 ViT)、多模態(tài)預(yù)訓(xùn)練(如 CLIP)等領(lǐng)域的成功應(yīng)用,以及以 VAE、GAN 為代表的圖像生成技術(shù)有逐漸被后起之秀——擴(kuò)散模型(Diffusion Model)趕超之勢(shì),多模態(tài)圖像生成的發(fā)展一發(fā)不可收拾。?
多模態(tài)圖像生成技術(shù)與經(jīng)典工作
分類(lèi)
按照訓(xùn)練方式采用的是 Transformer 自回歸還是擴(kuò)散模型的方式,近兩年多模態(tài)圖像生成重點(diǎn)工作分類(lèi)如下:
??
?
Transformer 自回歸
采取 Transformer 自回歸方式的做法往往將文本和圖像分別轉(zhuǎn)化成 tokens 序列,然后利用生成式的 Transformer 架構(gòu)從文本序列(和可選圖像序列)中預(yù)測(cè)圖像序列,最后使用圖像生成技術(shù)(VAE、GAN等)對(duì)圖像序列進(jìn)行解碼,得到最終生成圖像。以 DALL-E (OpenAI)[1] 為例:
??圖像和文本通過(guò)各自編碼器轉(zhuǎn)化成序列,拼接到一起送入到 Transformer(這里用的是 GPT3)進(jìn)行自回歸序列生成。在推理階段,使用預(yù)訓(xùn)練好的 CLIP 計(jì)算文本與生成圖像的相似度,進(jìn)行排序后得到最終生成圖像的輸出。與 DALL-E 類(lèi)似,清華的 CogView 系列 [2, 3] 與百度的 ERNIE-ViLG [4] 同樣使用 VQ-VAE + Transformer 的架構(gòu)設(shè)計(jì),谷歌的 Parti [5] 則將圖像編解碼器換成了 ViT-VQGAN。而微軟的 NUWA-Infinity [6] 使用自回歸方式可以做到無(wú)限視覺(jué)生成。
擴(kuò)散模型
擴(kuò)散模型(Diffusion Model)是一種圖像生成技術(shù),最近一年發(fā)展迅速,被喻為 GAN 的終結(jié)者。如圖所示,擴(kuò)散模型分為兩階段:(1)加噪:沿著擴(kuò)散的馬爾可夫鏈過(guò)程,逐漸向圖像中添加隨機(jī)噪聲;(2)去噪:學(xué)習(xí)逆擴(kuò)散過(guò)程恢復(fù)圖像。常見(jiàn)變體有去噪擴(kuò)散概率模型(DDPM)等。??
采取擴(kuò)散模型方式的多模態(tài)圖像生成做法,主要是通過(guò)帶條件引導(dǎo)的擴(kuò)散模型學(xué)習(xí)文本特征到圖像特征的映射,并對(duì)圖像特征進(jìn)行解碼得到最終生成圖像。以 DALL-E-2(OpenAI)[7] 舉例,其雖然是 DALL-E 的續(xù)作,但是采取的技術(shù)路線與 DALL-E 截然不同,其原理更像是 GLIDE [8](有人稱(chēng) GLIDE 為 DALL-E-1.5)。DALL-E-2 的整體架構(gòu)如圖所示:??
DALL-E-2 使用 CLIP 對(duì)文本進(jìn)行編碼,并使用擴(kuò)散模型學(xué)習(xí)一個(gè)先驗(yàn)(prior)過(guò)程,得到文本特征到圖像特征的一個(gè)映射;最后學(xué)習(xí)一個(gè)反轉(zhuǎn) CLIP 的過(guò)程,將圖像特征解碼成最終的圖像。相比于 DALL-E-2,谷歌的 Imagen [9] 則使用預(yù)訓(xùn)練好的 T5-XXL 來(lái)取代 CLIP 進(jìn)行文本編碼,然后使用超分?jǐn)U散模型(U-Net 架構(gòu))增大圖像尺寸,得到 1024??1024 高清的生成圖像。
小結(jié)
自回歸 Transformer 的引入與 CLIP 對(duì)比學(xué)習(xí)的方式,建立了文本和圖像之間的橋梁;同時(shí)基于帶條件引導(dǎo)的擴(kuò)散模型,為生成多樣性且高分辨率的圖像奠定了基礎(chǔ)。然而,評(píng)估圖像生成質(zhì)量往往帶有主觀因素,因此在這里比較 Transformer 自回歸還是擴(kuò)散模型的技術(shù)誰(shuí)更勝一籌是一件困難的事情。并且像 DALL-E 系列、Imagen 以及 Parti 等模型在大規(guī)模數(shù)據(jù)集上訓(xùn)練,使用會(huì)存在倫理問(wèn)題以及社會(huì)偏見(jiàn),因此這些模型尚未開(kāi)源。但是還是有很多愛(ài)好者在嘗試使用其中的技術(shù),期間也產(chǎn)生了很多可玩的應(yīng)用。?
AI 藝術(shù)創(chuàng)作
多模態(tài)圖像生成技術(shù)的發(fā)展,為 AI 藝術(shù)創(chuàng)作提供了更多的可能。目前,被廣泛使用的 AI 創(chuàng)作應(yīng)用及工具包括 CLIPDraw,VQGAN-CLIP,Disco Diffusion,DALL-E Mini,Midjourney(需被邀請(qǐng)資格),DALL-E-2(需內(nèi)測(cè)資格),Dream By Wombo(App),Meta ”Make-A-Scene”,Tiktok “AI 綠幕” 功能,Stable Diffusion [10],百度“一格”等。本文主要利用在藝術(shù)創(chuàng)作圈火爆的 Disco Diffusion 進(jìn)行 AI 藝術(shù)創(chuàng)作。
Disco Diffusion 簡(jiǎn)介
Disco Diffusion [11] 是一個(gè)在 Github 上由眾多技術(shù)愛(ài)好者共同維護(hù)的 AI 藝術(shù)創(chuàng)作應(yīng)用,目前已經(jīng)迭代了多個(gè)版本。從 Disco Diffusion 的名字不難看出,其采用的技術(shù)主要是用 CLIP 引導(dǎo)的擴(kuò)散模型。Disco Diffusion 可以根據(jù)指定的文本描述(和可選底圖)來(lái)生成藝術(shù)圖像或視頻。比如輸入“花海”,模型就會(huì)隨機(jī)產(chǎn)生一張?jiān)肼晥D像,通過(guò) Diffusion 的去噪擴(kuò)散過(guò)程一步步迭代,達(dá)到一定步數(shù)后就能渲染出一張美麗的圖像。得益于擴(kuò)散模型多樣化的生成方式,每次運(yùn)行程序都會(huì)得到不同的圖像,這種“開(kāi)盲盒”的體驗(yàn)著實(shí)讓人著迷。
Disco Diffsion 存在問(wèn)題
基于多模態(tài)圖像生成模型 Disco Diffusion(DD)進(jìn)行 AI 創(chuàng)作目前存在以下幾個(gè)問(wèn)題:
(1)生成圖像質(zhì)量參差不齊:根據(jù)生成任務(wù)的難易程度,粗略估算描述內(nèi)容較難的生成任務(wù)良品率 20%~30%,描述內(nèi)容較容易的生成任務(wù)良品率 60%~70%,大多數(shù)任務(wù)良品率在 30~40% 之間。
(2)生成速度較慢+內(nèi)存消耗較大:以迭代 250 steps 生成一張 1280*768 圖像為例,需要大約花費(fèi) 6分鐘,以及使用 V100 16G 顯存。
(3)嚴(yán)重依賴(lài)專(zhuān)家經(jīng)驗(yàn):選取一組合適的描述詞需要經(jīng)過(guò)大量文本內(nèi)容試錯(cuò)及權(quán)重設(shè)置、畫(huà)家畫(huà)風(fēng)及藝術(shù)社區(qū)的了解以及文本修飾詞的選取等;調(diào)整參數(shù)需要對(duì) DD 包含的 CLIP 引導(dǎo)次數(shù)/飽和度/對(duì)比度/噪點(diǎn)/切割次數(shù)/內(nèi)外切/梯度大小/對(duì)稱(chēng)/... 等概念深刻了解,同時(shí)要有一定的美術(shù)功底。眾多的參數(shù)也意味著需要較強(qiáng)的專(zhuān)家經(jīng)驗(yàn)才能獲得一張還不錯(cuò)的生成圖像。
技能儲(chǔ)備
針對(duì)上述問(wèn)題,我們做了一些數(shù)據(jù)與技術(shù)儲(chǔ)備,同時(shí) YY 了一些未來(lái)可能的應(yīng)用。如下圖所示:
??
- 針對(duì)第一個(gè)問(wèn)題,我們從藝術(shù)創(chuàng)作社區(qū)爬取了近 2w 張 AI 生成的藝術(shù)作品,從生成圖像的基礎(chǔ)屬性以及內(nèi)容合理性進(jìn)行三分類(lèi)打標(biāo):質(zhì)量好/質(zhì)量一般/質(zhì)量差,訓(xùn)練一個(gè)藝術(shù)作品質(zhì)量評(píng)估模型。該模型能自動(dòng)評(píng)估 AI 生成圖像的質(zhì)量并挑選出良品率高的圖像,解決手動(dòng)挑選高質(zhì)量圖像效率低的問(wèn)題。
- 針對(duì)第二個(gè)問(wèn)題,我們通過(guò)減少迭代次數(shù)+生成小尺寸圖像,然后利用超分辨率算法 ESRGAN 進(jìn)行高分辨率圖像重建的方式,來(lái)提高 DD 的生成效率。該方法能達(dá)到與 DD 正常迭代生成的圖像效果,生成效率與顯存優(yōu)化至少提升了一倍。
- 針對(duì)第三個(gè)問(wèn)題,我們沉淀了一套底圖預(yù)處理邏輯,包括色溫色調(diào)調(diào)整/前背景調(diào)色/添加噪點(diǎn)等,能快速應(yīng)用不同底圖生成任務(wù);同時(shí),我們也積累了海量的文本提示詞,進(jìn)行了大量的 DD 調(diào)參試錯(cuò),依賴(lài)專(zhuān)家經(jīng)驗(yàn)生成個(gè)性化、多樣化的高質(zhì)量圖像。
?利用這些數(shù)據(jù)與技術(shù)儲(chǔ)備,我們已經(jīng)積累了手機(jī)/電腦壁紙、藝術(shù)姓/名、地標(biāo)城市風(fēng)格化、數(shù)字藏品等多模態(tài)圖像生成應(yīng)用方式。下面我們將展示具體的 AI 生成藝術(shù)作品。
AI 藝術(shù)作品
城市地標(biāo)建筑風(fēng)格化
通過(guò)輸入文本描述與地標(biāo)城市底圖,生成不同風(fēng)格的畫(huà)作(動(dòng)漫風(fēng)格 / 賽博朋克風(fēng)格 / 像素畫(huà)風(fēng)格):
(1) A building with anime style, by makoto shinkai and beeple, Trending on artstation.
(2) A building with cyberpunk style, by Gregory Grewdson, Trending on artstation.
(3) A building with pixel style, by Stefan Bogdanovi, Trending on artstation.
????數(shù)字藏品
通過(guò)輸入文本描述與底圖,在底圖上進(jìn)行創(chuàng)作。
- 螞蟻 Logo 系列(螞蟻森林 / 螞蟻小屋 / 螞蟻飛船):
(1) A landscape with vegetation and lake, by RAHDS and beeple, Trending on artstation.(2) Enchanted cottage on the edge of a cliff foreboding ominous fantasy landscape, by RAHDS and beeple, Trending on artstation.
(3) A spacecraft by RAHDS and beeple, Trending on artstation.
- 螞蟻小雞系列(小雞之變形金剛 / 小雞之海綿寶寶):
(1) Transformers with machine armor, by Alex Milne, Trending on artstation.
(2) Spongebob by RAHDS and beeple, Trending on artstation.
手機(jī)/電腦壁紙
- 通過(guò)輸入文本描述,生成手機(jī)壁紙:
(1) The esoteric dreamscape by Dan Luvisi, trending on Artstation, matte painting vast landscape.
(2) Scattered terraces, winter, snow, by Makoto Shinka, trending on Artstation, 4k wallpaper.
(3) A beautiful cloudpunk painting of Atlantis arising from the abyss heralded by steampunk whales by Pixar rococo style, Artstation, volumetric lighting.??
(4~8) A scenic view of the planets rotating through chantilly cream by Ernst Haeckel and Pixar trending on Artstation, 4k wallpaper.
- ??通過(guò)輸入文本描述,生成電腦壁紙:
(1) Fine, beautiful country fields, super wide angle, overlooking, morning by Makoto Shinkai.
(2) A beautiful painting of a starry night, shining its light across a sunflower sea by James Gurney, Trending on artstation.
(3) Fairy tale steam country by greg rutkowski and thomas kinkade Trending on artstation.
(4) A beautiful render of a magical building in a dreamy landscape by daniel merriam, soft lighting, 4k hd wallpaper, Trending on artstation and behance.??
AI 藝術(shù)姓
- 通過(guò)輸入文本描述與姓氏底圖,生成不同風(fēng)格的藝術(shù)姓:
(1) Large-scale military factories, mech testing machines, Semi-finished mechs, engineering vehicles, automation management, indicators, future, sci-fi, light effect, high-definition picture.
(2) A beautiful painting of mashroom, tree, artstation, Artstation, 4k hd wallpaper.
(3) A beautiful painting of sunflowers, fog, unreal engine, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Artstation, Andreas Rocha, Greg Rutkowski.
(4) A beautiful painting of the pavilion on the water presents a reflection, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.
(5) A beautiful landscape of a lush jungle with exotic plants and trees, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.
(6) Contra Force, Red fortress, spacecraft, by Ernst Haeckel and Pixar, wallpaper hd 4k, trending on artstation.
其他 AI 藝術(shù)創(chuàng)作應(yīng)用
Stable Diffusion [10, 12] 展現(xiàn)了比 Disco Diffusion [11] 更加高效且穩(wěn)定的創(chuàng)作能力,尤其是在“物”的刻畫(huà)上更加突出。下圖是筆者利用 Stable Diffusion,根據(jù)文本創(chuàng)作的 AI 繪畫(huà)作品:??
?總結(jié)展望
本文主要介紹了近兩年來(lái)多模態(tài)圖像生成技術(shù)及相關(guān)的進(jìn)展工作,并嘗試使用多模態(tài)圖像生成進(jìn)行多種 AI 藝術(shù)創(chuàng)作。接下來(lái),我們還將探索多模態(tài)圖像生成技術(shù)在消費(fèi)級(jí) CPU 上運(yùn)行的可能性,以及結(jié)合業(yè)務(wù)為 AI 智能創(chuàng)作賦能,并嘗試更多如電影、動(dòng)漫主題封面,游戲,元宇宙內(nèi)容創(chuàng)作等更多相關(guān)應(yīng)用。
?使用多模態(tài)圖像生成技術(shù)進(jìn)行藝術(shù)創(chuàng)作只是 AI 自主生產(chǎn)內(nèi)容(AIGC,AI generated content)的一種應(yīng)用方式。得益于當(dāng)前海量數(shù)據(jù)與預(yù)訓(xùn)練大模型的發(fā)展,AIGC 能夠加速落地,為人類(lèi)提供更多優(yōu)質(zhì)內(nèi)容。或許,通用人工智能又邁進(jìn)了一小步??如果你對(duì)本文涉及到的技術(shù)或者應(yīng)用感興趣,歡迎共創(chuàng)交流。?
參考文獻(xiàn)
[1] Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[C]//International Conference on Machine Learning. PMLR, 2021: 8821-8831.
[2] Ding M, Yang Z, Hong W, et al. Cogview: Mastering text-to-image generation via transformers[J]. Advances in Neural Information Processing Systems, 2021, 34: 19822-19835.
[3] Ding M, Zheng W, Hong W, et al. CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers[J]. arXiv preprint arXiv:2204.14217, 2022.
[4] Zhang H, Yin W, Fang Y, et al. ERNIE-ViLG: Unified generative pre-training for bidirectional vision-language generation[J]. arXiv preprint arXiv:2112.15283, 2021.
[5] Yu J, Xu Y, Koh J Y, et al. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation[J]. arXiv preprint arXiv:2206.10789, 2022.
[6] Wu C, Liang J, Hu X, et al. NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis[J]. arXiv preprint arXiv:2207.09814, 2022.
[7] Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with clip latents[J]. arXiv preprint arXiv:2204.06125, 2022.
[8] Nichol A, Dhariwal P, Ramesh A, et al. Glide: Towards photorealistic image generation and editing with text-guided diffusion models[J]. arXiv preprint arXiv:2112.10741, 2021.
[9] Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. arXiv preprint arXiv:2205.11487, 2022.
[10] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.
[11] Github: https://github.com/alembics/disco-diffusion?
[12] Github: https://github.com/CompVis/stable-diffusion?