人工智能圖像生成技術(shù):短短5年內(nèi)如何飛速發(fā)展?
本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)
在過去幾年內(nèi),該機(jī)構(gòu)還制造出一只可以通過自學(xué)還原魔方的機(jī)器手、一組超人電子競技算法、一種合理生成人類音樂的算法,以及多種可以玩游戲和使用工具學(xué)習(xí)復(fù)雜策略的算法。
近期,OpenAI發(fā)布了DALL-E,一個可以根據(jù)書面文本生成圖像的人工智能系統(tǒng)。例如,系統(tǒng)響應(yīng)提詞“一個牛油果形狀的皮包。一個仿造牛油果樣式的皮包”,可以產(chǎn)生幾十次關(guān)于牛油果皮包的迭代。

圖源: OpenAI
該公司還未將DALL-E(Salvador Dalí和WALL-E名字的結(jié)合)公之于眾,甚至也尚未邀請其特定開發(fā)者群體來試用新軟件,但據(jù)其網(wǎng)站上的案例所示,該系統(tǒng)可以創(chuàng)建極其逼真且細(xì)致的圖像。
DALL-E精通各種藝術(shù)風(fēng)格,包括插圖和風(fēng)景畫。它還可以生成文本,在建筑物上進(jìn)行標(biāo)記,并將同一場景的素描線條和全彩圖像分離。研究人員把這種影響深遠(yuǎn)的能力稱為泛化能力,即算法并非專門針對某一種任務(wù)或藝術(shù)風(fēng)格。
OpenAI將算法的神通廣大歸功于兩個主要因素:其一,算法非常龐大。它使用了120億個參數(shù),數(shù)量大到令人驚異。而這些參數(shù)可以被認(rèn)為是算法轉(zhuǎn)動的旋鈕,用來調(diào)整其理解想法的方式。這120億個參數(shù)在分析圖像和文本時能夠分辨出諸多特異性,令人難以置信。
然后,這些圖像和文本材料被輸入到算法中,并且被翻譯成更易于算法理解的標(biāo)記或文本。OpenAI解釋說,一個標(biāo)記就像英語字母表中的一個字母——它們代表碎片化的概念,這一方式更易于機(jī)器計算,并且以它們以算法的語言模式排列。
這一機(jī)器字母表包含16384個文本標(biāo)記和8192個圖像標(biāo)記。這種將人類可讀文本自動轉(zhuǎn)換為機(jī)器可讀文本的方法稱為“轉(zhuǎn)換器模型”。一個字幕或帶有文本的圖像轉(zhuǎn)換為算法,最多會被翻譯成256個標(biāo)記,而圖像最多能被翻譯成1024個標(biāo)記。這使得算法能夠為相對較少的文本輸入匹配到更復(fù)雜的圖像。
之后,算法將通過分析成對的圖像和字幕不斷進(jìn)化。通過表面上數(shù)百萬次迭代,它能夠?qū)⑽谋酒闻c圖像的特定特征聯(lián)系起來。但OpenAI還未公布這一數(shù)據(jù)集的容量或其包含的圖像內(nèi)容。
該公司并不是第一個嘗試從文本中生成圖像的公司,甚至這也不是OpenAI的首次嘗試。這只是此類算法的最新版本,似乎也是最可行的一個版本。雖然該公司還未發(fā)表過任何文章來描述該系統(tǒng),但這一算法的創(chuàng)造者確實曾在其博客上引用了DALL-E的前置任務(wù)。
通過對算法的沿襲進(jìn)行考察,我們可以追蹤到這項技術(shù)實際上的發(fā)展程度。
2016
OpenAI引用了這篇由密歇根大學(xué)和馬普研究所撰寫的論文,為當(dāng)前文本到圖像生成的研究注入了活力。
這篇論文使用了生成式對抗網(wǎng)絡(luò)(generative adversarial networks generative,簡稱GANs)來生成圖像。GANs的功能是將兩種算法相互對立:一種生成圖像,另一種將不夠真實的圖像駁回。

圖源: Reed et. al
2017
一年后,羅格斯大學(xué)、里海大學(xué)和中國香港大學(xué)的研究人員采取了另一種 GAN 方法——“堆疊”成對的算法。第一對算法列出場景的形狀和顏色,然后第二對算法細(xì)化細(xì)節(jié)。
圖源: Zhang et. al
2019
2019年,另一支主要隸屬于微軟的團(tuán)隊嘗試了不同的“兩步走”方法。第一步是生成場景中對象所在位置的示意圖,第二步是使用該示意圖作為向?qū)蓸?gòu)成目標(biāo)圖片所需的對象。

圖源: Li et. al
2020
去年年底,美國人工智能艾倫研究所發(fā)表了一項使用轉(zhuǎn)換器模型的研究,與OpenAI使用的轉(zhuǎn)換器模型相同。艾倫研究所的研究人員沒有追求模型的規(guī)模,而是依賴于“隱蔽”。
在《麻省理工學(xué)院科技評論》上有一篇文章詳細(xì)解釋了這一概念,Karen Hao將“隱蔽”描述為“把不同的單詞隱藏在句子中,讓模型填補(bǔ)空白”。算法掌握這些直觀性跳躍后,研究者發(fā)現(xiàn)生成的圖像質(zhì)量得到顯著提升。

圖源: Cho et al.
回溯過去這些研究案例,我們可以發(fā)現(xiàn)OpenAI的DALL-E確實是一項飛躍。從模糊不清的斑點開始,最先進(jìn)的技術(shù)已發(fā)展到能夠生成牛油果形狀的椅子,OneZero專欄作家歐文·威廉姆斯表示他真的愿意購買這樣的椅子。
這些進(jìn)步足以讓一代家具設(shè)計師、圖庫藝術(shù)家以及其他網(wǎng)絡(luò)藝術(shù)家感到害怕。