只要你一句話,馬斯克就得留掃把頭,項(xiàng)目已開源
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
現(xiàn)在,Adobe不想讓你用手P圖了——動(dòng)動(dòng)口就行。
只需要你說(shuō)一句話,計(jì)算機(jī)就能P出你想要的效果。
例如,說(shuō)出想要的發(fā)型,馬斯克就會(huì)立刻被剃頭:“Hi-top Fade(掃把頭),變!”

膚色、妝容也都能輕松改變,一句“face with/without makeup”就能上妝/卸妝:

△給霉霉上妝/卸妝
甚至還能直接改變?nèi)藰樱o小李子變出胡子、金發(fā)后,變成特朗普!

除了人,動(dòng)物、景物也能P。
輸入“cute cat”,就能讓圖中的貓變成“大眼萌貓”:

說(shuō)一句“classic car”,它就能把你的車P成經(jīng)典古老的車型,還能手動(dòng)調(diào)復(fù)古程度:

簡(jiǎn)直是手殘P圖玩家的福音。
沒(méi)錯(cuò),這是來(lái)自Adobe、希伯來(lái)大學(xué)、特拉維夫大學(xué)的新操作,只需要一句話,就能讓計(jì)算機(jī)“修”出你想要的圖片。
現(xiàn)在,項(xiàng)目已經(jīng)開源。
當(dāng)GAN遇上CLIP
這一神奇的操作,來(lái)自一種新算法:StyleCLIP。
沒(méi)錯(cuò),就是將目前最先進(jìn)的GAN——StyleGAN,和OpenAI搞出來(lái)的CLIP模型結(jié)合到一起。

為何選擇這兩個(gè)模型?
其中,CLIP不能自己生成圖像,但具有很好的圖像分類效果。
它不僅可以理解輸入的詞語(yǔ),還能將語(yǔ)義和圖像特征聯(lián)系起來(lái)。
也就是說(shuō),CLIP有著和人腦極為相似的工作方式,不僅能將CV和NLP從技術(shù)上打通,還給他們分配了專門的處理區(qū)域。
例如,一旦聽到“蜘蛛俠”三個(gè)字、或是看到蜘蛛俠的照片,CLIP的某個(gè)特殊區(qū)域就開始響應(yīng),甚至原本用來(lái)響應(yīng)紅色和藍(lán)色的區(qū)域也會(huì)“躁動(dòng)”。

而StyleGAN,雖然能實(shí)現(xiàn)照片級(jí)模擬,生成非常逼真的圖像:
但StyleGAN、StyleGAN2等一系列GAN模型,卻沒(méi)辦法獨(dú)立更改如面部外觀、形狀或表情等參數(shù),只能像下面這樣,從整體、中等、微調(diào)等大方向去改變形象:

如果將CLIP和StyleGAN合成新模型,只需要一句文本信息,它就能幫你P出既逼真、又能控制細(xì)節(jié)的圖像來(lái)。
點(diǎn)點(diǎn)鼠標(biāo),就能調(diào)整效果
事實(shí)上,模型的效果也確實(shí)不錯(cuò),功能非常全面。
還自帶一個(gè)圖形界面窗口:用一句話說(shuō)出需求后,用鼠標(biāo)就能進(jìn)行調(diào)節(jié)。
例如,一鍵將英國(guó)首相鮑里斯·約翰遜(Alexander Boris de Pfeffel Johnson)變成女人:

還能讓他愁眉不展、或是開口大笑:

不僅能記住一整個(gè)人的面部特征,并根據(jù)需要換臉、換頭發(fā)、換妝;還能應(yīng)用在動(dòng)物身上,甚至將老虎變成獅子:

當(dāng)然,將普通的房子變成哥特式(gothic)建筑也行。
在單個(gè)NVIDIA GTX 1080Ti GPU上,進(jìn)行全局預(yù)處理的時(shí)間是4個(gè)小時(shí)。預(yù)處理后,就能將不同的文本-圖像對(duì)應(yīng)用在上面了。
至于訓(xùn)練的時(shí)間,則需要跑10~12個(gè)小時(shí),加上優(yōu)化器后的推理時(shí)間是98秒。

那么,模型的穩(wěn)定性如何?
即使背景人物不同,在用一句話P圖后,它們之間的相似度也能達(dá)到73%以上,最高能達(dá)到84%。

也就是說(shuō),模型改變特征的效果還是很穩(wěn)定的。
當(dāng)然,即使測(cè)試效果很好,網(wǎng)友們還是發(fā)現(xiàn)了一些圖片生成的bug。
例如,網(wǎng)友發(fā)現(xiàn),長(zhǎng)著胡子的男性,看起來(lái)要比沒(méi)有胡子的男性更生氣?

有網(wǎng)友在測(cè)試后表示,個(gè)別效果如“加深男性膚色”(tanned man)確實(shí)不夠好,需要進(jìn)行數(shù)據(jù)清洗。

除此之外,也有網(wǎng)友建議作者嘗試進(jìn)一步研究,如模型中的偏見性。
例如,試試“成功的男人/女人”、“罪犯”等形容詞,看看這個(gè)模型會(huì)生成什么。
作者介紹
一作Or Patashnik,來(lái)自特拉維夫大學(xué)(Tel-Aviv University),主要研究方向是計(jì)算機(jī)視覺(jué)。
共同一作吳宗澤(Zongze Wu),來(lái)自希伯來(lái)大學(xué)(Hebrew University of Jerusalem),主要研究方向是計(jì)算機(jī)視覺(jué),包括GAN、圖像處理、圖像翻譯等。

三作Eli Shechtman,來(lái)自Adobe,研究方向是計(jì)算機(jī)視覺(jué),包括視頻分析與合成、目標(biāo)和動(dòng)作識(shí)別、圖形視覺(jué)、圖像和視頻檢索等。
此外,來(lái)自特拉維夫大學(xué)的Daniel Cohen-Or、和希伯來(lái)大學(xué)的Dani Lischinski對(duì)這篇論文也有貢獻(xiàn)。
說(shuō)不定,Adobe真會(huì)將“動(dòng)口P圖”這一功能放進(jìn)PS中呢。
項(xiàng)目地址:
https://github.com/orpatashnik/StyleCLIP
論文地址:
https://arxiv.org/abs/2103.17249