治噩夢級摳圖魏茨曼聯(lián)合英偉達(dá)發(fā)布Text2LIVE，用自然語言就能PS

作者：新智元 2022-04-15 14:53:38

人工智能新聞

還在為PS的各種命令、工具頭疼嗎？魏茨曼聯(lián)合英偉達(dá)發(fā)布了一個新模型Text2LIVE，只需用自然語言就能輕松完成各種摳圖、貼圖，圖像和視頻都能用！

使用Photoshop類的軟件算是創(chuàng)造性工作還是重復(fù)性工作？

對于用PS的人來說，重復(fù)性工作如摳圖可能是一大噩夢，尤其是頭發(fā)絲、不規(guī)則的圖形、與背景顏色貼近的，更是難上加難。

如果有AI模型能幫你摳圖，還能幫你做一些如替換紋理、添加素材等工作，那豈不是能節(jié)省大把時間用來創(chuàng)作？

一些專注于視覺效果（VFX）的從業(yè)者對圖像和視頻合成方面的新工作和創(chuàng)新很感興趣，但他們同時也會感覺到威脅，擔(dān)心AI的快速發(fā)展是否會替代他們，畢竟現(xiàn)在AI從繪畫到生成視頻，簡直無所不能。

比如讓一個新手生成一個偽造視頻需要大量的學(xué)習(xí)和操作時間，如果使用deepfake的話則不需要什么門檻，而且效率也高得多。

不過好消息是，AI目前并非全知全能，一個模型只能做軟件內(nèi)的一點點工作；如果要把多個模型組裝成一個Pipeline，那還得需要人來操作才行；對于更復(fù)雜的任務(wù)，那還需要人類的創(chuàng)造力。

魏茨曼科學(xué)研究學(xué)院和英偉達(dá)的研究人員就提出了一個模型Text2Live，用戶只需要輸入自然語言文本作為命令，就能對給定的圖片和視頻進(jìn)行處理。模型的目標(biāo)是編輯現(xiàn)有物體的外觀（如物體的紋理）或以語義的方式增加場景的視覺效果（如煙、火等）。

論文鏈接：https://arxiv.org/pdf/2204.02491.pdf

Text2Live能夠用復(fù)雜的半透明效果增強輸入場景，而不改變圖像中的無關(guān)內(nèi)容。

比如對模型念出咒語「煙」或者「火」，就可以給圖片合成上相應(yīng)的效果，十分真實；

對著面包圖片說「冰」，就可以變成一個冰面包，甚至「奧利奧蛋糕」也不在話下；

或是對著視頻說「給長頸鹿戴個圍脖」，它也能精確識別出來長頸鹿的脖子，并在每一幀都給它戴上一個圍脖，還能換各種不同的效果。

用自然語言P圖

受視覺語言模型（Vision-Language models）強大的語義表達(dá)能力啟發(fā)，研究人員想到，為什么我們不能用自然語言命令來P圖呢？這樣用戶就可以輕松而直觀地指定目標(biāo)外觀和要編輯的對象和區(qū)域，而開發(fā)出的模型需要具備識別出給定文本提示的局部、語義編輯的能力。

多模態(tài)的話，在4億個文本-圖像對上學(xué)習(xí)過的CLIP模型就是現(xiàn)成的，并且其內(nèi)包含巨大的視覺和文本空間豐富性已經(jīng)被各種圖像編輯方法所證明了！

但還有一個困難，就是在所有真實世界的圖像中想用CLIP達(dá)到完美性能還是不容易的。

大多數(shù)現(xiàn)有方法都是將預(yù)訓(xùn)練好的生成器（例如GAN或Diffusion模型）與CLIP結(jié)合起來。但用GANs的話，圖像的域是受限制的，需要將輸入圖像反轉(zhuǎn)到GAN的潛空間，本身就是一個具有挑戰(zhàn)性的任務(wù)。而擴散模型雖然克服了這些障礙，但在滿足目標(biāo)編輯和保持對原始內(nèi)容的高保真度之間面臨著權(quán)衡。但將這些方法擴展到視頻中也并不簡單。

Text2LIVE采取了一條不同的路線，提出從單一的輸入（圖像或視頻和文本提示）中學(xué)習(xí)一個生成器。

新問題來了：如果不使用外部生成式的先驗，該如何引導(dǎo)生成器走向有意義的、高質(zhì)量的圖像編輯操作？

Text2LIVE主要設(shè)計了兩個關(guān)鍵部分來實現(xiàn)這一目標(biāo)：

1. 模型中包含一種新穎的文字引導(dǎo)的分層編輯（layered editing），也就是說，模型不是直接生成編輯過的圖像，而是通過在輸入的圖層上合成RGBA層（顏色和不透明度）來表示編輯。

這也使得模型可以通過一個新的目標(biāo)函數(shù)來指導(dǎo)生成的編輯內(nèi)容和定位，包括直接應(yīng)用于編輯層的文本驅(qū)動的損失。

比如前面的例子中使用文本提示「煙」，不僅輸出最終的編輯圖像，還表達(dá)了編輯層所代表的目標(biāo)效果。

2. 模型通過對輸入的圖像和文本進(jìn)行各種數(shù)據(jù)增強，在一個由不同的圖像-文本訓(xùn)練實例組成的「內(nèi)部數(shù)據(jù)集」上訓(xùn)練生成器。實驗結(jié)果也表明，這種「內(nèi)部學(xué)習(xí)方法」可以作為一個強大的regularization，能夠高質(zhì)量地生成復(fù)雜的紋理和半透明的效果。

文本增強主要使用預(yù)定義的14個模板提示符，能夠提供CLIP向量的多樣性。

圖像數(shù)據(jù)的Pipeline由一個在單一輸入圖像上訓(xùn)練的生成器和目標(biāo)文本提示組成。

左側(cè)就是生成內(nèi)部數(shù)據(jù)集的過程，即由不同訓(xùn)練實例組成的內(nèi)部（圖像，文本）對和數(shù)據(jù)增強后得到的數(shù)據(jù)集。

右測是生成器將圖像作為輸入，并輸出一個RGBA的可編輯層（顏色+透明度），在輸入的基礎(chǔ)上進(jìn)行合成，從而形成最終的編輯過的圖像。

生成器的的優(yōu)化函數(shù)為多個損失項之和，每個損失項都是在CLIP空間中定義，包括主要的目標(biāo)Composition loss，能夠反映圖像和目標(biāo)文本提示之間的匹配程度；Screen loss，應(yīng)用于生成的編輯層中，主要技術(shù)是在純綠色背景上合成一個噪音背景圖像，判斷摳圖準(zhǔn)確度；Structure loss，保證替換的紋理和顯示效果能夠保持原始目標(biāo)的空間分布和形狀。

除了圖像外，研究人員還將Text2LIVE擴展到了文本指導(dǎo)的視頻編輯領(lǐng)域。

現(xiàn)實世界的視頻通常由復(fù)雜的物體和攝像機運動組成，包括了關(guān)于場景的豐富信息。然而，想實現(xiàn)一致的視頻編輯是很困難的，不能只是簡單地對圖片的每一幀都使用相同操作。

因此，研究人員提出將視頻分解為一組二維圖集（atlases）。每個圖集可以被視為一個統(tǒng)一的二維圖像，代表了整個視頻中的一個前景物體或背景。這種表示方法大大簡化了視頻編輯的任務(wù)。應(yīng)用于單個二維圖集的編輯會以一種一致的方式映射到整個視頻中。

視頻的訓(xùn)練Pipeline包括（a）一個預(yù)訓(xùn)練的固定分層神經(jīng)圖集模型，可以用作「視頻渲染器」，包括了一組二維圖集、從像素到圖集的映射函數(shù)，以及每個像素的前景/背景透明值；（b）框架訓(xùn)練一個生成器，將選定的離散圖集IA作為輸入，并輸出；（c）一個圖集編輯層EA；（d）使用預(yù)訓(xùn)練映射網(wǎng)絡(luò)M把編輯過的圖集渲染回每一幀；（e）在原始視頻上進(jìn)行合成。

在實驗的量化評估中，研究人員選擇人類感知評估的方式，參與者會看到一個參考圖像和一個目標(biāo)編輯提示，以及兩個備選方案。

參與者必須選擇「哪張圖片能更好地根據(jù)文本提示來編輯參考圖像」？

實驗數(shù)據(jù)包括了82個（圖像，文本）對，收集了12450個用戶對圖像編輯方法的判斷，投票結(jié)果可以看到Text2LIVE在很大程度上超過了所有的基線模型。

在視頻的實驗中，參與者需要選擇「質(zhì)量更好、更能體現(xiàn)文本的視頻」，實驗數(shù)據(jù)包含19個（視頻，文本）對和2400個用戶的判斷結(jié)果。結(jié)果可以看到，F(xiàn)rames基線模型產(chǎn)生了時間線不一致的結(jié)果，而Atlas基線的結(jié)果更一致，但在生成高質(zhì)量紋理方面表現(xiàn)不佳，經(jīng)常產(chǎn)生模糊的結(jié)果。

? 治噩夢級摳圖魏茨曼聯(lián)合英偉達(dá)發(fā)布Text2LIVE，用自然語言就能PS ?

責(zé)任編輯：張燕妮來源：新智元

摳圖工具 PS

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

治噩夢級摳圖 魏茨曼聯(lián)合英偉達(dá)發(fā)布Text2LIVE，用自然語言就能PS

用自然語言P圖

治噩夢級摳圖魏茨曼聯(lián)合英偉達(dá)發(fā)布Text2LIVE，用自然語言就能PS