英偉達推出GAN“超級縫合體”，輸入文字草圖都能生成逼真照片

作者：曉查 2021-12-13 17:36:30

繼GauGAN2之后，英偉達推出了一個GAN的“超級縫合體”——PoE GAN。

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

繼GauGAN2之后，英偉達推出了一個GAN的“超級縫合體”——PoE GAN。

PoE GAN可以接受多種模態的輸入，文字描述、圖像分割、草圖、風格都可以轉化為圖片。

而且它可以同時接受以上幾種輸入模態的任意兩種組合，這便是PoE的含義。

所謂PoE是Hinton在2002年提出的“專家乘積”（product of experts）概念，每個專家（單獨模型）被定義為輸入空間上的一個概率模型。

而每種單獨的輸入模態都是合成圖像必須滿足的約束條件，因此滿足所有約束的一組圖像是滿足每個約束集合的交集。

假設每種約束的聯合條件概率分布都服從高斯分布，就用單條件概率分布的乘積來表述交集的分布。

在此條件下，為了使乘積分布在一個區域具有高密度，每個單獨的分布需要在該區域具有高密度，從而滿足每個約束。

而PoE GAN的重點是如何將每種輸入混合在一起。

PoE GAN的生成器使用全局PoE-Net將不同類型輸入的變化混合起來。

我們將每個模態輸入編碼為特征向量，然后使用PoE匯總到全局PoE-Net中。解碼器不僅使用全局PoE-Net的輸出，還直接連接分割和草圖編碼器，以此來輸出圖像。

全局PoE-Net的結構如下，這里使用一個潛在的特征矢量z0作為樣本使用PoE，然后由MLP處理以輸出特征向量w。

在鑒別器部分，作者提出了一種多模態投影鑒別器，將投影鑒別器推廣到處理多個條件輸入。

與計算圖像嵌入和條件嵌入之間單個內積的標準投影鑒別器不同，這里要計算每個輸入模態的內積，并將其相加以獲得最終損失。

PoE可以在單模態輸入、多模態輸入甚至無輸入時生成圖片。

當使用單個輸入模態進行測試時，PoE-GAN的表現優于之前專門為該模態設計的SOTA方法。

例如在分割輸入模態中，PoE-GAN優于此前的SPADE和OASIS。

在文本輸入模態中，PoE-GAN優于文本到圖像模型DF-GAN、DM-GAN+CL。

當以模式的任意子集為條件時，PoE-GAN可以生成不同的輸出圖像。下面展示了PoE-GAN的隨機樣本，條件是兩種模式（文本+分割、文本+草圖、分割+草圖）在景觀圖像數據集上。

PoE-GAN甚至還能沒有輸入，此時PoE-GAN就會成為一個無條件的生成模型。以下是PoE-GAN無條件生成的樣本。

論文通訊作者是英偉達著名工程師劉洺堉，他的研究重點是深度生成模型及其應用。英偉達Canvas和GauGAN等有趣的產品均出自他手。

論文一作是黃勛，北京航空航天大學本科畢業，康奈爾大學博士，現在在英偉達工作。

論文地址：
https://arxiv.org/abs/2112.05130

PoE：
https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf

投影鑒別器：
https://arxiv.org/abs/1802.05637

責任編輯：張燕妮來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看