從4K到16K僅用一張圖像訓練,首個單樣本超高分辨率圖像合成框架來了
論文鏈接:https://arxiv.org/pdf/2202.13799.pdf
傳統生成模型通常從相對較小的圖像數據集中,基于 patch 分布學習生成大型圖像,這種方法很難生成視覺上連貫的圖像。OUR-GAN 以低分辨率生成視覺上連貫的圖像,然后通過超分辨率逐漸提升分辨率。由于 OUR-GAN 從真實的 UHR 圖像中學習,它可以合成具有精細細節的大規模形狀,同時保持遠距離連貫性。
OUR-GAN 應用無縫銜接的子區域超分辨率,在內存受限的條件下合成 4K 或更高分辨率的 UHR 圖像,并解決了邊界不連續的問題。此外,OUR-GAN 通過向特征圖添加垂直位置嵌入來提高多樣性和視覺連貫性。在 ST4K 和 RAISE 數據集上的實驗結果表明:與現有方法相比,OUR-GAN 表現出更高的保真度、視覺連貫性和多樣性。
我們來看一下 OUR-GAN 的合成效果,下圖(上)是 OUR-GAN 訓練使用的單個 4K 圖像,(下)是 OUR-GAN 合成的 16K (16384 x 10912) 圖像。
以下幾組是 OUR-GAN 合成的 4K 風景圖:
OUR-GAN 成功合成了具有多種圖案的高質量紋理圖像:
one-shot 超分辨率生成對抗網絡
OUR-GAN 框架
OUR-GAN 通過三個步驟合成占用有限 GPU 內存的 UHR 圖像,如下圖 3 所示。首先,OURGAN 生成低分辨率的全局結構。然后通過 in-memory 超分辨率在內存限制內盡可能提高分辨率。最后,OURGAN 通過逐個子區域應用超分辨率來進一步提高超出內存限制的分辨率來合成 UHR 圖像。
超分辨率模型的輸出分辨率受限于訓練圖像的分辨率。然而,ZSSR 和 MZSR 已經證明,通過利用信息的內部循環,超分辨率模型可以生成比訓練圖像大 2 到 4 倍的圖像。
全局結構生成
從單個訓練圖像中學習合成具有全局連貫形狀的不同圖像,是一項具有挑戰性的任務。該研究的初步實驗比較了可以用單個圖像訓練的多個模型。其中,HP-VAE-GAN 表現出比其他模型更高的多樣性,但全局一致性不足。因此,該研究選擇 HP-VAE-GAN 作為第一步的基線模型,并通過應用垂直坐標卷積來提高全局一致性。HP-VAE-GAN 通過基于分層 patch 的生成方案合成圖像,如方程式 (1)-(3),其中、
和
分別表示在尺度 m 下的生成器、合成圖像和高斯噪聲向量。符號↑代表上采樣。
首先,如等式 (1) 所示,HP-VAE-GAN 從高斯噪聲生成初始圖像,然后如等式 (2)(3) 所示,逐漸增加分辨率。在 1 ≤ m ≤ L 的早期階段,為了多樣性,HP-VAE-GAN 應用 patch VAE [19],如方程式 (2),因為 GAN 模型的多樣性由于模式崩潰問題而受到限制。然而,在 L < m ≤ M 的后期階段,為了細節的保真,它應用了 patch GAN [22],如等式 (3)。
in-memory、子區域級超分辨率
在第二步和第三步中,OUR-GAN 專注于保真度,并通過添加精細細節來提高先前合成圖像的分辨率。在第三步中,OUR-GAN 應用子區域超分辨率以將圖像分辨率提高到超出內存限制。這些步驟中最大的技術挑戰是使用單個訓練圖像學習超分辨率模型。該研究通過預訓練 ESRGAN(一種以良好的輸出質量而聞名的超分辨率模型)來實現高保真度,然后使用單個訓練圖像對其進行微調。在之前的工作中,有超分辨率模型,例如 ZSSR 和 MZSR [21],可以從單個圖像中學習。然而,在初步實驗中,預訓練 ESRGAN 表現出比零樣本超分辨率模塊更高的圖像質量。該研究使用 DIV2K 和 Flickr2K 數據集來預訓練 ESRGAN。
在第二步中,研究者在先前合成的圖像中加入隨機噪聲
,然后通過
中的超分辨率模型
提高分辨率。在第三步中,他們將圖像劃分為子區域,對每個子區域圖像進行超分辨率處理,然后將縮放后的子區域圖像拼接成一幅更高分辨率的圖像,如圖 5 所示。這樣的分區超分辨率可以重復多次,以產生 4K 或更高分辨率的 UHR 圖像。
然而,如果沒有精心設計,這種分區域的超分辨率會在邊界處表現出不連續。在以前的工作中,有一些方法可以防止不連續性。以前的工作表明,不連續性的主要原因是輸入特征圖周圍的零填充(zero-padding),并提出了一些補救措施。[28] 應用了重疊平鋪(overlap-tile)策略,擴展輸入子區域以阻止邊界處零填充的影響。[12] 通過仔細設計具有交替卷積和轉置卷積的網絡來消除零填充。
由于后者需要重新設計網絡,因此研究者對前者進行了改進。受 Wenjie Luo 等人 (2016) 的啟發,研究者將重疊大小設置為 ERF 的半徑,如圖 6 所示,它明顯小于 TRF。圖 7 中的實驗結果表明,等于 ERF 半徑的重疊足以防止不連續性。ERF 的漸近逼近是 O (√depth), 而 TRF 的漸近逼近是 O (depth),這表明方法的好處是不可忽略的。
研究者比較了沒有重疊和 ERF 半徑重疊的子區域超分辨率的結果。圖 7 顯示了子區域超分辨率輸出圖像與將圖像整體放大的普通超分辨率輸出圖像之間的差異。圖 7 (a) 表明,在沒有重疊的情況下,子區域超分辨率在子區域邊界處產生顯著差異。然而,重疊的子區域減弱了這種差異。
實驗結果
One-shot 4K 非重復圖像合成下圖 8 展示了 OUR-GAN 生成的 4K 樣本、基線模型以及 ground truth 圖像。
圖 8. OUR-GAN 生成的 4K 樣本、基線模型生成的樣本,以及 ground truth 圖像。
InGAN 未能合成包含大量形狀的可視化超高分辨率圖像,因為它是通過重復從小樣本訓練中學到的小規模模式來合成圖像。SinGAN 可以生成大規模的模式,但是未能捕捉到結構細節。然而,OUR-GAN 成功地合成了具有視覺連貫形狀和精細細節的高質量圖像。與其他模型相比,OUR-GAN 合成了最具視覺沖擊力的圖像。
如下表 1 所示,OUR-GAN 在定量研究中的表現也優于其他模型,它在所有配置中得分最高,這表明 OUR-GAN 綜合了全局形狀和局部細節的高質量圖像。
全局連貫性和多樣性
為了評估垂直坐標卷積的效果,研究者用其他模型替換了 OUR-GAN 的 first step 模型,并比較了合成圖像的差異: SinGAN,ConSinGAN,HP-VAE-GAN,SIV-GAN。
圖 9。
圖 9 展示了生成的圖像。ConSinGAN 和 SIV-GAN 生成的模式多樣性有限,而 HPVAE-GAN 合成的扭曲結構結合了不相關的模式。如圖 10 所示,與 HP-VAE-GAN 相比,OUR-GAN 顯著提高了模式的全局一致性,并且與 ConSinGAN 和 SIV-GAN 相比產生了更多樣化的模式。
圖 10: 采用垂直坐標卷積的效果。OUR-GAN 通過垂直坐標卷積的空間偏差來提高視覺連貫性。
表 2。
表 2 列出了定量評價的結果,OUR-GAN 在定量結果方面表現良好。OUR-GAN 的 SIFID 分數最低,這表明 OUR-GAN 在學習訓練圖像的內部統計數據方面是有效的。與 LPIPS 的其他基線相比,OUR-GAN 沒有表現出顯著差異。然而,高 LPIPS 并不總是表明模型產生高質量的圖像,因為它不懲罰視覺上不協調的模式(附錄 H 展示了高 LPIPS 視覺不協調的樣本)。盡管與 HP-VAE-GAN 相比,OUR-GAN 缺乏多樣性,但 OUR-GAN 可以合成視覺上更為連貫的圖像。
One-shot 高保真度 4K 紋理圖像合成
該研究還評估了 OUR-GAN 合成高保真 UHR 紋理圖像的性能。OUR-GAN 從 ST4K 紋理圖像和合成 UHR 圖像中學習,圖 11 中展示了兩個合成樣本。
更多研究細節,可參考原論文。