這個(gè)模型腦補(bǔ)能力比GAN更強(qiáng),ETH超分辨率模型SRFlow
近日,來自蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)視覺實(shí)驗(yàn)室的研究者提出了一種超分辨率模型 SRFlow。該模型具備比 GAN 更強(qiáng)的腦補(bǔ)能力,能夠根據(jù)低分辨率輸入學(xué)習(xí)輸出的條件分布。該論文已被 ECCV 2020 收錄。
超分辨率是一個(gè)不適定問題(ill-posed problem),它允許對給定的低分辨率圖像做出多種預(yù)測。這一基礎(chǔ)事實(shí)很大程度上被很多當(dāng)前最優(yōu)的深度學(xué)習(xí)方法所忽略,這些方法將重建和對抗損失結(jié)合起來,訓(xùn)練確定性映射(deterministic mapping)。
近日,來自蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)視覺實(shí)驗(yàn)室的研究者提出了一種新的超分辨率模型 SRFlow。該模型是一種基于歸一化流的超分辨率方法,具備比 GAN 更強(qiáng)的腦補(bǔ)能力,能夠基于低分辨率輸入學(xué)習(xí)輸出的條件分布。

論文地址:https://arxiv.org/pdf/2006.14200.pdf
項(xiàng)目地址:https://github.com/andreas128/SRFlow?
研究者使用單個(gè)損失函數(shù),即負(fù)對數(shù)似然(negative log-likelihood)對模型進(jìn)行訓(xùn)練。SRFlow 直接解釋了超分辨率問題的不適定性,并學(xué)習(xí)預(yù)測不同逼真度的高分辨率圖像。此外,研究者利用 SRFlow 學(xué)到的強(qiáng)大圖像后驗(yàn)來設(shè)計(jì)靈活的圖像處理技術(shù),能夠通過傳輸其他圖像的內(nèi)容來增強(qiáng)超分辨率圖像。
該研究展示了基于人臉圖像以及其他超分辨率圖像實(shí)驗(yàn),結(jié)果表明 SRFlow 在 PSNR 和感知質(zhì)量度量上都優(yōu)于當(dāng)前最優(yōu)的 GAN 方法,同時(shí) SRFlow 允許探索超分辨率解空間,以實(shí)現(xiàn)生成圖像的多樣性。
下圖展示了基于 GAN 的 ProgFSR 與基于歸一化流的 SRFlow 的對比結(jié)果:

SRFlow 方法簡介
研究者將超分辨率公式化為:給定低分辨率(LR)輸入圖像,學(xué)習(xí)高分辨率(HR)圖像的條件概率分布問題。該方法旨在通過捕獲基于自然圖像流形的所有可能超分辨率(SR)圖像,來明確地解決超分辨率問題的不適定性。
為此,研究者設(shè)計(jì)了條件歸一化流架構(gòu),使用基于對數(shù)似然的訓(xùn)練來學(xué)習(xí)豐富的分布。
用于超分辨率的條件歸一化流
超分辨率的目標(biāo)是通過生成缺失的高頻細(xì)節(jié),來預(yù)測給定低分辨率圖像 x 的更高分辨率版本 y。大多數(shù)當(dāng)前方法學(xué)習(xí)確定性映射 x→y,而該研究旨在獲取與 LR 圖像 x 對應(yīng)的自然 HR 圖像 y 的全條件分布。
這是一個(gè)頗具挑戰(zhàn)性的問題,因?yàn)樵撃P捅仨毑东@多種可能的 HR 圖像,而不僅僅是預(yù)測單個(gè) SR 輸出。該研究的目的是在給定大量 LR-HR 訓(xùn)練對的情況下,以純數(shù)據(jù)驅(qū)動的方式訓(xùn)練分布的參數(shù) θ。
條件流層
流層(flow-layer)f^n_θ 的設(shè)計(jì)需格外精細(xì),以確保 well-conditioned inverse 和易于處理的雅可比行列式。[10,11] 首次解決了該挑戰(zhàn),最近也有很多研究者對此感興趣 [5,14,21]。
該研究從無條件 Glow 架構(gòu) [21] 開始,該架構(gòu)本身基于 RealNVP [11]。這些架構(gòu)使用的流層可以以直接的方式設(shè)置為有條件的 [3,49]。研究者對其進(jìn)行了概述,并介紹了該研究提出的 Affine Injector 層。
架構(gòu)
SRFlow 的架構(gòu)如圖 2 所示:

應(yīng)用和圖像處理
研究者將 SRFlow 網(wǎng)絡(luò)用于多項(xiàng)應(yīng)用和圖像處理任務(wù),該研究的技術(shù)利用了 SRFlow 網(wǎng)絡(luò)的兩個(gè)關(guān)鍵優(yōu)勢,而這是基于 GAN 的超分辨率的方法 [47] 所不具備的。
首先,該研究的網(wǎng)絡(luò)對 HR 圖像空間內(nèi)的分布建模,而不僅僅是預(yù)測單個(gè)圖像。因此,它通過捕獲多個(gè)可能的 HR 預(yù)測而具有極大的靈活性。這就允許使用其它指導(dǎo)信息或隨機(jī)采樣來探索不同的預(yù)測。
其次,該流網(wǎng)絡(luò) f_θ(y; x) 是完全可逆的編碼器 - 解碼器。因此,任何 HR 圖像都可以被編碼成到潛在空間(latent space)中,并精確地重構(gòu)為。這種雙射的對應(yīng)關(guān)系允許在潛在空間和圖像空間中靈活操作。
隨機(jī)超分辨率
給定 LR 圖像 x,我們可以通過采樣不同的 SR 預(yù)測,探索 SRFlow 學(xué)習(xí)到的分布。正如基于流的模型的觀察結(jié)果那樣,方差較小的采樣可以實(shí)現(xiàn)最佳結(jié)果 [21]。因此,研究者使用具有方差 τ(也稱為溫度)的高斯分布。當(dāng) τ = 0.8 時(shí),結(jié)果如下圖 3 所示:

LR 一致性風(fēng)格遷移
對 LR 圖像 x 進(jìn)行超分辨處理時(shí),SRFlow 允許遷移現(xiàn)有 HR 圖像的風(fēng)格。
下圖 4 展示了圖像中面部特征、發(fā)色和眼睛顏色的風(fēng)格遷移:

潛在空間歸一化
研究者利用 SRFlow 網(wǎng)絡(luò) f_θ 的可逆性和學(xué)得的超分辨率后驗(yàn),開發(fā)了更先進(jìn)的圖像處理技術(shù)。該方法的核心思想是將包含所需內(nèi)容的任意 HR 圖像映射到潛在空間,在該空間中對潛在統(tǒng)計(jì)量(latent statistics)進(jìn)行歸一化,使其與給定 LR 圖像中的低頻信息一致。令 x 為低分辨率圖像,為任意高分辨率圖像(不一定與 LR 圖像 x 一致)。該研究的目標(biāo)是獲得 HR 圖像 y,其包含的圖像內(nèi)容,并與 LR 圖像 x 一致。
圖像內(nèi)容遷移
該研究旨在通過傳輸其他圖像的內(nèi)容來操縱 HR 圖像。令 x 為 LR 圖像,y 為對應(yīng)的 HR 圖像。如要處理超分辨率圖像,則是 x 的 SR 樣本。但,我們也可以通過將 x 設(shè)置為 y 的 down-scaled 版本,來操縱現(xiàn)有的 HR 圖像 y。研究人員將其他圖像的內(nèi)容直接嵌入 y 的圖像空間,進(jìn)而操縱 y,如下圖 5 所示:

圖像恢復(fù)
研究者將學(xué)得的圖像后驗(yàn)應(yīng)用于圖像恢復(fù)任務(wù),進(jìn)而其能力。注意,此處研究者采用了相同的 SRFlow 網(wǎng)絡(luò),該網(wǎng)絡(luò)僅針對超分辨率進(jìn)行訓(xùn)練。研究者探索了對圖像中的高頻信息產(chǎn)生主要影響的因素,如噪聲和壓縮偽影。

實(shí)驗(yàn)
研究者將其提出的方法與當(dāng)前 SOTA 方法進(jìn)行了對比,并執(zhí)行了控制變量分析。
人臉超分辨率
該研究基于 CelebA 測試集中的 5000 張圖像,評估了 SRFlow 在人臉超分辨率圖像任務(wù)中的性能,并與 bicubic、RRDB [47]、ESRGAN [47] 和 ProgFSR [19] 進(jìn)行了對比。


通用超分辨率
研究者在 DIV2K 驗(yàn)證集上評估了 SRFlow 在通用超分辨率任務(wù)中的性能,并與 Bicubic、EDSR 、RRDB、ESRGAN 和 RankSRGAN 進(jìn)行了對比。

與基于 GAN 的方法 [47,56] 相比,SRFlow 實(shí)現(xiàn)了明顯更好的 PSNR、LPIPS 和 LR-PSNR 結(jié)果,并在 PIQUE 和 BRISQUE 方面也得到了出色的結(jié)果。
圖 8 中的可視化結(jié)果表明,EDSR 和 RRDB 的感知效果較差,這些結(jié)果幾乎不會產(chǎn)生高頻細(xì)節(jié)。相比之下,與 ESRGAN 相比,SRFlow 能夠生成豐富的細(xì)節(jié),實(shí)現(xiàn)了良好的感知效果。
如第一行所示,ESRGAN 生成的圖像在多個(gè)位置存在嚴(yán)重的褪色偽影(discolored artifact)和振鈴效應(yīng)(ringing pattern)。而 SRFlow 能夠生成更加穩(wěn)定和一致的結(jié)果。

控制變量研究
此外,為了研究深度和寬度這兩個(gè)因素的影響,研究者進(jìn)行了控制變量實(shí)驗(yàn)。圖 9 顯示了在 CelebA 數(shù)據(jù)集上的結(jié)果:

如何根據(jù)任務(wù)需求搭配恰當(dāng)類型的數(shù)據(jù)庫?
在AWS推出的白皮書《進(jìn)入專用數(shù)據(jù)庫時(shí)代》中,介紹了8種數(shù)據(jù)庫類型:關(guān)系、鍵值、文檔、內(nèi)存中、關(guān)系圖、時(shí)間序列、分類賬、領(lǐng)域?qū)捔校⒅鹨环治隽嗣糠N類型的優(yōu)勢、挑戰(zhàn)與主要使用案例。