再次顛覆學(xué)界想象，何愷明發(fā)表新作：擴(kuò)散模型不一定需要噪聲條件

作者：機(jī)器之心 2025-02-21 09:40:00

研究者對(duì)這些模型在無噪聲條件情況下的行為進(jìn)行了理論分析。

一直以來，研究者普遍認(rèn)為，去噪擴(kuò)散模型要想成功運(yùn)行，噪聲條件是必不可少的。

而大神何愷明的一項(xiàng)最新研究，對(duì)這個(gè)觀點(diǎn)提出了「質(zhì)疑」。

「受圖像盲去噪研究的啟發(fā)，我們研究了各種基于去噪的生成模型在沒有噪聲調(diào)節(jié)的情況下的表現(xiàn)。出乎我們意料的是，大多數(shù)模型都表現(xiàn)出了優(yōu)美的退化，它們甚至在沒有噪聲條件的情況下表現(xiàn)得更好?！?/span>

截屏2025-02-20 09.18.25.png

論文標(biāo)題：Is Noise Conditioning Necessary for Denoising Generative Models?
論文地址：https://arxiv.org/pdf/2502.13129

研究者對(duì)這些模型在無噪聲條件情況下的行為進(jìn)行了理論分析。具體來說，他們研究了噪聲水平分布中固有的不確定性、在沒有噪聲條件的情況下去噪所造成的誤差以及迭代采樣器中的累積誤差。綜合這些因素，提出了一個(gè)誤差邊界，該誤差邊界的計(jì)算無需任何訓(xùn)練，完全取決于噪聲條件和數(shù)據(jù)集。

實(shí)驗(yàn)表明，這個(gè)誤差邊界與所研究的模型的噪聲 - 無條件行為有很好的相關(guān)性，特別是在模型出現(xiàn)災(zāi)難性失敗的情況下，其誤差邊界要高出幾個(gè)數(shù)量級(jí)。

由于噪聲 - 無條件模型很少被考慮，專門為這種未充分探索的情況設(shè)計(jì)模型是有價(jià)值的。為此，研究者從 EDM 模型中提出了一個(gè)簡(jiǎn)單的替代方案。在沒有噪聲條件的情況下，該變體可以實(shí)現(xiàn)很強(qiáng)的性能，在 CIFAR10 數(shù)據(jù)集上的 FID 得分達(dá)到 2.23。這一結(jié)果大大縮小了噪聲 - 無條件系統(tǒng)與噪聲 - 條件系統(tǒng)之間的差距（例如，EDM 的 FID 為 1.97）。

關(guān)于未來，研究者希望消除噪聲條件將為基于去噪的生成模型的新進(jìn)展鋪平道路，激勵(lì)業(yè)界重新審視相關(guān)方法的基本原理，并探索去噪生成模型領(lǐng)域的新方向。例如，只有在沒有噪聲條件的情況下，基于分?jǐn)?shù)的模型才能學(xué)習(xí)到獨(dú)特的分?jǐn)?shù)函數(shù)，并實(shí)現(xiàn)經(jīng)典的、基于物理學(xué)的朗格文動(dòng)力學(xué)。

對(duì)于這項(xiàng)新研究，有人評(píng)論稱：我們花了數(shù)年時(shí)間來完善噪聲條件技術(shù)，到頭來卻發(fā)現(xiàn)即使沒有噪聲條件，模型同樣能運(yùn)行得很好。所以，科學(xué)其實(shí)就是利用額外數(shù)學(xué)的反復(fù)試錯(cuò)。

去噪生成模型的重構(gòu)

研究者提出了一種可以總結(jié)各種去噪生成模型訓(xùn)練和采樣過程的重構(gòu)（reformulation），核心動(dòng)機(jī)是隔離神經(jīng)網(wǎng)絡(luò) NN_θ，從而專注于其在噪聲條件方面的行為。

首先來看去噪生成模型的訓(xùn)練目標(biāo)。在訓(xùn)練期間，從數(shù)據(jù)分布 p (x) 中采樣一個(gè)數(shù)據(jù)點(diǎn) x，并從噪聲分布 p (?)（例如正態(tài)分布 N (0, I)）中采樣噪聲 ?。噪聲圖像 z 由以下公式得出：

一般來說，去噪生成模型涉及最小化損失函數(shù)，該函數(shù)可以寫成：

現(xiàn)有幾種方法（iDDPM、DDIM、EDM 和 FM）的調(diào)度函數(shù)具體如下表 1 所示。值得注意的是，在研究者的重構(gòu)中，他們關(guān)注的是回歸目標(biāo) r 與神經(jīng)網(wǎng)絡(luò) NN_θ 直接輸出之間的關(guān)系。

其次是采樣。給定訓(xùn)練好的 NN_θ，采樣器迭代地進(jìn)行去噪。具體來講，對(duì)于初始噪聲 x_0 ～ N (0, b (t_max)^2I)，采樣器迭代地計(jì)算如下：

最后是噪聲條件網(wǎng)絡(luò)。在現(xiàn)有方法中，神經(jīng)網(wǎng)絡(luò) NN_θ(z|t) 以 t 指定的噪聲水平為條件，具體可以參見圖 1（左）。

同時(shí)，t-embedding 提供時(shí)間級(jí)信息作為網(wǎng)絡(luò)額外輸入。本文的研究涉及這種噪聲條件的影響，即考慮了 NN_θ(z) 和 NN_θ(z|t)，參見圖 1（右）。

無噪聲條件模型

基于上述重構(gòu)，研究者對(duì)消除噪聲條件的影響進(jìn)行了理論分析，其中涉及到了訓(xùn)練目標(biāo)和采樣過程。他們首先分析了訓(xùn)練階段的有效回歸目標(biāo)和單個(gè)去噪步驟中的誤差，然后給出了迭代采樣器中累積誤差的上限。

有效目標(biāo)

形式上，優(yōu)化公式 (2) 中的損失等同于優(yōu)化以下?lián)p失，其中預(yù)期 E [?] 中的每個(gè)項(xiàng)都有對(duì)應(yīng)的唯一有效目標(biāo)：

對(duì)于無噪聲條件的有效目標(biāo)，同樣地，如果網(wǎng)絡(luò) NN_θ(z) 不接受 t 作為條件，則其唯一的有效目標(biāo) R (z) 應(yīng)該僅取決于Z。在這種情況下，損失為：

唯一有效目標(biāo)如下：

后驗(yàn)集中 p (t|z)

接下來，研究者探究了 p (t|z) 與狄拉克 δ 函數(shù)的相似度。對(duì)于圖像等高維數(shù)據(jù)，人們?cè)缫岩庾R(shí)到可以可靠地對(duì)噪聲水平進(jìn)行估計(jì)，這意味著可以得到一個(gè)集中的 p (t|z)。

陳述 1：（p (t|z) 集中）?？紤]單個(gè)數(shù)據(jù)點(diǎn) x ? [-1, 1]^d，則 ?～(0, I)，t～U [-0, 1] 以及 z = (1 - t) x + t?（流匹配情況）。給定一個(gè)由已有 t_?生成的噪聲圖像 z = (1 - t_?) x + t_??，條件分布 p (t|z) 下 t 的方差如下：

有效回歸目標(biāo)的誤差

使用 p (t|z)，研究者探究了有效回歸目標(biāo) R (z) 和 R (z|t) 之間的誤差。在形式上，考慮如下：

他們表明，方差 E (z) 明顯小于 R (z) 的范數(shù)。

陳述 2（有效回歸目標(biāo)的誤差）。考慮到陳述 1 中的場(chǎng)景以及流匹配情況，公式 (10) 中定義的誤差滿足如下：

采樣中的累積誤差

到目前為止，研究者關(guān)注到了單個(gè)回歸步驟的誤差。而在去噪生成模型中，推理采樣器是迭代的，因而進(jìn)一步研究了迭代采樣器中的累積誤差。

為了便于分析，研究者假設(shè)網(wǎng)絡(luò) NN_θ 足以擬合有效回歸目標(biāo) R (z|t) 或 R (z)。在此假設(shè)下，他們將上面公式 (4) 中的 NN_θ 替換為 R。這就有了以下陳述 3：

陳述 3（累積誤差的上限）?？紤]公式 (4) 中 N 個(gè)步驟的采樣過程，從相同的初始噪聲 x_0 = x’_0 開始。通過噪聲調(diào)節(jié)，采樣器計(jì)算如下：

而在無噪聲條件下，計(jì)算如下：

作為參考，EDM 設(shè)置為，其中 σ_d 為數(shù)據(jù)標(biāo)準(zhǔn)差。由于是應(yīng)用于網(wǎng)絡(luò) NN_θ 的系數(shù)，因而研究者將其設(shè)置為常數(shù)以使該網(wǎng)絡(luò)不用建模一個(gè) t - 依賴尺度。在實(shí)驗(yàn)中，這種簡(jiǎn)單的設(shè)計(jì)表現(xiàn)出了比 EDM 更低的誤差上限（陳述 3），因而被命名為了 uEDM，它是無噪聲條件的縮寫。

實(shí)驗(yàn)結(jié)果

研究者對(duì)各種模型的噪聲條件影響進(jìn)行了實(shí)證評(píng)估：

擴(kuò)散：iDDPM、ADM、uEDM
基于流的模型：此處采用了 Rectified Flow (1-RF)
一致性模型：iCT ECM

下表 2 總結(jié)了不同生成模型中的 FID 變化情況，有或無噪聲調(diào)節(jié)分別用 “w/t ” 和 “w/o t ” 表示。

劃重點(diǎn)如下：

(i) 與通常的看法相反，噪聲條件并不是大多數(shù)基于去噪模型發(fā)揮作用的有利因素。大多數(shù)變體都能優(yōu)雅地工作，表現(xiàn)出微小但適當(dāng)?shù)乃p（黃色）；

(ii) 在去除噪聲條件后，一些基于流的變體可以獲得更好的 FID（綠色）；

(ili) uEDM 變體在不使用噪聲條件的情況下實(shí)現(xiàn)了 2.23 的 FID，縮小了與噪聲條件方法的強(qiáng)基線的差距；

(iv) 與擴(kuò)散模型相關(guān)但目標(biāo)函數(shù)有很大不同的一致性模型，也可以表現(xiàn)得很優(yōu)美；

(v) 在本文研究的所有變體中，只有「DDIM w/ ODEsampler*」會(huì)導(dǎo)致災(zāi)難性失敗（紅色），F(xiàn)ID 顯著惡化至 40.90。圖 5 (a) 展示了其定性表現(xiàn)：模型仍然能夠理解形狀和結(jié)構(gòu)，但「overshoot」或「undershoot」會(huì)產(chǎn)生過飽和或噪聲結(jié)果。

在圖 4 中，研究者根據(jù)經(jīng)驗(yàn)評(píng)估了在 100 步 ODE 采樣器下不同方法的陳述 3 中的誤差邊界。誤差邊界的計(jì)算只取決于每種方法的時(shí)間表和數(shù)據(jù)集。圖 4 也展示了理論邊界與經(jīng)驗(yàn)行為之間的緊密聯(lián)系。具體來說，DDIM 的災(zāi)難性失敗可以用其誤差邊界高出幾個(gè)數(shù)量級(jí)來解釋。另一方面，EDMFM 和 uEDM 在整個(gè)過程中的誤差邊界都很小。