擴散模型獎勵微調(diào)新突破：Nabla-GFlowNet讓多樣性與效率兼得

作者：機器之心 2025-04-14 09:50:00

我們利用生成流網(wǎng)絡（GFlowNet）的框架，嚴謹?shù)氐玫揭粋€可以更好保持多樣性和先驗的高效的擴散模型獎勵微調(diào)方法，并且在 Stable Diffusion 這一常用的文生圖擴散模型上顯示出相較于其他方法的優(yōu)勢。

本文作者劉圳是香港中文大學（深圳）數(shù)據(jù)科學學院的助理教授，肖鎮(zhèn)中是德國馬克思普朗克-智能系統(tǒng)研究所和圖賓根大學的博士生，劉威楊是德國馬克思普朗克-智能系統(tǒng)研究所的研究員，Yoshua Bengio 是蒙特利爾大學和加拿大 Mila 研究所的教授，張鼎懷是微軟研究院的研究員。此論文已收錄于 ICLR 2025。

在視覺生成領域，擴散模型（Diffusion Models）已經(jīng)成為生成高質(zhì)量圖像、視頻甚至文本的利器。然而，生成結(jié)果往往離我們所偏好的不一致：結(jié)果不美觀，圖文不符，等等。

雖然我們可以像大語言模型中的 RLHF（基于人類反饋的強化學習）一樣直接用傳統(tǒng)強化學習來微調(diào)擴散模型，但收斂速度往往慢；而基于可微計算圖直接最大化獎勵函數(shù)的方法又往往陷入過擬合和多樣性缺失的問題。

有沒有一種方法，既能保留生成樣本的多樣性，又能快速完成微調(diào)？我們基于生成流網(wǎng)絡（Generative Flow Network，GFlowNet）提出的 Nabla-GFlowNet 實現(xiàn)了這一速度和質(zhì)量間的平衡。

論文標題：Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets
論文地址：https://arxiv.org/abs/2412.07775
代碼地址：https://github.com/lzzcd001/nabla-gfn

利用 Nabla-GFlowNet 在 Aesthetic Score 獎勵函數(shù)（一個美學指標）上高效微調(diào) Stable Diffusion 模型。

擴散過程的流平衡視角

生成流網(wǎng)絡 GFlowNet 示意圖。初始節(jié)點中的「流」通過向下游的轉(zhuǎn)移概率流經(jīng)不同節(jié)點，最后匯聚到終端節(jié)點。每個終端節(jié)點所對應的流應匹配該終端節(jié)點對應的獎勵。

在生成流網(wǎng)絡（Generative Flow Network, GFlowNet）的框架下，擴散模型的生成過程可以視為一個「水流從源頭流向終點」的動態(tài)系統(tǒng)：

從標準高斯分布采樣的噪聲圖像作為初始狀態(tài)，其「流量」為；
去噪過程如同分配水流的管道網(wǎng)絡，把每一個節(jié)點的水流分配給下游每一個節(jié)點；
而加噪過程則可以回溯每一個的水流來自哪里；
最終生成的圖像將累積總流量。

擴散模型示意圖

流梯度平衡條件

在 GFlowNet 框架下，前后向水流需要滿足一定的平衡條件。我們通過推導提出我們稱為 Nabla-DB 的平衡條件：

其中是殘差去噪過程，和分別是微調(diào)模型和預訓練模型的去噪過程。是這個殘差過程對應的對數(shù)流函數(shù)。

這個殘差去噪過程應該滿足，其中 β 控制微調(diào)模型在獎勵函數(shù)和預訓練模型之間的平衡。如果 β 為零，那么殘差過程為零，也就是微調(diào)網(wǎng)絡等于預訓練網(wǎng)絡。

稍作變換，就可以得到我們提出的 Nabla-GFlowNet 對應的損失函數(shù) Residual Nabla-DB（其中 sg 為 stop-gradient 操作）：

前向匹配損失：

后向匹配損失：

終端匹配損失：

對數(shù)流梯度參數(shù)化設計

上述損失函數(shù)需要用一個額外的網(wǎng)絡估計，但我們觀察到：如果我們對做單步預測得到不準確的去噪結(jié)果，那么是一個很好的估計，其中是一個權(quán)重常數(shù)。因此，我們提出如下參數(shù)化：

其中是用 U-Net 參數(shù)化的殘差梯度，而單步去噪估計為（是擴散模型ε-預測參數(shù)化的網(wǎng)絡）。

方法示意圖。每條采樣路徑的每個轉(zhuǎn)移對中每張圖的上下兩個「力」需要相互平衡。

直觀解釋

如果我們只計算這一轉(zhuǎn)移對的前向匹配損失對擴散模型參數(shù)的梯度，我們有：

其中第一項是基于內(nèi)積的匹配度函數(shù)（殘差擴散模型與獎勵梯度估計之間的匹配），第二項是讓微調(diào)模型趨近于預訓練模型的正則化。

偽代碼實現(xiàn)

實驗結(jié)果

我們分別用以下獎勵函數(shù)微調(diào) Stable Diffusion 網(wǎng)絡：

Aesthetic Score，一個在 Laion Aesthetic 數(shù)據(jù)集上訓練的美學評估獎勵函數(shù)；
HPSv2 和 ImageReward，衡量指令跟隨能力的獎勵函數(shù)。

定性實驗結(jié)果表明，通過 Nabla-GFlowNet 微調(diào)，我們可以快速得到獎勵更高但避免過擬合的生成圖像。

ReFL 和 DRaFT 等直接獎勵優(yōu)化的方法雖然收斂速度快，但很快會陷入過擬合；而 DDPO 這一基于傳統(tǒng)策略梯度的強化學習微調(diào)方法由于沒有理由梯度信息，微調(diào)速度顯著劣于其他方法。

同時，我們的定量實驗表明，我們的 Nabla-GFlowNet 可以更好保持生成樣本的多樣性。

Aesthetic Score 獎勵函數(shù)上的微調(diào)結(jié)果（微調(diào) 200 步，取圖片質(zhì)量不坍塌的最好模型）。Nabla-GFlowNet（對應 Residual Nabla-DB 損失函數(shù)）方法微調(diào)的網(wǎng)絡可以生成平均獎勵更高且不失自然的生成圖片。