DanceGRPO:首個統(tǒng)一視覺生成的強化學習框架
本文由字節(jié)跳動 Seed 和香港大學聯(lián)合完成。第一作者薛澤岳為香港大學 MMLab@HKU 在讀博士生,在 CVPR、NeurIPS 等國際頂級會議上發(fā)表多篇研究成果。項目通訊作者為黃偉林博士和羅平教授。
R1 橫空出世,帶火了 GRPO 算法,RL 也隨之成為 2025 年的熱門技術(shù)探索方向,近期,字節(jié) Seed 團隊就在圖像生成方向進行了相關(guān)探索。
現(xiàn)在,我們推出名為 DanceGRPO 的創(chuàng)新框架,這是首個旨在統(tǒng)一視覺生成強化學習的解決方案,實現(xiàn)了單一強化學習算法在兩大生成范式(diffusion/rectified flow)、三項任務(wù)(文本到圖像、文本到視頻、圖像到視頻)、四種基礎(chǔ)模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五類獎勵模型(圖像 / 視頻美學、圖文對齊、視頻動態(tài)質(zhì)量、二元獎勵)中的全面覆蓋。
- 論文標題:DanceGRPO: Unleashing GRPO on Visual Generation
- arXiv 鏈接:https://arxiv.org/pdf/2505.07818
動機
在生成式 AI 快速發(fā)展的這三年,RLHF 逐漸的走進了大家的視野,首先是 GPT-3.5/o1 等一系列工作讓大家明白了 RLHF 在 LLM 中的意義,LLM 領(lǐng)域的 RLHF 方案百花齊放,發(fā)展的相對成熟一些,今年更催生了 R1 這一類的大爆款工作。同時,大家也發(fā)現(xiàn),對于視覺生成任務(wù),RLHF 對美感等指標幾乎有著決定性影響,但相較 LLM 的成熟度,生成領(lǐng)域的 RLHF 方案顯然沒那么成熟,目前的主流方案大概分為兩類:
1. Diffusion/Flow-DPO:這一類方法是也是直接來自于 LLM 的 DPO 的影響,在實際操作中,大體分為兩種方案,第一種是離線 DPO,即讓模型去生成一批數(shù)據(jù),然后人工標注,然后讓好和壞的數(shù)據(jù)組成 pairs 送回模型去優(yōu)化,第二種是在線 DPO,即在線生成數(shù)據(jù),然后讓 reward model 實時打分,然后拿回去訓練,這兩種思路大同小異。在實際操作中,我們發(fā)現(xiàn) DPO 對模型的效果比較微弱,比如 DPO 前后的生成結(jié)果區(qū)別并不是很大,原因也很好理解,DPO 并沒有拿 reward 作為信號去 reinforce 模型的學習,而是用一種類似 SFT 的方案去做,這種情況下對模型的作用并不是很大。
2. ReFL:這一類方案是 diffusion/rectified flow 所專有的,思路非常簡單直接,就是直接在 z_t 步下直接預(yù)測 z_0 的結(jié)果,然后 vae 去 decode 直接送進 reward model 去直接反向傳播進行優(yōu)化。這一類方案在圖像上效果很明顯,但是因為要對 reward model 和 decode 后的 features 進行反向傳播,在面對 100 幀以上的視頻生成的時候顯存壓力很大。而且,目前 LLM 和 diffusion 聯(lián)合訓練已成為大勢所驅(qū),ReFL 這種通過建模 z_t 和 z_0 的關(guān)系,并且直接反向傳播的方式,似乎和這一類模型的建模策略有著很大的 gap。
于是,利用強化學習對模型進行優(yōu)化的思路也就呼之欲出了,之前社區(qū)也對強化學習優(yōu)化生成模型有過一些探索,例如 DDPO 和 DPOK,但是他們都有很強的局限性:
1. 嘗試的數(shù)據(jù)集非常小,一般小于 100 個 prompts,
2. 只針對文生圖 diffusion model 進行了測試,并沒有涉及到目前流行的 rectified flow 和視頻生成模型
實現(xiàn)目標
于是,我們的目標也呼之欲出,我們的強化學習算法需要滿足以下特征:
1. 提升明顯,reward 上漲的足夠多
2. 在 video 上實現(xiàn)的時候顯存壓力不能大,即,不能直接反向傳播 reward model 和 vae
3. 能在大型 prompt 數(shù)據(jù)集上訓練
4. 能遷移到 rectified flow 和視頻生成模型
DanceGRPO
核心貢獻
我們是第一個視覺生成 + 強化學習的大一統(tǒng)框架,一個 DanceGRPO,可以應(yīng)用在 diffusion 和 rectified flow,可以應(yīng)用在文生圖,文生視頻,圖生視頻三類任務(wù),我們在四個 foundation model 上進行了測試,包括了 Stable Diffusion,F(xiàn)LUX,HunyuanVideo,SkyReel-I2V,我們還在五個 reward model 上進行了測試。
方案設(shè)計
受最近在 LLM 大火的 GRPO 影響,我們開始嘗試 GRPO 這一類方案是否能在 diffusion model 或者 rectified flow 上穩(wěn)定訓練,首先我們要 claim 的點是,diffusion model 和 rectified flow 的出發(fā)點雖然不同,即 diffusion 和 rectified flow 都可以表示成 stochastic interpolant 的特殊情況,在這種 case 下,他們的采樣方程都可以用 SDE 實現(xiàn),具體的公式推導參見原文即可。
接下來,我們就開始實現(xiàn)啦,核心的思路還是 follow 了 DeepSeek 的 GRPO 策略,即,用一個 prompt,生成一批數(shù)據(jù),然后用 GRPO 的目標函數(shù)進行優(yōu)化,但我們并沒有加入 KL 散度的正則項,因為發(fā)現(xiàn)這一項實際上作用不大,以下是我們實驗過程中的一些核心發(fā)現(xiàn):
1. 同一個 prompt 的初始化噪聲最好相同,不然容易 reward hacking
2. 我們可以采樣一個子集的 timesteps 來加速訓練,同時讓模型見過更多的 prompts
3. 實現(xiàn)中可以使用多個 reward model 疊加,而且實現(xiàn)的時候最好是多個 advantage 來疊加
4. DanceGRPO 可以學會 best-of-n inference scaling 的軌跡
5. 強化學習會削弱生成的多樣性
6. 訓練盡量不要打開 cfg,如果非要打開的話,一批 prompt 只能更新一次梯度
算法流程如下:
接下來是關(guān)于 reward model 的討論,我們一共使用了五類 reward model:
(1) 圖像美感
(2) 視頻美感
(3) 圖文匹配
(4) 視頻動態(tài)質(zhì)量
(5) 我們提出了一種新的 reward model,即把美感 & 圖文匹配 reward model 的結(jié)果給二值化,意思是大于某個閾值就是 1,小于這個閾值就是 0
我們在文生圖,文生視頻和圖生視頻上進行了測試。
實驗結(jié)果
我們使用了 HPS-v2.1 和 Clip score 去優(yōu)化模型,結(jié)果如下所示:
我們利用 VideoAlign 在 HunyuanVideo 上進行訓練:
以下是一些 reward 曲線:
ps:i2v 任務(wù)有一些區(qū)別,我們拿視覺美感 reward model 訓練的時候很容易發(fā)散,個人認為是因為 i2v 的美感更多取決于首幀,這個任務(wù)本身只有 motion quality 可言,所以我們只選擇了使用 motion quality reward 去進行訓練。
這是一個隨著 FLUX 訓練迭代次數(shù)的增加,可視化的變化,我們在訓練過程中引入隨機性,但是可視化是不會引入的,就是正常的 ODE solver。
更多的結(jié)果歡迎看原文~