快手聯合港科大“放大招”!推出測試時擴展方法EvoSearch,1.3B視頻模型碾壓14B!
測試時擴展(Test-Time Scaling)極大提升了大語言模型的性能,涌現出了如OpenAI o系列模型和DeepSeek R1等眾多爆款。那么,什么是視覺領域的test-time scaling?又該如何定義?
?
為了回答這一問題,最近香港科技大學聯合快手可靈團隊推出Evolutionary Search (EvoSearch)方法,通過提高推理時的計算量來大幅提升模型的生成質量,支持圖像和視頻生成,支持目前最先進的diffusion-based 和 flow-based模型。
?
EvoSearch 無需訓練,無需梯度更新,即可在一系列任務上取得顯著最優效果,并且表現出良好的scaling up能力,魯棒性和泛化性。隨著測試時計算量提升,EvoSearch表明SD2.1和Flux.1-dev也有潛力媲美甚至超過GPT4o。對于視頻生成,Wan 1.3B也能超過Wan 14B和Hunyuan 13B,展現了了test-time scaling補充training-time scaling的潛力和研究空間。
?
- 論文標題:Scaling Image and Video Generation via Test-Time Evolutionary Search
- 項目主頁:??https://tinnerhrhe.github.io/evosearch/??
- 代碼:https://github.com/tinnerhrhe/EvoSearch-codes
- 論文:https://arxiv.org/abs/2505.17618
一、Test-Time Scaling的本質
這里我們將測試時擴展(Test-Time Scaling)和RL post-training分開來看,我們定義前者無需參數更新,后者需要計算資源進行后訓練。Test-time scaling和 RL post-training本質都是為了激發預訓練模型的能力,使其與人類偏好(獎勵)對齊。給定一個預訓練模型和獎勵函數,我們的目的是擬合如下的目標分布:
?
其中是獎勵函數代表(人類)偏好,KL距離()防止預訓練模型的分布與目標分布偏離太遠,避免知識遺忘。該目標分布可以重新寫成如下形式:
其中是歸一化常數,需要遍歷整個狀態空間來計算。這是不可行的,因為diffusion和flow 模型的狀態空間都是高維的。這導致直接從目標分布采樣不可行。
二、當前方法的局限性
諸如RL的后訓練方法雖然也能從目標分布采樣,但需要構造數據以及大量計算資源重新更新模型參數,導致代價很大并且很難scale up。
?
目前在視覺領域,最有效的test-time scaling方法包括Best-of-N,它基于重要性采樣(Importance Sampling)來擬合目標分布采樣。Best-of-N隨機采樣多個樣本,并篩選出獎勵最高的N個。在基于diffusion和flow模型的圖像和視頻生成任務上,Best-of-N的樣本通常是初始噪聲。
?
最近的一些工作提出了更高級的采樣方法,可以統一稱為Particle Sampling。這類方法將搜索空間拓展為整條去噪軌跡,在去噪過程中不斷保留好的樣本,并丟掉表現差的樣本(類似beam search)。這類方法雖然也能表現出scaling up性質,但缺少探索新的狀態空間能力,并且會減少生成樣本的多樣性。
我們做了一個小實驗,當目標分布和預訓練分布不一致(甚至可能是o.o.d.),基于學習的RL方法會出現獎勵過優化的現象(reward over-optimization)。諸如best-of-N和particle sampling的搜索方法也不能找到目標分布所有的模態。但我們的方法EvoSearch成功擬合了目標分布,并且取得了最高的獎勵值。
三、EvoSearch解讀
我們將圖像和視頻生成的test-time scaling問題重構成演化搜索問題。具體來說,受生物的自然選擇和演化所啟發,我們將diffusion和flow模型中的去噪軌跡看成演化路徑,每個去噪步的樣本都可以進行變異演化來探索更高質量的子代,最后得到最優的符合目標分布的去噪樣本(圖片或者視頻)。不同于一般的演化方法,樣本空間局限于一個固定的狀態空間進行演化,我們提出的EvoSearch的演化空間沿著去噪軌跡動態前移,即起始于高斯噪聲,終止于x0。
EvoSearch 框架圖
?
我們的方法受如下的洞見啟發。我們發現在整個去噪軌跡中,高質量的樣本往往會聚集在一起。因此,當我們搜索到高質量的父代,我們可以在父代周圍的空間進行探索從而有效找到更高質量的樣本。從下圖可以看到去噪軌跡中的樣本在低維空間的分布與獎勵空間具有強相關性。
?
?
基于此,我們設計了如下兩種變異模式:
- 初始噪聲變異:EvoSearch通過如下正交操作保持初始噪聲仍然符合高斯分布
?
其中是變異率來控制探索強度。
- 中間去噪狀態變異:由于中間去噪狀態的分布是復雜的且在搜索過程中不可知。我們受SDE方程啟發,設計如下變異模式:
其中是SDE去噪過程中的擴散系數。
這些變異方式一方面加強了對于新的狀態空間探索,另一方面又避免了偏離去噪軌跡的預訓練分布。
我們定義了evolution schedule和population size schedule來進行演化搜索,這兩種schedule的設置取決于可用的測試時計算量大小。
- Evolution Schedule定義為,用于指定應該在哪些時間步驟進行EvoSearch。該調度模式避免了冗余去噪步數,節省了計算開銷。
- Population Size Schedule定義為 ,其中代表了初始噪聲樣本的種群大小,后續每個規定了在時間步的演化子代種群大小。
EvoSearch算法偽代碼如下:
四、EvoSearch實驗結果
1. 對于圖片生成任務,在Stable Diffusion 2.1和Flux.1-dev上,EvoSearch展示了最優的scaling up性質。即使測試時計算量擴大了1e4量級,仍能保持上升勢頭。對于視頻生成任務,EvoSearch在VBench,VBench2.0以及VideoGen-Eval中的prompts上也能達到最高的reward提升幅度。
?
2. EvoSearch也能泛化到分布外(unseen)的評估指標,顯示了最優的泛化性和魯棒性。
?
3. EvoSearch在人類評估上也達到最優勝率。這得益于他高的生成多樣性,平衡了exploration和exploitation。
4. 下面是更多的可視化結果:
更多細節請見原論文和項目網站。
