VDC+VBench雙榜第一!強化學習打磨的國產視頻大模型,超越Sora、Pika
隨著 Deepseek 等強推理模型的成功,強化學習在大語言模型訓練中越來越重要,但在視頻生成領域缺少探索。復旦大學等機構將強化學習引入到視頻生成領域,經過強化學習優化的視頻生成模型,生成效果更加自然流暢,更加合理。并且分別在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 兩大國際權威榜單中斬獲第一。
視頻細粒度文本描述
視頻細粒度文本描述模型(video detailed caption)為視頻生成模型提供標簽,是視頻生成的基礎。復旦大學等機構提出了 Cockatiel 方法 [3],該方法在權威的 VDC(Video Detailed Captioning 視頻細粒度文本描述評測集)榜單上獲得第一名,超過了包括通義千問 2-VL、VILA1.5、LLaVA-OneVision,Gemini-1.5 等在內的多個主流視頻理解多模態大模型。
- 論文標題:Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
- 項目主頁: https://sais-fuxi.github.io/projects/cockatiel/
- 論文地址: https://arxiv.org/pdf/2503.09279
- Github: https://github.com/Fr0zenCrane/Cockatiel
Cockatiel 的核心思路是:基于人類偏好對齊的高質量合成數據,設計三階段微調訓練流程,系統集成了多個在不同描述維度上表現領先的模型優勢。通過這一方法,以單機的訓練成本訓練出了一套在細粒度表達、人類偏好一致性等方面均表現卓越的視頻細粒度描述模型,為后續視頻生成模型的訓練和優化打下了堅實基礎,模型細節如下(更多詳情可參考論文和開源 github):
- 階段一:構造視頻細粒度描述的人類偏好數據:分別對視頻描述的對象、對象特征、動態特征、鏡頭動作和背景的文本描述質量進行人工標注。
- 階段二:基于打分器的多模型集成訓練:基于人工標注數據訓練獎勵函數(reward model),并多個模型合成的視頻描述計算獎勵(reward),最終對 13B 的多模態大語言模型進行人類偏好對齊優化。
- 階段三:蒸餾輕量化模型:基于上一步訓練的 13B 的多模態大語言模型蒸餾 8B 模型,方便后續在下游任務中低成本推理。
實驗結果顯示基于 Cockatiel 系列模型生成的視頻細粒度描述,具備維度全面、敘述精準詳實以及幻覺現象較少的顯著優勢。如下圖所示,與 ViLA,LLaVA 和 Aria 的基線模型相比,Cockatiel-13B 不僅能夠準確復現基線模型所描述的細節(以黃底高亮部分表示),還能捕捉到基線模型遺漏的關鍵信息(以紅底高亮部分表示)。而 Cockatiel 生成的描述則大量避免了幻覺性內容,Cockatiel 展現了更高的可靠性和準確性。
強化學習加強的視頻生成技術
在視頻生成領域,該團隊首次提出了迭代式強化學習偏好優化方法 IPOC [4],在權威視頻生成評測榜單 VBench (2025-04-14) 上,IPOC 以 86.57% 的總分強勢登頂,領先通義萬相、Sora、HunyuanVideo、Minimax、Gen3、Pika 等眾多國內外知名視頻生成模型。
- 論文標題:IPO: Iterative Preference Optimization for Text-to-Video Generation
- 論文地址:https://arxiv.org/pdf/2502.02088
- 項目主頁:https://yangxlarge.github.io/ipoc//
- GitHub 地址:https://github.com/SAIS-FUXI/IPO
研究者通過迭代式強化學習優化方式,避免了強化學習中訓練不穩定的問題。同時只需要依賴少量的訓練數據和算力,以低成本實現效果優化。 模型細節如下(更多詳情可參考論文和開源 github):
階段一:人工偏好數據標注:IPO 方法通過逐視頻打分(Pointwise Annotation)與成對視頻排序(Pairwise Annotation)兩種方式進行人工標注。標注過程中,標注者不僅需要提供評分或排序結果,還需詳細闡述評分理由,以構建具有思維鏈(Chain-of-Thought, CoT)風格的標注數據。這種標注形式有助于模型深入理解視頻內容與文本描述之間的語義一致性,從而形成高質量的人類偏好數據集。
階段二:獎勵模型訓練:IPO 方法進一步引入了一種基于多模態大模型的 “獎勵模型”(Critic Model)。獎勵模型僅通過少量人工標注數據和少量算力即可高效訓練完成,隨后可自動實現對單個視頻的評分以及對多個視頻的對比排序。這種設計無需在每次迭代優化時都重新進行人工標注,顯著提高了迭代優化效率。此外,獎勵模型具備出色的通用性和 “即插即用” 特性,可廣泛適配于各類視頻生成模型。
階段三:迭代強化學習優化:IPO 方法利用當前的視頻生成(T2V)模型生成大量新視頻,并由已訓練的獎勵模型對這些視頻進行自動評價與標注,形成新的偏好數據集。隨后,這些自動標注的數據用于進一步優化 T2V 模型。這一過程持續迭代循環,即:“視頻生成采樣 → 樣本獎勵計算 → 偏好對齊優化”。此外,我們提出的 IPO 框架同時兼容當前主流的偏好優化算法,包括基于對比排序的 Diffusion-DPO 方法與基于二分類評分的 Diffusion-KTO 方法,用戶可靈活選擇訓練目標,其中兩種人類偏好對齊方法(DPO 和 KTO)的訓練目標為:
- DPO (Direct Preference Optimization):
- KTO (Kahneman-Tversky Optimization):
實驗結果顯示經過優化后,視頻生成模型在時序一致性上實現了顯著提升。相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,獅子的行走動作更加自然連貫,整體動態流暢度有了明顯改善。
Prompt: An astronaut in a sandy-colored spacesuit is seated on a majestic lion with a golden mane in the middle of a vast desert. The lion's paws leave deep prints in the sand as it prowls forward. The astronaut holds a compass, looking for a way out of the endless expanse. The sun beats down mercilessly, and the heat shimmers in the air.
視頻生成模型在結構合理性提升明顯。相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,人物和猛犸象具有更好結構合理性。
Prompt: A young girl in a futuristic spacesuit runs across a vast, icy landscape on a distant planet, with a towering mammoth-like creature beside her. The mammoth's massive, shaggy form and long tusks contrast with the stark, alien environment. The sky above is a deep, star-filled space, with distant planets and nebulae visible.
視頻生成模型在動態程度和美學度都有明顯提升,相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,人物動作更加流暢,人物和背景更好美觀。
Prompt: A woman with flowing dark hair and a serene expression sits at a cozy The café, sipping from a steaming ceramic mug. She wears a soft, cream-colored sweater and a light brown scarf, adding to the warm, inviting atmosphere. The The café is dimly lit with soft, ambient lighting, and a few potted plants add a touch of greenery.