顛覆影視圈!全球首個(gè)開源「無限時(shí)長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時(shí)代 精華
文章鏈接:https://arxiv.org/pdf/2504.13074
代碼&模型鏈接:https://github.com/SkyworkAI/SkyReels-V2
SKyReels-V2 生產(chǎn)驚人的現(xiàn)實(shí)和電影的高分辨率視頻幾乎無限長度
亮點(diǎn)直擊
- 全面的視頻標(biāo)注器,既能理解鏡頭語言,又能捕捉視頻的通用描述,從而顯著提升提示詞遵循能力。
- 針對運(yùn)動優(yōu)化的偏好學(xué)習(xí),通過半自動數(shù)據(jù)收集流程增強(qiáng)運(yùn)動動態(tài)表現(xiàn)。
- 高效的擴(kuò)散強(qiáng)制適配,支持超長視頻生成和故事敘述能力,為時(shí)序連貫性和敘事深度提供穩(wěn)健框架。
- 開源SkyCaptioner-V1及SkyReels-V2系列模型,包括擴(kuò)散強(qiáng)制、文生視頻、圖生視頻、導(dǎo)演模式和元素生視頻模型,并提供多種參數(shù)量級(1.3B、5B、14B)。
先睹為快
SkyReels-V2現(xiàn)已支持生成30秒、40秒的視頻,且具備生成高運(yùn)動質(zhì)量、高一致性、高保真視頻的能力。讓我們先來一睹它的風(fēng)采。
Prompt:A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed.
Prompt:A graceful sea turtle glides through the ocean currents, its powerful flippers moving rhythmically as it swims. The turtle's smooth, greenish-brown shell catches glimpses of sunlight filtering through the water, creating a mesmerizing play of light and shadow. Schools of small fish dart around the turtle, adding life to the underwater scene. The background showcases vibrant coral reefs and swaying seaweed, creating a rich, dynamic marine environment. Wide-shot underwater scene with gentle camera movement following the turtle's path.
Prompt:A woman stands before a vanity mirror, applying makeup with precise, deliberate motions. Her reflection shows focused eyes and a slight smile as she blends powder onto her cheeks. A soft lamp casts warm light, highlighting her hands holding a brush and compact. The mirror reflects a cluttered desk with makeup palettes, a perfume bottle, and scattered brushes. Her hair is loosely tied back, strands falling as she tilts her head. The scene shifts to her lips as she applies gloss, then to her eyes with eyeliner. The atmosphere is calm and intimate, with subtle details like the mirror’s frame, the texture of her skin, and the gentle sound of brushes.
Prompt:A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.
Prompt:A jellyfish floats in deep blue waters, its translucent bell rhythmically contracting and expanding. Its tentacles drift like ribbons in the water. As the jellyfish gracefully swims, we see it passing through a colorful coral reef, where the orange, pink, and purple corals create a striking contrast against the blue-white hues of the jellyfish. The jellyfish continues forward, entering a forest of seaweed, where slender green fronds sway gently with the ocean currents. Finally, the jellyfish drifts toward an open sandy area, scattered with a few glistening starfish and shells. Throughout the journey, sunlight penetrates from the surface, creating beams that cut through the water, adding shifting patterns of light and shadow to this dreamlike underwater world.
總結(jié)速覽
解決的問題
- Prompt Adherence(提示詞遵循):現(xiàn)有通用多模態(tài)大語言模型(MLLM)難以理解電影語法(如鏡頭構(gòu)圖、演員表情、攝像機(jī)運(yùn)動),導(dǎo)致生成的視頻不符合專業(yè)電影風(fēng)格。
- Motion Dynamics(運(yùn)動動態(tài)):現(xiàn)有方法在優(yōu)化時(shí)往往犧牲運(yùn)動質(zhì)量以提升視覺質(zhì)量,導(dǎo)致動態(tài)效果不足。
- Video Duration(視頻時(shí)長):現(xiàn)有模型受限于分辨率優(yōu)化,通常只能生成5-10秒的短視頻,難以實(shí)現(xiàn)長視頻合成。
- Training Stability(訓(xùn)練穩(wěn)定性):現(xiàn)有擴(kuò)散模型和自回歸模型結(jié)合方法(如Diffusion-forcing Transformers)存在噪聲調(diào)度不穩(wěn)定問題,影響收斂。
提出的方案
- 結(jié)構(gòu)化視頻表示(Structural Video Representation):結(jié)合通用MLLM描述和專家模型(如鏡頭類型、攝像機(jī)運(yùn)動)的細(xì)粒度標(biāo)注,提升電影風(fēng)格生成能力。
- 統(tǒng)一視頻標(biāo)注模型(SkyCaptioner-V1):通過知識蒸餾整合通用MLLM和專家模型的標(biāo)注能力,提高視頻描述的準(zhǔn)確性和專業(yè)性。
- 多階段訓(xùn)練策略(Multi-stage Training):
- 漸進(jìn)分辨率預(yù)訓(xùn)練(Progressive-resolution Pretraining):優(yōu)化基礎(chǔ)視頻生成能力。
- 四階段后訓(xùn)練增強(qiáng)(4-stage Post-training):
- 概念平衡的監(jiān)督微調(diào)(SFT):提升基線質(zhì)量。
- 基于強(qiáng)化學(xué)習(xí)的運(yùn)動優(yōu)化(RL Training):利用人工標(biāo)注和合成失真數(shù)據(jù)優(yōu)化動態(tài)效果。
- 擴(kuò)散強(qiáng)制框架(Diffusion Forcing Framework):采用非遞減噪聲調(diào)度,降低搜索空間復(fù)雜度,支持長視頻合成。
- 高質(zhì)量SFT微調(diào):進(jìn)一步提升視覺保真度。
應(yīng)用的技術(shù)
- 多模態(tài)大語言模型(MLLM):用于通用視頻描述生成(如Qwen2.5-VL)。
- 專家模型(Sub-expert Models):針對電影語法(鏡頭、表情、攝像機(jī)運(yùn)動)進(jìn)行細(xì)粒度標(biāo)注。
- 強(qiáng)化學(xué)習(xí)(RL):優(yōu)化運(yùn)動動態(tài),減少人工標(biāo)注成本(半自動偏好數(shù)據(jù)生成)。
- 擴(kuò)散強(qiáng)制框架(Diffusion Forcing):結(jié)合擴(kuò)散模型的高保真和自回歸模型的時(shí)序一致性,支持長視頻生成。
- 漸進(jìn)訓(xùn)練(Progressive Training):從低分辨率到高分辨率逐步優(yōu)化模型。
達(dá)到的效果
- State-of-the-art性能:
- 在V-Bench評測中排名第一(截至2025-02-24)。
- 在提示詞遵循(尤其是電影語法)、運(yùn)動質(zhì)量和長視頻生成方面表現(xiàn)最優(yōu)。
- 支持無限時(shí)長視頻生成:通過擴(kuò)散強(qiáng)制框架和非遞減噪聲調(diào)度,突破傳統(tǒng)5-10秒限制。
- 專業(yè)電影風(fēng)格生成:能夠生成符合電影語法(如鏡頭構(gòu)圖、攝像機(jī)運(yùn)動)的高質(zhì)量視頻。
- 多樣化應(yīng)用:支持故事生成、圖生視頻、導(dǎo)演模式(Camera Director)、元素生成視頻等。
方法
本節(jié)全面概述了本文的方法框架。下圖2展示了訓(xùn)練流程。首先詳述數(shù)據(jù)處理流程,接著解釋視頻標(biāo)注器架構(gòu),隨后描述多任務(wù)預(yù)訓(xùn)練策略,并在闡述后訓(xùn)練優(yōu)化技術(shù)——包括強(qiáng)化學(xué)習(xí)、擴(kuò)散強(qiáng)制訓(xùn)練以及高質(zhì)量監(jiān)督微調(diào)(SFT)階段。還概述了訓(xùn)練與推理的計(jì)算基礎(chǔ)設(shè)施。為驗(yàn)證方法有效性,進(jìn)行了與前沿基線的系統(tǒng)對比,展示了模型的實(shí)際應(yīng)用場景,包括故事生成、圖生視頻、導(dǎo)演模式和元素生視頻生成。
數(shù)據(jù)處理
數(shù)據(jù)處理是視頻模型訓(xùn)練的基石。本文的框架整合了三個(gè)核心組件——數(shù)據(jù)源、處理Pipeline和人工循環(huán)驗(yàn)證——以確保嚴(yán)格的質(zhì)控標(biāo)準(zhǔn)。如圖3所示,處理Pipeline采用從寬松到嚴(yán)格的漸進(jìn)過濾策略,在訓(xùn)練過程中逐步縮減數(shù)據(jù)規(guī)模的同時(shí)提升質(zhì)量。該P(yáng)ipeline首先處理來自多樣化數(shù)據(jù)源的原始輸入,隨后通過自動化流程按不同過濾閾值控制樣本質(zhì)量。關(guān)鍵支柱是人工循環(huán)驗(yàn)證,其重點(diǎn)是對原始數(shù)據(jù)源及各階段訓(xùn)練樣本進(jìn)行人工評估。
通過在數(shù)據(jù)輸入、Pipeline輸出等關(guān)鍵節(jié)點(diǎn)進(jìn)行系統(tǒng)化抽樣檢查,可識別并修正模糊、錯(cuò)誤或非合規(guī)數(shù)據(jù),最終保障模型訓(xùn)練所需的高質(zhì)量數(shù)據(jù)。
數(shù)據(jù)源
針對電影生成模型的目標(biāo),多階段質(zhì)控框架整合了三類數(shù)據(jù)源:
- 通用數(shù)據(jù)集:整合開源資源如Koala-36M、HumanVid及網(wǎng)絡(luò)爬取的額外視頻;
- 自采影視庫:包含28萬+部電影和80萬+集電視劇(覆蓋120+國家,總時(shí)長預(yù)估620萬+小時(shí));
處理Pipeline
如下圖3所示,為構(gòu)建訓(xùn)練數(shù)據(jù)池,原始數(shù)據(jù)需經(jīng)過兩項(xiàng)預(yù)處理:鏡頭分割和標(biāo)注,隨后通過不同訓(xùn)練階段的數(shù)據(jù)過濾器處理質(zhì)量問題。
系統(tǒng)化分析將數(shù)據(jù)問題分為三類:
- 基礎(chǔ)質(zhì)量:低分辨率、低幀率、黑/白/靜態(tài)畫面、鏡頭抖動、運(yùn)動不穩(wěn)定、隨意鏡頭切換;
- 視頻類型問題:監(jiān)控錄像、游戲錄屏、動畫、無意義內(nèi)容、靜態(tài)視頻;
- 后處理偽影:字幕、臺標(biāo)、圖像編輯、分屏、黑/模糊邊框、畫中畫、變速、特效/馬賽克(詳見下表1)。
使用數(shù)據(jù)裁剪器修復(fù)特定質(zhì)量問題,并進(jìn)行數(shù)據(jù)平衡以確保模型泛化性。預(yù)訓(xùn)練階段生成多階段預(yù)訓(xùn)練數(shù)據(jù),后訓(xùn)練階段生成后訓(xùn)練數(shù)據(jù)。
預(yù)處理階段包含兩個(gè)流程:
- 鏡頭分割:所有原始視頻通過PyDetect和TransNet-V2進(jìn)行鏡頭邊界檢測,分割為單鏡頭片段;
- 標(biāo)注:分割后的單鏡頭片段使用下面的層次化標(biāo)注系統(tǒng)進(jìn)行標(biāo)注。
預(yù)處理完成后,訓(xùn)練數(shù)據(jù)池將經(jīng)歷多級數(shù)據(jù)過濾(各階段閾值不同),同時(shí)引入數(shù)據(jù)裁剪器修復(fù)質(zhì)量問題。
數(shù)據(jù)過濾器細(xì)節(jié)
本部分將闡述數(shù)據(jù)過濾器的分類及具體細(xì)節(jié)。數(shù)據(jù)過濾器由元素過濾器和質(zhì)量過濾器組成,用于不同訓(xùn)練階段的數(shù)據(jù)篩選。元素過濾器用于評估特定質(zhì)量問題的嚴(yán)重程度,包括兩類:
- 基于分類的過濾器:檢測問題是否存在或分類;
- 基于評分的過濾器:根據(jù)質(zhì)量需求設(shè)置不同閾值。
具體包括:
- 黑屏過濾器:使用啟發(fā)式規(guī)則檢測黑屏數(shù)據(jù);
- 靜態(tài)畫面過濾器:通過光流計(jì)算得分檢測靜態(tài)畫面;
- 美學(xué)過濾器:調(diào)用美學(xué)模型獲取評分;
- 去重:利用拷貝檢測嵌入空間的相似性消除感知冗余片段,提升預(yù)訓(xùn)練集多樣性;
- OCR過濾器:分析文本存在性并計(jì)算文本區(qū)域占比,根據(jù)訓(xùn)練階段裁剪數(shù)據(jù);
- 馬賽克過濾器:訓(xùn)練專家模型檢測馬賽克區(qū)域;
- 特效/貼紙過濾器:訓(xùn)練專家模型識別特效或貼紙。
此外,還整合了多種質(zhì)量過濾器,例如:
- 視頻質(zhì)量評估模型(VQA)
- 圖像質(zhì)量評估模型(IQA)
- 視頻訓(xùn)練適用性評分(VTSS)
這些模型將在特定訓(xùn)練階段后啟用,并設(shè)置不同閾值進(jìn)行數(shù)據(jù)篩選。圖3展示了不同訓(xùn)練階段中過濾器的應(yīng)用情況。
字幕與臺標(biāo)裁剪細(xì)節(jié)
大部分訓(xùn)練數(shù)據(jù)來自影視劇,可能包含影響生成質(zhì)量的字幕和臺標(biāo)。直接丟棄此類數(shù)據(jù)會造成浪費(fèi),因此我們依次執(zhí)行以下處理:
- 黑邊裁剪(預(yù)處理):
- 基于啟發(fā)式方法裁剪黑邊,為字幕檢測提供更干凈的數(shù)據(jù);
- 字幕檢測:
- 定義四個(gè)候選區(qū)域(幀頂部20%、底部40%、左右各20%);
- 臺標(biāo)檢測:
- 聚焦四角區(qū)域(各占幀寬/高的15%);
- 使用MiniCPM-o模型檢測并記錄臺標(biāo)坐標(biāo);
- 視頻裁剪:
- 構(gòu)建與視頻幀尺寸匹配的二進(jìn)制矩陣(字幕/臺標(biāo)區(qū)域標(biāo)記為0,其余為1);
- 應(yīng)用單調(diào)棧算法(詳見算法A1)定位僅含1的最大內(nèi)部矩形;
- 若該矩形覆蓋原幀80%以上面積且寬高比接近原幀,則按坐標(biāo)裁剪所有幀并保存為新片段,否則丟棄數(shù)據(jù)。
完整流程如圖4所示。
后訓(xùn)練階段的數(shù)據(jù)平衡
在后訓(xùn)練階段,基于標(biāo)注器的主語類別進(jìn)行細(xì)粒度概念平衡,使數(shù)據(jù)量減少50%。下圖5展示了平衡前后按主類別分組的概念分布對比。平衡后,還統(tǒng)計(jì)了每個(gè)主類別下子類別的分布情況。下表2詳細(xì)列出了前五類主類別的子類別統(tǒng)計(jì)數(shù)據(jù)。
人工參與式驗(yàn)證
人工參與式驗(yàn)證(Human-In-The-Loop Validation)要求在數(shù)據(jù)生產(chǎn)的每個(gè)階段——數(shù)據(jù)源(Data Sources)、鏡頭分割(Shot Segmentation)、預(yù)訓(xùn)練(Pre-training)和后訓(xùn)練(Post-training)——進(jìn)行人工視覺檢查,以確保模型訓(xùn)練所用數(shù)據(jù)的高質(zhì)量。對于數(shù)據(jù)源,人工需主觀評估原始數(shù)據(jù)是否適合使用。在鏡頭分割階段,審核人員會檢查樣本,確保錯(cuò)誤鏡頭(如錯(cuò)誤轉(zhuǎn)場)比例低于1%。預(yù)訓(xùn)練階段會對數(shù)據(jù)進(jìn)行過濾,并手動檢查0.01%的樣本(每10,000個(gè)樣本檢查1個(gè)),以滿足嚴(yán)格限制:總體不良案例(如質(zhì)量差、內(nèi)容類型錯(cuò)誤或處理問題)必須低于15%,其中子類別要求包括基礎(chǔ)質(zhì)量問題<3%、視頻類型問題<5%和后處理缺陷<7%。后訓(xùn)練階段采用相同的0.1%抽樣率(每1,000個(gè)樣本檢查1個(gè)),但標(biāo)準(zhǔn)更嚴(yán)格:總不良案例需低于3%,包括基礎(chǔ)質(zhì)量<0.5%、視頻類型問題<1%和后處理缺陷<1.5%。
通過人工檢查得出的不良案例率來確定數(shù)據(jù)源批次的可用性。若某批次的不良案例率超過預(yù)設(shè)閾值,將采取丟棄或進(jìn)一步優(yōu)化該批次等措施。此外,會根據(jù)不同數(shù)據(jù)源的特點(diǎn)調(diào)整過濾參數(shù)。例如,對于質(zhì)量問題頻發(fā)的數(shù)據(jù)源,會加強(qiáng)質(zhì)量相關(guān)過濾條件。這種分階段人工評估確保了數(shù)據(jù)質(zhì)量始終維持在較高水平,從而助力模型高效訓(xùn)練。
視頻描述生成器
本文的視頻描述生成器(Video Captioner)旨在通過結(jié)合結(jié)構(gòu)化描述格式與專業(yè)化子專家描述器,生成精確的視頻描述。其目標(biāo)包括:1)糾正多模態(tài)大語言模型(MLLM)的錯(cuò)誤或幻覺信息;2)持續(xù)優(yōu)化動態(tài)視頻元素(如鏡頭信息、表情和攝像機(jī)運(yùn)動);3)根據(jù)應(yīng)用場景(文本生成視頻或圖像生成視頻)動態(tài)調(diào)整描述長度。
本文設(shè)計(jì)了如下圖6所示的結(jié)構(gòu)化描述,從多維度提供不同視角的詳細(xì)信息,包括:1)主體:主要和次要實(shí)體及其屬性(如外觀、動作、表情、位置、層級類別/類型,例如“動物→哺乳動物”);2)鏡頭元數(shù)據(jù):鏡頭類型、鏡頭角度、鏡頭位置、攝像機(jī)運(yùn)動、環(huán)境、光線等。我們使用基礎(chǔ)模型Qwen2.5-VL-72B-Instruct生成這些初始結(jié)構(gòu)化信息,但部分信息會被專家描述器的結(jié)果替換以獲得更精準(zhǔn)的描述。最終,我們通過融合結(jié)構(gòu)化數(shù)據(jù)為不同模型生成最終描述:1)文本生成視頻:生成密集描述;2)圖像生成視頻:聚焦“主體+時(shí)序動作/表情+攝像機(jī)運(yùn)動”。每個(gè)描述字段遵循10%的丟棄率,以適應(yīng)不同用戶場景(用戶可能無法精確描述每個(gè)字段)。
子專家標(biāo)注器
鏡頭標(biāo)注器
鏡頭標(biāo)注器由三個(gè)子標(biāo)注器組成,分別描述鏡頭的不同方面。包括鏡頭類型、鏡頭角度和鏡頭位置。將這些方面定義為分類問題。1)鏡頭類型:特寫鏡頭、極特寫鏡頭、中景鏡頭、遠(yuǎn)景鏡頭和全景鏡頭。2)鏡頭角度:平視鏡頭、高角度鏡頭、低角度鏡頭。3)鏡頭位置:背面視角、正面視角、頭頂視角、肩上視角、主觀視角和側(cè)面視角。
本文的訓(xùn)練方法采用精心設(shè)計(jì)的兩階段策略來開發(fā)強(qiáng)大的鏡頭分類器。第一階段,使用網(wǎng)絡(luò)圖像訓(xùn)練初步分類器,以建立基線性能(使用類別標(biāo)簽作為觸發(fā)詞從網(wǎng)絡(luò)抓取數(shù)據(jù))。該低精度模型主要用于從我們的電影數(shù)據(jù)集中提取在所有目標(biāo)類別中均衡的真實(shí)世界場景數(shù)據(jù)。第二階段專注于通過對真實(shí)電影數(shù)據(jù)的人工標(biāo)注來開發(fā)高精度專家分類器,每個(gè)類別包含2,000個(gè)精心標(biāo)注的樣本。
這些標(biāo)注樣本構(gòu)成我們最終高精度分類器的訓(xùn)練集,這些分類器專門針對真實(shí)電影視頻中的鏡頭類型、鏡頭角度和鏡頭位置分類進(jìn)行了優(yōu)化。這種多階段訓(xùn)練方法既確保了訓(xùn)練數(shù)據(jù)集中類別的均衡,又保證了生產(chǎn)應(yīng)用中的高分類精度。
表情標(biāo)注器
表情標(biāo)注器提供對人類面部表情的詳細(xì)描述,重點(diǎn)關(guān)注幾個(gè)關(guān)鍵維度:1)情緒標(biāo)簽:情緒分為七種常見類型,即中性、憤怒、厭惡、恐懼、高興、悲傷和驚訝。2)強(qiáng)度:情緒的強(qiáng)度被量化,例如“輕微憤怒”、“中度快樂”或“極度驚訝”,表示情緒的強(qiáng)度。 3)面部特征:構(gòu)成情緒表達(dá)的物理特征,包括眼睛形狀、眉毛位置、嘴角彎曲程度、皺紋和肌肉運(yùn)動。4)時(shí)間描述:捕捉情緒在時(shí)間上的動態(tài)變化,重點(diǎn)是情緒如何演變以及這些變化在視頻中的時(shí)間點(diǎn)。
表情標(biāo)注生成包含兩個(gè)階段:1)首先檢測并裁剪人臉,并使用情緒分類器對其情緒進(jìn)行分類。2)然后將情緒標(biāo)簽和視頻幀輸入VLM模型以生成詳細(xì)的表情標(biāo)注。適配了S2D 的框架,并使用約內(nèi)部數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,聚焦于人類與非人類角色。對于VLM模型,使用InternVL2.5生成基于幀的描述,并將情緒標(biāo)簽作為先驗(yàn),通過鏈?zhǔn)剿季S提示策略對描述進(jìn)行優(yōu)化,生成最終表情標(biāo)注。
攝影機(jī)運(yùn)動標(biāo)注器
本文的框架通過一個(gè)三級處理管線整合“運(yùn)動復(fù)雜度過濾”、“單類型運(yùn)動建模”和“單類型運(yùn)動數(shù)據(jù)整理”,采用分層分類策略對攝影機(jī)運(yùn)動進(jìn)行建模。
SkyCaptioner-V1:結(jié)構(gòu)化視頻描述模型
SkyCaptioner-V1作為最終用于數(shù)據(jù)標(biāo)注的視頻描述模型,該模型基于基礎(chǔ)模型Qwen2.5-VL-72B-Instruct的描述結(jié)果和子專家描述器在平衡視頻數(shù)據(jù)上進(jìn)行訓(xùn)練。平衡視頻數(shù)據(jù)集是從1000萬初始樣本池中精心篩選出的約200萬視頻樣本,旨在保證概念平衡與標(biāo)注質(zhì)量。
基于Qwen2.5-VL-7B-Instruct模型構(gòu)建的SkyCaptioner-V1經(jīng)過微調(diào),以增強(qiáng)在特定領(lǐng)域視頻描述任務(wù)中的表現(xiàn)。為與現(xiàn)有最先進(jìn)模型(SOTA)進(jìn)行性能對比,在1000個(gè)樣本的測試集上進(jìn)行了跨不同描述領(lǐng)域的人工準(zhǔn)確率評估。下表3展示了結(jié)構(gòu)化描述中各領(lǐng)域的詳細(xì)準(zhǔn)確率指標(biāo)。所提出的SkyCaptioner-V1在基線模型中取得了最高平均準(zhǔn)確率,并在鏡頭相關(guān)領(lǐng)域展現(xiàn)出顯著優(yōu)勢。
訓(xùn)練細(xì)節(jié)
采用Qwen2..5-VL-7B-Instruct作為基礎(chǔ)模型,使用全局批次大小512進(jìn)行訓(xùn)練,該批次分布在64塊NVIDIA A800 GPU上,采用4個(gè)微批次大小和2步梯度累積。模型使用AdamW優(yōu)化器進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)為1e-5,訓(xùn)練2個(gè)epoch,并根據(jù)測試集的綜合評估指標(biāo)選擇最佳檢查點(diǎn)。此訓(xùn)練配置在保證大規(guī)模視頻描述任務(wù)計(jì)算效率的同時(shí),確保了模型穩(wěn)定收斂。
多階段預(yù)訓(xùn)練
本文采用Wan2.1的模型架構(gòu),僅從頭訓(xùn)練DiT(Diffusion Transformer),同時(shí)保留VAE和文本編碼器等組件的預(yù)訓(xùn)練權(quán)重。隨后,使用流匹配框架訓(xùn)練視頻生成模型。該方法通過連續(xù)時(shí)間概率密度路徑將復(fù)雜數(shù)據(jù)分布轉(zhuǎn)換為簡單高斯先驗(yàn),支持通過常微分方程(ODE)實(shí)現(xiàn)高效采樣。
訓(xùn)練目標(biāo)
計(jì)算真實(shí)速度向量vt為:
基于此訓(xùn)練目標(biāo),首先設(shè)計(jì)雙軸分桶框架和FPS標(biāo)準(zhǔn)化方法對數(shù)據(jù)進(jìn)行歸一化處理,隨后執(zhí)行分辨率逐步提升的三階段預(yù)訓(xùn)練。
為解耦幀率依賴性,在DiT架構(gòu)中引入可學(xué)習(xí)頻率嵌入,這些嵌入與時(shí)間步嵌入進(jìn)行加性交互。這些可學(xué)習(xí)頻率嵌入將在高質(zhì)量SFT階段僅使用FPS-24視頻數(shù)據(jù)后被棄用。
預(yù)訓(xùn)練階段1
首先在低分辨率數(shù)據(jù)(256p)上進(jìn)行預(yù)訓(xùn)練以獲取基礎(chǔ)生成能力。本階段提出聯(lián)合圖像-視頻訓(xùn)練方案,支持不同寬高比和幀長。我們實(shí)施嚴(yán)格數(shù)據(jù)過濾以去除低質(zhì)量和合成數(shù)據(jù),并通過去重保證數(shù)據(jù)多樣性。該低分辨率階段幫助模型從大量樣本中學(xué)習(xí)低頻概念。此階段訓(xùn)練的模型展現(xiàn)出基礎(chǔ)視頻生成能力,但生成視頻仍較模糊。
預(yù)訓(xùn)練階段2
本階段繼續(xù)聯(lián)合圖像-視頻訓(xùn)練,但將分辨率提升至360p。應(yīng)用更復(fù)雜的數(shù)據(jù)過濾策略,包括時(shí)長過濾、運(yùn)動過濾、OCR過濾、美學(xué)過濾和質(zhì)量過濾。此訓(xùn)練階段后,生成視頻清晰度顯著提升。
預(yù)訓(xùn)練階段3
在最終預(yù)訓(xùn)練階段將分辨率擴(kuò)展至540p,專注于視頻目標(biāo)。我們實(shí)施更嚴(yán)格的運(yùn)動、美學(xué)和質(zhì)量過濾標(biāo)準(zhǔn)以確保高質(zhì)量訓(xùn)練數(shù)據(jù)。此外,引入源過濾以去除用戶生成內(nèi)容,同時(shí)保留影視級數(shù)據(jù)。該方法提升生成視頻的視覺質(zhì)量,顯著增強(qiáng)模型生成具有優(yōu)秀紋理和電影級質(zhì)量的真實(shí)人類視頻的能力。
預(yù)訓(xùn)練設(shè)置
優(yōu)化方面,在所有預(yù)訓(xùn)練階段均采用AdamW優(yōu)化器。階段1中初始學(xué)習(xí)率設(shè)為1e-4,權(quán)重衰減為0。當(dāng)損失收斂至穩(wěn)定范圍后,將學(xué)習(xí)率調(diào)整為5e-5并引入1e-4權(quán)重衰減。階段2和階段3中,學(xué)習(xí)率進(jìn)一步降至2e-5。
后訓(xùn)練階段
后訓(xùn)練是提升模型整體性能的關(guān)鍵階段,后訓(xùn)練包含四個(gè)子階段:540p高質(zhì)量監(jiān)督微調(diào)(SFT)、強(qiáng)化學(xué)習(xí)、擴(kuò)散強(qiáng)制訓(xùn)練以及720p高質(zhì)量監(jiān)督微調(diào)。出于效率考量,前三個(gè)后訓(xùn)練階段采用540p分辨率執(zhí)行,最終階段則在720p分辨率下進(jìn)行。540p高質(zhì)量SFT利用平衡數(shù)據(jù)集提升整體性能,為后續(xù)階段奠定更優(yōu)的初始化狀態(tài)。為增強(qiáng)運(yùn)動質(zhì)量,我們將采用強(qiáng)化學(xué)習(xí)替代標(biāo)準(zhǔn)擴(kuò)散損失方法。此階段我提出半自動化流程,通過人機(jī)協(xié)同方式收集偏好數(shù)據(jù)。本文提出擴(kuò)散強(qiáng)制訓(xùn)練階段,將全序列擴(kuò)散模型轉(zhuǎn)化為應(yīng)用幀級噪聲水平的擴(kuò)散強(qiáng)制模型,從而具備可變長度視頻生成能力。最后通過720p高質(zhì)量SFT階段,將生成分辨率從540p提升至720p。
強(qiáng)化學(xué)習(xí)
受大語言模型(LLM)領(lǐng)域成功經(jīng)驗(yàn)啟發(fā),本文提出通過強(qiáng)化學(xué)習(xí)增強(qiáng)生成模型性能。具體聚焦于運(yùn)動質(zhì)量優(yōu)化,因?yàn)槲覀儼l(fā)現(xiàn)當(dāng)前生成模型的主要缺陷在于:1)對大規(guī)模形變運(yùn)動處理不佳(如圖下7.a、圖7.b);2)生成視頻可能違反物理定律(如圖7.c)。
為避免文本對齊度與視頻質(zhì)量等其他指標(biāo)退化,確保偏好數(shù)據(jù)對的文本對齊度和視頻質(zhì)量具有可比性,僅保留運(yùn)動質(zhì)量差異。這種要求在人類標(biāo)注成本較高的現(xiàn)實(shí)條件下,對獲取偏好標(biāo)注數(shù)據(jù)提出了更大挑戰(zhàn)。為此,我們設(shè)計(jì)了結(jié)合自動生成運(yùn)動對與人工標(biāo)注結(jié)果的半自動化流程。這種混合方法不僅擴(kuò)展了數(shù)據(jù)規(guī)模,更通過質(zhì)量管控提升了與人類偏好的對齊度。基于該增強(qiáng)數(shù)據(jù)集,我們首先訓(xùn)練專用獎(jiǎng)勵(lì)模型捕捉配對樣本間的通用運(yùn)動質(zhì)量差異,該學(xué)習(xí)到的獎(jiǎng)勵(lì)函數(shù)隨后指導(dǎo)直接偏好優(yōu)化(DPO)的樣本選擇過程,從而提升生成模型的運(yùn)動質(zhì)量。
人工標(biāo)注偏好數(shù)據(jù)
通過對生成視頻運(yùn)動偽影的嚴(yán)格分析,建立了系統(tǒng)性故障模式分類體系:包括運(yùn)動幅度過大/不足、主體形變、局部細(xì)節(jié)損壞、物理定律違反及非自然運(yùn)動等。此外,記錄與這些故障模式對應(yīng)的提示詞,并通過大語言模型生成同類提示詞。這些生成的提示詞涵蓋從人機(jī)交互到物體運(yùn)動等各類場景,包含上述所有運(yùn)動故障類型。每個(gè)提示詞使用預(yù)訓(xùn)練模型的歷史檢查點(diǎn)池生成四個(gè)樣本。
樣本采集完成后,相同提示詞生成的樣本被系統(tǒng)性地配對成樣本對。邀請專業(yè)標(biāo)注人員對這些樣本對進(jìn)行偏好評分。標(biāo)注流程遵循兩個(gè)主要步驟:1)數(shù)據(jù)過濾:樣本將在兩種情況下被排除:首先是內(nèi)容/質(zhì)量不匹配——若兩個(gè)樣本描述不同文本內(nèi)容或存在顯著視覺質(zhì)量差異,以確保聚焦運(yùn)動質(zhì)量分析;其次是標(biāo)注標(biāo)準(zhǔn)失效——若配對樣本中任一視頻未滿足主體清晰度、畫面內(nèi)主體尺寸充足或背景構(gòu)圖簡潔三項(xiàng)標(biāo)準(zhǔn)。經(jīng)驗(yàn)表明該過程將過濾約80%的數(shù)據(jù)對。2)偏好選擇:標(biāo)注人員根據(jù)運(yùn)動質(zhì)量標(biāo)準(zhǔn)為每個(gè)樣本對分配"更好/更差/平局"標(biāo)簽。人工標(biāo)注的運(yùn)動質(zhì)量評價(jià)細(xì)則詳見表A2,其中列明了所有運(yùn)動質(zhì)量故障類型的描述。每個(gè)故障類型被賦予加權(quán)分?jǐn)?shù),通過計(jì)算兩個(gè)視頻的總分實(shí)現(xiàn)對比。
自動生成偏好數(shù)據(jù)
在嚴(yán)格質(zhì)量要求下,人工標(biāo)注的高成本嚴(yán)重限制了數(shù)據(jù)集規(guī)模。為擴(kuò)展偏好數(shù)據(jù)集,本文設(shè)計(jì)了自動化偏好數(shù)據(jù)生成流程,包含兩個(gè)核心步驟:
1)真實(shí)數(shù)據(jù)采集使用生成提示詞在現(xiàn)有數(shù)據(jù)集查詢語義相似提示詞(基于CLIP特征的余弦相似度計(jì)算)。篩選獲得語義匹配的真實(shí)參考視頻作為優(yōu)選樣本,拒絕樣本通過以下步驟生成以形成偏好對。
2)漸進(jìn)失真構(gòu)建基礎(chǔ)觀察發(fā)現(xiàn):最先進(jìn)視頻生成模型的運(yùn)動質(zhì)量仍遜色于真實(shí)視頻。通過對真實(shí)視頻施加可控失真來系統(tǒng)模擬運(yùn)動缺陷。每個(gè)真實(shí)視頻附帶文本描述和首幀(靜態(tài)參考),在保持視覺結(jié)構(gòu)的同時(shí)實(shí)現(xiàn)動態(tài)缺陷分析。創(chuàng)建三種失真樣本變體:V2V(噪聲潛變量直接反轉(zhuǎn),最低失真)、I2V(首幀引導(dǎo)重建,中等失真)、T2V(文本描述再生,最高失真)。同時(shí),采用不同生成模型([5,18,17])和模型參數(shù)(如時(shí)間步長)構(gòu)建不同運(yùn)動質(zhì)量等級,保持樣本多樣性。前圖7展示了通過該自動化流程構(gòu)建的三個(gè)案例。
除標(biāo)準(zhǔn)流程外,本文還探索了創(chuàng)新技術(shù)以誘發(fā)特定視頻質(zhì)量問題。可在時(shí)域調(diào)控幀采樣率:增加或降低采樣率以產(chǎn)生運(yùn)動幅度過度/不足效果,或交替采樣率制造異常運(yùn)動。通過Tea-Cache方法調(diào)節(jié)參數(shù)并注入噪聲以破壞視頻幀局部細(xì)節(jié)。針對汽車行駛或飛鳥等場景,通過視頻倒放創(chuàng)建配對樣本,挑戰(zhàn)模型辨別物理運(yùn)動正誤的能力。這些方法能有效模擬視頻生成中的各類異常案例,精確復(fù)現(xiàn)運(yùn)動異常、局部細(xì)節(jié)丟失、違反物理定律等生成過程中可能出現(xiàn)的缺陷場景。
獎(jiǎng)勵(lì)模型訓(xùn)練
遵循VideoAlign方法,基于Qwen2.5-VL-7B-Instruct構(gòu)建運(yùn)動質(zhì)量獎(jiǎng)勵(lì)模型。訓(xùn)練數(shù)據(jù)來源于上述數(shù)據(jù)收集流程,共形成3萬個(gè)樣本對。由于運(yùn)動質(zhì)量與上下文無關(guān),樣本對不包含提示詞。模型采用含平局?jǐn)U展的Bradley-Terry模型(BTT)訓(xùn)練:
其中i > j、i < j、i=j分別表示樣本i優(yōu)于/劣于/等同于樣本j。
DPO訓(xùn)練
應(yīng)用文獻(xiàn)[46]提出的流式直接偏好優(yōu)化(Flow-DPO)來提升生成模型的運(yùn)動質(zhì)量。其損失函數(shù)定義為:
擴(kuò)散強(qiáng)制訓(xùn)練
本節(jié)介紹擴(kuò)散強(qiáng)制Transformer(Diffusion Forcing Transformer),該架構(gòu)賦予模型生成長視頻的能力。擴(kuò)散強(qiáng)制是一種訓(xùn)練與采樣策略,其中每個(gè)標(biāo)記(token)被分配獨(dú)立噪聲水平。這使得訓(xùn)練后的模型可根據(jù)任意單標(biāo)記調(diào)度方案進(jìn)行去噪。從概念上,該方法相當(dāng)于部分掩碼(partial masking)機(jī)制:零噪聲標(biāo)記完全解除掩碼,完全噪聲標(biāo)記則完全掩碼。擴(kuò)散強(qiáng)制訓(xùn)練模型利用較干凈的標(biāo)記作為條件信息,指導(dǎo)含噪標(biāo)記的恢復(fù)。本文擴(kuò)散強(qiáng)制Transformer可根據(jù)前段視頻的末幀實(shí)現(xiàn)無限長視頻生成。需注意,同步全序列擴(kuò)散是擴(kuò)散強(qiáng)制策略的特例——所有標(biāo)記共享相同噪聲水平。這種關(guān)聯(lián)性使能夠通過全序列擴(kuò)散模型微調(diào)得到擴(kuò)散強(qiáng)制Transformer。
受AR-Diffusion啟發(fā),本文采用面向幀的概率傳播(FoPP)時(shí)間步調(diào)度器進(jìn)行擴(kuò)散強(qiáng)制訓(xùn)練,流程包含以下步驟:
當(dāng)先前幀不存在或已去噪完成時(shí),當(dāng)前幀聚焦自去噪;否則以時(shí)間步差s進(jìn)行去噪。值得注意的是,同步擴(kuò)散(s=0)與自回歸生成(s=T)均為特例。較小的s值使相鄰幀更相似,較大的s值提升內(nèi)容多樣性。
本文的條件機(jī)制通過利用更干凈的歷史樣本作為條件實(shí)現(xiàn)自回歸幀生成。在此框架下,信息流具有固有方向性:含噪樣本依賴前序歷史確保一致性。這種方向性表明雙向注意力非必要,可替換為更高效的因果注意力。在采用雙向注意力完成擴(kuò)散強(qiáng)制Transformer訓(xùn)練后,可通過上下文因果注意力微調(diào)提升效率。推理階段,該架構(gòu)支持歷史樣本K、V特征的緩存,消除冗余計(jì)算并顯著降低計(jì)算開銷。
高質(zhì)量監(jiān)督微調(diào)(SFT)
在540p與720p分辨率分別實(shí)施兩階段高質(zhì)量監(jiān)督微調(diào)(SFT)。初始SFT階段在預(yù)訓(xùn)練完成后立即執(zhí)行,但在強(qiáng)化學(xué)習(xí)(RL)階段之前。該階段作為概念均衡訓(xùn)練器,基于僅使用fps24視頻數(shù)據(jù)的預(yù)訓(xùn)練基礎(chǔ)模型,戰(zhàn)略性地移除FPS嵌入組件以簡化架構(gòu)。采用高質(zhì)量概念平衡樣本訓(xùn)練,為后續(xù)訓(xùn)練建立優(yōu)化初始化參數(shù)。完成擴(kuò)散強(qiáng)制訓(xùn)練后,在720p分辨率執(zhí)行二次SFT,采用相同損失函數(shù)與人工篩選的高質(zhì)量概念平衡數(shù)據(jù)集。此最終精煉階段聚焦分辨率提升,實(shí)現(xiàn)視頻質(zhì)量的整體增強(qiáng)。
基礎(chǔ)設(shè)施
本節(jié)介紹訓(xùn)練與推理階段的基礎(chǔ)設(shè)施優(yōu)化方案。
訓(xùn)練優(yōu)化
訓(xùn)練優(yōu)化聚焦保障高效穩(wěn)健的訓(xùn)練過程,包括內(nèi)存優(yōu)化、訓(xùn)練穩(wěn)定性與并行策略三方面:
內(nèi)存優(yōu)化
注意力模塊的fp32內(nèi)存受限操作主導(dǎo)GPU內(nèi)存占用。我們通過高效算子融合減少內(nèi)核啟動開銷,同時(shí)優(yōu)化內(nèi)存訪問與利用率。梯度檢查點(diǎn)(GC)技術(shù)通過僅存儲transformer模塊輸入的fp32狀態(tài)最小化內(nèi)存;將其轉(zhuǎn)換為bf16格式可降低50%內(nèi)存且精度損失可忽略。激活卸載技術(shù)通過異步將臨時(shí)張量轉(zhuǎn)移至CPU進(jìn)一步節(jié)省GPU內(nèi)存。鑒于8塊GPU共享CPU內(nèi)存與過度卸載導(dǎo)致計(jì)算重疊受限,我們策略性結(jié)合GC與選擇性激活卸載實(shí)現(xiàn)最優(yōu)效率。
訓(xùn)練穩(wěn)定性
提出智能自愈框架,通過三階段修復(fù)實(shí)現(xiàn)自主故障恢復(fù):實(shí)時(shí)檢測隔離受損節(jié)點(diǎn)、動態(tài)資源重分配(使用備用計(jì)算單元)、任務(wù)遷移與檢查點(diǎn)恢復(fù)確保訓(xùn)練連續(xù)性。
并行策略
預(yù)計(jì)算VAE與文本編碼器結(jié)果。使用FSDP分布式存儲DiT權(quán)重與優(yōu)化器狀態(tài)以緩解大模型GPU內(nèi)存壓力。在720p分辨率訓(xùn)練時(shí),因大尺寸臨時(shí)張量導(dǎo)致嚴(yán)重GPU內(nèi)存碎片化問題(即使內(nèi)存充足仍觸發(fā)torch.empty_cache())。為此采用序列并行[72]技術(shù)緩解激活內(nèi)存壓力。
推理優(yōu)化
推理優(yōu)化核心目標(biāo)是在保證質(zhì)量前提下降低視頻生成延遲。雖然擴(kuò)散模型能生成高保真視頻,但其推理過程需30-50步多步采樣,5秒視頻生成耗時(shí)超5分鐘。實(shí)際部署中通過顯存優(yōu)化、量化、多GPU并行與蒸餾實(shí)現(xiàn)優(yōu)化:
顯存優(yōu)化
部署采用RTX 4090 GPU(24GB顯存)服務(wù)140億參數(shù)模型。通過FP8量化與參數(shù)級卸載技術(shù)組合,在單GPU實(shí)例上實(shí)現(xiàn)720p視頻生成并保持完整模型能力。
量化
分析表明注意力與線性層是DiT主要計(jì)算瓶頸。我們對全架構(gòu)實(shí)施FP8量化:線性層采用FP8動態(tài)量化結(jié)合FP8 GEMM加速,在RTX 4090上相比bf16基準(zhǔn)實(shí)現(xiàn)1.10×加速;注意力操作部署sageAttn2-8bit,同平臺實(shí)現(xiàn)1.30×推理加速。
并行策略
采用內(nèi)容并行(Content Parallel)、CFG并行與VAE并行三策略加速單視頻生成。實(shí)際部署中,從4卡擴(kuò)展至8卡RTX 4090時(shí)整體延遲降低1.8×。
蒸餾
采用DMD蒸餾技術(shù)加速視頻生成。移除回歸損失,使用高質(zhì)量視頻數(shù)據(jù)(替代純噪聲)作為學(xué)生生成器輸入加速收斂。同時(shí)采用雙時(shí)間尺度更新規(guī)則確保偽評分生成器跟蹤學(xué)生生成器輸出分布,以及DMD多步調(diào)度方案。如公式所示,梯度用于更新學(xué)生生成器G:
性能表現(xiàn)
為了全面評估本文提出的方法,構(gòu)建了用于人工評估的 SkyReels-Bench,并利用開源的 V-Bench 進(jìn)行自動化評估。這使我們能夠?qū)⒈疚牡哪P团c當(dāng)前最先進(jìn)的(SOTA)基線模型進(jìn)行比較,包括開源和專有模型。
SkyReels-Bench
在人工評估方面,設(shè)計(jì)了 SkyReels-Bench,包括 1,020 條文本提示,系統(tǒng)性地評估三個(gè)維度:指令遵循性、運(yùn)動質(zhì)量、一致性和視覺質(zhì)量。該基準(zhǔn)旨在評估文本生成視頻(T2V)和圖像生成視頻(I2V)模型,在不同生成范式下提供全面的評估。
指令遵循性
評估生成視頻與所提供文本提示之間的匹配程度。1)動作指令遵循性:對指定動作或移動的準(zhǔn)確執(zhí)行;2)主體指令遵循性:對描述主體和屬性的正確表達(dá);3)空間關(guān)系:主體之間正確的位置和交互;4)鏡頭遵循性:指定鏡頭類型(特寫、廣角等)的正確實(shí)現(xiàn);5)表情遵循性:情緒狀態(tài)和面部表情的準(zhǔn)確描繪;6)攝影機(jī)運(yùn)動遵循性:攝影機(jī)動作(平移、俯仰、變焦等)的正確執(zhí)行;7)幻覺:不存在提示中未指定的內(nèi)容。
運(yùn)動質(zhì)量
評估視頻中主體的時(shí)間動態(tài)特性。1)運(yùn)動多樣性:動作的多樣性和表現(xiàn)力;2)流暢性和穩(wěn)定性:運(yùn)動的平滑性,無抖動或不連續(xù);3)物理合理性:遵循自然物理規(guī)律和真實(shí)運(yùn)動模式。
一致性
評估視頻幀之間的一致性。1)主體一致性:視頻中主要主體的外觀穩(wěn)定性;2)場景一致性:背景、地點(diǎn)和環(huán)境元素的連貫性。對于圖像生成視頻(I2V)模型,我們另外評估:3)首幀保真度:生成視頻與輸入圖像的一致性,包括色彩保持、主體身份保留以及場景元素的連續(xù)性。
視覺質(zhì)量
評估生成內(nèi)容的空間保真度。1)視覺清晰度:視覺元素的銳度和清晰度;2)色彩準(zhǔn)確性:色彩平衡合適,無過飽和現(xiàn)象;3)結(jié)構(gòu)完整性:主體和背景無失真或損壞。
該全面評估框架使我們能夠系統(tǒng)性地比較不同模型的視頻生成能力,并識別出各模型在視頻質(zhì)量各方面的特定優(yōu)勢與弱點(diǎn)。
在評估中,由20位專業(yè)評估員使用1-5評分量表對每個(gè)維度進(jìn)行評分,評分標(biāo)準(zhǔn)詳見下表4。
最終結(jié)果匯總于下表5。評估結(jié)果顯示,本文的模型在指令遵循性方面相較基線方法取得了顯著提升,同時(shí)在運(yùn)動質(zhì)量方面保持了競爭力,且未犧牲一致性。為確保公平,所有模型均在默認(rèn)設(shè)置下以一致分辨率進(jìn)行評估,且未應(yīng)用任何后處理濾波操作。
模型基準(zhǔn)測試與排行榜
為了客觀比較 SkyReels-V2 與其他領(lǐng)先開源視頻生成模型的性能,利用公共基準(zhǔn) VBench1.0 進(jìn)行了全面評估。
本文特別采用了該基準(zhǔn)中的長版本提示。在與基線模型公平對比時(shí),我們嚴(yán)格遵循其推理推薦設(shè)置。同時(shí),本文的模型在生成過程中使用了50次推理步數(shù)和6的引導(dǎo)尺度,與常規(guī)實(shí)踐保持一致。
VBench 結(jié)果(下表6)顯示,SkyReels-V2 在所有基線模型中表現(xiàn)最優(yōu),包括 HunyuanVideo-13B 和 Wan2.1-14B,取得了最高的總得分(83.9%)和質(zhì)量得分(84.7%)。在此次評估中,語義得分略低于 Wan2.1-14B,但在此前的人工評估中優(yōu)于 Wan2.1-14B,這一主要差距可歸因于 V-Bench 在鏡頭語義遵循性方面評估不充分。
應(yīng)用
故事生成
然而,視頻長度的擴(kuò)展可能導(dǎo)致錯(cuò)誤積累。本文采用一種穩(wěn)定化技術(shù),對先前生成的幀施加輕微噪聲標(biāo)記,從而防止錯(cuò)誤積累并進(jìn)一步穩(wěn)定長視頻生成過程。
在下圖8中,展示了將長鏡頭視頻擴(kuò)展至超過30秒的示例,證明了在增強(qiáng)時(shí)間長度的同時(shí)維持視覺連貫性的能力。
本文的模型不僅支持時(shí)間延展,還能夠生成具有引人入勝敘事的長鏡頭視頻。通過一系列敘事文本提示的引導(dǎo),能夠協(xié)調(diào)一段多動作、具有視覺一致性的視頻敘述。該能力確保了場景之間的平滑過渡,使動態(tài)敘事成為可能,同時(shí)不影響視覺元素的完整性。
下圖9展示了用戶通過順序文本提示操控“小女孩的動作”“女人的表情”以及“引擎狀態(tài)”等屬性的實(shí)例。
圖像生成視頻(I2V)合成
在本文的框架下,有兩種方法可用于開發(fā)圖像生成視頻(I2V)模型:
1)全序列文本生成視頻(T2V)擴(kuò)散模型的微調(diào)(SkyReels-V2-I2V):參考 Wan 2.1 的 I2V 實(shí)現(xiàn),我們在 T2V 架構(gòu)基礎(chǔ)上引入第一幀圖像作為條件輸入。輸入圖像被填充至目標(biāo)視頻長度,并通過 VAE 編碼器獲得圖像潛變量。
這些潛變量與噪聲潛變量和4個(gè)二值掩碼通道(第一幀為1,其余為0)拼接,使模型能夠利用參考幀進(jìn)行后續(xù)生成。為了在微調(diào)過程中保留原始 T2V 能力,我們對新增的卷積層和交叉注意力中的圖像上下文至值投影進(jìn)行零初始化,而其他新組件(如圖像上下文至鍵投影)采用隨機(jī)初始化,以最小化性能突變。
此外,I2V 訓(xùn)練利用第3.2節(jié)所述的字幕生成框架生成的 I2V 特定提示。值得注意的是,該方法在 384 張 GPU 上僅使用 10,000 次訓(xùn)練迭代即可取得具有競爭力的結(jié)果。
2)帶首幀條件的文本生成視頻擴(kuò)散強(qiáng)制模型(SkyReels-V2-DF):本文的另一種方法直接利用擴(kuò)散框架的條件機(jī)制,通過將第一幀作為干凈參考輸入,無需顯式重新訓(xùn)練模型,同時(shí)通過潛變量約束保持時(shí)間一致性。
使用 SkyReels-Bench 評估套件對 SkyReels-V2 與領(lǐng)先的開源和閉源圖像生成視頻模型進(jìn)行評估(見下表7)。評估結(jié)果顯示,無論是 SkyReels-V2-I2V(3.29)還是 SkyReels-V2-DF(3.24),都在開源模型中達(dá)到了最先進(jìn)性能,顯著超越 HunyuanVideo-13B(2.84)和 Wan2.1-14B(2.85)在所有質(zhì)量維度上的表現(xiàn)。
SkyReels-V2-I2V 的平均得分為 3.29,與專有模型 Kling-1.6(3.4)和 Runway-Gen4(3.39)相當(dāng)。基于這一有前景的結(jié)果,我們已公開發(fā)布 SkyReels-V2-I2V 模型,以推動圖像生成視頻合成的社區(qū)研究。
攝影導(dǎo)演模塊
盡管 SkyCaptioner-V1 在注釋攝影機(jī)動作方面表現(xiàn)穩(wěn)健,實(shí)現(xiàn)了主體分布的良好平衡,但攝影機(jī)動作數(shù)據(jù)本身的不均衡性對進(jìn)一步優(yōu)化電影攝影參數(shù)構(gòu)成挑戰(zhàn)。
為解決這一限制,本文從監(jiān)督微調(diào)(SFT)數(shù)據(jù)集中特別策劃了約100萬個(gè)樣本,確保基本攝影機(jī)動作及其常見組合的均衡代表性。在此增強(qiáng)數(shù)據(jù)集基礎(chǔ)上,使用384張GPU進(jìn)行了3,000次迭代的圖像生成視頻模型微調(diào)實(shí)驗(yàn)。
該專項(xiàng)訓(xùn)練顯著提升了攝影機(jī)運(yùn)動的電影表現(xiàn)力,尤其是在流暢性和多樣性方面。
元素生成視頻(E2V)
當(dāng)前視頻生成模型主要處理兩項(xiàng)任務(wù):文本生成視頻(T2V)和圖像生成視頻(I2V)。T2V 利用 T5 或 CLIP 等文本編碼器從文本提示生成視頻,但往往因擴(kuò)散過程的隨機(jī)性而產(chǎn)生不一致性。
I2V 則從靜態(tài)圖像及可選文本生成運(yùn)動,但通常受限于對初始幀的過度依賴。
在先前的工作中,提出了一種元素生成視頻(E2V)任務(wù),并發(fā)布了 SkyReels-A2,一個(gè)可控的視頻生成框架,能夠根據(jù)文本提示將任意視覺元素(如人物、物體、背景)合成為連貫視頻,同時(shí)確保每個(gè)元素參考圖像的高度保真度。
如下圖10所示,SkyReels-A2 能夠生成高質(zhì)量、時(shí)間一致的視頻,并支持多元素的可編輯組合。
A2-Bench,一項(xiàng)用于全面評估 E2V 任務(wù)的新型基準(zhǔn)測試,其結(jié)果與人工主觀評價(jià)表現(xiàn)出統(tǒng)計(jì)學(xué)顯著相關(guān)性。
未來計(jì)劃發(fā)布一個(gè)統(tǒng)一的視頻生成框架,支持更多輸入模態(tài),如音頻和姿態(tài)。該框架將基于我們此前在音頻驅(qū)動和姿態(tài)驅(qū)動人像動畫的研究成果 SkyReels-A1 構(gòu)建,旨在支持更豐富、多樣的輸入形式。
通過這一擴(kuò)展,該框架的應(yīng)用范圍將顯著擴(kuò)大,涵蓋但不限于短劇制作、音樂視頻和虛擬電商內(nèi)容創(chuàng)作等場景。
結(jié)論
SkyReels-V2模型,這是一種新穎的視頻生成框架,能夠在無限長度范圍內(nèi)生成視頻,同時(shí)保持對鏡頭場景提示的高度遵循、優(yōu)質(zhì)視頻輸出和強(qiáng)健運(yùn)動質(zhì)量。
主要提升通過以下方面實(shí)現(xiàn):
1)提示遵循性:通過 SkyCaptioner-V1 模塊增強(qiáng),該模塊結(jié)合了通用多模態(tài)大語言模型(MLLM)與專用鏡頭專家模型的知識蒸餾,從而實(shí)現(xiàn)與輸入提示的精準(zhǔn)對齊;
2)視頻質(zhì)量:通過多樣化數(shù)據(jù)源和多階段訓(xùn)練管pipeline著提升,確保視覺一致性和高保真度輸出;
3)運(yùn)動質(zhì)量:在半自動數(shù)據(jù)生產(chǎn)pipeline支持下,通過強(qiáng)化學(xué)習(xí)后訓(xùn)練優(yōu)化,進(jìn)一步提升動態(tài)一致性與流暢性;
4)無限長度生成:由擴(kuò)散強(qiáng)制框架支持,可無顯式長度約束地?zé)o縫擴(kuò)展視頻內(nèi)容。
盡管取得了這些進(jìn)展,擴(kuò)散強(qiáng)制框架仍在生成過程中存在錯(cuò)誤積累的問題,限制了高質(zhì)量視頻輸出的實(shí)際時(shí)長。未來工作將重點(diǎn)解決該問題,以進(jìn)一步提升模型的可擴(kuò)展性與可靠性。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
