1080p飛升4k,浙大開源原生超高清視頻生成方案,突破AI視頻生成清晰度上限
為什么AI生成的視頻總是模糊卡頓?為什么細節紋理經不起放大?為什么動作描述總與畫面錯位?
其中一個重要原因在于,現有的開源千萬級視頻數據集分辨率基本低于1080P(1920×1080),且大部分視頻的說明(caption)簡單粗糙,不利于大模型學習。
當主流視頻生成模型還在720P畫質掙扎時,浙江大學APRIL實驗室聯合多家高校推出的高質量開源UHD-4K(其中22.4%為8K)文本到視頻數據集——UltraVideo,破解了這一困局。
該數據集涵蓋廣泛主題(超過100種),每個視頻配備9個結構化字幕及一個總結性字幕(平均824詞)。
作為全球首個開源4K/8K超高清視頻數據集,UltraVideo配合結構化語義描述框架,讓視頻生成實現從“勉強能看”到“影院級質感”的跨越式進化。
團隊基于42K精選視頻微調的UltraWan-4K模型,實現三大突破:
- 原生4K生成:直接輸出4K(3840×2160)分辨率視頻;
- 語義精準控制:利用結構化描述實現鏡頭語言控制;
- 資源高效:僅用LoRA輕量化訓練,單卡可部署。
方法:四階過濾打造高質量4K視頻數據集
當前視頻生成面臨兩大瓶頸:
分辨率陷阱:模型在低清數據訓練后,直接生成4K視頻會出現嚴重失真。如圖2所示,na?ve Wan-T2V-1.3B在1080P生成時畫質顯著下降,而提升到4K(2160×3840)分辨率時完全失效。
語義鴻溝:簡單文本描述無法很好地細致控制主題、背景、風格、鏡頭、光影等影視級參數。
然而,以電影級應用為目標的4K/8K內容生成急需超高清數據與結構化語義視頻描述指導。
UltraVideo通過嚴苛四階篩選實現視頻質量躍遷:
源頭把控:人工從YouTube精選5000部4K/8K原片,時長從1分鐘到2小時不等,并對視頻進行二次人工審核,以確保盡可能避免低質量、模糊、水印和抖動等問題,在源頭把控視頻質量而減少后續流程的漏檢負載。
統計信息過濾:去OCR字幕、去黑邊、曝光/灰度檢測淘汰劣質視頻片段
模型二次過濾:視頻美學評估、時序運動打分、視頻-文本一致性排序、基于MLLM的16種常見視頻缺陷過濾。
結構化描述:基于Qwen2.5-VL-72B自動化caption管線,生成9類語義標簽(鏡頭運動/光影/氛圍等),并通過Qwen3-4B匯總總結描述(每個視頻平均824個單詞)。
最終,團隊獲得了3s-10s的42k短視頻和10秒以上的17k長視頻,其中8K視頻占比22.4%,以支持未來更高分辨率的研究。
視頻的主題多樣性對視頻模型的訓練效果至關重要。團隊對Koala-36M的標題進行了名詞統計,經由LLMs和人工處理確認后,獲得了七個主要主題(108個主題),即視頻場景、主體、動作、時間事件、攝像機運動、視頻類型以及情感。下圖展示了對每個主題下不同主題的片段比例進行的統計分析。
實測:小樣本撬動4K生成
基于UltraVideo數據集,團隊在中小規模的Wan-T2V-1.3B上進行實驗。
團隊驚訝發現,僅用42K包含全面文本的極高視頻質量數據就足以顯著提升生成視頻的審美和分辨率。
由于團隊僅使用LoRA進行微調,并未涉及模型結構的修改,相關經驗可以輕松地遷移到開源社區的其他T2V模型上。
此外,由于高分辨率需要更多的計算能力導致推理速度變慢,團隊從VBench中隨機抽取了十分之一(?96)的提示進行測試。
如表4所示,團隊比較了五個模型:(1)官方Wan-T2V-1.3B模型,分辨率為480×832(2)將分辨率提高到1K(1088×1920)(3)1K全參數微調(4)1K LoRA PEFT。(5)4K LoRA PEFT
結果顯示,
1、將官方模型擴展到1K會導致性能顯著下降。
2、基于UltraWan-1K的全參數訓練顯著提升了1K分辨率下的生成效果。但與原生模型相比,訓練超參數(如批大小和提示)的差異可能導致其整體結果略差于基于UltraWan-1K的LoRA模型。考慮到訓練成本,研究團隊推薦使用基于LoRA的UltraWan-1K方案。
3、更高的UltraWan-4K模型在圖像質量和時間穩定性相關的指標上表現更好。但其較低的幀率(推理使用33幀以確保時間超過1秒)導致某些指標與UltraWan-1K相比有所下降。
團隊基于42K精選視頻微調的UltraWan-4K模型,實現三大突破——原生4K生成:直接輸出4K(3840×2160)分辨率視頻;語義精準控制:利用結構化描述實現鏡頭語言控制;資源高效:僅用LoRA輕量化訓練,單卡可部署。
下圖展示了定性的效果對比。官方的Wan-T2V-1.3B無法直接生成高分辨率1K視頻,而UltraWan能夠處理語義一致的1K/4K生成任務。
這是首次證明,少量極致質量數據,能突破視頻生成的分辨率天花板。
在UltraVideo中,通過調整分辨率、幀率和音頻,它可以輕松適應任何超高清環境下的相關視頻任務,例如探索低級UHD視頻超分辨率、幀插值、編解碼器,以及高級視頻編輯、逐幀處理、音樂生成。
這項工作不僅填補了高分辨率視頻生成研究中的重要空白,還通過新穎的數據集構建、先進的數據處理流程和精煉的模型架構推動了技術前沿,為未來UHD視頻生成的突破奠定了基礎。
團隊計劃在未來利用長時序子集深入探索長視頻生成任務。團隊表示,UltraVideo已全面開源,同時也開源了UltraWan-1K/4K LoRA權重。
論文:https://arxiv.org/abs/2506.13691
項目主頁:https://xzc-zju.github.io/projects/UltraVideo/
數據集:https://huggingface.co/datasets/APRIL-AIGC/UltraVideo
模型:https://huggingface.co/APRIL-AIGC/UltraWanDemo
展示:https://www.youtube.com/watch?v=KPh62pfSHLQ