超越Sora!阿里正式完全開源最新、最強大的視頻生成模型 Wan2.1
阿里巴巴通義實驗室正式開源了他們最新、最強大的視頻生成模型 Wan2.1 系列!
Wan2.1 亮點速覽
? 復雜運動: 視頻動作更流暢自然,復雜場景也能輕松駕馭
?? 物理模擬: 物體交互更真實,視頻更具沉浸感
?? 電影質感: 視覺效果更上一層樓,細節更豐富,更具藝術性
?? 可控編輯: 編輯能力更強大,創作空間更廣闊
?? 視覺文字: 中英文動態文字生成,應用場景更豐富
?? 音效音樂: 視聽體驗一體化,視頻極具感染力
Wan2.1 系列模型家族,為不同需求的用戶提供了多樣化的選擇:
Wan2.1-I2V-14B: 圖像到視頻 (I2V) 領域的天花板! 140億參數,720P高清畫質,I2V 性能 SOTA!Wan2.1-T2V-14B: 文本到視頻 (T2V) 領域的性能王者! 140億參數,720P高清畫質,T2V 性能 SOTA! 獨家支持中英文文字生成!Wan2.1-T2V-1.3B: 消費級顯卡的最佳拍檔! 13億參數,480P流暢運行,8GB顯存即可暢玩! 性能媲美部分閉源大模型!
阿里還附上了Wan2.1 的技術報告
從技術報告來看 Wan2.1 的突破性進展,主要得益于以下幾大創新:
核心創新一: 3D 變分自編碼器 (VAE) —— 視頻壓縮與質量的完美平衡!
Wan2.1 團隊創新性地提出了3D 因果 VAE 架構,專為視頻生成量身打造! 它巧妙地融合了多種策略,在時空壓縮、內存控制和時間因果性 之間找到了最佳平衡點,讓 VAE更高效、更易擴展,并與擴散模型 DiT 完美結合!
長視頻處理秘訣: 特征緩存機制 (Feature Cache Mechanism): 為了高效處理任意長度的視頻,Wan2.1 的 VAE 在因果卷積模塊中引入了特征緩存機制。 它將視頻幀序列 (1+T 格式) 分割成 1 + T/4 個 chunks,每個 chunk 對應一個潛在特征。 模型以 chunk-wise 策略 處理視頻,每次編解碼操作只處理對應一個潛在表示的視頻 chunk。 每個 chunk 的幀數被限制在 最多 4 幀,有效防止了 GPU 內存溢出!
性能飛躍: 速度提升 2.5 倍! 實驗證明,Wan2.1 的視頻 VAE 性能卓越,在視頻質量和處理效率上都表現出色。 在相同的硬件環境 (單 A800 GPU) 下,Wan2.1 VAE 的 重建速度比 SOTA 方法 HunYuanVideo 快了 2.5 倍! 在高分辨率下,速度優勢將更加明顯!
核心創新二: 視頻擴散 DiT (Diffusion Transformer) —— 強大生成力的源泉!
Wan2.1 基于主流擴散 Transformer 范式和 Flow Matching 框架構建了視頻擴散模型 DiT。 它巧妙地利用了T5 Encoder來編碼多語言文本,并通過在每個 Transformer Block 中加入 交叉注意力,將文本信息深度融入模型結構。
參數高效優化: 線性層 + SiLU 層 + 共享 MLP: Wan2.1 采用線性層和 SiLU 層處理時間 Embedding,并預測六個調制參數。 關鍵在于,一個共享的 MLP被所有 Transformer Block 共用,每個 Block 只學習不同的偏差 (biases)。 實驗表明,這種方法在 參數規模不變的情況下,顯著提升了模型性能! 因此,1.3B 和 14B 模型都采用了這種架構。
核心創新三: 模型擴展與訓練效率優化 —— 更大模型,更快速度
為了訓練更大規模的 Wan2.1 模型,并提升訓練和推理效率,團隊采用了多種并行策略:
訓練加速: FSDP + 上下文并行 (CP): 訓練時,Wan2.1 使用FSDP (Fully Sharded Data Parallel) 進行模型分片,并結合上下文并行 (CP)。 FSDP group 和 CP group 相交而非嵌套。 在 FSDP 中,數據并行 (DP) size 等于 FSDP size 除以 CP size。 在滿足內存和單 batch 延遲要求后,使用 DP 進行擴展。
推理加速: 上下文并行 (CP): 推理時,為了減少單視頻生成延遲,Wan2.1 選擇上下文并行 (CP) 進行分布式加速。 對于 14B 等大型模型,模型分片 (FSDP)也是必需的。 考慮到視頻序列通常較長,FSDP 比張量并行 (TP) 通信開銷更小,并允許計算與通信重疊。
并行策略細節: 2D 上下文并行: 訓練和推理都采用相同的 2D 上下文并行策略: 機器間 (external layer) 使用 RingAttention,機器內 (intra-machine) 使用 Ulysses。 實驗表明,在 Wan 14B 大模型上,使用 2D CP 和 FSDP 并行策略,DiT 實現了 近乎線性的加速!
核心創新四: Image-to-Video (I2V) —— 圖像驅動,精準可控!
Wan2.1 在 Image-to-Video (I2V) 任務上也表現出色,實現了更強的 可控性。 其 I2V 的關鍵技術包括:
條件圖像引導: 將 條件圖像作為視頻的第一幀,并與零填充幀沿時間軸拼接,形成引導幀 (guidance frames)。
VAE 壓縮條件信息: 使用 3D VAE 將引導幀壓縮為 條件潛在表示 (condition latent representation)。
二元掩碼 (Binary Mask) 控制生成區域: 引入二元掩碼,1 表示保留幀,0 表示需要生成的幀。 掩碼的空間尺寸與條件潛在表示匹配,時間長度與目標視頻相同。 掩碼會被重塑為與 VAE 的時間步幅相對應的特定形狀。
融合機制: 將噪聲潛在表示、條件潛在表示和重塑后的掩碼沿通道軸拼接,輸入到 DiT 模型中。
I2V 專屬投影層: 由于 I2V DiT 模型的輸入通道數比 T2V 模型更多,因此增加了一個 額外的投影層,并用零值初始化。
CLIP 圖像編碼器 + MLP 全局上下文: 使用 CLIP 圖像編碼器** 提取條件圖像的特征表示。 通過三層 MLP** 將特征投影為全局上下文 (global context),并通過解耦交叉注意力 (decoupled cross-attention)** 注入到 DiT 模型中。
海量高質量數據集 —— 模型性能的基石!
為了訓練出強大的 Wan2.1 模型,通義實驗室構建了一個 規模龐大、質量極高的數據集,包含 15 億個視頻和 100 億張圖像! 數據來源包括 內部版權數據和公開數據。
四步數據清洗流程: 為了從海量數據中篩選出 高質量、多樣化 的數據,團隊設計了 四步數據清洗流程,從 基本維度、視覺質量和運動質量 等方面對數據進行嚴格篩選,確保訓練數據的純凈度和有效性。 (具體四步流程細節,期待官方技術報告的詳細解讀!)
寫在最后:
AI圈現在太卷了,阿里這次開源很有誠意,但是感覺阿里現在需要一個拳頭產品來破圈了,DeepSeek的光環太耀眼了。