超越Sora！阿里正式完全開源最新、最強大的視頻生成模型 Wan2.1

作者：AI寒武紀 2025-02-27 12:44:41

人工智能開源

AI圈現在太卷了，阿里這次開源很有誠意，但是感覺阿里現在需要一個拳頭產品來破圈了，DeepSeek的光環太耀眼了

阿里巴巴通義實驗室正式開源了他們最新、最強大的視頻生成模型 Wan2.1 系列！

Wan2.1 亮點速覽

? 復雜運動: 視頻動作更流暢自然，復雜場景也能輕松駕馭

?? 物理模擬: 物體交互更真實，視頻更具沉浸感

?? 電影質感: 視覺效果更上一層樓，細節更豐富，更具藝術性

?? 可控編輯: 編輯能力更強大，創作空間更廣闊

?? 視覺文字: 中英文動態文字生成，應用場景更豐富

?? 音效音樂: 視聽體驗一體化，視頻極具感染力

Wan2.1 系列模型家族，為不同需求的用戶提供了多樣化的選擇：

Wan2.1-I2V-14B: 圖像到視頻 (I2V) 領域的天花板！ 140億參數，720P高清畫質，I2V 性能 SOTA！Wan2.1-T2V-14B: 文本到視頻 (T2V) 領域的性能王者！ 140億參數，720P高清畫質，T2V 性能 SOTA！獨家支持中英文文字生成！Wan2.1-T2V-1.3B: 消費級顯卡的最佳拍檔！ 13億參數，480P流暢運行，8GB顯存即可暢玩！性能媲美部分閉源大模型！

阿里還附上了Wan2.1 的技術報告

從技術報告來看 Wan2.1 的突破性進展，主要得益于以下幾大創新：

核心創新一： 3D 變分自編碼器 (VAE) —— 視頻壓縮與質量的完美平衡！

Wan2.1 團隊創新性地提出了3D 因果 VAE 架構，專為視頻生成量身打造！它巧妙地融合了多種策略，在時空壓縮、內存控制和時間因果性之間找到了最佳平衡點，讓 VAE更高效、更易擴展，并與擴散模型 DiT 完美結合！

長視頻處理秘訣：特征緩存機制 (Feature Cache Mechanism)：為了高效處理任意長度的視頻，Wan2.1 的 VAE 在因果卷積模塊中引入了特征緩存機制。它將視頻幀序列 (1+T 格式) 分割成 1 + T/4 個 chunks，每個 chunk 對應一個潛在特征。模型以 chunk-wise 策略 處理視頻，每次編解碼操作只處理對應一個潛在表示的視頻 chunk。每個 chunk 的幀數被限制在 最多 4 幀，有效防止了 GPU 內存溢出！

性能飛躍：速度提升 2.5 倍！ 實驗證明，Wan2.1 的視頻 VAE 性能卓越，在視頻質量和處理效率上都表現出色。在相同的硬件環境 (單 A800 GPU) 下，Wan2.1 VAE 的重建速度比 SOTA 方法 HunYuanVideo 快了 2.5 倍！在高分辨率下，速度優勢將更加明顯！

核心創新二：視頻擴散 DiT (Diffusion Transformer) —— 強大生成力的源泉！

Wan2.1 基于主流擴散 Transformer 范式和 Flow Matching 框架構建了視頻擴散模型 DiT。它巧妙地利用了T5 Encoder來編碼多語言文本，并通過在每個 Transformer Block 中加入 交叉注意力，將文本信息深度融入模型結構。

參數高效優化：線性層 + SiLU 層 + 共享 MLP： Wan2.1 采用線性層和 SiLU 層處理時間 Embedding，并預測六個調制參數。關鍵在于，一個共享的 MLP被所有 Transformer Block 共用，每個 Block 只學習不同的偏差 (biases)。實驗表明，這種方法在 參數規模不變的情況下，顯著提升了模型性能！因此，1.3B 和 14B 模型都采用了這種架構。

核心創新三：模型擴展與訓練效率優化 —— 更大模型，更快速度

為了訓練更大規模的 Wan2.1 模型，并提升訓練和推理效率，團隊采用了多種并行策略：

訓練加速： FSDP + 上下文并行 (CP)：訓練時，Wan2.1 使用FSDP (Fully Sharded Data Parallel) 進行模型分片，并結合上下文并行 (CP)。 FSDP group 和 CP group 相交而非嵌套。在 FSDP 中，數據并行 (DP) size 等于 FSDP size 除以 CP size。在滿足內存和單 batch 延遲要求后，使用 DP 進行擴展。

推理加速：上下文并行 (CP)：推理時，為了減少單視頻生成延遲，Wan2.1 選擇上下文并行 (CP) 進行分布式加速。對于 14B 等大型模型，模型分片 (FSDP)也是必需的。考慮到視頻序列通常較長，FSDP 比張量并行 (TP) 通信開銷更小，并允許計算與通信重疊。

并行策略細節： 2D 上下文并行：訓練和推理都采用相同的 2D 上下文并行策略：機器間 (external layer) 使用 RingAttention，機器內 (intra-machine) 使用 Ulysses。實驗表明，在 Wan 14B 大模型上，使用 2D CP 和 FSDP 并行策略，DiT 實現了近乎線性的加速！

核心創新四： Image-to-Video (I2V) —— 圖像驅動，精準可控！

Wan2.1 在 Image-to-Video (I2V) 任務上也表現出色，實現了更強的 可控性。其 I2V 的關鍵技術包括：

條件圖像引導: 將條件圖像作為視頻的第一幀，并與零填充幀沿時間軸拼接，形成引導幀 (guidance frames)。

VAE 壓縮條件信息: 使用 3D VAE 將引導幀壓縮為條件潛在表示 (condition latent representation)。

二元掩碼 (Binary Mask) 控制生成區域: 引入二元掩碼，1 表示保留幀，0 表示需要生成的幀。掩碼的空間尺寸與條件潛在表示匹配，時間長度與目標視頻相同。掩碼會被重塑為與 VAE 的時間步幅相對應的特定形狀。

融合機制: 將噪聲潛在表示、條件潛在表示和重塑后的掩碼沿通道軸拼接，輸入到 DiT 模型中。

I2V 專屬投影層: 由于 I2V DiT 模型的輸入通道數比 T2V 模型更多，因此增加了一個額外的投影層，并用零值初始化。

CLIP 圖像編碼器 + MLP 全局上下文: 使用 CLIP 圖像編碼器** 提取條件圖像的特征表示。通過三層 MLP** 將特征投影為全局上下文 (global context)，并通過解耦交叉注意力 (decoupled cross-attention)** 注入到 DiT 模型中。

海量高質量數據集 —— 模型性能的基石！

為了訓練出強大的 Wan2.1 模型，通義實驗室構建了一個 規模龐大、質量極高的數據集，包含 15 億個視頻和 100 億張圖像！數據來源包括 內部版權數據和公開數據。

四步數據清洗流程: 為了從海量數據中篩選出 高質量、多樣化 的數據，團隊設計了 四步數據清洗流程，從 基本維度、視覺質量和運動質量 等方面對數據進行嚴格篩選，確保訓練數據的純凈度和有效性。 (具體四步流程細節，期待官方技術報告的詳細解讀！)

寫在最后：

AI圈現在太卷了，阿里這次開源很有誠意，但是感覺阿里現在需要一個拳頭產品來破圈了，DeepSeek的光環太耀眼了。

責任編輯：張燕妮來源： AI寒武紀

阿里模型開源

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看