成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

256塊NPU訓成8B視頻模型、超越Sora等一眾閉源!抖音內容技術團隊開源ContentV

人工智能 新聞
抖音內容技術團隊開源了 ContentV,一種面向視頻生成任務的高效訓練方案。

近日,抖音內容技術團隊開源了 ContentV,一種面向視頻生成任務的高效訓練方案。該方案在多項技術優化的基礎上,使用 256 塊 NPU,在約 4 周內完成了一個 8B 參數模型的訓練。盡管資源有限,ContentV 在多個評估維度上取得了與現有主流方案相近的生成效果。

該工作探索了在有限算力條件下訓練視頻生成模型的可行路徑。目前,推理代碼與模型權重已對外開放。

圖片

  • 論文標題:ContentV: Efficient Training of Video Generation Models with Limited Compute
  • 技術報告:https://arxiv.org/abs/2506.05343
  • 代碼倉庫:https://github.com/bytedance/ContentV
  • 模型權重:https://huggingface.co/ByteDance/ContentV-8B
  • 項目主頁:https://contentv.github.io

我們先來看一些效果展示視頻:

核心亮點

極簡設計

CogVideoX、HunyuanVideo 和 Wan2.1 等一系列優秀的開源工作表明,視頻生成的關鍵并不在于架構上的特殊設計,而在于如何高效利用有限的數據資源,并有效對齊人類偏好。

為驗證 ContentV 方案的通用性,本次開源的版本在擴散模型部分采用了經典的文生圖模型 Stable Diffusion 3.5 Large。為了適配視頻模態,模型在結構上僅做了以下兩項必要調整:

  • 將原始圖像 VAE 替換為 Wan2.1 中使用的 3D-VAE;
  • 將 2D 位置編碼升級為 3D 版本。在具體編碼方式上,團隊對比了傳統的絕對位置編碼與主流的旋轉位置編碼。評估結果顯示,兩者在客觀指標和主觀感受上差異較小,因此保留了計算更高效的絕對位置編碼方案。

圖片

ContentV模型結構

多階段漸進訓練策略

上述的最小化結構改動,在解鎖了視頻生成能力的同時,也最大限度地保留了原模型的圖像生成能力。實驗證明,在新的 VAE 和位置編碼的適配階段,沿用 Flow Matching 的訓練方式,僅需 1000 步左右的微調,就能基本還原模型的圖片生成能力,大幅節省圖片預訓練階段的訓練成本。

在視頻生成的預訓練階段,為加速收斂實現高效訓練,研究團隊設計了一套從「低清短片」到「高清長片」的多階段漸進式訓練流程,逐步引導模型學習時間維度與空間維度上的動態表征,從而提升視頻的連續性、動態表現力和畫面細節。

此外,實驗證明,在推理階段引入非線性采樣步長機制(Flow Shift)能夠顯著提升視頻的整體生成質量。通過多組對比實驗,團隊最終確定了最優的采樣策略,進一步優化了生成效果。

圖片

VAE適配過程

輕量級 RLHF 強化訓練

圖片

RLHF顯著提升畫面質感

在后訓練階段,除了使用高質量數據集進行微調外,通過 RLHF 或 DPO 等對齊人類偏好的監督訓練,也能顯著提升視頻生成質量。然而,這類方法通常依賴大量人工標注,用于訓練獎勵模型或直接監督擴散模型。同時,相較于圖像,視頻的序列長度顯著增加了 RLHF 和 DPO 的訓練資源需求。

為此,ContentV 研究團隊提出了一種輕量級的 RLHF 訓練方案,旨在不依賴人工標注的前提下,低成本提升視頻質量:

  • 利用開源的圖像獎勵模型對生成視頻的單幀進行監督。相較于視頻場景,目前圖像獎勵模型的訓練數據更易獲取,且在實際效果中表現更佳。實驗證明,由于 MM DiT 采用全局注意力機制,僅優化單幀即可帶動整體視頻質量的提升;
  • 將監督范圍限制在生成視頻的前 1 秒,相較于對完整視頻進行監督,可大幅減少訓練資源的消耗,同時獲得相近的質量提升效果。

采用上述策略后,在無需人工標注的情況下,僅使用少量訓練資源,便可顯著提升畫面質量。RLHF 微調后,模型在視覺質量(VQ)指標上的表現大幅提升,評估勝率高達 89.38%。

效果對比

在 VBench 這一主流視頻生成評測基準上,ContentV(8B)取得了 85.14 的綜合得分,表現優于多個現有的商業閉源模型,包括 Sora、Kling 1.6 和 Gen-3 等。

圖片

VBench 榜單 (按照 Overall 分數降序排列)

為更貼近真實用戶偏好,研究團隊圍繞感知質量、指令跟隨、物理一致性和視覺效果四個維度開展了人類偏好評估。結果顯示,ContentV 在整體表現上與 CogVideoX-5B、HunyuanVideo-13B 和 Wan2.1-14B 等主流開源模型相比具有一定優勢。

圖片

人類偏好評估指標

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-27 08:40:00

2024-04-19 08:01:01

Llama 3 8BMeta

2023-12-12 12:43:04

AI模型

2024-11-19 15:00:00

模型開源

2024-01-16 12:10:33

模型數據

2024-07-15 08:58:00

2023-06-28 16:40:40

火山引擎大模型

2024-10-17 18:52:41

2020-09-26 22:30:18

開源技術 數據

2024-04-11 07:10:59

大語言模型AI人工智能

2025-02-27 12:44:41

2024-07-02 01:09:02

2025-01-10 14:15:02

2025-06-30 08:48:50

2024-10-16 14:10:00

AI視頻生成

2024-08-28 10:01:19

2018-04-23 16:46:59

開源

2021-03-08 16:08:21

AIOps工具開源

2025-06-23 09:01:00

2023-08-27 14:08:17

開源代碼Meta大模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜影院官网 | av天天澡天天爽天天av | 久久免费精品 | 91日b| 欧美日韩免费一区二区三区 | 欧美亚洲视频在线观看 | 午夜看看| 日本色高清 | 91精品国产综合久久精品 | 国产精品久久久久久吹潮 | 91中文字幕在线观看 | 天堂网av在线 | 精品久 | 国产日韩欧美一区二区 | 天天爽夜夜爽精品视频婷婷 | 久久狠狠 | 精品二区 | 老熟女毛片 | 国产 日韩 欧美 制服 另类 | 亚洲3级 | 亚洲国产成人精品女人久久久 | 不卡一区二区三区四区 | 色噜噜狠狠色综合中国 | 成人午夜性成交 | 一级日韩 | 国产免费又色又爽又黄在线观看 | 黄色国产| 成人精品鲁一区一区二区 | 国产区在线免费观看 | 日韩在线不卡 | 久久国产精品视频 | 99国产精品视频免费观看一公开 | 可以看黄的视频 | 亚洲精品自在在线观看 | 精品自拍视频 | 国产福利二区 | 夜夜爽99久久国产综合精品女不卡 | 日韩精品一区二区三区中文在线 | 亚洲视频免费 | 国产一区在线免费观看 | 日韩不卡一二区 |