成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無需訓練,即插即用,2倍GPU端到端推理加速——視頻擴散模型加速方法DraftAttention

人工智能 新聞
近期,來自美國東北大學、香港中文大學、Adobe Research 等機構的研究團隊提出了一種無需訓練、即插即用的,基于動態(tài)稀疏注意力的視頻擴散模型加速方法 ——DraftAttention,顯著降低了注意力機制的計算開銷,并且在幾乎不損失生成質量的前提下,實現(xiàn)高達 2 倍的 GPU 端到端推理加速。

本文第一作者為美國東北大學博士生沈軒,研究方向為高效人工智能,致力于在 GPU、移動端、FPGA 和 ASIC 等多種硬件平臺上實現(xiàn)大模型的高效部署與加速。第二作者為香港中文大學的韓晨夏,研究方向聚焦于計算機體系結構與 AI 系統(tǒng)的高效化設計。

在高質量視頻生成任務中,擴散模型(Diffusion Models)已經(jīng)成為主流。然而,隨著視頻長度和分辨率的提升,Diffusion Transformer(DiT)模型中的注意力機制計算量急劇增加,成為推理效率的最大瓶頸。這是因為在視頻生成中,DiT 通常使用 3D 全局注意力來建模時空一致性,雖然效果出色,但計算量會隨著 token 數(shù)量呈平方增長,帶來了巨大的計算負擔。在 HunyuanVideo 等視頻生成模型中,注意力模塊計算時間占比超過 80%,生成僅 8 秒的 720p 視頻甚至需要接近一小時的時間。因此,提升視頻生成模型的生成速度成為了迫切的需求。

現(xiàn)有視頻生成加速方法,如 Sparse VideoGen(https://arxiv.org/abs/2502.01776)和 AdaSpa(https://arxiv.org/abs/2502.21079),多采用稀疏注意力機制,在 GPU 上實現(xiàn)了一定程度的端到端加速。然而,受限于稀疏度不足和稀疏模式設計的剛性,這些方法的加速效果仍不理想。此外,它們普遍依賴固定的稀疏算子,缺乏對輸入內容的動態(tài)適應能力,難以實現(xiàn)細粒度、內容感知的稀疏模式調控。因此,設計一種具備動態(tài)可調性、硬件友好且無需訓練的稀疏注意力機制,對提升視頻擴散模型的效率與實用性具有重要意義。

近期,來自美國東北大學、香港中文大學、Adobe Research 等機構的研究團隊提出了一種無需訓練、即插即用的,基于動態(tài)稀疏注意力的視頻擴散模型加速方法 ——DraftAttention,顯著降低了注意力機制的計算開銷,并且在幾乎不損失生成質量的前提下,實現(xiàn)高達 2 倍的 GPU 端到端推理加速。

圖片


  • 論文標題:DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance
  • arXiv 地址:https://arxiv.org/abs/2505.14708
  • GitHub 主頁:https://github.com/shawnricecake/draft-attention

背景挑戰(zhàn)

在視頻生成任務中,注意力機制的計算開銷是當前模型推理效率的主要瓶頸。如圖所示(Figure 1),在 HunyuanVideo 模型中,隨著生成視頻時長從 8 秒擴展至 32 秒,注意力的計算量(FLOPs)占比迅速上升,最高超過 90%,遠超其他模塊。這種趨勢在高分辨率視頻(如 720p 或更高)中尤為顯著。造成這一問題的根本原因在于:視頻生成模型通常采用時空全局注意力機制,其計算復雜度隨 token 數(shù)量呈平方增長。而 token 數(shù)量本身又與視頻的幀數(shù)和空間分辨率成正比,因此一旦提升時長或清晰度,計算量將呈幾何級數(shù)上升,導致推理速度顯著下降,難以滿足實際部署需求。

圖片

因此,引入稀疏注意力機制以降低計算開銷,是視頻生成加速的有效路徑。然而,現(xiàn)有稀疏注意力方法普遍依賴固定的稀疏模式或算子,缺乏對輸入內容或擴散過程動態(tài)變化的適應能力。這種 “靜態(tài)稀疏” 策略無法根據(jù)不同的文本提示、多樣化的視頻語義,或擴散過程中的中間狀態(tài)靈活調整注意力分布,最終往往在高稀疏率下造成視頻生成質量的顯著下降。因此,設計一種具備 “動態(tài)可調性” 的稀疏注意力機制,能夠根據(jù)輸入語義和擴散步長自適應調整注意力結構,是維持視頻生成質量的關鍵。

問題建模

對于視頻生成模型,往往會使用 3D VAE(Variational Autoencoder)來壓縮視頻到隱藏空間(latent space),以顯著減少擴散過程中處理的 token 數(shù)量。該隱藏空間保留了視頻的核心結構,具有的三維形態(tài),其中代表被壓縮后的視頻幀數(shù)(時間維度),和分別對應視頻的分辨率(空間維度)。在此基礎上,我們進一步關注隱藏空間內的時空冗余性。由于生成任務中存在大量冗余特征,并非所有 latent token 對注意力機制都同等重要,因此我們提出對 token 重要性進行分析:跳過低重要性的 token 注意力計算,在減少計算量的同時,依然保留關鍵的視頻特征,從而實現(xiàn)有效加速且維持生成質量。

方法概覽

為此,本文提出了一種無需訓練、動態(tài)可調、硬件友好的稀疏注意力機制 ——DraftAttention。其核心思想是:

通過低分辨率 “草圖注意力圖”(Draft Attention Map)高效估計 token 重要性,并據(jù)此指導高分辨率注意力計算中的稀疏模式選擇。

具體流程如下:

1. 草圖構建:首先,對隱藏空間的特征圖進行空間下采樣(如 816 平均池化),生成低分辨率版本的 Query 和 Key;

2. 草圖注意力計算:基于下采樣后的 Query 和 Key 計算草圖注意力圖(Draft Attention Map),以識別注意力圖中最具信息量的區(qū)域;

3. 稀疏模式引導:從 Draft Attention Map 中選出得分最高的區(qū)域,生成結構化稀疏 Mask,用于指導高分辨率下的注意力計算;

圖片

4.Token 重排以適配硬件:為了使稀疏區(qū)域連續(xù)分布、滿足 GPU 對 memory layout 的需求,作者提出了一種 token 重排策略,顯著提升了稀疏計算的執(zhí)行效率;

圖片

5. 無需訓練、即插即用:該機制可直接插入現(xiàn)有視頻擴散模型(如 HunyuanVideo 和 Wan2.1)中,無需任何額外訓練或微調。

這一設計既從計算圖層面降低了注意力的冗余,也從系統(tǒng)執(zhí)行層面提升了稀疏算子的硬件效率,實現(xiàn)了視頻生成速度與質量的雙贏。

值得一提的是,DraftAttention 并非經(jīng)驗驅動的啟發(fā)式方法,而是具備堅實的理論基礎。我們從兩個角度對其有效性進行了理論分析與證明:

1. 近似誤差可控:我們證明了,使用平均池化構建的 Draft Attention Map 與原始高分辨率 Attention Map 之間的差異在 Frobenius 范數(shù)意義下是有界的,且該誤差隨 token 的空間連續(xù)性降低;

2. 稀疏掩碼引入的誤差有界:進一步地,從 Draft Attention Map 中提取的稀疏注意力模式在用于稀疏注意力加速計算后,其影響同樣可以被嚴格界定在一個可控范圍內。

這兩項理論結果共同說明,草圖注意力在提供高質量稀疏引導的同時,并不會顯著破壞注意力機制原有的結構表達能力,從而為 DraftAttention 的實際加速效果與生成質量提供了有力的理論保障。

實驗結果

我們在多個主流視頻生成模型上評估了 DraftAttention 的性能,包括 HunyuanVideo 和 Wan2.1。實驗主要從兩個維度進行評估:生成質量和推理加速。

在相同計算量下,我們與代表性稀疏注意力方法 Sparse VideoGen (SVG) 進行了對比。在多個評價指標上,DraftAttention 表現(xiàn)更優(yōu):

  • PSNR(越高越好):在高分辨率下可提升約 +2~+3 分;
  • SSIM(越高越好):一致性更強,生成視頻結構更穩(wěn)定;
  • LPIPS(越低越好):感知相似度提升,視覺效果更貼近 Ground Truth;
  • VBench 多項指標(圖像質量、主體一致性、背景連續(xù)性等)均優(yōu)于 SVG。

圖片

特別是在高稀疏率(如 75%~90%)設置下,DraftAttention 能更好保留視頻的時空一致性和關鍵結構,而 SVG 等靜態(tài)方法則常出現(xiàn)模糊、斷幀等質量劣化現(xiàn)象。

同時,我們測試了在 H100 和 A100 GPU 上的加速效果:

  • 在 NVIDIA H100 和 A100 GPU 上,DraftAttention 實現(xiàn)了最高 1.75 的端到端推理加速;
  • 加速效果隨視頻長度、分辨率、稀疏率同步提升,展現(xiàn)出優(yōu)越的擴展性;
  • 得益于 token 重排策略,生成過程中稀疏注意力更具硬件親和性,執(zhí)行效率顯著提升。

圖片

圖片

另外,我們也提供以下視頻生成結果的直接對比:

Prompt: "The banks of the Thames, as the camera moves vertically from low to high."

Dense 

Sparse VideoGen 

DraftAttention 

Prompt: "On the green grass, the white-walled Leaning Tower of Pisa stands tall. The camera moves vertically from top to bottom during filming."

Dense 

Sparse VideoGen

DraftAttention

Prompt: "A blue long dress fell from the balcony clothes rack and dropped into the water on the ground."

Dense

Sparse VideoGen

DraftAttention

Prompt: "Realistic, High-quality. A woman is drinking coffee at a café."

圖片

input image

Dense

DraftAttention

總結與展望

DraftAttention 提供了一種簡潔而高效的解決方案:通過低分辨率草圖引導、結構化稀疏掩碼生成與硬件友好的 token 重排,不僅顯著提升了視頻擴散模型的推理效率,還在高稀疏率下保持了出色的生成質量。其「無需訓練、即插即用、動態(tài)可調、適配主流模型與硬件」的特性,使其具備良好的工程可落地性和研究拓展性。

未來,作者計劃進一步結合量化與蒸餾等技術,繼續(xù)優(yōu)化長視頻生成過程中的效率瓶頸,推動高質量視頻生成模型走向移動端、邊緣端等資源受限場景。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-12-27 09:30:00

AI數(shù)據(jù)訓練

2023-01-05 09:33:37

視覺模型訓練

2024-12-26 00:51:38

2025-04-28 09:00:00

2024-11-08 09:30:00

2025-05-30 15:52:05

訓練代碼推理

2024-09-19 18:49:54

完全同態(tài)加密FHE機器學習

2025-03-27 09:47:23

訓練模型AI

2024-10-21 12:10:00

模型訓練

2025-05-27 15:28:11

模型訓練AI

2023-11-23 13:23:41

AI訓練

2023-11-19 23:36:50

2025-01-08 13:15:02

2024-03-15 10:20:14

自動駕駛模型

2022-04-26 15:09:14

優(yōu)化模型訓練

2025-04-07 03:00:00

自動駕駛

2024-07-19 09:59:31

2017-06-23 14:11:56

2025-06-18 16:39:02

視頻生成AI模型

2023-04-27 13:06:46

AI手機模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品123区| 一区二区亚洲 | av天天干| 欧美精品v | 天堂一区在线观看 | 福利在线观看 | 国产乱码精品一区二区三区忘忧草 | a亚洲精品 | 91亚洲精品在线 | 日韩美av| 中文在线播放 | 亚洲狠狠| 在线第一页 | 91视视频在线观看入口直接观看 | 国产乱码精品一区二区三区五月婷 | 9porny九色视频自拍 | 狠狠色综合久久丁香婷婷 | 国产成人短视频在线观看 | 久久久久久久91 | 日韩电影免费在线观看中文字幕 | 国产在线精品一区二区 | 亚洲播放一区 | 日干夜操 | 成人在线免费视频 | 中文字幕欧美在线观看 | 日日噜 | 亚洲图片一区二区三区 | 国产一区www | 免费一二区| 亚洲精品乱码久久久久久久久 | 91精品亚洲 | 你懂的av| 亚洲精品乱码久久久久久蜜桃 | 亚洲一二三区精品 | 国产精品成人一区二区三区夜夜夜 | 天天干天天爱天天爽 | 99精品久久 | 欧美日韩亚洲视频 | 免费在线观看一区二区三区 | 噜噜噜噜狠狠狠7777视频 | 精品三区|