成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<strike id="acs8e"></strike>

<rt id="acs8e"><delect id="acs8e"></delect></rt>

<dl id="acs8e"><acronym id="acs8e"></acronym></dl><code id="acs8e"><xmp id="acs8e"></xmp></code>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

火山引擎 veFuser：面向擴散模型的圖像與視頻生成推理服務(wù)框架

2025-05-16 13:18:37

DiT 模型在推理過程中面臨諸多挑戰(zhàn)，主要體現(xiàn)在計算效率、顯存占用、模型架構(gòu)復(fù)雜性及多模態(tài)融合等方面。這些痛點限制了 DiT 模型在實際場景中的部署和應(yīng)用，尤其是在對實時性和資源效率有要求的生成任務(wù)中。

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

1.DiT 模型與推理挑戰(zhàn)

近年來，擴散模型（Diffusion Models）在生成式人工智能領(lǐng)域取得了突破性進展，尤其是在圖像和視頻生成方面表現(xiàn)卓越?；?Transformer 的擴散模型（DiT, Diffusion Transformer）因其強大的建模能力和高質(zhì)量輸出，成為學(xué)術(shù)界和工業(yè)界的研究熱點。DiT 模型通過逐步去噪的過程，從隨機噪聲生成逼真的圖像或視頻幀，結(jié)合 Transformer 架構(gòu)的全局建模能力，能夠捕捉復(fù)雜的語義特征和視覺細節(jié)，廣泛應(yīng)用于文本到圖像、文本到視頻、視頻編輯等場景。

然而，DiT 模型在推理過程中面臨諸多挑戰(zhàn)，主要體現(xiàn)在計算效率、顯存占用、模型架構(gòu)復(fù)雜性及多模態(tài)融合等方面。這些痛點限制了 DiT 模型在實際場景中的部署和應(yīng)用，尤其是在對實時性和資源效率有要求的生成任務(wù)中。

計算量大

序列長度激增：當(dāng) DiT 模型在處理高分辨率圖像或長視頻時，輸入序列的長度會顯著增長，導(dǎo)致自注意力（Self-Attention）機制的計算量呈平方級膨脹。
擴散步驟多：擴散模型需要多步迭代去噪（比如50步），每一步都需要執(zhí)行完整的前向計算，累積的計算開銷巨大。

模型多樣

架構(gòu)多樣性：不同 DiT 模型的算子設(shè)計和連接方式上差異顯著，例如注意力機制、卷積層或歸一化層的組合方式各異，這增加了并行策略適配的復(fù)雜性。此外，不同階段的算子對硬件設(shè)備的計算和顯存特性要求不同，存在極大差異，導(dǎo)致同構(gòu)推理性價比低下。例如，DiT 核心的 Transformer 模塊屬于計算密集型，高度依賴算力；而VAE（變分自編碼器，Variational Auto-Encoder）則對顯存容量和訪存帶寬要求極高。

實時性需求

視頻生成的實時性瓶頸：基于DiT的視頻生成模型（如 Sora）需要保證多幀間的連貫性，這就要求處理時空一致性。然而，這一需求使得單卡推理在面對高質(zhì)量視頻時，無法滿足實時生成的要求。推理過程中的延遲，使得高清視頻的生成體驗較差，用戶往往需要忍受長時間的等待，影響了使用體驗。

2.火山引擎 veFuser 推理框架解決方案

為應(yīng)對 DiT 模型推理的挑戰(zhàn)，字節(jié)跳動依托自身強大的技術(shù)研發(fā)實力，精心構(gòu)建了基于擴散模型的圖像與視頻生成推理服務(wù)框架 VeFuser，旨在提供低延遲、低成本的高質(zhì)量圖片與視頻生成體驗。

圖片生成：低端硬件上的高效推理

veFuser 針對硬件資源的優(yōu)化極為出色，即使在配備 24GB 顯存的低端 GPU 上，也能高效運行當(dāng)前主流的圖像生成模型，如 FLUX.1-dev(12B) 和 HiDream-I1-Full(17B)。與開源實現(xiàn)相比，veFuser 將推理時間縮減了 83%，極大提升了生成效率。在 FLUX.1-dev 模型上，出圖時間只需 3 秒；在 HiDream-I1-Full 模型上，出圖時間只需 13 秒。這一性能突破不僅顯著提升了用戶體驗，還通過降低對高端硬件的依賴，減少了部署和運營成本，提供了更具性價比的生成式 AI 解決方案。

視頻生成：實時體驗的先鋒

在視頻生成任務(wù)中，veFuser 展現(xiàn)了無與倫比的實時性能。針對某 14B 開源視頻生成模型，veFuser 在 32 卡集群上可實現(xiàn) 16 秒延遲生成 5 秒 480p 視頻的極致體驗。若擴展至百卡集群，veFuser 甚至能實現(xiàn) 5 秒生成 5 秒視頻的實時生成效果，接近實時渲染的行業(yè)前沿水準。這種低延遲特性為短視頻、直播、虛擬現(xiàn)實等高實時性場景提供了強大支持。

veFuser 核心優(yōu)勢

降低計算復(fù)雜度與延遲

高性能算子：針對 Attention 算子進行了高度優(yōu)化，實現(xiàn)細粒度的通信計算重疊。在 D、A、L、H 不同架構(gòu)的 GPU 上，針對擴散模型常用的算子進行了深度調(diào)優(yōu)，對計算密集算子進行無損的量化和稀疏化。
稀疏 Attention：打破傳統(tǒng)自注意力機制對序列中所有元素進行全局計算的模式。在處理高分辨率圖像或長視頻的長輸入序列時，它基于對數(shù)據(jù)特征的深入分析，運用特定的算法篩選出與當(dāng)前計算任務(wù)最相關(guān)的關(guān)鍵信息。

攻克模型架構(gòu)異構(gòu)性難題

分布式架構(gòu)：擴散模型的工作流往往包含多個獨立的角色（如 Text Encoder、VAE 、LLM 等），各個階段對顯存、計算、帶寬等不同資源的瓶頸不同。針對這一特點，我們?yōu)椴煌巧x擇最適合的并行方法和資源配置，并將工作流看成一張 DAG。將耦合的一個工作流中的不同角色（如Encoder、VAE、DiT等），拆分為獨立的微服務(wù)，并通過統(tǒng)一調(diào)度異步執(zhí)行沒有依賴的角色，比如 image encoder 和 text encoder。
異構(gòu)部署：同時結(jié)合各個階段對顯存、計算、帶寬等不同資源瓶頸，利用異構(gòu)硬件的不同特性，優(yōu)化部署成本。
靈活可擴展：支持自定義 pipeline 和服務(wù)組件，支持不同類型的模型推理的低成本接入。

突破實時性與擴展性限制

內(nèi)存優(yōu)化：veFuser 根據(jù)模型結(jié)構(gòu)優(yōu)化中間結(jié)果內(nèi)存排布，消除算子激增導(dǎo)致的臨時內(nèi)存開銷。在僅 24GB 顯存的 GPU 上，veFuser 可流暢運行 720p 視頻生成任務(wù)。
高效并行框架：集成多種并行框架，包括混合流水線并行（PipeFusion）、序列并行（USP 并行）和 CFG 并行，顯著提升多卡擴展性。
通信效率提升：通過 veTurbo rpc （支持在 vpc 上實現(xiàn)虛擬 RDMA 傳輸通信協(xié)議）實現(xiàn)多角色的通信，同時針對 tensor 數(shù)據(jù)優(yōu)化傳輸性能。

多 Lora 動態(tài)切換

Lora（Low Rank Adaptation）是內(nèi)容生成任務(wù)中一個常用的插件能力，能夠很好地控制生成內(nèi)容的風(fēng)格模式。然而，頻繁地切換Lora往往會帶來較高的開銷。因此，veFuser 針對這一通用能力，實現(xiàn)了多 LoRA 動態(tài)切換功能，基于用戶請求實現(xiàn)近乎無感的風(fēng)格切換體驗。

精度無損

通過嚴格的 GSB（Good - Same - Bad）評測，veFuser 確保速度提升不會犧牲輸出質(zhì)量。無論是圖像還是視頻生成，veFuser 始終保持與傳統(tǒng)框架相當(dāng)或更優(yōu)的生成效果，實現(xiàn)速度與品質(zhì)的完美平衡。

圖1 veFuser 產(chǎn)品架構(gòu)

3.veFuser 性能優(yōu)勢

某 14B 開源模型視頻生成任務(wù)-單機性能（Dit 單機 8 卡）

D卡

I2V （Image to Video，圖生視頻）性能相較于業(yè)內(nèi) SOTA 水平延時降低 50% 左右，480P 每 infer-steps 平均 1.8 秒，720P 每infer-steps 平均 5 秒。

T2V （Text to Video，文生視頻）性能相較于業(yè)內(nèi) SOTA 水平延時降低 60% 左右，480P 每 infer-steps 平均 1.5 秒，720P 每 infer-steps 平均 4 秒。

圖2 I2V 延時分布（D卡）

圖3 T2V 延時分布（D卡）

A800

圖4 I2V 和 T2V 延時分布（A800）

H20

圖5 I2V 和 T2V 延時分布（H20）

L20

veFuser 詳細延時分布：

圖片

某 14B 開源模型視頻生成任務(wù)-多機擴展性能

多機延遲 - D 卡

借助 veFuser 對 CFG 并行的支持，即便 D 卡不具備 RDMA 網(wǎng)絡(luò)，也能夠達成近乎 TCO 無損的 16 卡并行效果，為計算任務(wù)提供高效且穩(wěn)定的運行環(huán)境。

圖6 T2V 延時分布（D卡）

多機延遲 - A100

與 D 卡相比，A100 具有 RDMA，這一優(yōu)勢使得計算集群的并行規(guī)模能夠從 16 卡進一步拓展至 32 卡，顯著提升了大規(guī)模并行計算的性能與效率。
通過多機部署，可以實現(xiàn)極低的延遲，比如 480P-5秒-T2V 在 A100 上最低耗時可以到 16 秒（32卡并行），vefuser 在 RDMA 互聯(lián)硬件上具有非常好的擴展性。
以 A800 T2V 為例子進行說明，Dit 部分進行并行擴展：

圖7 T2V 延時分布（A100）

多機擴展加速比

如圖8所示，從 8 卡到 32 卡可以實現(xiàn)近乎線性的加速比，在極大減少延遲的前提下，TCO 基本不變。

圖8 VeFuser 擴展性評估（on A800x8）

按照當(dāng)前的理論拓展性，當(dāng)推理卡數(shù)增加到 128 張 A800 后，實際生圖速度(藍線)與實時生圖所需速度(黑線)重合，如圖9所示。表示在這個設(shè)置下，理論上可以實現(xiàn)視頻生成時間小于等于視頻的時間，達到實時生視頻的效果。

圖9 VeFuser 擴展性評估 - 視頻生成任務(wù) - 480P（on A800）

FLUX.1 & HiDream 文生圖任務(wù)-單機性能

對于 FLUX.1-dev 模型：

在 D 卡上性能相較于開源實現(xiàn)單卡延時降低 83% 左右，1024px 下生成單圖的時間僅需 2.87s。

在 L20 上性能相較于開源實現(xiàn)單卡延時降低 76% 左右，1024px 下生成單圖的時間僅需 6.22s。

對于 HiDream-I1-Full 模型:
在 D 卡上性能相較于開源實現(xiàn)單卡延時降低 54% 左右，四卡延時降低 83% 左右，1024px 下生成單圖的時間僅 12.49s。
在 L20 上性能相較于開源實現(xiàn)單卡延時降低 57% 左右，四卡延時降低 86% 左右，1024px 下生成單圖的時間僅 13.17s。

D卡

圖10 模型生圖速度（D卡）

L20

圖11 模型生圖速度（L20）

veFuser 生成效果：速度與質(zhì)量兼得

火山引擎 veFuser 推理框架在加速 DiT 模型推理的同時，始終以高質(zhì)量生成效果為核心目標，為用戶提供高效且高質(zhì)量的圖像和視頻生成體驗。以下分別展示了使用開源模型原版與通過 veFuser 生成的視頻和圖像示例，在生成速度更快的情況下，veFuser 所生成的效果與原版一致。

Prompt：在客廳里，一只毛茸茸的、眼睛明亮的小狗正在追逐一個玩具

圖12 開源實現(xiàn)生成視頻 VS veFuser生成視頻

Prompt: A steaming plate of fettuccine Alfredo

圖13 開源實現(xiàn)生成圖片 VS veFuser生成圖片

總結(jié)與展望：veFuser 的持續(xù)創(chuàng)新與生態(tài)拓展

隨著生成式人工智能領(lǐng)域的高速發(fā)展，新模型，新架構(gòu)層出不窮。更多元的模型選擇，更豐富的社區(qū)插件生態(tài)也共同推動了整個行業(yè)的蓬勃發(fā)展。在未來，veFuser 仍會持續(xù)迭代，在通用性，易用性，高效性等各個方面持續(xù)提升。

靈活兼容，快速迭代：持續(xù)適配新模型

針對未來 DiT 系列模型的多樣化創(chuàng)新，veFuser 將持續(xù)構(gòu)造更加通用化的模型服務(wù)框架以及模型推理框架，抽象模型結(jié)構(gòu)，實現(xiàn)對各種不同模型結(jié)構(gòu)的“即插即用”支持，避免過多重復(fù)的開發(fā)成本。

生態(tài)開放，功能拓展：支持更加豐富的插件生態(tài)

除了目前的 LoRA 支持外，veFuser 將結(jié)合社區(qū)需求，持續(xù)支持各類文生圖/文生視頻插件生態(tài)，允許用戶自定義各種不同的插件模式，以實現(xiàn)生成效果的精準控制。

更極致的性能實現(xiàn)：推理速度，顯存開銷全面突破

通過低精度量化/模型蒸餾等方式，進一步減少推理過程的顯存開銷。同時充分結(jié)合不同算力卡型的硬件架構(gòu)，定制化實現(xiàn)更高性能的推理算子，以實現(xiàn)更加極致的推理速度。

快速使用 veFuser

針對不同類型用戶對視頻生成的使用需求，火山引擎提供了兩種便捷的接入方式：火山引擎機器學(xué)習(xí)平臺（veMLP）和火山方舟，分別適用于具備模型訓(xùn)練能力的專業(yè)用戶和追求開箱即用體驗的開發(fā)者。

veMLP：靈活定制，高效部署

體驗鏈接：https://www.volcengine.com/product/ml-platform

對于有定制化訓(xùn)練和推理需求的用戶，可以在 veMLP 上免費使用 veFuser。用戶可以在平臺中選擇快速入門鏡像，結(jié)合主流的開源模型進行快速部署，也可以將自己訓(xùn)練好的模型與推理框架集成，通過 veFuser 實現(xiàn)高效推理。

火山方舟：開箱即用，輕松生成高質(zhì)量視頻

體驗鏈接：https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?projectName=default

如果用戶更傾向于開箱即用的體驗，火山方舟提供了基于 veFuser 推理加速的視頻生成開源模型以及字節(jié)跳動自主研發(fā)的 Seedance 模型，可以直接登錄方舟平臺在模型廣場中體驗。同時，Seedance 模型還支持 API 接口調(diào)用，便于快速集成到業(yè)務(wù)系統(tǒng)中，適合短視頻生成、內(nèi)容創(chuàng)作、營銷工具等場景的快速接入和規(guī)模化應(yīng)用。

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

veFuser 火山引擎擴散模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：久久国产精品久久久久 | 天堂一区二区三区 | 日韩欧美中文在线 | 伊人伊人网 | 黄色国产在线播放 | 国产电影一区二区 | 国产一区 | 国际精品鲁一鲁一区二区小说 | 色约约视频 | 国产精品国产三级国产aⅴ中文 | 91精品中文字幕一区二区三区 | 成人国产精品免费观看视频 | 亚洲精品成人免费 | 日本三级全黄三级三级三级口周 | 翔田千里一区二区 | 91精品国产色综合久久不卡98口 | 久久国产精品99久久久久久丝袜 | 国产精品呻吟久久av凹凸 | 国产精品久久国产精品 | 亚洲毛片网站 | 成人欧美一区二区三区在线观看 | 久草热播 | 欧美久久不卡 | 色偷偷人人澡人人爽人人模 | 国产午夜视频 | 成人国产精品久久 | 精品久久久久久久久久久下田 | 久久er99热精品一区二区 | 亚洲综合久久网 | 午夜av电影 | 中文字幕日本一区二区 | 欧美黄页 | 天天干天天爽 | 日韩一区二区在线看 | 国产乱肥老妇国产一区二 | 亚洲美女一区 | 99精品国产一区二区三区 | 日本三级全黄三级三级三级口周 | 日本在线免费观看 | 北条麻妃国产九九九精品小说 | 中文字幕av网站 |

<dl id="cukw8"><acronym id="cukw8"></acronym></dl>

<li id="cukw8"></li>

<nav id="cukw8"><dl id="cukw8"></dl></nav>