DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆

angel

發布于 2025-4-2 09:42

瀏覽

0收藏

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

文章鏈接：https://arxiv.org/abs/2503.07027
項目鏈接：https://github.com/Xiaojiu-z/EasyControl

亮點直擊

提出了EasyControl，一種面向DiT模型的條件生成新范式。EasyControl中，每個條件通過獨立的條件分支進行處理，該分支通過條件注入LoRA模塊從預訓練DiT模型適配而來。此設計實現了與定制模型的無縫集成，支持靈活的條件注入與多條件高效融合。
高效性：框架通過兩項關鍵創新實現高效計算。位置感知訓練范式將輸入條件標準化為固定分辨率，確保適應性與計算效率；因果注意力機制與KV緩存技術的結合，首次在條件生成任務中成功應用KV緩存，顯著降低延遲并提升整體效率。
靈活性：EasyControl支持生成不同分辨率與長寬比的圖像，通過平衡高質量生成與多樣化需求，確保跨場景的魯棒性能。

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

總結速覽

解決的問題

計算效率瓶頸

DiT架構中，自注意力機制因圖像token的引入導致計算復雜度呈平方級增長，增加推理延遲，限制實際應用擴展。

多條件協同控制困難

現有方法在單條件訓練范式下難以實現多條件穩定協同，潛在空間中的條件信號表征沖突導致生成質量下降，尤其在零樣本多條件組合場景中表現不佳。

模型適配性不足

當前參數高效微調方法（如LoRA）與社區定制模型存在參數沖突，導致風格遷移時特征退化，模塊缺乏真正的即插即用特性。

提出的方案

輕量級條件注入模塊（Condition Injection LoRA Module）

通過隔離處理條件信號，以并行分支機制注入預訓練模型，僅對條件分支token應用低秩投影，凍結文本和噪聲分支權重，實現與定制模型的無縫兼容。

位置感知訓練范式（Position-Aware Training Paradigm）

標準化輸入條件的分辨率，結合位置感知插值技術，保持條件token與噪聲token的空間一致性，支持任意長寬比和多分辨率生成。

因果注意力機制與KV緩存（Causal Attention + KV Cache）

在初始擴散步（t=0）預計算條件特征的Key-Value對并緩存，后續時間步（t≥1）直接復用，顯著減少重復計算。

應用的技術

低秩自適應（LoRA）

條件分支采用低秩矩陣分解，避免修改基礎模型權重，實現高效參數微調。

分辨率歸一化與位置感知插值

將輸入條件縮放到固定分辨率以減少序列長度，通過插值技術保留空間信息。

因果注意力與KV緩存優化

將傳統全注意力替換為因果注意力，結合KV緩存技術復用條件特征，降低計算開銷。

達到的效果

高效推理

KV緩存技術減少約30%的推理延遲，支持實時生成；分辨率歸一化降低輸入序列長度，提升計算效率。

靈活控制

零樣本多條件泛化能力：即使僅訓練單條件數據，仍可和諧融合多條件（如空間控制+主體驅動）。

廣泛兼容性

即插即用設計兼容社區定制模型（如風格化DiT），無需重新訓練即可適配多樣任務。

高質量生成

在虛擬試穿、圖像編輯、多分辨率生成等任務中，生成質量顯著優于基線方法（如ControlNet for DiT）。

效果可視化對比

多條件生成設置下與身份自定義方法比較

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

空間控制生成可視化對比

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

不同分辨率生成設置下與基線方法可視化比較

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

主題控件生成可視化

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

方法

本節將詳細介紹EasyControl的技術實現，方法整體框架如下圖2所示。EasyControl基于FLUX.1開發平臺構建，包含以下核心組件：條件注入LoRA模塊、因果注意力機制、位置感知訓練范式以及推理KV緩存。

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

條件注入LoRA模塊

為高效融合條件信號并保持預訓練模型的泛化能力，在FLUX架構中擴展了獨立的條件分支。與傳統添加獨立控制模塊的方法不同，本方案通過以下方式實現條件信息的無縫集成，同時避免冗余參數與計算開銷：

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

通過僅在條件分支應用基于LoRA的自適應機制，確保條件信號能高效注入模型，同時不破壞預訓練的文本和噪聲表征。這種定向自適應使模型能靈活整合條件信息，同時保持原始特征空間的完整性，從而實現更具可控性和高保真度的圖像生成。

EasyControl 中的因果注意力機制

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

條件因果注意力

該機制強制兩條規則：

各條件分支內部進行條件內計算
采用注意力掩碼防止訓練期間條件token查詢去噪（文本&噪聲）token

形式化定義單條件訓練時的輸入序列為：

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

該設計通過阻斷條件分支到去噪分支（噪聲&文本）的單向注意力，同時允許去噪分支token自由聚合條件信號。通過嚴格隔離條件到去噪的查詢操作，該方案在推理時可實現各分支解耦的KV緩存狀態，從而減少冗余計算并顯著提升圖像生成效率。

互因果注意力

本文模型僅使用單條件輸入訓練，每個條件token學習與去噪token的優化交互。在多條件推理時，雖然所有條件都與去噪token正常交互，但由于未訓練的跨條件token交互會導致條件間干擾（見下圖5）。

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

該機制通過以下形式化定義實現多條件推理時的輸入序列：

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

位置感知訓練范式

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

雖然這種基礎下采樣方法對主體條件（如人臉圖像）有效，但會破壞空間條件（如Canny邊緣圖）的幾何對齊性，限制模型生成任意分辨率圖像的能力。為此，引入兩種定制策略：

位置感知插值（PAI）：針對空間條件，在縮放時保持像素級對齊；
位置編碼偏移策略（詳見附錄B）：針對主體條件，在高度維度施加固定位移。

位置感知插值

為保持條件token與噪聲token的空間一致性，提出位置感知插值（PAI）策略，在條件信號縮放過程中對位置編碼進行插值。該方法確保模型能精確捕捉控制條件與生成圖像像素間的空間關系。

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

原始圖像中的位置編碼序列表示為：

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

而調整大小后的圖像的插值序列為：

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

這確保了調整大小后的圖像中空間關系的保留。

損失函數

本文損失函數使用流匹配損失。其數學表達式如下：

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

通過KV緩存實現高效推理

通過利用因果注意機制，本文框架將條件分支隔離為一個與去噪時間步無關的計算模塊。這種獨特設計使得在推理過程中能夠新穎地應用KV緩存技術。由于條件分支的計算與去噪時間步無關，在初始時間步只需預計算并存儲所有條件特征的鍵值（KV）對一次。這些緩存的KV對在所有后續時間步中重復使用，消除了相同條件特征的冗余重新計算。這種方法通過避免N次重新計算（針對N個去噪步驟）來減少推理延遲，同時保持生成質量和模型靈活性。

實驗

本節首先描述EasyControl的實現細節，然后概述評估指標。接下來，展示實驗結果，包括定性和定量分析，以及消融實驗。

實現細節

采用FLUX.1 dev作為預訓練的DiT。對于每個空間或主題條件訓練，我們使用4個A100 GPU（80GB），每個GPU的批量大小為1，學習率為1e-4，訓練100,000步。在推理期間，應用流匹配采樣進行25個采樣步驟。

實驗設置

視覺比較： 我們評估以下設置：(1) 單條件生成，(2) 使用定制模型的單條件適應，(3) 多條件集成（如下圖3和下圖4所示），以及(4) 分辨率適應性。定量比較：我們評估以下方面：(1) 單條件和雙條件生成下的推理時間和模型參數數量（以評估效率，如下表1所示），(2) 使用面部+OpenPose作為多條件的可控性、生成質量和文本一致性，以及(3) 單條件設置下的可控性、生成質量和文本一致性。

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆-AI.x社區

比較方法： 對于單條件，與Controlnet、OminiControl和Uni-ControlNet進行比較。對于多條件設置，評估本文方法與幾個即插即用基線方法，包括Controlnet+IP-Adapter、Controlnet+Redux和Uni-Controlnet。還比較了與ControlNet集成的幾種ID定制方法[15, 35, 71]。

實驗結果

定性比較

上圖3 (a)比較了不同方法在單控制條件下的性能。在Canny控制下，Uni-ControlNet和ControlNet表現出顏色不一致，導致與輸入文本偏離。在深度控制下，Uni-ControlNet未能生成連貫的圖像，而ControlNet和OmniControl引入了偽影，例如狗和沙發的融合。在OpenPose控制下，本文方法保留了文本渲染，而其他方法則削弱或失去了這種能力。在主題控制下，IP-Adapter和Uni-ControlNet未能與參考對齊。總體而言，本文方法確保了文本一致性和在不同控制條件下的高質量生成。

上圖3 (b)比較了不同方法在四個定制模型上生成圖像的即插即用能力。最左列顯示了來自LoRA微調的Flux.1 Dev模型的原始文本到圖像（T2I）結果。ControlNet和OmniControl都犧牲了風格化，并遭受質量下降。相比之下，本文方法展示了在不失去可控性的情況下最小化風格化損失的能力，體現了我們方法的即插即用能力。

上圖4展示了不同方法在多條件控制下的視覺比較。對于OpenPose和面部控制，本文方法在身份一致性和可控性方面表現優異。相比之下，其他方法在控制條件之間表現出沖突。雖然ControlNet和IP-Adapter的組合保持了可控性，但卻損害了身份一致性。

ControlNet+Redux和Uni-ControlNet未能同時保持身份一致性和可控性，這在主題-深度控制場景中也有所體現（右側第三/第四行）。對于OpenPose-Canny和Depth-Canny組合，本文方法和Uni-ControlNet都生成了符合控制條件的圖像。然而，Uni-ControlNet難以與文本輸入對齊，并產生質量較低的圖像。Multi-ControlNet未能同時滿足兩個條件。這些結果展示了我們方法在無縫整合多種條件方面的靈活性。

定量比較

上表1展示了在單個A100 GPU上進行20次采樣步驟時各種算法的推理時間和相應的模型參數數量。在單條件設置下，本文完整模型實現了最佳性能，推理時間為16.3秒，比沒有位置感知訓練范式（PATP）和KV緩存的版本減少了58%。值得注意的是，本文方法在保持最小參數數量15M的同時實現了這一效率，明顯低于ControlNet的3B參數。對于雙條件任務，本文完整模型實現了18.3秒的推理時間，比沒有PATP和KV緩存的版本快75%。這一性能與ControlNet+IPA（16.8秒）競爭，同時保持了更小的模型大小（30M參數相比于ControlNet+IPA的4B）。結果突出了我們提出的PATP和KV緩存機制在提高推理效率方面的有效性，而不影響模型的緊湊性。

消融研究

在本文消融研究中，我們分析了去除各個模塊的影響。首先，將條件注入LoRA（CIL）替換為標準LoRA結構（W.O. CIL）允許單條件控制，但無法以零樣本方式推廣到多條件控制。對于位置感知訓練范式（PATP），我們訓練了一個沒有PATP的模型，其中控制信號和噪聲固定在512×512分辨率，同時保持其他訓練設置不變。該模型在生成高分辨率（例如1024×1024）或非正方形縱橫比（例如1024×768）圖像時表現出偽影和質量下降。相比之下，基于PATP的訓練有效地緩解了這些問題。對于因果注意，去除因果互注意（CMA）仍允許圖像生成，這得益于注意力的自適應性質。然而，條件之間的沖突降低了控制精度，導致諸如在多控制場景中改變人體姿勢和移動物體位置（例如月亮）等偏差。當所有模塊一起使用時，本文方法實現了最高的可控性、生成質量以及對不同分辨率和縱橫比的適應性。

結論

EasyControl，一個高效且靈活的統一條件引導擴散模型框架。本文框架利用了三個關鍵創新：(1) 一個輕量級的條件注入LoRA模塊，能夠無縫整合多樣的條件信號而不改變核心模型的功能。(2) 一個位置感知訓練范式，確保對各種分辨率和縱橫比的適應性。(3) 一個新穎的因果注意機制結合KV緩存技術，顯著提高了效率。這些組件共同解決了可控圖像生成中的效率和靈活性挑戰。EasyControl在廣泛的視覺任務中實現了強大的可控性和高質量結果。廣泛的實驗展示了其處理復雜的多條件場景的能力，同時擴展到多樣的分辨率和縱橫比。本文框架為條件圖像生成提供了一個強大且可適應的解決方案。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/uO55WYUYM08kLjMz7QxmyQ??

標簽

模型

數據

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆

總結速覽

解決的問題

提出的方案

應用的技術

達到的效果

效果可視化對比

多條件生成設置下與身份自定義方法比較

空間控制生成可視化對比

不同分辨率生成設置下與基線方法可視化比較

主題控件生成可視化

方法

條件注入LoRA模塊

EasyControl 中的因果注意力機制

條件因果注意力

互因果注意力

位置感知訓練范式

位置感知插值

損失函數

通過KV緩存實現高效推理

實驗

實現細節

實驗設置

實驗結果

定性比較

定量比較

消融研究

結論

目錄