DiT控制新紀元!"即插即控",Tiamat AI重磅開源EasyControl:任意比例出圖+推理速度狂飆
文章鏈接:https://arxiv.org/abs/2503.07027
項目鏈接:https://github.com/Xiaojiu-z/EasyControl
亮點直擊
- 提出了EasyControl,一種面向DiT模型的條件生成新范式。EasyControl中,每個條件通過獨立的條件分支進行處理,該分支通過條件注入LoRA模塊從預訓練DiT模型適配而來。此設計實現了與定制模型的無縫集成,支持靈活的條件注入與多條件高效融合。
- 高效性:框架通過兩項關鍵創新實現高效計算。位置感知訓練范式將輸入條件標準化為固定分辨率,確保適應性與計算效率;因果注意力機制與KV緩存技術的結合,首次在條件生成任務中成功應用KV緩存,顯著降低延遲并提升整體效率。
- 靈活性:EasyControl支持生成不同分辨率與長寬比的圖像,通過平衡高質量生成與多樣化需求,確保跨場景的魯棒性能。
總結速覽
解決的問題
- 計算效率瓶頸
DiT架構中,自注意力機制因圖像token的引入導致計算復雜度呈平方級增長,增加推理延遲,限制實際應用擴展。
- 多條件協同控制困難
現有方法在單條件訓練范式下難以實現多條件穩定協同,潛在空間中的條件信號表征沖突導致生成質量下降,尤其在零樣本多條件組合場景中表現不佳。
- 模型適配性不足
當前參數高效微調方法(如LoRA)與社區定制模型存在參數沖突,導致風格遷移時特征退化,模塊缺乏真正的即插即用特性。
提出的方案
- 輕量級條件注入模塊(Condition Injection LoRA Module)
通過隔離處理條件信號,以并行分支機制注入預訓練模型,僅對條件分支token應用低秩投影,凍結文本和噪聲分支權重,實現與定制模型的無縫兼容。
- 位置感知訓練范式(Position-Aware Training Paradigm)
標準化輸入條件的分辨率,結合位置感知插值技術,保持條件token與噪聲token的空間一致性,支持任意長寬比和多分辨率生成。
- 因果注意力機制與KV緩存(Causal Attention + KV Cache)
在初始擴散步(t=0)預計算條件特征的Key-Value對并緩存,后續時間步(t≥1)直接復用,顯著減少重復計算。
應用的技術
- 低秩自適應(LoRA)
條件分支采用低秩矩陣分解,避免修改基礎模型權重,實現高效參數微調。
- 分辨率歸一化與位置感知插值
將輸入條件縮放到固定分辨率以減少序列長度,通過插值技術保留空間信息。
- 因果注意力與KV緩存優化
將傳統全注意力替換為因果注意力,結合KV緩存技術復用條件特征,降低計算開銷。
達到的效果
- 高效推理
KV緩存技術減少約30%的推理延遲,支持實時生成;分辨率歸一化降低輸入序列長度,提升計算效率。
- 靈活控制
零樣本多條件泛化能力:即使僅訓練單條件數據,仍可和諧融合多條件(如空間控制+主體驅動)。
- 廣泛兼容性
即插即用設計兼容社區定制模型(如風格化DiT),無需重新訓練即可適配多樣任務。
- 高質量生成
在虛擬試穿、圖像編輯、多分辨率生成等任務中,生成質量顯著優于基線方法(如ControlNet for DiT)。
效果可視化對比
多條件生成設置下與身份自定義方法比較
空間控制生成可視化對比
不同分辨率生成設置下與基線方法可視化比較
主題控件生成可視化
方法
本節將詳細介紹EasyControl的技術實現,方法整體框架如下圖2所示。EasyControl基于FLUX.1開發平臺構建,包含以下核心組件:條件注入LoRA模塊、因果注意力機制、位置感知訓練范式以及推理KV緩存。
條件注入LoRA模塊
為高效融合條件信號并保持預訓練模型的泛化能力,在FLUX架構中擴展了獨立的條件分支。與傳統添加獨立控制模塊的方法不同,本方案通過以下方式實現條件信息的無縫集成,同時避免冗余參數與計算開銷:
通過僅在條件分支應用基于LoRA的自適應機制,確保條件信號能高效注入模型,同時不破壞預訓練的文本和噪聲表征。這種定向自適應使模型能靈活整合條件信息,同時保持原始特征空間的完整性,從而實現更具可控性和高保真度的圖像生成。
EasyControl 中的因果注意力機制
條件因果注意力
該機制強制兩條規則:
- 各條件分支內部進行條件內計算
- 采用注意力掩碼防止訓練期間條件token查詢去噪(文本&噪聲)token
形式化定義單條件訓練時的輸入序列為:
該設計通過阻斷條件分支到去噪分支(噪聲&文本)的單向注意力,同時允許去噪分支token自由聚合條件信號。通過嚴格隔離條件到去噪的查詢操作,該方案在推理時可實現各分支解耦的KV緩存狀態,從而減少冗余計算并顯著提升圖像生成效率。
互因果注意力
本文模型僅使用單條件輸入訓練,每個條件token學習與去噪token的優化交互。在多條件推理時,雖然所有條件都與去噪token正常交互,但由于未訓練的跨條件token交互會導致條件間干擾(見下圖5)。
該機制通過以下形式化定義實現多條件推理時的輸入序列:
位置感知訓練范式
雖然這種基礎下采樣方法對主體條件(如人臉圖像)有效,但會破壞空間條件(如Canny邊緣圖)的幾何對齊性,限制模型生成任意分辨率圖像的能力。為此,引入兩種定制策略:
- 位置感知插值(PAI):針對空間條件,在縮放時保持像素級對齊;
- 位置編碼偏移策略(詳見附錄B):針對主體條件,在高度維度施加固定位移。
位置感知插值
為保持條件token與噪聲token的空間一致性,提出位置感知插值(PAI)策略,在條件信號縮放過程中對位置編碼進行插值。該方法確保模型能精確捕捉控制條件與生成圖像像素間的空間關系。
原始圖像中的位置編碼序列表示為:
而調整大小后的圖像的插值序列為:
這確保了調整大小后的圖像中空間關系的保留。
損失函數
本文損失函數使用流匹配損失。其數學表達式如下:
通過KV緩存實現高效推理
通過利用因果注意機制,本文框架將條件分支隔離為一個與去噪時間步無關的計算模塊。這種獨特設計使得在推理過程中能夠新穎地應用KV緩存技術。由于條件分支的計算與去噪時間步無關,在初始時間步只需預計算并存儲所有條件特征的鍵值(KV)對一次。這些緩存的KV對在所有后續時間步中重復使用,消除了相同條件特征的冗余重新計算。這種方法通過避免N次重新計算(針對N個去噪步驟)來減少推理延遲,同時保持生成質量和模型靈活性。
實驗
本節首先描述EasyControl的實現細節,然后概述評估指標。接下來,展示實驗結果,包括定性和定量分析,以及消融實驗。
實現細節
采用FLUX.1 dev作為預訓練的DiT。對于每個空間或主題條件訓練,我們使用4個A100 GPU(80GB),每個GPU的批量大小為1,學習率為1e-4,訓練100,000步。在推理期間,應用流匹配采樣進行25個采樣步驟。
實驗設置
視覺比較: 我們評估以下設置:(1) 單條件生成,(2) 使用定制模型的單條件適應,(3) 多條件集成(如下圖3和下圖4所示),以及(4) 分辨率適應性。定量比較:我們評估以下方面:(1) 單條件和雙條件生成下的推理時間和模型參數數量(以評估效率,如下表1所示),(2) 使用面部+OpenPose作為多條件的可控性、生成質量和文本一致性,以及(3) 單條件設置下的可控性、生成質量和文本一致性。
比較方法: 對于單條件,與Controlnet、OminiControl和Uni-ControlNet進行比較。對于多條件設置,評估本文方法與幾個即插即用基線方法,包括Controlnet+IP-Adapter、Controlnet+Redux和Uni-Controlnet。還比較了與ControlNet集成的幾種ID定制方法[15, 35, 71]。
實驗結果
定性比較
上圖3 (a)比較了不同方法在單控制條件下的性能。在Canny控制下,Uni-ControlNet和ControlNet表現出顏色不一致,導致與輸入文本偏離。在深度控制下,Uni-ControlNet未能生成連貫的圖像,而ControlNet和OmniControl引入了偽影,例如狗和沙發的融合。在OpenPose控制下,本文方法保留了文本渲染,而其他方法則削弱或失去了這種能力。在主題控制下,IP-Adapter和Uni-ControlNet未能與參考對齊。總體而言,本文方法確保了文本一致性和在不同控制條件下的高質量生成。
上圖3 (b)比較了不同方法在四個定制模型上生成圖像的即插即用能力。最左列顯示了來自LoRA微調的Flux.1 Dev模型的原始文本到圖像(T2I)結果。ControlNet和OmniControl都犧牲了風格化,并遭受質量下降。相比之下,本文方法展示了在不失去可控性的情況下最小化風格化損失的能力,體現了我們方法的即插即用能力。
上圖4展示了不同方法在多條件控制下的視覺比較。對于OpenPose和面部控制,本文方法在身份一致性和可控性方面表現優異。相比之下,其他方法在控制條件之間表現出沖突。雖然ControlNet和IP-Adapter的組合保持了可控性,但卻損害了身份一致性。
ControlNet+Redux和Uni-ControlNet未能同時保持身份一致性和可控性,這在主題-深度控制場景中也有所體現(右側第三/第四行)。對于OpenPose-Canny和Depth-Canny組合,本文方法和Uni-ControlNet都生成了符合控制條件的圖像。然而,Uni-ControlNet難以與文本輸入對齊,并產生質量較低的圖像。Multi-ControlNet未能同時滿足兩個條件。這些結果展示了我們方法在無縫整合多種條件方面的靈活性。
定量比較
上表1展示了在單個A100 GPU上進行20次采樣步驟時各種算法的推理時間和相應的模型參數數量。在單條件設置下,本文完整模型實現了最佳性能,推理時間為16.3秒,比沒有位置感知訓練范式(PATP)和KV緩存的版本減少了58%。值得注意的是,本文方法在保持最小參數數量15M的同時實現了這一效率,明顯低于ControlNet的3B參數。對于雙條件任務,本文完整模型實現了18.3秒的推理時間,比沒有PATP和KV緩存的版本快75%。這一性能與ControlNet+IPA(16.8秒)競爭,同時保持了更小的模型大小(30M參數相比于ControlNet+IPA的4B)。結果突出了我們提出的PATP和KV緩存機制在提高推理效率方面的有效性,而不影響模型的緊湊性。
消融研究
在本文消融研究中,我們分析了去除各個模塊的影響。首先,將條件注入LoRA(CIL)替換為標準LoRA結構(W.O. CIL)允許單條件控制,但無法以零樣本方式推廣到多條件控制。對于位置感知訓練范式(PATP),我們訓練了一個沒有PATP的模型,其中控制信號和噪聲固定在512×512分辨率,同時保持其他訓練設置不變。該模型在生成高分辨率(例如1024×1024)或非正方形縱橫比(例如1024×768)圖像時表現出偽影和質量下降。相比之下,基于PATP的訓練有效地緩解了這些問題。對于因果注意,去除因果互注意(CMA)仍允許圖像生成,這得益于注意力的自適應性質。然而,條件之間的沖突降低了控制精度,導致諸如在多控制場景中改變人體姿勢和移動物體位置(例如月亮)等偏差。當所有模塊一起使用時,本文方法實現了最高的可控性、生成質量以及對不同分辨率和縱橫比的適應性。
結論
EasyControl,一個高效且靈活的統一條件引導擴散模型框架。本文框架利用了三個關鍵創新:(1) 一個輕量級的條件注入LoRA模塊,能夠無縫整合多樣的條件信號而不改變核心模型的功能。(2) 一個位置感知訓練范式,確保對各種分辨率和縱橫比的適應性。(3) 一個新穎的因果注意機制結合KV緩存技術,顯著提高了效率。這些組件共同解決了可控圖像生成中的效率和靈活性挑戰。EasyControl在廣泛的視覺任務中實現了強大的可控性和高質量結果。廣泛的實驗展示了其處理復雜的多條件場景的能力,同時擴展到多樣的分辨率和縱橫比。本文框架為條件圖像生成提供了一個強大且可適應的解決方案。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/uO55WYUYM08kLjMz7QxmyQ??
