成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法

發布于 2024-8-16 11:59
瀏覽
0收藏

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

文章鏈接:https://arxiv.org/pdf/2408.06070
git鏈接:https://github.com/dvlab-research/ControlNeXt
項目鏈接:https://pbihao.github.io/projects/controlnext/index.html?

亮點直擊

  • 提出了ControlNeXt,這是一種強大且高效的圖像和視頻生成方法,大幅減少了延遲開銷和參數量。
  • 引入了交叉歸一化(Cross Normalization)用于微調預訓練的大型模型,從而促進高效且穩定的訓練收斂。
  • ControlNeXt可以作為一個輕量級的即插即用模塊,可以與其他LoRA權重集成,以無需額外訓練的方式改變生成樣式。


擴散模型在圖像和視頻生成方面展示了顯著且穩定的能力。為了實現對生成結果的更大控制,研究人員引入了額外的架構,如ControlNet、Adapters和ReferenceNet,以整合條件控制。然而,當前可控生成方法通常需要大量額外的計算資源,尤其是在視頻生成方面,并且在訓練中面臨挑戰或控制效果較弱。本文提出了ControlNeXt:一種強大且高效的可控圖像和視頻生成方法。


首先設計了一個更簡單且高效的架構,取代了沉重的額外分支,只需在基礎模型上增加極少的成本。這種簡潔的結構還使本文的方法能夠無縫集成其他LoRA權重,實現樣式更改而無需額外訓練。在訓練方面,減少了多達90%的可學習參數,相較于其他方法。此外,還提出了稱為交叉歸一化(Cross Normalization, CN)的方法,以替代“零卷積”實現快速且穩定的訓練收斂。多項實驗,使用不同的基礎模型在圖像和視頻領域,證明了本文方法的穩健性。

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

方法

深入分析架構設計并對其進行剪枝,以構建一個簡潔明了的結構。隨后介紹交叉歸一化(Cross Normalization),該方法用于通過引入額外的參數對大型預訓練模型進行微調。

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

架構剪枝

動機。ControlNet的關鍵創新在于增加了一個控制分支,該分支提取條件控制并將其整合到主網絡中。這個分支共享了可訓練參數,這些參數初始化為原始分支一半的副本,并行運行,使用零卷積作為橋梁來整合條件控制。具體來說:

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

然而,這樣的設計雖然引入了控制能力,但也帶來了顯著的成本。額外的分支會使延遲最多增加50%,這一點在視頻生成中尤為顯著,因為每一幀都需要處理。此外,這些可訓練參數量龐大且固定,幾乎等同于所有預訓練參數的一半。除了冗余之外,僅優化ControlNet也限制了整個模型的上限,因為它不會影響預訓練的生成模型。為提高效率和簡潔性,首先通過移除額外的分支簡化了ControlNet的原始設計。接著,對預訓練模型中選定的子集進行訓練,從而得到一個更有效且高效的架構。


架構剪枝。 需要注意的是,預訓練模型通常是在大規模數據集(例如LAION-5B)上進行訓練的,而微調則始終在規模小得多的數據集上進行,往往小上千倍。基于此,認為預訓練的大型生成模型已經足夠強大,且無需引入如此大量的額外參數來實現控制生成的能力。


具體來說,移除了控制分支,并用一個輕量級的卷積模塊代替,該模塊僅由多個ResNet塊組成。這個模塊的規模遠小于預訓練模型,旨在從條件控制中提取指導信息,并將其與去噪特征對齊。由于其小巧的體積,更多地依賴生成模型本身來處理控制信號。在訓練過程中,凍結了大部分預訓練模塊,并選擇性地優化預訓練生成模型中一小部分可訓練參數。

這種方法將可能由訓練過程引起的遺忘風險降到最低。它還可以與參數高效的微調方法(如LoRA)結合使用。研究者們努力通過避免對原始架構進行重大修改來保持模型結構的一致性。直接訓練這些模型還能帶來更大的有效性和效率,并能自適應地調整可學習參數的規模以適應不同的任務。表達為:

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

關于條件控制的注入,觀察到對于大多數可控生成任務,控制信號通常具有簡單的形式或與去噪特征保持高度一致,因此無需在多個階段插入控制信號。在單個選定的中間塊中將控制信號與去噪分支集成,通過交叉歸一化進行歸一化后,直接將其添加到去噪特征中。該模塊可以作為一個即插即用的模塊,由輕量級卷積模塊和可學習參數構成,這些參數是預訓練模型的一個子集,其表示如下:

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

交叉歸一化

動機。 在對預訓練大型模型進行持續訓練時,通常面臨的一個問題是如何適當地引入額外的參數和模塊。由于直接組合新的參數通常會導致訓練崩潰和收斂性差,最近的工作廣泛采用了零初始化,即將連接預訓練模型和新增模塊的橋接層初始化為零。這種操作確保了在訓練開始時新引入的模塊不會產生影響,從而實現穩定的熱身階段。然而,零初始化可能導致收斂緩慢并增加訓練挑戰,因為它阻止了模塊從損失函數中獲得準確的梯度。這會導致一種稱為“突發收斂”的現象,即模型在經過一段較長的訓練時間后并沒有逐漸學習條件,而是突然開始遵循這些條件。


本節分析了在添加新參數時訓練崩潰的原因,并提出了交叉歸一化作為零卷積的替代方案,以確保穩定和高效的訓練。


交叉歸一化。 研究者們發現訓練崩潰的關鍵原因是引入的模塊和預訓練模型之間的數據分布不對齊和不兼容。經過大規模數據訓練后,預訓練生成模型通常表現出穩定的特征和數據分布,其特征是均值和標準差的一致性。然而,新引入的神經模塊通常僅使用隨機方法(例如高斯初始化)進行初始化。這導致新引入的神經模塊產生具有顯著不同均值和標準差的特征輸出。直接添加或組合這些特征會導致模型不穩定。


歸一化方法(如bn和層歸一化)通過標準化層輸入來提高訓練穩定性和速度。它們通過將輸入標準化為零均值和單位方差來實現這一點,這在神經網絡訓練中被廣泛使用。受到這些方法的啟發,本文提出了交叉歸一化,以對齊處理過的條件控制和主分支特征,從而確保訓練的穩定性和速度。


即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

然后,使用去噪特征的均值和方差對控制特征進行歸一化:

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

交叉歸一化對齊了去噪特征和控制特征的分布,充當了連接擴散和控制分支的橋梁。它加速了訓練過程,確保即使在訓練開始時控制對生成的有效性,并減少對網絡權重初始化的敏感性。

實驗

本節展示了在各種任務和基礎模型上進行的系列實驗。本文的方法在圖像和視頻生成方面表現出卓越的效率和通用性。

通用性

為了展示本文方法的魯棒性和通用性,首先在多個基于擴散的基礎模型上實現了本文的方法,如Stable Diffusion 1.5、Stable Diffusion XL、Stable Diffusion 3 和 Stable Video Diffusion。這些實驗涵蓋了圖像生成、高分辨率生成和視頻生成等廣泛任務,并使用了各種類型的條件控制。定性結果如下圖1所示。結果表明,本文的方法具有魯棒性和廣泛的適應性,能夠有效適應各種架構,并滿足不同任務的要求。

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

各種條件控制。 ControlNeXt 還支持各種類型的條件控制。在這一小節中,選擇了“mask”、“depth”(深度)、“canny”(邊緣)和“pose”(姿態)作為條件控制,分別展示在下圖5的從上到下的位置。

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

所有實驗均基于Stable Diffusion 1.5架構進行構建。更多穩定視頻生成的結果(利用姿態序列作為角色動畫的指導)展示在圖6中。SDXL的結果展示在圖7中,通過提取輸入圖像中的Canny邊緣并使用SDXL模型生成輸出,實現了風格遷移。

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

訓練收斂性

可控生成中的一個典型問題是訓練收斂困難,這意味著需要數千步或更多步驟的訓練才能學習條件控制。這種現象被稱為“突發收斂問題”,發生在模型最初無法學習控制能力,然后突然獲得這一技能。這主要由以下兩個方面造成:

  1. 零卷積抑制了損失函數的影響,導致模型在學習初期難以有效開始學習,從而延長了熱身階段。
  2. 預訓練生成模型完全凍結,而ControlNet作為一個適配器,無法立即影響模型。

在ControlNeXt中,消除了這兩個限制,從而顯著加快了訓練收斂速度。使用了兩種類型的控制進行了實驗,結果和比較如下圖3所示。可以看出,ControlNeXt在僅經過幾百步訓練后就開始收斂,而ControlNet則需要數千步。這顯著緩解了突發收斂問題。

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

效率

本文的方法僅向原始預訓練模型添加了一個輕量級模塊,確保其保持高效,并且不會引入顯著的延遲。本節提供了更多細節,并進行了額外的實驗以展示本文方法的效率。


參數。 首先,提供了關于參數的統計信息,包括總參數和可學習參數,這些統計僅計算了UNet模型(不包括VAE和編碼器部分)。結果顯示在下表1中。可以看出,本文的方法僅添加了一個輕量級模塊,額外參數非常少,保持了與原始預訓練模型的一致性。至于訓練,本文的方法最多僅需不到10%的可學習參數,使其成為一個非常輕量且即插即用的模塊。您還可以根據不同的任務和性能要求自適應調整可學習參數的數量。關于參數數量對模型影響的更多細節將在后文討論。

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區


推理時間。 研究者們比較了不同方法在各種基礎模型上的推理時間。結果顯示在下表2中,該表呈現了一個推理步驟的計算時間,僅考慮了UNet和ControlNet部分,排除了編碼和解碼過程。可以看出,由于本文的方法僅添加了一個輕量級模塊,與預訓練基礎生成模型相比,其延遲增加極小。這確保了本文方法在效率上的顯著優勢。

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

即插即用

ControlNeXt 的設計旨在保持生成模型原始架構的一致性,確保其兼容性和有效性。它可以作為一個即插即用、無需訓練的模塊,與各種基礎模型和開源 LoRA 無縫集成,實現生成風格的變化。


無需訓練的集成。 研究者們首先收集了從 Civitai 下載的各種 LoRA 權重,涵蓋了不同的生成風格。然后,在基于 SD1.5 架構的各種基礎模型上進行了實驗,包括 SD1.5、AnythingV3 和 DreamShaper。結果顯示在下圖8中。可以觀察到,ControlNeXt 可以以無需訓練的方式與各種基礎模型和 LoRA 權重集成,有效地改變生成圖像的質量和風格。這主要歸因于本文方法的輕量級設計,該設計主要保持了預訓練基礎模型的一致性,并且僅添加了極少的附加模塊。這些優勢使其能夠作為一個具有通用兼容性的即插即用模塊。

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

穩定生成。 為了生成令人滿意的結果,生成模型通常需要迭代調整提示。ControlNeXt 作為一個插件單元,能夠以最小的努力和成本實現穩定生成。提供了一個簡單的提示,“一個女人”,生成結果的比較(有無本文的方法)如下圖9所示。

即插即用,效率遠超ControlNet!賈佳亞團隊重磅開源ControlNeXt:超強圖像視頻生成方法-AI.x社區

結論

本文提出了 ControlNeXt,一種先進且高效的可控圖像和視頻生成方法。ControlNeXt 采用簡化和精簡的架構,消除了重型輔助組件,以最小化延遲開銷并減少可訓練參數。這種輕量級設計使其能夠作為一個即插即用模塊,具有強大的魯棒性和兼容性,并進一步支持與其他 LoRA 權重的集成,從而在無需額外訓練的情況下改變生成風格。提出了交叉歸一化,用于對預訓練大型模型進行微調,處理新引入的參數,從而促進更快和更穩定的訓練收斂。通過在各種圖像和視頻生成基礎模型上的廣泛實驗,展示了本文方法的有效性和魯棒性。


本文轉自 AI生成未來 ,作者:Bohao Peng等


原文鏈接:??https://mp.weixin.qq.com/s/Yz8Rp-YazBMbsW7OWl5GKg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩欧美国产一区二区三区 | 国产一区二区三区 | 国产激情91久久精品导航 | 免费成人高清在线视频 | 中文字幕在线第一页 | 欧美激情精品久久久久久 | 最新国产精品 | 色婷婷激情 | 91在线播 | 精品欧美乱码久久久久久1区2区 | 精品免费视频 | 国产毛片毛片 | 久久国产精品久久久久久久久久 | 国产午夜精品视频 | ww亚洲ww亚在线观看 | 成年人在线观看视频 | 婷婷久久精品一区二区 | 成人在线视频网 | 亚洲xxxxx | 国产精品18久久久久久久 | 免费视频一区 | 成人做爰69片免费观看 | 成人在线播放网站 | 国产小视频在线 | 台湾a级理论片在线观看 | 九九久久这里只有精品 | 天天天操| 在线观看免费高清av | 亚洲国产精品久久 | 国产美女在线精品免费 | 91免费在线看 | jav成人av免费播放 | 九九热免费在线观看 | 国产成人小视频 | 国产一区二区三区色淫影院 | 午夜精品一区 | 91热在线 | 成人不卡| 精品无码三级在线观看视频 | 亚洲成人av一区二区 | 特黄色毛片|