首個自回歸文生圖風格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復刻任意風格!
論文鏈接:https://arxiv.org/pdf/2505.19874
項目鏈接:https://stylear.github.io/
代碼鏈接:https://github.com/wuyi2020/StyleAR
亮點直擊
- 提出了一種訓練框架,使 AR 模型能夠利用二元文本到圖像數據執行風格對齊的文本到圖像生成,避免了在指令微調過程中擴展文本-圖像-圖像三元組數據的困難。
- 提出了一種風格增強 tokens(style-enhanced tokens)技術,有效解決了風格對齊文本到圖像生成任務中的內容泄露問題,并顯著提升了提示詞遵循性和風格一致性。
- StyleAR在提示詞遵循性和風格一致性方面均達到了SOTA性能,超越了現有的基于擴散的方法。此外,StyleAR還能有效集成額外條件,如深度圖和其他結構控制信息。
總結速覽
解決的問題
- 當前多模態自回歸(AR)模型雖在視覺生成中表現優異,但在風格對齊的文本到圖像生成任務中仍面臨挑戰。
- 該任務需要構建“文本-圖像-圖像”三元組數據(包含提示詞、參考風格圖像和目標圖像),但大規模獲取這類具有特定風格的三元組數據十分困難。
- 現有方法在訓練中容易出現內容泄露問題,影響生成圖像的風格一致性和語義對齊。
提出的方案
- 提出一種新方法StyleAR,通過結合特定的數據整理策略與自回歸模型,利用二元文本-圖像數據(而非三元組)實現風格對齊的圖像生成。
- 使用參考風格圖像和提示詞合成風格化圖像,僅將合成圖像作為圖像模態參與訓練,從而規避三元組數據構建的困難。
- 將原始圖像與風格化圖像混合使用,增強模型的風格理解能力。
應用的技術
- 數據整理方法:利用擴散模型生成風格化圖像,構建高質量的二元訓練數據。
- CLIP 圖像編碼器 + Perceiver 重采樣器:將圖像輸入轉化為風格 tokens (style tokens),與文本模態對齊。
- 風格增強tokens 技術(Style-Enhanced Tokens):解決內容泄露問題,提升風格一致性。
- 訓練框架設計:使 AR 模型可以在無三元組數據的情況下完成風格對齊的文本到圖像生成。
達到的效果
- 成功規避了依賴三元組數據的限制,降低了數據獲取成本。
- 實驗表明,StyleAR 在提示詞遵循性和風格一致性方面均超過現有擴散方法,達到了當前最先進的性能。
- 能夠有效集成額外條件控制信息(如深度圖和結構約束),具備良好的擴展性和通用性。
- 大規模定量評估、定性實驗與用戶研究驗證了該方法的有效性和先進性。
方法
預備知識
然后,這些圖像 tokens 會被展平成長度為h x w的序列,并與文本tokens 連接后輸入到基于 Transformer 的自回歸模型中進行訓練。
在推理階段,給定文本 tokens ,自回歸模型可以通過下一個tokens 預測來生成圖像tokens :
最后,生成的圖像tokens t通過圖像解碼器被轉換為像素空間。
數據整理
本方法的主要貢獻之一集中在數據整理部分。如果目標是創建用于指令跟隨微調的三元組數據,雖然可以使用 InstantStyle來生成此類數據,但這些數據存在風格一致性低的問題,并且使得擴散模型的能力邊界成為 AR 模型的上限。相比之下,在數據生成過程中舍棄了參考風格圖像,僅使用提示詞和生成的風格化圖像來構建二元數據。通過這種方式,獲得了高質量的風格化二元數據,并避免了低風格一致性的問題。
此外,通過實踐實驗發現,如果僅依賴此風格化數據集進行模型訓練,模型在推理階段捕捉圖像特征的能力不盡如人意,這導致生成圖像與參考風格圖像之間的風格一致性仍然較低。此外,考慮到文本到圖像生成任務在預訓練階段的模型特性,其訓練集大多由未風格化的原始圖像組成。如果我們只使用風格化數據集進行訓練,領域差異會給模型訓練過程帶來困難。鑒于此,在訓練我們的 StyleAR 時,我們同時使用原始圖像數據集和風格化圖像數據集,并以一定比例作為訓練數據集。
StyleAR 框架
實驗
實驗細節
評估指標細節。 參考已有工作[10; 18; 30; 12],使用 CLIPT指標評估提示詞遵循性,該指標是輸入提示詞的 CLIP 文本嵌入與對應生成圖像的 CLIP 圖像嵌入之間的余弦相似度。CLIP-I 和 DINO指標用于評估風格一致性,該指標是參考風格圖像與對應生成圖像的圖像嵌入之間的余弦相似度。為了穩健地衡量方法的性能與泛化能力,我們收集了 10 張多樣化的參考風格圖像和 20 條多樣化的提示詞,涵蓋人類活動、動物、建筑、交通工具、樂器和家具等類別。在評估套件中,我們為每種風格和每條提示詞生成 4 張圖像,共計 800 張圖像。
對比實驗
將所提出的基于 AR 的 StyleAR 與現有的基于擴散的方法進行了全面比較,包括 InstantStyle、IP-Adapter、StyleAligned、StyleCrafter和 StyleShot。除 StyleShot基于 Stable Diffusion 1.5實現外,其余方法均基于 Stable Diffusion XL 架構。所有對比實驗均使用基線方法的官方開源實現,并嚴格按照其技術文檔中的超參數設置進行。
定性比較。 定性對比如下圖 4 所示。根據結果,InstantStyle展現出優越的提示詞遵循性,在輸入提示詞與生成圖像的語義對齊方面表現突出。然而,其在生成圖像與參考風格圖像之間的風格一致性較差。IP-Adapter經常在提示詞遵循性方面出現失敗,生成圖像偏離輸入提示詞。如下圖 4 第一行所示,給定提示詞 “a train”,模型錯誤地生成了一張飛機圖像。該偽影源于內容泄露,即參考風格圖像中的語義內容(如飛機)通過 IP-Adapter中解耦的交叉注意力層不適當地傳播到圖像生成過程中,覆蓋了輸入提示詞的語義內容。
StyleAligned 由于其共享注意力層在內容與風格特征之間無法穩定解耦的固有限制,導致生成結果不穩定且語義混亂。StyleCrafter 和 StyleShot在提示詞遵循性方面表現良好,但在風格一致性方面存在明顯不足。相比之下,StyleAR 表現出卓越的提示詞遵循性,并準確捕捉了參考風格的整體與細節特征。
定量比較。 定量比較結果如下表 1 所示。StyleAR 在提示詞遵循性與風格一致性之間實現了優越的平衡。一方面,StyleAR 在提示詞遵循性方面取得了第二高的表現,略低于 InstantStyle,而 InstantStyle 的風格一致性較差。另一方面,StyleAR 在 CLIP-I 和 DINO 指標中排名第二,略低于 IP-Adapter。但 IP-Adapter的提示詞遵循性較差,且存在嚴重的內容泄露問題(如上圖 4 的定性結果所示),導致其 CLIP-I 和 DINO 指標異常升高。相比之下,我們的方法能夠有效提取參考風格圖像的風格特征,并在不發生內容泄露的前提下生成目標圖像。
用戶研究。 用戶研究結果如下圖 5 所示。在提示詞遵循性和圖像質量方面,本文方法與 InstantStyle 表現相當,且顯著優于其他方法。此外,在風格一致性方面,本文方法遠超所有其他方法。相比之下,InstantStyle方法的風格一致性表現較差。可見,我們的方法不僅嚴格遵循輸入提示詞生成高質量圖像,還確保了生成圖像與參考風格圖像之間的高度風格一致性。
額外結果。 在凍結 AR 模型原始參數的前提下,StyleAR 仍可保留 AR 模型原有的生成能力,如結構控制。與 IP-Adapter和 InstantStyle等基于擴散的方法相比,StyleAR 方法在圖像質量、條件保真度和風格一致性方面表現更優,如下圖 6 所示。
消融實驗
本節消融實驗,以檢驗訓練數據集的組成元素和設計模塊對 StyleAR 結果的影響。
訓練數據集的組成。 精心設計了不同組成的訓練數據集以進行消融實驗,從而探索訓練數據集對 StyleAR 的影響。具體來說,所比較的訓練數據集包括純風格化圖像數據,以及風格化圖像數據與原始圖像數據比例為 1:3、1:6 和 1:30 的組合。定性結果如下圖 7 所示,定量結果如下表 2 所示。根據結果,當訓練數據集中僅包含風格化圖像數據時,提示詞遵循性較好,但風格一致性較差。相比之下,當加入原始圖像,特別是當風格化圖像與原始圖像的比例為 1:3 時,風格一致性顯著提升,同時提示詞遵循性也保持在良好水平。然而,當比例進一步增加至 1:6 和 1:30 時,出現了內容泄露現象,生成圖像對參考風格圖像產生“過擬合”,生成圖像中還出現了不相關的語義內容,導致其語義不再遵循輸入提示詞。因此,我們得出結論,在風格化任務中,除了風格化圖像數據外,適當地加入一些原始圖像數據可以提升風格一致性,并不會降低提示詞遵循性。
風格增強 token 的影響。 為了評估我們提出的風格增強 token 技術的有效性,進行了定量和定性的消融實驗,對比了使用風格增強 token 的 StyleAR 與不使用該技術的 StyleAR。結果如下圖 8 以及上表 2 的第六列所示。根據結果,當不使用風格增強 token 時,參考風格圖像中的不相關語義特征會出現在生成圖像中,導致生成圖像不符合輸入提示詞的語義控制,出現生成混亂的情況。相比之下,當采用風格增強機制時,提示詞遵循性和圖像質量均有提升,該機制使風格增強 token 能夠輔助模型過濾參考風格圖像中的無關語義信息,確保生成圖像與輸入提示詞高度一致,并顯著提升圖像質量。
DPO 的影響。 為了評估 DPO 后訓練在 StyleAR 中的有效性,進行了定量消融實驗,對比使用 DPO 后訓練的 StyleAR 與不使用該技術的 StyleAR。定量結果如上表 2 的第七列所示。DPO 后訓練可以提升提示詞遵循性,并略微增強 StyleAR 的風格一致性。
結論與局限性
StyleAR,首個使用圖文二元數據驅動多模態自回歸模型進行風格對齊文本到圖像生成的工作,而該任務此前主要由基于擴散的方法主導。相比于以往自回歸模型在指令微調中使用的三元組數據,使用圖文二元數據進行訓練,更易于擴展訓練數據集的規模,從而提升模型性能。此外,消融實驗驗證了我們模塊設計的有效性,包括風格化-原始圖像混合訓練策略以及風格增強 token 技術,它們共同提升了風格一致性與提示詞遵循性。然而,當前的實現仍需通過深度圖提取進行內容控制,而無法直接輸入內容圖像以實現風格遷移。未來的研究將聚焦于利用自回歸模型的多模態輸入能力,實現風格參考圖像與內容特定視覺圖像輸入的同時集成,以進一步實現條件圖像生成。
本文轉自AI生成未來 ,作者:AI生成未來
