FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）

angel

發(fā)布于 2025-3-24 12:32

瀏覽

0收藏

FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2503.12885
項目鏈接：https://limuloo.github.io/DreamRenderer

亮點直擊

DreamRenderer，一種無需訓(xùn)練的方法，使用戶能夠在深度條件或邊緣條件生成中控制每個區(qū)域和實例的生成內(nèi)容。
引入了一種新穎的Hard Text Attribute Binding（硬文本屬性綁定）技術(shù)，確保文本嵌入在聯(lián)合注意力過程中綁定正確的視覺屬性。
針對多實例生成，首次深入分析了 FLUX 模型中每一層的隱空間功能，明確了哪些層處理全局操作，哪些層對渲染單個實例至關(guān)重要，為后續(xù)研究提供了新的見解。

FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）-AI.x社區(qū)

總結(jié)速覽

解決的問題

多實例內(nèi)容控制不準確：現(xiàn)有圖像生成模型（如FLUX和3DIS）在控制多個實例（或區(qū)域）的內(nèi)容時存在困難，容易出現(xiàn)屬性泄漏問題，導(dǎo)致用戶無法精確控制每個實例的視覺屬性。
文本嵌入與視覺信息綁定不準確：現(xiàn)有的文本到圖像模型（如T5文本編碼器）僅基于文本數(shù)據(jù)進行預(yù)訓(xùn)練，缺乏視覺信息，導(dǎo)致在多實例控制場景下，文本嵌入容易與錯誤的視覺屬性綁定。
圖像質(zhì)量與控制的平衡：在聯(lián)合注意力機制中，過度限制圖像標記的注意力范圍會導(dǎo)致圖像質(zhì)量下降，而過于寬松的控制則無法保證每個實例的視覺屬性準確生成。

提出的方案

DreamRenderer：基于FLUX模型的無需訓(xùn)練的插件式工具，允許用戶通過邊界框或掩碼控制每個實例的內(nèi)容，同時保持整體視覺和諧。
Bridge Image Tokens（橋接圖像標記）：通過復(fù)制實例的圖像標記作為橋接標記，在聯(lián)合注意力機制中模擬單實例生成過程，確保文本嵌入綁定正確的視覺屬性。
Hard Image Attribute Binding（硬圖像屬性綁定）：僅在關(guān)鍵層應(yīng)用硬綁定，確保每個實例的圖像嵌入包含正確的視覺信息，而在其他層使用軟綁定以保持圖像質(zhì)量。

應(yīng)用的技術(shù)

Bridge Image Tokens：在聯(lián)合注意力機制中，使用復(fù)制的圖像標記作為橋接標記，確保文本嵌入與正確的視覺屬性綁定。
Hard Image Attribute Binding：在FLUX模型的關(guān)鍵層（中間層）應(yīng)用硬綁定，確保每個實例的視覺屬性準確生成，而在輸入和輸出層使用軟綁定以保持整體視覺和諧。
聯(lián)合注意力機制：通過調(diào)整圖像標記的注意力范圍，確保每個實例的文本嵌入和圖像嵌入能夠準確綁定視覺信息。

達到的效果

提升圖像生成成功率：在COCO-POS和COCO-MIG基準測試中，DreamRenderer將圖像生成成功率（Image Success Ratio）比FLUX模型提高了17.7%，并且在布局到圖像模型（如GLIGEN和3DIS）上的表現(xiàn)提升了高達26.8%。
增強多實例控制能力：DreamRenderer能夠精確控制每個實例的視覺屬性，避免了屬性泄漏問題，顯著提升了用戶對多實例內(nèi)容的控制能力。
保持圖像質(zhì)量：通過僅在關(guān)鍵層應(yīng)用硬綁定，DreamRenderer在確保精確控制的同時，保持了生成圖像的整體視覺質(zhì)量。

方法

概述

下圖 2 展示了 DreamRenderer 的概覽。在聯(lián)合注意力機制中，DreamRenderer 引入了一種新穎的Hard Text Attribute Binding（硬文本屬性綁定）算法，以確保每個實例的文本嵌入正確綁定相關(guān)的視覺信息。此外，為了在保持每個實例圖像嵌入屬性準確的同時增強生成圖像的整體和諧性，對 FLUX 中的每一層進行了實驗分析，并決定僅在 FLUX 模型的中間層應(yīng)用 Hard Image Attribute Binding（硬圖像屬性綁定）。在其他所有層中，使用Soft Image Attribute Binding（軟圖像屬性綁定）。

FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）-AI.x社區(qū)

準備工作

如上圖 2 (a) 所示，DreamRenderer 首先通過 T5 文本編碼器分別嵌入每個實例的輸入文本描述和全局提示。這些編碼后的嵌入隨后被連接起來，形成生成過程的完整文本嵌入。本文的方法要求用戶提供深度圖或邊緣圖作為結(jié)構(gòu)指導(dǎo)，這為生成圖像中實例的空間排列提供了基礎(chǔ)。對于實例定位，利用用戶提供的邊界框或掩碼來識別每個實例在結(jié)構(gòu)指導(dǎo)中的區(qū)域。

硬文本屬性綁定

動機：當生成單個實例時，F(xiàn)LUX 模型通常會生成與文本提示一致的圖像，表現(xiàn)出最少的屬性錯誤。在這種情況下，聯(lián)合注意力中的圖像和文本標記僅關(guān)注該單個實例的信息，從而使文本嵌入能夠綁定準確的視覺屬性。基于這一觀察，提出在多實例場景中，每個實例的圖像和文本標記應(yīng)主要關(guān)注自身，而不是屬于其他實例的標記，從而使文本嵌入能夠有效綁定正確的視覺信息。

樸素解決方案：確保每個實例的文本嵌入綁定正確屬性的一個直接方法是在聯(lián)合注意力過程中獨立處理每個實例。在這種方法中，給定實例的圖像和文本標記僅與自身交互，與其他實例的標記保持隔離。然而，這種完全隔離引入了一個顯著的缺點：它破壞了整體圖像的視覺和諧性，并顯著降低了生成結(jié)果的質(zhì)量（如下圖 7 所示）。

FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）-AI.x社區(qū)

橋接圖像標記的進階解決方案：由于在聯(lián)合注意力中嚴格隔離每個實例的原始圖像標記會降低圖像質(zhì)量，DreamRenderer 提出了一種進階解決方案：在聯(lián)合注意力過程中，為每個實例的圖像標記創(chuàng)建一個額外的副本，稱為 Bridge Image Tokens（橋接圖像標記）。這些橋接圖像標記不會貢獻到最終輸出圖像中，而是僅用于在聯(lián)合注意力過程中幫助每個實例的文本嵌入綁定正確的視覺屬性。如圖 2 所示，橋接圖像標記和每個實例的文本標記與單實例生成過程中的對齊方式完全相同，確保最終文本嵌入中的視覺屬性與文本描述一致。形式上，對于第個實例，硬文本屬性綁定的注意力掩碼定義為：

FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）-AI.x社區(qū)

圖像屬性綁定

概述：在確保文本嵌入屬性的準確性之后，下一步是保證每個實例的圖像標記中視覺屬性的正確性。DreamRenderer 在關(guān)鍵綁定層使用 Hard Image Attribute Binding（硬圖像屬性綁定），以確保每個實例以正確的屬性渲染。在其余層中，使用 Soft Image Attribute Binding（軟圖像屬性綁定），以確保所有實例最終形成一個連貫的圖像。后面將詳細說明硬圖像屬性綁定和軟圖像屬性綁定的機制，并解釋如何識別用于硬圖像屬性綁定的關(guān)鍵層。

FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）-AI.x社區(qū)

搜索關(guān)鍵綁定層：如下圖 3 所示，在 FLUX 網(wǎng)絡(luò)（由 57 個聯(lián)合注意力層組成）中逐層應(yīng)用硬圖像屬性綁定，并與在所有層中使用軟圖像綁定的結(jié)果進行比較，以確定哪些層更適合綁定特定實例屬性。圖 3 的結(jié)果表明，在 FLUX 的輸入層和輸出層附近應(yīng)用硬圖像綁定會導(dǎo)致性能顯著下降。相反，在 FLUX 的中間層實施硬圖像屬性綁定通常會增強屬性保真度。基于這些發(fā)現(xiàn)，F(xiàn)LUX 的輸入層和輸出層主要處理全局圖像信息，而中間層在渲染圖像中實例屬性方面起著關(guān)鍵作用。因此，在 FLUX 的中間層執(zhí)行硬圖像綁定，而在其余層使用軟圖像綁定。這種方法在實例屬性保真度和圖像整體連貫性之間實現(xiàn)了最佳平衡。

FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）-AI.x社區(qū)

實驗

實驗設(shè)置

基線方法：除了 FLUX 模型外，還評估了本文的方法與其他幾種最先進的多實例生成方法的對比。由于 DreamRenderer 被設(shè)計為即插即用的解決方案，通過將其與現(xiàn)有方法（如 GLIGEN、InstanceDiffusion、MIGC 和 3DIS）集成來進行實驗。

實現(xiàn)細節(jié)：分別使用 FLUX.1-Canny 和 FLUX.1-Depth 進行邊緣條件和深度條件生成。在這兩種情況下，我們對圖像進行 20 步采樣。在深度條件生成中，我們將無分類器引導(dǎo)（CFG）的比例設(shè)置為 10.0，而在邊緣條件生成中，CFG 比例設(shè)置為 30。在實驗中，對于通過邊界框指定位置的實例，我們進一步使用 SAM-2 模型對其進行分割，以獲得更精確的實例掩碼。

評估基準本文在兩個廣泛使用的基準上進行了實驗：

COCO-POS 基準：要求根據(jù)指定的布局生成圖像。從 COCO 數(shù)據(jù)集的圖像中提取深度圖或邊緣圖作為條件信號，并利用數(shù)據(jù)集的固有布局進行渲染。模型必須生成與指定位置的實例類別匹配的結(jié)果。將本文的方法與包括 Multi-Diffusion 和 3DIS 在內(nèi)的無需訓(xùn)練的渲染方法進行比較。
COCO-MIG 基準：測試具有精確位置和屬性控制的多實例生成。通過首先使用這些模型生成 RGB 圖像，然后提取深度圖并結(jié)合布局進行實例渲染，來評估DreamRenderer與最先進的 MIG 模型的集成能力。這評估了DreamRenderer在應(yīng)用于現(xiàn)有 MIG 框架時的屬性控制效果。

評估指標本文使用以下指標來評估模型：

平均交并比（MIoU）：衡量渲染實例位置與目標位置之間的重疊比例。
局部 CLIP 分數(shù)：評估渲染實例與其對應(yīng)文本描述的視覺一致性。
平均精度（AP）：評估渲染圖像布局的準確性。
實例成功率（ISR）：計算正確渲染實例的比例。
圖像成功率（ISR）：衡量所有實例均正確渲染的圖像比例。

與最先進方法的比較

COCO-POS 基準：下表 1 展示了本文的方法與 FLUX 和 3DIS 的定量比較結(jié)果。在深度引導(dǎo)和邊緣引導(dǎo)生成場景中，本文的方法在所有指標上均表現(xiàn)出一致的優(yōu)勢。在深度引導(dǎo)設(shè)置中，DreamRenderer 在 SR（62.50% vs. 3DIS 的 53.88%）上顯示出顯著提升，表明其生成場景結(jié)構(gòu)更加連貫。高 ISR（94.51%）和 MIoU（84.36%）進一步證實了其在實例級別控制的精確性。在更具挑戰(zhàn)性的邊緣引導(dǎo)場景中，DreamRenderer 的 SR 也比 3DIS 高出 5.21%。同時，如下圖 4 所示，本文的方法并未影響原始 FLUX 模型的圖像生成質(zhì)量——這得益于僅在關(guān)鍵層應(yīng)用硬圖像屬性綁定。

FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）-AI.x社區(qū)

COCO-MIG 基準：下表 2 和圖 5 展示了將 DreamRenderer 應(yīng)用于各種最先進的布局到圖像方法的結(jié)果。如圖所示，DreamRenderer 顯著增強了實例屬性控制的準確性，最終將圖像成功率（ISR）比 GLIGEN 提高了 26.8%，比 InstanceDiffusion 提高了 19.9%，比 MIGC 提高了 8.3%，比 3DIS 提高了 7.4%。值得注意的是，隨著需要控制的實例數(shù)量增加，這種改進變得更加顯著：例如，當控制兩個實例時，DreamRenderer 的性能提升僅為 2.5%，而在控制六個實例時，提升達到 10.5%。這些優(yōu)勢源于我們的硬文本屬性綁定算法，該算法確保每個實例的文本嵌入在聯(lián)合注意力過程中準確綁定其視覺屬性，即使對于大量實例也是如此。

FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）-AI.x社區(qū)

用戶研究下表 3 展示了一項有 31 名參與者參與的用戶研究，比較了本文的方法與 FLUX 和 3DIS 在感知質(zhì)量上的表現(xiàn)。參與者在盲測中查看成對的輸出，并根據(jù)（1）布局準確性和（2）圖像質(zhì)量進行評分，使用 5 分制，輸入布局和文本描述會顯示。每名參與者評估了 17 對輸出。結(jié)果顯示，我們提出的 DreamRenderer 不僅增強了 FLUX 模型的布局控制能力，還生成了對用戶更具視覺吸引力的輸出。

FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）-AI.x社區(qū)

消融實驗

橋接圖像標記用于硬文本屬性綁定：下表 4 和圖 7 展示了我們對硬文本屬性綁定機制的消融實驗結(jié)果。樸素解決方案（§ 3.5）在聯(lián)合注意力過程中隔離每個實例，破壞了模型的固有特征分布，從而導(dǎo)致性能下降。引入橋接圖像標記（不參與最終輸出）可以有效解決這一問題，使文本標記能夠綁定正確的屬性，并在不損害圖像質(zhì)量的情況下提高準確性。隨著控制實例數(shù)量的增加，硬文本屬性綁定的優(yōu)勢變得更加顯著：例如，從控制 2 個實例增加到 6 個實例時，實例成功率（ISR）的提升從 3.5% 增加到 6.2%。

FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）-AI.x社區(qū)

圖像屬性綁定的關(guān)鍵層：下表 5 和圖 6 展示了我們對硬圖像屬性綁定機制的消融實驗結(jié)果。在 FLUX 的輸入層或輸出層應(yīng)用硬圖像屬性綁定并未帶來明顯的性能提升，反而顯著降低了圖像質(zhì)量，這表明這些層對模型的全局信息處理至關(guān)重要。在這些階段強加實例或區(qū)域隔離會嚴重破壞中間特征分布，最終導(dǎo)致性能急劇下降。相比之下，將硬圖像屬性綁定限制在中間層可以在保持圖像質(zhì)量的同時顯著提高性能——例如，將實例成功率（ISR）提高 15.7%。這一發(fā)現(xiàn)表明，F(xiàn)LUX 的中間層在確定每個實例的視覺內(nèi)容方面起著關(guān)鍵作用，使其更適合綁定實例的屬性。

FLUX秒變高玩！DreamRenderer無需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）-AI.x社區(qū)

結(jié)論

DreamRenderer，一種即插即用的方法，能夠在深度和邊緣條件生成中控制特定區(qū)域和實例的內(nèi)容，同時不損害原始模型的圖像質(zhì)量。本文有兩個關(guān)鍵貢獻：

硬文本屬性綁定機制：引入了一種新穎的硬文本屬性綁定機制，利用橋接圖像標記（Bridge Image Tokens），確保每個實例的文本嵌入在聯(lián)合注意力過程中綁定正確的視覺信息。
關(guān)鍵層的硬圖像屬性綁定：通過對 FLUX 各層的實驗分析，僅在關(guān)鍵層應(yīng)用硬圖像屬性綁定，在保持精確實例級別控制的同時，確保全局圖像的連貫性。

在 COCO-POS 和 COCO-MIG 基準上的大量實驗證明了 DreamRenderer 的卓越性能。在深度引導(dǎo)設(shè)置中，本文的方法實現(xiàn)了 62.50% 的 SR（成功率）、94.51% 的 ISR（實例成功率）和 84.36% 的 MIoU（平均交并比），顯著優(yōu)于現(xiàn)有方法。即使在更具挑戰(zhàn)性的邊緣引導(dǎo)設(shè)置中，DreamRenderer 依然表現(xiàn)穩(wěn)健，實現(xiàn)了 74.61% 的 ISR 和 66.95% 的 MIoU。此外，DreamRenderer 可以作為重新渲染器，顯著提高布局到圖像方法的準確性。其無需訓(xùn)練的特性使得 DreamRenderer 能夠輕松應(yīng)用于各種基礎(chǔ)模型，具有高度的靈活性。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/p2p6Te_cUIME2YH5jaj2Qw??

標簽

模型

數(shù)據(jù)

贊

回復(fù)