圖像編輯進入“精修時代”!“指哪改哪”!北交&美圖發布DCEdit:改圖不傷背景的終極方案
文章鏈接:https://arxiv.org/pdf/2503.16795
亮點直擊
- 精確語義定位策略,用于在源圖像中進行準確的語義定位;
- 插拔式雙層控制機制,通過語義定位增強編輯效果;
- RW-800,一個用于評估基于擴散 transformer 的編輯方法的挑戰性基準。
- 在廣泛使用的PIE-Bench和RW-800基準上評估了DCEdit。評估結果表明,與以往的方法相比,DCEdit在背景保留和編輯性能方面具有優越性。
效果展示
在PIE-Bench上與基于UNet的擴散方法和基于DiT的方法進行的定性對比
總結速覽
解決的問題
文本引導圖像編輯任務面臨的關鍵挑戰是精確定位和編輯目標語義,而以往的方法在這方面存在不足。
提出的方案
本文提出了一種新穎的方法,通過基于擴散模型的文本引導圖像編輯進行改進。具體包括:
- 引入精確語義定位策略,通過視覺和文本自注意力增強交叉注意力圖,以提高編輯性能。
- 提出雙層控制機制,在特征層和隱空間層同時融入區域線索,以提供更精確的編輯控制。
應用的技術
- 精確語義定位策略
- 雙層控制機制
- 基于擴散模型的文本引導圖像編輯
- RW-800基準的構建,用于評估編輯方法
達到的效果
在流行的PIE-Bench和RW-800基準上的實驗結果表明,所提出的方法在背景保留和編輯性能方面表現優越。
方法
精確語義定位
最近的DiTs,如FLUX,完全由最近先進的MM-DiT層構建。FLUX結合了聯合文本-圖像自注意力,在每個MM-DiT層中對齊多模態信息。此外,FLUX將CLIP文本編碼器與T5進行補充,賦予其顯著增強的文本理解能力。接下來,介紹如何從MM-DiT中提取文本到圖像的交叉注意力特征圖。
MM-DiT層采用聯合注意力機制來整合文本和視覺信息。首先,文本 embedding T和視覺 embedding V被投影到一個共享空間中:
圖2. 語義定位能力改進。(1) 基于UNet的擴散模型(如SD-1.5和SD-XL)由于架構限制難以捕捉細節語義;(2) 基于MM-DiT的模型(如FLUX)能感知這些語義但存在定位缺陷;(3) 本研究的PSL方法實現了精準的語義定位
雙層控制
通過利用 PSL,獲得了針對特定語義的優化交叉注意力圖M ,該圖提供了指示編輯效果應發生位置的區域線索。提出了一種控制機制,稱為雙層控制(Dual-Level Control),將這些線索融入到 FLUX 模型中的特征和擴散過程中的隱空間變量中,從而實現對編輯過程的細粒度控制。
反演過程。圖像編輯需要反演過程以推導出與源圖像對應的初始噪聲:
隱空間變量級控制以增強保留效果。 此外,考慮到當前修正流反演方法在重建原始圖像方面的局限性,引入了隱空間變量級控制,以進一步提高圖像一致性。本研究采用擴散融合方法將反演和采樣過程中的隱空間變量進行融合:
真實世界圖像編輯基準
與現有基準的比較。 如下表 1 所示,本文基準在多個方面超越了現有的圖像編輯數據集 [18, 23, 33, 58]。本研究的數據集具有最大的平均圖像大小,最大限度地保留視覺信息而不進行裁剪或降采樣。本文數據集中的源提示顯著更長且更詳細,捕捉了圖像的全面語義表示。
還包含了最多的編輯對,涵蓋 10 種不同的編輯類型。這些類型的分布如下圖 5 所示。除了 PIE-Bench 中存在的 9 種編輯類型外,引入了一個新的“文本編輯”類別。這個新增類別是由于 DiT 在圖像中準確生成和修改文本的能力日益增強,本研究希望通過本研究的 RW-800 進行評估。
實驗
在下文中,首先評估了該方法在廣泛使用的編輯基準以及本研究的 RW-800 上的編輯能力。然后,定量比較了 PSL 的語義定位能力與基于 UNet 模型的方法。最后,討論了編輯pipeline 中各個組件的有效性。
圖像編輯的比較
在 PIE-Benchmark 上的定量比較。 為了全面評估本研究提出的方法的性能,本研究首先在廣泛采用的 PIE-Bench上進行實驗。為了進行比較,本研究選擇了一系列基線方法,包括基于擴散 UNet 的經典無訓練編輯方法,如 P2P、MasaCtrl、P2P-zero、PnP 和改進的 DDIM 反演方案 PnP-Inv。此外,還將本研究的方法與最新的基于 DiT 的編輯技術進行比較,包括 RF-Inv、Stable Flow 、RF-Edit和 Fireflow。結果如下表 2 所示。值得注意的是,本研究的方法在 RF-Edit 和 Fireflow 上以即插即用的方式運行,同時增強了背景一致性和編輯質量,而沒有引入額外的計算開銷。這證明了本研究的方法在改善現有最先進框架方面的多功能性和效率。
在 RW-800 基準上的定量比較。 為了進一步驗證本研究方法的魯棒性和泛化能力,本研究在具有挑戰性的 RW-800 基準上進行了廣泛評估,并將其與最先進的基于 DiT 的編輯方法 [3, 9, 41, 51] 進行比較。實驗結果表明,本研究的方法顯著增強了 RF-Edit 和 Fireflow 的性能。具體而言,在下表 3 中,本研究的方法在結構相似性 [48] 上取得了顯著改善,分別將 RF-Edit 和 Fireflow 的背景均方誤差(MSE)降低了 20% 和 38%。此外,它同時增強了目標區域的可編輯性,在多個評估指標上保持了平衡的改進。Stable Flow 通過在關鍵層中注入注意力實現了與原始圖像的內容保留,從而相比源圖像獲得了更接近的結構距離和更好的 SSIM 分數。然而,即使在有限的關鍵層數下,這種強控制機制顯著妨礙了其編輯能力,反映在較低的 CLIP 分數上。
定性比較。 在 RW-800 基準上與其他基于 DiT 的編輯方法進行了定性比較。如下圖 6 所示,RF-inv 的編輯會對原始圖像帶來較大差異,而 Stable Flow 的編輯效果不明顯。本研究的方法比 RF-Edit 和 Fireflow 具有更明顯的編輯效果,并在背景區域保持了原始圖像。
語義定位評估
設置。 為了評估 PSL 的語義定位能力,在兩個編輯基準上進行實驗:PIE-Bench和 RW-800 基準。這兩個基準提供了配對的圖像-文本數據以及手動標注的編輯區域 mask ,使得對背景保留和前景編輯性能的全面評估成為可能。利用這些 mask,本研究通過計算注意力圖與真實 mask 之間的均方誤差(MSE),以及對這些注意力圖進行二值化后的交并比(IoU)分數,定量分析模型的性能。
在編輯基準上的定量比較。 作為比較,選擇基于擴散 UNet 的文本到圖像的擴散模型作為基線,包括 SD-1.5 和 SD-XL ,這兩者都允許從其交叉注意力層中提取注意力圖。此外,系統地比較了直接利用 Flux 的聯合自注意力機制 與本研究結合視覺自注意力和文本自注意力部分的改進的性能。下表 4 的第 1 行至第 3 行顯示,基于 MM-DiT 架構的 FLUX 在語義定位方面顯著優于基于 UNet 的 SD-1.5 和 SD-XL,獲得了明顯更高的交并比(IoU)分數。這一改進突顯了 FLUX 在將語義信息與視覺內容對齊方面的卓越能力。此外,將視覺自注意力和文本自注意力組件集成到 FLUX 的交叉注意力機制中,顯著提高了定位準確性。這些結果強調了本研究提出的架構修改在實現精確和穩健的語義定位方面的有效性,這對于高質量的圖像編輯任務至關重要。
消融研究與分析
消融研究以評估各種組件對模型編輯性能的影響,使用真實圖像。所有實驗均在 RW-800 基準上進行,基于 8 步 Fireflow 方法。如下表 5 的第 1 行至第 3 行所示,在僅進行特征級控制的情況下,本研究測試了使用 PSL 的二值 mask 來引導模型,這可以改善編輯,但也可能增加結構距離,可能是由于分割不準確造成的。使用基準的真實 mask 并未帶來顯著改善。相反,采用得分圖M進行控制則減少了結構距離,同時保持了較高的編輯能力。此改進歸因于二值 mask 的局限性,在混合過程中破壞了特征表示,導致偏差。使用M的軟融合方法保留了特征完整性,確保了一致和高質量的編輯。此外,與二值 mask 相比,連續圖提供了更豐富的信息和更精確的編輯過程指導。
PSL模塊的消融實驗定性對比。通過優化視覺自注意力(VSA)與文本自注意力(TSA)機制,PSL顯著提升了FLUX模型中MM-DiT層生成的原始交叉注意力圖質量。左列混合詞匯激活了對應的注意力圖(VSA代表視覺自注意力,TSA代表文本自注意力)。所有展示案例均來自我們的RW-800數據集。
結論
本文介紹了一種新穎的DCEdit,旨在進行文本引導的圖像編輯。通過提出的精確語義定位策略,本研究增強了提取的交叉注意力圖的質量,使其成為精確的區域線索,以輔助圖像編輯。本研究的雙級控制機制有效地在特征和隱空間級別上整合了區域線索,提升了基于 DiT 的編輯方法的性能。此外,RW-800 基準的構建提供了一個全面的評估工具,挑戰現有方法,并突顯了本研究方法在實際場景中的優越性。本研究的結果在背景保留和編輯質量方面相比于以前的方法有了大幅提升,使得 DCEdit 成為文本到圖像編輯未來的有希望的解決方案。
本文轉自AI生成未來 ,作者:AI生成未來
