"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代

發(fā)布于 2025-3-20 10:49

瀏覽

0收藏

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2503.08677
項(xiàng)目鏈接：https://www.yongshengyu.com/OmniPaint-Page/
git鏈接：https://github.com/yeates/OmniPaint

亮點(diǎn)直擊

提出了一種基于擴(kuò)散的解決方案，用于在對(duì)象移除和插入時(shí)實(shí)現(xiàn)物理和幾何一致性，包括陰影和反射等物理效果。
引入了一種漸進(jìn)的訓(xùn)練流程，其中提出的CycleFlow技術(shù)支持無(wú)配對(duì)的后期訓(xùn)練，減少了對(duì)配對(duì)數(shù)據(jù)的依賴。
進(jìn)一步開發(fā)了一種新穎的無(wú)參考指標(biāo)，稱為CFD，用于通過(guò)幻覺(jué)檢測(cè)和上下文一致性評(píng)估來(lái)衡量對(duì)象移除的質(zhì)量。

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

基于擴(kuò)散的生成模型在實(shí)現(xiàn)逼真的對(duì)象移除和插入時(shí)面臨挑戰(zhàn)，主要包括物理效果（如陰影和反射）的復(fù)雜相互作用以及配對(duì)訓(xùn)練數(shù)據(jù)的不足。

提出的方案

引入 OmniPaint，一個(gè)統(tǒng)一的框架，將對(duì)象移除和插入重新概念化為相互依賴的過(guò)程，而不是孤立的任務(wù)。

應(yīng)用的技術(shù)

利用預(yù)訓(xùn)練的擴(kuò)散先驗(yàn)。
實(shí)施漸進(jìn)的訓(xùn)練流程，包括初始配對(duì)樣本優(yōu)化。
通過(guò) CycleFlow 技術(shù)進(jìn)行大規(guī)模無(wú)配對(duì)細(xì)化，支持無(wú)配對(duì)的后期訓(xùn)練。
開發(fā)一種新穎的無(wú)參考指標(biāo) CFD，用于評(píng)估對(duì)象移除質(zhì)量。

達(dá)到的效果

實(shí)現(xiàn)了精確的前景消除和無(wú)縫的對(duì)象插入。
保留了場(chǎng)景的幾何和內(nèi)在屬性。
提供了物理和幾何一致性，包括陰影和反射。
建立了高保真圖像編輯的新基準(zhǔn)。

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

方法

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

OmniPaint 框架

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

數(shù)據(jù)收集和掩碼增強(qiáng)

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

為了增強(qiáng)模型對(duì)各種掩碼變化的魯棒性，對(duì)對(duì)象移除和插入應(yīng)用了不同的增強(qiáng)策略。對(duì)于移除，通過(guò)形態(tài)學(xué)變換引入分割噪聲，隨機(jī)應(yīng)用具有可配置參數(shù)的膨脹或腐蝕。通過(guò)擾動(dòng)邊界并添加或刪除幾何形狀（如圓形、矩形）來(lái)模擬不精確的掩碼。附錄中提供了增強(qiáng)示例和效果分析。對(duì)于對(duì)象插入，由于不需要顯式的對(duì)象檢測(cè)，我通過(guò)擴(kuò)展分割掩碼到其邊界框或凸包來(lái)簡(jiǎn)化掩碼增強(qiáng)，以確保適應(yīng)各種參考對(duì)象格式。參考對(duì)象圖像增強(qiáng)遵循先前的工作[34]。

訓(xùn)練流程

本文的實(shí)驗(yàn)中，觀察到當(dāng)前的訓(xùn)練數(shù)據(jù)不足以維持對(duì)象插入的參考身份，如下圖 7(b) 和附錄表 A 所示。通過(guò)訓(xùn)練模型引導(dǎo)配對(duì)數(shù)據(jù)，類似于 ObjectDrop，是一個(gè)簡(jiǎn)單的解決方案，但需要一個(gè)可靠的過(guò)濾機(jī)制，這仍然是一個(gè)開放的挑戰(zhàn)。

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

幸運(yùn)的是，對(duì)象插入和對(duì)象移除在數(shù)學(xué)上是互補(bǔ)的逆問(wèn)題（即，每個(gè)問(wèn)題可以被視為反轉(zhuǎn)另一個(gè)問(wèn)題）。受循環(huán)一致性方法 [45, 57] 的啟發(fā)，本文提出利用未配對(duì)數(shù)據(jù)，而不是依賴配對(duì)增強(qiáng)。特別是，我們利用大規(guī)模對(duì)象分割數(shù)據(jù)集，這些數(shù)據(jù)集缺乏顯式的移除對(duì)，以增強(qiáng)對(duì)象插入。本文介紹了我們的三階段訓(xùn)練流程：（1）修復(fù)前置訓(xùn)練，（2）配對(duì)預(yù)熱，（3）CycleFlow 未配對(duì)后期訓(xùn)練。

修復(fù)前置訓(xùn)練

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

配對(duì)預(yù)熱

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

CycleFlow 無(wú)配對(duì)后期訓(xùn)練

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

為了加強(qiáng)這種循環(huán)一致性，我們定義了一個(gè)循環(huán)損失：

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

上下文感知特征偏差 (CFD) 評(píng)分

引入上下文感知特征偏差 (CFD) 評(píng)分，以定量評(píng)估對(duì)象移除性能。如下圖 3 所示，CFD 包含兩個(gè)組成部分：一個(gè)幻覺(jué)懲罰項(xiàng)，用于檢測(cè)和懲罰在移除區(qū)域中出現(xiàn)的不需要的類似對(duì)象的結(jié)構(gòu)，以及一個(gè)上下文一致性項(xiàng)，用于評(píng)估修復(fù)區(qū)域與周圍背景的融合程度。

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

最終 CFD 指標(biāo)。最終的 CFD 分?jǐn)?shù)計(jì)算為：

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

較低的 CFD 表示更好的移除質(zhì)量——即幻覺(jué)最小化和無(wú)縫的上下文融合。

實(shí)驗(yàn)

CFD 分析

通過(guò)定性分析，以確定本文的 CFD 得分是否有效捕捉上下文連貫性和幻覺(jué)偽影，從而相比現(xiàn)有指標(biāo)（如 ReMOVE），提供更可靠的對(duì)象移除質(zhì)量評(píng)估。如下圖 2 所示，F(xiàn)LUX-Inpainting] 會(huì)生成明顯的幻覺(jué)——如船只、人形或漂浮的罐子等虛幻對(duì)象——但仍能獲得較高的 ReMOVE 得分。相比之下，CFD 通過(guò)使用 SAM 分割修復(fù)區(qū)域，并檢查嵌套和重疊掩碼內(nèi)的特征級(jí)差異，有效地懲罰這些幻覺(jué)。同樣，雖然 LaMa 在掩碼區(qū)域內(nèi)插值背景紋理，但其有限的生成先驗(yàn)常常由于對(duì)象效果檢測(cè)不足而導(dǎo)致幽靈般的偽影。相反，OmniPaint 通過(guò)完全消除目標(biāo)對(duì)象而不引入不必要的偽影，表現(xiàn)出更高的移除保真度，這在其顯著較低的 CFD 得分中得以體現(xiàn)。

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

通過(guò)同時(shí)量化不必要對(duì)象的出現(xiàn)和上下文對(duì)齊，CFD 與人類視覺(jué)感知高度一致。這些發(fā)現(xiàn)證實(shí)了 CFD 是一種穩(wěn)健的評(píng)估指標(biāo)，有助于確保對(duì)象移除不僅實(shí)現(xiàn)無(wú)縫融合，還能最大限度地減少錯(cuò)誤內(nèi)容幻覺(jué)。

實(shí)驗(yàn)設(shè)置

在對(duì)象移除方面，與端到端修復(fù)模型 MAT 和 LaMa、基于擴(kuò)散的 SDInpaint 以及 FLUX-Inpainting 進(jìn)行對(duì)比，以確保公平的骨干對(duì)比。此外，我們還包括最近的開源對(duì)象移除方法 CLIPAway、PowerPaint 和 FreeCompose。實(shí)驗(yàn)在兩個(gè)基準(zhǔn)上進(jìn)行：我們捕獲的300個(gè)真實(shí)世界對(duì)象移除案例的測(cè)試集，調(diào)整為512X512進(jìn)行測(cè)試，以及 RORD數(shù)據(jù)集，包含1000對(duì)原始540X960分辨率的樣本，均提供物理移除對(duì)象的真實(shí)數(shù)據(jù)。我們報(bào)告 PSNR、SSIM、感知相似性指標(biāo)（FID、CMMD、LPIPS）以及對(duì)象移除特定指標(biāo)，包括 ReMOVE 和我們的 CFD 得分。

在對(duì)象插入方面，與 Paint-by-Example (PbE)、ObjectStitch、FreeCompose、AnyDoor和 IMPRINT進(jìn)行對(duì)比。由于 ObjectStitch 和 IMPRINT 沒(méi)有公開實(shí)現(xiàn)，我們從作者處獲取官方代碼、檢查點(diǎn)和測(cè)試集。我們的插入基準(zhǔn)由565個(gè)512X512分辨率的樣本組成，將 IMPRINT 測(cè)試集與我們捕獲的真實(shí)世界案例結(jié)合。每個(gè)樣本包括一張背景圖像、一張參考對(duì)象圖像和一個(gè)二值掩碼。參考圖像通過(guò) CarveKit進(jìn)行背景移除預(yù)處理。為了評(píng)估身份一致性，使用 CUTE、CLIP-I、DINOv2和 DreamSim 測(cè)量插入對(duì)象與其參考對(duì)象之間的特征相似性，后者更符合人類感知。除了局部身份保留外，還使用無(wú)參考指標(biāo) MUSIQ 和 MANIQA 評(píng)估整體圖像質(zhì)量。

為確保公平，在所有基線中應(yīng)用相同的圖像-掩碼對(duì)，并使用官方實(shí)現(xiàn)及其默認(rèn)超參數(shù)，如推理步驟數(shù)。對(duì)于 OmniPaint，在推理過(guò)程中使用 Euler Discrete Scheduler，并將推理步驟數(shù)設(shè)置為28，以進(jìn)行主要的定量和定性實(shí)驗(yàn)。附加實(shí)現(xiàn)細(xì)節(jié)在附錄中提供。

對(duì)象移除性能評(píng)估

對(duì) OmniPaint 在真實(shí)對(duì)象移除中的表現(xiàn)進(jìn)行了評(píng)估，并與修復(fù)和對(duì)象移除方法進(jìn)行了比較。如下表 1 和表 2 所示，OmniPaint 在所有數(shù)據(jù)集上始終優(yōu)于之前的方法，獲得了最低的 FID、CMMD、LPIPS 和 CFD，同時(shí)保持了較高的 PSNR、SSIM 和 ReMOVE 得分。這些結(jié)果突顯了其在移除對(duì)象的同時(shí)保持結(jié)構(gòu)和感知保真度的能力，有效抑制了對(duì)象幻覺(jué)。

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

下圖 6 展示了在具有挑戰(zhàn)性的真實(shí)案例中的視覺(jué)比較。在第一行中，OmniPaint 成功移除了對(duì)象及其玻璃反射，而所有基線方法均未能做到。第二行強(qiáng)調(diào)了 OmniPaint 在自然光照下消除陰影的能力，而其他方法則留下了殘余偽影。第三行展示了在遮擋場(chǎng)景中的強(qiáng)大修復(fù)能力，確保無(wú)失真的無(wú)縫背景重建。通過(guò)有效處理反射、陰影和遮擋，OmniPaint 在生成連貫且真實(shí)的對(duì)象移除結(jié)果方面超越了之前的方法。

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

對(duì)象插入性能評(píng)估

對(duì) OmniPaint 在對(duì)象插入方面的表現(xiàn)進(jìn)行了評(píng)估，并與先進(jìn)方法進(jìn)行了比較。如表 3 所示，OmniPaint 在所有對(duì)象身份保留指標(biāo)上均獲得最高分，包括 CLIP-I、DINOv2、CUTE和 DreamSim，顯示出其與參考對(duì)象的優(yōu)越對(duì)齊。此外，在整體圖像質(zhì)量上也優(yōu)于所有基線方法，MUSIQ 和 MANIQA的測(cè)量結(jié)果表明其具有更好的感知真實(shí)感和無(wú)縫集成。

下圖 5 展示了視覺(jué)比較。給定一個(gè)掩碼輸入和一個(gè)參考對(duì)象，OmniPaint 生成的插入對(duì)象在形狀、紋理和光照一致性方面更為準(zhǔn)確。相比之下，其他方法在身份失真、錯(cuò)誤陰影或明顯的融合偽影方面存在困難。值得注意的是，OmniPaint 在確保插入對(duì)象自然地與場(chǎng)景幾何和光照對(duì)齊的同時(shí)，保留了細(xì)節(jié)。通過(guò)保持高保真度的身份保留和提升感知質(zhì)量，OmniPaint 為真實(shí)對(duì)象插入設(shè)立了新的標(biāo)準(zhǔn)。

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

超參數(shù)分析

"一鍵消除"與"無(wú)縫融入"超絲滑！CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代-AI.x社區(qū)

神經(jīng)函數(shù)評(píng)估。分析了神經(jīng)函數(shù)評(píng)估（NFE）對(duì)對(duì)象移除和插入的影響，如圖 7(a) 所示。較低的 NFE 值，如 1 或 4，會(huì)導(dǎo)致明顯的模糊，尤其是在掩碼區(qū)域內(nèi)。有趣的是，對(duì)于移除任務(wù)，即使 NFE=1 也能有效消除對(duì)象及其相關(guān)效果。在 NFE=18 時(shí)，對(duì)象被干凈地移除，沒(méi)有殘留偽影，而插入的對(duì)象表現(xiàn)出高保真度和真實(shí)的陰影與反射。進(jìn)一步增加 NFE 到 28 僅帶來(lái)微小的收益，表明收益遞減。盡管如此，將 NFE=28 設(shè)為默認(rèn)值，以確保最佳的視覺(jué)質(zhì)量。

結(jié)論

本文提出了用于面向?qū)ο髨D像編輯的OmniPaint，將對(duì)象移除和插入重新概念化為相互依賴的任務(wù)。通過(guò)利用預(yù)訓(xùn)練的擴(kuò)散先驗(yàn)和由初始配對(duì)樣本優(yōu)化及后續(xù)通過(guò) CycleFlow 進(jìn)行的大規(guī)模無(wú)配對(duì)精細(xì)化組成的漸進(jìn)訓(xùn)練流程，OmniPaint 實(shí)現(xiàn)了精確的前景消除和無(wú)縫的對(duì)象集成，同時(shí)保留了場(chǎng)景幾何和其他內(nèi)在屬性。大量實(shí)驗(yàn)表明，OmniPaint 有效地抑制了對(duì)象幻覺(jué)并減輕了偽影，新穎的 CFD 指標(biāo)提供了對(duì)上下文一致性的穩(wěn)健、無(wú)參考評(píng)估。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/ZZD7mGjNYn3ZvK8lAJhrow??

標(biāo)簽

模型

數(shù)據(jù)

已于2025-3-20 10:51:00修改

贊

回復(fù)