"一鍵消除"與"無(wú)縫融入"超絲滑!CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代
論文鏈接:https://arxiv.org/pdf/2503.08677
項(xiàng)目鏈接:https://www.yongshengyu.com/OmniPaint-Page/
git鏈接:https://github.com/yeates/OmniPaint
亮點(diǎn)直擊
- 提出了一種基于擴(kuò)散的解決方案,用于在對(duì)象移除和插入時(shí)實(shí)現(xiàn)物理和幾何一致性,包括陰影和反射等物理效果。
- 引入了一種漸進(jìn)的訓(xùn)練流程,其中提出的CycleFlow技術(shù)支持無(wú)配對(duì)的后期訓(xùn)練,減少了對(duì)配對(duì)數(shù)據(jù)的依賴。
- 進(jìn)一步開發(fā)了一種新穎的無(wú)參考指標(biāo),稱為CFD,用于通過(guò)幻覺(jué)檢測(cè)和上下文一致性評(píng)估來(lái)衡量對(duì)象移除的質(zhì)量。
總結(jié)速覽
解決的問(wèn)題
基于擴(kuò)散的生成模型在實(shí)現(xiàn)逼真的對(duì)象移除和插入時(shí)面臨挑戰(zhàn),主要包括物理效果(如陰影和反射)的復(fù)雜相互作用以及配對(duì)訓(xùn)練數(shù)據(jù)的不足。
提出的方案
引入 OmniPaint,一個(gè)統(tǒng)一的框架,將對(duì)象移除和插入重新概念化為相互依賴的過(guò)程,而不是孤立的任務(wù)。
應(yīng)用的技術(shù)
- 利用預(yù)訓(xùn)練的擴(kuò)散先驗(yàn)。
- 實(shí)施漸進(jìn)的訓(xùn)練流程,包括初始配對(duì)樣本優(yōu)化。
- 通過(guò) CycleFlow 技術(shù)進(jìn)行大規(guī)模無(wú)配對(duì)細(xì)化,支持無(wú)配對(duì)的后期訓(xùn)練。
- 開發(fā)一種新穎的無(wú)參考指標(biāo) CFD,用于評(píng)估對(duì)象移除質(zhì)量。
達(dá)到的效果
- 實(shí)現(xiàn)了精確的前景消除和無(wú)縫的對(duì)象插入。
- 保留了場(chǎng)景的幾何和內(nèi)在屬性。
- 提供了物理和幾何一致性,包括陰影和反射。
- 建立了高保真圖像編輯的新基準(zhǔn)。
方法
OmniPaint 框架
數(shù)據(jù)收集和掩碼增強(qiáng)
為了增強(qiáng)模型對(duì)各種掩碼變化的魯棒性,對(duì)對(duì)象移除和插入應(yīng)用了不同的增強(qiáng)策略。對(duì)于移除,通過(guò)形態(tài)學(xué)變換引入分割噪聲,隨機(jī)應(yīng)用具有可配置參數(shù)的膨脹或腐蝕。通過(guò)擾動(dòng)邊界并添加或刪除幾何形狀(如圓形、矩形)來(lái)模擬不精確的掩碼。附錄中提供了增強(qiáng)示例和效果分析。對(duì)于對(duì)象插入,由于不需要顯式的對(duì)象檢測(cè),我通過(guò)擴(kuò)展分割掩碼到其邊界框或凸包來(lái)簡(jiǎn)化掩碼增強(qiáng),以確保適應(yīng)各種參考對(duì)象格式。參考對(duì)象圖像增強(qiáng)遵循先前的工作[34]。
訓(xùn)練流程
本文的實(shí)驗(yàn)中,觀察到當(dāng)前的訓(xùn)練數(shù)據(jù)不足以維持對(duì)象插入的參考身份,如下圖 7(b) 和附錄表 A 所示。通過(guò)訓(xùn)練模型引導(dǎo)配對(duì)數(shù)據(jù),類似于 ObjectDrop,是一個(gè)簡(jiǎn)單的解決方案,但需要一個(gè)可靠的過(guò)濾機(jī)制,這仍然是一個(gè)開放的挑戰(zhàn)。
幸運(yùn)的是,對(duì)象插入和對(duì)象移除在數(shù)學(xué)上是互補(bǔ)的逆問(wèn)題(即,每個(gè)問(wèn)題可以被視為反轉(zhuǎn)另一個(gè)問(wèn)題)。受循環(huán)一致性方法 [45, 57] 的啟發(fā),本文提出利用未配對(duì)數(shù)據(jù),而不是依賴配對(duì)增強(qiáng)。特別是,我們利用大規(guī)模對(duì)象分割數(shù)據(jù)集,這些數(shù)據(jù)集缺乏顯式的移除對(duì),以增強(qiáng)對(duì)象插入。本文介紹了我們的三階段訓(xùn)練流程:(1)修復(fù)前置訓(xùn)練,(2)配對(duì)預(yù)熱,(3)CycleFlow 未配對(duì)后期訓(xùn)練。
修復(fù)前置訓(xùn)練
配對(duì)預(yù)熱
CycleFlow 無(wú)配對(duì)后期訓(xùn)練
為了加強(qiáng)這種循環(huán)一致性,我們定義了一個(gè)循環(huán)損失:
上下文感知特征偏差 (CFD) 評(píng)分
引入上下文感知特征偏差 (CFD) 評(píng)分,以定量評(píng)估對(duì)象移除性能。如下圖 3 所示,CFD 包含兩個(gè)組成部分:一個(gè)幻覺(jué)懲罰項(xiàng),用于檢測(cè)和懲罰在移除區(qū)域中出現(xiàn)的不需要的類似對(duì)象的結(jié)構(gòu),以及一個(gè)上下文一致性項(xiàng),用于評(píng)估修復(fù)區(qū)域與周圍背景的融合程度。
最終 CFD 指標(biāo)。最終的 CFD 分?jǐn)?shù)計(jì)算為:
較低的 CFD 表示更好的移除質(zhì)量——即幻覺(jué)最小化和無(wú)縫的上下文融合。
實(shí)驗(yàn)
CFD 分析
通過(guò)定性分析,以確定本文的 CFD 得分是否有效捕捉上下文連貫性和幻覺(jué)偽影,從而相比現(xiàn)有指標(biāo)(如 ReMOVE),提供更可靠的對(duì)象移除質(zhì)量評(píng)估。如下圖 2 所示,F(xiàn)LUX-Inpainting] 會(huì)生成明顯的幻覺(jué)——如船只、人形或漂浮的罐子等虛幻對(duì)象——但仍能獲得較高的 ReMOVE 得分。相比之下,CFD 通過(guò)使用 SAM 分割修復(fù)區(qū)域,并檢查嵌套和重疊掩碼內(nèi)的特征級(jí)差異,有效地懲罰這些幻覺(jué)。同樣,雖然 LaMa 在掩碼區(qū)域內(nèi)插值背景紋理,但其有限的生成先驗(yàn)常常由于對(duì)象效果檢測(cè)不足而導(dǎo)致幽靈般的偽影。相反,OmniPaint 通過(guò)完全消除目標(biāo)對(duì)象而不引入不必要的偽影,表現(xiàn)出更高的移除保真度,這在其顯著較低的 CFD 得分中得以體現(xiàn)。
通過(guò)同時(shí)量化不必要對(duì)象的出現(xiàn)和上下文對(duì)齊,CFD 與人類視覺(jué)感知高度一致。這些發(fā)現(xiàn)證實(shí)了 CFD 是一種穩(wěn)健的評(píng)估指標(biāo),有助于確保對(duì)象移除不僅實(shí)現(xiàn)無(wú)縫融合,還能最大限度地減少錯(cuò)誤內(nèi)容幻覺(jué)。
實(shí)驗(yàn)設(shè)置
在對(duì)象移除方面,與端到端修復(fù)模型 MAT 和 LaMa、基于擴(kuò)散的 SDInpaint 以及 FLUX-Inpainting 進(jìn)行對(duì)比,以確保公平的骨干對(duì)比。此外,我們還包括最近的開源對(duì)象移除方法 CLIPAway、PowerPaint 和 FreeCompose。實(shí)驗(yàn)在兩個(gè)基準(zhǔn)上進(jìn)行:我們捕獲的300個(gè)真實(shí)世界對(duì)象移除案例的測(cè)試集,調(diào)整為512X512進(jìn)行測(cè)試,以及 RORD數(shù)據(jù)集,包含1000對(duì)原始540X960分辨率的樣本,均提供物理移除對(duì)象的真實(shí)數(shù)據(jù)。我們報(bào)告 PSNR、SSIM、感知相似性指標(biāo)(FID、CMMD、LPIPS)以及對(duì)象移除特定指標(biāo),包括 ReMOVE 和我們的 CFD 得分。
在對(duì)象插入方面,與 Paint-by-Example (PbE)、ObjectStitch、FreeCompose、AnyDoor和 IMPRINT進(jìn)行對(duì)比。由于 ObjectStitch 和 IMPRINT 沒(méi)有公開實(shí)現(xiàn),我們從作者處獲取官方代碼、檢查點(diǎn)和測(cè)試集。我們的插入基準(zhǔn)由565個(gè)512X512分辨率的樣本組成,將 IMPRINT 測(cè)試集與我們捕獲的真實(shí)世界案例結(jié)合。每個(gè)樣本包括一張背景圖像、一張參考對(duì)象圖像和一個(gè)二值掩碼。參考圖像通過(guò) CarveKit進(jìn)行背景移除預(yù)處理。為了評(píng)估身份一致性,使用 CUTE、CLIP-I、DINOv2和 DreamSim 測(cè)量插入對(duì)象與其參考對(duì)象之間的特征相似性,后者更符合人類感知。除了局部身份保留外,還使用無(wú)參考指標(biāo) MUSIQ 和 MANIQA 評(píng)估整體圖像質(zhì)量。
為確保公平,在所有基線中應(yīng)用相同的圖像-掩碼對(duì),并使用官方實(shí)現(xiàn)及其默認(rèn)超參數(shù),如推理步驟數(shù)。對(duì)于 OmniPaint,在推理過(guò)程中使用 Euler Discrete Scheduler,并將推理步驟數(shù)設(shè)置為28,以進(jìn)行主要的定量和定性實(shí)驗(yàn)。附加實(shí)現(xiàn)細(xì)節(jié)在附錄中提供。
對(duì)象移除性能評(píng)估
對(duì) OmniPaint 在真實(shí)對(duì)象移除中的表現(xiàn)進(jìn)行了評(píng)估,并與修復(fù)和對(duì)象移除方法進(jìn)行了比較。如下表 1 和表 2 所示,OmniPaint 在所有數(shù)據(jù)集上始終優(yōu)于之前的方法,獲得了最低的 FID、CMMD、LPIPS 和 CFD,同時(shí)保持了較高的 PSNR、SSIM 和 ReMOVE 得分。這些結(jié)果突顯了其在移除對(duì)象的同時(shí)保持結(jié)構(gòu)和感知保真度的能力,有效抑制了對(duì)象幻覺(jué)。
下圖 6 展示了在具有挑戰(zhàn)性的真實(shí)案例中的視覺(jué)比較。在第一行中,OmniPaint 成功移除了對(duì)象及其玻璃反射,而所有基線方法均未能做到。第二行強(qiáng)調(diào)了 OmniPaint 在自然光照下消除陰影的能力,而其他方法則留下了殘余偽影。第三行展示了在遮擋場(chǎng)景中的強(qiáng)大修復(fù)能力,確保無(wú)失真的無(wú)縫背景重建。通過(guò)有效處理反射、陰影和遮擋,OmniPaint 在生成連貫且真實(shí)的對(duì)象移除結(jié)果方面超越了之前的方法。
對(duì)象插入性能評(píng)估
對(duì) OmniPaint 在對(duì)象插入方面的表現(xiàn)進(jìn)行了評(píng)估,并與先進(jìn)方法進(jìn)行了比較。如表 3 所示,OmniPaint 在所有對(duì)象身份保留指標(biāo)上均獲得最高分,包括 CLIP-I、DINOv2、CUTE和 DreamSim,顯示出其與參考對(duì)象的優(yōu)越對(duì)齊。此外,在整體圖像質(zhì)量上也優(yōu)于所有基線方法,MUSIQ 和 MANIQA的測(cè)量結(jié)果表明其具有更好的感知真實(shí)感和無(wú)縫集成。
下圖 5 展示了視覺(jué)比較。給定一個(gè)掩碼輸入和一個(gè)參考對(duì)象,OmniPaint 生成的插入對(duì)象在形狀、紋理和光照一致性方面更為準(zhǔn)確。相比之下,其他方法在身份失真、錯(cuò)誤陰影或明顯的融合偽影方面存在困難。值得注意的是,OmniPaint 在確保插入對(duì)象自然地與場(chǎng)景幾何和光照對(duì)齊的同時(shí),保留了細(xì)節(jié)。通過(guò)保持高保真度的身份保留和提升感知質(zhì)量,OmniPaint 為真實(shí)對(duì)象插入設(shè)立了新的標(biāo)準(zhǔn)。
超參數(shù)分析
神經(jīng)函數(shù)評(píng)估。分析了神經(jīng)函數(shù)評(píng)估(NFE)對(duì)對(duì)象移除和插入的影響,如圖 7(a) 所示。較低的 NFE 值,如 1 或 4,會(huì)導(dǎo)致明顯的模糊,尤其是在掩碼區(qū)域內(nèi)。有趣的是,對(duì)于移除任務(wù),即使 NFE=1 也能有效消除對(duì)象及其相關(guān)效果。在 NFE=18 時(shí),對(duì)象被干凈地移除,沒(méi)有殘留偽影,而插入的對(duì)象表現(xiàn)出高保真度和真實(shí)的陰影與反射。進(jìn)一步增加 NFE 到 28 僅帶來(lái)微小的收益,表明收益遞減。盡管如此,將 NFE=28 設(shè)為默認(rèn)值,以確保最佳的視覺(jué)質(zhì)量。
結(jié)論
本文提出了用于面向?qū)ο髨D像編輯的OmniPaint,將對(duì)象移除和插入重新概念化為相互依賴的任務(wù)。通過(guò)利用預(yù)訓(xùn)練的擴(kuò)散先驗(yàn)和由初始配對(duì)樣本優(yōu)化及后續(xù)通過(guò) CycleFlow 進(jìn)行的大規(guī)模無(wú)配對(duì)精細(xì)化組成的漸進(jìn)訓(xùn)練流程,OmniPaint 實(shí)現(xiàn)了精確的前景消除和無(wú)縫的對(duì)象集成,同時(shí)保留了場(chǎng)景幾何和其他內(nèi)在屬性。大量實(shí)驗(yàn)表明,OmniPaint 有效地抑制了對(duì)象幻覺(jué)并減輕了偽影,新穎的 CFD 指標(biāo)提供了對(duì)上下文一致性的穩(wěn)健、無(wú)參考評(píng)估。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
