成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致

發(fā)布于 2024-9-26 11:07
瀏覽
0收藏

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2409.08260
Github鏈接:https://github.com/Nnn-s/CATdiffusion

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

總結(jié)速覽

解決的問題:

  • 單一U-Net在所有去噪步驟中對(duì)齊文本提示和視覺對(duì)象不足以生成期望的對(duì)象。
  • 擴(kuò)散模型的復(fù)雜采樣空間中無法保證對(duì)對(duì)象生成的可控性。

提出的方案:

  • 語義預(yù)修復(fù):在多模態(tài)特征空間中推理目標(biāo)對(duì)象的語義特征。
  • 高保真度的對(duì)象生成:在擴(kuò)散的潛在空間中基于已修復(fù)的語義特征生成目標(biāo)對(duì)象。

應(yīng)用的技術(shù):

  • 采用級(jí)聯(lián)的Transformer語義修復(fù)器與目標(biāo)修復(fù)擴(kuò)散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。
  • 語義修復(fù)器通過上下文和文本提示條件,預(yù)測目標(biāo)對(duì)象的語義特征。語義修復(fù)器的輸出作為視覺提示,經(jīng)過參考Adapter層來指導(dǎo)高保真對(duì)象生成。

達(dá)到的效果:

  • 在OpenImages-V6和MSCOCO數(shù)據(jù)集上的廣泛評(píng)估表明,CAT-Diffusion在文本引導(dǎo)的目標(biāo)修復(fù)任務(wù)中優(yōu)于現(xiàn)有的最新方法。

方法

首先,在文本引導(dǎo)的物體修復(fù)中,需要在由輸入圖像的二值mask指示的指定區(qū)域內(nèi)生成由文本提示(通常是對(duì)象標(biāo)簽)描述的新對(duì)象。這個(gè)任務(wù)要求與圖像和文本提示分別具有視覺一致性和語義相關(guān)性。本節(jié)將深入探討級(jí)聯(lián)Transformer-Diffusion(CAT-Diffusion),在簡要回顧擴(kuò)散模型后,隨后介紹訓(xùn)練細(xì)節(jié)。

級(jí)聯(lián)Transformer-擴(kuò)散模型

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

  1. 依賴單獨(dú)的U-Net在所有去噪時(shí)間步中實(shí)現(xiàn)視覺-語義對(duì)齊是不夠的;
  2. 在復(fù)雜的采樣空間中穩(wěn)定生成高保真度對(duì)象是具有挑戰(zhàn)性的,而沒有額外的語義信息。

為了解決這些挑戰(zhàn),研究者們提出將傳統(tǒng)的單階段流程分解為兩個(gè)級(jí)聯(lián)階段:首先進(jìn)行語義預(yù)修復(fù),然后進(jìn)行對(duì)象生成,從而形成CAT-Diffusion。技術(shù)上,CAT-Diffusion通過一種新穎的語義修復(fù)器在輔助的多模態(tài)特征空間(例如CLIP)中進(jìn)行對(duì)象預(yù)修復(fù)。語義修復(fù)器通過知識(shí)蒸餾進(jìn)行訓(xùn)練,以預(yù)測目標(biāo)對(duì)象的語義特征,條件是未遮罩的視覺上下文和文本提示。這樣,得出的輸出自然對(duì)齊文本提示和視覺對(duì)象,除了U-Net之外,無論去噪時(shí)間步如何。語義修復(fù)器的輸出通過參考Adapter層進(jìn)一步集成到目標(biāo)修復(fù)擴(kuò)散模型中,以實(shí)現(xiàn)可控的目標(biāo)修復(fù)。CAT-Diffusion的整體框架如下圖2所示。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

語義修復(fù)器
為了緩解在整個(gè)去噪過程中僅依靠單獨(dú)的U-Net對(duì)齊文本提示和視覺對(duì)象的不足,提出通過在U-Net之外,利用經(jīng)過良好預(yù)訓(xùn)練的輔助多模態(tài)特征空間對(duì)目標(biāo)對(duì)象的語義特征進(jìn)行預(yù)修復(fù),以增強(qiáng)視覺-語義對(duì)應(yīng)關(guān)系。其原理在于,預(yù)訓(xùn)練的多模態(tài)特征空間是通過大規(guī)模的跨模態(tài)數(shù)據(jù)進(jìn)行學(xué)習(xí)的,用于實(shí)現(xiàn)視覺-語義對(duì)齊,無論去噪時(shí)間步如何。在本工作中,設(shè)計(jì)了一種有效的知識(shí)蒸餾目標(biāo),將這種多模態(tài)知識(shí)從教師模型(CLIP)轉(zhuǎn)移到CAT-Diffusion中的語義修復(fù)器。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

參考Adapter層

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

因此,升級(jí)版U-Net中的一個(gè)完整塊,包括SelfAttn、RefAdapter和CrossAttn,操作如下:

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

訓(xùn)練

擴(kuò)散損失

對(duì)于配備參考adapter層的目標(biāo)修復(fù)擴(kuò)散模型的訓(xùn)練,采用 [35] 中的通用實(shí)踐,目標(biāo)函數(shù)為:

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

知識(shí)蒸餾損失

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

實(shí)驗(yàn)

驗(yàn)證級(jí)聯(lián)Transformer-擴(kuò)散方法(CAT-Diffusion)在文本指導(dǎo)的目標(biāo)修復(fù)任務(wù)中的優(yōu)點(diǎn),并與最先進(jìn)的基于擴(kuò)散的方法進(jìn)行了比較。大量實(shí)驗(yàn)驗(yàn)證了CAT-Diffusion在修復(fù)高保真度對(duì)象方面的有效性。

實(shí)施細(xì)節(jié)

在OpenImages-V6的訓(xùn)練集中的本地mask與對(duì)應(yīng)對(duì)象標(biāo)簽對(duì)上訓(xùn)練CAT-Diffusion。CAT-Diffusion通過Adam優(yōu)化,學(xué)習(xí)率為0.00001,使用8個(gè)A100 GPU進(jìn)行約40K次迭代。批量大小設(shè)置為128,輸入圖像分辨率設(shè)置為512 × 512。

比較方法和評(píng)估指標(biāo)

比較方法
將CAT-Diffusion與幾種最先進(jìn)的基于擴(kuò)散的方法進(jìn)行了比較,包括Blended Diffusion、Blended Latent Diffusion、GLIDE、SmartBrush、Stable Diffusion 和 Stable Diffusion Inpainting。具體來說,Blended Diffusion、Blended Latent Diffusion 和 Stable Diffusion 僅利用預(yù)訓(xùn)練的基礎(chǔ)文本到圖像模型,通過在每個(gè)去噪步驟中混合生成的對(duì)象和背景進(jìn)行文本指導(dǎo)的目標(biāo)修復(fù)。其他方法則使用文本提示、二值mask和被遮罩圖像作為輸入來訓(xùn)練修復(fù)擴(kuò)散模型。由于相同的評(píng)估設(shè)置,所有方法的結(jié)果均取自 [45],但 [1] 的結(jié)果除外。請注意,已將Blended Latent Diffusion中的文本到圖像Stable Diffusion 2.1替換為1.5,以確保公平比較。

評(píng)估指標(biāo)
所有上述方法都在OpenImages-V6和 MSCOCO的測試集上進(jìn)行評(píng)估,分別涉及13,400和9,311張測試圖像。采用三種廣泛使用的指標(biāo):Frechet Inception Distance (FID)、Local FID 和 CLIP score。值得一提的是,F(xiàn)ID 和 Local FID 分別測量修復(fù)對(duì)象在全局圖像和局部補(bǔ)丁中的真實(shí)性和視覺一致性,而 CLIP score 估計(jì)修復(fù)對(duì)象與文本提示之間的語義相關(guān)性。此外,還涉及用戶研究以評(píng)估視覺一致性和文本-對(duì)象對(duì)齊。由于GLIDE僅支持256 × 256分辨率的圖像,將所有結(jié)果調(diào)整為相似大小以確保公平比較。此外,評(píng)估中考慮了分割mask和邊界框mask。

性能比較

OpenImages-V6上的定量結(jié)果
下表1總結(jié)了所有方法在OpenImages-V6測試集上的結(jié)果??傮w而言,所有指標(biāo)的結(jié)果一致地展示了CAT-Diffusion在分割mask或邊界框mask下的有效性。具體來說,基于混合的方法(即Blended Latent Diffusion 和 Stable Diffusion)在CLIP分?jǐn)?shù)上表現(xiàn)相當(dāng),但FID 和 Local FID 分?jǐn)?shù)遠(yuǎn)低于CAT-Diffusion。推測這是因?yàn)檫@些方法僅關(guān)注修復(fù)圖像與對(duì)象標(biāo)簽之間的視覺-語義對(duì)齊,并僅在潛在空間中混合生成的對(duì)象和背景。因此,周圍未遮罩區(qū)域的語義上下文被忽視,導(dǎo)致視覺一致性差。SmartBrush通過將被遮罩圖像納入U(xiǎn)-Net以進(jìn)行上下文學(xué)習(xí),并進(jìn)一步使用形狀mask指導(dǎo)擴(kuò)散模型,展現(xiàn)了更好的性能。然而,SmartBrush的FID和Local FID分?jǐn)?shù)仍低于CAT-Diffusion。結(jié)果驗(yàn)證了通過參考Adapter層用語義修復(fù)器預(yù)修復(fù)的對(duì)象特征來引導(dǎo)擴(kuò)散模型的影響。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

MSCOCO上的定量結(jié)果
下表2列出了所有方法在MSCOCO測試集上的結(jié)果。值得注意的是,SmartBrush 和CAT-Diffusion 都沒有在MSCOCO上進(jìn)行訓(xùn)練。與OpenImages-V6上的趨勢類似,CAT-Diffusion 在大多數(shù)指標(biāo)上優(yōu)于其他方法。具體來說,CAT-Diffusion 在Local FID(使用邊界框mask)上相對(duì)于強(qiáng)基線 Stable Diffusion Inpainting 和 SmartBrush 分別提高了42.1% 和 20.7%。結(jié)果再次驗(yàn)證了在CAT-Diffusion中將單次修復(fù)流程分解為兩個(gè)級(jí)聯(lián)過程(首先進(jìn)行語義預(yù)修復(fù),然后生成對(duì)象)的優(yōu)點(diǎn)。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

定性比較
通過案例研究對(duì)不同方法進(jìn)行定性測試。下圖3展示了幾個(gè)示例。如前四個(gè)結(jié)果所示,CAT-Diffusion生成的圖像與輸入文本提示的語義對(duì)齊程度優(yōu)于其他方法。此外,在圖像中,生成對(duì)象與周圍環(huán)境的視覺一致性更好,修復(fù)結(jié)果中的對(duì)象形狀也更準(zhǔn)確。結(jié)果證明了通過提出的語義修復(fù)器預(yù)修復(fù)對(duì)象語義特征的優(yōu)越性。例如,與其他方法生成的圖像相比,第一排的CAT-Diffusion生成的男人在結(jié)構(gòu)上更完整。這得益于通過參考Adapter層用預(yù)修復(fù)的目標(biāo)對(duì)象語義特征引導(dǎo)擴(kuò)散模型。盡管沒有提供形狀mask,CAT-Diffusion仍能根據(jù)文本提示和邊界框mask生成高保真度的對(duì)象(中間兩排)。此外,還對(duì)具有更具描述性文本提示的目標(biāo)修復(fù)進(jìn)行了評(píng)估,不同方法生成的結(jié)果顯示在底部兩排。類似地,CAT-Diffusion生成了視覺上更令人愉悅的圖像。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

用戶研究
研究者們進(jìn)行了一項(xiàng)用戶研究,以檢查修復(fù)圖像是否符合人類偏好。在實(shí)驗(yàn)中,從OpenImages-V6測試集中隨機(jī)抽取了1K張圖像進(jìn)行評(píng)估。SmartBrush 尚未發(fā)布,因此被排除在外。邀請了10名具有不同教育背景的評(píng)估員(5名男性和5名女性):藝術(shù)設(shè)計(jì)(4名)、心理學(xué)(2名)、計(jì)算機(jī)科學(xué)(2名)和商業(yè)(2名)。向所有評(píng)估員展示修復(fù)圖像和相關(guān)提示,并要求他們從兩個(gè)方面給出評(píng)分(0~5):

  1. 與周圍環(huán)境的視覺一致性;
  2. 與文本提示的對(duì)齊程度和對(duì)象形狀的準(zhǔn)確性。

下表3總結(jié)了不同方法的平均結(jié)果。結(jié)果表明,在文本-對(duì)象對(duì)齊和視覺一致性方面,CAT-Diffusion在所有基線方法中遙遙領(lǐng)先。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

分析與討論

CAT-Diffusion的消融研究
研究了CAT-Diffusion中各個(gè)組件對(duì)整體性能的影響。考慮了每個(gè)階段的一個(gè)或多個(gè)組件,表4總結(jié)了使用分割mask的OpenImages-V6測試集上的結(jié)果。請注意,第1行的基線是使用[21]中的對(duì)象-文本對(duì)進(jìn)行微調(diào)的Stable Inpainting模型。通過結(jié)合僅使用mask圖像 的CLIP特征訓(xùn)練的參考Adapter層,第2行的變體在FID和Local FID分?jǐn)?shù)上分別相較于第1行的基線模型提高了0.91和1.47。這并不令人意外,因?yàn)槲磎ask區(qū)域的CLIP特征通過參考Adapter層為基礎(chǔ)擴(kuò)散模型提供了更豐富的上下文語義,從而改善了視覺一致性并保留了背景。語義修復(fù)器的輸出進(jìn)一步提升了模型,通過引入所需對(duì)象的語義,獲得了第3行在所有指標(biāo)上的最佳結(jié)果。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

語義修復(fù)器預(yù)測的特征
隨后分析了提出的語義修復(fù)器在提高所需對(duì)象語義特征方面的程度。值得注意的是,由于CLIP中的自注意機(jī)制,mask區(qū)域的CLIP特征本身就包含了來自未mask區(qū)域的上下文語義,從而在通過語義修復(fù)器之前與真實(shí)標(biāo)簽具有非平凡的相似性。特別地,計(jì)算了語義修復(fù)器輸入/輸出與對(duì)應(yīng)真實(shí)標(biāo)簽之間的余弦相似度,在10K張圖像上進(jìn)行分析。下圖4(a)展示了這兩個(gè)分布。平均余弦相似度從0.47提高到0.65,顯示了提出的語義修復(fù)器的有效性。盡管語義修復(fù)器的輸出并不是100%準(zhǔn)確,但這些語義特征為CAT-Diffusion生成高保真度對(duì)象貢獻(xiàn)了更豐富的上下文。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致-AI.x社區(qū)

修復(fù)結(jié)果的多樣性
為了測試CAT-Diffusion在相同語義特征下生成修復(fù)結(jié)果的多樣性,對(duì)不同隨機(jī)種子下的結(jié)果進(jìn)行了研究。上圖4(b)展示了兩個(gè)示例??梢杂^察到,CAT-Diffusion能夠生成具有準(zhǔn)確形狀的多樣化對(duì)象,這由參考Adapter層控制。

推理復(fù)雜度
在推理階段,只需要對(duì)提出的語義修復(fù)器進(jìn)行一次前向傳遞,并且修復(fù)的特征可以在每個(gè)去噪步驟中重復(fù)使用,從而帶來較小的計(jì)算開銷。CAT-Diffusion每張圖像的平均時(shí)間為1.84秒,相較于SD-Inpaint的1.60秒稍長。

結(jié)論

本文提出了一種新穎的級(jí)聯(lián)Transformer-擴(kuò)散(CAT-Diffusion)模型,以增強(qiáng)擴(kuò)散模型在文本引導(dǎo)目標(biāo)修復(fù)中的視覺-語義對(duì)齊和可控性。具體而言,CAT-Diffusion將傳統(tǒng)的單階段管道分解為兩個(gè)級(jí)聯(lián)過程:首先進(jìn)行語義預(yù)修復(fù),然后進(jìn)行對(duì)象生成。通過在多模態(tài)特征空間中預(yù)修復(fù)所需對(duì)象的語義特征,然后通過這些特征引導(dǎo)擴(kuò)散模型進(jìn)行對(duì)象生成,CAT-Diffusion能夠生成與提示語義一致且與背景視覺一致的高保真度對(duì)象。

從技術(shù)上講,基于Transformer的語義修復(fù)器在給定未mask的上下文和提示的情況下預(yù)測所需對(duì)象的語義特征。然后,來自語義修復(fù)器的修復(fù)特征通過參考Adapter層進(jìn)一步輸入到目標(biāo)修復(fù)擴(kuò)散模型中,以實(shí)現(xiàn)受控生成。在OpenImages-V6和MSCOCO上的廣泛實(shí)驗(yàn)驗(yàn)證了CAT-Diffusion的有效性。

廣泛影響
最近生成模型(如擴(kuò)散模型)的進(jìn)展開啟了創(chuàng)造性媒體生成的新領(lǐng)域。然而,這些創(chuàng)新也可能被濫用于生成欺騙性內(nèi)容。本文的方法可能被利用來在圖像中修復(fù)有害內(nèi)容,用于傳播虛假信息,對(duì)此類行為堅(jiān)決反對(duì)。


本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/HNuV9USOtT93CNCn1MCvGA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产亚洲一区二区在线观看 | 亚洲精品在线免费看 | 一区二区三区国产 | a看片| 一呦二呦三呦国产精品 | 成人免费视频网站在线看 | 亚洲天堂久久 | 久久精品视频一区二区 | 久久综合入口 | 日韩一区二区在线播放 | 亚洲精品欧美 | 精品一区二区三区在线观看 | 成年精品 | 亚洲欧美一区二区三区国产精品 | 久操伊人| 在线免费观看成人 | 国产一区二区在线观看视频 | 国产高清一区二区三区 | 午夜在线观看免费 | 国产精品久久国产精品 | 久久成人一区二区三区 | 国产一区二区免费 | 精品欧美乱码久久久久久1区2区 | 一级免费毛片 | 国产精品一区二区三 | 99re视频在线免费观看 | 亚洲综合一区二区三区 | 国产精品一区二区在线 | 免费日本视频 | 中文字幕不卡 | 国产香蕉视频 | 精品国产一区二区国模嫣然 | 狠狠艹| 请别相信他免费喜剧电影在线观看 | 成人精品一区二区 | 日韩三级一区 | 一级毛片视频 | 午夜在线免费观看 | 麻豆视频国产在线观看 | 日韩精品一二三 | 亚洲不卡av在线 |