成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!

發(fā)布于 2024-10-28 15:08
瀏覽
0收藏

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2410.08207
項(xiàng)目鏈接:https://hexiaoxiao-cs.github.io/DICE/

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

亮點(diǎn)直擊

  • 引入了DICE,一種用于離散擴(kuò)散模型(包括多項(xiàng)擴(kuò)散和mask生成模型)的反演算法。通過記錄并注入噪聲序列或mask模式,DICE能夠在無需預(yù)定義mask或注意力操作的情況下,實(shí)現(xiàn)對(duì)離散數(shù)據(jù)的精確重構(gòu)和可控編輯。
  • 通過在圖像和文本兩種模態(tài)上的全面實(shí)驗(yàn)驗(yàn)證了DICE的有效性,展示了其在不同類型的離散生成模型中的通用性。
  • 證明了該方法可以將主要用于理解任務(wù)(如RoBERTa)的模型轉(zhuǎn)化為具有競(jìng)爭力的文本生成和編輯生成模型,展示了擴(kuò)展離散擴(kuò)散模型至新應(yīng)用的潛力。

總結(jié)速覽

解決的問題:
離散擴(kuò)散模型雖然在圖像生成和mask語言建模等任務(wù)中取得了成功,但在精確控制內(nèi)容編輯方面存在局限性。當(dāng)前方法無法實(shí)現(xiàn)對(duì)離散數(shù)據(jù)的靈活編輯和準(zhǔn)確重構(gòu)。

提出的方案:
提出了DICE(可控編輯的離散反演),這是首個(gè)針對(duì)離散擴(kuò)散模型(包括多項(xiàng)擴(kuò)散和mask生成模型)的精確反演方法。DICE通過記錄在反向擴(kuò)散過程中的噪聲序列和mask模式,實(shí)現(xiàn)了無需預(yù)定義mask或注意力操作的精確重構(gòu)和靈活編輯。

應(yīng)用的技術(shù):
DICE 方法利用了在反向擴(kuò)散過程中記錄的噪聲序列和mask模式,應(yīng)用于離散數(shù)據(jù)的精確反演和可控編輯。其評(píng)估對(duì)象包括VQ-Diffusion、Paella和RoBERTa等模型,跨越圖像和文本領(lǐng)域。

達(dá)到的效果:
DICE 保留了較高的數(shù)據(jù)保真度,并增強(qiáng)了離散空間中細(xì)粒度的內(nèi)容編輯能力,展示了在圖像和文本領(lǐng)域的有效性,提供了新的內(nèi)容操控機(jī)會(huì)。

方法

可控編輯離散反演

基于非ODE的反演:基于ODE的生成模型,例如DDIM和流匹配,定義了一個(gè)ODE軌跡。由于ODE的確定性特性,可以通過使用歐拉法在正向方向上求解ODE來實(shí)現(xiàn)反演,確保根據(jù)ODE的固有性質(zhì)進(jìn)行重構(gòu)。相比之下,另一類研究關(guān)注基于SDE的模型,如CycleDiffusion和DDPM Inversion。廣義上講,這些方法通過記錄噪聲或殘差來確保重構(gòu),這些噪聲或殘差是重現(xiàn)隨機(jī)軌跡所需的。CycleDiffusion 在從后驗(yàn)進(jìn)行采樣時(shí)記錄高斯噪聲,并通過輸入真實(shí)的來注入信號(hào)信息。另一方面,DDPM Inversion通過將反演過程擬合到由獨(dú)立的采樣得到的人工隨機(jī)軌跡中,將信息引入。對(duì)于CycleDiffusion和DDPM Inversion,兩者的關(guān)鍵思想是利用高斯重參數(shù)化技巧,,并跟蹤“噪聲”,這些噪聲可能是從均值生成樣本的來源。對(duì)于離散擴(kuò)散模型,我們使用Gumbel-Max技巧,。下圖2提供了所提方法的直觀解釋。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

多項(xiàng)擴(kuò)散的反演:類似于Huberman-Spiegelglas et al.,首先通過從進(jìn)行獨(dú)立的采樣,得到一個(gè)隨機(jī)軌跡序列 (沿著的維度填充以下采樣操作)。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

請(qǐng)注意,在此使用了Gumbel Softmax技巧,這等同于從類別分布中采樣。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

請(qǐng)注意,此處的潛在變量。


在這個(gè)反演過程中,潛在空間與固定的離散擴(kuò)散模型一起唯一地定義了相同的隨機(jī)軌跡。詳細(xì)算法見算法2。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

反演mask生成模型:在mask生成建模中,隨機(jī)軌跡是根據(jù)所使用模型的特定推理算法構(gòu)建的。例如,在Paella中,mask是包含性的,這意味著隨著時(shí)間步的增加,被掩蓋的tokens集合會(huì)增加。相比之下,Unleashing Transformer在每一步采用隨機(jī)mask,其中mask是通過采樣函數(shù)獨(dú)立生成的。為簡便起見,定義一個(gè)去噪函數(shù)(由參數(shù)化)。該去噪函數(shù)根據(jù)噪聲token 輸出預(yù)測(cè)的未掩蓋數(shù)據(jù)的logits。由于在這種情況下,分類采樣發(fā)生在對(duì)去噪器預(yù)測(cè)的采樣中,因此我們定義一個(gè)相應(yīng)的潛在序列。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

通過潛在空間,保證了準(zhǔn)確的重構(gòu)。然而,對(duì)于編輯任務(wù)而言,如果潛在變量主導(dǎo)了生成過程,這種精確度可能并不理想。詳細(xì)算法見下算法1。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

為了提供更多靈活性,引入超參數(shù)、和,它們?cè)试S對(duì)編輯過程進(jìn)行更精細(xì)的控制。具體來說,表示編輯過程開始時(shí)(也是最大)時(shí)間步,控制從原始輸入中注入的信息量,而則管理隨機(jī)噪聲的引入。


分析:描述一個(gè)簡單但典型的DDPM示例,并計(jì)算編碼潛變量與輸入信號(hào)之間的互信息。

備注 3.1:給定一個(gè)簡單的高斯DDPM,,潛變量通過DDPM反演獲得 (Huberman-Spiegelglas et al., 2024),則與之間的互信息為:

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

與之間的互信息在圖3中進(jìn)行了說明。觀察到,從編碼到的信息量隨著的增加而減少,這促使我們探索不同的調(diào)度策略(見下圖7)。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

實(shí)驗(yàn)

本節(jié)展示了反演方法在圖像和語言擴(kuò)散模型上的有效性。實(shí)驗(yàn)表明,這些方法能夠在視覺和語言任務(wù)中保持身份,同時(shí)成功進(jìn)行預(yù)期的更改。

圖像擴(kuò)散模型

對(duì)于圖像擴(kuò)散模型,主要研究吸收狀態(tài)離散模型,包括一個(gè)mask生成模型Paella和一個(gè)多項(xiàng)式擴(kuò)散模型VQ-Diffusion。我們展示了DICE在兩個(gè)類別中的反演重構(gòu)能力和圖像編輯性能。


數(shù)據(jù)集:由Ju等提出的基于提示的圖像編輯基準(zhǔn)(PIE-Bench)是一個(gè)最近推出的數(shù)據(jù)集,旨在評(píng)估文本到圖像(T2I)編輯方法。該數(shù)據(jù)集在9種不同場(chǎng)景中評(píng)估語言引導(dǎo)的圖像編輯,共有700幅圖像。基準(zhǔn)的詳細(xì)注釋和各種編輯任務(wù)對(duì)于全面評(píng)估我們方法的能力至關(guān)重要,確保與現(xiàn)有方法的公平一致的比較。

反演重構(gòu)

本節(jié)評(píng)估不進(jìn)行編輯時(shí)的反演準(zhǔn)確性。這是通過首先反轉(zhuǎn)圖像,然后使用記錄的潛在編碼重構(gòu)原始圖像來實(shí)現(xiàn)的。


評(píng)估指標(biāo):在此,評(píng)估DICE和掩蔽生成下原始圖像與生成圖像的圖像相似性,指標(biāo)包括PSNR、LPIPS、MSE和SSIM。


定量分析:本文的方法的重構(gòu)性能,如下表1所示,遠(yuǎn)遠(yuǎn)超過了基線插補(bǔ) + Paella模型的所有指標(biāo)。在掩蔽插補(bǔ)的情況下,所有圖像token都被隨機(jī)抽樣的token替換,意味著模型缺乏關(guān)于原始圖像的任何先驗(yàn)信息。因此,重構(gòu)圖像與被反轉(zhuǎn)的圖像存在顯著差異,導(dǎo)致相似性評(píng)分較低。相比之下,本文的方法展示了近乎完美的重構(gòu),正如指標(biāo)所示,顯著生成了一幅與原圖完全相同的圖像,而不會(huì)引入VQ-VAE/GAN量化過程通常帶來的錯(cuò)誤,如(?)token的結(jié)果所示。這突顯了本文的方法在生成高保真重構(gòu)方面的卓越準(zhǔn)確性和一致性。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

編輯性能

本節(jié)討論本文提出的方法的編輯性能。由于不存在離散擴(kuò)散反演,因此將本文的方法與原文中指出的掩蔽生成進(jìn)行比較。此外,還展示了來自連續(xù)模型的指標(biāo)。


評(píng)估指標(biāo):為了展示我們提出的反演方法的有效性和效率,采用了涵蓋三個(gè)關(guān)鍵方面的八個(gè)指標(biāo):結(jié)構(gòu)距離、背景保留和編輯提示與圖像的一致性,如Ju等(2023)所述。利用Tumanyan等(2023)提出的結(jié)構(gòu)距離指標(biāo)來測(cè)量原始圖像和生成圖像之間的結(jié)構(gòu)相似性。為了評(píng)估背景在標(biāo)注的編輯掩膜之外的保留效果,我們使用峰值信噪比(PSNR)、學(xué)習(xí)感知圖像塊相似性(LPIPS)、均方誤差(MSE)和結(jié)構(gòu)相似性指數(shù)(SSIM)。還使用CLIP相似性得分來評(píng)估編輯提示與生成圖像之間的一致性,該得分是在整幅圖像和由編輯掩膜定義的區(qū)域內(nèi)計(jì)算的。


結(jié)果:下表2展示了使用Paella和VQ-Diffusion的DICE定量結(jié)果,并與連續(xù)擴(kuò)散模型以及插補(bǔ)進(jìn)行了比較。值得注意的是,本文的方法在Paella模型下實(shí)現(xiàn)了最低的結(jié)構(gòu)距離11.34,超越了包括連續(xù)擴(kuò)散模型在內(nèi)的所有其他方法。此外,雖然Stable Diffusion v1.4的DDPM反演在整體和編輯區(qū)域的CLIP相似性得分中顯示出最高,但本文的方法與Paella保持了競(jìng)爭力的CLIP相似性。考慮到結(jié)構(gòu)距離的顯著降低,本文的方法在結(jié)構(gòu)保留和語義對(duì)齊的平衡上表現(xiàn)出色。此外,結(jié)合VQ-Diffusion后,本文的方法繼續(xù)展現(xiàn)出強(qiáng)勁的性能。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

表3中的結(jié)果清晰地展示了本文的方法在背景保留能力上優(yōu)于DDIM+SDv1.4。所有四個(gè)指標(biāo)強(qiáng)調(diào)了本文的方法在保留圖像未編輯區(qū)域的結(jié)構(gòu)一致性。這些結(jié)果展示了本文的方法在編輯過程中保持背景完整性的有效性,并提供了原始圖像信息注入DICE潛在空間的證據(jù)。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

圖下4展示了使用DICE的Paella和VQ-Diffusion的編輯結(jié)果。兩個(gè)模型都成功地根據(jù)目標(biāo)提示修改了真實(shí)圖像。在所有情況下,我們的結(jié)果都展現(xiàn)出對(duì)輸入圖像的高保真度和對(duì)目標(biāo)提示的遵循。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

語言擴(kuò)散模型

研究者們?cè)赗oBERTa上評(píng)估DICE,這是一種文本離散擴(kuò)散模型,用于生成對(duì)立情感的句子,同時(shí)保留結(jié)構(gòu)相似性。我們從兩個(gè)提示開始——一個(gè)是積極情感,另一個(gè)是消極情感。每個(gè)提示包含兩個(gè)句子:第一個(gè)句子指示情感類型并設(shè)置上下文背景,第二個(gè)句子是反轉(zhuǎn)和生成的目標(biāo)。最初,我們使用整個(gè)提示作為上下文,反轉(zhuǎn)消極情感提示的第二個(gè)句子,生成該句子的噪聲標(biāo)記表示。接下來,我們通過將積極情感提示的第一個(gè)句子與反轉(zhuǎn)的消極句子的噪聲標(biāo)記拼接在一起,來對(duì)模型進(jìn)行條件設(shè)置。這一設(shè)置引導(dǎo)模型生成一新第二句,該句反映了原始消極句的結(jié)構(gòu),但表達(dá)積極情感。


評(píng)估模型在保持原始句子結(jié)構(gòu)元素的同時(shí),反轉(zhuǎn)并生成與指定情感一致的文本的能力。

反演過程

實(shí)驗(yàn)中,特別關(guān)注于反轉(zhuǎn)第二個(gè)句子(在下表6中以紅色標(biāo)出),同時(shí)保持第一個(gè)句子(黑色)不變,因?yàn)樗ǔ0匾纳舷挛男畔ⅰT诜囱葸^程中,我們的目標(biāo)是通過從反轉(zhuǎn)階段獲得的噪聲標(biāo)記中恢復(fù)第二個(gè)句子,以進(jìn)行重建/編輯。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

數(shù)據(jù)集生成

為了評(píng)估編輯性能,設(shè)計(jì)并提出了一個(gè)新數(shù)據(jù)集,稱為情感編輯(Sentiment Editing)。該數(shù)據(jù)集的目標(biāo)是在保持句子結(jié)構(gòu)的同時(shí)編輯句子的情感,并且遵循句子的主題。這里展示了數(shù)據(jù)集中兩組句子。

反演重建

與圖像生成部分類似,首先展示所提方法的反演和重建能力。該過程包括反演句子,然后使用相同的提示生成第二個(gè)句子的重建版本。


評(píng)估指標(biāo)對(duì)于重建,使用命中率(Hit Rate),定義為每種方法生成與原句相同的句子的比例。此外,我們計(jì)算語義文本相似度(Semantic Textual Similarity,STS)得分,通過測(cè)量句子嵌入之間的余弦相似度,使用Reimers等人(2019)提出的模型。


定量分析下表4比較了DICE與使用RoBERTa的mask生成在兩個(gè)指標(biāo)上的表現(xiàn):準(zhǔn)確率和語義文本相似度。我們的方 法在這兩個(gè)指標(biāo)上顯著超過了mask生成,證明我們的zt潛在空間有效捕捉了被反演句子的信息,并促進(jìn)了其后續(xù)的重建。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

句子編輯

在這一部分,我們?cè)u(píng)估所提反演方法在RoBERTa上的編輯性能。在表6中,負(fù)向提示列下以黑色顯示的句子是在反演過程中輸入的。被反演的句子以紅色顯示。對(duì)于編輯,提示隨后被替換為右側(cè)的黑色句子,并在末尾添加噪聲以進(jìn)行正向過程。正向過程中噪聲的輸出以藍(lán)色呈現(xiàn)。

評(píng)估指標(biāo)

對(duì)于句子編輯任務(wù),我們根據(jù)兩個(gè)標(biāo)準(zhǔn)評(píng)估生成的句子:(1) 結(jié)構(gòu)保留,評(píng)估句子的結(jié)構(gòu)是否得以保留,(2) 情感正確性,評(píng)估編輯后句子的情感是否與原始提示的情感一致。結(jié)構(gòu)保留率和情感正確率均使用ChatGPT-4作為分類器進(jìn)行計(jì)算。關(guān)于使用ChatGPT進(jìn)行評(píng)估的詳細(xì)信息可以在補(bǔ)充材料中查看。


結(jié)果下表5展示了兩種文本編輯方法的比較分析,這兩種方法均采用RoBERTa,重點(diǎn)關(guān)注在結(jié)構(gòu)保留和情感正確性方面的有效性。我們的方 法在這兩個(gè)指標(biāo)上顯著優(yōu)于mask生成。這一差異突顯了我們反演方法在潛在空間中編碼原始文本結(jié)構(gòu)的卓越能力,以及更準(zhǔn)確地調(diào)整情感的靈活性。

靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!-AI.x社區(qū)

前面表6展示了初始提示和編輯結(jié)果。本文的方法在保留負(fù)向提示的句子結(jié)構(gòu)的同時(shí),將其情感修改為更積極的情感。

結(jié)論

DICE(可控編輯的離散反演),一種用于離散擴(kuò)散模型的反演算法,包括多項(xiàng)式擴(kuò)散和mask生成模型。通過在逆擴(kuò)散過程中利用記錄的噪聲序列和mask模式,DICE實(shí)現(xiàn)了對(duì)離散數(shù)據(jù)的準(zhǔn)確重構(gòu)和靈活編輯,而無需預(yù)定義的mask或交叉注意力操作。在多個(gè)模型和模態(tài)(如圖像和文本)上的實(shí)驗(yàn)展示了DICE在保持?jǐn)?shù)據(jù)保真度的同時(shí)增強(qiáng)編輯能力的有效性。此外,還展示了DICE將RoBERTa這一傳統(tǒng)上專注于數(shù)據(jù)理解的模型轉(zhuǎn)變?yōu)槲谋旧珊途庉嫷纳赡P偷臐摿ΑN覀兿嘈牛珼ICE增強(qiáng)了離散生成模型的能力,為在離散空間中的精細(xì)內(nèi)容操控提供了新的機(jī)會(huì)。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/QDWlWAg4RlvFJla0qJyXBw???

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲欧美日韩在线一区二区 | 免费a网站 | 免费一区二区三区 | 国产91网址 | av中文在线观看 | 在线观看中文字幕视频 | 欧美三级三级三级爽爽爽 | 国产精品一区久久久久 | 国产精品小视频在线观看 | 欧美v在线观看 | 性国产丰满麻豆videosex | 欧洲精品在线观看 | 一级片成人 | 99av成人精品国语自产拍 | 成人在线一区二区 | 日本视频在线 | 激情六月丁香婷婷 | 青青草一区| 国产精品自产av一区二区三区 | 精品国产高清一区二区三区 | 午夜天堂 | 亚洲免费婷婷 | 国产精品不卡一区 | 久久视频精品在线 | 国产精品二区三区在线观看 | 亚洲永久 | 国产精品久久久久久久久久久久久 | 久久精品青青大伊人av | 四虎在线播放 | 成年人黄色小视频 | 国产精品久久久久久一区二区三区 | 久艹网站 | 日韩精品 电影一区 亚洲 | 黄色大片视频 | 国产伦精品 | 日韩一区二区三区四区五区六区 | 久久在线视频 | 中文字幕在线精品 | 久久噜噜噜精品国产亚洲综合 | 久久免费国产 | 日本小电影在线 |