靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！

發(fā)布于 2024-10-28 15:08

瀏覽

0收藏

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2410.08207
項(xiàng)目鏈接：https://hexiaoxiao-cs.github.io/DICE/

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

亮點(diǎn)直擊
引入了DICE，一種用于離散擴(kuò)散模型（包括多項(xiàng)擴(kuò)散和mask生成模型）的反演算法。通過記錄并注入噪聲序列或mask模式，DICE能夠在無需預(yù)定義mask或注意力操作的情況下，實(shí)現(xiàn)對(duì)離散數(shù)據(jù)的精確重構(gòu)和可控編輯。
通過在圖像和文本兩種模態(tài)上的全面實(shí)驗(yàn)驗(yàn)證了DICE的有效性，展示了其在不同類型的離散生成模型中的通用性。
證明了該方法可以將主要用于理解任務(wù)（如RoBERTa）的模型轉(zhuǎn)化為具有競(jìng)爭力的文本生成和編輯生成模型，展示了擴(kuò)展離散擴(kuò)散模型至新應(yīng)用的潛力。

總結(jié)速覽

解決的問題:
離散擴(kuò)散模型雖然在圖像生成和mask語言建模等任務(wù)中取得了成功，但在精確控制內(nèi)容編輯方面存在局限性。當(dāng)前方法無法實(shí)現(xiàn)對(duì)離散數(shù)據(jù)的靈活編輯和準(zhǔn)確重構(gòu)。

提出的方案:
提出了DICE（可控編輯的離散反演），這是首個(gè)針對(duì)離散擴(kuò)散模型（包括多項(xiàng)擴(kuò)散和mask生成模型）的精確反演方法。DICE通過記錄在反向擴(kuò)散過程中的噪聲序列和mask模式，實(shí)現(xiàn)了無需預(yù)定義mask或注意力操作的精確重構(gòu)和靈活編輯。

應(yīng)用的技術(shù):
DICE 方法利用了在反向擴(kuò)散過程中記錄的噪聲序列和mask模式，應(yīng)用于離散數(shù)據(jù)的精確反演和可控編輯。其評(píng)估對(duì)象包括VQ-Diffusion、Paella和RoBERTa等模型，跨越圖像和文本領(lǐng)域。

達(dá)到的效果:
DICE 保留了較高的數(shù)據(jù)保真度，并增強(qiáng)了離散空間中細(xì)粒度的內(nèi)容編輯能力，展示了在圖像和文本領(lǐng)域的有效性，提供了新的內(nèi)容操控機(jī)會(huì)。

方法

可控編輯離散反演

基于非ODE的反演：基于ODE的生成模型，例如DDIM和流匹配，定義了一個(gè)ODE軌跡。由于ODE的確定性特性，可以通過使用歐拉法在正向方向上求解ODE來實(shí)現(xiàn)反演，確保根據(jù)ODE的固有性質(zhì)進(jìn)行重構(gòu)。相比之下，另一類研究關(guān)注基于SDE的模型，如CycleDiffusion和DDPM Inversion。廣義上講，這些方法通過記錄噪聲或殘差來確保重構(gòu)，這些噪聲或殘差是重現(xiàn)隨機(jī)軌跡所需的。CycleDiffusion 在從后驗(yàn)進(jìn)行采樣時(shí)記錄高斯噪聲，并通過輸入真實(shí)的來注入信號(hào)信息。另一方面，DDPM Inversion通過將反演過程擬合到由獨(dú)立的采樣得到的人工隨機(jī)軌跡中，將信息引入。對(duì)于CycleDiffusion和DDPM Inversion，兩者的關(guān)鍵思想是利用高斯重參數(shù)化技巧，，并跟蹤“噪聲”，這些噪聲可能是從均值生成樣本的來源。對(duì)于離散擴(kuò)散模型，我們使用Gumbel-Max技巧，。下圖2提供了所提方法的直觀解釋。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

多項(xiàng)擴(kuò)散的反演：類似于Huberman-Spiegelglas et al.，首先通過從進(jìn)行獨(dú)立的采樣，得到一個(gè)隨機(jī)軌跡序列 (沿著的維度填充以下采樣操作)。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

請(qǐng)注意，在此使用了Gumbel Softmax技巧，這等同于從類別分布中采樣。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

請(qǐng)注意，此處的潛在變量。

在這個(gè)反演過程中，潛在空間與固定的離散擴(kuò)散模型一起唯一地定義了相同的隨機(jī)軌跡。詳細(xì)算法見算法2。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

反演mask生成模型：在mask生成建模中，隨機(jī)軌跡是根據(jù)所使用模型的特定推理算法構(gòu)建的。例如，在Paella中，mask是包含性的，這意味著隨著時(shí)間步的增加，被掩蓋的tokens集合會(huì)增加。相比之下，Unleashing Transformer在每一步采用隨機(jī)mask，其中mask是通過采樣函數(shù)獨(dú)立生成的。為簡便起見，定義一個(gè)去噪函數(shù)（由參數(shù)化）。該去噪函數(shù)根據(jù)噪聲token 輸出預(yù)測(cè)的未掩蓋數(shù)據(jù)的logits。由于在這種情況下，分類采樣發(fā)生在對(duì)去噪器預(yù)測(cè)的采樣中，因此我們定義一個(gè)相應(yīng)的潛在序列。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

通過潛在空間，保證了準(zhǔn)確的重構(gòu)。然而，對(duì)于編輯任務(wù)而言，如果潛在變量主導(dǎo)了生成過程，這種精確度可能并不理想。詳細(xì)算法見下算法1。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

為了提供更多靈活性，引入超參數(shù)、和，它們?cè)试S對(duì)編輯過程進(jìn)行更精細(xì)的控制。具體來說，表示編輯過程開始時(shí)（也是最大）時(shí)間步，控制從原始輸入中注入的信息量，而則管理隨機(jī)噪聲的引入。

分析：描述一個(gè)簡單但典型的DDPM示例，并計(jì)算編碼潛變量與輸入信號(hào)之間的互信息。

備注 3.1：給定一個(gè)簡單的高斯DDPM，，潛變量通過DDPM反演獲得 (Huberman-Spiegelglas et al., 2024)，則與之間的互信息為：

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

與之間的互信息在圖3中進(jìn)行了說明。觀察到，從編碼到的信息量隨著的增加而減少，這促使我們探索不同的調(diào)度策略（見下圖7）。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

實(shí)驗(yàn)

本節(jié)展示了反演方法在圖像和語言擴(kuò)散模型上的有效性。實(shí)驗(yàn)表明，這些方法能夠在視覺和語言任務(wù)中保持身份，同時(shí)成功進(jìn)行預(yù)期的更改。

圖像擴(kuò)散模型

對(duì)于圖像擴(kuò)散模型，主要研究吸收狀態(tài)離散模型，包括一個(gè)mask生成模型Paella和一個(gè)多項(xiàng)式擴(kuò)散模型VQ-Diffusion。我們展示了DICE在兩個(gè)類別中的反演重構(gòu)能力和圖像編輯性能。

數(shù)據(jù)集：由Ju等提出的基于提示的圖像編輯基準(zhǔn)（PIE-Bench）是一個(gè)最近推出的數(shù)據(jù)集，旨在評(píng)估文本到圖像（T2I）編輯方法。該數(shù)據(jù)集在9種不同場(chǎng)景中評(píng)估語言引導(dǎo)的圖像編輯，共有700幅圖像。基準(zhǔn)的詳細(xì)注釋和各種編輯任務(wù)對(duì)于全面評(píng)估我們方法的能力至關(guān)重要，確保與現(xiàn)有方法的公平一致的比較。

反演重構(gòu)

本節(jié)評(píng)估不進(jìn)行編輯時(shí)的反演準(zhǔn)確性。這是通過首先反轉(zhuǎn)圖像，然后使用記錄的潛在編碼重構(gòu)原始圖像來實(shí)現(xiàn)的。

評(píng)估指標(biāo)：在此，評(píng)估DICE和掩蔽生成下原始圖像與生成圖像的圖像相似性，指標(biāo)包括PSNR、LPIPS、MSE和SSIM。

定量分析：本文的方法的重構(gòu)性能，如下表1所示，遠(yuǎn)遠(yuǎn)超過了基線插補(bǔ) + Paella模型的所有指標(biāo)。在掩蔽插補(bǔ)的情況下，所有圖像token都被隨機(jī)抽樣的token替換，意味著模型缺乏關(guān)于原始圖像的任何先驗(yàn)信息。因此，重構(gòu)圖像與被反轉(zhuǎn)的圖像存在顯著差異，導(dǎo)致相似性評(píng)分較低。相比之下，本文的方法展示了近乎完美的重構(gòu)，正如指標(biāo)所示，顯著生成了一幅與原圖完全相同的圖像，而不會(huì)引入VQ-VAE/GAN量化過程通常帶來的錯(cuò)誤，如（?）token的結(jié)果所示。這突顯了本文的方法在生成高保真重構(gòu)方面的卓越準(zhǔn)確性和一致性。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

編輯性能

本節(jié)討論本文提出的方法的編輯性能。由于不存在離散擴(kuò)散反演，因此將本文的方法與原文中指出的掩蔽生成進(jìn)行比較。此外，還展示了來自連續(xù)模型的指標(biāo)。

評(píng)估指標(biāo)：為了展示我們提出的反演方法的有效性和效率，采用了涵蓋三個(gè)關(guān)鍵方面的八個(gè)指標(biāo)：結(jié)構(gòu)距離、背景保留和編輯提示與圖像的一致性，如Ju等（2023）所述。利用Tumanyan等（2023）提出的結(jié)構(gòu)距離指標(biāo)來測(cè)量原始圖像和生成圖像之間的結(jié)構(gòu)相似性。為了評(píng)估背景在標(biāo)注的編輯掩膜之外的保留效果，我們使用峰值信噪比（PSNR）、學(xué)習(xí)感知圖像塊相似性（LPIPS）、均方誤差（MSE）和結(jié)構(gòu)相似性指數(shù)（SSIM）。還使用CLIP相似性得分來評(píng)估編輯提示與生成圖像之間的一致性，該得分是在整幅圖像和由編輯掩膜定義的區(qū)域內(nèi)計(jì)算的。

結(jié)果：下表2展示了使用Paella和VQ-Diffusion的DICE定量結(jié)果，并與連續(xù)擴(kuò)散模型以及插補(bǔ)進(jìn)行了比較。值得注意的是，本文的方法在Paella模型下實(shí)現(xiàn)了最低的結(jié)構(gòu)距離11.34，超越了包括連續(xù)擴(kuò)散模型在內(nèi)的所有其他方法。此外，雖然Stable Diffusion v1.4的DDPM反演在整體和編輯區(qū)域的CLIP相似性得分中顯示出最高，但本文的方法與Paella保持了競(jìng)爭力的CLIP相似性。考慮到結(jié)構(gòu)距離的顯著降低，本文的方法在結(jié)構(gòu)保留和語義對(duì)齊的平衡上表現(xiàn)出色。此外，結(jié)合VQ-Diffusion后，本文的方法繼續(xù)展現(xiàn)出強(qiáng)勁的性能。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

表3中的結(jié)果清晰地展示了本文的方法在背景保留能力上優(yōu)于DDIM+SDv1.4。所有四個(gè)指標(biāo)強(qiáng)調(diào)了本文的方法在保留圖像未編輯區(qū)域的結(jié)構(gòu)一致性。這些結(jié)果展示了本文的方法在編輯過程中保持背景完整性的有效性，并提供了原始圖像信息注入DICE潛在空間的證據(jù)。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

圖下4展示了使用DICE的Paella和VQ-Diffusion的編輯結(jié)果。兩個(gè)模型都成功地根據(jù)目標(biāo)提示修改了真實(shí)圖像。在所有情況下，我們的結(jié)果都展現(xiàn)出對(duì)輸入圖像的高保真度和對(duì)目標(biāo)提示的遵循。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

語言擴(kuò)散模型

研究者們?cè)赗oBERTa上評(píng)估DICE，這是一種文本離散擴(kuò)散模型，用于生成對(duì)立情感的句子，同時(shí)保留結(jié)構(gòu)相似性。我們從兩個(gè)提示開始——一個(gè)是積極情感，另一個(gè)是消極情感。每個(gè)提示包含兩個(gè)句子：第一個(gè)句子指示情感類型并設(shè)置上下文背景，第二個(gè)句子是反轉(zhuǎn)和生成的目標(biāo)。最初，我們使用整個(gè)提示作為上下文，反轉(zhuǎn)消極情感提示的第二個(gè)句子，生成該句子的噪聲標(biāo)記表示。接下來，我們通過將積極情感提示的第一個(gè)句子與反轉(zhuǎn)的消極句子的噪聲標(biāo)記拼接在一起，來對(duì)模型進(jìn)行條件設(shè)置。這一設(shè)置引導(dǎo)模型生成一新第二句，該句反映了原始消極句的結(jié)構(gòu)，但表達(dá)積極情感。

評(píng)估模型在保持原始句子結(jié)構(gòu)元素的同時(shí)，反轉(zhuǎn)并生成與指定情感一致的文本的能力。

反演過程

實(shí)驗(yàn)中，特別關(guān)注于反轉(zhuǎn)第二個(gè)句子（在下表6中以紅色標(biāo)出），同時(shí)保持第一個(gè)句子（黑色）不變，因?yàn)樗ǔ０匾纳舷挛男畔ⅰＴ诜囱葸^程中，我們的目標(biāo)是通過從反轉(zhuǎn)階段獲得的噪聲標(biāo)記中恢復(fù)第二個(gè)句子，以進(jìn)行重建/編輯。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

數(shù)據(jù)集生成

為了評(píng)估編輯性能，設(shè)計(jì)并提出了一個(gè)新數(shù)據(jù)集，稱為情感編輯（Sentiment Editing）。該數(shù)據(jù)集的目標(biāo)是在保持句子結(jié)構(gòu)的同時(shí)編輯句子的情感，并且遵循句子的主題。這里展示了數(shù)據(jù)集中兩組句子。

反演重建

與圖像生成部分類似，首先展示所提方法的反演和重建能力。該過程包括反演句子，然后使用相同的提示生成第二個(gè)句子的重建版本。

評(píng)估指標(biāo)對(duì)于重建，使用命中率（Hit Rate），定義為每種方法生成與原句相同的句子的比例。此外，我們計(jì)算語義文本相似度（Semantic Textual Similarity，STS）得分，通過測(cè)量句子嵌入之間的余弦相似度，使用Reimers等人（2019）提出的模型。

定量分析下表4比較了DICE與使用RoBERTa的mask生成在兩個(gè)指標(biāo)上的表現(xiàn)：準(zhǔn)確率和語義文本相似度。我們的方法在這兩個(gè)指標(biāo)上顯著超過了mask生成，證明我們的zt潛在空間有效捕捉了被反演句子的信息，并促進(jìn)了其后續(xù)的重建。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

句子編輯

在這一部分，我們?cè)u(píng)估所提反演方法在RoBERTa上的編輯性能。在表6中，負(fù)向提示列下以黑色顯示的句子是在反演過程中輸入的。被反演的句子以紅色顯示。對(duì)于編輯，提示隨后被替換為右側(cè)的黑色句子，并在末尾添加噪聲以進(jìn)行正向過程。正向過程中噪聲的輸出以藍(lán)色呈現(xiàn)。

評(píng)估指標(biāo)

對(duì)于句子編輯任務(wù)，我們根據(jù)兩個(gè)標(biāo)準(zhǔn)評(píng)估生成的句子：(1) 結(jié)構(gòu)保留，評(píng)估句子的結(jié)構(gòu)是否得以保留，(2) 情感正確性，評(píng)估編輯后句子的情感是否與原始提示的情感一致。結(jié)構(gòu)保留率和情感正確率均使用ChatGPT-4作為分類器進(jìn)行計(jì)算。關(guān)于使用ChatGPT進(jìn)行評(píng)估的詳細(xì)信息可以在補(bǔ)充材料中查看。

結(jié)果下表5展示了兩種文本編輯方法的比較分析，這兩種方法均采用RoBERTa，重點(diǎn)關(guān)注在結(jié)構(gòu)保留和情感正確性方面的有效性。我們的方法在這兩個(gè)指標(biāo)上顯著優(yōu)于mask生成。這一差異突顯了我們反演方法在潛在空間中編碼原始文本結(jié)構(gòu)的卓越能力，以及更準(zhǔn)確地調(diào)整情感的靈活性。

靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！-AI.x社區(qū)

前面表6展示了初始提示和編輯結(jié)果。本文的方法在保留負(fù)向提示的句子結(jié)構(gòu)的同時(shí)，將其情感修改為更積極的情感。

結(jié)論

DICE（可控編輯的離散反演），一種用于離散擴(kuò)散模型的反演算法，包括多項(xiàng)式擴(kuò)散和mask生成模型。通過在逆擴(kuò)散過程中利用記錄的噪聲序列和mask模式，DICE實(shí)現(xiàn)了對(duì)離散數(shù)據(jù)的準(zhǔn)確重構(gòu)和靈活編輯，而無需預(yù)定義的mask或交叉注意力操作。在多個(gè)模型和模態(tài)（如圖像和文本）上的實(shí)驗(yàn)展示了DICE在保持?jǐn)?shù)據(jù)保真度的同時(shí)增強(qiáng)編輯能力的有效性。此外，還展示了DICE將RoBERTa這一傳統(tǒng)上專注于數(shù)據(jù)理解的模型轉(zhuǎn)變?yōu)槲谋旧珊途庉嫷纳赡Ｐ偷臐摿ΑＮ覀兿嘈牛珼ICE增強(qiáng)了離散生成模型的能力，為在離散空間中的精細(xì)內(nèi)容操控提供了新的機(jī)會(huì)。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/QDWlWAg4RlvFJla0qJyXBw???

標(biāo)簽

模型

算法

贊

回復(fù)