成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)

發(fā)布于 2024-10-28 15:15
瀏覽
0收藏

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2405.16785
項(xiàng)目鏈接:https://www.yongshengyu.com/PromptFix-Page

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

亮點(diǎn)直擊

  • 提出了一個(gè)為七個(gè)圖像處理任務(wù)量身定制的綜合數(shù)據(jù)集。該數(shù)據(jù)集包含約101萬(wàn)對(duì)多樣化的輸入-輸出圖像及其相應(yīng)的圖像編輯指令。
  • 提出了一種全新的指令引導(dǎo)擴(kuò)散模型——PromptFix,用于低級(jí)圖像處理任務(wù)。大量實(shí)驗(yàn)結(jié)果表明,PromptFix在各種圖像處理任務(wù)中表現(xiàn)優(yōu)于現(xiàn)有方法,并在零樣本盲修復(fù)和組合任務(wù)中展現(xiàn)出更強(qiáng)的能力。
  • 為擴(kuò)散模型引入了兩種方法——高頻引導(dǎo)采樣和輔助提示模塊,能夠有效解決指令引導(dǎo)擴(kuò)散模型在低級(jí)任務(wù)中高頻信息丟失以及處理嚴(yán)重圖像退化問(wèn)題的不足。

總結(jié)速覽

解決的問(wèn)題:現(xiàn)有擴(kuò)散模型在處理自定義用戶指令時(shí)缺乏多樣化數(shù)據(jù),尤其是在低級(jí)任務(wù)中表現(xiàn)不足。此外,擴(kuò)散過(guò)程的隨機(jī)性導(dǎo)致難以保留生成圖像的細(xì)節(jié)。


提出的方案 提出了PromptFix框架,通過(guò)構(gòu)建大規(guī)模指令跟隨數(shù)據(jù)集、引入高頻引導(dǎo)采樣方法以及設(shè)計(jì)輔助提示適配器來(lái)增強(qiáng)模型的指令執(zhí)行能力。


應(yīng)用的技術(shù):使用高頻引導(dǎo)采樣控制去噪過(guò)程,保持未處理區(qū)域的高頻細(xì)節(jié);利用視覺(jué)-語(yǔ)言模型(VLMs)加強(qiáng)文本提示,提高任務(wù)泛化能力。


達(dá)到的效果:PromptFix在多種圖像處理任務(wù)中表現(xiàn)優(yōu)于現(xiàn)有方法,并在零樣本盲修復(fù)和組合任務(wù)中展現(xiàn)出更強(qiáng)的能力,同時(shí)保持了與基準(zhǔn)模型相當(dāng)?shù)耐评硇省?/p>

數(shù)據(jù)整理

現(xiàn)有的帶有指令標(biāo)注的圖像數(shù)據(jù)集主要用于促進(jìn)圖像編輯研究,涵蓋了顏色遷移、對(duì)象替換、對(duì)象移除、背景更改和風(fēng)格遷移等任務(wù)。然而,它們與低級(jí)應(yīng)用的重疊有限。此外,現(xiàn)有模型在圖像修復(fù)任務(wù)中的表現(xiàn)難以令人滿意。本文的目標(biāo)是構(gòu)建一個(gè)專門針對(duì)低級(jí)任務(wù)的綜合視覺(jué)指令跟隨數(shù)據(jù)集。獲得了約101萬(wàn)訓(xùn)練三元組實(shí)例。


配對(duì)圖像收集。最初從多個(gè)現(xiàn)有數(shù)據(jù)集中收集源圖像,隨后生成退化和修復(fù)后的圖像,以創(chuàng)建大量的配對(duì)圖像數(shù)據(jù)集。共收集了大約兩百萬(wàn)個(gè)原始數(shù)據(jù)點(diǎn),涵蓋八個(gè)任務(wù):圖像修復(fù)、對(duì)象創(chuàng)建、圖像去霧、圖像上色、超分辨率、低光增強(qiáng)、雪去除和水印去除。對(duì)于測(cè)試集,為每個(gè)任務(wù)隨機(jī)選擇了300對(duì)圖像。

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

方法

設(shè)  表示退化的輸入圖像。PromptFix 模型旨在通過(guò)提示  和擴(kuò)散模型  來(lái)增強(qiáng)圖像 。

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

由于 SDE 的顯著特性,后向擴(kuò)散過(guò)程通過(guò) Fokker-Planck 動(dòng)力學(xué)重新表述,以產(chǎn)生具有一致概率密度的確定性轉(zhuǎn)移,從而形成概率流常微分方程(ODE):

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

基于 VLM 的輔助提示模塊

考慮到低級(jí)圖像處理專注于處理退化圖像而非真實(shí)世界圖像 ,采用集成 VLM 來(lái)為低級(jí)圖像I估計(jì)輔助提示。該輔助提示包含語(yǔ)義標(biāo)題和缺陷描述,以增強(qiáng)目標(biāo)圖像的語(yǔ)義清晰度,從而解決低級(jí)圖像處理任務(wù)中固有的指令差距。

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

高頻引導(dǎo)采樣

在圖像恢復(fù)和生成任務(wù)中有一個(gè)基本要求:處理后的圖像必須在語(yǔ)義上保持高準(zhǔn)確性。觀察到,普通的 VAE 重構(gòu)往往會(huì)丟失圖像細(xì)節(jié),例如文本渲染,這包含高頻信息,如下圖 5 所示。因此,提出高頻引導(dǎo)采樣,以平衡生成的質(zhì)量和保真度。

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

基準(zhǔn)和指標(biāo)。采用基于指令的一般模型,例如 InstructP2P、MGIE 和 InstructDiffusion 作為主要比較。MGIE 使用 VLM 引導(dǎo)的技術(shù)進(jìn)行圖像編輯,而 InstructDiffusion 處理與訓(xùn)練目標(biāo)重疊的任務(wù),包括水印去除和修補(bǔ)。此外,還評(píng)估了不支持指令輸入的全能圖像修復(fù)方法,如 AirNet 和 PromptIR,以及專門為特定子任務(wù)微調(diào)的圖像修復(fù)專家模型。使用 PSNR、SSIM 和 LPIPS 等指標(biāo)評(píng)估生成圖像與真實(shí)圖像的相似性。對(duì)于無(wú)參考圖像質(zhì)量評(píng)估,利用 ManIQA 指標(biāo)。

定量和定性結(jié)果

下表 1 展示了通過(guò) LPIPS 和 ManIQA 指標(biāo)評(píng)估的圖像修復(fù)和編輯技術(shù)的比較分析。專家模型 Diff-Plugin 在低光增強(qiáng) (LPIPS/ManIQA: 0.227/0.453) 和去雪 (0.133/0.508) 中表現(xiàn)有限但顯著。一般方法中,AirNet 在去雪和去霧等任務(wù)中展現(xiàn)出平衡能力,LPIPS/ManIQA 得分分別為 0.245/0.589 和 0.039/0.780。然而,基于指令的擴(kuò)散方法揭示了更細(xì)致的圖景,PromptFix 顯得特別有希望。在著色任務(wù)中,它表現(xiàn)優(yōu)異 (LPIPS/ManIQA: 0.233/0.489),在對(duì)象去除 (0.054/0.810) 和水印去除 (0.071/0.811) 中持續(xù)超越其他方法。InstructP2P 和 InstructDiff 在低光增強(qiáng)和去霧等特定任務(wù)中表現(xiàn)良好,但在整體多功能性上無(wú)法與 PromptFix 匹敵。盡管 MGIE 在某些領(lǐng)域有效,但缺乏 "PromptFix (Ours)" 所展現(xiàn)的一致性。這突顯了 PromptFix 在多種圖像處理任務(wù)中的魯棒性和卓越表現(xiàn),并表明 PromptFix 具有在該領(lǐng)域設(shè)定新基準(zhǔn)的潛力,得益于先進(jìn)的基于指令的擴(kuò)散方法。

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

下圖 3 展示了所有選擇的基線模型之間的視覺(jué)比較。在著色任務(wù)中,PromptFix 生成的結(jié)果最具視覺(jué)準(zhǔn)確性和生動(dòng)性,與真實(shí)圖像非常接近。在水印去除任務(wù)中,它有效地恢復(fù)了原始圖像,而未引入偽影,超越了 MGIE 和其他方法。在去雪和低光增強(qiáng)中,PromptFix 實(shí)現(xiàn)了更清晰、更自然的輸出,顯著減少了噪聲并增強(qiáng)了可見(jiàn)性。此外,在超分辨率方面,PromptFix 展現(xiàn)出卓越的清晰度和準(zhǔn)確性,保留了細(xì)節(jié),超越了所有比較方法。在去霧方面,盡管 PromptFix 的性能在視覺(jué)上與圖像修復(fù)專家 PromptIR 和 AirNet 相當(dāng),但 PromptFix 超越了最近的基于Stable Diffusion的方法 Diff-Plugin,呈現(xiàn)出干凈、清晰的外觀,且與真實(shí)圖像高度匹配。

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

消融研究

高頻引導(dǎo)采樣的有效性。引入高頻引導(dǎo)采樣(HGS)方法以平衡保真度和質(zhì)量。為了驗(yàn)證 HGS 的有效性,我們進(jìn)行了定性和定量實(shí)驗(yàn)。如下圖 5 所示,在低光場(chǎng)景中,模型旨在增強(qiáng)輸入圖像的可見(jiàn)性(質(zhì)量),同時(shí)保留其原始文本細(xì)節(jié)(保真度)。對(duì)于利用Stable Diffusion作為生成先驗(yàn)的基線方法,變分自編碼器(VAE)強(qiáng)大的壓縮能力也帶來(lái)了空間信息損失的問(wèn)題,如圖 5 中的 InstructDiff、MGIE 和 Diff-Plugin 所示。這個(gè)問(wèn)題與模型有效遵循指令的能力無(wú)關(guān)。通過(guò)變體 “Ours w/o HGS” 可以看出,我們的方法在增強(qiáng)低光圖像方面顯著優(yōu)于三種基線,但仍然無(wú)法保留小規(guī)模的文本結(jié)構(gòu)。通過(guò)引入 HGS,如 “Ours” 所示,所提出的框架提供了一個(gè)高保真度的解決方案,同時(shí)滿足低光增強(qiáng)的指令。F(·) 和 S(·) 的使用提高了生成圖像的質(zhì)量,這在下表 4 中的定量結(jié)果得到了驗(yàn)證。

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

VLM 指導(dǎo)的盲修復(fù)。利用 LLaVA 生成輔助提示,并將指令提示留空。這種方法使得用戶可以輸入圖像,而無(wú)需提供修復(fù)指令。評(píng)估了模型在這種盲修復(fù)任務(wù)上的表現(xiàn),包括低光增強(qiáng)、去雪和去霧。如下表 3 所示,我們的模型在性能上與四個(gè)基線模型相當(dāng),與真實(shí)圖像的感知差異最小,且具有更優(yōu)越的zero-shot 能力。

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

多任務(wù)處理

盡管PromptFix并未經(jīng)過(guò)專門訓(xùn)練以同時(shí)處理同一圖像中的多個(gè)低級(jí)任務(wù),但它展現(xiàn)出了多任務(wù)處理的能力。我們構(gòu)建了一個(gè)包含200張圖像的驗(yàn)證數(shù)據(jù)集,每張圖像包含3個(gè)恢復(fù)任務(wù),如上色、水印去除、低光增強(qiáng)、去雪、去霧和超分辨率。我們將PromptFix與AirNet和PromptIR這兩種通用圖像恢復(fù)方法,以及以指令驅(qū)動(dòng)的擴(kuò)散方法InstructP2P和InstructDiff進(jìn)行了基準(zhǔn)測(cè)試。如下表2所示,PromptFix的表現(xiàn)超越了這些基線,達(dá)到了更優(yōu)的圖像質(zhì)量、結(jié)構(gòu)相似性,并且與真實(shí)圖像的感知差異最小,體現(xiàn)在競(jìng)爭(zhēng)力的PSNR、SSIM和LPIPS得分上,同時(shí)更高的ManIQA得分也表明其結(jié)果在視覺(jué)上令人愉悅且質(zhì)量高。相反,雖然像InstructP2P和InstructDiff的方法在特定指標(biāo)上表現(xiàn)良好,但它們未能匹配PromptFix的整體平衡性能。這些結(jié)果表明了PromptFix的魯棒性和多樣性。

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

不同類型的指令提示

通過(guò)與三種類型的提示進(jìn)行消融比較來(lái)驗(yàn)證PromptFix對(duì)各種人類指令的泛化能力,如下表5所示:訓(xùn)練期間使用的指令,以及少于20個(gè)單詞和40-70個(gè)單詞的訓(xùn)練外人類指令。PromptFix在訓(xùn)練外指令下的性能略有下降,但變化可以忽略不計(jì)。這表明PromptFix對(duì)少于20個(gè)單詞的指令具有魯棒性,這通常對(duì)于低級(jí)處理任務(wù)來(lái)說(shuō)是足夠的。我們觀察到在較長(zhǎng)指令下的性能下降,可能是由于訓(xùn)練數(shù)據(jù)中指令長(zhǎng)度的長(zhǎng)尾效應(yīng)。盡管低級(jí)處理任務(wù)通常不需要長(zhǎng)指令,但通過(guò)用更長(zhǎng)的指令增強(qiáng)數(shù)據(jù)集來(lái)解決這一問(wèn)題可能是未來(lái)工作的一個(gè)方向。

圖像編輯多任務(wù)一網(wǎng)打盡!PromptFix,新型擴(kuò)散模型&大規(guī)模視覺(jué)指令數(shù)據(jù)集(羅切斯特大學(xué)&微軟)-AI.x社區(qū)

結(jié)論

PromptFix是一種新型的基于擴(kuò)散的模型,以及一個(gè)大規(guī)模的視覺(jué)指令訓(xùn)練數(shù)據(jù)集,旨在促進(jìn)基于指令的低級(jí)圖像處理。PromptFix通過(guò)高頻引導(dǎo)采樣和基于視覺(jué)語(yǔ)言模型(VLM)的輔助提示模塊,有效解決了空間信息丟失和退化適應(yīng)相關(guān)的挑戰(zhàn)。這些機(jī)制提高了模型在基于指令的圖像處理范式中的性能。大量實(shí)驗(yàn)結(jié)果證明了PromptFix在生成準(zhǔn)確且高質(zhì)量圖像方面的先進(jìn)能力。除了在傳統(tǒng)指標(biāo)上的改進(jìn),還觀察到PromptFix在多任務(wù)處理和低光增強(qiáng)、去雪和去霧等盲恢復(fù)任務(wù)中的有效性。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:???https://mp.weixin.qq.com/s/dGVuYKKu10AilIZCq8E6fQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久久精品 | 欧洲精品码一区二区三区免费看 | 久久天天躁狠狠躁夜夜躁2014 | 99久久精品免费看国产四区 | 国产精品三级久久久久久电影 | 欧美理论 | 欧美日韩黄 | 国产亚洲精品久久19p | 韩国av一区二区 | 91久久北条麻妃一区二区三区 | 亚洲精品一二三区 | 亚洲国产成人久久综合一区,久久久国产99 | 亚洲成人国产综合 | 日本人麻豆 | 天堂久久av | 青青草av在线播放 | 欧美精产国品一二三区 | 国产精品久久久久无码av | 中文字幕在线第一页 | 国产午夜精品一区二区三区四区 | 国产免费一级片 | 成人久久久 | 黄色在线免费看 | 欧美一级片久久 | 亚洲国产片 | 国产在线资源 | 国产美女精品 | 国产1区2区3区 | 色伊人久久 | 日韩免费视频一区二区 | 一级片网址 | 国产成人一区二区三区 | 五月婷婷婷 | 成年人在线视频 | 日韩综合| 亚洲视频免费在线观看 | 老司机精品福利视频 | 天天干b | 狠狠热视频 | 99国内精品久久久久久久 | 久久国产精品视频 |