成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

最新綜述!擴散模型與圖像編輯的愛恨情仇

人工智能 新聞
作者從學習策略、輸入條件等多個角度對相關成果進行分類,并展開了深入分析。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

針對圖像編輯中的擴散模型,中科院聯合Adobe和蘋果公司的研究人員發布了一篇重磅綜述。

全文長達26頁,共1.5萬余詞,涵蓋297篇文獻,全面研究了圖像編輯的各種前沿方法。

同時,作者還提出了全新的benchmark,為研究者提供了便捷的學習參考工具。

在這份綜述中,作者從理論和實踐層面,詳盡總結了使用擴散模型進行圖像編輯的現有方法。

作者從學習策略、輸入條件等多個角度對相關成果進行分類,并展開了深入分析。

為了進一步評估模型性能,作者還提出了一個測評基準,并展望了未來研究的一些潛在方向。

圖片

△基于擴散模型的圖像編輯成果速覽

下面,作者將從任務分類、實現方式、測試基準和未來展望四個方面介紹基于擴散模型的圖像編輯成果。

圖像編輯的分類

除了在圖像生成、恢復和增強方面取得的重大進步外,擴散模型在圖像編輯方面也實現了顯著突破,相比之前占主導地位的生成對抗網絡(GANs),前者具有更強的可控性。

不同于“從零開始”的圖像生成,以及旨在修復模糊圖像、提高質量的圖像恢復和增強,圖像編輯涉及對現有圖像外觀、結構或內容的修改,包括添加對象、替換背景和改變紋理等任務。

在這項調查中,作者根據學習策略將圖像編輯論文分為三個主要組別:基于訓練的方法、測試時微調方法和無需訓練和微調的方法。

此外,作者還探討了控制編輯過程使用的10種輸入條件,包括文本、掩碼、參考圖像、類別、布局、姿勢、草圖、分割圖、音頻和拖動點。

進一步地,作者調查了這些方法可以完成的12種最常見的編輯類型,它們被組織成以下三個廣泛的類別:

  • 語義編輯:此類別包括對圖像內容和敘述的更改,影響所描繪場景的故事、背景或主題元素。這一類別內的任務包括對象添加、對象移除、對象替換、背景更改和情感表達修改。
  • 風格編輯:此類別側重于增強或轉換圖像的視覺風格和審美元素,而不改變其敘述內容。這一類別內的任務包括顏色更改、紋理更改和整體風格更改,涵蓋藝術性和現實性風格。
  • 結構編輯:此類別涉及圖像內元素的空間布局、定位、視角和特征的變化,強調場景內對象的組織和展示。這一類別內的任務包括對象移動、對象大小和形狀更改、對象動作和姿勢更改以及視角/視點更改。

圖像編輯的實現方式

基于訓練的方法

在基于擴散模型的圖像編輯領域,基于訓練的方法已經獲得了顯著的突出地位。

這些方法不僅因其穩定的擴散模型訓練和有效的數據分布建模而著名,而且在各種編輯任務中表現可靠。

為了徹底分析這些方法,作者根據它們的應用范圍、訓練所需條件和監督類型將它們分類為四個主要組別。

根據核心編輯方法,這些主要組別中的方法又可以細分為不同的類型。

圖片

下圖展示了兩種有代表性的CLIP指導方法——DiffusionCLIP和Asyrp的框架圖。

圖片

△樣本圖像來自CelebA數據集上的Asyrp

下面的圖片,展示的是指令圖像編輯方法的通用框架。

圖片

△示例圖像來自InstructPix2Pix、InstructAny2Pix和MagicBrush。

測試時微調的方法

在圖像生成和編輯中,還會采用微調策略來增強圖像編輯能力,測試時微調帶來了精確性和可控制性的重要提升。

如下圖所示,微調方法的既包括微調整個去噪模型,也包括專注于特定層或嵌入。

此外,作者還討論了超網絡的集成和直接圖像表示優化

圖片

下圖展示了使用不同微調組件的微調框架。

圖片

△樣本圖像來自Custom-Edit

免訓練和微調方法

在圖像編輯領域,無需訓練和微調的方法起點是它們快速且成本低,因為在整個編輯過程中不需要任何形式的訓練(在數據集上)或微調(在源圖像上)。

根據它們修改的內容,可以分為五個類別,這些方法巧妙地利用擴散模型內在的原則來實現編輯目標。

圖片

下圖是免訓練方法的通用框架。

圖片

△樣本圖片來自LEDITS++

圖像inpainting(補全)和outpainting(外擴)

圖像補全和外擴通常被視為圖像編輯的子任務,可以分為兩大類型——上下文驅動的補全(上排)與多模態條件補全(下排)。

△樣本分別來自于Palette和Imagen Editor

全新測試基準

除了分析各種方法的實現原理,評估這些方法在不同編輯任務中的能力也至關重要,但現有的圖像編輯測試標準存在局限。

例如,EditBench主要針對文本和掩碼引導的補全,但忽略了涉及全局編輯的任務(如風格轉換);TedBench雖然擴展了任務范圍,但缺乏詳細指導;EditVal試圖提供更全面的任務和方法覆蓋范圍,但圖像通常分辨率低且模糊……

為了解決這些問題,作者提出了EditEval基準,包括一個50張高質量圖像的數據集,且每張圖像都附有文本提示,可以評估模型在7個常見編輯任務的性能。

這7種任務包括物體添加/移除/替換,以及背景、風格和姿勢、動作的改變。

此外,作者還提出了LMM分數,利用多模態大模型(LMMs)評估不同任務上的編輯性能,并進行了真人用戶研究以納入主觀評估。

△LMM Score與用戶研究的皮爾遜相關系數

下圖比較了LMM Score/CLIPScore與用戶研究的皮爾遜相關系數。

圖片

挑戰和未來方向

作者認為,盡管在使用擴散模型進行圖像編輯方面取得了成功,但仍有一些不足需要在未來的工作中加以解決。

減少模型推理步驟

大多數基于擴散的模型在推理過程中需要大量的步驟來獲取最終圖像,這既耗時又耗費計算資源,給模型部署和用戶體驗帶來挑戰。

為了提高推理效率,已經由團隊研究了少步驟或一步生成的擴散模型。

近期的方法通過從預訓練的強擴散模型中提取知識來減少步驟數,以便少步驟模型能夠模仿強模型的行為。

一個更具挑戰性的方向是直接開發少步驟模型,而不依賴于預訓練的模型(例如一致性模型)。

提高模型效率

訓練一個能夠生成逼真結果的擴散模型在計算上是密集的,需要大量的高質量數據。

這種復雜性使得開發用于圖像編輯的擴散模型非常具有挑戰性。

為了降低訓練成本,近期的工作設計了更高效的網絡架構作為擴散模型的骨干。

此外,另一個重要方向是只訓練部分參數,或者凍結原始參數并在預訓練的擴散模型之上添加一些新層。

復雜對象結構編輯

現有的工作可以在編輯圖像時合成逼真的顏色、風格或紋理,但處理復雜結構時仍然會產生明顯的修改痕跡,例如手指、標志和文字。

研究者已經在嘗試解決這些問題,常用的策略是把“六個手指”等常見問題作為負面提示,以使模型避免生成此類圖像,這在某些情況下是有效的,但不夠穩健。

近期的工作中,已有團隊開始使用布局、邊緣或密集標簽作為指導,編輯圖像的全局或局部結構。

復雜的光照和陰影編輯

編輯對象的光照或陰影仍然是一個挑戰,因為這需要準確估計場景中的光照條件。

以前的工作(如Total Relighting)使用網絡組合來估計前景對象的法線、反照率和陰影,以獲得逼真的重新照明效果。

最近,也由有團隊提出將擴散模型用于編輯面部的光照,ShadowDiffusion也探索了基于擴散模型的陰影合成,可以生成合理的對象陰影。

然而,使用擴散模型在不同背景條件下準確編輯對象的陰影仍然是一個未解決的問題。

圖像編輯模型的泛化性

現有基于擴散的圖像編輯模型能夠為給定的一部分條件合成逼真的視覺內容,但在許多現實世界場景中仍然會失敗。

這個問題的根本原因在于,模型無法準確地對所有可能的樣本在條件分布空間中進行建模。

如何改進模型以始終生成無瑕疵的內容仍然是一個挑戰,解決這個問題有以下幾種思路:

首先是擴大訓練數據規模,以覆蓋具有挑戰性的場景,這種方式效果顯著,但成本較高,如在醫學圖像、視覺檢測等領域數據難以收集。

第二種方法是調整模型以接受更多條件,如結構引導、3D感知引導和文本引導,以實現更可控和確定性的內容創作。

此外,還可以采用迭代細化或多階段訓練的方式,以逐步改進模型的初始結果。

可靠的評估指標

對圖像編輯進行準確評估,對于確保編輯內容與給定條件的對齊至關重要。

盡管有如FID、KID、LPIPS、CLIP得分、PSNR和SSIM等定量指標,但大多數現有評估工作仍然嚴重依賴于用戶研究,這既不高效也不可擴展。

可靠的定量評估指標仍然是一個待解決的問題。最近,已經有團隊提出了更準確的指標來量化對象的感知相似性。

DreamSim測量了兩幅圖像的中等級別相似性,考慮了布局、姿態和語義內容,并且優于LPIPS。

類似的,前景特征平均(FFA)也是一種簡單而有效的方法,可被用于測量對象的相似性。

另外,作者在本文中提出了的LMM score,也是一種有效的圖像編輯度量。

更多有關用于圖像編輯的擴散模型的詳細信息,可以閱讀原作,同時作者也在GitHub上發布了附帶資源庫。

論文鏈接:https://arxiv.org/abs/2402.17525

Github:https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2024-06-07 00:09:50

2020-11-24 10:13:20

測試開發管理

2024-07-01 10:19:22

2022-05-13 09:47:28

Docker容器

2024-03-07 14:55:18

模型論文

2022-09-02 12:13:22

TCPUDP場景

2025-01-03 09:39:04

2024-06-28 18:18:22

2025-01-17 10:30:00

2013-02-20 10:00:16

微軟CodePlexGitHub

2020-04-09 15:26:55

間諜軟件NSOFacebook

2025-02-05 09:30:00

圖像模型生成

2019-04-03 15:00:47

Python圖像編輯工具

2025-03-31 08:46:00

圖像AI生成

2021-04-12 06:08:16

HiveSpark大數據

2019-05-15 15:10:12

Tomcat Session Cookie

2023-01-02 13:12:07

模型圖像

2015-11-05 09:55:40

SDNNFV

2020-05-27 14:07:21

蜂窩廣域網局域物聯網物聯網

2020-08-22 07:46:58

Photoflare開源圖像編輯器
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国内精品视频一区二区三区 | 一级片在线视频 | 国产一级在线观看 | 成人h视频 | 夜夜爽99久久国产综合精品女不卡 | 一区二区三区影院 | 性福视频在线观看 | 国产精品一级 | 一级毛片观看 | 狠狠热视频 | 高清国产午夜精品久久久久久 | 日韩av一区二区在线 | 尤物视频在线免费观看 | 国产一区二区三区在线免费 | 国产精品一区二区无线 | 三级高清| 一二三区在线 | 亚洲美女网站 | 99久久久99久久国产片鸭王 | 欧美一区二区在线观看 | 日韩一区二区三区视频在线播放 | 欧美色人 | 精品久久久久久久久久 | 免费h在线| 午夜一级黄色片 | 在线看无码的免费网站 | 国产999精品久久久久久 | 国产精品资源在线 | 亚洲一区视频在线播放 | 亚洲日本乱码在线观看 | 亚洲精选一区二区 | 99re6热在线精品视频播放 | 高清黄色毛片 | 在线观看中文字幕一区二区 | 久久国产精品久久久久久 | 精国产品一区二区三区四季综 | 91操操操| 99精品国产一区二区青青牛奶 | a级毛片毛片免费观看久潮喷 | 高清黄色| 欧美精品一区二区三区在线播放 |