成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!

發(fā)布于 2025-4-28 09:49
瀏覽
0收藏

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.02828 
項目鏈接:https://peterljq.github.io/project/colan 
Git鏈接:https://github.com/peterljq/Concept-Lancet

亮點直擊

  • 提出CoLan框架一個零樣本即插即用的框架,用于在基于擴散的圖像編輯中解釋和操作稀疏概念表示。該框架可以精確控制概念移植的幅度,實現高質量的圖像編輯。
  • 構建CoLan-150K概念詞典收集了包含多樣化視覺概念的CoLan-150K數據集,并計算對應的概念向量詞典(文本嵌入或評分空間),為后續(xù)概念分解與編輯提供基礎。
  • 基于概念分解的編輯方法在推理階段,將源圖像的隱空間向量分解為視覺概念的線性組合,并利用視覺語言模型(VLM)優(yōu)化過完備詞典的效率問題。通過替換、添加或刪除概念向量,實現靈活的圖像編輯。
  • SOTA性能與即插即用優(yōu)勢CoLan在多種擴散基圖像編輯任務上實現了最先進的性能!

總結速覽

解決的問題

現有的圖像編輯方法在設計編輯方向時面臨挑戰(zhàn):高估編輯強度會損害視覺一致性,而低估則無法完成編輯任務。每個源圖像可能需要不同的編輯強度,而通過反復試驗尋找合適的強度代價高昂。

提出的方案

本文提出了Concept Lancet (CoLan),一個用于擴散基礎圖像編輯的零樣本即插即用框架。CoLan通過在推理時將源輸入在隱空間中分解為視覺概念的稀疏線性組合,以指導編輯任務(替換/添加/刪除),并執(zhí)行定制的概念移植過程來施加相應的編輯方向。

應用的技術

  • 概念表示數據集:收集了一個名為CoLan-150K的概念表示數據集,包含多種視覺概念的描述,并計算出一個概念向量詞典到隱空間。
  • 隱空間分解:在推理時,將源隱空間向量分解為視覺概念的線性組合,以指導編輯。
  • 視覺語言模型(VLM):使用VLM將圖像提示對解析為代表性視覺概念列表,以提高詞典優(yōu)化效率。
  • 骨干網絡合成:使用骨干網絡合成編輯后的圖像,靈活地處理替換、添加或刪除概念的任務。

達到的效果

配備CoLan的圖像編輯方法在多種基于擴散的圖像編輯基準上表現優(yōu)越,達到了最先進的編輯效果和一致性保持。該方法的即插即用設計提供了骨干網絡和隱空間選擇上的靈活性。

Concept Lancet

在上述背景下,提出一種基于擴散的圖像編輯中準確表示操控的方法。高層次的想法是,我們將不再隨意設定編輯的量,而是估計源圖像中存在的概念是什么以及有多少,以指導編輯。這是通過在隱空間中收集概念向量字典,并將源隱空間向量分解為字典原子的線性組合來實現,以允許概念移植程序,我們將在下文中分別討論這些程序。

概念字典合成

這里的主要目標是收集一組多樣化的概念(以及隱空間中的相應概念向量),這些概念既在視覺上有意義又與圖像編輯相關,使得源隱空間向量的分解能夠捕獲重要的視覺元素并允許潛在的修改以進行有效編輯。這自然歸結為兩個步驟:為刺激合成策劃視覺概念和從刺激中提取概念向量。我們在下面描述我們的方法,并與文獻中的替代方案進行比較。


策劃視覺概念 

構建特定領域的概念被廣泛采用來評估和控制生成基礎模型 [23, 24, 26, 29, 63, 64]。為了對給定概念的豐富語義進行建模,一種新興的工作收集文本概念刺激(即一組示例、描述和場景)用于下游LLM或擴散編輯任務 [33, 40, 57, 72]。在將這些概念應用于圖像編輯時有三個問題:

  • 許多用于編輯LLM的概念 [33, 72],例如“誠實”或“困難”,并不適合擴散模型中的圖像編輯。現有的概念刺激通常是專門為LLM激活讀取而設計的格式(例如,以第二人稱代詞開頭)。
  • 這些概念主要集中在單詞描述符(例如“愛”、“友誼”),而不是有助于建模視覺空間的多詞短語(例如“戴著太陽鏡”或“由木頭制成”)。
  • 現有的用于圖像編輯的概念集合開放源代碼的概念向量數量有限(例如,[40]中的少于20個,[32, 41]中的少于50個)。

為了解決這些問題,我們策劃了一套與圖像編輯任務相關的全面視覺概念。具體來說,對于每個編輯任務,包括源圖像、源提示和編輯提示,我們使用VLM [37]解析圖像提示元組并生成相關視覺概念列表。此步驟確保我們的概念既有視覺基礎又與編輯相關。


然后,我們指導一個LLM [38]進行上下文內刺激合成演示,以生成每個概念的多樣刺激,以捕獲概念出現的各種上下文。說明在附錄中展示。經過所有編輯任務的概念收集后,我們獲得了5,078個概念和總計152,971個概念刺激,我們稱之為CoLan-150K。下圖4展示了我們數據集中概念刺激的樣本。與現有的基于擴散的編輯概念表示集合相比,CoLan-150K代表了顯著的擴展,為每個概念提供了更豐富和多樣化的表示。通過對概念的各種觀察進行采樣,大量的刺激幫助準確估計出在上下文變化中具有魯棒性的表示。

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

通過稀疏分解進行概念移植

現在已經獲得了一個概念字典,接著描述如何沿字典分解圖像的隱空間code并移植概念。

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

概念分析 給定一個源隱空間向量v(來自文本編碼器或評分函數),通過稀疏編碼沿著  中的方向對其進行分解。也就是說,我們解決以下優(yōu)化問題:

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

實驗結果

定量評估

使用PIE-Bench對CoLan與當前方法進行標準化定量評估。其編輯任務基于廣泛的圖像來源集合(例如,TEdBench,TI2I基準),包括多種場景類型和編輯類別。

基線 

比較兩類基于概念轉移方法的編輯骨干: (1) 注意力圖的機械交換,包括P2P和MasaCtrl,以及(2)表示操作,使我們能夠在InfEdit的擴散評分空間(S)和InfEdit及P2P-Zero的文本嵌入空間(E)中插入CoLan。我們涵蓋多種逆轉方法,如DDIM,直接逆轉(DI),和虛擬逆轉(VI)。進一步的實施細節(jié)可以在附錄中找到。

指標 

兩個主要標準是一致性保留和編輯效果。一致性保留是一組指標,旨在評估在圖像編輯過程中保留的語義信息量。我們報告結構距離(StruDist),PSNR,LPIPS,和SSIM。另一方面,編輯效果衡量編輯部分的正確性,它通過兩個指標進行評估:目標圖像指標計算編輯文本和編輯圖像之間的CLIP相似度,而目標概念指標計算編輯文本和目標圖像的編輯遮罩區(qū)域之間的CLIP相似度。

結果 

下表1報告了我們的結果。所有配備CoLan的骨干都提高了編輯效果,這表明CoLan準確地編輯圖像以達到所需的目標概念。此外,我們觀察到配備CoLan的骨干在一致性保留方面表現更好。例如,在P2P-Zero骨干上,CoLan能夠實現近50%更低的StruDist和LPIPS,以及約10%更高的PSNR和SSIM。雖然DI與P2P實現了最佳的StruDist,CoLan在StruDist上排名非常接近第二,并在所有其他一致性指標上總體上實現了更好的性能。我們認為StruDist計算兩個圖像的DINO-V2特征圖之間的平均差異。因此,這個單一指標在很大程度上依賴于特定的變壓器,全面檢查四個指標是更公平的一致性評估方式。值得注意的是,InfEdit在評分空間中配備CoLan在多個指標上表現最為突出。

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

此外,下表2顯示了使用InfEdit和P2P-Zero骨干的CLIP空間進行CoLan稀疏分解的平均時間。觀察到,由于VLM幫助使字典簡潔,分解僅占總編輯時間的一小部分。這表明CoLan在相對于擴散模型推理的總計算成本方面是高效且廉價的。此外,下表3比較了不同字典大小下CoLan的編輯性能。如預期,觀察到較大的CoLan字典在捕捉源圖像中現有概念的存在方面表現更好,從而導致更強的編輯性能。總體而言,定量實驗表明,CoLan的概念移植過程受益于存在于CLIP空間和擴散評分空間中的適當準確且稀疏的概念表示,以獲得更好的圖像編輯性能。

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

定性觀察

本節(jié)提供編輯圖像的定性結果。比較了使用給定骨干編輯的圖像與補充了CoLan的圖像之間的視覺質量。

視覺比較

每個目標圖像可以分為兩個部分:i) 感興趣區(qū)域,對應于源概念,應該進行編輯以表達目標概念;ii) 背景,其內容在編輯過程中應保持不變。在這里,定性分析使用CoLan進行圖像編輯時的這兩個方面。


理想情況下,提供的編輯應準確反映在感興趣區(qū)域。觀察到僅使用骨干進行編輯通常會導致過度或不足的編輯。例如,在從[spaceship]修改為[eagle]的任務中(如圖7,說明:“穿著裙子站在[spaceship]前面的女人”),僅使用InfEdit骨干得到的編輯圖像中,感興趣區(qū)域僅類似于模糊的鳥,而插入CoLan后明顯可見鷹。此外,在下圖5中,例子說明為“一只[meerkat]幼崽包裹在藍色毛巾中。”在源圖像中,藍色毛巾包裹著狐獴。僅使用P2P-Zero骨干,輸出圖像中缺少毛巾,而插入CoLan后的輸出圖像中,藍色毛巾幾乎與源圖像中的位置相同。

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

如所見,對于感興趣區(qū)域和背景,編輯后的圖像質量更高,當骨干方法與CoLan一起運行時。我們推測這是可能的,因為CoLan通過稀疏分解尊重概念向量的幾何形狀。通過識別正確的系數,我們的概念移植是精確的,并且不會顯著影響非目標語義。

表示分解

方法的關鍵步驟之一是將隱空間表示(來自編輯骨干)線性分解為字典原子的稀疏組合。我們后續(xù)編輯任務的成功取決于找到一組合適的概念系數,這些系數能夠準確反映源圖像中的語義。這里我們驗證CoLan確實找到了并分析了對給定圖像可見貢獻的代表性概念。


下圖6和圖8展示了CoLan在CLIP空間和分數空間中解決的概念系數的幅度直方圖。在分數空間中的分解(圖8),以左側說明為“站在樹枝上的彩色鳥”為例。CoLan找到了圖像中的前三個概念,包括“鳥”、“喙”和“詳細羽毛”,這些都是與提供的圖像中的鳥相關的概念。類似地,取圖6中的第二個圖像說明為“坐在柵欄上的橙色貓”。直方圖中的頂級概念是關鍵語義,包括“貓”、“柵欄”和“橙色”。總體而言,在這兩個空間中,CoLan能夠找到描述性概念并解決系數以準確反映語義的組成。

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

CoLan-150K中的表示分析

本節(jié)研究從CoLan-150K數據集中不同概念刺激獲得的概念向量。我們在下文中評估概念向量的基礎和編輯圖像中概念的變異性。

概念基礎

當提取的概念向量在編輯骨干中有效地施加對應的視覺語義時,該向量就是有基礎的。例如,如果我們使用表示讀取[33, 40, 57, 72]將刺激轉換為[green]概念向量,那么在圖像編輯骨干中添加此向量時,希望看到顏色“綠色”。


通過以下方式驗證我們的概念向量是有基礎的。對于給定的概念[x],從CoLan-150K中提取其概念向量。然后通過在每個源圖像的骨干中添加概念向量生成編輯后的圖像。最后,評估CLIP(源圖像, “x”)和CLIP(編輯圖像, “x”)之間的差異。如果給定的概念向量確實是有基礎的,希望看到該指標的增加。在表4中,我們對三個概念方向[watercolor]、[dog]、[wearing hat]進行采樣,并將P2P-Zero與CoLan一起應用于PIE-Bench中的每個源圖像。

我們進一步根據四種圖像類型:人工、自然、室內和室外劃分結果。在所有圖像類型和我們給定的概念中,我們觀察到CLIP相似性顯著增加,這意味著編輯后的圖像確實朝向所需的概念方向,并且概念向量是有基礎的。更多概念和可視化的結果可以在附錄中找到。

比較編輯強度

如我們在上文中所述,適當的圖像編輯需要根據給定源圖像中概念的存在來準確估計編輯強度。沿著所需編輯方向[7, 10, 41, 47]可視化源圖像的漸進變化,為估計編輯強度提供了見解。在這里,比較了來自CoLan-150K數據集的概念向量與系數網格的編輯效果。下圖9和圖10分別在兩個場景中進行實驗:概念移除和概念添加。

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

外科手術式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!-AI.x社區(qū)

結論

本文提出了Concept Lancet (CoLan),一個用于擴散式圖像編輯中原則性表示操作的零樣本即插即用框架。通過利用一個大規(guī)模的概念表示精心策劃的數據集 (CoLan-150K),為編輯任務提取了一個上下文詞典,并在隱空間中執(zhí)行稀疏分解以準確估計概念移植的幅度。

與CoLan結合的圖像編輯骨架在編輯任務中實現了最先進的性能,同時更好地保持了視覺一致性。通過多個視角的廣泛定量和定性評估,展示了CoLan在解釋和改善圖像編輯過程中的強大能力。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/SJjix2_XCvLz980zrjTT_g??

已于2025-4-28 09:51:24修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲精品乱码久久久久v最新版 | 在线观看国产精品一区二区 | 欧美日韩视频在线第一区 | 中文字幕亚洲精品 | 狠狠操天天操 | 国产美女黄色片 | 成人在线视频一区二区三区 | 国产精品一区在线观看 | 在线视频91 | 午夜免费福利电影 | 日本一二三区在线观看 | 欧美在线看片 | 96av麻豆蜜桃一区二区 | 天天干视频 | 亚洲综合无码一区二区 | 精品国产乱码久久久久久蜜臀 | 亚洲人成人一区二区在线观看 | 一级片在线视频 | 欧美日韩高清免费 | 中文字幕在线第二页 | 一区二区三区观看视频 | 精品www| 国产精品成人一区二区三区夜夜夜 | 妹子干综合 | 精品一区在线免费观看 | 精品99在线 | 九九视频在线观看视频6 | www.4虎影院| 黄色网址在线免费观看 | 免费一区二区 | 青青久久av北条麻妃海外网 | 国产精品揄拍一区二区 | 国产精品亚洲二区 | 欧美亚洲国产一区二区三区 | 二区成人 | 国产精品日日摸夜夜添夜夜av | 欧美在线一区二区三区 | 91综合在线观看 | 国产探花在线精品一区二区 | 亚洲精品一二三区 | 欧美国产日韩精品 |