成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等 精華

發布于 2025-4-24 09:51
瀏覽
0收藏

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

文章鏈接:https://arxiv.org/pdf/2504.15009 
開源地址:https://song-wensong.github.io/insert-anything/ 

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

亮點直擊

  • 發布了AnyInsertion數據集,這是一個包含120K提示-圖像對的大規模數據集,涵蓋了廣泛的插入任務,例如人物、物體和服裝插入。
  • 提出了Insert Anything框架,這是一個統一框架,通過單一模型無縫處理多種插入任務(人物、物體和服裝)。
  • 首個利用DiT(Diffusion Transformer)進行圖像插入的研究,充分發揮了其在不同控制模式下的獨特能力。
  • 開發了上下文編輯技術,采用雙聯畫(diptych)和三聯畫(triptych)提示策略,將參考元素無縫整合到目標場景中,同時保持身份特征。

商業廣告和流行文化領域有大應用

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區


只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

總結速覽

解決的問題

  • 任務局限性:現有方法僅針對特定任務(如人物插入、服裝插入),缺乏通用性。
  • 控制模式單一:依賴固定控制方式(僅掩碼或僅文本引導),靈活性不足。
  • 視覺-參考不協調:插入內容與目標場景風格不一致,或丟失參考圖像的細節特征。

提出的方案

  • AnyInsertion 數據集

a.包含 120K 提示-圖像對,覆蓋人物、物體、服裝插入等多樣化任務。

b.支持多控制模式(58K mask-提示對 + 101K 文本-提示對)。

  • 統一框架 Insert Anything

a.掩碼提示雙聯畫(Mask-prompt diptych):左參考圖 + 右掩碼目標圖。

b.文本提示三聯畫(Text-prompt triptych):左參考圖 + 中源圖 + 右文本生成結果。

c.基于 Diffusion Transformer (DiT) 的多模態注意力機制,聯合建模文本、掩碼與圖像關系。

d.上下文編輯機制:將參考圖像作為上下文,通過兩種提示策略實現自適應融合:

應用的技術

  • 擴散Transformer(DiT):利用其多模態注意力機制,支持掩碼和文本雙引導編輯。
  • 上下文學習:通過參考圖像與目標場景的隱式交互,保持特征一致性。
  • 多樣化提示策略:適配不同控制模式,確保插入內容的自然融合。

達到的效果

  • 通用性強:單一模型支持多任務(人物、物體、服裝插入等),無需針對任務單獨訓練。
  • 靈活控制:同時支持掩碼引導和文本引導編輯,滿足多樣化需求。
  • 高質量生成

a.在 AnyInsertion、DreamBooth 和 VTON-HD 基準測試中優于現有方法。

b.保留參考圖像細節特征,同時實現與目標場景的顏色、紋理和諧融合。

  • 應用廣泛:適用于創意內容生成、虛擬試衣、場景合成等實際場景。

AnyInsertion數據集

為了實現多樣化的圖像插入任務,提出了一個新的大規模數據集AnyInsertion。首先與現有數據集進行比較,隨后詳細描述數據集構建過程,最后提供詳細的數據集統計信息。

與現有數據集的比較

現有數據集存在以下局限性:

  • 數據類別有限:FreeEdit數據集主要關注動植物,VITON-HD數據集專攻服裝領域。即使AnyDoor和MimicBrush包含大規模數據,它們也僅涉及極少量的人物插入樣本。
  • 提示類型受限:FreeEdit僅提供文本提示數據,而VITON-HD僅支持掩碼提示數據。
  • 圖像質量不足:AnyDoor和MimicBrush使用了大量視頻數據,這些視頻數據集常存在低分辨率和運動模糊問題。

為解決這些問題,本文構建了AnyInsertion數據集。如下表1所示,與現有數據集[5,11]相比,AnyInsertion涵蓋多樣類別,提供更高分辨率圖像,同時支持掩碼和文本提示,并包含更多樣本。

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

數據構建

數據收集

圖像插入需要成對數據:包含待插入元素的參考圖像,以及插入操作的目標圖像。如下圖2a所示,采用圖像匹配技術創建目標-參考圖像對,并從互聯網來源收集對應標簽,利用大量展示配飾及佩戴者的圖像。對于物體相關數據,我們從MVImgNet中選擇多視角常見物體圖像作為參考-目標對。對于人物插入,我們應用頭部姿態估計從HumanVid數據集中篩選頭部姿態相似但身體姿態不同的高分辨率真實場景視頻幀,并通過模糊檢測過濾過度運動模糊的幀,獲得高質量人物插入數據。

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

數據生成

本文的框架支持兩種控制模式:掩碼提示和文本提示。

  • 掩碼提示編輯:需要掩碼指定目標圖像的插入區域,使用參考圖像元素填充目標圖像的掩碼區域。每個數據樣本表示為元組:(參考圖像,參考掩碼,目標圖像,目標掩碼)。具體使用Grounded-DINO和Segment Anything(SAM)從輸入圖像和標簽生成參考與目標掩碼。
  • 文本提示編輯:需要文本描述參考圖像元素如何插入源圖像以形成目標圖像。每個數據樣本表示為元組:(參考圖像,參考掩碼,目標圖像,源圖像,文本)。源圖像、文本描述和參考掩碼按以下方式生成:

a.源圖像生成:通過對目標圖像應用替換或移除操作生成。替換操作使用類別特定指令模板(如“將[source]替換為[reference]”)和基于文本的編輯模型生成初始編輯。為保持圖像協調性,采用FLUX.1 Fill[dev]保留未編輯區域,僅修改掩碼區域。移除操作則使用DesignEdit模型結合目標掩碼獲得結果。

b.文本生成:替換操作適配指令模板(如“將[source]替換為[reference]”),添加操作使用格式“添加[label]”描述變換。

c.參考掩碼提取:方法與掩碼提示編輯相同。

數據集概覽

AnyInsertion數據集包含訓練和測試子集。訓練集共159,908個樣本,分為兩類提示:

  • 58,188個掩碼提示圖像對(參考圖像、參考掩碼、目標圖像、目標掩碼)
  • 101,720個文本提示圖像對(參考圖像、參考掩碼、源圖像、目標圖像、文本)

如前面圖2b所示,數據集覆蓋人類主體、日用品、服裝、家具和各類物體等多樣類別,支持人物插入、物體插入和服裝插入等多種任務,適用于廣泛的實際應用。評估使用的測試集包含158對數據:120對掩碼提示和38對文本提示。掩碼提示子集包括40對物體插入、30對服裝插入和60對人物插入(30對簡單場景和30對復雜場景)。

Insert Anything 模型

概述

圖像插入任務需要三個關鍵輸入:

  1. 包含待插入元素的參考圖像
  2. 提供背景環境的源圖像
  3. 指導插入過程的控制提示(掩碼或文本)

目標是生成一個目標圖像,將參考圖像中的元素(以下簡稱“參考元素”)無縫整合到源圖像中,同時滿足:

  • 保持參考元素的身份特征(定義該元素的視覺特征)
  • 嚴格遵循提示的規范

如下圖3所示,本文的方法包含三個核心組件:

  1. 多聯畫上下文格式:通過組織輸入數據利用上下文關系
  2. 語義引導機制:從文本提示或參考圖像中提取高層信息
  3. 基于DiT的架構:通過多模態注意力融合上述元素

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

這些組件共同實現了靈活控制,同時確保插入元素與周圍環境的視覺協調性。

上下文編輯

上下文編輯的核心是將參考元素整合到源圖像中,同時維持它們之間的上下文關系。具體步驟如下:

背景移除

首先通過背景移除步驟隔離參考元素:

  • 采用Grounded-DINO和SAM的分割流程移除參考圖像背景,僅保留待插入對象

獲得參考元素后,根據提示類型采用兩種編輯策略:

掩碼提示雙聯畫(Mask-Prompt Diptych)適用于掩碼引導編輯,采用雙面板結構:

  • 左面板:處理后的參考圖像(已移除背景)
  • 右面板:部分掩碼覆蓋的源圖像

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

文本提示三聯畫(Text-Prompt Triptych)

對于文本提示編輯,我們采用三面板結構(三聯畫),包含:

  1. 處理后的參考圖像
  2. 未修改的源圖像
  3. 待填充的完全掩碼區域

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

其中每個組件的尺寸與其對應面板相同。

多控制模式

本文的框架支持兩種圖像插入控制模式:

  1. 掩碼提示:通過手動標注掩碼指定插入區域
  2. 文本提示:通過文字描述控制插入過程

這兩種模式通過以下架構實現靈活整合:

多模態注意力機制

基于DiT的多模態注意力機制,采用雙分支結構:

  • 圖像分支:處理視覺輸入(參考圖像/源圖像/對應掩碼)

a.將輸入編碼為特征表示

b.沿通道維度與噪聲拼接以準備生成

  • 文本分支:編碼文本描述以提取語義引導

特征融合

通過多模態注意力實現跨模態特征融合:

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

[; ]代表拼接操作,Q、K、V分別是注意力機制中的查詢(query)、鍵(key)和值(value)組件。以下說明兩種控制模式下注意力機制的運行方式:

掩碼提示(Mask-Prompt)

在掩碼提示編輯中,源圖像的插入區域通過二進制掩碼指定。該掩碼與經過VAE處理的雙聯畫沿通道維度拼接后,與噪聲一起輸入DiT模型的圖像分支。同時,通過CLIP圖像編碼器提取參考圖像的語義特征并傳入文本分支,以提供上下文引導。

文本提示(Text-Prompt)

在文本提示編輯中,插入操作由文本描述引導。參考圖像指示預期修改內容,而文本提示具體說明變更要求。源圖像將根據文本描述進行相應調整。為此我們設計專用提示模板:"一幅由三張并置圖像組成的三聯畫。左側是[label]的照片;右側場景與中部完全相同,但左側需[instruction]。" 該結構化提示提供語義上下文——[label]標識參考元素類型,[instruction]指定修改要求。輸入經文本編碼器處理后引導DiT文本分支,三聯畫結構經VAE處理輸入圖像分支,文本標記與圖像特征拼接以實現分支間的聯合注意力。

實驗

實驗設置

實現細節

本文的方法基于FLUX.1 Fill [dev]——一種采用DiT架構的圖像修復模型。框架整合了T5文本編碼器與SigLIP圖像編碼器,并使用秩為256的LoRA進行微調。訓練時,掩碼提示的批大小為8,文本提示為6,所有圖像統一處理為768×768像素分辨率。采用Prodigy優化器,啟用安全預熱(safeguard warmup)和偏置校正(bias correction),權重衰減設為0.01。實驗在4塊NVIDIA A800 GPU(每塊80GB)集群上完成。訓練數據主要來自自建的AnyInsertion數據集,針對兩種提示類型(掩碼與文本)各訓練5000步。采樣階段執行50次去噪迭代,訓練損失函數遵循流匹配(flow matching)方法。

測試數據集

在三個多樣化數據集上評估方法性能:

  1. Insert Anything:從自建的Insert Anything數據集中選取40個樣本用于物體插入評估,30個用于服裝插入,30個用于人物插入(簡單場景);
  2. DreamBooth:構建含30組圖像的測試集,每組包含一張參考圖像和一張目標圖像;
  3. VTON-HD:作為虛擬試穿與服裝插入任務的標準基準。

定量結果

物體插入性能

如下表2和表3所示,Insert Anything在掩碼提示和文本提示的物體插入任務中,所有指標均超越現有方法。掩碼提示插入任務中,本方法將AnyInsertion數據集的SSIM從0.7648提升至0.8791,DreamBooth數據集從0.6039提升至0.7820;文本提示插入任務中LPIPS從0.3473降至0.2011,表明感知質量顯著提升。這些改進證明了模型在保持物體身份特征的同時,能與目標場景實現完美融合的卓越能力。

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

服裝插入性能

如下表4所示,Insert Anything在兩個評估數據集上全面超越統一框架和專用服裝插入方法。在廣泛使用的VTON-HD基準測試中,LPIPS從0.0513優化至0.0484,同時PSNR(26.10 vs. 25.64)和SSIM(0.9161 vs. 0.8903)均有顯著提升。與ACE++等統一框架相比優勢更為明顯,印證了本方法在專用任務質量與統一架構結合方面的有效性。

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

人物插入性能

如下表5所示,在AnyInsertion數據集的人物插入任務中,本方法所有指標均顯著領先。相比原有最佳結果,結構相似性(SSIM: 0.8457 vs. 0.7654)和感知質量(FID: 52.77 vs. 66.84)提升尤為突出,這在需要保持人物身份特征的復雜插入場景中具有重要意義。

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

定性分析

下圖4展示了三類任務的視覺對比結果,凸顯Insert Anything的三大優勢:

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

  1. 物體插入:在物體-人物/物體-物體交互的復雜場景中,能完美保持參考物體細節特征并實現自然融合;
  2. 服裝插入:對服裝logo/文字保留和褲裙轉換等形狀變化任務,細節保持和自然貼合度均優于專用方法;
  3. 人物插入:在人物-人物/人物-動物/人物-物體交互場景中,身份特征保持與場景融合效果最佳。

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

消融實驗

針對掩碼提示插入任務進行消融研究(下表6為加權平均結果,權重比=物體:服裝:人物=4:3:3):

  • 上下文編輯:移除該模塊會導致紋理等高頻細節丟失(下圖6),PSNR/SSIM/LPIPS指標顯著下降;
  • 語義引導:取消參考圖像語義引導時,生成圖像會丟失顏色等高階特征(圖6);
  • AnyInsertion數據集:僅使用免訓練模型推理時,人物面部細節保持能力明顯退化(圖6),所有指標同步下降。

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

只需一張圖,萬物皆可插!Insert Anything開源啦!開創AI圖像插入新時代|浙大&哈佛等-AI.x社區

結論

本文提出統一框架Insert Anything,通過支持掩碼/文本雙引導模式突破專用方法局限。基于12萬提示-圖像對的AnyInsertion數據集和DiT架構,創新性地采用雙聯畫/三聯畫提示策略實現上下文編輯機制,在保持身份特征的同時確保視覺協調性。三大基準測試表明,本方法在人物/物體/服裝插入任務中全面超越現有技術,為基于參考的圖像編輯樹立新標桿,為實際創意應用提供通用解決方案。


本文轉自AI生成未來 ,作者:AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/aT-wC1DclgRKmR0_wpESdQ??

已于2025-4-24 09:57:48修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲 欧美 另类 综合 偷拍 | 综合色播 | 国产精品不卡视频 | 三级视频国产 | 欧美aⅴ片 | 99pao成人国产永久免费视频 | 久草网址 | 91麻豆精品国产91久久久更新资源速度超快 | 国产成人一区二区 | 羞羞网站在线观看 | 欧美在线视频网 | 精品国产伦一区二区三区观看说明 | 欧美专区在线 | 日韩国产欧美 | 欧美三级成人理伦 | 亚洲欧美激情精品一区二区 | 成人在线日韩 | 一区二区三区在线 | 天天看片天天干 | 天天色图 | 亚洲欧洲日韩精品 中文字幕 | 精品久久久久一区二区国产 | 97福利在线 | 精品国产一区二区三区久久久蜜月 | 6996成人影院网在线播放 | 好姑娘高清在线观看电影 | 黄色网址在线免费播放 | 中文字幕91av | 精品无码久久久久久国产 | 天天看片天天干 | 国产在线播 | 成人免费在线视频 | 91视频正在播放 | 正在播放亚洲 | 久久国产成人精品国产成人亚洲 | 欧美中文字幕在线观看 | 99久久免费精品 | 久久久久av | 中文字幕视频一区 | 91精品国产色综合久久 | 日韩精品视频网 |