400萬樣本，數據才是AIGC的王道！UltraEdit：基于指令的細粒度圖像編輯數據集

發布于 2024-8-27 09:59

瀏覽

0收藏

一、概述

UltraEdit 是一種大規模的、自動生成的數據集，專門用于基于指令的圖像編輯。該數據集包含了約400萬個編輯樣本，覆蓋了750,000個獨特的指令，涵蓋了9種以上的編輯類型。UltraEdit 的核心優勢在于其利用大型語言模型（LLMs）的創造力和人類評估者提供的上下文編輯示例，提供了更廣泛的編輯指令；其數據源基于真實圖像，包括照片和藝術作品，這比僅由文本到圖像模型生成的數據集提供了更大的多樣性并減少了偏見；此外，它還支持基于區域的編輯，并增強了高質量的自動生成區域注釋。

項目地址：https://ultra-editing.github.io/
代碼地址：https://github.com/HaozheZhao/UltraEdit
論文地址：https://arxiv.org/pdf/2407.05282

效果：

代碼中也給出了通過UltraEdit訓練集訓練的SD3的模型，并且提供了一個gradio的界面，我部署測試了下這個模型，整體來說效果還過得去，當然這個模型不是重點。

400萬樣本，數據才是AIGC的王道！UltraEdit：基于指令的細粒度圖像編輯數據集-AI.x社區

二、原理

核心點：

多樣性編輯指令：結合了大型語言模型和人類評估者生成的編輯指令，提高了指令的多樣性和質量。
真實圖像基礎：使用真實圖像作為數據源，減少了模型訓練時的偏見，提高了生成樣本的多樣性。
基于區域的編輯支持：通過高質量的自動生成區域注釋，增強了對特定區域編輯的支持。

UltraEdit架構：

400萬樣本，數據才是AIGC的王道！UltraEdit：基于指令的細粒度圖像編輯數據集-AI.x社區

圖上部：使用 LLM 和上下文示例來根據收集的圖像標題生成編輯說明和目標標題

手動創建初始指令：首先，通過人工創建數百條編輯指令。這些指令是與人類評估者合作產生的，他們根據COCO數據集中的圖像和標題來編寫合適的編輯指令。
利用LLM擴展指令：然后，使用大型語言模型（LLM）來擴展這些人工編寫的指令，生成更多樣的編輯示例。這一步驟通過結合上下文學習（in-context learning）和LLM的創造力，顯著增加了指令的多樣性。
生成指令和標題：LLM不僅生成編輯指令，還生成編輯后的圖像的標題。這些標題用于后續的圖像生成和評估過程。
指令和標題的輸出格式：輸出格式遵循“原始圖像標題；編輯指令；新圖像標題”的模式，確保結果的一致性和實用性。

圖中部：使用P2P控制和現成的T2I擴散模型生成源圖像和目標圖像

使用真實圖像作為錨點：在生成編輯樣本時，不完全依賴T2I模型合成所有圖像，而是使用真實圖像作為錨點，以減少這些模型可能存在的偏見。
圖像-圖像擴散流程：使用常規的Img2Img擴散流程，將噪聲擾動的潛在嵌入和源標題作為條件，生成源圖像。
提示到提示（P2P）控制：使用P2P控制和目標標題生成目標圖像，這一步驟在相同的潛在空間中進行，確保了源圖像和目標圖像的一致性。
使用SDXL-Turbo作為擴散骨干：利用SDXL-Turbo模型進行高質量的圖像生成，只需2-4步擴散步驟，就能保持與SDXL相當的生成質量。

圖下部：根據指令生成一個編輯區域，然后調用修改后的修復擴散管道來生成圖像

對象檢測與編輯對象識別：使用“recognize-anything”模型對源圖像進行對象檢測，識別出圖像中的所有對象。結合LLM、對象列表、源標題、目標標題和編輯指令，確定需要編輯的具體對象或區域。
編輯區域的生成：對于需要變換的對象，使用GroundingDINO和SAM技術來獲得對象的邊界框和精細掩碼。如果編輯指令涉及整個圖像的變換，整個圖像被定義為編輯區域。利用這些掩碼生成一個軟掩碼，以便在生成過程中平滑地過渡編輯區域和非編輯區域。
修改的圖像生成流程：采用修改后的圖像生成流程，交替進行常規擴散步驟和僅在編輯區域內的修復擴散步驟。這一流程通過考慮編輯區域的掩碼來引導圖像的生成，從而在指定區域內實現精確編輯。
軟掩碼的融合：將精細掩碼與邊界框掩碼融合，創建一個軟掩碼，用于在生成過程中指示哪些區域應該被編輯。

高質量圖像生成的評估和篩選：

個人認為數據集的質量評估在UltraEdit數據集的構建過程中扮演著最關鍵的角色，確保了生成的圖像編輯樣本符合高標準的質量和準確性。為了保證數據集的質量，UltraEdit數據集做了如下工作：

1、自動化質量評估指標

CLIP圖像相似度（CLIP Image Similarity）：評估生成圖像與目標圖像在視覺上的相似度。
DINOv2相似度（DINOv2 Similarity）：衡量生成圖像與源圖像在語義上的相似性。
結構相似性指數（SSIM）：量化生成圖像與源圖像在像素級別的一致性，確保圖像質量。
CLIP方向相似度（CLIP Directional Similarity, CLIPdir）：評估圖像變化與標題變化之間的一致性，確保生成圖像遵循編輯指令。