ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器原創

發布于 2025-4-29 10:36

瀏覽

0收藏

摘要

最近的研究表明，預訓練的擴散變換器（DiTs）具備 inherent in-context 生成能力，能夠通過最小或無需架構修改即可適應多種視覺任務。這些能力通過連接多個輸入和目標圖像的自注意力 token，并結合分組和掩碼生成 pipeline 來實現。基于這一基礎，我們提出了 ChatDiT，這是一個零樣本、通用、交互式的視覺生成框架，利用預訓練的擴散變換器，無需額外的調整、適配器或修改。用戶可以與 ChatDiT 交互，創建交錯的圖文文章、多頁圖畫書、編輯圖像、設計知識產權衍生產品，或通過一個或多個對話輪次進行角色設計設置，使用自由形式的自然語言。ChatDiT 核心是一個由三個關鍵組件組成的多代理系統：一個解釋用戶上傳圖像和指令的指令解析代理，一個制定單步或多步生成動作的策略規劃代理，以及一個使用擴散變換器的 in-context 工具箱執行這些動作的執行代理。我們對 ChatDiT 在 IDEA-Bench 上進行了全面評估，IDEA-Bench 包含 100 個真實世界的設計任務和 275 個案例，具有多樣的指令和不同數量的輸入和目標圖像。盡管 ChatDiT 的實現簡單且無需訓練，但它在所有競爭對手中脫穎而出，包括那些專門設計并在廣泛多任務數據集上訓練的模型。雖然這項工作突顯了預訓練文本到圖像模型在零樣本任務泛化中的未開發潛力，但我們指出 ChatDiT 在 IDEA-Bench 上的 Top-1 性能得分為 23.19（滿分 100），反映了在利用 DiTs 進行通用目的生成時的挑戰。我們進一步確定了預訓練 DiTs 在零樣本適應任務時的關鍵局限性。我們發布了所有代碼、代理、結果和中間輸出，以促進進一步研究。

1. 引言

近年來，文本生成圖像模型取得了顯著進展，能夠生成與提示高度契合的高質量圖像 [Ramesh et al., 2021, Esser et al., 2021, Ramesh et al., 2022, Rombach et al., 2022, Saharia et al., 2022a, Betker et al., 2023, Podell et al., 2023, Esser et al., 2024, Baldridge et al., 2024, Labs, 2024]。此外，各類適配器的開發進一步增強了這些模型的可控性 [Zhang et al., 2023, Ye et al., 2023, Huang et al., 2023, Ruiz et al., 2023, Wang et al., 2024a, Hertz et al., 2024]。然而，在實際應用中，復雜的需求往往超出現有適配器的能力。例如，生成一本繪本需要在多個元素之間保持組合的一致性和復雜的變化。雖然近期的一些研究嘗試開發能夠處理多種任務的統一模型 [Ge et al., 2023, Zhou et al., 2024a, Sheynin et al., 2024, Sun et al., 2024, Wang et al., 2024b]，但這些方法通常依賴于大量特定任務的數據和廣泛的多任務訓練。盡管這些模型具備零樣本（zero-shot）的泛化能力，但在未知任務上的穩定性較差、擴展困難，并且未能有效利用大量任務無關的數據。

新興研究，如群組擴散變換器（Group Diffusion Transformers）[Huang et al., 2024a]，提出了一種基于群組數據訓練的任務無關方法。這種方法允許融合多樣的關系數據來源，例如插圖文章、視頻幀和繪本，使得訓練數據具有高度的冗余性。這些模型展現了在多任務上的零樣本泛化潛力。在此基礎上，上下文中的LoRA（In-context LoRA）[Huang et al., 2024b]通過強調文本到圖像擴散變換器固有的上下文生成能力，簡化了這一概念。通過使用每個任務10–100組圖像的小數據集微調，In-context LoRA在各種任務中取得了令人印象深刻的成果。然而，其對每個任務訓練的依賴限制了其在未知任務中的泛化能力。

在本研究中，我們旨在最大限度地挖掘In-context LoRA [Huang et al., 2024b]所揭示的核心觀察：擴散變換器本質上具有上下文生成能力，從而具備零樣本任務泛化的潛力。我們提出了一種無需訓練、零樣本、交互式的通用圖像生成框架，直接基于原始形式的擴散變換器，無需微調、適配器或結構性修改。

ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器-AI.x社區

ChatDiT多智能體框架概述。該框架由三個核心智能體順序執行組成：指令解析智能體解釋用戶指令并分析輸入，策略規劃智能體制定上下文生成策略，執行智能體使用預訓練的擴散變換器執行計劃的行動。可選的Markdown智能體將輸出整合成連貫的插圖文章。子智能體在每個核心智能體內部處理專門任務，確保生成的靈活性和精確性。

（這個框架由三個核心智能體組成，它們依次執行各自的任務，并且每個核心智能體下面還有專門處理特定任務的子智能體。

1. 指令解析智能體（Instruction-Parsing Agent）：這是框架的第一個智能體，它的任務是解釋用戶的指令和分析用戶上傳的圖片。它包含三個子智能體：

- 計數智能體（Counting Agent）：估算用戶希望生成的輸出圖片數量。

- 描述智能體（Description Agent）：為每個上傳的輸入圖片生成詳細描述，捕捉關鍵屬性和上下文。

- 提示智能體（Prompting Agent）：為目標圖片創建描述，以指導生成過程。

2. 策略規劃智能體（Strategy-Planning Agent）：基于指令解析智能體的輸出，這個智能體負責制定一步一步的生成計劃。它包括：

- 參考智能體（Referencing Agent）：為每個輸出選擇合適的參考圖片，并將參考圖片和輸出分組。

- 面板化智能體（Panelizing Agent）：為分組的參考和輸出構建上下文提示，為圖像生成管道準備輸入。

3. 執行智能體（Execution Agent）：這個智能體使用上下文工具包來執行策略規劃智能體制定的計劃，生成目標圖片。

此外，還有一個可選的Markdown智能體，它將生成的圖片和相應的描述格式化為插圖文章，如故事書或教學內容，以提高輸出的可讀性和連貫性。

整個框架的設計允許從自然語言指令到結構化、分步驟的生成計劃的轉換，使得用戶可以靈活地創建復雜的圖像輸出，而無需進行額外的微調或架構修改。這種設計不僅提高了生成任務的靈活性和精確性，而且還使得ChatDiT能夠處理多樣化的任務和復雜的輸入輸出配置。圖1通過可視化的方式，清晰地展示了ChatDiT框架的工作流程和各個組件之間的相互作用。

）

首先，我們引入了一種擴散變換器的上下文工具包，使其能夠基于提示并可選地結合參考圖像集合生成一組圖像（而非單個輸出）。該工具包采用類似于In-context LoRA的簡單管道，其中輸入圖像和目標圖像被拼接為多面板布局，并通過綜合提示進行描述。任務的核心是通過混合擴散（Blend Diffusion）[Avrahami et al., 2022]在無需訓練的情況下對目標區域進行補圖。該管道接受提示、零到多張參考圖像，并生成一個或多個輸出圖像。

我們方法的核心——ChatDiT，是一個多代理系統，包含以下三個主要代理：

1.指令解析代理（Instruction-Parsing Agent）：解析用戶指令和上傳的圖像，以確定所需輸出圖像的數量，并為每個輸入和目標圖像生成詳細描述。

2.策略規劃代理（Strategy-Planning Agent）：基于解析的指令，制定逐步生成計劃。每一步包括多面板提示、選擇的參考圖像ID（如適用）以及圖像生成所需的參數。

3.執行代理（Execution Agent）：利用上下文工具包執行規劃的步驟，通過上下文操作生成所有目標圖像。

此外，可選的Markdown代理支持生成連貫的文本-圖像交叉文章，確保輸出具有良好的可讀性。所有代理均通過大語言模型（LLMs）實現，并采用JSON格式輸入和輸出（Markdown代理的輸出為文本格式）。總體框架如圖1所示。

我們在IDEA-Bench [Liang et al., 2024]上對ChatDiT進行了評估。IDEA-Bench是一個包含100種多樣化設計任務和275個測試案例的綜合基準，涵蓋了廣泛的指令和輸入輸出配置。生成結果示例如圖2所示，與其他方法的定量和定性比較分別見表1和圖5。盡管ChatDiT簡單且無需訓練，但它在零樣本能力上優于所有競爭方法，包括基于重述的文本生成圖像方法和專門的多任務框架。

ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器-AI.x社區

精選單輪生成示例展示了ChatDiT在IDEA-Bench上的能力[梁等人，2024]。ChatDiT通過自由形式的自然語言交互，以零樣本的方式處理多樣化的任務、指令和輸入輸出配置，展現了其多功能性。這里顯示的用戶信息是對IDEA-Bench中原始詳細指令的簡化總結，以節省空間。

（ChatDiT框架在IDEA-Bench基準測試中的一系列精選單輪生成示例。這些示例體現了ChatDiT處理多樣化任務、指令和輸入輸出配置的能力，所有這些都通過自由形式的自然語言交互以零樣本的方式完成。圖中展示的用戶消息是對IDEA-Bench中原始詳細指令的簡化總結，這樣做是為了節省空間。通過這些示例，我們可以看到ChatDiT在執行具體任務時的表現，包括生成與文本提示相符的圖像、根據現有圖像創建新的圖像變體、以及在保持某些元素不變的情況下對圖像進行編輯等。

這些示例不僅展示了ChatDiT在圖像生成和編輯方面的多功能性，還證明了它能夠理解和執行復雜的自然語言指令，生成高質量和內容相關的圖像。每個示例都包含了用戶的具體指令和ChatDiT據此生成的圖像結果，直觀地展示了框架的性能和潛力。這些圖像結果反映了ChatDiT在遵循用戶指令、保持圖像質量和細節以及處理多樣化視覺任務方面的能力。總的來說，圖2為讀者提供了ChatDiT實際應用效果的直觀展示，證明了其作為一個通用、交互式視覺生成框架的有效性。）

我們進一步展示了ChatDiT的多樣性：圖3展示了其生成交錯文本-圖像文章的能力，圖4則展現了其多輪對話生成的輸出。盡管仍存在一些不足——例如在身份和細節保留方面的困難，以及在處理長上下文（即輸入和/或輸出數量過多）時指令遵從性的下降——ChatDiT確立了一個強有力的基線，并揭示了預訓練擴散模型未被充分利用的上下文生成潛力，為如何進一步提升這些模型以實現更好的零樣本泛化提供了有價值的見解。

ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器-AI.x社區

圖3：ChatDiT生成插圖文章的精選示例。ChatDiT能夠根據用戶的自然語言指令生成交錯的文本-圖像文章。它能夠自主估計所需圖像的數量，利用上下文能力規劃和執行生成過程，并將輸出無縫集成到連貫且視覺上吸引人的插圖文章中。

（這些示例說明了ChatDiT如何根據用戶的自然語言指令自主估計所需圖像的數量，并規劃和執行生成過程，最終將輸出無縫集成到連貫且視覺上吸引人的插圖文章中。這些文章不僅包括圖像，還包含與圖像內容相關的文本描述，增強了信息的傳達和用戶體驗。

在這些示例中，ChatDiT展示了其理解和處理復雜場景的能力，例如創造一個冒險者進入古代叢林神廟尋寶的故事，或者描述一個未來體育賽事中使用高科技懸浮滑板和外骨骼的運動員。這些故事通過多個章節和場景展開，ChatDiT需要生成一系列圖像來講述故事的不同部分，同時保持整體的視覺和敘事連貫性。

此外，圖3中的示例還展示了ChatDiT在處理更抽象的指令時的表現，比如創造一個恐怖驚悚漫畫，講述一個偵探在鬧鬼的游樂園調查一系列離奇謀殺案的故事。在這個例子中，ChatDiT需要理解并表達故事的情緒和氛圍，同時創造出與故事情境相匹配的圖像。

這些插圖文章的生成展示了ChatDiT在整合文本和圖像、創造敘事流程以及維護視覺一致性方面的高級能力。盡管當前的實現可能存在一些不完美之處，但這些示例證明了ChatDiT在創建交互式和動態界面方面的潛力，為未來更復雜的文本圖像集成任務提供了基礎。圖3中的示例為讀者提供了ChatDiT在實際應用中如何工作的直觀理解，以及它在生成豐富、多模態內容方面的潛力。）

（示例1，創建一部恐怖驚悚漫畫，講述一個偵探調查一系列發生在一個鬧鬼的游樂園的離奇謀殺案，最終發現殺手是一個被困在其中一個游樂設施中的古老靈魂。

鬼魂游樂園：偵探的噩夢

我們的故事在一個充滿神秘和明顯不安的場景中展開。在第一幅圖中，我們被介紹給這位堅韌的偵探，他的任務是揭開一個被時間和衰敗遺忘的游樂園中一系列可怕謀殺案背后的真相。偵探走進公園陰暗的入口，身穿風衣，頭戴軟呢帽，手持手電筒，在詭異的背景中顯得孤獨。閃爍的燈光在小徑上投下令人不安的陰影，生銹的游樂設施像被遺忘的怪物一樣隱約可見。空氣中彌漫著一種未言明的恐懼，偵探準備挖掘內部可能隱藏的任何恐怖。

在第二幅圖中，調查深入進行。在這里，我們發現偵探在一個血跡斑斑的過山車上，這是公園中一系列離奇謀殺案之一的現場。偵探跪在一個裝飾著神秘雕刻的邪惡游樂設施車旁，他既條理分明又警惕。黑暗的天空和扭曲的軌道增強了這種陰森的氛圍，而鮮紅色的血跡與柔和的背景形成了鮮明的對比，證明了一個令人不寒而栗的罪行——指向了某種超自然的存在。

第三幅圖將焦點轉移到了謎團的核心——鬧鬼的旋轉木馬。與公園的其他部分不同，這個旋轉木馬散發著超自然的光芒。栩栩如生的馬似乎在觀察著偵探的每一個動作，當他走近時。隨著一個幽靈般的實體開始形成，盤旋在游樂設施上方，緊張的氣氛不斷升級。超現實的燈光——綠色和紫色的弧線——將這個古老的幽靈帶入了可怕的細節，暗示著將它束縛的古老詛咒。

最后，在令人毛骨悚然的高潮中，故事達到了頂點。偵探現在面對面地面對古老的靈魂，目睹了它全部的可怕輝煌。這個靈魂與公園的聯系變得無可辯駁；一個來自被遺忘時代的幽靈戰士，因惡意和悲傷而被困在這個領域內...）

（請生成一組6張圖片，描繪一個冒險者進入一個古老的叢林神廟尋找寶藏，所有圖片都采用相同的西方漫畫書風格。

標題：《冒險者的叢林神廟尋寶》

在未被馴服的叢林中心，樹木編織成神秘和冒險的天篷，我們的故事開始了。一個勇敢的冒險者的故事在西方漫畫風格的生動面板中展開。

第一章：叢林小徑

冒險者勇敢地穿過糾纏的藤蔓和郁郁蔥蔥的下層植被，一個古老神廟的輪廓在霧中隱約可見。每一步都沉重地充滿了期待，他推開厚厚的藤蔓，他那磨損的背包在他身邊搖擺。叢林是活著的，低語著它遺忘的榮耀的秘密，同時投下戲劇性的陰影，與隱藏寶藏的承諾共舞。

第二章：神廟入口

當叢林敞開，露出神廟的入口時，巨大的石柱高聳入云，上面刻著經受住時間考驗的符文。冒險者手持火把，照亮了復雜的雕刻，每一塊都講述了一個關于古老儀式和失落文明的故事。茂密的植被似乎在守護著入口，仿佛自然本身也不愿釋放它所握有的秘密。

第三章：危險之路

神廟內的空氣充滿了古老的寒意，每一步都回響著那些曾經冒險的人的故事。突然，天花板塌陷，露出了一個致命的陷阱——一系列尖刺帶著致命的意圖下降。冒險者，憑借本能和一生的求生技能，及時跳起，尖刺擦過他身后的空氣。墻上的壁畫似乎在默默審判，歷史再次重演。

第四章：寶藏揭曉

隨著守護者的覺醒，混亂隨之而來——神廟開始在他們周圍坍塌。地面震動，仿佛叢林的根在拒絕幾個世紀的干擾。冒險者在絕望中奔向自由，每一步都回響著墜落的石頭的力量。一瞥肩膀足以讓他看到神廟的壯麗讓步于廢墟，但他心中燃燒著生存的火焰和征服的刺激。

第五章：守護者覺醒

但神廟還隱藏著另一個秘密——一個守護者從石頭沉睡中醒來。雕像，一個雕刻的石頭的威嚴形象，以超自然的姿態移動，它的眼睛發出詭異的光芒。我們的冒險者，手持火把，擺好架勢，準備迎接他知道必將發生的對峙。氣氛隨著人與神話之間的沖突而緊張，過去與現在的碰撞。

第六章：逃離坍塌的神廟

在守護者覺醒帶來的混亂中，神廟開始在他們周圍坍塌。地面震動，仿佛叢林的根在拒絕幾個世紀的干擾。冒險者在絕望中奔向自由，每一步都回響著墜落的石頭的力量。一瞥肩膀足以讓他看到神廟的壯麗讓步于廢墟，但他心中燃燒著生存的火焰和征服的刺激。

）

ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器-AI.x社區圖片

ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器-AI.x社區

圖4：ChatDiT的精選多輪對話示例。通過引用對話歷史中的圖像，ChatDiT能夠根據自由形式的用戶指令執行無縫的多輪生成和編輯。

這種迭代過程使得在保持對話輪次之間的上下文一致性的同時，能夠動態細化和適應輸出。

每個指令消息中指定的關鍵修改都用黃色突出顯示。

（ChatDiT框架在處理多輪對話和迭代圖像生成任務方面的能力。通過參考對話歷史中的圖像，ChatDiT能夠響應自由形式的用戶指令，執行無縫的多輪生成和編輯。這種迭代過程允許在保持對話上下文一致性的同時，動態地細化和適應輸出結果。在每個指令消息中，關鍵的修改點都用黃色標出，以便于識別和跟蹤對話過程中的主要變化。

這些示例說明了ChatDiT如何在多輪對話中利用歷史信息來改進和調整生成的圖像。用戶可以提供反饋或新指令，ChatDiT則能夠理解這些指令，并在之前生成的圖像基礎上進行編輯或生成新的圖像。這種能力使得ChatDiT不僅能夠生成單一的圖像，還能夠參與到一個持續的創意過程中，其中圖像和想法可以根據用戶的連續指令不斷進化。

圖4中的多輪對話示例展示了ChatDiT在實際應用中的靈活性和交互性，證明了它能夠理解和執行一系列復雜的、基于上下文的圖像生成任務。這些任務可能包括根據用戶的反饋進行細節調整、風格變化或整個場景的轉換。通過這種方式，ChatDiT為用戶提供了一個強大的工具，用于創造性地探索和實現視覺想法。）

盡管ChatDiT在IDEA-Bench中取得了23.19分（滿分100）的最佳表現，但這一結果凸顯了在實現真實世界、產品級通用應用方面仍然存在的巨大差距。這一結果強調了在復雜任務中充分利用擴散變換器能力的挑戰。我們在第4.6節討論了ChatDiT的主要局限性。為促進未來研究和創新，我們公開了所有代碼、代理、結果和中間輸出。

2. 相關工作

2.1 圖像生成

文本到圖像生成模型已經取得了顯著進展，能夠從自然語言提示生成高保真度和風格多樣的圖像。為了控制特定屬性，如身份保留、顏色適應、風格適應、空間組合、姿勢指導、局部編輯、對象級編輯、質量增強和跨圖像關系建模，研究人員引入了各種方法。然而，這些方法通常需要專門的訓練或適配器，限制了它們在更廣泛、更復雜的任務中的應用，這些任務涉及多個圖像和復雜的關聯。

2.2 統一框架和零樣本泛化

最近的幾個框架旨在泛化廣泛的生成任務，如 Emu Edit、Emu2、Emu3、TransFusion、Show-o、OmniGen 等。這些模型展示了令人印象深刻的通用性，但通常依賴于顯式的多任務訓練或大規模的多樣化數據集整合。相比之下，最近的研究表明，標準的文本到圖像擴散變換器已經編碼了強大的 in-context 能力。In-context LoRA 通過訓練小的 LoRA 適配器，使用少量的圖像組，揭示了模型在無需大規模重新訓練的情況下處理多任務的潛力。我們的工作進一步表明，即使沒有這種適應，預訓練的擴散變換器也可以表現出顯著的零樣本泛化能力。

2.3 多代理系統和交互框架

隨著大型語言模型（LLMs）的興起，出現了利用推理和規劃處理復雜任務的多代理架構。這些代理可以分析輸入、規劃策略并使用工具或 API 執行動作。雖然多代理推理在語言領域中較為常見，但我們將其集成到視覺生成中，使用 LLM 基礎的代理解析、規劃和執行多步驟工作流程，利用擴散變換器。這種基礎與推理代理和潛在擴散模型的結合，使得與復雜圖像生成任務的靈活、對話式界面成為可能。

3. 方法

3.1 問題表述

我們采用圖像生成范式，其中任務被表述為生成一組 n ≥1 個目標圖像，這些圖像基于 m ≥ 0 個參考圖像和一個全面描述組合的 n + m 個圖像的提示。這種統一的表述非常靈活，可以涵蓋廣泛的設計任務，如圖畫書生成、故事板創建、字體設計和轉換、身份保留生成、姿勢控制、圖像編輯和知識產權派生。

在這一框架中，參考圖像與目標圖像之間的關系通過組提示隱式捕捉。通過將參考和目標圖像拼接成一個單一的多面板布局，并將其與相應的多面板提示配對，我們可以無縫地執行基于參考和無參考的任務。這種靈活性源于通過變化面板數量和輸入輸出圖像配置來適應不同任務要求的能力。

然而，直接使用多面板提示和圖像拼接作為主要界面可能較為繁瑣。為了使設計要求的傳達更加直觀，類似于消費者與藝術家的溝通，我們采用了一種結合并行和迭代生成動作的策略，以保持輸入和目標圖像之間的關系，同時保持對圖像級描述的保真度。該系統將用戶意圖轉換為與 in-context 工具箱兼容的格式，并計劃處理大型圖像集的有效生成策略。

3.2 In-Context 工具箱

如前所述，圖像生成任務可以重新表述為多面板圖像生成和 inpainting 任務，這些任務可以由純文本到圖像模型有效處理。對于 inpainting，采用無訓練方法，其中目標圖像的可見區域被相應的參考圖像內容替換，并在每個去噪步驟中添加不同水平的高斯噪聲。為了確保準確的圖像生成，相關的提示必須足夠全面，以描述整個多面板內容。

為了簡化這些任務，我們開發了一個 in-context 工具箱，集成了必要的功能，如面板合并和拆分以及提示處理。該工具箱使用統一的界面，簡化了用戶交互，并允許與系統的無縫集成。具體來說，該工具箱接受多面板提示和圖像列表作為輸入，并輸出相應的圖像列表，表示為：

output_images = pipe(prompt, input_images, num_outputs)

這個界面設計用于與執行代理無縫集成，將在后續部分詳細討論。

3.3 多代理系統

如圖 1 所示，我們設計了一個多代理系統，以解釋用戶意圖并以自由形式、任務不可知的方式生成輸出。該系統接受自然語言指令，可選地伴隨零個或多個上傳的圖像，并生成一個或多個生成的圖像。當需要時，輸出可以格式化為插圖文章。

該系統由三個主要代理組成，每個代理包含專門的子代理，以處理特定的責任：

1. 指令解析代理：此代理解釋用戶的指令并處理輸入圖像。它由三個子代理組成：

- 計數代理：根據用戶指令估計所需的輸出圖像數量。

- 描述代理：生成每個上傳輸入圖像的詳細描述，以捕捉關鍵屬性和上下文。

- 提示代理：創建目標圖像的描述，以指導生成過程。

2. 策略規劃代理：基于指令解析代理的輸出，此代理制定逐步生成策略。它包括：

- 引用代理：選擇每個輸出的適當參考圖像，并將參考和輸出組織成組。

- 分面代理：構建組參考和輸出的 in-context 提示，為圖像生成 pipeline 做準備。

3. 執行代理：此代理利用 in-context 工具箱執行由策略規劃代理創建的生成計劃，生成最終的輸出圖像。

此外，根據需要可以使用 Markdown 代理將生成的圖像和伴隨描述格式化為插圖文章，如故事書或說明內容。

由于 DiTs 在長上下文處理中的限制，策略規劃代理采用特定的策略來優化生成過程：

- 對于文本到圖像的任務，輸出數量限制為 4 個，以確保提示的準確性。如果需要超過 4 個輸出，后續圖像將通過迭代生成，基于前 3 個圖像進行條件生成。

- 對于圖像到圖像的任務，每個輸出圖像獨立生成，基于所有輸入圖像進行條件生成，以確保一致性。

- 對于圖像到圖像的任務，生成過程通過迭代進行，基于所有輸入圖像和先前生成的輸出進行條件生成。

這些策略在提示的準確性與捕捉跨面板關系和保持輸出之間的一致性之間取得平衡。

多代理系統利用大型語言模型（LLMs）進行指令解析、策略規劃和 Markdown 代理。執行代理使用 in-context 工具箱處理圖像生成任務。為了確保 LLM 代理的穩定性和一致性，我們強制使用基于 JSON 的輸入和輸出，除非 Markdown 代理輸出 markdown 格式的文本。

4. 實驗

4.1 實現細節

我們使用 FLUX.1-dev 文本到圖像模型構建 in-context 工具箱和執行代理。LLM 代理——指令解析、策略規劃和 Markdown 代理——由 OpenAI 的 GPT-4o 實現。對于 inpainting 任務，我們采用無訓練方法，使用 FluxInpaintPipeline 直接實現基于參考的 inpainting，確保高質量且上下文準確的圖像生成。

4.2 評估基準

我們使用 IDEA-Bench 基準評估 ChatDiT，該基準包括 100 個真實世界的設計任務，具有多樣的指令和不同的輸入輸出配置。涵蓋 275 個案例，基準涵蓋了廣泛的任務，如圖畫書創建、照片修飾、圖像編輯、視覺效果轉換和姿勢轉換。

ChatDiT 的性能與 OmniGen、Emu2、Anole、InstructPix2Pix、MagicBrush 等一般目的框架以及使用語言模型重寫方法的文本到圖像模型（如 DALL-E3、SD3、Pixart、InstructPix2Pix、MagicBrush、Anole、Emu2、OmniGen）進行比較。這些重寫方法將用戶上傳的圖像和指令轉換為每個輸出圖像的單個提示，使文本到圖像模型能夠生成結果。盡管這些方法通常無法捕捉跨圖像關系，但它們作為 IDEA-Bench 建議的基線具有重要價值。

4.3 在 IDEA-Bench 上的結果

表 1 展示了定量結果，圖 2 提供了示例生成輸出，圖 5 可視化了 ChatDiT 與現有方法在選定案例中的比較。總體而言，ChatDiT 在所有競爭對手中脫穎而出，包括那些專門設計并在多任務數據集上訓練的模型。

ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器-AI.x社區

ChatDiT 在圖像到圖像和文本到圖像任務中表現出色，展示了生成高質量輸出并保持對上下文的強烈保真度的能力。然而，挑戰仍然存在，特別是在涉及多個輸入和輸出圖像的任務中，上下文長度較長，需要管理的元素或主題眾多，影響了一致性和整體性能。

盡管 ChatDiT 展現出顯著的能力，但在保持人物肖像、動物表示和產品細節的精確度方面仍存在不足，尤其是在人物面部、動物和精細產品細節方面。這些局限性突顯了在保持細粒度視覺一致性和準確性方面的進一步改進需求。

4.4 交錯的文本-圖像文章生成

ChatDiT 能夠生成交錯的文本-圖像文章，通過將用戶指令與輸入和輸出圖像描述結合，并使用 Markdown 代理將其轉換為 markdown 格式。這一過程無縫集成了文本和視覺內容，生成了連貫且引人入勝的文章。圖 3 展示了策展的示例。

盡管當前實現存在一些不完善之處，但它展示了創建交互式和動態界面的潛力，未來迭代中可以進一步完善，如更復雜的格式、改進的敘事連貫性和擴展的功能。

4.5 多輪對話

圖 4 展示了使用 ChatDiT 進行多輪對話的示例，系統根據動態、自由形式的用戶指令進行迭代生成和編輯。通過引用先前生成的圖像并保持跨對話回合的上下文感知，ChatDiT 能夠在保持一致性的同時優化輸出，同時保持對用戶意圖的保真度。

盡管 ChatDiT 在許多情況下表現出色，但挑戰仍然存在，特別是在保持細粒度細節和跨復雜對話維持一致身份方面。此外，累積錯誤可能會顯著影響性能，隨著對話長度的增加。解決這些局限性是未來增強的重要方向。

4.6 ChatDiT 的局限性

盡管 ChatDiT 展現出零樣本泛化能力，但幾個局限性仍然存在，突顯了進一步改進的領域：

1. 參考保真度不足：ChatDiT 在準確引用輸入圖像的細節方面存在困難，尤其是在保持人物、動物、產品或場景的身份和細粒度細節方面。雖然該模型可以捕捉總體組成和主題，但風格一致性、身份保真度和其他細微的視覺屬性方面存在差異。

2. 長上下文理解有限：隨著輸入或輸出圖像數量的增加，該模型的性能顯著下降。處理長上下文場景（如生成大型圖像集或處理許多參考圖像）時，ChatDiT 的語義理解和生成質量下降，導致連貫性和視覺保真度降低。

3. 表達敘事和情感的不足：ChatDiT 在生成具有強烈敘事流、情感深度或故事驅動場景的內容方面表現出有限的能力。這種短coming 可以歸因于文本到圖像模型固有的挑戰，即捕捉和表達情感或復雜的故事驅動場景。此外，該模型傾向于簡化復雜場景，偏愛生成視覺上簡單的輸出。

4. 高級上下文推理能力弱：ChatDiT 在執行高級上下文任務時表現出困難。例如，當提供一組輸入輸出圖像對和一個新的輸入時，該模型通常無法推斷所需的動作或生成任務。這一局限性突顯了該模型在泛化高級關系和跨上下文示例進行抽象推理方面的不足。

5. 處理多主體或多重元素的復雜性有限：ChatDiT 在管理涉及多個主體或元素的場景時存在困難，如角色之間的互動、擁擠的場景或具有復雜關系的對象。在這些情況下，生成的輸出通常會失去構圖的一致性，導致不連貫或不完整的表示。

解決這些局限性將需要在細粒度參考對齊、長上下文理解、敘事和情感生成以及在上下文設置中改進推理能力方面的進步。這些發現為未來旨在增強擴散變換器的通用目的能力的研究提供了基礎。

5. 結論和討論

本文中，我們提出了 ChatDiT，這是一個基于預訓練擴散變換器的新型零樣本、通用、交互式視覺生成框架。通過利用擴散模型的固有上下文生成能力，ChatDiT 允許用戶無縫創建復雜的多圖像輸出、編輯圖像、生成交錯的文本-圖像文章和設計角色設置，所有這些都無需額外的微調或架構修改。

盡管 ChatDiT 展現出顯著的零樣本能力，但幾個局限性仍然存在。這些包括在長上下文處理中的挑戰，其中性能隨著輸入輸出復雜性的增加而下降，以及在人物面部、動物和精細設計細節的精確度方面的困難。此外，ChatDiT 在生成具有強烈敘事流和情感深度的內容方面存在困難。這些局限性突顯了在細粒度參考對齊、長上下文理解和生成以及在復雜場景中捕捉細微情感和敘事線索方面的進一步改進需求。

總之，ChatDiT 代表了在利用預訓練擴散變換器進行零樣本、通用視覺生成方面的重要一步。通過識別其局限性，我們為未來的研究提供了方向，以進一步釋放這些模型在實際、產品級應用中的潛力。

本文轉載自公眾號AIRoobt ，作者：Lianghua Huang等

原文鏈接：??https://mp.weixin.qq.com/s/bslZxiTr0Q9ySSyCD_bc9A??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

ChatDiT

擴散變換器

微調

已于2025-4-29 15:42:35修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器原創

摘要

1. 引言

鬼魂游樂園：偵探的噩夢

2. 相關工作

2.1 圖像生成

2.2 統一框架和零樣本泛化

2.3 多代理系統和交互框架

3. 方法

3.1 問題表述

3.2 In-Context 工具箱

3.3 多代理系統

4. 實驗

4.1 實現細節

4.2 評估基準

4.3 在 IDEA-Bench 上的結果

4.4 交錯的文本-圖像文章生成

4.5 多輪對話

4.6 ChatDiT 的局限性

5. 結論和討論

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器 原創

摘要

1. 引言

鬼魂游樂園：偵探的噩夢

2. 相關工作

2.1 圖像生成

2.2 統一框架和零樣本泛化

2.3 多代理系統和交互框架

3. 方法

3.1 問題表述

3.2 In-Context 工具箱

3.3 多代理系統

4. 實驗

4.1 實現細節

4.2 評估基準

4.3 在 IDEA-Bench 上的結果

4.4 交錯的文本-圖像文章生成

4.5 多輪對話

4.6 ChatDiT 的局限性

5. 結論和討論

目錄

ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器原創