交錯場景圖用于文本和圖像生成評估(ICLR2025) 原創(chuàng)
摘要
許多現(xiàn)實世界中的用戶查詢(例如,“如何制作蛋炒飯?”)都能從能夠同時生成文本步驟和配套圖像的系統(tǒng)中受益,就像烹飪食譜一樣。旨在生成交錯文本和圖像的模型在確保這些模態(tài)內(nèi)部和之間的一致性方面面臨挑戰(zhàn)。為了解決這些挑戰(zhàn),我們提出了 ISG,這是一個用于交錯文本 - 圖像生成的綜合評估框架。ISG 利用場景圖結(jié)構(gòu)來捕捉文本和圖像塊之間的關(guān)系,在四個粒度級別上評估生成的結(jié)果:整體、結(jié)構(gòu)、塊級別和圖像特定級別。這種多層評估允許對一致性、連貫性和準確性進行細致入微的評估,并提供可解釋的問答反饋。結(jié)合 ISG,我們引入了一個基準測試 ISG - BENCH,涵蓋 8 個類別和 21 個子類別中的 1150 個樣本。這個基準數(shù)據(jù)集包含復雜的語言 - 視覺依賴關(guān)系和標準答案,以便在以視覺為中心的任務(如風格轉(zhuǎn)換,這是當前模型面臨的一個具有挑戰(zhàn)性的領(lǐng)域)上有效地評估模型。使用 ISG - BENCH,我們證明了最近的統(tǒng)一視覺 - 語言模型在生成交錯內(nèi)容方面表現(xiàn)不佳。雖然結(jié)合單獨的語言和圖像模型的組合方法在整體級別上比統(tǒng)一模型有 111% 的性能提升,但它們在塊級別和圖像級別上的性能仍然不盡如人意。為了推動未來的工作,我們開發(fā)了 ISG - AGENT,這是一個采用 “計劃 - 執(zhí)行 - 優(yōu)化” 管道來調(diào)用工具的基線代理,實現(xiàn)了 122% 的性能提升。
圖1:各生成模型在(視覺 - 語言主導)任務上的性能差異示例,僅文本和圖像輸出無法解決用戶問題。關(guān)于我們?nèi)绾味x(視覺主導)和(語言主導),請參見3.2節(jié)。左:文本生成;中:圖像生成;右:交錯文本和圖像生成。
1. 引言
隨著多模態(tài)語言模型的普及,很明顯用戶希望模型能夠同時生成文本和圖像(Huang 等人,2016;Miech 等人,2019)。考慮這樣一個場景,用戶問 “如何制作蛋炒飯?”(圖 1)。用語言回答 —— 列出一系列步驟 —— 是一種合理的答案。但更符合實際應用場景的回答方式是遵循烹飪食譜的風格,即在列出步驟的同時,提供烹飪過程中的中間步驟圖像。通過結(jié)合語言生成模型(Yuan 等人,2022;Gómez - Rodríguez 和 Williams,2023)和單獨的圖像生成模型(Rombach 等人,2022;Betker 等人,2023;Blattmann 等人,2023),實現(xiàn)這種多模態(tài)響應是可能的。但是,使用兩個模型會減慢推理速度,因為必須依次加載和運行這兩個模型。許多實際應用,如編寫故事書(Huang 等人,2016)或生成帶插圖的說明(Miech 等人,2019),都需要生成交錯的圖像和文本。
研究社區(qū)已經(jīng)開始設(shè)計具有為上述用例生成交錯文本和圖像能力的統(tǒng)一模型(Zhou 等人,2024a;Li 等人,2024b;Chern 等人,2024)。然而,生成多種模態(tài)是具有挑戰(zhàn)性的。不同模態(tài)之間的生成需要在多個圖像之間、多個句子之間以及生成的圖像和句子之間保持一致性。針對這些挑戰(zhàn)的基準測試仍處于起步階段(Chen 等人,2024e)。第一,以前的基準測試主要集中在語言主導的任務上,這意味著查詢僅通過文本輸出就可以解決,因此無法充分評估多模態(tài)生成能力(Liu 等人,2024d)。第二,現(xiàn)有基準測試中的查詢是自由形式的,沒有參考答案,這使得評估多模態(tài)指令跟隨生成變得模糊(An 等人,2023)。第三,現(xiàn)有的基準測試主要使用一種稱為 “大語言模型作為評判者(LLM - as - a - Judge)” 的評估范式(Chen 等人,2024a;Ye 等人,2024),其中使用 GPT4 或等效模型,憑借其預訓練知識進行整體評估(Xia 等人,2024)。但目前需要更細粒度的評估,以驗證每個文本和圖像的語義、圖像之間的一致性、每個文本與其相鄰圖像之間的聯(lián)系等。
我們提出了交錯場景圖(INTERLEAVED SCENE GRAPH,ISG),這是一個用于交錯圖像和文本生成的評估框架。從概念上講,ISG 借鑒了場景圖表示法,將其作為連接圖像和文本的底層語義表示(Krishna 等人,2017;Johnson 等人,2018)。ISG 自動將查詢解析為類似場景圖的結(jié)構(gòu),其中文本和圖像塊作為節(jié)點,它們之間的關(guān)系作為邊。我們將塊定義為連續(xù)的文本序列或圖像標記序列。基于這種圖表示,ISG 提出了一種跨越四個粒度級別的評估協(xié)議:整體(評估整個響應)、結(jié)構(gòu)(評估塊之間的關(guān)系)、塊(評估每個塊內(nèi)的準確性)和圖像(評估圖像的內(nèi)容)。該框架將用戶查詢轉(zhuǎn)換為類似 TIFA(Hu 等人,2023)的可解釋問答形式,在每個級別上實現(xiàn)系統(tǒng)的、可解釋的評估,填補了現(xiàn)有研究中的一個關(guān)鍵空白。
基于 ISG,我們引入了一個基準測試,其中包含用戶查詢以及詳細的問答,用于在四個級別上評估每個查詢。ISG - BENCH 由 8 個類別、21 個子類別(根據(jù)指令類型分類)和 1150 個手動收集的樣本組成,所有樣本都包含語言 - 視覺依賴關(guān)系和標準答案,以解決上述問題。所有樣本均經(jīng)過精心收集,部分來自以前的數(shù)據(jù)集,部分是重新構(gòu)建的,以保證高質(zhì)量。與現(xiàn)有基準測試不同,我們優(yōu)先考慮以視覺為中心的任務,如風格轉(zhuǎn)換,這類任務對圖像輸出有特定要求。表 1 展示了當前交錯基準測試和數(shù)據(jù)集之間的差異。為了驗證我們評估的準確性,我們將自動評估結(jié)果與人工標注的判斷在四個級別上進行了比較。ISG 的皮爾遜相似度達到了 0.718 和 0.907,在與人類判斷的一致性方面優(yōu)于以前的評估方法。
使用 ISG - BENCH,我們評估了九種可訪問的交錯文本和圖像生成方法,包括五種最近流行的統(tǒng)一模型(例如,Show - o(Xie 等人,2024),Anole(Chern 等人,2024)),以及四種組合框架(例如,Claude + SD3(Esser 等人,2024))。實證結(jié)果表明,當前的統(tǒng)一模型在指令跟隨和生成質(zhì)量方面仍有很大的改進空間。組合框架在生成高質(zhì)量多模態(tài)內(nèi)容方面明顯優(yōu)于統(tǒng)一模型,平均整體得分達到 6.262,而表現(xiàn)最好的統(tǒng)一模型 CoMM - MiniGPT - 5 的得分僅為 2.961。然而,由于它們獨立的理解和生成結(jié)構(gòu),在塊級別和圖像級別進行準確生成時仍然存在不足,特別是在視覺主導的任務中。
基于組合框架的優(yōu)越性能,我們提出了 ISG - AGENT,作為未來比較的組合基線。ISG - AGENT 通過 “計劃 - 執(zhí)行 - 優(yōu)化” 管道(Wang 等人,2024)生成交錯的文本和圖像。具體來說,它首先生成工具使用計劃,隨后執(zhí)行這些先進工具進行交錯生成,接著進行優(yōu)化過程,以實現(xiàn)更好的文本和圖像對齊并修復錯誤。值得注意的是,ISG - AGENT 在所有四個評估級別上都優(yōu)于所有其他基線。它實現(xiàn)了令人印象深刻的結(jié)構(gòu)準確率 0.871,明顯超過了之前 Gemini 的最佳成績 0.385。這些結(jié)果強調(diào)了 ISG - AGENT 在生成連貫交錯內(nèi)容方面的有效性,為多模態(tài)生成和創(chuàng)意應用中更先進的指令跟隨代理鋪平了道路。
2. 相關(guān)工作
2.1 交錯文本和圖像生成
最近,多模態(tài)大語言模型(MLLMs,GeminiTeam,2023;OpenAI,2024;2023;Li 等人,2024a)和擴散模型(Rombach 等人,2022;Esser 等人,2024;Flux,2024)的進展引發(fā)了大量旨在整合自回歸架構(gòu)(Liu 等人,2024c;Sun 等人,2024a)的研究,用于多模態(tài)理解(Yue 等人,2024;Li 等人,2023b)和生成任務(Ghosh 等人,2024;Huang 等人,2023)。在理解方面,早期研究通過簡單的視覺標記化(Li 等人,2023a)或投影方法(Li 等人,2023c;2024a)有效地將視覺感知與預訓練的大語言模型(LLMs)相結(jié)合,取得了有前景的結(jié)果。另一方面,多模態(tài)生成最初是通過預訓練的文本到圖像模型(Li 等人,2024b;Wu 等人,2023)或通過自回歸過程實現(xiàn)的,在自回歸過程中,生成的標記被解碼為圖像(Team,2024;Chern 等人,2024;Koh 等人,2024)。最近,研究人員開始探索 Transformer 和擴散模型的集成,旨在在單個框架內(nèi)統(tǒng)一多模態(tài)理解和生成任務(Zhou 等人,2024a;Xie 等人,2024;Wu 等人,2024b),這在文本和圖像的交錯生成方面展現(xiàn)出了潛力。
2.2 自動交錯文本和圖像評估
自動交錯文本和圖像評估起源于自然語言處理(NLP)中早期的文本摘要(Narayan 等人,2018),基于問答(QA)的評估方法自動將提示轉(zhuǎn)換為問題,并使用它們來驗證生成的內(nèi)容(Durmus 等人,2020;Deutsch 等人,2020;Eyal 等人,2019)。在多模態(tài)領(lǐng)域,特別是在文本到圖像生成中,基于視覺問答(VQA)的評估方法將文本轉(zhuǎn)換為原子問題,并進行視覺問答以驗證生成的圖像,從而提供更細粒度和可解釋的基準測試結(jié)果(Cho 等人,2023;Lin 等人,2024)。值得注意的是,TIFA(Hu 等人,2023)率先使用視覺問答進行自動評估,隨后有多項改進(Lu 等人,2024;Ghosh 等人,2024;Cho 等人,2024;Chen 等人,2024a)。然而,評估交錯生成仍然具有挑戰(zhàn)性。表 1 顯示,現(xiàn)有基準測試(An 等人,2023;Liu 等人,2024d)嚴重依賴零樣本的 “大語言模型作為評判者” 或傳統(tǒng)指標(Chen 等人,2024e;b),導致評估結(jié)果粗略且粒度較大。
3. 交錯場景圖
我們引入了 ISG(圖 2),這是一個用于交錯文本和圖像生成評估的綜合自動評估框架。通過使用 ISG,我們還引入了 ISG - BENCH,這是一個用于評估圖像和文本生成的基準測試。
圖2:ISG首先將用戶的查詢解析為類似場景圖的結(jié)構(gòu),以便在三個層面上進行細粒度的評估:1)在結(jié)構(gòu)層面,ISG預測查詢的交錯結(jié)構(gòu);2)在塊層面,節(jié)點代表由需求邊連接的文本-圖像塊;3)在圖像層面,圖由實體、它們的屬性及其關(guān)系組成。最后,ISG將圖結(jié)構(gòu)中的每個元素轉(zhuǎn)化為問題,使用問答模塊評估模型的交錯輸出,并隨后將這些結(jié)果匯總為一個全面的評估。
3.1 評估框架
該框架自動將查詢解釋為類似場景圖的結(jié)構(gòu),其中文本和圖像塊作為節(jié)點,它們之間的關(guān)系作為邊。基于這種圖表示,我們可以進行四個級別的全面評估:整體、結(jié)構(gòu)、塊和圖像。在每個級別,框架會生成幾個問答對,用于評估生成的響應是否適當?shù)鼗卮鹆瞬樵儭T诤暧^層面,結(jié)構(gòu)和整體問題分析整體響應的連貫性和質(zhì)量;而塊和圖像問題則評估每個內(nèi)容模塊對用戶指令的遵循程度。
結(jié)構(gòu)問題評估響應是否嚴格遵循用戶查詢中的結(jié)構(gòu)要求。如圖 2 所示,給定 “先生成圖像,然后給出說明” 的結(jié)構(gòu)要求,正確的結(jié)構(gòu)應該由 4 個圖像和 4 個文本塊交錯組成。我們利用大語言模型根據(jù)查詢預測生成的結(jié)構(gòu),隨后通過直接的結(jié)構(gòu)匹配來評估答案。
整體問題通過將多模態(tài)查詢、響應和人工標注的標準答案輸入到多模態(tài)大語言模型中,來評估整體的文本 - 圖像對齊、連貫性和有用性,然后多模態(tài)大語言模型會對整個答案輸出判斷。基于先前的工作(An 等人,2023;Liu 等人,2024d),我們通過使用帶有標準答案的 “大語言模型作為評判者” 以及 “先分析后判斷” 的思維鏈(Chain - of - Thought,CoT)(Wei 等人,2022)來改進這個過程。這允許進行更符合人類判斷的評估,評估生成質(zhì)量、文本 - 圖像對齊以及有用性,從而得出一個綜合分數(shù)。
塊問題評估每個塊內(nèi)的細粒度細節(jié)。我們最初將提示 P 表示為 “主語 - 賓語 - 關(guān)系” 元組(sub,obj,r),例如在圖 2 的示例中 < Text 1,Image 1,Describe>,其中 {sub,obj} 是表示圖像或文本塊的節(jié)點,r 是表示原子開放詞匯要求的邊。隨后,我們從這些元組生成問題,并使用視覺問答模塊進行評估,大語言模型提供 “是或否” 和 “1 - 10 分” 的答案。我們也嘗試使用 CLIPScore(Hessel 等人,2021)來評估文本 - 圖像關(guān)系,但由于文本塊超過了文本編碼器 77 個標記的限制而失敗。
圖像問題評估圖像的語義內(nèi)容。我們將多模態(tài)查詢轉(zhuǎn)換為依賴感知元組,這些元組包含實體、關(guān)系和屬性,每個都與特定生成的圖像相關(guān)聯(lián),特別是對于以視覺為主導的任務,如 “風格轉(zhuǎn)換” 和 “多角度物體”,這些任務有具體的參考答案,而 “繪畫” 任務只需要生成最終圖像的準確性。相比之下,像 “HowTo” 這樣的任務要求包含特定對象,但在其他方面允許有一定靈活性。我們根據(jù)答案中對圖像生成的要求對任務進行分類,如表 2 所示。這些元組可能包括 < Image 1,Entity,Cat > 和 < Image 1,Relation,Cat,on the right of,Dog>。隨后,我們使用大語言模型生成帶有依賴關(guān)系的問題,并通過視覺問答模塊(Cho 等人,2023)使用這些問題評估圖像生成。
為了在塊級別和圖像級別生成視覺問答問題,我們使用少樣本示例進行上下文學習(Dong 等人,2022)來實現(xiàn) ISG,并根據(jù)人工標注的地面真實情況仔細驗證這些生成的問題。關(guān)于 ISG - BENCH 的評估,請參考 4.1 節(jié),技術(shù)細節(jié)見附錄 D.1。
圖 3:左:ISG - BENCH 概述。右:查詢和標準答案的文本內(nèi)容長度和圖像數(shù)量分布分析
3.2 基準測試
基于 ISG,我們開發(fā)了第一個用于交錯文本和圖像生成的基準測試 ISG - BENCH,以評估各種任務中的多模態(tài)理解和生成能力。如表 2 所示,ISG - BENCH 由 1150 個樣本組成的分類平衡數(shù)據(jù)集,涵蓋 8 個日常交錯生成場景中的 21 個子任務。每個樣本都包括詳細的指令和結(jié)構(gòu)要求,例如 “生成四張圖像,并在生成的圖像后提供簡短的文本描述”,以評估指令跟隨能力和交錯生成能力。每個查詢都被設(shè)計為:第一,依賴于視覺和語言,這意味著它不能僅使用單一模態(tài)的信息來解決;第二,與精心收集的標準答案配對。所有樣本均通過交叉驗證和 BERTScore(Zhang 等人,2019)進行相似性過濾后收集和人工篩選,詳細信息見附錄 B.3。
數(shù)據(jù)收集和質(zhì)量控制:我們的基準測試收集過程主要包括三個階段。首先,我們根據(jù)任務定義回顧現(xiàn)有數(shù)據(jù)集,并檢索高質(zhì)量、不重疊的視覺元數(shù)據(jù),作為查詢和標準答案中的視覺信息,其中一些數(shù)據(jù)是我們自己收集的(例如,“多視圖場景生成”)。然后,我們策劃自然語言查詢,這些查詢引用圖像以進行自動評估。每個查詢都指定了輸出所需的結(jié)構(gòu)。使用多模態(tài)大語言模型為每個任務生成文本答案,隨后由人工注釋者進行審查以確保準確性。由于擔心基礎(chǔ)模型中的數(shù)據(jù)污染(Balloccu 等人,2024;Xu 等人,2024),注釋者被要求創(chuàng)建自由形式的查詢,并從頭開始開發(fā)查詢和相應的標準答案。最后,我們獲得了一個多樣化、高質(zhì)量的交錯多模態(tài)基準測試,其中查詢 - 答案對來自各種來源。為了確保樣本的質(zhì)量,我們在不同注釋者之間進行交叉驗證,以檢查格式一致性和拼寫錯誤。附錄 B 中提供了詳細的定義、收集流程和更多示例。
模態(tài)特定評估:我們通過決策樹(圖 8)將 ISG - BENCH 中的每個任務分為三種模式(即圖像、語言和兩者兼有),以確定其主要貢獻輸出的模態(tài)。例如,“HowTo” 任務需要視覺和語言內(nèi)容來解決問題,“藝術(shù)風格轉(zhuǎn)換” 主要依賴于視覺生成;而 “帶有圖像生成的視覺問答” 主要依賴于文本輸出,答案的質(zhì)量和準確性主要歸因于語言部分,生成的圖像作為補充信息。
4. 實驗與分析
我們首先將 ISG 與人工注釋進行對比驗證(4.1 節(jié)),展示其與人類判斷的一致性。隨后我們對交錯生成的評估(4.2 節(jié))揭示了統(tǒng)一模型的局限性和組合方法的部分成功,強調(diào)了當前交錯生成在指令跟隨方面面臨的挑戰(zhàn)。
4.1 評估 ISG - BENCH
?實驗設(shè)置:我們利用最受歡迎的多模態(tài)大語言模型之一 GPT-4o(OpenAI,2024)作為 ISG 的問題生成和視覺問答模塊。我們開展實驗,在不同樣本規(guī)模和指標設(shè)定下,驗證 ISG 在每個步驟的性能表現(xiàn),詳見表 3。此外,我們在附錄 E.2 中驗證了 ISG-BENCH 的 “多模態(tài)依賴” 特性。
所有結(jié)果都通過交叉驗證,與人工標注的基準事實進行對比。圖 4 展示了 ISG-BENCH 中視覺問答實例的分布情況。對于問題生成模塊,如果生成結(jié)果的主語和賓語與基準事實匹配,且 BertScore(Zhang 等人,2019)高于 0.8,則認定為正確。我們在 ISG 的視覺問答模塊實驗中采用 “先分析再判斷” 的思維鏈(CoT)框架(Wei 等人,2022),設(shè)置了兩種模式:“1-10 分” 評分(Lin 等人,2024)和直接 “是或否” 判斷(Cho 等人,2023)。我們還對視覺輸入、作為文本信息的圖像字幕以及少樣本提示進行了消融實驗,以探究 ISG 的最佳設(shè)置。對于 “大語言模型作為評判者”(MLLM-as-a-Judge),我們遵循先前研究,使用人工一致性作為評估指標(Chen 等人,2024a;f)。
?ISG 在各任務的每個模塊中表現(xiàn)出色:如表 3 所示,ISG 的每個模塊都與人工標注高度吻合。在結(jié)構(gòu)方面,ISG 在所有任務中均展現(xiàn)出一致的卓越性能,這表明其在捕捉交錯生成指令中的結(jié)構(gòu)要求方面具有強大潛力。在問題生成(Q-Gen)和視覺問答模塊中,ISG 能夠成功提取細粒度的要求,與基準事實高度一致。對于視覺問答模塊,評分方法始終優(yōu)于 “是或否” 方法,這表明更細致的判斷與人工評估更為契合,尤其是在附錄 D.1.1 中強調(diào)的模糊案例中。與其他任務相比,視覺引導的任務表現(xiàn)始終較差,在問題生成和視覺問答模塊中均出現(xiàn)顯著下降,這凸顯了自動評估交錯文本和圖像生成細粒度方面的挑戰(zhàn)。在整體評估中,借助標準答案的評估方式顯著優(yōu)于大語言模型的零樣本判斷設(shè)置,在視覺引導任務中優(yōu)勢更為明顯,平均提升幅度達到 20%。
?視覺輸入和少樣本提示的消融研究:為進行更全面的研究,我們在視覺輸入和少樣本示例這兩種條件下對 ISG 展開評估。如表 4 所示,多模態(tài)輸入在塊級和圖像級問題生成中存在差異,圖像級問題生成有輕微提升。此外,少樣本上下文學習在這兩個任務中都帶來了顯著提升,塊級任務性能提高超過 30%,圖像級任務提高 10% 以上,在視覺 - 語言引導任務中通過對預測生成內(nèi)容的要求進行限制,提升效果更為明顯。對于語言引導任務,少樣本學習使塊級性能提升 70%,進一步證明了針對此類創(chuàng)意生成任務建立準確評估框架的可行性。
4.2 基準測試交錯文本和圖像生成
?實驗設(shè)置:我們評估了 10 種能夠生成交錯文本和圖像內(nèi)容的框架,包括 4 種最近發(fā)布的統(tǒng)一模型 Show-o^{1}(Xie 等人,2024)、Anole(Chern 等人,2024)、Minigpt-5(Li 等人,2024b)、CoMM-Minigpt-5(Chen 等人,2024e)、SEED-LLaMA(Li 等人,2023b),以及兩種組合設(shè)置,使用 Gemini-1.5-Pro(GeminiTeam,2023)和 Claude-3.5-Sonnet(Anthropic,2024)作為多模態(tài)預處理器^{2},SD3(Esser 等人,2024)作為生成器,并使用 SD2.1(Rombach 等人,2022)進行對比研究。對于 ISG,我們采用 4.1 節(jié)中表現(xiàn)最佳的設(shè)置,以實現(xiàn)完全自動的評估設(shè)置。詳細的實驗設(shè)置和成本分析請參考附錄 D 和 E.1。
?統(tǒng)一模型在準確交錯生成方面表現(xiàn)不佳:如表 5 所示,所有統(tǒng)一模型在按照我們的指令生成交錯文本和圖像內(nèi)容方面都存在顯著缺陷。許多模型僅生成一到三張圖像,有些甚至根本無法生成圖像。因此,這些模型無法進行塊級和圖像級的評估。在整體評估中,這些模型在語言主導的任務中表現(xiàn)出較強的能力,但在視覺主導的任務中表現(xiàn)明顯不佳。這種差異進一步證實了當前統(tǒng)一模型的訓練數(shù)據(jù)集缺乏足夠的視覺主導指令調(diào)整樣本的假設(shè),例如 “風格遷移” 和 “圖像分解” 任務的樣本。值得注意的是,Show-o 作為首批統(tǒng)一自回歸模型之一,具有較強的結(jié)構(gòu)準確性,但存在幻覺問題 —— 根據(jù)系統(tǒng)提示而非用戶指令生成圖像,如圖 39 所示。同樣,Anole 在統(tǒng)一模型中實現(xiàn)了 SOTA 性能,凸顯了其架構(gòu)設(shè)計的潛力。
?視覺主導的任務對所有模型都具有挑戰(zhàn)性:鑒于這些組合框架對圖像的感知和生成是分開進行的,并非端到端的方式,這意味著它們由于其固有結(jié)構(gòu),自然無法在諸如精確圖像編輯等任務中表現(xiàn)出色。另一方面,盡管這些統(tǒng)一模型有潛力以端到端的方式理解和生成圖像,并宣稱在 “圖像生成” 或 “圖像編輯” 等視覺生成任務中具備能力,但在理解多模態(tài)查詢以生成包含多個圖像的交錯內(nèi)容方面仍存在不足。如圖 6 所示,表現(xiàn)最佳的統(tǒng)一模型 Anole 無法理解輸出格式,并且偏離了輸入圖像的上下文,這表明它們在視覺上下文學習中的圖像生成能力存在缺陷(Sun 等人,2024b)。
?大語言模型作為評判者無法評估細粒度的準確生成:如表 5 和表 6 所示,整體評估結(jié)果與三個細粒度級別的評估結(jié)果之間的不一致,揭示了大語言模型作為評判者在全面評估響應方面存在顯著局限性,即使提供了用戶指令和正確的標準答案。具體而言,大語言模型作為評判者難以根據(jù)細粒度標準評估響應,例如輸出結(jié)構(gòu)(包括圖像數(shù)量)和提示中規(guī)定的詳細文本 - 圖像關(guān)系。此外,我們對表 7 結(jié)果的分析揭示了大語言模型作為評判者存在固有偏差,即 “圖像質(zhì)量偏差”,即使這些響應可能違反用戶的指令要求和評判準則,具有更高質(zhì)量圖像內(nèi)容的響應也始終會獲得更高的分數(shù)。這種偏差表明,即使提供了標準答案,大語言模型作為評判者仍然無法對符合特定要求的交錯響應進行準確評估。
5. ISG-AGENT:設(shè)計一個基線代理
盡管統(tǒng)一生成模型(Chern 等人,2024;Zhou 等人,2024a;Team,2024)在多模態(tài)交錯生成方面顯示出潛力,但即使經(jīng)過微調(diào),生成交錯文本和圖像內(nèi)容仍然具有挑戰(zhàn)性。受先前視覺生成任務組合框架(Gupta 和 Kembhavi,2023;Surís 等人,2023;Ma 等人,2024)的啟發(fā),我們提出了 ISG-AGENT,這是一個供未來基準測試使用的基線代理。
5.1 代理設(shè)置
圖 5 展示了 ISG-AGENT 的概述,它由三個組件 —— 規(guī)劃、執(zhí)行和優(yōu)化 —— 協(xié)同工作,用于交錯文本和圖像生成。
?規(guī)劃:該組件作為解釋用戶多模態(tài)查詢的接口,并以 JSON 格式生成相應的工具使用計劃。該計劃概述了主要涉及工具調(diào)用的順序步驟。通過利用大語言模型作為骨干,它確保創(chuàng)建一個準確的交錯生成計劃,嚴格遵守用戶指令,包括對細粒度文本 - 圖像塊要求的規(guī)范。每個步驟都包括明確的工具執(zhí)行功能和后續(xù)工具使用的自然語言描述。
?工具使用:該組件負責執(zhí)行帶有日志記錄的工具(Schick 等人,2024)。在每個步驟中,它從工具庫中選擇最合適的工具,并為指定工具提供經(jīng)過優(yōu)化的描述性文本和圖像,例如使用大語言模型進行圖像字幕生成,使用擴散模型進行圖像生成。為避免工具使用過程中可能出現(xiàn)的偏差,代理被設(shè)計為生成與指令緊密對齊的描述,專門用于工具調(diào)用。
?優(yōu)化:該組件負責審查和提高上一步生成內(nèi)容的質(zhì)量,通過分析錯誤消息或不適當?shù)纳桑⑼ㄟ^使用更詳細和精確的執(zhí)行指令重建錯誤步驟來解決問題,直到問題得到解決(Wu 等人,2024a)。此外,該代理通過轉(zhuǎn)換代詞、添加連詞和刪除重復描述來優(yōu)化文本,以提高一致性和文本質(zhì)量,從而創(chuàng)建更連貫且文本 - 圖像對齊的內(nèi)容,而不是幾個離散的片段。
這種用于交錯文本和圖像生成的 “計劃 - 執(zhí)行 - 優(yōu)化” 管道確保最終輸出緊密符合用戶指令,同時自主高效地處理各種任務。我們在圖 37 和圖 38 中提供了兩個 ISG-AGENT 性能的示例。更多技術(shù)細節(jié),請參考附錄 D.2。
5.2 實驗
?設(shè)置:我們利用 GPT-4o 進行規(guī)劃和驗證代理,使用 Claude-3.5-Sonnet 進行工具選擇,使用 SD3 作為圖像生成器,并使用多種工具(UltraEdit(Zhao 等人,2024)、DynamiCrafter(Xing 等人,2023)、SV3D(Voleti 等人,2024)和 DreamMover(Shen 等人,2024))。
?ISG-AGENT 在視覺主導任務中表現(xiàn)出色,但在語言引導任務中有所欠缺:如表 6 所示,ISG-AGENT 嚴格遵循用戶要求生成交錯內(nèi)容,在各種任務的塊級和圖像級評估中,與人類的標準答案取得了可比的結(jié)果,尤其是在 “風格遷移” 和 “3D 場景” 等視覺主導任務中。在 “漸進式轉(zhuǎn)換” 任務中的 SOTA 結(jié)果也展示了圖像內(nèi)容的良好連貫性,甚至與人類收集的答案相符。盡管 “大語言模型 + 擴散” 框架在準確的指令跟隨方面存在不足,但它們在一些語言主導任務的整體評估中取得了 SOTA 結(jié)果,展示了其在文本信息生成方面的高質(zhì)量。
?增強組件提高了一般響應質(zhì)量:兩個圖像生成模型之間的對比分析(表 6)和對工具的消融研究(表 7)一致表明,在采用增強組件時,ISG-AGENT 在各種任務級別上都表現(xiàn)出卓越的性能,從而強調(diào)了先進工具在生成更準確和高保真內(nèi)容方面的重要性。此外,優(yōu)化模塊的加入顯著有助于改善文本 - 圖像對齊,大幅提高了塊級和整體性能,這突出了在組合框架中優(yōu)化單個組件以實現(xiàn)精確交錯生成的潛力。
6. 結(jié)論
本文通過引入首個自動多粒度評估框架交錯場景圖(INTERLEAVED SCENE GRAPH)、提出包含 8 種不同任務的 1150 個多模態(tài)查詢的 ISG-BENCH 基準測試,以及用于探索該任務的代理框架 ISG-AGENT,推動了交錯文本和圖像生成評估領(lǐng)域的發(fā)展。我們的全面研究評估了 10 種前沿的多模態(tài)交錯生成框架,為未來研究提供了關(guān)鍵見解并奠定了堅實基礎(chǔ)(見附錄 A)。我們強調(diào)了持續(xù)努力開發(fā)更好的交錯生成模型和評估框架的重要性。
本文轉(zhuǎn)載自??AIRoobt?? ,作者:Dongping Chen等
