全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt?
背景
隨著 GPT-4o 在圖像生成任務(wù)上的橫空出世,以及越來越多采用 自回歸架構(gòu)(auto-regressive architecture) 的文本到圖像(T2I)模型迅速發(fā)展,當(dāng)前一代的生成模型在理解與執(zhí)行用戶復(fù)雜指令(prompts)方面,已經(jīng)實現(xiàn)了飛躍式突破?。
如今的 T2I 模型不僅能識別多個屬性(如顏色、材質(zhì)、風(fēng)格等),還能處理帶有 邏輯推理結(jié)構(gòu)甚至復(fù)雜修辭的超長自然語言指令。
A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
1.a blue star;2.red triangle;3. green square;4.pink circle;5.orange hourglass;6.purple infinity sign;7.black and white polka dot bowtie;8.tiedye "42";9. an orange cat wearing a black baseball cap;10.a map with a treasure chest;11. a pair of googly eyes;12.a thumbs up emoji;13. a pair of scissors;14.a blue and white giraffe;15.the word "OpenAI" written in cursive;16.a rainbow-colored lightning bolt
例如:GPT-4o生圖的官方例子,prompt涉及數(shù)百個單詞,以及非常復(fù)雜的屬性與位置關(guān)系組合
?? 然而問題也隨之暴露:現(xiàn)有主流的 T2I Benchmark 明顯滯后,無法有效衡量這些強模型的真實能力。
?? 我們總結(jié)出當(dāng)前 T2I 評測基準(zhǔn)面臨的四大問題:
1?? Prompt 設(shè)計簡化、結(jié)構(gòu)單一:許多 benchmark 中的大多數(shù)prompt 長度極短,而且大多為模板化句式(如“a photo of a [object] with [attribute]”),難以反映真實使用場景中復(fù)雜需求的處理能力。
2?? 語義多樣性嚴(yán)重不足:以 GenAI Bench 為例,其 prompt 集中度極高,只有不到 30% 的 prompts 是語義獨立的(semantic unique),導(dǎo)致模型評測分?jǐn)?shù)逐漸“內(nèi)卷收斂”,難以區(qū)分強模型和弱模型的能力差異。
3?? 缺乏真實場景長指令:現(xiàn)實中,用戶往往會輸入多屬性、帶有條件關(guān)系和上下文邏輯的自然語言描述。而現(xiàn)有 benchmark 極少覆蓋這類“設(shè)計師風(fēng)格”或“專業(yè)用戶需求”指令,導(dǎo)致模型訓(xùn)練和評測脫節(jié)。
4?? 評測方法粗糙且與人類直覺不符:目前大多數(shù) benchmark 仍依賴 CLIP 相似度(CLIPScore 或類似變體)進行自動評測。這類評測手段僅能判斷“是否與文本概念大致對齊”,卻無法評估圖像中每個細節(jié)是否精準(zhǔn)反映用戶意圖(例如無法區(qū)分“a boy under a bee”和“a bee under a boy”),也無法體現(xiàn)人類真實偏好??。
現(xiàn)有Bench的不足之處
Prompt 設(shè)計的不足:簡化、結(jié)構(gòu)單一,語義多樣性與文法多樣性不足,且缺乏真實場景長指令:
長度偏短且固定(右圖):常見bench中的絕大多數(shù)prompt都不大于30個單詞,這和現(xiàn)實場景中T2I模型所面對的prompt長度gap很大;
缺乏真實使用場景下的長指令(左下圖):常見Bench的最長prompt也是較為簡單的句子,TIIF-Bench包含了許多從AIGC論壇上手工收集的復(fù)雜、真實用戶prompt;
語義重復(fù)性高(左上圖):我們使用CLIP提取了不同Bench中所有prompts的文本語義特征并計算了consine相似度,以0.85為threshold,發(fā)現(xiàn)GenAI Bench中只有不到30%的prompt是semantic unique的,Compbench++中只有不到60%,而TIIF-Bench中semantic unique prompts大于90%;
文法復(fù)雜度低(中間圖):我們將不同Bench的所有prompts的CLIP文本語義特征進行了t-SNE降維,TIIF-Bench的range范圍最大;
然而實驗表明:即使核心語義相同,不同長度的prompt對T2I model有很大影響:
現(xiàn)有的bench完全缺乏這一維度的考量!
評測方法的不足:粗糙且與人類直覺不符
目前大多數(shù) benchmark 仍依賴 CLIP 相似度(CLIPScore 或類似變體)和其它一些專家模型進行自動評測:
然而CLIP無法評估圖像中每個細節(jié)是否精準(zhǔn)反映用戶意圖(例如無法區(qū)分“a boy under a bee”和“a bee under a boy”),也無法體現(xiàn)人類真實偏好??。UNIDet等開集檢測模型則無法對現(xiàn)代T2I model生成的復(fù)雜圖像進行有效檢測。
TIIF-Bench的構(gòu)建
我們設(shè)計了一個 多階段的 prompt 生成流程:
1?? 概念池構(gòu)建(Concept Pool Construction)
?首先對現(xiàn)有 benchmark 的 prompt 進行語義分組,借助 GPT-4o 自動提取核心的“物體–屬性/關(guān)系”結(jié)構(gòu)。
?最終我們構(gòu)建了 10 個概念維度,并將其劃分為三大類:屬性類(Attribute)、關(guān)系類(Relation) 和 推理類(Reasoning),詳見:
圖片
2?? 屬性組合(Attribute Composition)
?從上述概念池中采樣屬性組合,使用 GPT-4o 自動生成自然語言指令。我們設(shè)計了 36 個不同的組合模式,并為每種組合搭配了專屬的 meta-prompt 引導(dǎo)生成。
?組合策略分為:
?Basic Following:只涉及同一類屬性的組合;
?Advanced Following:跨類別組合,內(nèi)容更復(fù)雜;
3?? 新評測維度
?Text Rendering:衡量T2I模型生成復(fù)雜非自然紋理的能力!我們專門設(shè)計了新指標(biāo)GNED來對其進行評測,難度歸類為Advanced Following;
?Style Control:衡量T2I模型整體的內(nèi)容理解與控制能力!我們從手動AIGC社區(qū)挑選了10個最常用的風(fēng)格,難度歸類為Advanced Following;
?Real World:衡量T2I模型的綜合能力!我們手動從AIGC社區(qū)篩選了100個受歡迎、內(nèi)容復(fù)雜、有趣的設(shè)計師級別prompt,難度單獨歸類為Designer Level Following;
4?? 長度擴展(Length Augmentation)
?為每條 prompt 自動生成一個 長文本版本,通過 GPT-4o 進行語言豐富化和風(fēng)格潤色,測試模型對不同語言復(fù)雜度指令的適應(yīng)能力。
TIIF-Bench的評測流程
我們提出了一種基于 屬性級問答匹配(Attribute-Specific QA Matching) 的評測框架:
? 核心步驟:
1.概念抽取:
從生成指令中提取出 N 個核心語義概念(如物體屬性、物體間關(guān)系、邏輯關(guān)系等);?
2.問題生成:
由 GPT-4o 為每個概念自動生成一個二選一問句(Yes/No Question),如“這張圖中有紅色汽車嗎?”、“人是在汽車的左邊嗎?”;?
3.答案匹配:
將生成圖像和所有問題一起輸入到多模態(tài)大模型(如 GPT-4o 或 QwenVL),獲取預(yù)測答案,并與標(biāo)準(zhǔn)答案進行比較;?
4.評分計算:
通過平均匹配準(zhǔn)確率得出最終分?jǐn)?shù),避免了使用全 prompt 的語言偏見與幻覺。?
?? 特殊維度評測:
?Designer-Level Prompt:每條指令搭配人工制定的專屬問句,確保高可靠性。
?Text Rendering:使用OCR Recall和全新提出的指標(biāo) GNED(Global Normalized Edit Distance):
?用于衡量圖中文字與目標(biāo)文本在字符層面的匹配度;
?同時懲罰遺漏、冗余、錯誤字形等問題;
?相比 PNED 更穩(wěn)定、魯棒,適用于任意文本長度與格式。
一些有趣的insights
我們將模型分為三類進行分析:
1?? Diffusion 架構(gòu)的開源模型
代表模型包括:SD 系列、FLUX.1 Dev、SANA 系列、PixArt 系列、Playground 系列等。
?整體表現(xiàn):SD 3.5 在短指令上得分最高;而 FLUX.1 Dev 在長指令場景中表現(xiàn)最強,得益于其 MMDiT 架構(gòu)和更大模型規(guī)模。
?文字生成(Text Rendering):僅有 FLUX.1 Dev、SANA 系列、SD 系列部分版本支持文本生成。其中 FLUX.1 Dev 在短長指令下均表現(xiàn)穩(wěn)定。
?風(fēng)格控制(Style Control):部分模型(如 Playground)在長 prompt 下風(fēng)格生成質(zhì)量反而更好,因為長指令提供了更多語義上下文;而 SD 3.5、PixArt-Sigma 等模型更依賴短標(biāo)簽提示,長 prompt 會稀釋風(fēng)格信號。
?設(shè)計師級指令:這類 prompts 是最具挑戰(zhàn)性的維度,模型在該維度的排名通常也代表其綜合實力。
?對 prompt 長度的魯棒性:如 FLUX.1 Dev、SD 3.5、PixArt-Sigma 等表現(xiàn)穩(wěn)定;而弱模型(如 SDXL、PixArt-Alpha)在長指令下明顯退化。T2I模型的指令理解能力與其綜合生成能力呈正相關(guān)!
2?? 自回歸(AR)架構(gòu)的開源模型
代表模型包括:Janus-Pro、Infinity、Show-o 等
?整體表現(xiàn):Janus-Pro 表現(xiàn)最佳,得益于其融合生成與理解的訓(xùn)練策略。
?文字生成能力較弱,但 Janus-Pro 和 Show-o 可生成基本文字。
?風(fēng)格控制能力強,對復(fù)雜風(fēng)格語義理解更到位。
?視覺保真度略遜一籌,但在復(fù)雜邏輯理解、長 prompt 指令跟隨方面表現(xiàn)亮眼。
自回歸T2I模型雖然在生成圖像畫質(zhì)方面表現(xiàn)一般,但是在理解指令方面表現(xiàn)優(yōu)異
3?? 閉源模型
包括:GPT-4o、DALL·E 3、MidJourney V6/V7、Flux.1 Pro 等
?GPT-4o 在所有維度遙遙領(lǐng)先,不僅圖像質(zhì)量極高,指令理解也最強,是唯一在復(fù)雜邏輯推理(如否定、比較等)任務(wù)上始終保持穩(wěn)定的模型。
?文字渲染上,GPT-4o 成功率遠高于其他模型。
?風(fēng)格控制與設(shè)計師指令執(zhí)行能力方面也顯著優(yōu)于所有閉源/開源對手。
?值得注意的是,F(xiàn)lux.1 Pro 的表現(xiàn)竟不如開源的 Flux.1 Dev,尤其是在長 prompt 情境下,閉源不一定優(yōu)于開源!
?? 與其他 Benchmark 對比
我們選取了四個開源模型(SD 3.5、SANA 1.5、PixArt-Sigma、Janus-Pro)和四個閉源模型(GPT-4o、DALL·E 3、MidJourney V6、Flux.1 Pro),在三個 Benchmark 上進行橫向評測:TIIF-Bench、CompBench++、GenAI Bench。
?? 對比發(fā)現(xiàn)
?GenAI Bench 和 CompBench++ 中存在評分收斂、模型難以區(qū)分的問題,例如多個模型得分完全一樣。
?CompBench++ 中,專家模型打分與 GPT 打分存在顯著偏差。
?TIIF-Bench 在評測維度細致度、模型區(qū)分能力方面更強,能夠穩(wěn)定給出符合模型能力的排序。
本文轉(zhuǎn)載自??AI-PaperDaily??,作者:AI-PaperDaily
