全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt？

發(fā)布于 2025-6-6 06:14

瀏覽

0收藏

背景

隨著 GPT-4o 在圖像生成任務(wù)上的橫空出世，以及越來越多采用自回歸架構(gòu)（auto-regressive architecture）的文本到圖像（T2I）模型迅速發(fā)展，當(dāng)前一代的生成模型在理解與執(zhí)行用戶復(fù)雜指令（prompts）方面，已經(jīng)實現(xiàn)了飛躍式突破?。

如今的 T2I 模型不僅能識別多個屬性（如顏色、材質(zhì)、風(fēng)格等），還能處理帶有邏輯推理結(jié)構(gòu)甚至復(fù)雜修辭的超長自然語言指令。

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt？-AI.x社區(qū)

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:

1.a blue star；2.red triangle；3. green square；4.pink circle；5.orange hourglass；6.purple infinity sign；7.black and white polka dot bowtie；8.tiedye "42"；9. an orange cat wearing a black baseball cap；10.a map with a treasure chest；11. a pair of googly eyes；12.a thumbs up emoji；13. a pair of scissors；14.a blue and white giraffe；15.the word "OpenAI" written in cursive；16.a rainbow-colored lightning bolt

例如：GPT-4o生圖的官方例子，prompt涉及數(shù)百個單詞，以及非常復(fù)雜的屬性與位置關(guān)系組合

?? 然而問題也隨之暴露：現(xiàn)有主流的 T2I Benchmark 明顯滯后，無法有效衡量這些強模型的真實能力。

?? 我們總結(jié)出當(dāng)前 T2I 評測基準(zhǔn)面臨的四大問題：

1?? Prompt 設(shè)計簡化、結(jié)構(gòu)單一：許多 benchmark 中的大多數(shù)prompt 長度極短，而且大多為模板化句式（如“a photo of a [object] with [attribute]”），難以反映真實使用場景中復(fù)雜需求的處理能力。

2?? 語義多樣性嚴(yán)重不足：以 GenAI Bench 為例，其 prompt 集中度極高，只有不到 30% 的 prompts 是語義獨立的（semantic unique），導(dǎo)致模型評測分?jǐn)?shù)逐漸“內(nèi)卷收斂”，難以區(qū)分強模型和弱模型的能力差異。

3?? 缺乏真實場景長指令：現(xiàn)實中，用戶往往會輸入多屬性、帶有條件關(guān)系和上下文邏輯的自然語言描述。而現(xiàn)有 benchmark 極少覆蓋這類“設(shè)計師風(fēng)格”或“專業(yè)用戶需求”指令，導(dǎo)致模型訓(xùn)練和評測脫節(jié)。

4?? 評測方法粗糙且與人類直覺不符：目前大多數(shù) benchmark 仍依賴 CLIP 相似度（CLIPScore 或類似變體）進行自動評測。這類評測手段僅能判斷“是否與文本概念大致對齊”，卻無法評估圖像中每個細節(jié)是否精準(zhǔn)反映用戶意圖（例如無法區(qū)分“a boy under a bee”和“a bee under a boy”），也無法體現(xiàn)人類真實偏好??。

現(xiàn)有Bench的不足之處

Prompt 設(shè)計的不足：簡化、結(jié)構(gòu)單一，語義多樣性與文法多樣性不足，且缺乏真實場景長指令：

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt？-AI.x社區(qū)

長度偏短且固定（右圖）：常見bench中的絕大多數(shù)prompt都不大于30個單詞，這和現(xiàn)實場景中T2I模型所面對的prompt長度gap很大；

缺乏真實使用場景下的長指令（左下圖）：常見Bench的最長prompt也是較為簡單的句子，TIIF-Bench包含了許多從AIGC論壇上手工收集的復(fù)雜、真實用戶prompt；

語義重復(fù)性高（左上圖）：我們使用CLIP提取了不同Bench中所有prompts的文本語義特征并計算了consine相似度，以0.85為threshold，發(fā)現(xiàn)GenAI Bench中只有不到30%的prompt是semantic unique的，Compbench++中只有不到60%，而TIIF-Bench中semantic unique prompts大于90%；

文法復(fù)雜度低（中間圖）：我們將不同Bench的所有prompts的CLIP文本語義特征進行了t-SNE降維，TIIF-Bench的range范圍最大；

然而實驗表明：即使核心語義相同，不同長度的prompt對T2I model有很大影響：

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt？-AI.x社區(qū)

現(xiàn)有的bench完全缺乏這一維度的考量！

評測方法的不足：粗糙且與人類直覺不符

目前大多數(shù) benchmark 仍依賴 CLIP 相似度（CLIPScore 或類似變體）和其它一些專家模型進行自動評測：

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt？-AI.x社區(qū)

然而CLIP無法評估圖像中每個細節(jié)是否精準(zhǔn)反映用戶意圖（例如無法區(qū)分“a boy under a bee”和“a bee under a boy”），也無法體現(xiàn)人類真實偏好??。UNIDet等開集檢測模型則無法對現(xiàn)代T2I model生成的復(fù)雜圖像進行有效檢測。

TIIF-Bench的構(gòu)建

我們設(shè)計了一個多階段的 prompt 生成流程：

1?? 概念池構(gòu)建（Concept Pool Construction）

?首先對現(xiàn)有 benchmark 的 prompt 進行語義分組，借助 GPT-4o 自動提取核心的“物體–屬性/關(guān)系”結(jié)構(gòu)。

?最終我們構(gòu)建了 10 個概念維度，并將其劃分為三大類：屬性類（Attribute）、關(guān)系類（Relation）和推理類（Reasoning），詳見：

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt？-AI.x社區(qū) 圖片

2?? 屬性組合（Attribute Composition）

?從上述概念池中采樣屬性組合，使用 GPT-4o 自動生成自然語言指令。我們設(shè)計了 36 個不同的組合模式，并為每種組合搭配了專屬的 meta-prompt 引導(dǎo)生成。

?組合策略分為：

?Basic Following：只涉及同一類屬性的組合；

?Advanced Following：跨類別組合，內(nèi)容更復(fù)雜；

3?? 新評測維度

?Text Rendering：衡量T2I模型生成復(fù)雜非自然紋理的能力！我們專門設(shè)計了新指標(biāo)GNED來對其進行評測，難度歸類為Advanced Following；

?Style Control：衡量T2I模型整體的內(nèi)容理解與控制能力！我們從手動AIGC社區(qū)挑選了10個最常用的風(fēng)格，難度歸類為Advanced Following；

?Real World：衡量T2I模型的綜合能力！我們手動從AIGC社區(qū)篩選了100個受歡迎、內(nèi)容復(fù)雜、有趣的設(shè)計師級別prompt，難度單獨歸類為Designer Level Following；

4?? 長度擴展（Length Augmentation）

?為每條 prompt 自動生成一個長文本版本，通過 GPT-4o 進行語言豐富化和風(fēng)格潤色，測試模型對不同語言復(fù)雜度指令的適應(yīng)能力。

TIIF-Bench的評測流程

我們提出了一種基于屬性級問答匹配（Attribute-Specific QA Matching）的評測框架：

? 核心步驟：

1.概念抽取：
從生成指令中提取出 N 個核心語義概念（如物體屬性、物體間關(guān)系、邏輯關(guān)系等）；?

2.問題生成：
由 GPT-4o 為每個概念自動生成一個二選一問句（Yes/No Question），如“這張圖中有紅色汽車嗎？”、“人是在汽車的左邊嗎？”；?

3.答案匹配：
將生成圖像和所有問題一起輸入到多模態(tài)大模型（如 GPT-4o 或 QwenVL），獲取預(yù)測答案，并與標(biāo)準(zhǔn)答案進行比較；?

4.評分計算：
通過平均匹配準(zhǔn)確率得出最終分?jǐn)?shù)，避免了使用全 prompt 的語言偏見與幻覺。?

?? 特殊維度評測：

?Designer-Level Prompt：每條指令搭配人工制定的專屬問句，確保高可靠性。

?Text Rendering：使用OCR Recall和全新提出的指標(biāo) GNED（Global Normalized Edit Distance）：

?用于衡量圖中文字與目標(biāo)文本在字符層面的匹配度；

?同時懲罰遺漏、冗余、錯誤字形等問題；

?相比 PNED 更穩(wěn)定、魯棒，適用于任意文本長度與格式。

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt？-AI.x社區(qū)

一些有趣的insights

我們將模型分為三類進行分析：

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt？-AI.x社區(qū)

1?? Diffusion 架構(gòu)的開源模型

代表模型包括：SD 系列、FLUX.1 Dev、SANA 系列、PixArt 系列、Playground 系列等。

?整體表現(xiàn)：SD 3.5 在短指令上得分最高；而 FLUX.1 Dev 在長指令場景中表現(xiàn)最強，得益于其 MMDiT 架構(gòu)和更大模型規(guī)模。

?文字生成（Text Rendering）：僅有 FLUX.1 Dev、SANA 系列、SD 系列部分版本支持文本生成。其中 FLUX.1 Dev 在短長指令下均表現(xiàn)穩(wěn)定。

?風(fēng)格控制（Style Control）：部分模型（如 Playground）在長 prompt 下風(fēng)格生成質(zhì)量反而更好，因為長指令提供了更多語義上下文；而 SD 3.5、PixArt-Sigma 等模型更依賴短標(biāo)簽提示，長 prompt 會稀釋風(fēng)格信號。

?設(shè)計師級指令：這類 prompts 是最具挑戰(zhàn)性的維度，模型在該維度的排名通常也代表其綜合實力。

?對 prompt 長度的魯棒性：如 FLUX.1 Dev、SD 3.5、PixArt-Sigma 等表現(xiàn)穩(wěn)定；而弱模型（如 SDXL、PixArt-Alpha）在長指令下明顯退化。T2I模型的指令理解能力與其綜合生成能力呈正相關(guān)！

2?? 自回歸（AR）架構(gòu)的開源模型

代表模型包括：Janus-Pro、Infinity、Show-o 等

?整體表現(xiàn)：Janus-Pro 表現(xiàn)最佳，得益于其融合生成與理解的訓(xùn)練策略。

?文字生成能力較弱，但 Janus-Pro 和 Show-o 可生成基本文字。

?風(fēng)格控制能力強，對復(fù)雜風(fēng)格語義理解更到位。

?視覺保真度略遜一籌，但在復(fù)雜邏輯理解、長 prompt 指令跟隨方面表現(xiàn)亮眼。

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt？-AI.x社區(qū)

自回歸T2I模型雖然在生成圖像畫質(zhì)方面表現(xiàn)一般，但是在理解指令方面表現(xiàn)優(yōu)異

3?? 閉源模型

包括：GPT-4o、DALL·E 3、MidJourney V6/V7、Flux.1 Pro 等

?GPT-4o 在所有維度遙遙領(lǐng)先，不僅圖像質(zhì)量極高，指令理解也最強，是唯一在復(fù)雜邏輯推理（如否定、比較等）任務(wù)上始終保持穩(wěn)定的模型。

?文字渲染上，GPT-4o 成功率遠高于其他模型。

?風(fēng)格控制與設(shè)計師指令執(zhí)行能力方面也顯著優(yōu)于所有閉源/開源對手。

?值得注意的是，F(xiàn)lux.1 Pro 的表現(xiàn)竟不如開源的 Flux.1 Dev，尤其是在長 prompt 情境下，閉源不一定優(yōu)于開源！

?? 與其他 Benchmark 對比

我們選取了四個開源模型（SD 3.5、SANA 1.5、PixArt-Sigma、Janus-Pro）和四個閉源模型（GPT-4o、DALL·E 3、MidJourney V6、Flux.1 Pro），在三個 Benchmark 上進行橫向評測：TIIF-Bench、CompBench++、GenAI Bench。