成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt?

發(fā)布于 2025-6-6 06:14
瀏覽
0收藏

背景

隨著 GPT-4o 在圖像生成任務(wù)上的橫空出世,以及越來越多采用 自回歸架構(gòu)(auto-regressive architecture) 的文本到圖像(T2I)模型迅速發(fā)展,當(dāng)前一代的生成模型在理解與執(zhí)行用戶復(fù)雜指令(prompts)方面,已經(jīng)實現(xiàn)了飛躍式突破?。

如今的 T2I 模型不僅能識別多個屬性(如顏色、材質(zhì)、風(fēng)格等),還能處理帶有 邏輯推理結(jié)構(gòu)甚至復(fù)雜修辭的超長自然語言指令。

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:

1.a blue star;2.red triangle;3. green square;4.pink circle;5.orange hourglass;6.purple infinity sign;7.black and white polka dot bowtie;8.tiedye "42";9. an orange cat wearing a black baseball cap;10.a map with a treasure chest;11. a pair of googly eyes;12.a thumbs up emoji;13. a pair of scissors;14.a blue and white giraffe;15.the word "OpenAI" written in cursive;16.a rainbow-colored lightning bolt

例如:GPT-4o生圖的官方例子,prompt涉及數(shù)百個單詞,以及非常復(fù)雜的屬性與位置關(guān)系組合

?? 然而問題也隨之暴露:現(xiàn)有主流的 T2I Benchmark 明顯滯后,無法有效衡量這些強模型的真實能力。

?? 我們總結(jié)出當(dāng)前 T2I 評測基準(zhǔn)面臨的四大問題:

1?? Prompt 設(shè)計簡化、結(jié)構(gòu)單一:許多 benchmark 中的大多數(shù)prompt 長度極短,而且大多為模板化句式(如“a photo of a [object] with [attribute]”),難以反映真實使用場景中復(fù)雜需求的處理能力。

2?? 語義多樣性嚴(yán)重不足:以 GenAI Bench 為例,其 prompt 集中度極高,只有不到 30% 的 prompts 是語義獨立的(semantic unique),導(dǎo)致模型評測分?jǐn)?shù)逐漸“內(nèi)卷收斂”,難以區(qū)分強模型和弱模型的能力差異。

3?? 缺乏真實場景長指令:現(xiàn)實中,用戶往往會輸入多屬性、帶有條件關(guān)系和上下文邏輯的自然語言描述。而現(xiàn)有 benchmark 極少覆蓋這類“設(shè)計師風(fēng)格”或“專業(yè)用戶需求”指令,導(dǎo)致模型訓(xùn)練和評測脫節(jié)。

4?? 評測方法粗糙且與人類直覺不符:目前大多數(shù) benchmark 仍依賴 CLIP 相似度(CLIPScore 或類似變體)進行自動評測。這類評測手段僅能判斷“是否與文本概念大致對齊”,卻無法評估圖像中每個細節(jié)是否精準(zhǔn)反映用戶意圖(例如無法區(qū)分“a boy under a bee”和“a bee under a boy”),也無法體現(xiàn)人類真實偏好??。

現(xiàn)有Bench的不足之處

Prompt 設(shè)計的不足:簡化、結(jié)構(gòu)單一,語義多樣性與文法多樣性不足,且缺乏真實場景長指令:

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

長度偏短且固定(右圖):常見bench中的絕大多數(shù)prompt都不大于30個單詞,這和現(xiàn)實場景中T2I模型所面對的prompt長度gap很大;

缺乏真實使用場景下的長指令(左下圖):常見Bench的最長prompt也是較為簡單的句子,TIIF-Bench包含了許多從AIGC論壇上手工收集的復(fù)雜、真實用戶prompt;

語義重復(fù)性高(左上圖):我們使用CLIP提取了不同Bench中所有prompts的文本語義特征并計算了consine相似度,以0.85為threshold,發(fā)現(xiàn)GenAI Bench中只有不到30%的prompt是semantic unique的,Compbench++中只有不到60%,而TIIF-Bench中semantic unique prompts大于90%;

文法復(fù)雜度低(中間圖):我們將不同Bench的所有prompts的CLIP文本語義特征進行了t-SNE降維,TIIF-Bench的range范圍最大;


然而實驗表明:即使核心語義相同,不同長度的prompt對T2I model有很大影響:

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

 現(xiàn)有的bench完全缺乏這一維度的考量!

評測方法的不足:粗糙且與人類直覺不符

目前大多數(shù) benchmark 仍依賴 CLIP 相似度(CLIPScore 或類似變體)和其它一些專家模型進行自動評測:

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

然而CLIP無法評估圖像中每個細節(jié)是否精準(zhǔn)反映用戶意圖(例如無法區(qū)分“a boy under a bee”和“a bee under a boy”),也無法體現(xiàn)人類真實偏好??。UNIDet等開集檢測模型則無法對現(xiàn)代T2I model生成的復(fù)雜圖像進行有效檢測。

TIIF-Bench的構(gòu)建

我們設(shè)計了一個 多階段的 prompt 生成流程:

1?? 概念池構(gòu)建(Concept Pool Construction)

?首先對現(xiàn)有 benchmark 的 prompt 進行語義分組,借助 GPT-4o 自動提取核心的“物體–屬性/關(guān)系”結(jié)構(gòu)。

?最終我們構(gòu)建了 10 個概念維度,并將其劃分為三大類:屬性類(Attribute)、關(guān)系類(Relation) 和 推理類(Reasoning),詳見:

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)圖片

2?? 屬性組合(Attribute Composition)

?從上述概念池中采樣屬性組合,使用 GPT-4o 自動生成自然語言指令。我們設(shè)計了 36 個不同的組合模式,并為每種組合搭配了專屬的 meta-prompt 引導(dǎo)生成。

?組合策略分為:

?Basic Following:只涉及同一類屬性的組合;

?Advanced Following:跨類別組合,內(nèi)容更復(fù)雜;

3?? 新評測維度

?Text Rendering:衡量T2I模型生成復(fù)雜非自然紋理的能力!我們專門設(shè)計了新指標(biāo)GNED來對其進行評測,難度歸類為Advanced Following;

?Style Control:衡量T2I模型整體的內(nèi)容理解與控制能力!我們從手動AIGC社區(qū)挑選了10個最常用的風(fēng)格,難度歸類為Advanced Following;

?Real World:衡量T2I模型的綜合能力!我們手動從AIGC社區(qū)篩選了100個受歡迎、內(nèi)容復(fù)雜、有趣的設(shè)計師級別prompt,難度單獨歸類為Designer Level Following;

4?? 長度擴展(Length Augmentation)

?為每條 prompt 自動生成一個 長文本版本,通過 GPT-4o 進行語言豐富化和風(fēng)格潤色,測試模型對不同語言復(fù)雜度指令的適應(yīng)能力。

TIIF-Bench的評測流程

我們提出了一種基于 屬性級問答匹配(Attribute-Specific QA Matching) 的評測框架:

? 核心步驟:

1.概念抽取:          
   從生成指令中提取出 N 個核心語義概念(如物體屬性、物體間關(guān)系、邏輯關(guān)系等);?

2.問題生成:          
   由 GPT-4o 為每個概念自動生成一個二選一問句(Yes/No Question),如“這張圖中有紅色汽車嗎?”、“人是在汽車的左邊嗎?”;?

3.答案匹配:          
   將生成圖像和所有問題一起輸入到多模態(tài)大模型(如 GPT-4o 或 QwenVL),獲取預(yù)測答案,并與標(biāo)準(zhǔn)答案進行比較;?

4.評分計算:          
   通過平均匹配準(zhǔn)確率得出最終分?jǐn)?shù),避免了使用全 prompt 的語言偏見與幻覺。?

?? 特殊維度評測:

?Designer-Level Prompt:每條指令搭配人工制定的專屬問句,確保高可靠性。

?Text Rendering:使用OCR Recall和全新提出的指標(biāo) GNED(Global Normalized Edit Distance):

?用于衡量圖中文字與目標(biāo)文本在字符層面的匹配度;

?同時懲罰遺漏、冗余、錯誤字形等問題;

?相比 PNED 更穩(wěn)定、魯棒,適用于任意文本長度與格式。

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

一些有趣的insights

我們將模型分為三類進行分析:

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

1?? Diffusion 架構(gòu)的開源模型

代表模型包括:SD 系列、FLUX.1 Dev、SANA 系列、PixArt 系列、Playground 系列等。

?整體表現(xiàn):SD 3.5 在短指令上得分最高;而 FLUX.1 Dev 在長指令場景中表現(xiàn)最強,得益于其 MMDiT 架構(gòu)和更大模型規(guī)模。

?文字生成(Text Rendering):僅有 FLUX.1 Dev、SANA 系列、SD 系列部分版本支持文本生成。其中 FLUX.1 Dev 在短長指令下均表現(xiàn)穩(wěn)定。

?風(fēng)格控制(Style Control):部分模型(如 Playground)在長 prompt 下風(fēng)格生成質(zhì)量反而更好,因為長指令提供了更多語義上下文;而 SD 3.5、PixArt-Sigma 等模型更依賴短標(biāo)簽提示,長 prompt 會稀釋風(fēng)格信號。

?設(shè)計師級指令:這類 prompts 是最具挑戰(zhàn)性的維度,模型在該維度的排名通常也代表其綜合實力。

?對 prompt 長度的魯棒性:如 FLUX.1 Dev、SD 3.5、PixArt-Sigma 等表現(xiàn)穩(wěn)定;而弱模型(如 SDXL、PixArt-Alpha)在長指令下明顯退化。T2I模型的指令理解能力與其綜合生成能力呈正相關(guān)!

2?? 自回歸(AR)架構(gòu)的開源模型

代表模型包括:Janus-Pro、Infinity、Show-o 等

?整體表現(xiàn):Janus-Pro 表現(xiàn)最佳,得益于其融合生成與理解的訓(xùn)練策略。

?文字生成能力較弱,但 Janus-Pro 和 Show-o 可生成基本文字。

?風(fēng)格控制能力強,對復(fù)雜風(fēng)格語義理解更到位。

?視覺保真度略遜一籌,但在復(fù)雜邏輯理解、長 prompt 指令跟隨方面表現(xiàn)亮眼。

全新的 TIIF-Bench基準(zhǔn)帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

自回歸T2I模型雖然在生成圖像畫質(zhì)方面表現(xiàn)一般,但是在理解指令方面表現(xiàn)優(yōu)異

3?? 閉源模型

包括:GPT-4o、DALL·E 3、MidJourney V6/V7、Flux.1 Pro 等

?GPT-4o 在所有維度遙遙領(lǐng)先,不僅圖像質(zhì)量極高,指令理解也最強,是唯一在復(fù)雜邏輯推理(如否定、比較等)任務(wù)上始終保持穩(wěn)定的模型。

?文字渲染上,GPT-4o 成功率遠高于其他模型。

?風(fēng)格控制與設(shè)計師指令執(zhí)行能力方面也顯著優(yōu)于所有閉源/開源對手。

?值得注意的是,F(xiàn)lux.1 Pro 的表現(xiàn)竟不如開源的 Flux.1 Dev,尤其是在長 prompt 情境下,閉源不一定優(yōu)于開源!

?? 與其他 Benchmark 對比

我們選取了四個開源模型(SD 3.5、SANA 1.5、PixArt-Sigma、Janus-Pro)和四個閉源模型(GPT-4o、DALL·E 3、MidJourney V6、Flux.1 Pro),在三個 Benchmark 上進行橫向評測:TIIF-Bench、CompBench++、GenAI Bench。

?? 對比發(fā)現(xiàn)

?GenAI Bench 和 CompBench++ 中存在評分收斂、模型難以區(qū)分的問題,例如多個模型得分完全一樣。

?CompBench++ 中,專家模型打分與 GPT 打分存在顯著偏差。

?TIIF-Bench 在評測維度細致度、模型區(qū)分能力方面更強,能夠穩(wěn)定給出符合模型能力的排序。

本文轉(zhuǎn)載自??AI-PaperDaily??,作者:AI-PaperDaily


標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产69精品久久久久777 | 亚洲97| 91精品久久久久久久久中文字幕 | 激情a| 欧美激情99| 亚洲视频在线看 | 久久久久久久久久久国产 | 成人免费在线播放视频 | 色综合久久久久 | 亚洲精品久久久久avwww潮水 | 91亚洲国产成人久久精品网站 | 亚洲一区二区三区久久久 | 国产精品99精品久久免费 | 亚洲一区二区久久 | 一区二区视频在线 | 成人一区二区三区在线观看 | 欧美13videosex性极品 | 中文字幕视频在线免费 | 日韩欧美一区在线 | 亚洲视频中文字幕 | av网站免费观看 | 亚洲国产成人久久综合一区,久久久国产99 | 日韩欧美国产一区二区三区 | 午夜久久久 | 国产a一区二区 | 日韩精品在线播放 | 亚洲瑟瑟 | 毛片韩国 | 亚洲一区二区三区观看 | 久草视频在线播放 | 亚洲天堂一区 | 男人的天堂中文字幕 | 亚洲一区二区三区高清 | 欧美精品一区在线发布 | 日本色高清| 日日骚网 | 亚洲系列第一页 | 91亚洲精选 | 啪啪免费网站 | 成人在线观看免费 | 日韩一区在线观看视频 |