GPT-4o圖像生成架構(gòu)被“破解”了?自回歸主干+擴(kuò)散解碼器,還有4o圖像生成全面測(cè)評(píng)基準(zhǔn)
GPT-4o圖像生成架構(gòu)被“破解”了!
最近一陣,“萬(wàn)物皆可吉卜力”讓GPT-4o的圖像生成功能一炮而紅,人們隨之好奇:
4o圖像生成的架構(gòu)底層邏輯到底是什么?GPT-4o究竟強(qiáng)在哪?存在哪些短板?
作為解答,北京大學(xué)、中山大學(xué)等多家科研機(jī)構(gòu)共同推出GPT-ImgEval,首次系統(tǒng)評(píng)估了GPT-4o在圖像生成上的真實(shí)表現(xiàn)。
這份量化評(píng)估基準(zhǔn)不僅囊括了生成質(zhì)量、編輯能力和知識(shí)推理,還嘗試揭示GPT-4o背后的可能架構(gòu),還探討了它生成圖像的可檢測(cè)性問(wèn)題。
圖片
下面具體來(lái)看。
GPT-4o架構(gòu)揭秘:可能使用了擴(kuò)散+自回歸混合方案
GPT-ImgEval團(tuán)隊(duì)嘗試“反向破解”GPT-4o的圖像生成架構(gòu)。
研究團(tuán)隊(duì)在論文中提出了4種候選架構(gòu)方案(見(jiàn)下圖),盡管細(xì)節(jié)略有不同,但有一點(diǎn)是一致的:GPT-4o很可能采用的是自回歸主干+擴(kuò)散頭的混合結(jié)構(gòu)。
通俗來(lái)說(shuō),它的工作流程可能是這樣的:文本或指令→ 自回歸模塊理解語(yǔ)義 → 生成中間視覺(jué)Token → 擴(kuò)散模型將這些Token解碼成圖像。
圖片
當(dāng)然,架構(gòu)猜測(cè)不能僅靠想象。為此,研究團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)謹(jǐn)?shù)?/span>實(shí)證方法:
- 先選取一組統(tǒng)一的文本提示(prompt),分別使用自回歸模型(VAR)和擴(kuò)散模型(Diffusion)各自生成1萬(wàn)張圖像作為對(duì)比樣本;
- 利用這些圖像訓(xùn)練一個(gè)二分類器,讓它學(xué)會(huì)識(shí)別圖像是“AR風(fēng)格”還是“Diffusion風(fēng)格”;
- 然后,用同樣的Prompt交給GPT-4o生成圖像,將這些圖像輸入該分類器進(jìn)行識(shí)別。
也就是說(shuō),整個(gè)過(guò)程中,提示詞保持完全一致,只看不同模型生成的圖像“長(zhǎng)得像誰(shuí)”,以此判斷GPT-4o的生成方式更接近哪類結(jié)構(gòu)。
結(jié)果很直接:GPT-4o生成的圖像幾乎全部被識(shí)別為“擴(kuò)散風(fēng)格”,這就從圖像風(fēng)格維度驗(yàn)證了GPT-4o的確可能用了擴(kuò)散模型作為解碼器。
圖片
除了對(duì)視覺(jué)解碼器的分析,研究人員也深入探討了視覺(jué)編碼方式。他們指出,一些研究(如UniTok)認(rèn)為基于向量量化(VQ)的編碼器可能會(huì)削弱模型的語(yǔ)義理解能力。
因此,作者認(rèn)為如果采用了pixel encoder,其大概率是連續(xù)(非VQ)的而不是離散(VQ)的,并基于此提出了四種可能的完整架構(gòu)示意圖。
圖片
三大維度全面評(píng)估GPT-4o圖像能力
GPT-ImgEval聚焦三類核心任務(wù),對(duì)GPT-4o進(jìn)行了系統(tǒng)評(píng)估:
- 文本生成圖像(GenEval):通過(guò)對(duì)物體數(shù)量、顏色、位置、組合屬性等細(xì)粒度維度進(jìn)行測(cè)評(píng),驗(yàn)證模型對(duì)文本的理解與圖像的構(gòu)造能力。
- 指令編輯圖像(Reason-Edit):模擬用戶給出修改指令后,模型在保留圖像語(yǔ)義基礎(chǔ)上進(jìn)行局部編輯的能力,如替換、刪除、變色等。
- 基于世界知識(shí)的語(yǔ)義合成(WISE):考察模型是否能將對(duì)世界常識(shí)、文化背景、科學(xué)原理等知識(shí)真正“顯性化”為圖像輸出。
為了支持這一系統(tǒng)評(píng)估,研究團(tuán)隊(duì)開(kāi)發(fā)了一套針對(duì)GPT-4o的自動(dòng)化交互腳本,解決了當(dāng)前該模型尚未開(kāi)放圖像生成API的現(xiàn)實(shí)問(wèn)題。
這套腳本直接與GPT-4o網(wǎng)頁(yè)界面交互,模擬真實(shí)用戶行為:
- 自動(dòng)輸入提示詞(Prompt)、點(diǎn)擊提交
- 自動(dòng)抓取生成圖像并存儲(chǔ)歸檔
- 每次請(qǐng)求會(huì)新開(kāi)瀏覽器窗口,確保不同任務(wù)之間上下文不相互干擾
- 支持任務(wù)批量運(yùn)行,可實(shí)現(xiàn)大規(guī)模、可重復(fù)的圖像生成任務(wù)調(diào)度
最終,GPT-ImgEval的整體工作流如下圖所示:
圖片
在文本生成圖像(GenEval)任務(wù)中,GPT-4o取得了0.84的總得分,超越目前所有擴(kuò)散類與自回歸類圖像生成模型。
尤其在以下幾項(xiàng)中表現(xiàn)突出:數(shù)量控制(0.85)、顏色綁定(0.92)、空間位置(0.75)、屬性組合(0.61)。
圖片
下圖是一些GPT-4o使用GenEval基準(zhǔn)中的prompt生圖的具體例子:
圖片
而在圖像編輯任務(wù)(Reason-Edit)中,GPT-4o得分高達(dá)0.929,領(lǐng)先第二名超過(guò)0.35,說(shuō)明其在指令理解和局部控制上表現(xiàn)極其穩(wěn)定。
圖片
在知識(shí)合成(WISE)任務(wù)中,GPT-4o同樣大放異彩,多個(gè)子維度(生物、文化、物理等)得分均超過(guò)0.9,總分0.89,遠(yuǎn)高于當(dāng)前開(kāi)源模型(普遍在0.4~0.5之間)。
這說(shuō)明GPT-4o具有強(qiáng)大的世界知識(shí)和推理能力,這應(yīng)該是得益于GPT-4o這種統(tǒng)一多模態(tài)框架。
圖片
更多研究結(jié)論
GPT-4o vs Gemini 2.0 Flash:多輪編輯對(duì)比
研究團(tuán)隊(duì)還對(duì)GPT-4o與Google的Gemini 2.0 Flash進(jìn)行了多輪圖像編輯對(duì)比。
除了性能與架構(gòu)機(jī)制,GPT-4o在實(shí)際的使用體驗(yàn)中也展現(xiàn)出了強(qiáng)勁的競(jìng)爭(zhēng)力。研究團(tuán)隊(duì)對(duì)其與Google最新發(fā)布的 Gemini 2.0 Flash 進(jìn)行了多輪編輯任務(wù)的實(shí)測(cè)對(duì)比。
- GPT-4o支持完整的多輪對(duì)話式編輯流程,上下文一致性強(qiáng)
- Gemini響應(yīng)速度更快,但每輪需重新上傳圖像,缺乏連續(xù)性
- 在連續(xù)修改、復(fù)雜指令理解、圖像語(yǔ)義保持方面,GPT-4o表現(xiàn)出更高的穩(wěn)定性
從整體趨勢(shì)來(lái)看,兩者在編輯輪數(shù)增加后均出現(xiàn)一致性下降,但GPT-4o下降更緩,保持更穩(wěn)。
GPT-4o與Gemini 2.0 Flash多輪編輯一致性對(duì)比如下圖所示:
圖片
這一對(duì)比結(jié)果也進(jìn)一步驗(yàn)證了:融合大模型語(yǔ)義理解能力的圖像生成系統(tǒng),在交互式創(chuàng)作任務(wù)中,正在展現(xiàn)出壓倒性優(yōu)勢(shì)。
GPT-4o仍存五大問(wèn)題,圖像量化評(píng)估并非無(wú)解
研究團(tuán)隊(duì)總結(jié)出GPT-4o當(dāng)前的五個(gè)常見(jiàn)生成難點(diǎn):
- 無(wú)法嚴(yán)格保持原圖尺寸與邊框比例,有時(shí)會(huì)自動(dòng)裁切或縮放
- 強(qiáng)制銳化,即使用戶要求生成模糊圖,也會(huì)被模型“優(yōu)化”成高清
- 編輯偏暖、全圖色調(diào)變化,即使只修改小部分,可能全圖色調(diào)甚至是全局都會(huì)被一定程度修改
- 復(fù)雜場(chǎng)景失真,多人或人-物體交互場(chǎng)景易出現(xiàn)姿態(tài)不自然或結(jié)構(gòu)錯(cuò)亂
- 非英文文本支持較弱,如中文標(biāo)識(shí)常出錯(cuò),難以在復(fù)雜背景準(zhǔn)確生成
這些問(wèn)題不僅影響使用體驗(yàn),也提示我們——GPT-4o仍在追求“自然感”與“精確控制”之間尋找平衡。
圖片
這些圖像能被檢測(cè)出來(lái)嗎?
除了感知層面的觀察和評(píng)估,研究團(tuán)隊(duì)進(jìn)一步思考一個(gè)關(guān)鍵問(wèn)題:GPT-4o生成的圖像,是否真的可以“以假亂真”?
為此,研究者使用多個(gè)主流圖像取證模型,對(duì)GPT-4o生成的圖像進(jìn)行了系統(tǒng)性評(píng)估。
結(jié)果顯示,包括Effort、FakeVLM在內(nèi)的多種檢測(cè)器,對(duì)GPT-4o圖像的識(shí)別準(zhǔn)確率普遍超過(guò)95%,最高接近99.6%。
圖片
不僅僅停留在數(shù)值層面,研究團(tuán)隊(duì)還對(duì)量化評(píng)估成功的原因進(jìn)行了機(jī)制層面的歸因分析:
- GPT-4o可能在圖像生成過(guò)程中引入了超分辨率模塊,通過(guò)上采樣插值導(dǎo)致明顯偽影
- 模型有過(guò)度銳化與細(xì)節(jié)增強(qiáng)傾向,視覺(jué)效果雖然“精致”,卻留下了被取證模型捕捉的痕跡
- 在用戶未要求修改時(shí),仍可能出現(xiàn)尺寸、色彩的隱性變化,破壞了圖像一致性
- GPT-4o生成圖像色調(diào)普遍偏暖,整體風(fēng)格趨同,易被量化評(píng)估模型建立“風(fēng)格識(shí)別模式”
可量化評(píng)估,并非弱點(diǎn),而是AIGC安全設(shè)計(jì)的基線能力
研究團(tuán)隊(duì)認(rèn)為,是否可量化評(píng)估,不應(yīng)成為衡量生成模型能力強(qiáng)弱的標(biāo)準(zhǔn),而應(yīng)被視為評(píng)估其可控性與安全性的重要指標(biāo)。
在未來(lái)的AIGC系統(tǒng)設(shè)計(jì)中,“逼真”固然重要,但“可識(shí)別”、“可追蹤”同樣不可或缺。GPT-4o生成圖像中的偽影、色彩偏好等特征,也正是推動(dòng)生成量化評(píng)估研究的重要突破口。
這也正是GPT-ImgEval的差異化亮點(diǎn)之一:不僅做量化評(píng)估,更從安全機(jī)制的角度進(jìn)行深入診斷和前瞻探索。
GPT-4o很強(qiáng),但“終局”遠(yuǎn)未到來(lái)
GPT-ImgEval不僅驗(yàn)證了GPT-4o在圖像生成上的優(yōu)勢(shì),更指出了它仍需突破的短板。尤其是在可控性、多語(yǔ)種處理、局部編輯穩(wěn)定性等方面,仍有不少提升空間。
GPT-ImgEval不僅系統(tǒng)性驗(yàn)證了GPT-4o在圖像生成、圖像編輯與知識(shí)合成三大任務(wù)中的領(lǐng)先表現(xiàn),更進(jìn)一步揭示了其架構(gòu)特征、失敗模式與安全邊界。
該研究不僅在評(píng)測(cè)維度上實(shí)現(xiàn)了覆蓋廣泛、量化精準(zhǔn),也從架構(gòu)判別、編輯可控性、多輪理解能力和偽影檢測(cè)等多個(gè)層面,對(duì)GPT-4o進(jìn)行了技術(shù)全景式診斷。
研究團(tuán)隊(duì)認(rèn)為,該工作的重要意義在于:
1、提供系統(tǒng)化多模態(tài)評(píng)估范式:首次從“生成-編輯-推理”全流程出發(fā),建立綜合圖像能力測(cè)試框架;
2、推動(dòng)閉源模型的“可解釋評(píng)測(cè)”研究:在無(wú)法訪問(wèn)模型細(xì)節(jié)的前提下,建立架構(gòu)猜測(cè)和行為歸因機(jī)制;
3、強(qiáng)調(diào)通用多輪編輯場(chǎng)景的實(shí)用價(jià)值:用用戶視角驗(yàn)證語(yǔ)義理解一致性與細(xì)節(jié)保真性,為交互設(shè)計(jì)落地提供參考;
4、補(bǔ)齊圖像生成安全性研究缺口:通過(guò)可檢測(cè)性實(shí)證,發(fā)現(xiàn)圖像中的上采樣/超分偽影、色彩特征,推動(dòng)AIGC取證技術(shù)演進(jìn)。
更多細(xì)節(jié)歡迎查閱原論文。
論文地址:
https://arxiv.org/pdf/2406.19435
代碼鏈接:
https://github.com/PicoTrex/GPT-ImgEval
數(shù)據(jù)集下載:
https://huggingface.co/datasets/Yejy53/GPT-ImgEval