成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4o圖像生成架構(gòu)被“破解”了?自回歸主干+擴(kuò)散解碼器,還有4o圖像生成全面測(cè)評(píng)基準(zhǔn)

人工智能
GPT-ImgEval不僅驗(yàn)證了GPT-4o在圖像生成上的優(yōu)勢(shì),更指出了它仍需突破的短板。尤其是在可控性、多語(yǔ)種處理、局部編輯穩(wěn)定性等方面,仍有不少提升空間。

GPT-4o圖像生成架構(gòu)被“破解”了!

最近一陣,“萬(wàn)物皆可吉卜力”讓GPT-4o的圖像生成功能一炮而紅,人們隨之好奇:

4o圖像生成的架構(gòu)底層邏輯到底是什么?GPT-4o究竟強(qiáng)在哪?存在哪些短板?

作為解答,北京大學(xué)、中山大學(xué)等多家科研機(jī)構(gòu)共同推出GPT-ImgEval,首次系統(tǒng)評(píng)估了GPT-4o在圖像生成上的真實(shí)表現(xiàn)。

這份量化評(píng)估基準(zhǔn)不僅囊括了生成質(zhì)量編輯能力知識(shí)推理,還嘗試揭示GPT-4o背后的可能架構(gòu),還探討了它生成圖像的可檢測(cè)性問(wèn)題

圖片圖片

下面具體來(lái)看。

GPT-4o架構(gòu)揭秘:可能使用了擴(kuò)散+自回歸混合方案

GPT-ImgEval團(tuán)隊(duì)嘗試“反向破解”GPT-4o的圖像生成架構(gòu)。

研究團(tuán)隊(duì)在論文中提出了4種候選架構(gòu)方案(見(jiàn)下圖),盡管細(xì)節(jié)略有不同,但有一點(diǎn)是一致的:GPT-4o很可能采用的是自回歸主干+擴(kuò)散頭的混合結(jié)構(gòu)。

通俗來(lái)說(shuō),它的工作流程可能是這樣的:文本或指令→ 自回歸模塊理解語(yǔ)義 → 生成中間視覺(jué)Token → 擴(kuò)散模型將這些Token解碼成圖像。

圖片圖片

當(dāng)然,架構(gòu)猜測(cè)不能僅靠想象。為此,研究團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)謹(jǐn)?shù)?/span>實(shí)證方法

  1. 先選取一組統(tǒng)一的文本提示(prompt),分別使用自回歸模型(VAR)和擴(kuò)散模型(Diffusion)各自生成1萬(wàn)張圖像作為對(duì)比樣本;
  2. 利用這些圖像訓(xùn)練一個(gè)二分類器,讓它學(xué)會(huì)識(shí)別圖像是“AR風(fēng)格”還是“Diffusion風(fēng)格”;
  3. 然后,用同樣的Prompt交給GPT-4o生成圖像,將這些圖像輸入該分類器進(jìn)行識(shí)別。

也就是說(shuō),整個(gè)過(guò)程中,提示詞保持完全一致,只看不同模型生成的圖像“長(zhǎng)得像誰(shuí)”,以此判斷GPT-4o的生成方式更接近哪類結(jié)構(gòu)。

結(jié)果很直接:GPT-4o生成的圖像幾乎全部被識(shí)別為“擴(kuò)散風(fēng)格”,這就從圖像風(fēng)格維度驗(yàn)證了GPT-4o的確可能用了擴(kuò)散模型作為解碼器。

圖片圖片

除了對(duì)視覺(jué)解碼器的分析,研究人員也深入探討了視覺(jué)編碼方式。他們指出,一些研究(如UniTok)認(rèn)為基于向量量化(VQ)的編碼器可能會(huì)削弱模型的語(yǔ)義理解能力。

因此,作者認(rèn)為如果采用了pixel encoder,其大概率是連續(xù)(非VQ)的而不是離散(VQ)的,并基于此提出了四種可能的完整架構(gòu)示意圖。

圖片圖片

三大維度全面評(píng)估GPT-4o圖像能力

GPT-ImgEval聚焦三類核心任務(wù),對(duì)GPT-4o進(jìn)行了系統(tǒng)評(píng)估:

  • 文本生成圖像(GenEval):通過(guò)對(duì)物體數(shù)量、顏色、位置、組合屬性等細(xì)粒度維度進(jìn)行測(cè)評(píng),驗(yàn)證模型對(duì)文本的理解與圖像的構(gòu)造能力。
  • 指令編輯圖像(Reason-Edit):模擬用戶給出修改指令后,模型在保留圖像語(yǔ)義基礎(chǔ)上進(jìn)行局部編輯的能力,如替換、刪除、變色等。
  • 基于世界知識(shí)的語(yǔ)義合成(WISE):考察模型是否能將對(duì)世界常識(shí)、文化背景、科學(xué)原理等知識(shí)真正“顯性化”為圖像輸出。

為了支持這一系統(tǒng)評(píng)估,研究團(tuán)隊(duì)開(kāi)發(fā)了一套針對(duì)GPT-4o的自動(dòng)化交互腳本,解決了當(dāng)前該模型尚未開(kāi)放圖像生成API的現(xiàn)實(shí)問(wèn)題。

這套腳本直接與GPT-4o網(wǎng)頁(yè)界面交互,模擬真實(shí)用戶行為:

  1. 自動(dòng)輸入提示詞(Prompt)、點(diǎn)擊提交
  2. 自動(dòng)抓取生成圖像并存儲(chǔ)歸檔
  3. 每次請(qǐng)求會(huì)新開(kāi)瀏覽器窗口,確保不同任務(wù)之間上下文不相互干擾
  4. 支持任務(wù)批量運(yùn)行,可實(shí)現(xiàn)大規(guī)模、可重復(fù)的圖像生成任務(wù)調(diào)度

最終,GPT-ImgEval的整體工作流如下圖所示:

圖片圖片

在文本生成圖像(GenEval)任務(wù)中,GPT-4o取得了0.84的總得分,超越目前所有擴(kuò)散類與自回歸類圖像生成模型。

尤其在以下幾項(xiàng)中表現(xiàn)突出:數(shù)量控制(0.85)、顏色綁定(0.92)、空間位置(0.75)、屬性組合(0.61)。

圖片圖片

下圖是一些GPT-4o使用GenEval基準(zhǔn)中的prompt生圖的具體例子:

圖片圖片

而在圖像編輯任務(wù)(Reason-Edit)中,GPT-4o得分高達(dá)0.929,領(lǐng)先第二名超過(guò)0.35,說(shuō)明其在指令理解和局部控制上表現(xiàn)極其穩(wěn)定。

圖片圖片

圖片

在知識(shí)合成(WISE)任務(wù)中,GPT-4o同樣大放異彩,多個(gè)子維度(生物、文化、物理等)得分均超過(guò)0.9,總分0.89,遠(yuǎn)高于當(dāng)前開(kāi)源模型(普遍在0.4~0.5之間)。

這說(shuō)明GPT-4o具有強(qiáng)大的世界知識(shí)和推理能力,這應(yīng)該是得益于GPT-4o這種統(tǒng)一多模態(tài)框架。

圖片圖片

圖片

更多研究結(jié)論

GPT-4o vs Gemini 2.0 Flash:多輪編輯對(duì)比

研究團(tuán)隊(duì)還對(duì)GPT-4o與Google的Gemini 2.0 Flash進(jìn)行了多輪圖像編輯對(duì)比。

除了性能與架構(gòu)機(jī)制,GPT-4o在實(shí)際的使用體驗(yàn)中也展現(xiàn)出了強(qiáng)勁的競(jìng)爭(zhēng)力。研究團(tuán)隊(duì)對(duì)其與Google最新發(fā)布的 Gemini 2.0 Flash 進(jìn)行了多輪編輯任務(wù)的實(shí)測(cè)對(duì)比。

  1. GPT-4o支持完整的多輪對(duì)話式編輯流程,上下文一致性強(qiáng)
  2. Gemini響應(yīng)速度更快,但每輪需重新上傳圖像,缺乏連續(xù)性
  3. 連續(xù)修改、復(fù)雜指令理解、圖像語(yǔ)義保持方面,GPT-4o表現(xiàn)出更高的穩(wěn)定性

從整體趨勢(shì)來(lái)看,兩者在編輯輪數(shù)增加后均出現(xiàn)一致性下降,但GPT-4o下降更緩,保持更穩(wěn)。

GPT-4o與Gemini 2.0 Flash多輪編輯一致性對(duì)比如下圖所示:

圖片圖片

這一對(duì)比結(jié)果也進(jìn)一步驗(yàn)證了:融合大模型語(yǔ)義理解能力的圖像生成系統(tǒng),在交互式創(chuàng)作任務(wù)中,正在展現(xiàn)出壓倒性優(yōu)勢(shì)。

GPT-4o仍存五大問(wèn)題,圖像量化評(píng)估并非無(wú)解

研究團(tuán)隊(duì)總結(jié)出GPT-4o當(dāng)前的五個(gè)常見(jiàn)生成難點(diǎn)

  1. 無(wú)法嚴(yán)格保持原圖尺寸與邊框比例,有時(shí)會(huì)自動(dòng)裁切或縮放
  2. 強(qiáng)制銳化,即使用戶要求生成模糊圖,也會(huì)被模型“優(yōu)化”成高清
  3. 編輯偏暖、全圖色調(diào)變化,即使只修改小部分,可能全圖色調(diào)甚至是全局都會(huì)被一定程度修改
  4. 復(fù)雜場(chǎng)景失真,多人或人-物體交互場(chǎng)景易出現(xiàn)姿態(tài)不自然或結(jié)構(gòu)錯(cuò)亂
  5. 非英文文本支持較弱,如中文標(biāo)識(shí)常出錯(cuò),難以在復(fù)雜背景準(zhǔn)確生成

這些問(wèn)題不僅影響使用體驗(yàn),也提示我們——GPT-4o仍在追求“自然感”與“精確控制”之間尋找平衡。

圖片圖片

這些圖像能被檢測(cè)出來(lái)嗎?

除了感知層面的觀察和評(píng)估,研究團(tuán)隊(duì)進(jìn)一步思考一個(gè)關(guān)鍵問(wèn)題:GPT-4o生成的圖像,是否真的可以“以假亂真”?

為此,研究者使用多個(gè)主流圖像取證模型,對(duì)GPT-4o生成的圖像進(jìn)行了系統(tǒng)性評(píng)估。

結(jié)果顯示,包括Effort、FakeVLM在內(nèi)的多種檢測(cè)器,對(duì)GPT-4o圖像的識(shí)別準(zhǔn)確率普遍超過(guò)95%,最高接近99.6%。

圖片圖片

不僅僅停留在數(shù)值層面,研究團(tuán)隊(duì)還對(duì)量化評(píng)估成功的原因進(jìn)行了機(jī)制層面的歸因分析

  1. GPT-4o可能在圖像生成過(guò)程中引入了超分辨率模塊,通過(guò)上采樣插值導(dǎo)致明顯偽影
  2. 模型有過(guò)度銳化與細(xì)節(jié)增強(qiáng)傾向,視覺(jué)效果雖然“精致”,卻留下了被取證模型捕捉的痕跡
  3. 在用戶未要求修改時(shí),仍可能出現(xiàn)尺寸、色彩的隱性變化,破壞了圖像一致性
  4. GPT-4o生成圖像色調(diào)普遍偏暖,整體風(fēng)格趨同,易被量化評(píng)估模型建立“風(fēng)格識(shí)別模式”

可量化評(píng)估,并非弱點(diǎn),而是AIGC安全設(shè)計(jì)的基線能力

研究團(tuán)隊(duì)認(rèn)為,是否可量化評(píng)估,不應(yīng)成為衡量生成模型能力強(qiáng)弱的標(biāo)準(zhǔn),而應(yīng)被視為評(píng)估其可控性與安全性的重要指標(biāo)。

在未來(lái)的AIGC系統(tǒng)設(shè)計(jì)中,“逼真”固然重要,但“可識(shí)別”、“可追蹤”同樣不可或缺。GPT-4o生成圖像中的偽影、色彩偏好等特征,也正是推動(dòng)生成量化評(píng)估研究的重要突破口。

這也正是GPT-ImgEval的差異化亮點(diǎn)之一:不僅做量化評(píng)估,更從安全機(jī)制的角度進(jìn)行深入診斷和前瞻探索

GPT-4o很強(qiáng),但“終局”遠(yuǎn)未到來(lái)

GPT-ImgEval不僅驗(yàn)證了GPT-4o在圖像生成上的優(yōu)勢(shì),更指出了它仍需突破的短板。尤其是在可控性、多語(yǔ)種處理、局部編輯穩(wěn)定性等方面,仍有不少提升空間。

GPT-ImgEval不僅系統(tǒng)性驗(yàn)證了GPT-4o在圖像生成、圖像編輯與知識(shí)合成三大任務(wù)中的領(lǐng)先表現(xiàn),更進(jìn)一步揭示了其架構(gòu)特征、失敗模式與安全邊界。

該研究不僅在評(píng)測(cè)維度上實(shí)現(xiàn)了覆蓋廣泛、量化精準(zhǔn),也從架構(gòu)判別、編輯可控性、多輪理解能力和偽影檢測(cè)等多個(gè)層面,對(duì)GPT-4o進(jìn)行了技術(shù)全景式診斷

研究團(tuán)隊(duì)認(rèn)為,該工作的重要意義在于:

1、提供系統(tǒng)化多模態(tài)評(píng)估范式:首次從“生成-編輯-推理”全流程出發(fā),建立綜合圖像能力測(cè)試框架;

2、推動(dòng)閉源模型的“可解釋評(píng)測(cè)”研究:在無(wú)法訪問(wèn)模型細(xì)節(jié)的前提下,建立架構(gòu)猜測(cè)和行為歸因機(jī)制;

3、強(qiáng)調(diào)通用多輪編輯場(chǎng)景的實(shí)用價(jià)值:用用戶視角驗(yàn)證語(yǔ)義理解一致性與細(xì)節(jié)保真性,為交互設(shè)計(jì)落地提供參考;

4、補(bǔ)齊圖像生成安全性研究缺口:通過(guò)可檢測(cè)性實(shí)證,發(fā)現(xiàn)圖像中的上采樣/超分偽影、色彩特征,推動(dòng)AIGC取證技術(shù)演進(jìn)。

更多細(xì)節(jié)歡迎查閱原論文。

論文地址:
https://arxiv.org/pdf/2406.19435
代碼鏈接:
https://github.com/PicoTrex/GPT-ImgEval
數(shù)據(jù)集下載:
https://huggingface.co/datasets/Yejy53/GPT-ImgEval

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-05-26 09:05:00

2024-06-27 12:45:30

2025-03-31 08:50:00

AI生成模型

2025-05-12 08:50:00

2025-04-07 00:00:00

OpenAIGPT-4o圖像

2025-04-15 08:01:12

2025-03-26 09:13:02

2025-05-27 15:59:41

AI工具模型

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2025-03-31 08:44:00

GPT-4o模型技術(shù)

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-06-21 09:51:17

2025-03-31 09:35:00

GPT-4oAI模型

2024-05-30 13:13:43

2025-04-08 02:26:00

2024-05-20 08:20:00

OpenAI模型

2025-06-11 09:00:00

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2024-06-28 18:13:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲 欧美 另类 综合 偷拍 | 日日夜夜草 | 韩国精品一区二区三区 | 国产精品九九九 | 国产精品一区二区福利视频 | 久久午夜国产精品www忘忧草 | 在线观看不卡av | 青青伊人久久 | 午夜av成人 | 久久久精品视频免费看 | 国产一区精品在线 | 久久久久亚洲精品国产 | 精品中文字幕视频 | 男人av的天堂 | 亚洲国产精品久久久久秋霞不卡 | 免费成人国产 | 久久男人天堂 | 久久中文字幕一区 | av天天干 | 欧美午夜在线 | 日韩在线小视频 | 在线2区| 欧美色性 | 日韩欧美一区二区三区四区 | av久久| 国产美女精品视频 | 91中文 | 成人18亚洲xxoo | 三级黄色片在线观看 | 久久日韩粉嫩一区二区三区 | 国产精品99久久免费观看 | 日日噜噜夜夜爽爽狠狠 | 亚洲一区二区在线视频 | 亚洲第一成人av | 国产精品日日做人人爱 | 欧美手机在线 | 久久视频一区 | 激情一区二区三区 | 欧美日韩一区二区三区四区五区 | 日韩欧美国产电影 | 妞干网福利视频 |