成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

首次引入GPT-4o！圖像自動評估新基準(zhǔn)來啦

作者：量子位 2024-06-27 12:45:30

人工智能新聞

來自清華、西交大、伊利諾伊厄巴納-香檳分校、中科院、曠視的研究人員共同推出了一項新基準(zhǔn)DreamBench++。

面對層出不窮的圖像生成技術(shù)，一個新問題擺在眼前：

缺乏統(tǒng)一標(biāo)準(zhǔn)來衡量這些生成的圖片是否符合人們的喜好

對此，來自清華、西交大、伊利諾伊厄巴納-香檳分校、中科院、曠視的研究人員共同推出了一項新基準(zhǔn)DreamBench++。

通過收集不同的圖像和提示，團隊利用GPT-4o實現(xiàn)了符合人類偏好的自動評估。

簡單來說，通過精心設(shè)計prompt以及引入思維鏈提示和情境學(xué)習(xí)，團隊讓GPT-4o在圖像評估過程中學(xué)會了像人類一樣思考，并展現(xiàn)其思考過程。

為了測試效果，團隊以7名專業(yè)人類標(biāo)注員的打分為基準(zhǔn)，對7種不同的圖像生成方法進(jìn)行了評估。

結(jié)果顯示DreamBench++與人類評價高度一致。

更多細(xì)節(jié)接下來一起瞅瞅~

什么是DreamBench++？

DreamBench++是一個全新的評估工具，它在個性化圖像評估領(lǐng)域?qū)崿F(xiàn)了兩項關(guān)鍵技術(shù)突破。

引入支持多模態(tài)的GPT-4o，同時實現(xiàn)與人類偏好的深度對齊以及自動化評估
推出了一個更為全面和多元化的數(shù)據(jù)集

與人類對齊的自動化評估

盡管GPT-4o支持多模態(tài)輸入，但在保留評估中的細(xì)微差異時面臨挑戰(zhàn)。

在評價不同方法的個性化效果時，研究人員選擇直接打分而非對比，因為對比可能會受到不同方法生成的圖像順序的影響，而且兩兩對比需要更長的標(biāo)注時間。

為了確保評估的準(zhǔn)確性和一致性，研究人員設(shè)計了包含以下要素的prompt：

任務(wù)描述，明確評估的目標(biāo)和要求。
評分標(biāo)準(zhǔn)解釋，詳細(xì)說明評估的依據(jù)。
評分范圍定義，設(shè)定評分的量化標(biāo)準(zhǔn)。
格式規(guī)范，確保評分的統(tǒng)一性和可比性。

評分規(guī)則涵蓋了形狀、顏色、紋理以及面部細(xì)節(jié)（特別針對人和動物），以全面評估圖像的個性化效果。

最后，為了收集無偏的人類偏好數(shù)據(jù)，研究團隊招募了7名經(jīng)過專業(yè)培訓(xùn)、充分理解個性化任務(wù)的人類標(biāo)注員。他們的標(biāo)注結(jié)果被用作人類打分的基準(zhǔn)，以確保評估結(jié)果的客觀性和可靠性。

更全面的個性化數(shù)據(jù)集

為了確保評估過程的公正性和無歧視性，DreamBench++的研究人員構(gòu)建了一個新的個性化數(shù)據(jù)集。

這一數(shù)據(jù)集的構(gòu)建過程涵蓋了以下幾個關(guān)鍵步驟：

獲取主題關(guān)鍵詞：團隊挑選以及生成了一系列可用于個性化生成的主體名稱，如貓、鐘表、男人等，共200個關(guān)鍵詞，分為物體（objects）、活物（living objects)，以及風(fēng)格化圖片（style）三種類型。
圖片收集：收集來源包含Unsplash, Rawpixel和Google Image Search。接著，從這些圖片中挑選了背景干凈、主體占比大的圖片，以確保圖像的清晰度和識別度。
prompt生成：引導(dǎo)GPT-4o生成不同復(fù)雜程度的prompt。這些prompt的復(fù)雜性與生成任務(wù)的難度相對應(yīng)，即越復(fù)雜的prompt對應(yīng)越具有挑戰(zhàn)性的生成任務(wù)。

實驗結(jié)果

在DreamBench++平臺上，研究團隊對7種不同的圖像生成方法進(jìn)行了評估。

這些方法涵蓋了基于訓(xùn)練的、無需訓(xùn)練的，以及基于多模態(tài)大語言模型（MLLM）的多種方案。

評估結(jié)果顯示：

在圖像相似性方面，DINO-I和CLIP-I（現(xiàn)有的圖像自動評估指標(biāo)）的評分往往高于人類的評價。

而在文本遵循方面，CLIP-T的評分則相對較低。

相比之下，GPT-4o在這兩方面的評分均更接近人類的打分。

團隊推測上述結(jié)果背后的原因是，GPT-4o和人類評價者都會綜合考慮多個視覺元素，如形狀、輪廓、紋理，以及人或動物的面部細(xì)節(jié)等，最終給出一個綜合性的評分。

這種評價方式更符合人類的直覺和偏好，因為它不僅僅關(guān)注單一的方面，而是全面地評估圖像的各個方面。

此外，團隊還對不同圖像生成方法在DreamBench++上的生成結(jié)果進(jìn)行了可視化展示。

在評估圖像生成結(jié)果的保持主體情況時，DreamBench++與人類評估者達(dá)到了79.64%的一致性。

在遵循文本指令生成圖像的能力方面，DreamBench++的一致性高達(dá)93.18%。

從數(shù)據(jù)來看，DreamBench++的人類一致性比DINO score高出54.1%，比CLIP score高出50.7%。

這也側(cè)面說明，通過設(shè)計prompt，能夠讓GPT-4o較為準(zhǔn)確地捕捉和反映人類的審美和偏好。

另外，Dreambench++的數(shù)據(jù)集多樣性更高，與DreamBench相比，finetune-based方法在DreamBench++上的表現(xiàn)會下降。

團隊推測這可能是因為他們在DreamBench上調(diào)整了參數(shù)，而DreamBench的種類并不全面。

同時，Emu2在非自然或復(fù)雜圖像上的表現(xiàn)也會下降。

這些都說明DreamBench++更全面的數(shù)據(jù)集暴露了已有的個性化方法中的新問題。

目前相關(guān)論文及數(shù)據(jù)集已公開，感興趣可以進(jìn)一步了解。

論文：https://arxiv.org/abs/2406.16855
開源地址：https://huggingface.co/papers/2406.16855

責(zé)任編輯：張燕妮來源：量子位

AI 訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：亚洲第一天堂无码专区 | 99热热精品 | 日本亚洲精品成人欧美一区 | 中文字幕在线观看 | 亚洲国产精品久久久久秋霞不卡 | 久久人体视频 | 久久久国产亚洲精品 | 久久精品| 日韩精品成人 | 国产高清视频一区 | 免费视频久久 | 日韩精品一区二区三区第95 | 久久国产精品72免费观看 | 亚洲精品一区av在线播放 | 四虎永久免费影院 | 天天艹日日干 | 亚洲成人精品免费 | 在线看中文字幕 | 欧美视频区 | 久久精品视频91 | 日韩欧美亚洲 | 四虎永久影院 | 97国产精品视频人人做人人爱 | 99久久精品免费看国产免费软件 | 国产精品视频一二三区 | 成人一区二区三区视频 | 在线欧美| 精品一区二区三区在线观看 | 狠狠色网 | 999久久久久久久久6666 | 精品视频99| 亚洲国产精品一区二区第一页 | 久久久国产精品 | 中国一级毛片免费 | 亚洲精品国产成人 | 免费黄色片视频 | 波多野结衣先锋影音 | 久久久久久国产精品免费免费狐狸 | 91精品国产综合久久久动漫日韩 | 日本视频在线播放 | 国产一区二区三区在线免费观看 |