成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用人工智能幻覺(jué)評(píng)估圖像真實(shí)感?

譯文 精選
人工智能
本文提出了一種使用人工智能幻覺(jué)來(lái)評(píng)估圖像真實(shí)感的新方法,對(duì)此方法的實(shí)現(xiàn)原理進(jìn)行詳細(xì)闡述,并給出詳細(xì)的實(shí)驗(yàn)結(jié)果證明。

譯者 | 朱先忠

審校 | 重樓

引言

最近,俄羅斯的一項(xiàng)新研究提出了通過(guò)一種非常規(guī)方法來(lái)檢測(cè)不切實(shí)際的人工智能生成的圖像這種方法的主要思想是:不是通過(guò)提高大型視覺(jué)語(yǔ)言模型LVLM的準(zhǔn)確性,而是通過(guò)有意利用它們產(chǎn)生幻覺(jué)的傾向

這種新方法使用LVLM提取有關(guān)圖像的多個(gè)“原子事實(shí)”,然后應(yīng)用自然語(yǔ)言推理NLI系統(tǒng)地衡量這些陳述之間的矛盾從而有效地將模型的缺陷轉(zhuǎn)化為檢測(cè)違背常識(shí)的圖像的診斷工具。

WHOOPS!數(shù)據(jù)集中的兩幅圖像以及LVLM模型自動(dòng)生成的語(yǔ)句左側(cè)圖像非常逼真,因此可以產(chǎn)生一致的描述,而右側(cè)圖像則不同尋常,導(dǎo)致模型產(chǎn)生幻覺(jué),產(chǎn)生矛盾或錯(cuò)誤的語(yǔ)句。圖片來(lái)源:https://arxiv.org/pdf/2503.15948

當(dāng)被要求評(píng)估第二幅圖像的真實(shí)度時(shí),LVLM發(fā)現(xiàn)有些不對(duì)勁,因?yàn)樗枥L的駱駝?dòng)腥齻€(gè)駝峰,這在自然界中是未知的

然而,LVLM最初將大于2個(gè)駝峰與大于2只動(dòng)物混為一談,因?yàn)檫@是在一張“駱駝圖片”中看到三個(gè)駝峰的唯一方式。然后它繼續(xù)產(chǎn)生幻覺(jué),產(chǎn)生比三個(gè)駝峰更不可能的東西(即“兩個(gè)頭”),并且從未詳細(xì)描述似乎引發(fā)其懷疑的內(nèi)容——不太可能的額外駝峰。

這項(xiàng)新研究的研究人員發(fā)現(xiàn),LVLM模型可以原生地執(zhí)行此類評(píng)估,并且與針對(duì)此類任務(wù)進(jìn)行微調(diào)的模型相當(dāng)(甚至更好)。由于微調(diào)復(fù)雜、昂貴且在下游適用性方面相當(dāng)脆弱因此他們發(fā)現(xiàn)當(dāng)前AI革命中最大的障礙之一的原生用途是對(duì)文獻(xiàn)中總體趨勢(shì)的一次令人耳目一新的轉(zhuǎn)變。

開(kāi)放式評(píng)估

作者斷言,上述方法的重要性在于它可以與開(kāi)源框架一起部署。雖然像ChatGPT這樣的先進(jìn)且高投資的模型(該論文承認(rèn))可能在這項(xiàng)任務(wù)中提供更好的結(jié)果,但對(duì)于我們大多數(shù)人(尤其是業(yè)余愛(ài)好者和VFX社區(qū))來(lái)說(shuō),該文獻(xiàn)的真正價(jià)值在于有可能在本地實(shí)現(xiàn)中融入和開(kāi)發(fā)新的突破;相反,所有注定要用于專有商業(yè)API系統(tǒng)的產(chǎn)品都可能被撤回、任意漲價(jià)和經(jīng)受審查——這些審查政策更有可能反映公司的企業(yè)關(guān)切,而不是用戶的需求和責(zé)任。

這篇新論文的標(biāo)題為《不要對(duì)抗幻覺(jué),而要利用它們:使用NLI而非原子事實(shí)估計(jì)圖像真實(shí)性》,該文由來(lái)自斯科爾科沃科學(xué)技術(shù)學(xué)院Skoltech、莫斯科物理技術(shù)學(xué)院以及俄羅斯公司MTSAI和AIRI的五名研究人員共同撰寫(xiě)。該論文還提供了一個(gè)相應(yīng)GitHub頁(yè)面

研究方法

論文作者使用以色列/美國(guó)WHOOPS!數(shù)據(jù)集研究這個(gè)項(xiàng)目:

WHOOPS!數(shù)據(jù)集中不可能出現(xiàn)的圖像示例。值得注意的是,這些圖像如何組合合理的元素,并且它們的不可能性必須基于這些不兼容方面的串聯(lián)來(lái)計(jì)算。來(lái)源:https://whoops-benchmark.github.io/

該數(shù)據(jù)集包含500張合成圖像和超過(guò)10,874條注釋,專門用于測(cè)試AI模型的常識(shí)推理和構(gòu)圖理解。它是與設(shè)計(jì)師合作創(chuàng)建的,這些設(shè)計(jì)師的任務(wù)是通過(guò)文本到圖像系統(tǒng)(例如Midjourney和DALL-E系列)生成具有挑戰(zhàn)性的圖像——產(chǎn)生難以或不可能自然捕捉的場(chǎng)景:

WHOOPS!數(shù)據(jù)集中的更多示例。來(lái)源:https://huggingface.co/datasets/nlphuji/whoops

他們提出的新方法可劃分為三個(gè)階段:首先,LVLM(具體來(lái)說(shuō)是LLaVA-v1.6-mistral-7b)被提示生成多個(gè)描述圖像的簡(jiǎn)單語(yǔ)句(稱為“原子事實(shí)”)。這些語(yǔ)句是使用多樣化集束搜索生成的,確保輸出的可變性。

多樣化集束搜索通過(guò)優(yōu)化多樣性增強(qiáng)目標(biāo),提供了更多種類的字幕選項(xiàng)來(lái)源:https://arxiv.org/pdf/1610.02424

接下來(lái),他們使用自然語(yǔ)言推理模型系統(tǒng)地將每個(gè)生成的語(yǔ)句與每個(gè)其他語(yǔ)句進(jìn)行比較,該模型分配的分?jǐn)?shù)反映了語(yǔ)句對(duì)是否相互包含、矛盾或中立。

矛盾的話,表明圖像中存在幻覺(jué)或不切實(shí)際的元素:

實(shí)驗(yàn)中使用的檢測(cè)管道的架構(gòu)

最后,他們將這些成對(duì)的NLI分?jǐn)?shù)聚合為單個(gè)“現(xiàn)實(shí)分?jǐn)?shù)”,以量化生成的語(yǔ)句的整體一致性。

研究人員探索了不同的聚合方法,發(fā)現(xiàn)基于聚類的方法效果最佳。他們應(yīng)用k-means聚類算法將單個(gè)NLI分?jǐn)?shù)分成兩個(gè)聚類,然后選擇值較低的聚類的質(zhì)心作為最終指標(biāo)。

使用兩個(gè)聚類直接符合分類任務(wù)的二元性質(zhì),即區(qū)分真實(shí)圖像和非真實(shí)圖像。其邏輯類似于簡(jiǎn)單地選擇總體最低分;然而,聚類允許指標(biāo)表示多個(gè)事實(shí)的平均矛盾,而不是依賴于單個(gè)異常值。

數(shù)據(jù)和測(cè)試

研究人員使用旋轉(zhuǎn)測(cè)試分割(即交叉驗(yàn)證)在WHOOPS!基線基準(zhǔn)上測(cè)試了他們的系統(tǒng)。測(cè)試的模型是分割的BLIP2 FlanT5-XLBLIP2 FlanT5-XXL,以及零樣本格式的BLIP2 FlanT5-XXL(即無(wú)需額外訓(xùn)練)。

對(duì)于遵循指令的基線,作者用短語(yǔ)“Is this unusual? Please explain briefly with a short sentence這不尋常嗎?請(qǐng)用一個(gè)簡(jiǎn)短的句子簡(jiǎn)要解釋一下”提示LVLM,先前的研究發(fā)現(xiàn)這對(duì)發(fā)現(xiàn)不切實(shí)際的圖像很有效。

評(píng)估的模型是LLaVA 1.6 Mistral 7BLLaVA 1.6 Vicuna 13B和兩種大小(7/130億個(gè)參數(shù))的InstructBLIP

測(cè)試過(guò)程圍繞102對(duì)真實(shí)和非真實(shí)(“怪異”)圖像展開(kāi)。每對(duì)圖像由一張正常圖像和一張違背常理的圖像組成。

三位人類注釋者對(duì)圖像進(jìn)行了標(biāo)注,達(dá)成了92%的共識(shí),表明人類對(duì)“怪異”的定義具有高度的認(rèn)同感。評(píng)估方法的準(zhǔn)確性是通過(guò)正確區(qū)分現(xiàn)實(shí)和非現(xiàn)實(shí)圖像的能力來(lái)衡量的。

該系統(tǒng)使用三重交叉驗(yàn)證進(jìn)行評(píng)估,使用固定種子隨機(jī)打亂數(shù)據(jù)。作者在訓(xùn)練期間調(diào)整了蘊(yùn)涵分?jǐn)?shù)(邏輯上一致的陳述)和矛盾分?jǐn)?shù)(邏輯上沖突的陳述)的權(quán)重,而“中性”分?jǐn)?shù)固定為零。最終準(zhǔn)確率計(jì)算為所有測(cè)試分割的平均值。

對(duì)五個(gè)生成事實(shí)的子集進(jìn)行不同NLI模型和聚合方法的比較,以準(zhǔn)確性作為衡量標(biāo)準(zhǔn)

對(duì)于上面顯示的初步結(jié)果,論文指出:

“clust方法脫穎而出,成為表現(xiàn)最佳的方法之一。這意味著匯總所有矛盾分?jǐn)?shù)至關(guān)重要,而不是只關(guān)注極端值。此外,最大的NLI模型nli-deberta-v3-large在所有聚合方法中的表現(xiàn)優(yōu)于所有其他模型,這表明它更有效地抓住了問(wèn)題的本質(zhì)。”

作者發(fā)現(xiàn),最優(yōu)權(quán)重始終傾向于矛盾而非蘊(yùn)涵,這表明矛盾對(duì)于區(qū)分不切實(shí)際的圖像更具參考價(jià)值。他們的方法優(yōu)于測(cè)試的所有其他零樣本方法,接近經(jīng)過(guò)微調(diào)的BLIP2模型的性能:

各種方法在WHOOPS!基準(zhǔn)上的表現(xiàn)。微調(diào)ft方法顯示在頂部,而零樣本zs方法列在下面。其中,模型大小表示參數(shù)數(shù)量,準(zhǔn)確率用作評(píng)估指標(biāo)

他們還指出,在同樣的提示下,InstructBLIP的表現(xiàn)優(yōu)于同類LLaVA模型,這多少有點(diǎn)出乎意料。在承認(rèn)GPT-4o的卓越準(zhǔn)確性的同時(shí),該論文強(qiáng)調(diào)了作者傾向于展示實(shí)用的開(kāi)源解決方案,而且似乎可以合理地宣稱在明確利用幻覺(jué)作為診斷工具方面具有新穎性。

結(jié)論

作者承認(rèn)他們的項(xiàng)目得益于2024年FaithScore活動(dòng),這是德克薩斯大學(xué)達(dá)拉斯分校和約翰霍普金斯大學(xué)合作舉辦的活動(dòng)。

FaithScore評(píng)估的工作原理說(shuō)明。首先,識(shí)別LVLM生成的答案中的描述性陳述。接下來(lái),將這些陳述分解為單個(gè)原子事實(shí)。最后,將原子事實(shí)與輸入圖像進(jìn)行比較以驗(yàn)證其準(zhǔn)確性。其中,帶下劃線的文本突出顯示客觀描述內(nèi)容,而藍(lán)色文本表示幻覺(jué)陳述,從而使FaithScore能夠提供可解釋的事實(shí)正確性衡量標(biāo)準(zhǔn)。來(lái)源:https://arxiv.org/pdf/2311.01477

FaithScore通過(guò)驗(yàn)證與圖像內(nèi)容的一致性來(lái)衡量LVLM生成的描述的忠實(shí)度,而新論文中抽出的方法明確利用LVLM幻覺(jué),通過(guò)使用自然語(yǔ)言推理生成的事實(shí)中的矛盾來(lái)檢測(cè)不切實(shí)際的圖像。

新成果自然取決于當(dāng)前語(yǔ)言模型的怪異之處,以及它們產(chǎn)生幻覺(jué)的傾向。如果模型開(kāi)發(fā)最終產(chǎn)生一個(gè)完全不產(chǎn)生幻覺(jué)的模型,那么新成果的一般原理也將不再適用。然而,這仍然是一個(gè)充滿挑戰(zhàn)的前景

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。

原文標(biāo)題:Using AI Hallucinations to Evaluate Image Realism作者:Martin Anderson

責(zé)任編輯:姜華 來(lái)源: 51CTO內(nèi)容精選
相關(guān)推薦

2022-06-20 11:05:58

通用人工智能機(jī)器人

2020-03-25 09:53:33

人工智能AI技術(shù)

2023-10-30 11:37:12

2024-02-02 09:50:59

2022-07-25 14:10:07

人工智能金融語(yǔ)言

2024-01-16 10:22:23

人工智能大型語(yǔ)言模GPT 4

2022-07-04 15:29:59

人工智能機(jī)器計(jì)算機(jī)

2021-10-28 11:00:00

人工智能AI汽車行業(yè)

2023-05-10 16:01:53

物聯(lián)網(wǎng)人工智能

2023-12-11 15:02:11

人工智能AI業(yè)務(wù)流程

2023-08-10 17:40:33

人工智能

2024-08-20 16:44:15

人工智能大腦地圖

2024-01-26 10:35:21

人工智能教育領(lǐng)域AI

2023-04-07 16:13:33

邊緣物聯(lián)網(wǎng)人工智能

2023-03-11 22:44:04

人工智能特斯拉

2018-07-02 10:48:20

2022-07-31 23:46:57

人工智能語(yǔ)言模型感知力

2023-06-06 11:22:23

2024-02-04 10:04:53

人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美精品中文字幕久久二区 | 99久久婷婷国产综合精品 | 久久99精品久久久久久国产越南 | 久久男人| 欧美a在线 | 成人福利在线 | 中文字幕亚洲免费 | 久夜精品 | 天天干天天爱天天操 | 黄在线免费观看 | 亚洲九色 | 99精品欧美一区二区三区 | 久久国产精品久久久久久 | 国产高清一区二区三区 | 欧美激情精品久久久久久 | 日本中出视频 | 精品综合 | 欧美专区在线观看 | 亚洲日本欧美日韩高观看 | 欧美日韩精品一区二区三区视频 | 亚洲日本视频 | 欧美激情视频网站 | 欧美视频三级 | 成人免费黄视频 | 亚洲一区二区成人 | 国产精品视频一区二区三区, | 亚洲精品久久久久久一区二区 | 精品99久久| a欧美| 中文字幕精品一区二区三区精品 | 免费观看一级毛片 | 日韩一级在线 | 国产高清久久久 | 91久久北条麻妃一区二区三区 | 日韩一级黄色片 | 亚洲国产一区在线 | 999久久久国产精品 欧美成人h版在线观看 | 亚洲精品久久久久久久不卡四虎 | 国产精品成人一区 | 国精日本亚洲欧州国产中文久久 | 91玖玖|