成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態物體幻覺下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,專攻三大幻覺成因

人工智能 新聞
基于LVLM幻覺頻發的三個成因(物體共現、物體不確定性、物體位置),北卡教堂山、斯坦福、哥大、羅格斯等大學的研究人員提出幻覺修正器LURE,通過修改描述來降低幻覺問題。

自GPT多模態亮相以來,開源多模態大模型層出不窮。

在人工智能領域,融合多種模態的大規模模型已被廣大研究者和業界視為發展的主流方向,也被認為是構建通用AI助手的核心組件。

國內外一些研究人員在GPT-4V未真正亮相期間,推出了一些代表作,如LLaVa, MiniGPT-4, Mplug-Owl等,這些開源模型在自然指令跟蹤和視覺推理能力方面展示了非常強大的性能。

但有一個問題也一直困擾著眾多研究人員: 這些多模態大模型在能理解真實圖像的同時,也被嚴重的幻覺問題所困擾:看圖說瞎話,胡編亂造等問題時常出現,對視覺摘要、推理等視覺語言任務產生了非常大的負面影響。

今年10月, 北卡教堂山、斯坦福、哥大、羅格斯等大學的研究人員系統分析了LVLMs中幻覺的三種成因, 并且提出了一個通用的解決方案LURE(LVLM Hallucination Revisor,幻覺修正器),通過重建一個包含更少幻覺的描述來糾正LVLM中的物體幻覺(object hallucination)問題,可以與任意LVLM進行無縫集成。

論文地址: https://arxiv.org/abs/2310.00754

代碼地址: https://github.com/YiyangZhou/LURE

LURE的設計基于對產生物體幻覺的關鍵因素,進行嚴格統計分析,包括共現(某些物體在圖像中與其他物體一起頻繁出現)、不確定性(在LVLM解碼期間具有較高不確定性的物體)和物體位置(幻覺通常出現在生成文本的后面部分)。

研究人員在六個開源LVLM上對LURE進行評估了,與之前的最佳方法相比,通用物體幻覺評估指標提高了23%;在GPT和人工評估中,LURE始終名列前茅。

幻覺從哪來,為什么會產生這樣的幻覺?

研究人員對LVLMs產生幻覺的原因進行了系統性的分析,可以歸結為如下三個因素:

1. 物體間的同現和假相關性

圖片

研究人員對不同對LVLMs對于訓練集合中圖片相應的描述統計發現,大部分幻覺的描述中的物體都會存在較高的共現分數,也就是說幻覺物體極大概率是經常一起出現的物體。

例如:一張圖片中有草和天空,那么出現幻覺的描述中的幻覺物體大概率可能是樹木、鳥兒,因為這些物體在訓練集合中經常一起出現。

2. 解碼過程的不確定性

圖片

同時幻覺物體大概率是解碼過程中不太確定的物體,這種不確定性會導致模型在解碼過程中錯誤選擇概率差不多且不太確定的物體,導致描述中出現了幻覺。

3、位置關系

圖片

同時研究人員觀察了大量的幻覺描述發現,幻覺集中出現在模型響應圖像的描述的后半段,這可能是模型前面的輸出的錯誤觸發了后續幻覺的滾雪球。

為了驗證上述分析的可靠性,研究人員還對這三個因素對于幻覺的貢獻進行了詳細的理論證明。

方法介紹

那么如何減少這樣的幻覺呢?

為了減少LVLMs幻覺,研究團隊提出了首個多模態幻覺緩解方案LURE:基于上述分析的關鍵因素,LURE通過物體幻覺修正器,能與任意LVLM無縫銜接,對不準確的描述進行糾正。

訓練流程

推理流程

實驗及結果

效果怎么樣呢?

在六個開源的LVLMs上,LURE都證明了自己的有效性。

在各種評估指標下,如CHAIR、GPT評估以及人類評估,它都能顯著減少至少23%的物體幻覺。

本文將MiniGPT-4 llama7B作為基準模型用于訓練LURE,然后集成于6個開源的LVLM,與其余減少幻覺的basline相比LURE能大幅降低模型輸出時的幻覺:

研究人員同時進行了消融實驗,證明了LURE算法適用于各種LVLMs

圖片

且不依賴于數據集本身所帶來的性能偏移。

此外之前分析的三個因素在LURE后處理之后都能有明顯的改善:

由于幻覺評估除了經典的CHAIR,沒有其他評估指標,研究人員還分析了傳統的機器翻譯指標是否適用于幻覺的評估:

圖片

案例分析




責任編輯:張燕妮 來源: 新智元
相關推薦

2023-10-30 15:06:00

模型數據

2025-06-27 08:40:00

模型推理AI

2024-01-03 13:37:00

模型數據

2025-01-17 10:26:19

模型開發ChatGPT

2023-07-04 10:11:28

數據模型

2024-01-29 12:49:00

AI模型

2024-02-19 00:09:49

開源模型

2025-04-28 12:28:27

2024-08-07 13:00:00

2024-05-07 13:24:54

2025-06-23 15:22:21

斯坦福不等式AI

2024-06-17 14:07:41

2023-10-12 07:27:18

火狐瀏覽器

2024-08-07 10:17:00

2024-01-02 13:19:00

AI模型

2023-09-06 09:50:29

人工智能模型

2023-12-10 15:15:18

開源模型工具

2023-03-15 10:35:16

GPTAI

2021-02-02 12:17:05

人工智能算法技術

2022-05-01 15:42:30

NLP人工智能自然語言處理
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩色图在线观看 | 久久成人免费视频 | 久久99精品视频 | 日日干干夜夜 | 亚洲欧美精品 | 亚洲人免费视频 | 91九色porny首页最多播放 | 日韩一区二区在线播放 | 亚洲精品视频在线 | www.日本精品| 成人一区精品 | 亚洲国产精品一区二区第一页 | 99久久电影 | 国产a区| 亚洲九色 | 成人精品国产免费网站 | 高清国产午夜精品久久久久久 | 99久久久国产精品免费消防器 | 三区在线观看 | 日韩久久久久久 | 久久一区二区三区四区 | 日韩欧美精品在线 | 国产96色在线 | 欧美日韩视频在线第一区 | 免费国产视频在线观看 | 99久久久久久99国产精品免 | 日韩中文不卡 | 精品欧美一区二区三区久久久 | 视频在线一区二区 | 色综合天天网 | 国产成人免费在线观看 | 日日操操 | 久久男人 | 99精品一区二区三区 | 97精品国产97久久久久久免费 | 亚洲一二视频 | 中文字幕av高清 | 久久久网 | 国产精品久久99 | 亚洲成人午夜电影 | 日韩国产欧美一区 |