成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!

發(fā)布于 2024-4-7 10:05
瀏覽
0收藏

大模型不看圖,竟也能正確回答視覺(jué)問(wèn)題?!


中科大、香港中文大學(xué)、上海AI Lab的研究團(tuán)隊(duì)團(tuán)隊(duì)意外發(fā)現(xiàn)了這一離奇現(xiàn)象。


他們首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是閉源還是開(kāi)源,語(yǔ)言模型還是多模態(tài),竟然只根據(jù)在多模態(tài)基準(zhǔn)MMMU測(cè)試中的問(wèn)題和選項(xiàng)文本,就能獲得不錯(cuò)的成績(jī)。

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!-AI.x社區(qū)

△藍(lán)色表示能看到圖的LVLMs,橘色和綠色分別表示只接收問(wèn)題和選項(xiàng)文本的LLMs和LVLMs

(LLM:大語(yǔ)言模型;LVLMs:多模態(tài)大模型)不知道的還以為是大模型的隱藏技能被發(fā)現(xiàn)了。


有網(wǎng)友發(fā)出靈魂拷問(wèn):我們?cè)u(píng)估多模態(tài)模型的方法正確嗎?

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!-AI.x社區(qū)

這一結(jié)果也激起了研究者們的好奇,于是他們決定對(duì)此展開(kāi)進(jìn)一步探究。

大模型隱藏技能被發(fā)現(xiàn)?

針對(duì)現(xiàn)有的評(píng)估樣本和評(píng)估過(guò)程,研究人員認(rèn)為造成這種現(xiàn)象的兩個(gè)主要問(wèn)題。

第一,一些多模態(tài)評(píng)估樣本缺少對(duì)視覺(jué)內(nèi)容的依賴性。


這種問(wèn)題反映了現(xiàn)有的benchmark中的不合理之處。這個(gè)問(wèn)題包含了兩種情況:


一種是有些評(píng)估樣本的答案可以被蘊(yùn)含在了題目和選項(xiàng)中從而免去了看圖的必要。

比如會(huì)有這種問(wèn)題,這個(gè)圓形土圈是什么形狀?

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!-AI.x社區(qū)

另外一種則是有些評(píng)估樣本可以直接被語(yǔ)言大模型利用嵌入的豐富世界知識(shí)進(jìn)行解答而無(wú)需依賴圖片。


比如下圖中的問(wèn)題:內(nèi)布拉斯加州的首府是什么?

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!-AI.x社區(qū)

第二,現(xiàn)有評(píng)估過(guò)程未考慮語(yǔ)言和多模態(tài)大模型訓(xùn)練過(guò)程中的數(shù)據(jù)泄露問(wèn)題。


LVLM通常由一個(gè)vision encoder,一個(gè)語(yǔ)言模型基座,以及一個(gè)視覺(jué)-語(yǔ)言連接件組成。而且現(xiàn)有的多模態(tài)benchmark中有大量的評(píng)估樣本是從單模態(tài)的文本語(yǔ)料中轉(zhuǎn)化過(guò)來(lái)的(比如從考試題目中轉(zhuǎn)化而來(lái))。


因此如果大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)中無(wú)意間泄露了多模態(tài)benchmark中轉(zhuǎn)化不充分的評(píng)估樣本,就會(huì)影響LVLMs之間的公平比較。


為了定量觀察大語(yǔ)言模型中廣泛存在的泄露現(xiàn)象,研究者們采用了22個(gè)大語(yǔ)言模型在6個(gè)公開(kāi)benchmark上進(jìn)行評(píng)估。


這些大語(yǔ)言模型包含了2個(gè)閉源模型(GPT4-Turbo以及GeminiPro)和20個(gè)大小、架構(gòu)各異的開(kāi)源模型(比如Qwen系列,LLaMA2系列,Baichuan系列,Mixtral-8x7B等),并且使用了2-shot推理策略來(lái)減少拒絕回答的情況以及對(duì)齊回答的格式。

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!-AI.x社區(qū)

結(jié)果看到,閉源模型GeminiPro和開(kāi)源模型Qwen1.5-72B在極具挑戰(zhàn)性的MMMU基準(zhǔn)上可以分別取得42.7和42.4的驚人成績(jī),一度逼近GeminiPro-Vision (44.4),LLaVA-Next-34B (47.0)和Yi-VL-34B (43.2)等多模態(tài)模型在能看到圖片情況下的表現(xiàn)。


進(jìn)一步的,他們還定量觀察多模態(tài)大模型在訓(xùn)練過(guò)程中的數(shù)據(jù)泄露情況:屏蔽了LVLM的圖片輸入從而只根據(jù)文本問(wèn)題和選項(xiàng)來(lái)進(jìn)行評(píng)估(標(biāo)記為L(zhǎng)VLM-text)。

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!-AI.x社區(qū)

可以看到,像Sphinx-X-MoE和Monkey-Chat經(jīng)過(guò)多模態(tài)訓(xùn)練后在不看圖的情況下相比原始大模型在MMMU基準(zhǔn)上可以分別提升驚人的17.9和12.6,而它們即使進(jìn)一步在看到圖片的情況下也只能獲得1.2和4.7的性能提升。

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!-AI.x社區(qū)

GPT-4在新基準(zhǔn)上沒(méi)有及格

為了解決上述問(wèn)題從而進(jìn)行更公平和準(zhǔn)確的評(píng)估,研究者們?cè)O(shè)計(jì)了一個(gè)多模態(tài)評(píng)估基準(zhǔn)MMStar——


包含了1,500個(gè)具有視覺(jué)依賴性的高質(zhì)量評(píng)估樣本,涵蓋了樣本均衡的粗略感知、精細(xì)感知,實(shí)例推理、邏輯推理、科學(xué)技術(shù)、數(shù)學(xué)這六個(gè)核心能力以及18個(gè)詳細(xì)的能力維度。

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!-AI.x社區(qū)

伴隨著MMStar benchmark,作者們還提出了multi-modal gain (MG)和 multi-modal leakage (ML)兩個(gè)評(píng)估指標(biāo)來(lái)反映出LVLMs在多模訓(xùn)練過(guò)程中的真實(shí)性能增益和數(shù)據(jù)泄露程度。


中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!-AI.x社區(qū)

隨后,為了檢驗(yàn)所提出的MMStar質(zhì)量,他們進(jìn)行了三項(xiàng)評(píng)估。


1)用22個(gè)大語(yǔ)言模型只根據(jù)MMStar中的問(wèn)題和選型進(jìn)行了評(píng)估,結(jié)果顯示,他們的表現(xiàn)都接近于隨機(jī)選擇,這表明MMStar在現(xiàn)有大模型訓(xùn)練語(yǔ)料中有著很少的數(shù)據(jù)泄露。

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!-AI.x社區(qū)

2)評(píng)估16個(gè)多模態(tài)模型在MMStar上的性能。


高分辨率設(shè)置下的GPT4V取得了57.1的最高平均性能(但還是沒(méi)有及格)。


開(kāi)源模型中InternLM-Xcomposer2取得了平均性能為55.4的好成績(jī),LLaVA-Next在數(shù)學(xué)維度上的表現(xiàn)要略優(yōu)于GPT4V和GeminiPro-Vision。


值得注意的是,沒(méi)有多模態(tài)大模型能夠在精細(xì)感知(FP),邏輯推理(LR),科學(xué)技術(shù)(ST)以及數(shù)學(xué)(MA)上及格。

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!-AI.x社區(qū)

3)用16個(gè)LVLMs在6個(gè)公開(kāi)benchmark以及所提的MMStar上對(duì)MG和ML指標(biāo)進(jìn)行了廣泛評(píng)估。

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺(jué)問(wèn)題!-AI.x社區(qū)

可以看到,而MMStar展示出了最少的平均數(shù)據(jù)泄漏程度。


研究團(tuán)隊(duì)相信,這種跨模型間的ML指標(biāo)對(duì)社區(qū)之后檢驗(yàn)新開(kāi)發(fā)的多模態(tài)benchmarks也是有益的。


論文鏈接:
???https://arxiv.org/pdf/2403.20330.pdf???
項(xiàng)目鏈接:
???https://mmstar-benchmark.github.io/??

??https://huggingface.co/datasets/Lin-Chen/MMStar??

代碼鏈接:
???https://github.com/MMStar-Benchmark/MMStar??


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/mmNxJ-YOZx4Hpu8zSkfDGw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲精品视频在线看 | 二区精品 | 午夜爱爱网 | 国产激情精品一区二区三区 | 色久影院 | 亚洲 91| 91精品一区二区 | 亚洲先锋影音 | 国产99久久精品一区二区永久免费 | 国产一区二区三区久久久久久久久 | 97视频免费| 超碰最新在线 | 国产精品成人一区 | 亚洲精品日韩一区二区电影 | 91久久精品一区二区二区 | 精品欧美一区二区三区久久久 | 久久久国产一区二区 | 一区二区视频 | 精品国产鲁一鲁一区二区张丽 | 在线午夜 | 免费激情网站 | 国产成人小视频 | 日韩国产在线观看 | 欧美极品视频在线观看 | 天天舔天天 | 成人三级av| 国产婷婷精品av在线 | 成人福利在线观看 | 国产成年人视频 | 久久久91精品国产一区二区三区 | www.欧美.com | 91精品国产色综合久久不卡98 | 成人国内精品久久久久一区 | 91免费观看| 一区二区三区中文字幕 | 日本中文在线视频 | 天天草视频 | 久久久一二三 | 久久欧美高清二区三区 | 中文字幕在线观看成人 | 欧美国产一区二区三区 |