中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺(jué)問(wèn)題！

發(fā)布于 2024-4-7 10:05

瀏覽

0收藏

大模型不看圖，竟也能正確回答視覺(jué)問(wèn)題？！

中科大、香港中文大學(xué)、上海AI Lab的研究團(tuán)隊(duì)團(tuán)隊(duì)意外發(fā)現(xiàn)了這一離奇現(xiàn)象。

他們首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型，不管是閉源還是開(kāi)源，語(yǔ)言模型還是多模態(tài)，竟然只根據(jù)在多模態(tài)基準(zhǔn)MMMU測(cè)試中的問(wèn)題和選項(xiàng)文本，就能獲得不錯(cuò)的成績(jī)。

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺(jué)問(wèn)題！-AI.x社區(qū)

△藍(lán)色表示能看到圖的LVLMs，橘色和綠色分別表示只接收問(wèn)題和選項(xiàng)文本的LLMs和LVLMs

（LLM：大語(yǔ)言模型；LVLMs：多模態(tài)大模型）不知道的還以為是大模型的隱藏技能被發(fā)現(xiàn)了。

有網(wǎng)友發(fā)出靈魂拷問(wèn)：我們?cè)u(píng)估多模態(tài)模型的方法正確嗎？

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺(jué)問(wèn)題！-AI.x社區(qū)

這一結(jié)果也激起了研究者們的好奇，于是他們決定對(duì)此展開(kāi)進(jìn)一步探究。

大模型隱藏技能被發(fā)現(xiàn)？

針對(duì)現(xiàn)有的評(píng)估樣本和評(píng)估過(guò)程，研究人員認(rèn)為造成這種現(xiàn)象的兩個(gè)主要問(wèn)題。

第一，一些多模態(tài)評(píng)估樣本缺少對(duì)視覺(jué)內(nèi)容的依賴性。

這種問(wèn)題反映了現(xiàn)有的benchmark中的不合理之處。這個(gè)問(wèn)題包含了兩種情況：

一種是有些評(píng)估樣本的答案可以被蘊(yùn)含在了題目和選項(xiàng)中從而免去了看圖的必要。

比如會(huì)有這種問(wèn)題，這個(gè)圓形土圈是什么形狀？

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺(jué)問(wèn)題！-AI.x社區(qū)

另外一種則是有些評(píng)估樣本可以直接被語(yǔ)言大模型利用嵌入的豐富世界知識(shí)進(jìn)行解答而無(wú)需依賴圖片。

比如下圖中的問(wèn)題：內(nèi)布拉斯加州的首府是什么？

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺(jué)問(wèn)題！-AI.x社區(qū)

第二，現(xiàn)有評(píng)估過(guò)程未考慮語(yǔ)言和多模態(tài)大模型訓(xùn)練過(guò)程中的數(shù)據(jù)泄露問(wèn)題。

LVLM通常由一個(gè)vision encoder，一個(gè)語(yǔ)言模型基座，以及一個(gè)視覺(jué)-語(yǔ)言連接件組成。而且現(xiàn)有的多模態(tài)benchmark中有大量的評(píng)估樣本是從單模態(tài)的文本語(yǔ)料中轉(zhuǎn)化過(guò)來(lái)的（比如從考試題目中轉(zhuǎn)化而來(lái)）。

因此如果大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)中無(wú)意間泄露了多模態(tài)benchmark中轉(zhuǎn)化不充分的評(píng)估樣本，就會(huì)影響LVLMs之間的公平比較。

為了定量觀察大語(yǔ)言模型中廣泛存在的泄露現(xiàn)象，研究者們采用了22個(gè)大語(yǔ)言模型在6個(gè)公開(kāi)benchmark上進(jìn)行評(píng)估。

這些大語(yǔ)言模型包含了2個(gè)閉源模型（GPT4-Turbo以及GeminiPro）和20個(gè)大小、架構(gòu)各異的開(kāi)源模型（比如Qwen系列，LLaMA2系列，Baichuan系列，Mixtral-8x7B等），并且使用了2-shot推理策略來(lái)減少拒絕回答的情況以及對(duì)齊回答的格式。

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺(jué)問(wèn)題！-AI.x社區(qū)

結(jié)果看到，閉源模型GeminiPro和開(kāi)源模型Qwen1.5-72B在極具挑戰(zhàn)性的MMMU基準(zhǔn)上可以分別取得42.7和42.4的驚人成績(jī)，一度逼近GeminiPro-Vision (44.4)，LLaVA-Next-34B (47.0)和Yi-VL-34B (43.2)等多模態(tài)模型在能看到圖片情況下的表現(xiàn)。

進(jìn)一步的，他們還定量觀察多模態(tài)大模型在訓(xùn)練過(guò)程中的數(shù)據(jù)泄露情況：屏蔽了LVLM的圖片輸入從而只根據(jù)文本問(wèn)題和選項(xiàng)來(lái)進(jìn)行評(píng)估（標(biāo)記為L(zhǎng)VLM-text）。

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺(jué)問(wèn)題！-AI.x社區(qū)

可以看到，像Sphinx-X-MoE和Monkey-Chat經(jīng)過(guò)多模態(tài)訓(xùn)練后在不看圖的情況下相比原始大模型在MMMU基準(zhǔn)上可以分別提升驚人的17.9和12.6，而它們即使進(jìn)一步在看到圖片的情況下也只能獲得1.2和4.7的性能提升。

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺(jué)問(wèn)題！-AI.x社區(qū)

GPT-4在新基準(zhǔn)上沒(méi)有及格

為了解決上述問(wèn)題從而進(jìn)行更公平和準(zhǔn)確的評(píng)估，研究者們?cè)O(shè)計(jì)了一個(gè)多模態(tài)評(píng)估基準(zhǔn)MMStar——

包含了1,500個(gè)具有視覺(jué)依賴性的高質(zhì)量評(píng)估樣本，涵蓋了樣本均衡的粗略感知、精細(xì)感知，實(shí)例推理、邏輯推理、科學(xué)技術(shù)、數(shù)學(xué)這六個(gè)核心能力以及18個(gè)詳細(xì)的能力維度。

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺(jué)問(wèn)題！-AI.x社區(qū)

伴隨著MMStar benchmark，作者們還提出了multi-modal gain (MG)和 multi-modal leakage (ML)兩個(gè)評(píng)估指標(biāo)來(lái)反映出LVLMs在多模訓(xùn)練過(guò)程中的真實(shí)性能增益和數(shù)據(jù)泄露程度。

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺(jué)問(wèn)題！-AI.x社區(qū)