成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MMMU華人團隊更新Pro版!多模態(tài)基準升至史詩級難度:過濾純文本問題、引入純視覺問答

人工智能 新聞
MMMU-Pro通過三步構(gòu)建過程(篩選問題、增加候選選項、引入純視覺輸入設(shè)置)更嚴格地評估模型的多模態(tài)理解能力;模型在新基準上的性能下降明顯,表明MMMU-Pro能有效避免模型依賴捷徑和猜測策略的情況。

多模態(tài)大型語言模型(MLLMs)在各個排行榜上展現(xiàn)的性能不斷提升,例如GPT-4o在大學(xué)水平上的多學(xué)科多模態(tài)理解和推理(MMMU)基準測試中取得了69.1%的準確率。

不過,基準測試結(jié)果是否真的能反映模型對多樣化主題的深入理解,仍然有爭議,或者說模型是否只是利用了統(tǒng)計模式,而非依靠理解和推理的情況下就能得出正確答案?

為了解決這一問題并推動多模態(tài)AI評估的邊界,MMMU團隊對MMMU基準在健壯性和問題難度上進行提升,新基準MMMU-Pro能夠更準確、更嚴格地評估模型在廣泛的學(xué)科領(lǐng)域內(nèi)真正的多模態(tài)理解和推理能力。

論文鏈接:https://arxiv.org/abs/2409.02813

MMMU-Pro的構(gòu)建過程包括三步:

1. 過濾掉純文本模型可回答的問題;

2. 由人類專家將候選選項增加到 10 個,以減少模型蒙對答案的概率;

3. 引入純視覺輸入設(shè)置,即問題直接寫在圖像中,既要求模型像人一樣同時具有「看」和「讀」的能力,也可以在現(xiàn)實場景中直接將模型用于屏幕截圖或照片,無需分離問題與圖片;

實驗結(jié)果顯示,模型在MMMU-Pro上的性能明顯低于 MMMU,下降 16.8% 到 26.9%,模型的排名通常與原始模型相似,但GPT-4o mini 模型的健壯性與GPT-4o相比,健壯性較差。

研究人員中還探討了 OCR 提示和思想鏈 (CoT) 推理的影響,結(jié)果發(fā)現(xiàn) OCR 提示的影響很小,而 CoT 通??梢蕴岣咝阅堋?/span>

MMMU-Pro:更健壯的MMMU

重新審視MMMU基準測試

大規(guī)模多學(xué)科多模態(tài)理解和推理(MMMU)基準測試是一個綜合性的數(shù)據(jù)集,能夠評估多模態(tài)人工智能模型在需要特定學(xué)科知識和深思熟慮推理的大學(xué)水平任務(wù)上的表現(xiàn)。

MMMU由來自大學(xué)考試、測驗和教科書的1.15萬個精心策劃的多模態(tài)問題組成,涵蓋了六個核心學(xué)科的30個主題和183個子領(lǐng)域。

MMMU中的每個問題都是一個多模態(tài)的圖文配對,有4個多項選擇選項,包括圖表、圖解、地圖和化學(xué)結(jié)構(gòu)等30種不同的圖像類型。

該基準已經(jīng)成為了多模態(tài)領(lǐng)域的標準評估工具,許多著名多模態(tài)模型在發(fā)布時都會使用MMMU來評估能力。

但與此同時,MMMU社區(qū)也有許多負面反饋,研究人員總結(jié)為兩個問題:

1. 文本依賴性:某些問題相對獨立或與相應(yīng)的圖像無關(guān),即無需輸入圖像,僅靠問題文本就能回答;

2. 利用捷徑:即使問題需要圖像才能正確回答,但模型通常也能找到候選選項中的捷徑或相關(guān)性,根據(jù)預(yù)訓(xùn)練中獲得的先驗知識來得出正確答案。

所以MMMU-Pro在構(gòu)建的時候,更加細致地考慮問題與圖像之間的關(guān)聯(lián)性,以及智能體是否真正理解了問題的本質(zhì),而不僅僅依賴于文本信息或選項中的模式識別。

構(gòu)建方法

為了緩解這些問題并構(gòu)建一個更健壯的基準測試,研究人員設(shè)計了一個三步方法:

圖片圖片

1. 篩選問題

刪除僅通過文本的大型語言模型(LLMs)就能回答的問題。

研究人員選擇了四個強大的開源LLMs:Llama3-70B-Instruct、Qwen2-72B-Instruct、Yi-1.5-34B-Chat和Mixtral-8×22BInstruct(gpt-4o),并要求模型在沒有圖像的情況下回答MMMU問題;即使模型表明需要視覺輸入,也要求模型提供答案。

對每個模型重復(fù)上述過程十次,如果某個模型能夠正確回答一個問題超過五次,就可以認為這個問題是「純文本可回答的」,排除掉三個模型都可回答的問題。

然后從剩余的問題池中,在30個主題下,每個主題隨機抽取60個問題,總計1800個問題。

2. 增加候選選項

為了防止模型根據(jù)問題和候選項之間的關(guān)聯(lián)來回答問題,研究人員將問題的候選項從四個增加到十個,使模型更難蒙對。

在增加選項的過程中,專家還會對原始的標注問題進行審查,以確保問題與圖像的相關(guān)性,并排除了缺乏明確聯(lián)系或連貫性的問題,篩選出了70個問題。

3. 通過僅視覺輸入設(shè)置增強評估

為了進一步挑戰(zhàn)模型的多模態(tài)理解,研究人員在MMMU-Pro中引入了純視覺輸入設(shè)置,將問題嵌入到屏幕截圖或照片中。

人類標注人員需要在模擬顯示環(huán)境中手動捕獲照片和屏幕截圖,圖片涉及不同的背景、字體樣式和字體大小,可以覆蓋現(xiàn)實世界條件的多樣性。

圖片

最終總共獲得了3460個問題,其中1730個樣本是標準格式 ,另外1730個是屏幕截圖或照片形式。

實驗結(jié)果

實驗設(shè)置

研究人員用到的基線模型包括:

1. 閉源模型(Proprietary Models):GPT-4o(0513)和GPT-4o mini,Claude 3.5 Sonnet,以及Gemini 1.5 Pro(0801和0523版本),代表了多模態(tài)模型能力的最前沿。

2. 開源模型:InternVL2(8B、40B和Llama3-76B版本)、LLaVA(OneVision-7B、OneVision-72B和各種NeXT版本)、VILA-1.5-40B、MiniCPM-V2.6、Phi-3.5-Vision和Idefics3-8B-Llama3

研究人員在三種不同的測試環(huán)境下對模型進行評估:(1)4個選項的標準設(shè)置、10個選項下的性能和(3)純視覺輸入,其中(2)和(3)的平均分作為MMMU-Pro的總體性能得分。

總體結(jié)果

圖片

增加候選選項的影響

從4個候選選項增加到10個(?1)對所有模型的性能都有明顯的下降,GPT-4o(0513)的準確率下降了10.7%,從64.7%降至54.0%,表明增加選項數(shù)量可以有效降低了模型猜測正確答案的可能性,迫使模型更深入地理解和處理多模態(tài)內(nèi)容。

純視覺設(shè)置的影響

GPT-4o(0513)在純視覺設(shè)置中的準確率又下降了4.3%,而LLaVA-OneVision-72B的準確率大幅下降了14.0%,表明純視覺設(shè)置確實能考驗出模型整合視覺和文本信息的能力。

對MMMU-Pro的綜合影響

總體的性能差異?3代表MMMU-Pro與MMMU(驗證集)之間的差異,可以看到Gemini 1.5 Pro(0801)和Claude 3.5 Sonnet模型分別出現(xiàn)了18.9%和16.8%的下降,而VILA-1.5-40B等模型的下降的更多,達到了26.9%。

全面的準確率顯著降低表明,MMMU-Pro成功地降低了模型在原始基準測試中可能利用的捷徑和猜測策略。

OCR在視覺設(shè)置中有幫助嗎

研究人員探討了光學(xué)字符識別(OCR)提示是否有助于提高MMMU-Pro僅視覺輸入設(shè)置中的性能。


OCR提示明確要求模型寫出圖像中的問題文本,不過,在評估的模型中,包含OCR提示并沒有顯著改變性能。

圖片

微小的性能差異表明,現(xiàn)有的模型已經(jīng)能夠從圖像中提取和理解文本信息,即使沒有明確的OCR提示也是如此。

當(dāng)文本嵌入在圖像中時,雖然顯著增加了視覺輸入的整體復(fù)雜性,但簡單的OCR不足以解決MMMU-Pro僅視覺輸入設(shè)置所提出的問題,模型不僅要識別和提取文本,還要理解其在圖像中的上下文、與視覺元素的關(guān)系以及與當(dāng)前問題的相關(guān)性。

CoT有助于回答MMMU-Pro問題嗎?

在MMMU-Pro基準測試中,研究人員估了思維鏈(Chain of Thought,簡稱CoT)提示在提升智能體性能方面的有效性,包括標準設(shè)置和視覺輸入設(shè)置。

結(jié)果顯示,在這兩種設(shè)置下,引入CoT提示都能夠帶來性能的提升,但不同智能體的性能提升幅度存在顯著差異。

例如,Claude 3.5 Sonnet在標準設(shè)置中表現(xiàn)出顯著的性能提升,準確率從42.7%提高到55.0%,相比之下,LLaVA-OneVision-72B只有很小的性能提升。

值得注意的是,一些智能體,比如VILA1.5-40B,在引入CoT提示后性能反而出現(xiàn)了下降,可能與模型在遵循指令方面的能力有關(guān)。如果模型無法準確地遵循指令,生成CoT解釋就會變得更加困難。

此外,有些模型無法保持正確的回復(fù)格式,即存在所謂的「簡化回復(fù)格式」問題。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-26 10:24:47

2025-02-27 10:08:19

2024-09-24 13:00:00

大語言模型AI

2024-08-08 13:04:28

2025-05-27 15:35:02

大模型技術(shù)AI

2024-04-28 09:12:16

CSS文本是否溢出前端

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2023-09-25 08:08:56

CAA開發(fā)者團隊

2024-01-02 09:16:31

GPT-4推理

2012-04-23 14:37:52

2025-06-25 09:28:38

2017-08-20 12:49:59

瀏覽器跨域服務(wù)器

2024-10-30 15:00:00

AI視頻模型

2024-06-28 18:13:05

2024-06-12 11:50:23

2023-04-25 11:49:28

3D視覺

2025-02-13 09:40:00

2024-11-13 09:39:13

2024-01-31 09:43:55

模型訓(xùn)練

2025-05-21 08:47:00

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲精品国产偷自在线观看 | 国产精品大片 | 午夜精品久久久 | 日韩精品一区在线 | 天堂av在线影院 | 色片在线观看 | 国产精品自拍视频 | 精品国产18久久久久久二百 | 精品久久国产老人久久综合 | 亚洲一区二区视频在线观看 | 国产91色在线 | 亚洲 | 欧美成人aaa级毛片在线视频 | 免费观看黄色一级片 | 国产片侵犯亲女视频播放 | 久久久久国 | 国产精品日韩欧美一区二区三区 | 日韩视频精品在线 | 亚洲欧美在线视频 | 国产精品一区二区不卡 | 91久久国产综合久久 | 91免费观看国产 | 一区二区三区四区在线视频 | 毛片免费观看 | 一区天堂| 欧美日韩国产精品一区 | 一区二区福利视频 | av在线一区二区三区 | 美女久久 | 久久综合久久综合久久综合 | 日韩区 | 亚洲一区二区在线播放 | 日本久草视频 | 美国一级黄色片 | 国产极品车模吞精高潮呻吟 | 在线观看精品视频网站 | h视频在线观看免费 | 综合国产| 成人亚洲综合 | 亚洲精品久久久久久久久久久 | 国产精品美女久久久久aⅴ国产馆 | 色狠狠桃花综合 |