成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<input id="22ioe"></input>

<s id="22ioe"><center id="22ioe"></center></s>

<abbr id="22ioe"></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

MMMU華人團隊更新Pro版！多模態(tài)基準升至史詩級難度：過濾純文本問題、引入純視覺問答

作者：新智元 2024-09-18 08:15:00

人工智能新聞

MMMU-Pro通過三步構(gòu)建過程（篩選問題、增加候選選項、引入純視覺輸入設(shè)置）更嚴格地評估模型的多模態(tài)理解能力；模型在新基準上的性能下降明顯，表明MMMU-Pro能有效避免模型依賴捷徑和猜測策略的情況。

多模態(tài)大型語言模型（MLLMs）在各個排行榜上展現(xiàn)的性能不斷提升，例如GPT-4o在大學(xué)水平上的多學(xué)科多模態(tài)理解和推理（MMMU）基準測試中取得了69.1%的準確率。

不過，基準測試結(jié)果是否真的能反映模型對多樣化主題的深入理解，仍然有爭議，或者說模型是否只是利用了統(tǒng)計模式，而非依靠理解和推理的情況下就能得出正確答案？

為了解決這一問題并推動多模態(tài)AI評估的邊界，MMMU團隊對MMMU基準在健壯性和問題難度上進行提升，新基準MMMU-Pro能夠更準確、更嚴格地評估模型在廣泛的學(xué)科領(lǐng)域內(nèi)真正的多模態(tài)理解和推理能力。

論文鏈接：https://arxiv.org/abs/2409.02813

MMMU-Pro的構(gòu)建過程包括三步：

1. 過濾掉純文本模型可回答的問題；

2. 由人類專家將候選選項增加到 10 個，以減少模型蒙對答案的概率；

3. 引入純視覺輸入設(shè)置，即問題直接寫在圖像中，既要求模型像人一樣同時具有「看」和「讀」的能力，也可以在現(xiàn)實場景中直接將模型用于屏幕截圖或照片，無需分離問題與圖片；

實驗結(jié)果顯示，模型在MMMU-Pro上的性能明顯低于 MMMU，下降 16.8% 到 26.9%，模型的排名通常與原始模型相似，但GPT-4o mini 模型的健壯性與GPT-4o相比，健壯性較差。

研究人員中還探討了 OCR 提示和思想鏈 (CoT) 推理的影響，結(jié)果發(fā)現(xiàn) OCR 提示的影響很小，而 CoT 通?？梢蕴岣咝阅堋?/span>

MMMU-Pro：更健壯的MMMU

重新審視MMMU基準測試

大規(guī)模多學(xué)科多模態(tài)理解和推理（MMMU）基準測試是一個綜合性的數(shù)據(jù)集，能夠評估多模態(tài)人工智能模型在需要特定學(xué)科知識和深思熟慮推理的大學(xué)水平任務(wù)上的表現(xiàn)。

MMMU由來自大學(xué)考試、測驗和教科書的1.15萬個精心策劃的多模態(tài)問題組成，涵蓋了六個核心學(xué)科的30個主題和183個子領(lǐng)域。

MMMU中的每個問題都是一個多模態(tài)的圖文配對，有4個多項選擇選項，包括圖表、圖解、地圖和化學(xué)結(jié)構(gòu)等30種不同的圖像類型。

該基準已經(jīng)成為了多模態(tài)領(lǐng)域的標準評估工具，許多著名多模態(tài)模型在發(fā)布時都會使用MMMU來評估能力。

但與此同時，MMMU社區(qū)也有許多負面反饋，研究人員總結(jié)為兩個問題：

1. 文本依賴性：某些問題相對獨立或與相應(yīng)的圖像無關(guān)，即無需輸入圖像，僅靠問題文本就能回答；

2. 利用捷徑：即使問題需要圖像才能正確回答，但模型通常也能找到候選選項中的捷徑或相關(guān)性，根據(jù)預(yù)訓(xùn)練中獲得的先驗知識來得出正確答案。

所以MMMU-Pro在構(gòu)建的時候，更加細致地考慮問題與圖像之間的關(guān)聯(lián)性，以及智能體是否真正理解了問題的本質(zhì)，而不僅僅依賴于文本信息或選項中的模式識別。

構(gòu)建方法

為了緩解這些問題并構(gòu)建一個更健壯的基準測試，研究人員設(shè)計了一個三步方法：

圖片

1. 篩選問題

刪除僅通過文本的大型語言模型（LLMs）就能回答的問題。

研究人員選擇了四個強大的開源LLMs：Llama3-70B-Instruct、Qwen2-72B-Instruct、Yi-1.5-34B-Chat和Mixtral-8×22BInstruct（gpt-4o），并要求模型在沒有圖像的情況下回答MMMU問題；即使模型表明需要視覺輸入，也要求模型提供答案。

對每個模型重復(fù)上述過程十次，如果某個模型能夠正確回答一個問題超過五次，就可以認為這個問題是「純文本可回答的」，排除掉三個模型都可回答的問題。

然后從剩余的問題池中，在30個主題下，每個主題隨機抽取60個問題，總計1800個問題。

2. 增加候選選項

為了防止模型根據(jù)問題和候選項之間的關(guān)聯(lián)來回答問題，研究人員將問題的候選項從四個增加到十個，使模型更難蒙對。

在增加選項的過程中，專家還會對原始的標注問題進行審查，以確保問題與圖像的相關(guān)性，并排除了缺乏明確聯(lián)系或連貫性的問題，篩選出了70個問題。

3. 通過僅視覺輸入設(shè)置增強評估

為了進一步挑戰(zhàn)模型的多模態(tài)理解，研究人員在MMMU-Pro中引入了純視覺輸入設(shè)置，將問題嵌入到屏幕截圖或照片中。

人類標注人員需要在模擬顯示環(huán)境中手動捕獲照片和屏幕截圖，圖片涉及不同的背景、字體樣式和字體大小，可以覆蓋現(xiàn)實世界條件的多樣性。

最終總共獲得了3460個問題，其中1730個樣本是標準格式，另外1730個是屏幕截圖或照片形式。

實驗結(jié)果

實驗設(shè)置

研究人員用到的基線模型包括：

1. 閉源模型（Proprietary Models）：GPT-4o（0513）和GPT-4o mini，Claude 3.5 Sonnet，以及Gemini 1.5 Pro（0801和0523版本），代表了多模態(tài)模型能力的最前沿。

2. 開源模型：InternVL2（8B、40B和Llama3-76B版本）、LLaVA（OneVision-7B、OneVision-72B和各種NeXT版本）、VILA-1.5-40B、MiniCPM-V2.6、Phi-3.5-Vision和Idefics3-8B-Llama3

研究人員在三種不同的測試環(huán)境下對模型進行評估：（1）4個選項的標準設(shè)置、10個選項下的性能和（3）純視覺輸入，其中（2）和（3）的平均分作為MMMU-Pro的總體性能得分。

總體結(jié)果

增加候選選項的影響

從4個候選選項增加到10個（?1）對所有模型的性能都有明顯的下降，GPT-4o（0513）的準確率下降了10.7%，從64.7%降至54.0%，表明增加選項數(shù)量可以有效降低了模型猜測正確答案的可能性，迫使模型更深入地理解和處理多模態(tài)內(nèi)容。

純視覺設(shè)置的影響

GPT-4o（0513）在純視覺設(shè)置中的準確率又下降了4.3%，而LLaVA-OneVision-72B的準確率大幅下降了14.0%，表明純視覺設(shè)置確實能考驗出模型整合視覺和文本信息的能力。

對MMMU-Pro的綜合影響

總體的性能差異?3代表MMMU-Pro與MMMU（驗證集）之間的差異，可以看到Gemini 1.5 Pro（0801）和Claude 3.5 Sonnet模型分別出現(xiàn)了18.9%和16.8%的下降，而VILA-1.5-40B等模型的下降的更多，達到了26.9%。

全面的準確率顯著降低表明，MMMU-Pro成功地降低了模型在原始基準測試中可能利用的捷徑和猜測策略。

OCR在視覺設(shè)置中有幫助嗎

研究人員探討了光學(xué)字符識別（OCR）提示是否有助于提高MMMU-Pro僅視覺輸入設(shè)置中的性能。

OCR提示明確要求模型寫出圖像中的問題文本，不過，在評估的模型中，包含OCR提示并沒有顯著改變性能。

微小的性能差異表明，現(xiàn)有的模型已經(jīng)能夠從圖像中提取和理解文本信息，即使沒有明確的OCR提示也是如此。

當(dāng)文本嵌入在圖像中時，雖然顯著增加了視覺輸入的整體復(fù)雜性，但簡單的OCR不足以解決MMMU-Pro僅視覺輸入設(shè)置所提出的問題，模型不僅要識別和提取文本，還要理解其在圖像中的上下文、與視覺元素的關(guān)系以及與當(dāng)前問題的相關(guān)性。

CoT有助于回答MMMU-Pro問題嗎？

在MMMU-Pro基準測試中，研究人員估了思維鏈（Chain of Thought，簡稱CoT）提示在提升智能體性能方面的有效性，包括標準設(shè)置和視覺輸入設(shè)置。

結(jié)果顯示，在這兩種設(shè)置下，引入CoT提示都能夠帶來性能的提升，但不同智能體的性能提升幅度存在顯著差異。

例如，Claude 3.5 Sonnet在標準設(shè)置中表現(xiàn)出顯著的性能提升，準確率從42.7%提高到55.0%，相比之下，LLaVA-OneVision-72B只有很小的性能提升。

值得注意的是，一些智能體，比如VILA1.5-40B，在引入CoT提示后性能反而出現(xiàn)了下降，可能與模型在遵循指令方面的能力有關(guān)。如果模型無法準確地遵循指令，生成CoT解釋就會變得更加困難。

此外，有些模型無法保持正確的回復(fù)格式，即存在所謂的「簡化回復(fù)格式」問題。

責(zé)任編輯：張燕妮來源：新智元

模型數(shù)據(jù)AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：亚洲精品国产偷自在线观看 | 国产精品大片 | 午夜精品久久久 | 日韩精品一区在线 | 天堂av在线影院 | 色片在线观看 | 国产精品自拍视频 | 精品国产18久久久久久二百 | 精品久久国产老人久久综合 | 亚洲一区二区视频在线观看 | 国产91色在线 | 亚洲 | 欧美成人aaa级毛片在线视频 | 免费观看黄色一级片 | 国产片侵犯亲女视频播放 | 久久久久国 | 国产精品日韩欧美一区二区三区 | 日韩视频精品在线 | 亚洲欧美在线视频 | 国产精品一区二区不卡 | 91久久国产综合久久 | 91免费观看国产 | 一区二区三区四区在线视频 | 毛片免费观看 | 一区天堂| 欧美日韩国产精品一区 | 一区二区福利视频 | av在线一区二区三区 | 美女久久 | 久久综合久久综合久久综合 | 日韩区 | 亚洲一区二区在线播放 | 日本久草视频 | 美国一级黄色片 | 国产极品车模吞精高潮呻吟 | 在线观看精品视频网站 | h视频在线观看免费 | 综合国产| 成人亚洲综合 | 亚洲精品久久久久久久久久久 | 国产精品美女久久久久aⅴ国产馆 | 色狠狠桃花综合 |

<samp id="msyi6"><optgroup id="msyi6"></optgroup></samp><kbd id="msyi6"></kbd>

<bdo id="msyi6"></bdo>

<button id="msyi6"><noscript id="msyi6"></noscript></button>

<bdo id="msyi6"></bdo>

<input id="msyi6"></input>

<s id="msyi6"><dd id="msyi6"></dd></s>