全華人團隊推出多模態大模型新基準,GPT-4o準確率僅為65.5%,所有模型最易犯感知錯誤
GPT-4o再次掀起多模態大模型的浪潮。
如果他們能以近似人類的熟練程度,在不同領域執行廣泛的任務,這對許多領域帶來革命性進展。
因而,構建一個全面的評估基準測試就顯得格外重要。然而評估大型視覺語言模型能力的進程顯著落后于它們自身的發展。
來自上海AI Lab、香港大學、上海交大、浙江大學等多家機構提出了 MMT-Bench。
圖片
這是一個全方位的多模態基準測試,旨在全面評估大型視覺語言模型(LVLMs)在多模態多任務理解方面的表現。
研究團隊還對當前幾個代表的視覺大模型進行了能力評估,結果發現感知錯誤、推理錯誤是所有模型最常見的兩大錯誤。
多模態多任務AGI基準測試MMT-Bench
MMT-Bench的廣度體現在三個方面。
圖片
首先,MMT-Bench數據經過精心設計,包含32K個多選視覺語言問題,涵蓋了32個核心元任務和162個子任務,這比此前的評測數據集MMBench大8.1倍。
其次,MMT-Bench包含了13種圖像類型,如自然場景、合成圖像、深度圖、富文本圖像、繪畫、屏幕截圖、點云、醫學圖像等。這樣的圖片多樣性要求模型能夠解釋理解各種視覺輸入。
第三,MMT-Bench涵蓋了多種多模態情景,如車輛駕駛、GUI導航和具身AI,測試了14種多模態能力,包括視覺識別、定位、推理、OCR、計數、3D感知、時間理解等。
構建評測任務 。
MMT-Bench的評測任務在構建時旨在包含盡可能多的多模態任務。為此,研究人員首先提出多模態理解的元任務。然后,通過去重和篩選重要任務總結出32個元任務。
接著,將每個元任務分解為幾個子任務。子任務是否被保留在MMT-Bench中,需要滿足三個標準:
- 1、子任務是否檢驗了基本的多模態能力;
- 2、子任務對當前的大型視覺語言模型(LVLMs)是否具備挑戰性;
- 3、子任務的測試樣本是否可以公開獲取。
經過選擇,MMT-Bench共包含了162個子任務,這比之前任務最多的評測集TinyLVLM-eHub大3.8倍。
MMT-Bench與此前評測數據的詳細比較如下表所示。
圖片
數據收集。
圖片
MMT-Bench的研究人員設計了一個高效的數據收集流程,以構建每個子任務的多選視覺語言問題評估數據。
首先,他們通過Google、Paper With Code、Kaggle和ChatGPT等多種數據來源,根據子任務的名稱全面搜索相關數據集。下載數據集后,再細致地評估它們是否適合評估子任務,確保數據集的可用性和相關性。
接著,研究人員定義了一種統一的元數據格式,用于整理下載的數據集。每個元數據樣本包括圖像和元信息,其中元信息包括生成評測問題和答案所需的必要信息,以及所需推理能力的標注信息和視覺圖片的類型。
為了提高評估效率,在每個任務中,研究人員通過隨機抽樣將樣本數量最大限制為200,并且每個數據集包含相同數量的樣本。
最后,對于每個子任務,研究人員從它們的元數據中生成多選視覺語言問題及其選項和答案。具體來說,根據特定任務,研究人員或手動設計規則,或使用ChatGPT來進行高質量的QA生成。
例如,在基于草圖進行圖像檢索的任務中,使用對應的圖像作為正確答案,并從元數據中隨機抽取其他圖像來生成錯誤選項。而在生成視頻描述的任務中,則使用ChatGPT編寫容易混淆的錯誤選項。
綜上,MMT-Bench共包含31,325個精心設計的多選問題,涵蓋13種輸入圖像類型,如自然場景、合成圖像、富文本圖像、醫學圖像等,覆蓋32個核心元任務和162個子任務,用于多任務多模態理解。
與之前的LVLMs基準測試相比,MMT-Bench中的問題涵蓋了多種多模態場景,如GUI導航和文檔理解,測試了包括視覺識別、定位、推理、OCR、計數、3D感知、時間理解等14種能力。這些特點確保MMT-Bench滿足評估多任務AGI的任務廣度要求。
評測結果
研究人員基于MMT-Bench對30種公開可用的大型視覺語言模型(LVLMs)進行了綜合評估。
結果顯示MMT-Bench的基準測試給現有的LVLMs帶來了重大挑戰,即使是InternVL-Chat、GPT-4o和GeminiProVision等先進模型,其準確率也僅分別為63.4%、65.5%和61.6%。
圖片
綜合而言,閉源的專有模型GPT-4o目前在MMT-Bench中取得了領先地位,超過了InternVL-chat、QWen-VL-Plus、GPT-4V和GeminiProVision等其他模型。
值得注意的是,開源模型InternVL-chat和QwenVL-Max正緊隨GPT-4o之后,這為未來開源社區模型能與閉源專有模型競爭甚至超越它們的前景增添了信心。
圖片
在所有元任務的評測結果中,研究人員還發現:
1)大多數大型視覺語言模型在視覺識別(Visual Recognition)和視覺描述(Visual Captioning)任務中表現出色,凸顯了LVLMs在識別“物體是什么”和描述圖像中展示內容的能力。然而,對于精細感知任務(如定位、像素級感知等)或復雜推理任務(如圖像評測判斷),大多數LVLMs仍表現較差。
2)對于LLaVA-v1.5和LLaVA-v1.5-Xtuner,隨著模型大小的增加(從7B增加到13B),其性能顯著提高,而從InternLM升級到InternLM2也提高了LLaVA的性能。這表明即便保持訓練數據和視覺編碼器保持不變,采用更大或改進的LLMs也能夠提升多任務性能。
3)BLIP2即使沒有經過指令調整,也在性能上超過了大多數經過數百萬指令數據調整的LVLMs,這表明在某些任務中使用指令調整的數據甚至可能損害其他任務的泛化能力。
任務地圖。
得益于MMT-Bench中任務的廣泛覆蓋,研究人員可以在任務地圖上評估LVLMs的多模態性能。
通過分析任務地圖中任務之間的關系,可以系統地解釋不同任務在多模態能力中的作用。基于任務地圖,研究人員發現LVLMs在彼此相近的任務上獲得更一致的性能排名。此外,任務地圖還可以用來發現領域外(OoD)任務和領域內任務。
圖片
錯誤分析。
為了分析LVLMs在MMT-Bench上的錯誤分布,研究人員檢查了三個LVLMs:GPT-4V、GeminiProVision和InternVL-Chat-V1.2(簡稱InternVL)。
圖片
結果發現,感知錯誤(Perception Error)是所有模型中最常見的錯誤類型。
其中GPT-4V的感知錯誤率顯著低于GeminiProVision(76.9%)和InternVL(67.2%),表明其在感知任務中的表現優越。
推理錯誤是第二常見的錯誤類型,其中InternVL的推理錯誤率最高(14.8%),其次是GeminiProVision(10.4%)和GPT-4V(9.94%),這凸顯了所有模型在復雜推理任務中所面臨的挑戰。
圖片
圖片
最后簡單一下,MMT-Bench是一個旨在評估LVLMs在多模態多任務理解方面的一個綜合性基準測試。MMT-Bench的廣度體現在其精心構建的包含31325個多選問題的數據上,這些問題涵蓋了162個多模態任務。
評估結果揭示了當前LVLMs仍面臨由MMT-Bench所帶來的重大挑戰。MMT-Bench的目標是衡量LVLMs在多任務AGI路徑上的進展,并在未來將繼續擴展其所涵蓋的任務集。研究人員相信,MMT-Bench將進一步激發LVLMs的研究和開發,使得人們能夠更接近實現真正智能的多模態系統。
論文地址:
https://arxiv.org/abs/2404.16006項目主頁地址:
https://mmt-bench.github.io/代碼地址:
https://github.com/OpenGVLab/MMT-Bench數據集地址:
https://huggingface.co/datasets/Kaining/MMT-Bench