亞馬遜、微軟、谷歌DeepMind 聯合團隊的杰作,POLYMATH 引領MLLMs多模態推理新基準
多模態大語言模型(MLLMs)的發展迅速,成為了人工智能研究的一個關鍵領域。這些模型不僅能夠處理文本,還能夠理解并生成視覺信息,使其在許多應用中展現出卓越的潛力。盡管在某些領域取得了顯著進展,但在復雜的視覺和數學推理任務上,MLLMs的表現仍有待提高。為此,來自亞馬遜、微軟、谷歌DeepMind 聯合研究團隊開發了POLYMATH,這是一個具有挑戰性的基準,旨在系統地分析和評估這些模型在視覺復雜場景下的數學推理能力。通過5000個多模態推理問題,涵蓋10個不同類別,POLYMATH為MLLMs的認知能力提供了全面的測試平臺。
此次研究由一支由各領域專家組成的團隊完成。核心團隊成員包括Himanshu Gupta(亞利桑那州立大學,現供職于亞馬遜)、Shreyas Verma(Asurion)、Ujjwala Anantheswaran(亞利桑那州立大學,現供職于微軟)、Kevin Scaria(亞利桑那州立大學,現供職于亞馬遜)、Mihir Parmar(亞利桑那州立大學)、Swaroop Mishra(亞利桑那州立大學,現供職于Google DeepMind)和Chitta Baral(亞利桑那州立大學)。團隊成員均在各自領域有著深厚的專業背景,確保了POLYMATH基準的科學嚴謹性和技術先進性。
該項目的代碼庫可以在GitHub上找到,地址為:https://github.com/kevinscaria/PolyMATH,數據集則托管在Hugging Face上,地址是:???https://huggingface.co/datasets/him1411/polymath??,為研究人員提供了便捷的訪問和使用途徑。
相關工作
MLLMs的核心優勢在于其能夠同時處理文本和視覺信息,具備跨模態理解和生成能力。這些模型不僅在語言理解和生成上表現出色,還能夠處理復雜的視覺任務,為多種應用場景提供了解決方案。
多模態大語言模型的發展得益于大語言模型(LLMs)和大型視覺模型的進步。近年來,OpenAI的GPT系列和Google的Gemini系列等模型在處理多模態任務上取得了顯著成就。例如,GPT-4V不僅能夠生成高質量的文本,還能夠理解復雜的圖像內容,展現了強大的視覺推理能力。這些模型通過結合自然語言處理(NLP)和計算機視覺(CV)技術,能夠在教育、醫療、科學研究等多個領域中提供創新的解決方案。
在數學推理方面,MLLMs同樣展現了巨大的潛力。現有的研究表明,這些模型在解決幾何問題、圖表理解和數學運算等任務中表現出色。盡管如此,MLLMs在處理涉及空間關系和抽象邏輯推理的復雜數學問題時,仍存在一定的局限性。這是因為這些問題不僅需要模型具備良好的視覺理解能力,還需要其能夠進行深層次的邏輯推理和認知過程。
圖1:MLLM在面對涉及視覺信息的問題時所采用的推理模式示例。在第一行,模型無法感知相鄰半圓之間的關系;在最后一行,模型無法理解答案圖像中的細節。
在評價MLLMs性能的過程中,研究人員開發了多種基準數據集,其中比較著名的包括GeoQA、VQA和UniGeo。這些基準在推動多模態模型的發展中起到了重要作用,但它們也存在一定的局限性。
GeoQA是一個專注于地理問題的問答數據集,主要評估模型在處理地理信息和地理推理任務上的能力。盡管GeoQA包含了一些復雜的地理問題,但其問題類型相對單一,未能全面覆蓋多種數學和視覺推理任務。
VQA(Visual Question Answering)則是一個視覺問答數據集,旨在評估模型在理解圖像內容和回答相關問題方面的能力。VQA的數據集包含了大量的日常場景和常識性問題,雖然在一定程度上考察了模型的視覺理解能力,但其數學推理任務相對較少,未能充分評估模型在復雜數學問題上的表現。
UniGeo是一個專注于幾何問題的數據集,評估模型在處理幾何圖形和幾何推理任務上的能力。盡管UniGeo在幾何推理方面取得了一定的進展,但其數據集規模較小,問題類型也較為有限,未能全面反映模型在多模態任務中的綜合能力。
為了解決現有基準的局限性,研究團隊提出了POLYMATH這一具有挑戰性的多模態數學推理基準。POLYMATH旨在全面評估MLLMs在復雜視覺場景下的數學推理能力,其數據集包含了5000個高質量的認知文本和視覺挑戰,涵蓋了圖案識別、空間推理等10個類別。通過多樣化的任務設置,POLYMATH能夠全面測試模型的認知推理能力,特別是在處理復雜數學和視覺推理任務時的表現。
圖2:POLYMATH的分布和難度概述(a)顯示了數據集中5000個問題的類別劃分,以及該類別的有圖(WD)和無圖(WoD)劃分;(b) 比較各種MLLM的每類別性能。
POLYMATH不僅在數據規模上領先于現有基準,其任務設置也更加多樣化和復雜化,能夠全面評估模型在多模態任務中的綜合表現。研究團隊通過嚴格的數據收集和質量控制流程,確保了POLYMATH數據集的高質量和高可信度。此外,研究團隊還提供了詳細的文本描述和圖像內容,以支持基于文本和視覺的雙重評估。
圖3:帶圖和不帶圖問題的示例。除了問題圖像外,POLYMATH還包括上面顯示的元數據。沒有圖表的問題不會出現在測試img中,而這兩種問題都會出現在testmini中。
POLYMATH數據集的整理
為了系統地評估多模態大語言模型(MLLMs)在復雜視覺場景下的數學推理能力,研究團隊開發了POLYMATH這一具有挑戰性的基準。該數據集的整理過程包括精細的數據收集流程、嚴格的質量保證措施以及科學的分類架構,確保數據集的高質量和多樣性。
數據收集是確保POLYMATH數據集高質量的關鍵。研究團隊采用了手動和自動化相結合的方式,經過五個步驟來收集和整理數據:
- 生成唯一標識符:為每份試卷生成一個唯一標識符(UUID),以便識別并整理從中收集到的所有問題。
- 手動收集圖像片段:標注人員手動收集每個問題及其相關背景信息的圖像片段,包括可能適用于多個問題的分離片段。
- 圖像合并:使用圖像合并腳本自動識別并合并被頁面分隔的問題圖像及其相關背景圖像,以保證完整性。
- 文本轉錄和元數據生成:使用大語言模型(LLM)轉錄問題及其標準答案,并生成包括類別、是否包含圖表、圖像描述等附加元數據。所有元數據都經過人工檢查,確保質量。
- 生成標注文件:自動創建并填充注釋文件,每行對應一個問題,詳細記錄相關信息。
這一系統化的數據收集流程確保了POLYMATH數據集的高質量和多樣性,為模型評估提供了堅實基礎。
在數據收集和標注過程后,研究團隊進行了全面的質量檢查,以確保數據集的高質量和可信度。
- 樣本篩選:剔除分辨率低、超出類別范圍或缺少關鍵信息的樣本。
- 視覺噪聲處理:去除帶有顯著水印或視覺噪聲的樣本,確保樣本清晰可讀。
- 答案校正:領域專家標注員糾正提取錯誤的標準答案。
- 類別驗證:確保每個問題都屬于指定類別,糾正觀察到的分類錯誤。
這些質量保證措施確保了數據集的準確性和一致性,使POLYMATH成為評估MLLMs性能的可靠工具。
為全面評估模型的多模態認知推理能力,研究團隊開發了一個分類架構,根據提供的信息和評估的推理技能對問題進行分類。POLYMATH數據集包含以下10個類別,每個類別都有其定義和示例。
- 視角轉換(PS):給定一個圖形,要求解決者根據指示(如翻轉、鏡像、旋轉等)進行變換。
- 圖形完成(FC):給定一個圖形,要求完成圖形并識別標記位置的缺失元素。
- 圖案識別(PR):要求理解并復制一對一關系或圖案,例如根據a和b的關系,確定b和c的對應關系。
- 序列完成(SC):給定一系列數字或圖形,要求找到系列中的下一個元素。
- 相對推理(RR):包含不同數據點及其相互關系,要求解決者推斷未明確提到的關系。
- 數學推理(MR):涉及數學計算,例如解方程。
- 數值推理(NR):涉及計數提到的元素數量,元素可能是單一圖形的一部分或符合指定圖案。
- 空間推理(SR):要求解決者通過觀察進行推理,以得出答案。
- 找出不同(OD):給定一組元素,要求識別與其他不同的元素。
- 邏輯推理(LR):涉及簡單的邏輯推理,例如蘊涵和矛盾。
這一分類架構不僅涵蓋了多種推理技能,還確保了數據集的多樣性和復雜性,使其能夠全面評估MLLMs在多模態任務中的表現。通過精細的數據收集流程、嚴格的質量保證措施和科學的分類架構,POLYMATH數據集為評估和提升MLLMs的性能提供了重要工具。
實驗設計
為了深入分析多模態大語言模型(MLLMs)在復雜視覺場景下的數學推理能力,研究團隊在POLYMATH基準上進行了系統的實驗設計。這一實驗設計包含了評估模型的選擇、提示策略的應用以及具體的實驗方法和附加實驗分析。
評估模型的選擇
在評估模型的選擇上,研究團隊綜合考慮了閉源和開源MLLMs,旨在全面了解不同模型在多模態推理任務中的表現。閉源模型包括OpenAI的GPT-4o、OpenAI O1以及Anthropic的Claude-3.5 Sonnet和Gemini-1.5 Pro等。這些模型在處理多模態任務上表現出色,是當前技術前沿的代表。閉源模型的選擇使得實驗可以評估最先進的商業化模型的性能。
與此同時,研究團隊也選擇了多種開源MLLMs,包括LLaVA(如LLaVA-v1.6-Mistral-7B、LLaVA-v1.6-Vicuna-13B)、G-LLaVA(如G-LLaVA-7B)以及ShareGPT4V等。這些模型提供了一個開放的研究平臺,允許學術界和開發者進一步研究和改進多模態推理能力。通過評估開源模型,研究團隊不僅可以比較閉源和開源模型的性能,還可以識別開源模型在具體任務中的優勢和不足。
提示策略的應用
提示策略在多模態推理任務中扮演著重要角色,研究團隊采用了四種不同的提示策略,分別是零樣本推理、少量樣本推理、鏈式思維提示和退一步提示。這些策略旨在測試模型在不同信息量和提示方式下的表現。
- 零樣本推理:在沒有提供任何示例的情況下,直接對模型進行評估。這種策略測試模型在完全陌生情況下的推理能力。
- 少量樣本推理:提供少量示例(如2個)后進行評估,測試模型在有少量上下文信息時的表現。
- 鏈式思維提示:使用鏈式思維提示(Chain-of-Thought),引導模型進行逐步推理,幫助其在復雜任務中保持邏輯連貫性。
- 退一步提示:使用退一步提示(Step Back),鼓勵模型在解題過程中重新審視和評估其推理步驟,以提高準確性和邏輯性。
通過這些提示策略,研究團隊能夠深入分析模型在不同提示方式下的推理性能,揭示其在復雜任務中的潛在能力和不足。
附加實驗分析
除了主要實驗設置外,研究團隊還進行了三項附加實驗分析,以進一步驗證和擴展實驗結果。
- test-img子集上的推理測試:test-img子集包含帶有圖表的問題,專注于評估模型的視覺理解能力。研究團隊通過對這些問題進行推理測試,評估模型在處理圖表信息時的表現。
- 無圖表問題的文本版本測試:將test-img子集中的圖表替換為詳細的文本描述,生成一個文本版本的test-img。通過對文本版本的測試,研究團隊能夠分析模型在文本描述和圖表信息上的依賴程度和表現差異。
- OpenAI O1模型的無圖表問題評估:評估OpenAI O1模型在不包含圖表問題上的表現,并與人類基準進行比較,以了解其在文本推理任務中的能力。
這些附加實驗提供了進一步的分析視角,有助于全面了解模型在不同場景下的性能和局限。
實驗方法
實驗方法包括嚴格的設置和詳細的操作步驟,以確保實驗結果的可靠性和可重復性。具體方法包括:
- 實驗數據集:使用POLYMATH基準中的testmini子集,該子集包含1000個經過嚴格篩選的問題,覆蓋了10個不同的推理類別。
- 提示策略實施:按照各提示策略的要求,對模型進行提示和引導,記錄其推理過程和結果。
- 結果評估:使用精確匹配進行答案對比,記錄每個模型在不同提示策略下的準確率和錯誤類型。
通過這些實驗方法,研究團隊能夠系統地評估不同模型在多模態數學推理任務中的表現,揭示其在復雜視覺場景下的推理能力和局限性。
結果分析
在這項研究中,研究團隊通過系統的實驗,詳細評估了多種閉源和開源的多模態大語言模型(MLLMs)在POLYMATH基準上的表現。通過比較模型在各類問題中的表現,我們可以深入了解其在復雜推理任務中的能力和局限性。以下是實驗結果的詳細分析。
閉源模型
在閉源模型的評估中,Claude-3.5 Sonnet和GPT-4o表現尤為突出。Claude-3.5 Sonnet在不同的提示策略下展現了強大的推理能力,特別是在Step Back提示策略中,準確率達到了41.90%。這一策略鼓勵模型重新審視和評估其推理步驟,從而提高了準確性和邏輯性。GPT-4o緊隨其后,尤其在零樣本推理和Step Back提示下表現優異,顯示了其強大的適應性和推理能力。
Gemini-1.5 Pro的表現相對中等,在所有類別中表現穩定,但未能在任何特定領域中占據主導地位。相比之下,Claude Haiku作為最小的閉源MLLMs,表現普遍較差,未能在復雜推理任務中展現出足夠的能力。
開源模型
開源模型的評估結果顯示,LLaVA-v1.6-Mistral-7B在整體表現上名列前茅,總體得分為15.2%。特別是在找出不同(OD)、空間推理(SR)、相對推理(RR)和數學推理(MR)類別中表現突出。這表明LLaVA-v1.6-Mistral-7B在生成精確、一致且相關的響應方面表現出色,即使在超出分布的數據樣本中也是如此。
圖4:不同問題類別中邏輯缺陷(LF)和空間誤解(SM)錯誤的頻率。我們報告每個模型的數據,以便比較模型的能力。由于這些問題需要大量的邏輯跳躍和視覺推理,它們在OD、PR和SC類問題中最為普遍。
ShareGPT4V(13B)模型在PR、SC、RR、MR、SR和OD類別中的表現也非常優異,總得分為12.8%。其他模型如LLaVA-v1.6-Vicuna-13B、LLaVA-1.5(13B)、G-LLaVA(13B)和LLaVA-v1.6(34B)在不同類別中表現各異,顯示出其在處理多樣推理任務時的個體優勢和不足。
錯誤類型分析
在分析錯誤類型時,研究團隊識別出了七種常見錯誤類型,并詳細分析了其分布。
- 邏輯缺陷(LF):推理步驟違反了既定的邏輯規則或現實世界的原則,如等式或基數。
- 空間誤解(SM):模型誤解了空間關系或錯誤地讀取了給定圖像的特定細節。
- 記憶缺陷(MF):模型忘記了問題或解答過程中提供的信息。
- 計算錯誤(CE):模型在數學計算中出錯,或在方程中代入了錯誤的值。
- 誤對齊(MG):模型推理正確,但得出的答案錯誤,如識別了模式但選擇了錯誤的選項。
- 不完整(IC):模型生成的解決方案不完整,或輸出達到了令牌限制。
- 其他錯誤:包括其他未分類的錯誤。
研究團隊通過對236個錯誤樣本的手動檢查,發現邏輯缺陷(LF)是最常見的錯誤,接近60%的錯誤樣本中出現。空間誤解(SM)位居第二,占約25%。這些錯誤在找出不同(OD)、圖案識別(PR)和序列完成(SC)類別的問題中尤為常見,因為這些問題要求模型進行不常見的邏輯跳躍和完全理解視覺信息,而這些正是模型的弱點所在。
此外研究還發現,模型在推理過程中常常犯相同的錯誤,例如假設某一模式在每行都適用,而正確的推理應涉及跨列的模式復制。特別是在PR類別中,GPT-4o、Gemini-1.5 Pro和Claude-3.5 Sonnet在近80%的樣本中遵循了相同的錯誤推理結構。這表明盡管模型之間存在差異,但在實踐中它們展示了相同的優勢和不足。
人類評估
為了確認數據集的難度,研究團隊邀請了六名研究生進行人類評估。每位研究生被分配到一個特定的問題類別,以避免從同一類別的其他問題中獲得額外信息。他們只提供最終答案,沒有詳細的推理過程。
人類評估的結果顯示,盡管模型在某些類別中表現優異,但與人類推理能力相比仍有顯著差距。特別是在處理復雜邏輯和空間推理任務時,模型表現明顯遜色。這一結果為未來的研究提供了明確的方向,強調了開發能夠無縫結合數學推理和視覺理解的模型的必要性。
實驗分析
在對多模態大語言模型(MLLMs)進行系統評估的過程中,研究團隊發現了它們在視覺推理方面的依賴性和常見錯誤模式。以下是對模型依賴圖像描述而非圖像的表現差異分析,以及對模型常見錯誤的深入探討。
模型依賴圖像描述而非圖像
通過對test-img子集的實驗分析,研究團隊發現大多數MLLMs在處理帶有圖表的問題時表現出明顯的局限性。具體而言,當模型面對的是直接的圖像時,其表現明顯不如面對詳細文本描述時的表現。為了驗證這一發現,研究團隊將test-img子集中的圖表替換為詳細的文本描述,生成一個文本版本的test-img進行測試。
結果顯示,所有模型在處理文本描述問題時的表現提升了約3-4%。這表明,盡管這些模型在處理文本數據時表現優異,但在視覺推理任務中存在顯著的不足。特別是GPT-4o和Claude-3.5 Sonnet這兩個模型在文本描述中的表現提升尤為明顯。這種現象表明,當前的MLLMs雖然在理解和生成文本方面已經取得了顯著進展,但在處理復雜的視覺信息時,仍然依賴于能夠清晰描述圖像內容的文本信息。
這一發現對未來的研究具有重要啟示:要進一步提高MLLMs在多模態任務中的表現,需要增強其對視覺信息的理解和推理能力,減少對文本描述的依賴。
模型錯誤的深入分析
在對模型錯誤類型的分析中,研究團隊識別出七種常見的錯誤類型,其中邏輯缺陷(LF)和空間誤解(SM)最為常見。以下是對這些錯誤類型及其對模型推理能力影響的深入探討。
邏輯缺陷(LF)
邏輯缺陷是模型在推理過程中違反既定的邏輯規則或現實世界的原則。例如,當模型在解決數學問題時,未能正確應用等式或基數原則。研究發現,邏輯缺陷在接近60%的錯誤樣本中出現,這一比例相當高。特別是在圖案識別(PR)、序列完成(SC)和找出不同(OD)類別的問題中,邏輯缺陷尤為常見。這些問題通常要求模型進行復雜的邏輯跳躍和模式識別,而模型在這方面表現出的不足導致了高頻率的邏輯錯誤。
空間誤解(SM)
空間誤解是指模型在理解圖像的空間關系或特定細節時出現的錯誤。例如,當面對涉及空間布局和相對位置的問題時,模型未能正確理解圖像中的空間信息。研究表明,空間誤解占約25%的錯誤樣本,這一比例僅次于邏輯缺陷。特別是在涉及幾何圖形和空間推理的問題中,模型容易出現空間誤解。這種現象表明,盡管MLLMs在處理文本信息方面有一定的優勢,但在處理需要深入理解空間關系的視覺信息時,仍存在顯著的不足。
通過對邏輯缺陷和空間誤解的深入分析,我們可以看到當前MLLMs在復雜推理任務中的局限性。為了解決這些問題,未來的研究需要專注于增強模型的邏輯推理能力和空間理解能力。例如,可以通過引入更多的空間推理任務和復雜邏輯推理問題來訓練模型,從而提高其在這兩個方面的表現。
總結
通過深入探討模型在視覺推理方面的依賴情況和常見錯誤模式,我們可以更好地理解當前MLLMs在復雜推理任務中的表現和局限。盡管這些模型在文本描述方面表現優異,但在處理復雜的視覺信息時仍存在顯著的不足。未來的研究需要專注于增強模型的視覺理解和邏輯推理能力,從而全面提升其在多模態任務中的表現。通過不斷改進和優化,MLLMs有望在更多應用場景中展現出更加卓越的性能和能力。(END)
參考資料:https://arxiv.org/pdf/2410.14702
