GPT-4o不敵Qwen，無一模型及格！UC伯克利/港大等聯合團隊提出多模態新基準：考察多視圖理解能力

2025-05-15 09:10:00

來自UC伯克利、憶生科技、香港大學、紐約大學、加州大學戴維斯分校、牛津大學等多家機構的研究者聯合提出了All-Angles Bench。

多視圖理解推理有新的評判標準了！

什么是多視圖理解？也就是從不同視角整合視覺信息進而實現理解決策。

想象一下，機器人在復雜環境中執行任務，這就需要根據多個攝像頭的畫面準確判斷物體位置、距離和運動方向，這就依賴于強大的多視圖理解能力。

但過去，由于評估多視圖推理能力的基準測試稀缺，這一領域的研究進展相對緩慢。

來自UC伯克利、憶生科技、香港大學、紐約大學、加州大學戴維斯分校、牛津大學等多家機構的研究者聯合提出了All-Angles Bench，旨在全面評估MLLMs的多視圖理解能力。它涵蓋了90個真實場景下，超過2100組人工標注的多視圖問答對。

其評測數據集以及評測代碼現已全部開源。

他們對27個領先的多模態大語言模型進行基準測試，其中包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。

結果顯示，多模態大語言模型與人類水平之間存在顯著差距，并進一步發現模態大語言模型存在兩種主要的缺陷模式：（1）在遮擋情況下跨視圖對應能力較弱；（2）對粗略相機位姿的估計能力較差。

具體來看：

多視圖理解Bench

數據構建

All-Angles Bench是一個包含超過2100組人工標注的多視圖問答對的大規模基準，涵蓋了90個來源于EGO4D-EXO和EgoHumans數據集的真實世界場景。

數據集包含六大具有挑戰性的任務，分別是Counting、Attribute Identification、Relative Distance、Relative Direction、Object Manipulation和Camera Pose Estimation。

這些任務旨在從多角度考察MLLMs對3D場景的理解能力，包括物體之間的位置關系、物體與相機之間的位置關系等。

構建過程

1. 數據收集與問題類型設計：研究團隊精心挑選了90個多樣化的多視圖場景，并利用GPT設計了上述六大任務下的相關問題。

2. 問題篩查與人工標注：通過人工標注對問題進行細化，修飾以及答案生成。研究團隊并且使用交叉檢查的方法，確保了問題的清晰度、正確性和相關性，使得測試問題能夠準確地評估模型的能力。

3. 成對問題生成與人工質量檢查：為了評估模型在跨視圖一致性方面的表現，研究團隊通過重新表述問題或改變視角來生成成對問題。在生成過程中，保持視角對應關系不變，并進行最后的質量控制，以確保成對問題的有效性。

性能評估

研究團隊對27個領先的MLLMs進行了全面評估，其中包括知名的Gemini-2.0-Flash、Claude-3.7-Sonnet、GPT-4o，以及多種開源和閉源模型。

結果發現，無論是閉源還是開源的多模態大語言模型，在多視圖理解能力方面與人類水平之間仍存在顯著差距。

發現1：對人類來說簡單的任務，比如粗略的相機位姿估計，對多模態大語言模型而言卻頗具挑戰。

在Camera Pose Estimation任務中，人類標注者的準確率達到88.9%，而Gemini-2.0-Flash、Qwen2.5-VL-72B和InternVL2.5-38B這些頂尖的多模態大語言模型，其準確率落后超過50%，這凸顯了其與人類推理水平的顯著差距。

發現2：某些開源多模態大語言模型在方向敏感的任務上超越了閉源模型。

有趣的是，Ovis2-34B和Qwen2.5-VL-72B在Relative Direction和Object Manipulation任務上的表現甚至優于Gemini-2.0-Flash和Claude-3.7-Sonnet等閉源模型。推測這可能得益于開源模型集成的視頻理解能力和精細的視覺定位能力，使得在跨視圖跟蹤物體重新定向方面表現出色。