成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI連電路圖都看不懂？SeePhys新基準暴擊多模態(tài)短板，正確率低至55%

2025-05-30 03:10:00

新基準名為SeePhys，強調(diào)了圖形感知對于模型認識和理解物理世界的重要性。內(nèi)容涵蓋經(jīng)典與現(xiàn)代物理的各個知識等級和領(lǐng)域，包括從初中到博士資格考試的全譜系多模態(tài)物理問題。

當前頂尖AI模型是否真能“看懂”物理圖像？

全譜系多模態(tài)物理推理新基準來了，結(jié)果SOTA級模型準確率都不足55%。

新基準名為SeePhys，強調(diào)了圖形感知對于模型認識和理解物理世界的重要性。

內(nèi)容涵蓋經(jīng)典與現(xiàn)代物理的各個知識等級和領(lǐng)域，包括從初中到博士資格考試的全譜系多模態(tài)物理問題。

圖片

它由中山大學、蘇黎世聯(lián)邦理工學院、華為諾亞方舟實驗室和香港大學的研究團隊聯(lián)合推出，于近日正式開源。

團隊在實驗中系統(tǒng)性評估了LLM/MLLM在復雜科學圖表與理論推導耦合任務中的表現(xiàn)。

結(jié)果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型準確率都不足55%，暴露出多模態(tài)推理的巨大挑戰(zhàn)。

團隊表示，目前該基準正在ICML 2025 AI for MATH Workshop中開放評估，歡迎學界與工業(yè)界的團隊來挑戰(zhàn)。

圖片

為什么需要SeePhys？

近年來，數(shù)學在大語言模型（LLMs）的推理能力評估中大放異彩，而物理學由于其具有與真實場景的強相關(guān)性和更復雜的圖像信息，正在多模態(tài)測評中得到越來越多的重視。

物理學不僅知識體系龐大、邏輯鏈條復雜，而且天然地將抽象世界規(guī)律與千變?nèi)f化的視覺圖像緊密結(jié)合。無論是電路圖、受力分析圖，還是費曼圖等，都挑戰(zhàn)了多模態(tài)大模型根據(jù)圖表理解世界本質(zhì)規(guī)律的能力。

現(xiàn)有物理學基準或缺乏視覺組件，或僅覆蓋單一的知識層級，難以全面評估模型的物理思維能力。

SeePhys的誕生填補了這一空白，它旨在回答當前的頂尖AI模型是否真的“看懂”了物理圖像，并能像人類科學家一樣結(jié)合圖像進行思考。

SeePhys的獨特之處在于：

知識層級跨度大：從初中到博士，從經(jīng)典力學到量子場論，全面覆蓋了不同知識階段和研究領(lǐng)域；
強視覺依賴：根據(jù)圖表是否包含必要解題信息進行分類，優(yōu)先選擇具有強視覺依賴的問題；
跨模態(tài)耦合：純多模態(tài)基準，需同步處理符號公式、幾何關(guān)系與真實世界建模。

圖片

具體來看，SeePhys具有以下幾個關(guān)鍵屬性。

首先是全譜系覆蓋：

2000道題目+2245張圖表，涵蓋7大物理領(lǐng)域（經(jīng)典力學、電磁學、量子物理等）；
8個知識層級：初中、高中、奧賽（初級/高級）、本科（低年級/高年級）、碩士、博士資格考試；
21類異構(gòu)圖表：包括電路圖、時空曲率圖、光電效應示意圖等。

其次是不同的視覺富集程度：

Vision-Essential（75%）：圖表含解題必需信息（如坐標系數(shù)值、電路拓撲、費曼圖）；
Vision-Optional（25%）：圖表僅輔助說明（如場景示意圖）。

還有多模態(tài)增強設(shè)計：

提供純視覺副本（問題文本與圖表融合為單張高分辨率圖像）；
四種評估模式：文本+圖表（TV）、文本+描述（TC）、純文本（TO）、純視覺（VO）。

圖片

實驗發(fā)現(xiàn)

通過對28個主流模型（包括o4-mini、Gemini-2.5-Pro、Claude-3.7-Sonnet等）的大規(guī)模測試，研究團隊總結(jié)以下結(jié)論：

視覺-文本對齊能力的缺陷：

最佳模型Gemini-2.5-Pro準確率僅54.9%，即使是初中物理題正確率也不及70%。
純語言模型表現(xiàn)意外接近多模態(tài)模型，如DeepSeek-R1（42.2%） vs o3-mini（40.3%），且模型在視覺依賴性較低的問題中準確率遠高于視覺信息富集的問題，暴露了當前頂尖MLLM仍存在巨大的視覺-文本對齊問題。
模型對特定圖表類型（波動方程圖、電路圖）存在系統(tǒng)性識別障礙。

圖片

“看見”對于“思考”的重要性：

對于視覺富集的問題，添加對圖像的文本描述和直接輸入圖文交織問題均相對純文本問題提升巨大。
即使是非必要性圖表也能輔助模型理解問題（如Claude-3.7-Sonnet在Text+Vision條件下相對Vision Only準確率提升30.2%），表明適當?shù)囊曈X提示能夠幫助模型理解問題本質(zhì)。

圖片

知識注入顯現(xiàn)出邊際效應：

較弱模型（如Qwen2.5-VL-3B和LLaVA-OneVision-7B）由于災難性遺忘現(xiàn)象，在高年級問題上精度下降幅度巨大，而較強模型則下降較為平緩，表明知識注入帶來的性能提升已經(jīng)初步顯現(xiàn)邊際效應。
當前模型更擅長記憶而非邏輯推理（如高級奧賽題反而比知識考察更深的博資考的準確率更低）。
即使是初中和高中難度的物理題也并未被AI完全解決，物理學對于MLLM依然十分困難。

錯誤推理模式歸納

研究團隊對強模型o4-mini, Gemini-2.5-Pro與弱模型Qwen2.5-VL-3B共同錯誤的100個樣本進行人工分析。

然后，歸納得出了9種錯誤的推理模式，包括視覺誤讀、文本誤讀、建模錯誤、錯誤假設(shè)、數(shù)值計算錯誤、過度簡化、總結(jié)錯誤、過度思考和重復輸出。

所有三個模型都表現(xiàn)出明顯的建模缺陷（例如定理和公式誤用），同時表現(xiàn)出相對較少的文本誤讀和數(shù)值計算錯誤。

而過度思考和過度簡化的錯誤頻率在模型之間存在顯著差異，且較小的Qwen2.5-VL-3B出現(xiàn)了高重復輸出率（21%）。

圖片

參賽鏈接：https://www.codabench.org/competitions/7925/

挑戰(zhàn)賽詳細信息：https://sites.google.com/view/ai4mathworkshopicml2025/challengeICML workshop

主頁：https://sites.google.com/view/ai4mathworkshopicml2025/home

論文：https://arxiv.org/pdf/2505.19099項目主頁：https://github.com/SeePhys/seephys-project

責任編輯：武曉燕來源：量子位

AI SeePhys 多模態(tài)短板

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：韩日一区二区三区 | 亚洲第1页 | 亚洲欧美综合精品久久成人 | 中文在线视频 | 国产乱码精品一区二区三区忘忧草 | 精品1区 | 成人1区2区 | 香蕉久久久 | 国产精品爱久久久久久久 | 中文字幕乱码一区二区三区 | 岛国视频 | 在线日韩 | 美女日批免费视频 | 国产精彩视频一区 | 日韩欧美在线不卡 | 亚洲午夜精品久久久久久app | 日韩最新网址 | 亚洲国产精品va在线看黑人 | 精品日韩一区二区 | 欧美一区二区大片 | 欧美一区二区三区久久精品视 | 成人精品鲁一区一区二区 | 欧美日韩一 | 黄网在线观看 | 欧美激情综合五月色丁香小说 | 欧美v免费 | 欧美在线视频一区 | 欧美久久久久久久久中文字幕 | 欧美日韩在线观看一区 | 亚洲第一av | 黄色国产| 国产高清在线观看 | 一区二区高清不卡 | 国产欧美视频一区 | 成人网在线观看 | 日本天堂视频 | 日韩精品视频在线观看一区二区三区 | a成人| 午夜电影网 | 免费视频一区二区三区在线观看 | 一级黄色片网址 |