成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態(tài)大模型不會畫輔助線?最新評估得分:o3僅25.8%,遠低于人類82.3%

人工智能
來自清華大學(xué)、騰訊混元、斯坦福大學(xué)、卡耐基梅隆大學(xué)等頂尖機構(gòu)的研究團隊聯(lián)合發(fā)布了RBench-V:一款針對大模型的視覺推理能力的新型基準測試。

多模態(tài)時代應(yīng)如何評估模型的視覺輸出能力?

來自清華大學(xué)、騰訊混元、斯坦福大學(xué)、卡耐基梅隆大學(xué)等頂尖機構(gòu)的研究團隊聯(lián)合發(fā)布了RBench-V:一款針對大模型的視覺推理能力的新型基準測試。

過去的評估基準主要集中于評估多模態(tài)輸入和純文本推理過程。

而RBench-V系統(tǒng)性評估了當前主流大模型基于“畫圖”的視覺推理能力:

比如在圖中畫出輔助線、描點連線、繪制光線路徑、標注目標區(qū)域,等等。

圖片圖片

結(jié)果發(fā)現(xiàn),即使是表現(xiàn)最好的模型o3,在RBench-V上的準確率也只有25.8%,遠低于人類的82.3%。

這篇論文在reddit machine learning社區(qū)引發(fā)了討論,有網(wǎng)友評價:

有趣的現(xiàn)象,視覺推理連小孩都能做到,GPT-4o卻做不到。

圖片圖片

RBench-V:專為模型視覺推理設(shè)計

為了評估模型的跨模態(tài)推理能力,RBench-V精心設(shè)計并篩選了共計803道題目,涵蓋幾何與圖論(數(shù)學(xué))、力學(xué)與電磁學(xué)(物理)、多目標識別(計數(shù))以及路徑規(guī)劃與圖形聯(lián)想(圖形游戲)等多個領(lǐng)域。

與以往僅要求文字回答的多模態(tài)評測不同,RBench-V的每一道題都明確要求模型生成或修改圖像內(nèi)容來支持推理過程:

簡單地說,就是讓大模型像人類專家一樣,通過繪制輔助線、觀察圖形結(jié)構(gòu)等可視化方式進行思考。

這種對“畫出圖以輔助思考”過程的強調(diào),對模型的視覺理解和圖文協(xié)同推理能力提出了全新的要求。

圖片圖片

評測發(fā)現(xiàn),盡管GPT-4o、Gemini、o3等新一代大模型標榜具備“多模態(tài)理解與生成”能力,它們在真正需要圖像輸出參與推理的問題上仍顯得力不從心。

主流大模型的評測結(jié)果:遠不及人類水平

圖片圖片

在RBench-V的評測中,即便是當前業(yè)界最強的閉源模型,也遠遠比不上人類視覺推理能力。

OpenAI發(fā)布的旗艦?zāi)P蚾3以25.8%的整體準確率排名首位,Google最新推出的Gemini2.5緊隨其后,得分為20.2%。

但這兩者的表現(xiàn)與人類專家高達82.3%的平均準確率相比,依然很不夠看,說明了現(xiàn)有模型在復(fù)雜多模態(tài)推理任務(wù)中認知能力的嚴重不足。

在開源模型陣營中,主流代表如Qwen2.5VL、InternVL、LLaVA-OneVision等模型的準確率普遍徘徊在8%至10%之間,甚至在某些任務(wù)維度上接近“隨機作答”的水平——

所謂“把答題卡放地上踩一腳”的水平。

這種懸殊的表現(xiàn)不僅揭示了當前開源生態(tài)在多模態(tài)輸出生成上的技術(shù)瓶頸,也反映出大模型從“看懂圖”到“畫出圖以輔助思考”的能力缺失。

當前,大模型對于視覺推理尚處于早期探索階段。

圖片圖片

此外,通過比較不同模型的得分,可以看到:僅靠擴大模型參數(shù)規(guī)模、引入圖像輸入通道,或在文字層面堆疊長鏈條思維(Chain-of-Thought,CoT)并不能有效提升模型的視覺推理能力。

當下模型的重大短板:難以借助圖像進行推理

RBench-V的研究揭示了一個關(guān)鍵問題:當前的大模型在處理需要空間直覺和圖像操作的幾何類問題時,往往選擇“走捷徑”。

與人類專家傾向于通過直觀的可視化方法進行思考不同,大多數(shù)模型更習(xí)慣于將圖形問題抽象為坐標系下的代數(shù)表達,并采用文本推理路徑完成解題。

這種“用文字繞過圖形”的策略雖然在某些場景下能夠給出正確答案,但實際上掩蓋了其對圖像信息的深層理解缺失,也暴露出它們“表面聰明,實則薄弱”的多模態(tài)推理能力。

RBench-V的實驗結(jié)果顯示,即便是采用長文本推理路徑或具備“看圖說話”能力的模型,在面對需要圖像輸出的復(fù)雜問題時,仍然束手無策。

圖片圖片

RBench-V團隊指出,真正推動大模型邁向“類人智能”的突破口,在于構(gòu)建能夠在推理過程中主動生成圖像、構(gòu)圖輔助思考的認知框架。

這其中,多模態(tài)思維鏈(Multi-modal Chain-of-Thought,M-CoT)機制、智能體推理(Agent-based Reasoning)范式等新興方法,可能成為人工智能通往未來的重要路徑。

論文、代碼、數(shù)據(jù)均可在項目主頁找到:https://evalmodels.github.io/rbenchv/


責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-01-08 08:21:16

2025-04-21 08:22:25

2025-06-03 08:22:00

模型評估視頻

2025-05-14 10:09:12

2025-04-23 11:19:31

2025-05-28 11:55:28

模型AI評估

2025-04-23 08:30:05

2024-12-24 16:15:04

2025-05-27 15:23:05

智能體訓(xùn)練AI

2024-12-30 00:01:00

多模態(tài)大模型Python

2023-12-07 11:48:00

2024-12-18 18:57:58

2024-11-13 09:39:13

2025-06-10 09:04:00

2025-04-17 06:36:29

2024-09-25 14:53:00

2025-04-22 09:18:57

2025-02-13 09:40:00

2024-08-13 15:00:00

大模型提示學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: .国产精品成人自产拍在线观看6 | 精品国产一区二区国模嫣然 | 蜜桃精品视频在线 | 精品视频一区二区三区 | 午夜久草| 国产成年人视频 | 91av在线视频观看 | 亚洲欧美在线一区 | 日韩欧美在线视频一区 | 日韩在线播放一区 | 久久一区二区三区四区 | 中文字幕综合 | 91av视频在线观看 | 可以看黄的视频 | 免费黄色录像视频 | 国产区在线观看 | 成人综合视频在线观看 | 一区二区三区精品视频 | 国产激情一区二区三区 | 中国美女av | 欧美美女爱爱视频 | 国产精品久久在线观看 | 91tv在线观看 | 视频1区| 91久久久久久 | 欧美色综合一区二区三区 | 久久久久久久久久久福利观看 | 一区欧美| 中文字幕一区二区三区四区 | 午夜精品一区二区三区在线播放 | 亚洲视频在线观看 | 久久久黑人 | 91免费高清视频 | 亚洲成人av一区二区 | 国产九九九 | 嫩草一区二区三区 | 中文区中文字幕免费看 | 免费av直接看 | 视频在线观看亚洲 | 好姑娘高清在线观看电影 | 91亚洲精品在线观看 |