成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?

人工智能 新聞
近日,北京大學(xué)物理學(xué)院聯(lián)合人工智能研究院等多個(gè)院系,推出了全新評(píng)測(cè)基準(zhǔn) PHYBench。

本項(xiàng)目由北京大學(xué)物理學(xué)院朱華星老師、曹慶宏副院長(zhǎng)統(tǒng)籌指導(dǎo)。基準(zhǔn)設(shè)計(jì)、項(xiàng)目管理以及數(shù)據(jù)整合的主要工作由學(xué)生核心團(tuán)隊(duì)完成,核心成員包括仇是、郭紹陽(yáng)、宋卓洋、孫韞博、蔡則宇、衛(wèi)家燊、羅天宇等。項(xiàng)目還得到了北京計(jì)算科學(xué)研究中心羅民興院士和人工智能研究院張牧涵老師的鼎力支持。

PHYBench 項(xiàng)目匯聚了來(lái)自物理學(xué)院及兄弟院系的 200 余名學(xué)生,共同承擔(dān)題目編寫、審核及人類基準(zhǔn)測(cè)試等工作。這支高水平的參與者團(tuán)隊(duì)中,包含至少 50 位全國(guó)中學(xué)生物理競(jìng)賽金牌得主,更有亞洲物理奧賽和國(guó)際物理奧賽的金牌獲得者。這場(chǎng)大規(guī)模、高質(zhì)量的協(xié)作,不僅充分展現(xiàn)了北大學(xué)子深厚的學(xué)術(shù)功底和卓越的組織協(xié)調(diào)能力,也為 PHYBench 產(chǎn)出高質(zhì)量成果提供了堅(jiān)實(shí)保障。

在大語(yǔ)言模型(LLMs)飛速發(fā)展的當(dāng)下,模型的推理能力儼然成為模型能力的代名詞。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相繼發(fā)布,這些大模型憑借強(qiáng)化學(xué)習(xí)技術(shù)的助力,在許多科學(xué)評(píng)測(cè)基準(zhǔn)上頻頻刷新紀(jì)錄,甚至聲稱 “超越人類專家”。

但是,隨著模型能力和評(píng)測(cè)基準(zhǔn)的軍備競(jìng)賽白熱化,越來(lái)越多的基準(zhǔn)不得不轉(zhuǎn)向生僻的知識(shí)點(diǎn)、或者抽象的數(shù)學(xué)競(jìng)賽題。這些題目雖然能 “區(qū)分” 模型,但是逐漸脫離實(shí)際場(chǎng)景,可能難以真正反映模型的實(shí)際表現(xiàn)。

近日,北京大學(xué)物理學(xué)院聯(lián)合人工智能研究院等多個(gè)院系,推出了全新評(píng)測(cè)基準(zhǔn) PHYBench。PHYBench 包含 500 道經(jīng)過(guò)精心設(shè)計(jì)的高質(zhì)量物理題(如圖 1),難度橫跨高中物理、大學(xué)物理以及物理奧林匹克競(jìng)賽。這些題目以真實(shí)的物理場(chǎng)景為基礎(chǔ),對(duì)人類來(lái)說(shuō)并不抽象,卻把一眾大模型考得七零八落。大模型在解決物理題時(shí)的思維鏈也暴露了它們?cè)诟兄≒erception)和推理(Reasoning)能力上的缺陷。

圖片

  • 論文鏈接:https://arxiv.org/abs/2504.16074
  • 項(xiàng)目網(wǎng)址:https://phybench-official.github.io/phybench-demo/
  • 數(shù)據(jù)集:https://huggingface.co/datasets/Eureka-Lab/PHYBench

也許,物理才是最適合考察 AI 推理能力的學(xué)科?PHYBench 的嘗試為評(píng)估大模型真正有效的推理能力提供了全新的工具和視角。

圖片

圖 1:題目樣例與兩種評(píng)估方法:表達(dá)式樹(shù)編輯距離、正確率。

圖片

表 1:與現(xiàn)有 benchmark 對(duì)比,PHYBench 在高難度數(shù)據(jù)集中,有著相對(duì)大的規(guī)模,同時(shí)引入了創(chuàng)新的分?jǐn)?shù)度量:表達(dá)式樹(shù)編輯距離。

評(píng)測(cè)方法創(chuàng)新

表達(dá)式樹(shù)編輯距離(EED Score) 

傳統(tǒng)基準(zhǔn)通常依賴 Accuracy 這一單一指標(biāo):設(shè)置唯一正確答案,模型只有在完全匹配時(shí)才能得分。為了方便評(píng)分,問(wèn)答題通常被改寫成選擇題或要求代入數(shù)值。這樣會(huì)導(dǎo)致答案的信息量被嚴(yán)重壓縮,而且給出過(guò)多條件可能導(dǎo)致模型 “根據(jù)選項(xiàng)猜過(guò)程”,或者缺乏使用解析表達(dá)式表達(dá)普適關(guān)系的能力。同時(shí)在高難度的樣本上,0/1 打分會(huì)使得所有模型在分?jǐn)?shù)層面都被歸零,強(qiáng)弱差異無(wú)從體現(xiàn)。

EED Score(Expression?tree Edit Distance)帶來(lái)了更貼近人類閱卷的方案。它將數(shù)學(xué)表達(dá)式解析成表達(dá)式樹(shù),再計(jì)算模型答案與參考答案之間的編輯距離:樹(shù)的結(jié)構(gòu)越接近,得分越高。這一機(jī)制輸出的是連續(xù)、細(xì)粒度的分?jǐn)?shù),能在更多題目上顯示區(qū)分度,顯著提高了統(tǒng)計(jì)效力。

實(shí)驗(yàn)表明,采用 EED Score 的 500 題,其區(qū)分能力相當(dāng)于 1500 道使用 0/1 Accuracy 的題目。上圖(圖 1)展示了同一道題三種不同答案在 Accuracy 與 EED Score 下的對(duì)比:前者只能給出 “全錯(cuò) / 全對(duì)” 的粗糙評(píng)價(jià),而后者則定量刻畫了模型解答與正確答案之間的 “距離”。

實(shí)驗(yàn)結(jié)果

前沿模型與人類專家的差距

PHYBench 團(tuán)隊(duì)招募了 81 名北大學(xué)子,在 3 小時(shí)時(shí)限內(nèi)做 8 道題目,與最先進(jìn)的 AI 模型展開(kāi)了一場(chǎng) "人機(jī)大戰(zhàn)"。

結(jié)果顯示,即使是最強(qiáng)的 Gemini 2.5 pro,也只能答對(duì) 36.9% 的題目,EED 評(píng)分 49.5%。而 “人類專家” 們則輕松碾壓,平均正確率高達(dá) 61.9%,EED 評(píng)分高達(dá) 70.5%。 排名前 25% 的受試者更是達(dá)到了 71.4% 的正確率 —— 幾乎是最強(qiáng) AI 的兩倍。其他模型與人類的差距則更為顯著。這一顯著差距揭示了現(xiàn)階段 LLM 在在物理推理場(chǎng)景中的瓶頸。

圖片

PHYBench 對(duì)模型的能力也進(jìn)行了細(xì)粒度的對(duì)比。可以看到,Gemini 2.5 pro、o3 等強(qiáng)推理模型雖然和人類還有較大差距,但是相比前代推理模型已經(jīng)有了明顯的進(jìn)步。DeepSeek-V3 等基座模型雖未能超越主流推理模型,但也展現(xiàn)出了亮眼的成績(jī)。QwQ-32B 和 DeepSeek32B 蒸餾模型等小型推理模型在 PHYBench 上的表現(xiàn)很令人失望,這可能歸因于其物理感知能力的不足。

基于思維鏈的錯(cuò)因分析:PP × RR

PHYBench 團(tuán)隊(duì)對(duì)模型的錯(cuò)誤進(jìn)行了系統(tǒng)性總結(jié)分析,將模型的推理過(guò)程和推理能力劃分為了兩個(gè)關(guān)鍵模塊:物理感知(Physical Perception,PP)和魯棒推理(Robust Reasoning,RR):

圖片

  • 物理感知(PP):在此階段,模型進(jìn)行密集的文字推理,模型需要識(shí)別問(wèn)題相關(guān)的物理對(duì)象、變量和動(dòng)力學(xué)關(guān)系,定性判斷哪些物理效應(yīng)是重要的,哪些可以忽略不計(jì)。若 PP 出錯(cuò),后續(xù)整個(gè)推理都會(huì)偏離軌道。(示例 1 展示典型 PP 失誤)
  • 魯棒推理(RR):在此階段,模型寫下大量的 “草稿”,一步步化簡(jiǎn)表達(dá)式,解方程。現(xiàn)階段的推理模型在此階段的推理效率尚不高,“草稿” 長(zhǎng)度遠(yuǎn)長(zhǎng)于人類,而且經(jīng)常犯 “低級(jí)錯(cuò)誤”。(示例 2 展示典型 RR 失誤)

PP 和 RR 交替進(jìn)行,組成了典型的物理解題思維鏈。

圖片

未來(lái)展望

推動(dòng) AI 的物理理解與推理能力發(fā)展

PHYBench 的愿景遠(yuǎn)不止于 “評(píng)測(cè)”,更在于 “引領(lǐng)” AI 探索物理世界的無(wú)限可能。

PHYBench 的發(fā)布,不僅為評(píng)估大語(yǔ)言模型在物理感知與推理方面的能力提供了一個(gè)全新且權(quán)威的基準(zhǔn),更為未來(lái) AI 系統(tǒng)的發(fā)展指明了攻堅(jiān)方向。我們精心設(shè)計(jì)的真實(shí)、復(fù)雜的物理場(chǎng)景,旨在深度激發(fā)并驗(yàn)證 AI 理解世界并進(jìn)行可靠推理的能力,推動(dòng) AI 系統(tǒng)真正實(shí)現(xiàn)對(duì)世界的認(rèn)知、融入與變革。

面向未來(lái),PHYBench 團(tuán)隊(duì)將持續(xù)致力于數(shù)據(jù)集的拓展與創(chuàng)新,計(jì)劃納入更多前沿物理課題、跨學(xué)科交叉內(nèi)容,甚至挑戰(zhàn)人類尚未解開(kāi)的科學(xué)謎題。我們相信,通過(guò)提供更具深度和廣度的物理挑戰(zhàn),PHYBench 將有力催化 AI 向著突破認(rèn)知邊界、探索未知領(lǐng)域的 “智能伙伴” 或 “超級(jí)助手” 發(fā)展。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-04-11 12:30:40

2019-07-30 12:40:02

QQ賬號(hào)互了umqq

2025-02-10 09:10:00

2023-05-05 18:53:23

數(shù)據(jù)湖數(shù)據(jù)倉(cāng)庫(kù)

2024-04-12 14:34:59

2009-03-13 10:14:47

中移動(dòng)人才標(biāo)準(zhǔn)招聘

2024-05-16 13:43:36

北大微型機(jī)器人

2019-11-21 09:25:23

AI 數(shù)據(jù)人工智能

2023-11-06 10:07:22

模型人工智能數(shù)字

2016-05-19 17:10:27

銀行

2021-02-26 21:25:08

比特幣投資貨幣

2022-10-20 08:00:37

機(jī)器人ZadigChatOps

2020-10-16 18:33:18

Rust語(yǔ)言前端開(kāi)發(fā)

2013-04-19 10:42:02

打車軟件大數(shù)據(jù)

2025-04-22 08:00:00

2019-07-22 10:13:54

2019-10-18 09:50:47

網(wǎng)絡(luò)分層模型網(wǎng)絡(luò)協(xié)議

2019-09-15 10:38:28

網(wǎng)絡(luò)分層模型

2015-03-03 15:38:41

2020-09-17 13:17:04

QA機(jī)器人物流
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 午夜私人影院在线观看 | 在线免费看黄 | 日韩一区在线观看视频 | 第一区在线观看免费国语入口 | 欧美一区成人 | 99热电影| 午夜影院在线观看 | 中文字幕第5页 | 日本一区视频在线观看 | 国产在线麻豆精品入口 | 国产在线一区观看 | 午夜精品久久久久久久久久久久久 | 黄色片免费看 | 啪啪毛片| 久久国产秒 | 亚洲精品视频在线观看免费 | av午夜电影 | 超碰免费在| 国产精品一区二区免费看 | 黄色大片免费观看 | 黄瓜av| 成人国产精品久久 | 久久亚洲国产精品日日av夜夜 | 精品二区视频 | 亚洲女人天堂网 | 亚洲综合无码一区二区 | 伊人伊人 | 国产一区二区 | 欧美黄色性生活视频 | 国产精品久久久亚洲 | 免费在线观看一区二区 | 国产日韩精品久久 | 久久aⅴ乱码一区二区三区 亚洲国产成人精品久久久国产成人一区 | 日韩午夜一区二区三区 | 欧美一级片免费看 | 国产欧美精品区一区二区三区 | 国产精久久久久久久 | 精品视频一区二区三区在线观看 | 欧美精品网站 | 国产一区二区三区四区在线观看 | 中文字幕第一页在线 |