首超 30 分!中國開源方案在 "人類最后的考試" 中超越國際巨頭 原創
“人類最后的考試”,被一支國內團隊打破了紀錄。
最近,國內團隊在一場“人類最后的考試”中取得了歷史性突破。
?
由上海交通大學和深勢科技聯合研發的X-Master系統,在這場覆蓋數學、物理、生物醫藥等100多個學科的高難度測試中,首次突破30分大關,以32.1分的成績刷新了全球紀錄。
?
?
可能很多人還不了解這個測試的分量。人類最后的考試(HLE),是今年初由AI安全中心和Scale AI聯手推出的超難測試集。之所以被叫做“人類最后的考試”,也在于這個大模型測試的難度是公認的天花板級別。
?
它由500多家機構的1000多名學者共同出題,包含3000多道研究生以上難度的題目。這次突破的核心是DeepSeek-R1模型與X-Master智能體的結合。
?
DeepSeek-R1在數學和編程領域本就表現突出。而X-Master則模擬人類研究者的動態問題解決過程,能在內部推理和外部工具調用之間高效切換。
?
比如遇到生物學問題時,它會自動生成代碼調用專業數據庫,通過實驗數據驗證推理結果。這種工具增強的推理模式,讓模型在處理復雜問題時更接近人類專家的思維方式。
?
在TRQA-lit生物學專項測試中,它的準確率達到67.4%,遠超同類模型。數學題上,它能通過分步推導解決高難度證明題;物理題中,它甚至能結合圖像信息分析量子力學現象。
?
?
更重要的是,這套系統通過多智能體工作流X-Masters,將多個求解器的方案進行整合優化,最終輸出最優解。通過分散-堆疊式的設計,它在面對開放性問題時也能保持較高的準確率。
?
HLE最初發布時,所有AI模型的成績都不到10%,哪怕到現在,也鮮有模型的測試成績超過20分。此前OpenAI的o1模型在HLE中僅得9.1分,谷歌Gemini 2.5 Pro也只有18.8分,而X-Master的32.1分幾乎是它們的兩倍。
?
更值得關注的是,上海交大團隊采用的是完全開源的技術方案,所有模型和數據集都可在GitHub上獲取。
?
這些成果背后,是國內團隊在基礎研究和工程化應用上的雙重突破。論文作者欄,四位共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du都來自上海交大人工智能研究院,由陳思衡副教授指導。深勢科技創始人張林峰也親自署名支持。
?
?
在攀登AI高峰的路上,中國研究者正從跟跑者變為領跑者。這場“人類最后的考試”不僅是技術的較量,更是開源生態與閉源壟斷的博弈。國內團隊正以開放姿態推動技術普惠。
?
未來,隨著HLE測試難度的持續升級,AI模型的挑戰才剛剛開始。但可以預見,開源生態將成為推動技術進步的核心力量。
