成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

挑戰AI數學推理極限!大規模形式化數學基準FormalMATH發布,最強模型成功率僅16%

人工智能 新聞
盡管大語言模型(LLM)在自然語言處理和代碼生成等領域取得顯著進展,但面對需要嚴格邏輯推導的數學定理證明任務時,其能力仍面臨嚴峻挑戰。

最強AI模型面對5560道數學難題,成功率僅16.46%?背后真相大揭秘。

香港中文大學、西湖大學、MAP、浙江大學、馬克斯·普朗克智能系統研究所等機構聯合推出FormalMATH形式化數學推理基準測試,含5560道經過嚴格驗證的數學題,覆蓋從奧數到大學水平的代數、微積分、數論等領域。

圖片

形式化數學推理是人工智能領域公認的核心難題之一。

盡管大語言模型(LLM)在自然語言處理和代碼生成等領域取得顯著進展,但面對需要嚴格邏輯推導的數學定理證明任務時,其能力仍面臨嚴峻挑戰。

FormalMATH基準測試首次系統性評估了當前LLM驅動的定理證明器的真實水平。

結果顯示:即便是表現最佳的模型Kimina-Prover ,在實際計算資源限制下(Pass@32采樣量),成功率也僅為16.46% ;而多數模型在微積分等領域的表現接近「隨機猜測」

FormalMATH:「超大規模」的形式化數學推理基準

規模突破:22.8倍于現有基準

FormalMATH包含5560個經過Lean4編譯器驗證的數學命題,涵蓋代數、數論、微積分、離散數學等12個子領域,問題難度從國際數學奧林匹克(IMO)競賽級延伸至本科課程,規模是經典基準MiniF2F的22.8倍。

構建創新:人類在循環中的自動化流程用于自動形式化和語義一致性檢測

為解決傳統形式化數據依賴專家手動標注的瓶頸,研究團隊提出了一套「三階段過濾」框架:

  1. 多LLM協同翻譯 :通過微調后的Qwen2.5-7B-Coder、Deepseek-Prover-V1.5-Base等模型將自然語言問題轉為多個候選的形式化命題;
  2. 自動化驗證 :利用Lean4編譯器篩選語法正確命題,并通過多LLM語義一致性校驗(如o1-mini、Claude-3.5)過濾錯誤;
  3. 否定反證過濾 :調用LLM證明器嘗試「證偽」命題,排除無法成立的陳述。該流程在人工審核前保留了72.09%的高質量命題,大幅降低專家工作量。

最后,團隊召集了12名人類奧賽金牌級別的專家花了22天檢測自然語言數學命題與Lean4形式化命題之間的語義一致性。

圖片

現有LLM證明器表現:代數尚可,微積分「翻車」

整體低迷:16%成功率暴露能力斷層

在FormalMATH全量數據集上,主流LLM證明器的表現遠低于預期:

  • 最佳模型Kimina-Prover(Pass@32):16.46%;
  • 次優模型STP(Pass@32):13.87%

圖片

領域偏見:代數強,微積分弱

現有模型在代數等領域表現較好,但在微積分等其他領域表現較差,顯示出明顯的領域偏差。

圖片

錯誤模式:濫用「捷徑戰術」

分析顯示,LLM證明器頻繁濫用自動化策略(如aesop、linarith),試圖用單一步驟替代多步推理,導致以下典型錯誤(以DeepSeek-RL為例):

  1. 冗余假設(34%): 引入無關前提條件
  2. 不完整證明(62%): 缺失關鍵推導步驟, 無法形成完整構造證明
  3. 自動化策略誤用 (65.0%):錯誤調用自動化工具(如用integral_mono_on跳過控制收斂定理驗證)
  4. 無法正確應對不等式 (13.0%):錯誤地(例如在指數爆炸的情況)過度依賴linarith或者nlinarith等自動化不等式計算策略

突破方向:讓LLM學會「嚴謹思考」

技術瓶頸:自然語言引導反拖后腿

研究團隊發現一個反直覺現象:在鏈式思維(CoT)場景中,提供自然語言解題思路反而會降低證明成功率。

例如,DeepSeek-V1.5-RL模型在普通的CoT提示時表現優于引入人為自然語言引導的情況。

圖片

未來路徑:從「戰術依賴」到「戰略規劃」

未來,提升LLM形式化推理能力需從三方面突破:

  1. 強化多步規劃 :減少對aesop等單步戰術的依賴,設計分層推理架構;
  2. 跨領域泛化 :通過課程學習(Curriculum Learning)平衡代數/微積分等領域的訓練數據;
  3. 人機協同驗證 :開發交互式證明輔助工具,讓LLM與人類專家協同完成復雜定理證明。

開源開放:數據、代碼與模型已全面公開

研究團隊呼吁學術界與工業界共同推進形式化數學推理技術的發展,助力AI在數學發現、形式化驗證等領域實現更可靠的應用。

FormalMATH基準測試的代碼、訓練數據及評估模型已向公眾開放:

論文鏈接 :https://arxiv.org/pdf/2505.02735

項目倉庫 :https://github.com/Sphere-AI-Lab/FormalMATH-Bench

基準數據集 :https://huggingface.co/SphereLab

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-04 09:00:00

2023-12-06 13:44:00

模型訓練

2025-02-25 14:46:59

2022-07-18 10:05:16

AI挑戰方案

2024-12-24 14:10:00

數據模型訓練

2022-11-21 10:18:24

AI谷歌

2025-02-13 12:23:28

2024-11-11 13:12:03

2025-06-18 08:49:00

模型系統AI

2025-06-04 13:53:22

代碼模型AI

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2023-11-10 15:36:10

2025-01-23 16:25:23

2025-05-12 09:05:00

AI大模型開源

2025-04-14 00:10:00

人工智能AIAI 模型

2023-11-13 18:19:35

AI訓練

2024-01-03 17:39:23

云計算混合云

2010-11-18 10:59:00

求職

2025-02-17 09:33:00

AI算法模型

2025-06-25 09:28:38

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲看片网站 | 午夜视频在线观看一区二区 | 精品在线一区二区三区 | 麻豆av在线免费观看 | 婷婷99| 一区二区三区在线 | 日韩av一区二区在线观看 | 99r在线 | 久久精品视频网站 | 91精品在线播放 | 一区二区三区四区在线视频 | 深夜福利亚洲 | 男人的天堂久久 | 亚洲第一av | 亚洲一区有码 | 亚洲精品视频一区 | 一区二区视频在线 | 国内自拍偷拍一区 | 国产一区二区三区在线免费观看 | 亚洲综合成人网 | 成人av电影免费在线观看 | 亚洲91精品 | 久久国产精品精品国产色婷婷 | 一区二区三区四区av | 国产精品免费在线 | 亚洲不卡av在线 | 日韩一区二区在线看 | 成人伊人 | 谁有毛片 | 欧美乱大交xxxxx另类电影 | 美女操网站 | 91 在线 | 日韩久久久久久 | 欧美男人天堂 | 久久人爽 | 羞羞的视频网站 | 99看片网| 中文字幕亚洲欧美日韩在线不卡 | 一区二区不卡视频 | 精品久久成人 | 欧美影院 |