AI七個月突破數學家“圍剿”反超人類!14位數學家深挖原始推理token:不靠死記硬背靠直覺
從只能答對2%的題目,到在超難數學題集中刷下22%得分,甚至超過人類團隊平均水平,大模型需要多長時間?
現在,令數學家們都驚訝的結果已經塵埃落定:
7個月。
發生在大名鼎鼎的“專為為難大模型而生的”FrontierMath基準測試上的這一幕,在激起熱議同時,也引發了新的思考:
大模型們是怎么做到的?
FrontierMath:包含300個數學問題,難度范圍覆蓋本科高年級到菲爾茲獎得主都說難的水平。
最新進展是,FrontierMath官方Epoch AI邀請14位數學家,深入分析了o3-mini-high在應對這些數學難題時產生的29條原始推理記錄。
他們發現:
- o3-mini-high絕非靠死記硬背解題,相反,它表現出了極強的知識儲備;
- o3-mini-high的推理更多依靠直覺,而非精確的證明。
同時,他們也挖掘出了大模型當前的局限性,比如,缺乏創造力和理解深度。
官方是這樣總結的:
o3-mini-high可以被概括為:一款博學但以直覺為基礎的推理機,但缺乏職業數學家的創造力和形式感,并且往往絮絮叨叨啰啰嗦嗦。
基于直覺的歸納推理機
具體來說,在29條推理記錄中,有13次o3-mini-high得到了正確的結論,剩下的16條則導向了失敗的結果。
先來看o3-mini-high是如何成功的。
數學家們發現,一個關鍵因素是o3-mini-high極其博學。
它正確地擴展了問題的數學背景,其中涉及到非常高級的概念。
問題涉及的一般知識,以及對問題的理解,對o3-mini-high而言不構成解題的瓶頸。
這并不是說o3-mini-high靠的是死記硬背。
相反,數學家們發現,即使題目故意掩蓋了解決問題所需的技巧,o3-mini-high依然能夠很好地利用正確的定理來獲取進展——
在大概三分之二的問題上,o3-mini-high在相關數學文獻調用方面,都取得了至少3分(滿分5分)的成績。
另外一個有意思的發現是,相比于精確的推導,o3-mini-high看上去更依賴直覺,“具有數學家一樣的好奇心”。
一位數學家指出:
該模型的思維方式顯得有點非正式。一開始的思路表述通常比較粗糙,語言不夠嚴謹,并且存在一些不符合數學論文要求的corner case。
也就是說,o3-mini-high往往不會像數學家們一樣,對數學問題進行形式化的、嚴謹的論證,而是跳過一大串步驟直接猜測最終答案。
舉個例子,在一道題中,數學家們發現o3-mini-high通過非正式推理得出了一個正確猜想,但它并沒有去證明這個猜想,還直接把這個猜想拿來解決問題了。
雖然最終答案正確,但在數學家們看來,這是在“作弊”。
為何如此?官方認為原因并不是簡簡單單的“模型偷懶”:有數學家指出,必要時模型并不害怕計算和編寫代碼,盡管它總體上還是“基于直覺”。
一種可能性是,預訓練階段,在“形式推理”方面,模型被投喂的訓練數據并不充足。
模型局限性
寫完解直接給答案,讓人有點聯想到那個男人——
咳咳,不過事實上,缺乏形式精確性也正是導致o3-mini-high在許多情況下解題失敗的原因。
比如,有時候o3-mini-high大體上思路是正確的,卻因為未能建立最后的關鍵聯系而推理失敗。
在一道分割理論問題中,它距離答案只有一步之遙。出題者指出:
要是它能把從n=0到[已編輯]的輸出求和,答案就會是正確的。
而在更多情況下,o3-mini-high的想法距離正確解題方案相差甚遠。
更重要的是,數學家們認為,o3-mini-high最大的局限性在于缺乏創造力和理解深度:
該模型像一個博覽群書的研究生,能夠列舉許多研究成果和研究者。這乍一看令人印象深刻,但行家很快就會發現,這位研究生并沒有深度消化吸收這些材料,所做的只是復述。
該模型的行為模式類似于:擅長識別相關材料,但無法以新穎的方式擴展或應用這些知識。
還有參與研究的數學家指出:
o3-mini-high只嘗試應用了少數幾個它最喜歡的想法。
一旦這些想法用盡,它就得不到任何真正的進展了。
甚至:
對于AI來說,解決8年級奧數問題(需要新思路),可能比計算大有限域上某條超橢圓曲線上的點數更困難。
另外,幻覺也是個問題。
分析結果顯示,約75%推理記錄中包含模型幻覺:
o3-mini-high經常會記錯數學術語和公式,在調用庫和聯網搜索等工具時,也會出現胡編亂造的現象。
所以,o3-mini-high究竟能不能像人類數學家一樣進行推理呢?
來看數學家們的評分:
1分表示完全不像人類,5分表示與人類數學家難以區分。
總的來說,還是得具體情況具體分析。官方認為,o3-mini-high擁有多樣化的能力。一方面,它似乎能夠像人類一樣推理問題,表現出好奇心,并探索解決問題的不同思路。
另一方面,它又表現出缺乏創造性和正式性,還傾向于“想太多”,顯得啰里啰嗦,還偶爾出現自我懷疑的現象——不斷重復已經完成的句子、重復進行一些數學運算……
“超越世界上大多數數學研究生”
o3-mini-high這樣的模型為什么沒有辦法更有效地利用豐富的數學知識,這個問題仍然有待進一步的研究。
但無論如何,7個月,從2%到22%,已經足夠令數學家們驚嘆。
事實上,從2024年9月FrontierMath項目啟動,到2025年5月,官方組織8支人類“數學天團”和大模型同場競技,FrontierMath本身的難度也在持續進化。
從1-3級——涵蓋本科生、研究生和研究級別的挑戰,到現在已經進入第4級別:加入對數學家來說也具有挑戰性的問題。
在5月中旬,Epoch AI還舉辦了線下會議,邀請30位知名數學家設計自己能夠解決、但會讓AI犯難的問題。
而大模型們的表現有些讓數學家們目瞪口呆。
比如,弗吉尼亞大學數學家小野健提出了一個“博士級別”的數論問題。僅僅10分鐘,o4-mini就給出了一個正確又有趣的解決方案。
小野健表示:
我不想加劇恐慌。但在某些方面,大語言模型的表現已經超越了世界上大多數最優秀的研究生。
數學家們開始思考,人工智能能否攻克“第五層”問題,即最優秀的數學家也尚未解決的問題——
“如果人工智能達到這個水平,數學家的角色將發生巨大的變化。”