o1 pro挑戰(zhàn)美國本科生最難數(shù)學(xué)競賽，30分鐘交卷卻被「大佬」現(xiàn)場打臉！

作者：新智元 2024-12-09 13:40:00

美國本科生最難數(shù)學(xué)競賽，o1 pro竟然只用半小時(shí)就全部做出來了？要知道，參賽學(xué)生的正常答題時(shí)長是6小時(shí)。不過網(wǎng)友們仔細(xì)看它的解題過程后發(fā)現(xiàn)，錯(cuò)誤率似乎高達(dá)100%，12道題沒有一道完全正確？

一年一次的北美最難本科數(shù)學(xué)競賽，剛在MIT沃克紀(jì)念堂（Walker Memorial）落幕。

這場普特南數(shù)學(xué)競賽（Putnam Exam），每年匯聚了來自北美數(shù)百所高校的3500多名學(xué)生前來參賽。

既有個(gè)體，也有團(tuán)體，他們需要在總時(shí)長為6小時(shí)的時(shí)間內(nèi)完成作答。

在這場比賽還未開始之前，來自IBM研究員曾暗示，在公開題目發(fā)布后，會(huì)有人對大模型（AlphaProof、o1、Gemini）進(jìn)行題目測試。

恰好，OpenAI最近發(fā)布了滿血版o1，以及最強(qiáng)o1 pro，不知它們在這場考試表現(xiàn)如何？

相較于o1-preview，o1數(shù)學(xué)性能提升27%，o1 pro提升36%

o1 Pro半小時(shí)做出全部賽題

令人吃驚的是，有網(wǎng)友把此次普特南考試的考題給了OpenAI o1 pro。

6個(gè)小時(shí)的賽題，它居然半小時(shí)就做出來了！

用時(shí)最長的一道題花了6分52秒，最短的只用了1分12秒（上下滑動(dòng)查看）

詳細(xì)看了答案的網(wǎng)友們表示松了一口氣：o1 pro還遠(yuǎn)未達(dá)到普特南考試的水平。

比如對于A1這道題，雖然它只用了1分鐘58秒就做了出來，總體思路也是正確的，但仍有很多錯(cuò)誤。

上下滑動(dòng)查看

A2也沒有完全解決。

如果在普特南答卷上寫「……等等強(qiáng)烈表明我是對的」，顯然你不會(huì)得分。

A3的答案，是錯(cuò)誤的。

網(wǎng)友直接給出了正確的解題思路：可以利用鴿巢原理（抽屜原理）來證明在給定約束條件下，只存在唯一一個(gè)有效雙射函數(shù)，并由此可以推導(dǎo)出不存在滿足題目要求的a、b、c、d值。

上下滑動(dòng)查看

對于B1，答案在n和k的形式上是正確的，但整個(gè)證明方法完全站不住腳。

上下滑動(dòng)查看

總之，o1 pro似乎沒有一道題是正確的。

這個(gè)結(jié)果屬實(shí)有點(diǎn)驚人，因?yàn)槠渲幸恍﹩栴}難度沒有那么高，比一些AIME競賽題容易。

當(dāng)然，如果從做出題目的數(shù)量來說，o1 pro的表現(xiàn)還是可圈可點(diǎn)。

目前來說，o1 pro做出的題目都是錯(cuò)誤且不完整的。如果我們不以數(shù)學(xué)家的角度評判，可以認(rèn)為它們很聰明。

o1挑戰(zhàn)23年賽題

今年9月，o1發(fā)布不久后，AI評估平臺(tái)HoneyHive曾讓新模型去挑戰(zhàn)了23年普特南數(shù)學(xué)競賽的題目。

當(dāng)時(shí)，OpenAI公開的測試結(jié)果顯示，o1的數(shù)學(xué)性能大幅超越了GPT-4o，飆升43.3%實(shí)現(xiàn)了質(zhì)的飛升。

在這場比賽中，o1-preview拿下了79分（滿分120）位列第9，o1-mini取得了73，排名第19。

2023年普特南數(shù)學(xué)競賽問題集，如下所示：

HoneyHive的評估方法是，每個(gè)模型重復(fù)運(yùn)行2次，并讓GPT-4o作為標(biāo)準(zhǔn)的判斷者，以評估模型的答案，最終再由人類專家進(jìn)行驗(yàn)證。

下面是讓GPT-4o承擔(dān)「評估者」角色的提示示例。

研究人員發(fā)現(xiàn)，第二次運(yùn)行時(shí)，o1-preview得分從51提高到79，o1-mini從54提高到73，GPT-4o也從43提高到57。

在第二輪中，所有的模型都在努力給出證明，具體來說：

o1-preview完全解決了問題A1、A3、B4，部分解決了問題B2，但證明不足。

o1-mini的結(jié)果，與o1-preview類似。GPT-4o僅是完全解決了A1問題。

有趣的是，這些模型的結(jié)果雖然是正確的，但解決方案缺乏詳細(xì)的分步解釋，特別是對于證明類的問題。

比如，o1-preview和o1-mini在問題B2上都因證據(jù)不足、不夠嚴(yán)謹(jǐn)失掉了一些分?jǐn)?shù)，盡管最終結(jié)果是正確的。

他們認(rèn)為，這可能是因?yàn)锳I模型在表達(dá)或訪問其內(nèi)部「思維鏈」時(shí)，存在一定的局限性。

不過，IBM研究員表示，能夠拿下一定的高分，當(dāng)然也存在了數(shù)據(jù)泄露的可能性。

比賽介紹

普特南數(shù)學(xué)競賽（全稱William Lowell Putnam Mathematical Competition）專為美國和加拿大的本科生設(shè)立，每年于12月舉辦一屆，今年是第85屆年賽。

每年競賽一共分為兩場考試，分別是上午A試，下午B試，各三小時(shí)。

這場比賽可以追溯到1938年，最初只是各個(gè)高校數(shù)學(xué)系之間的友好較量。如今，它已經(jīng)發(fā)展成為世界上最具權(quán)威的大學(xué)數(shù)學(xué)競賽。

每年12月，數(shù)百所大學(xué)數(shù)學(xué)尖子生在為期6小時(shí)數(shù)學(xué)中展現(xiàn)自己的數(shù)學(xué)才華。

盡管考生需要獨(dú)立完成試卷，但比賽同時(shí)設(shè)立了團(tuán)隊(duì)的環(huán)節(jié)。

普特南數(shù)學(xué)競賽不僅僅是一場知識(shí)的較量，更是一個(gè)榮譽(yù)的殿堂。排名最高的團(tuán)隊(duì)的數(shù)學(xué)系可以獲得現(xiàn)金獎(jiǎng)勵(lì)，學(xué)生成員還將被授予「普特南研究員」的稱號(hào)。

與此同時(shí)，比賽還設(shè)立了「The Elizabeth Lowell Putnam Prize」獎(jiǎng)項(xiàng)，專為表現(xiàn)卓越的女性數(shù)學(xué)家頒獎(jiǎng)。

去年第84屆比賽中，個(gè)體獲獎(jiǎng)?wù)?名全部來自MIT，團(tuán)體獲獎(jiǎng)?wù)咔拔迕卜謩e來自世界高校：MIT、哈佛、杜克、斯坦福、多倫多大學(xué)。

責(zé)任編輯：張燕妮來源：新智元

AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o1 pro挑戰(zhàn)美國本科生最難數(shù)學(xué)競賽，30分鐘交卷卻被「大佬」現(xiàn)場打臉！

o1 Pro半小時(shí)做出全部賽題

更多評測

o1挑戰(zhàn)23年賽題

比賽介紹