AI高考大亂斗！六大頂尖模型挑戰(zhàn)高考數(shù)學(xué)題，結(jié)論卻引發(fā)爭議原創(chuàng)

發(fā)布于 2025-6-9 17:58

瀏覽

0收藏

2025年高考數(shù)學(xué)考場外，當(dāng)考生們還在為立體幾何的輔助線抓耳撓腮時(shí)，六大頂尖AI模型也交出了它們的答卷——在總分73的2025年新課標(biāo)Ⅰ卷客觀題測試中，豆包與元寶以68分并列第一，OpenAI o3卻以34分慘遭墊底。
?
AI高考大亂斗！六大頂尖模型挑戰(zhàn)高考數(shù)學(xué)題，結(jié)論卻引發(fā)爭議-AI.x社區(qū)
?
在單選題戰(zhàn)場，豆包、通義、元寶和文心曾攜手?jǐn)孬@35分，DeepSeek 因兩道題失誤，單選題拿下30分，而 o3則慘遭滑鐵盧，單選題的得分僅為20分，錯(cuò)了一半的題目。
?
AI高考大亂斗！六大頂尖模型挑戰(zhàn)高考數(shù)學(xué)題，結(jié)論卻引發(fā)爭議-AI.x社區(qū)
?
而在多選題方面，豆包、DeepSeek 和元寶均表現(xiàn)完美，三道題全對(duì)，展現(xiàn)出強(qiáng)大的穩(wěn)定性。相對(duì)來說，通義的表現(xiàn)雖然快速，但在關(guān)鍵時(shí)刻的判斷失誤也導(dǎo)致得分不理想。
?
AI高考大亂斗！六大頂尖模型挑戰(zhàn)高考數(shù)學(xué)題，結(jié)論卻引發(fā)爭議-AI.x社區(qū)
?
在填空題的測試中，文心X1明明算出了公比2或-2，卻因畫蛇添足加了句"通常取正值"，與滿分失之交臂。
?

最令人難以置信的是，o3連"送分題"都啃不下——面對(duì)等差數(shù)列的充要條件證明，它前兩步推理如行云流水，第三步卻突然開啟胡說八道模式，最終算出個(gè)選項(xiàng)里根本沒有的答案。

基于以上表現(xiàn)得出了豆包和元寶并列第一，OpenAI o3墊底的結(jié)論。

然而，這樣的結(jié)論卻引發(fā)了爭議。很多網(wǎng)友表示該結(jié)論缺乏公正性和客觀性。
?
總的來說，爭議點(diǎn)主要集中在以下幾點(diǎn)：

1. DeepSeek作為非多模態(tài)大模型，卻被當(dāng)作多模態(tài)模型來測評(píng)
測試者把圖表交給DeepSeek 解讀，并指責(zé)DeepSeek 「對(duì)圖表視而不見蒙答案糊弄人」。
?
AI高考大亂斗！六大頂尖模型挑戰(zhàn)高考數(shù)學(xué)題，結(jié)論卻引發(fā)爭議-AI.x社區(qū)
?
2. o3 網(wǎng)頁版存在降智情況，不符合真實(shí)表現(xiàn)
O3的降智導(dǎo)致測試結(jié)果墊底，但明明知道o3可能會(huì)觸發(fā)降智，卻僅僅在網(wǎng)頁端測試，這樣的答案是否具備客觀公正性？
?

3. 僅僅通過模型網(wǎng)頁端發(fā)送題目截圖，測評(píng)方法缺乏嚴(yán)謹(jǐn)性
考慮到測試的是模型的數(shù)學(xué)推理能力，很多網(wǎng)友認(rèn)為應(yīng)該使用學(xué)術(shù)界最廣泛使用的數(shù)學(xué)公式排版語言LaTeX進(jìn)行測評(píng)，不應(yīng)該簡單采取發(fā)送截圖的方式。

綜上，對(duì)于這樣的結(jié)論，大家的看法各不相同。

但可以肯定的是，隨著AI技術(shù)的高速發(fā)展，AI大模型的推理能力已經(jīng)上升到新的高度，這些頂尖大模型的差距，也不再像幾年前那么明顯了。相信在未來，各大模型在推理能力方面的差距，將會(huì)進(jìn)一步減小。

?
對(duì)于這樣的測試結(jié)果，大家怎么看？歡迎在評(píng)論區(qū)留言討論~

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

回復(fù)