AI高考大亂斗!六大頂尖模型挑戰(zhàn)高考數(shù)學(xué)題,結(jié)論卻引發(fā)爭議 原創(chuàng)
2025年高考數(shù)學(xué)考場外,當(dāng)考生們還在為立體幾何的輔助線抓耳撓腮時(shí),六大頂尖AI模型也交出了它們的答卷——在總分73的2025年新課標(biāo)Ⅰ卷客觀題測試中,豆包與元寶以68分并列第一,OpenAI o3卻以34分慘遭墊底。
?
?
在單選題戰(zhàn)場,豆包、通義、元寶和文心曾攜手?jǐn)孬@35分,DeepSeek 因兩道題失誤,單選題拿下30分,而 o3則慘遭滑鐵盧,單選題的得分僅為20分,錯(cuò)了一半的題目。
?
?
而在多選題方面,豆包、DeepSeek 和元寶均表現(xiàn)完美,三道題全對(duì),展現(xiàn)出強(qiáng)大的穩(wěn)定性。相對(duì)來說,通義的表現(xiàn)雖然快速,但在關(guān)鍵時(shí)刻的判斷失誤也導(dǎo)致得分不理想。
?
?
在填空題的測試中,文心X1明明算出了公比2或-2,卻因畫蛇添足加了句"通常取正值",與滿分失之交臂。
?
最令人難以置信的是,o3連"送分題"都啃不下——面對(duì)等差數(shù)列的充要條件證明,它前兩步推理如行云流水,第三步卻突然開啟胡說八道模式,最終算出個(gè)選項(xiàng)里根本沒有的答案。
?
基于以上表現(xiàn)得出了豆包和元寶并列第一,OpenAI o3墊底的結(jié)論。
?
然而,這樣的結(jié)論卻引發(fā)了爭議。很多網(wǎng)友表示該結(jié)論缺乏公正性和客觀性。
?
總的來說,爭議點(diǎn)主要集中在以下幾點(diǎn):
?
1. DeepSeek作為非多模態(tài)大模型,卻被當(dāng)作多模態(tài)模型來測評(píng)
測試者把圖表交給DeepSeek 解讀,并指責(zé)DeepSeek 「對(duì)圖表視而不見蒙答案糊弄人」。
?
?
2. o3 網(wǎng)頁版存在降智情況,不符合真實(shí)表現(xiàn)
O3的降智導(dǎo)致測試結(jié)果墊底,但明明知道o3可能會(huì)觸發(fā)降智,卻僅僅在網(wǎng)頁端測試,這樣的答案是否具備客觀公正性?
?
3. 僅僅通過模型網(wǎng)頁端發(fā)送題目截圖,測評(píng)方法缺乏嚴(yán)謹(jǐn)性
考慮到測試的是模型的數(shù)學(xué)推理能力,很多網(wǎng)友認(rèn)為應(yīng)該使用學(xué)術(shù)界最廣泛使用的數(shù)學(xué)公式排版語言LaTeX進(jìn)行測評(píng),不應(yīng)該簡單采取發(fā)送截圖的方式。
?
綜上,對(duì)于這樣的結(jié)論,大家的看法各不相同。
?
但可以肯定的是,隨著AI技術(shù)的高速發(fā)展,AI大模型的推理能力已經(jīng)上升到新的高度,這些頂尖大模型的差距,也不再像幾年前那么明顯了。相信在未來,各大模型在推理能力方面的差距,將會(huì)進(jìn)一步減小。
?
對(duì)于這樣的測試結(jié)果,大家怎么看?歡迎在評(píng)論區(qū)留言討論~
?
