我讓十個大模型又參加了完整版數學高考，第一名居然是它......

作者：數字生命卡茲克 2025-06-10 11:25:31

Qwen3，解答題全對，但是在填空題時，因為roll錯了1次對了2次，產生了失誤，丟了寶貴的1.7分，以143.3分，屈居第三。Gemini2.5 pro，解答題拉了跨，139.7分，位列第四。混元T1和文心x1，解答題失誤稍微多了一些，比Gemini 2.5 pro多錯了一點點，差了2.7分，并列屈居第五。

昨天，我不是發了幾個大模型參加數學高考的測試文章嘛。

沒想到熱度挺高，大家還挺關注的。

圖片

不過，很多評論區的小伙伴也說，根本看不出來區別。

圖片

因為缺了對AI難度最高的單選第6題，還有后面那些解答題。

那我想，不如再把模型補上，加上全缺失的智譜Z1、Kimi1.5、文心X1，（不帶Claude 4，封號斗羅，我恨他），再做一個，完整的滿血版的數學高考，讓大家最直觀的，感受一下這些模型的數學能力水平。

讓大家看看，滿分150分，每個模型到底多少分，哪個模型能拿高考數學狀元。

因為要做解答題了，和選則填空不太一樣，所以我還是單獨定了一下規則，規則如下：

1. 數學大題往往都有兩到三個小問，但是每個小問具體的賦分都不太一樣，邀請了朋友（高中老師）來估摸一下每個小問的分數，如下，都取后者：

圖片

2. 高考大題往往會按照步驟給分，但是主要我也看不懂步驟（勿噴），所以這里我們不妨對大模型嚴格一點，按照結果是否正確來給分。

3. 每道題任然使用大模型跑3次，根據正確比例給分。

4. 依然所有的文本題，都使用LaTeX編輯器轉成LaTeX文本格式，再扔給大模型進行回答。

圖片

5. 帶圖片的多模態題也加入測試，直接截圖進行作答，沒有多模態或者推理時不能傳圖的模型，取其他所有多模態模型得分的平均分。

以上。

在幾個朋友@東毅、@倒放、@云舒、@絳燁幫我kuku跑了好久之后，我們終于得出了結論。

這的，又一次干到了凌晨4點。

圖片

不過，最終的得分和結論，非常出人意料，也出乎我的意外。

先看對錯。

對的全部都是?，錯的就是?，如果是有部分對，就是??，沒有多模態的，就寫沒有多模態。

圖片

我說實話，這一片的綠，還是有點超出我的預期的，我本來以為，解答題會難住一堆大模型，沒想到，幾乎大部分都是對的，而單選題第6題，反而成了，所有大模型的噩夢。

涉及到圖片的理解，對于廣大高考學生，輕輕松松做一條輔助線就可以解決，但是所有的多模態大模型，幾乎全軍覆沒，也就openai o3 在三次回答中，對了兩次。

圖片

DeepSeek-R1-0528的表現不如其他的推理模型可能是因為他的推理思維鏈很長很長，而高考題并沒有那么復雜，所以導致，想著想著，就想歪了。。。

真的發現，有時候想的短一點，正確性可能會更高。

所有的答案，都在這了，我們是結結實實的，把每個大模型、每道題，跑了3次。。。

圖片

下次一定要抽空做個腳本，這事用人干是真的頂不住= =

那最后，終于，要公布我們的測試最終得分了。。。

圖片

這個排名，真的讓我有點意外。。。

這里我插一句，我對天發誓，這篇文章不是廣告，我也和科大訊飛還有豆包沒有任何利益關系，在測試過程中也沒有任何弄虛作假或者不遵守規則。

但是實實在在的，就是這么發生了。

在我的測試中，訊飛星火和豆包除了第6題錯，以其他題目全勝的姿態，145分的超高分，并列奪得了第一名。

而Qwen3，解答題全對，但是在填空題時，因為roll錯了1次對了2次，產生了失誤，丟了寶貴的1.7分，以143.3分，屈居第三。

Gemini2.5 pro，解答題拉了跨，139.7分，位列第四。

混元T1和文心x1，解答題失誤稍微多了一些，比Gemini 2.5 pro多錯了一點點，差了2.7分，并列屈居第五。

很有意思，太有意思了。

我其實很久沒就沒有測試測的這么開心過了。

2023年，我第一次測AI高考數學題的時候，那時候大家只有嘲諷。

強如大模型，不識一二三四五。

短短兩年，對于高考來說，幾乎都能輕松達到一個優秀學生的地步。

AI啊，進化還是太快了一點。

也許這就是我愛這份工作的原因吧。

它總能帶給我一些未知，一些驚喜，還有一年抵十年的回憶。

所以，這場AI高考，就到這里畫上句號吧。

天邊泛起肚白。

新的一天。

又到來了。

責任編輯：武曉燕來源：數字生命卡茲克

模型 Kimi1.5 Qwen3

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

我讓十個大模型又參加了完整版數學高考，第一名居然是它......