成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

我讓十個大模型又參加了完整版數學高考,第一名居然是它......

人工智能
Qwen3,解答題全對,但是在填空題時,因為roll錯了1次對了2次,產生了失誤,丟了寶貴的1.7分,以143.3分,屈居第三。Gemini2.5 pro,解答題拉了跨,139.7分,位列第四。混元T1和文心x1,解答題失誤稍微多了一些,比Gemini 2.5 pro多錯了一點點,差了2.7分,并列屈居第五。

昨天,我不是發了幾個大模型參加數學高考的測試文章嘛。

沒想到熱度挺高,大家還挺關注的。

圖片圖片

不過,很多評論區的小伙伴也說,根本看不出來區別。

圖片圖片

因為缺了對AI難度最高的單選第6題,還有后面那些解答題。

那我想,不如再把模型補上,加上全缺失的智譜Z1、Kimi1.5、文心X1,(不帶Claude 4,封號斗羅,我恨他),再做一個,完整的滿血版的數學高考,讓大家最直觀的,感受一下這些模型的數學能力水平。

讓大家看看,滿分150分,每個模型到底多少分,哪個模型能拿高考數學狀元。

因為要做解答題了,和選則填空不太一樣,所以我還是單獨定了一下規則,規則如下:

1. 數學大題往往都有兩到三個小問,但是每個小問具體的賦分都不太一樣,邀請了朋友(高中老師)來估摸一下每個小問的分數,如下,都取后者:

圖片圖片

2. 高考大題往往會按照步驟給分,但是主要我也看不懂步驟(勿噴),所以這里我們不妨對大模型嚴格一點,按照結果是否正確來給分。

3. 每道題任然使用大模型跑3次,根據正確比例給分。

4. 依然所有的文本題,都使用LaTeX編輯器轉成LaTeX文本格式,再扔給大模型進行回答。

圖片圖片

5. 帶圖片的多模態題也加入測試,直接截圖進行作答,沒有多模態或者推理時不能傳圖的模型,取其他所有多模態模型得分的平均分。

以上。

在幾個朋友@東毅、@倒放、@云舒、@絳燁幫我kuku跑了好久之后,我們終于得出了結論。

這的,又一次干到了凌晨4點。

圖片圖片

不過,最終的得分和結論,非常出人意料,也出乎我的意外。

先看對錯。

對的全部都是?,錯的就是?,如果是有部分對,就是??,沒有多模態的,就寫沒有多模態。

圖片圖片

我說實話,這一片的綠,還是有點超出我的預期的,我本來以為,解答題會難住一堆大模型,沒想到,幾乎大部分都是對的,而單選題第6題,反而成了,所有大模型的噩夢。

涉及到圖片的理解,對于廣大高考學生,輕輕松松做一條輔助線就可以解決,但是所有的多模態大模型,幾乎全軍覆沒,也就openai o3 在三次回答中,對了兩次。

圖片圖片

DeepSeek-R1-0528的表現不如其他的推理模型可能是因為他的推理思維鏈很長很長,而高考題并沒有那么復雜,所以導致,想著想著,就想歪了。。。

真的發現,有時候想的短一點,正確性可能會更高。

所有的答案,都在這了,我們是結結實實的,把每個大模型、每道題,跑了3次。。。

圖片圖片

下次一定要抽空做個腳本,這事用人干是真的頂不住= =

那最后,終于,要公布我們的測試最終得分了。。。

圖片圖片

這個排名,真的讓我有點意外。。。

這里我插一句,我對天發誓,這篇文章不是廣告,我也和科大訊飛還有豆包沒有任何利益關系,在測試過程中也沒有任何弄虛作假或者不遵守規則。

但是實實在在的,就是這么發生了。

在我的測試中,訊飛星火和豆包除了第6題錯,以其他題目全勝的姿態,145分的超高分,并列奪得了第一名。

而Qwen3,解答題全對,但是在填空題時,因為roll錯了1次對了2次,產生了失誤,丟了寶貴的1.7分,以143.3分,屈居第三。

Gemini2.5 pro,解答題拉了跨,139.7分,位列第四。

混元T1和文心x1,解答題失誤稍微多了一些,比Gemini 2.5 pro多錯了一點點,差了2.7分,并列屈居第五。

很有意思,太有意思了。

我其實很久沒就沒有測試測的這么開心過了。

2023年,我第一次測AI高考數學題的時候,那時候大家只有嘲諷。

強如大模型,不識一二三四五。

短短兩年,對于高考來說,幾乎都能輕松達到一個優秀學生的地步。

AI啊,進化還是太快了一點。

也許這就是我愛這份工作的原因吧。

它總能帶給我一些未知,一些驚喜,還有一年抵十年的回憶。

所以,這場AI高考,就到這里畫上句號吧。

天邊泛起肚白。

新的一天。

又到來了。

責任編輯:武曉燕 來源: 數字生命卡茲克
相關推薦

2015-03-09 10:07:50

NEC

2024-06-27 00:40:00

AI編程工具

2021-09-29 00:19:10

容器集群k8s

2025-06-27 09:24:04

2016-11-17 09:40:06

NVIDIA

2021-06-15 10:45:27

PythonC 語言編程語言

2024-02-23 08:56:04

2018-01-30 11:52:39

IDC全閃存

2022-02-21 11:28:16

編程語言PythonJava

2010-11-01 11:25:01

2020-11-11 00:40:35

云計算混合云私有云

2021-06-02 16:19:14

技術研發指標

2021-11-05 11:56:34

運維規則書籍

2023-10-08 11:03:59

2023-12-04 14:28:15

模型應用設計

2025-02-03 00:10:00

人工智能DevOpsLLMOps

2009-08-13 10:57:29

最貴iPhone應用

2025-03-17 00:22:00

DeepSeek指令模型

2011-11-23 09:58:09

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品国产亚洲一区二区三区 | 91电影在线 | 毛片一级片 | 日本视频中文字幕 | 国产精品一区在线观看 | 久久久91精品国产一区二区精品 | 欧洲性生活视频 | 蜜桃av鲁一鲁一鲁一鲁 | 国产成人在线视频播放 | 亚洲视频一区二区三区四区 | 日本在线看 | 午夜影院在线观看 | 国产日韩欧美 | 亚洲精品久久久一区二区三区 | 国产一区二区三区在线 | 麻豆久久久久 | 免费国产视频在线观看 | 久久69精品久久久久久久电影好 | 久产久精国产品 | 99精品国产一区二区三区 | 老司机深夜福利网站 | 日韩精品免费在线观看 | 在线看片网站 | 狠狠色网 | 国产成人精品一区二区三区在线 | 日韩av在线免费 | 午夜寂寞福利视频 | 久久久夜色精品亚洲 | 中文字幕 视频一区 | 欧美日韩精品免费 | 岛国av一区二区三区 | 亚洲一区二区久久 | 一区二区三区成人 | 成人午夜激情 | 亚洲欧美一区二区三区在线 | 国产精品一区二区三区在线 | 亚洲人成人一区二区在线观看 | 国产在线观看一区二区 | 成人在线视频免费播放 | 午夜a区 | 91精品国产91久久久久久 |