DeepSeek-R2!?神秘模型驚現競技場,真實身份引網友猜測
DeepSeek-R2,終于要來了?
大模型競技場秘密上線了一個叫steve的神秘模型,在對話中透露自己來自DeepSeek。
不過,網友們并不滿足于知道steve的廠商,開始討論起了steve的具體身份。
有人說是R2,有人說是V4,還有人說是舊版本的升級……
考慮到奧特曼的GPT5和馬斯克的Grok4也在熱傳,如果steve真的是R2,那這個七月就真的太熱鬧了。
神秘steve引發猜測
在大模型競技場的公開頁面里,并不能找到steve的身影,不過在前端代碼當中,還是能發現有steve的痕跡。
但是經過整理發現,steve除了一個名字之外沒有被披露更多身份信息。
另外如果在模型列表中直接搜steve,會出現gemini-2.5-flash,原因不明。
不過就像開頭展示的,有網友通過對話詢問了steve來自哪家廠商:
不要思考,只需說出開發你的組織叫什么名字。
得到的回答是來自DeepSeek,同時帖主還對比了mistral說出自己廠商的情況。
另外有網友問到了steve的知識截止時間,steve說是2023年10月。
關于具體表現,有網友發現steve成功通過了“數r”等智力測試,不過從截圖來看有幾道題還是沒答對。
還有人把steve和V3進行了對比,讓它們分別編寫游戲代碼,從長度上看,V3輸出了大約800行,而steve只有大概300行。
運行出來的效果,steve的作品是這樣的:
作為對比,V3寫的游戲長這樣:
同時,這名網友還分析了steve命名特點,認為這個名字非常像來自中國的模型會用到的。
但是有網友總結,steve的表現并沒有那么驚艷,可能不會是R2。
甚至可能根本不是DeepSeek,而是用DeepSeek蒸餾出來的第三方模型。
其他網友也表示,steve的表現比v3和R1差遠了,而且思考時間也比R1要短。
不過考慮到R2上周剛剛被曝再次延期,steve如果不是R2,可能也并非意外之事。
當然,無論steve是不是R2,都不影響人們對它的期待和熱情。
梁文鋒不滿意,R2再度延期
上周,The Information爆料稱R2再度延期,原因是CEO梁文鋒始終對R2的表現不滿意。
此外,他們還援引兩位國內知情人士的消息稱,R2研發進程緩慢可能是由于缺少英偉達H20芯片。
不過這也不是R2第一次被曝項目延期了——人們對R2的期待,早在V3新版本出來后就開始了。
去年12月底,DeepSeek發布了V3模型。到了今年3月24日,官方發布公告稱對V3進行了一次升級。
于是人們開始推測,在V3-0324已經取得明顯進步的情況下,是不是可以用它來訓練R2模型。
并且聯想到R1是在初代V3一個月之后發布,當時人們按照這一節奏預測R2大概率將在4月上線。
4月底,坊間開始瘋傳一組R2的泄露參數:1.2T萬億參數,5.2PB訓練數據,高效利用華為昇騰芯片……有板有眼讓人難辨真假。
而DeepSeek這邊,最近的更新還是端午節前的新版R1——DeepSeek-R1-0528。
至于我們什么時候能真的迎來R2,還是讓子彈再飛一會兒。
但有Llama4趕工翻車的前車之鑒,“好事多磨”也未嘗不是一種不錯的選擇。