OpenAI最強對手出現!馬斯克發布Grok-4,性能碾壓Claude 4兩倍! 精華
就在半小時前,馬斯克的Grok4終于正式發布了。
Grok3.5跳票。老馬的直播還遲到1h也是沒誰了,全世界都被耍猴。
最貴版本,300美刀,可以思考大幾十分鐘,一般人也用不上。
直播表示,Grok-4“能夠進行超人級別的推理”(It can reason at a superhuman level!),并且在多項高難度基準測試上實現了對現有頂尖模型的碾壓。
Artificial Analysis 獲得早期訪問權限并發布了 Grok 4 基準測試,數據著實恐怖。
今天的循環回到了XAI~
比所有研究生都聰明
馬斯克表示:“Grok-4幾乎在所有學科上都比人類研究生更聰明。”
繼續延續上一代的闊氣:
- Grok-4的訓練量是Grok 2的100倍。
- 在強化學習(RL)階段投入的算力,是市面上其他任何模型的10倍以上。
xAI認為,可靠的信號是強化學習成功的關鍵,而他們已經找到了讓模型在智能上實現巨大飛躍的路徑。
橫掃頂級推理基準,完勝Claude 4
Grok-4在多個被認為是衡量模型推理能力“天花板”的基準上,交出了一份近乎完美的答卷。
- AIME數學競賽滿分:在AIME25數學競賽上,Grok-4拿下了滿分!這是對模型邏輯推理和數學能力的終極考驗。但是圖畫的很漂亮,滿分是調用工具的結果,o3+工具也接近滿分。
- ARC-AGI基準翻倍:在私有的AGI能力測試集ARC-AGI v2上,Grok-4成為了首個突破10%門檻的模型,得分高達15.9%,是第二名Claude Opus 4的兩倍還多。
- Vending Bench奪魁:在另一個衡量復雜任務解決能力的Vending Bench上,Grok-4同樣取得第一,凈值是Claude Opus 4的兩倍。
馬斯克:“AI的終極推理測試,是在現實世界中運行。而這些數據表明,Grok-4正朝著解決真實、復雜問題的通用智能體方向大步邁進。”
更強的Agent能力與未來規劃
- 原生工具調用:Grok-4具備了原生的工具調用能力,這使其Agent形態的性能得到顯著提升。
- API與上下文:模型將通過xAI API提供,擁有256K的上下文窗口,并支持實時數據搜索。
- 多模態能力:除了文本,Grok-4在語音和視頻理解方面也進行了重點改進,語音交互速度提升2倍,為構建更強大的多模態智能體鋪平了道路。
關于下一步,xAI的目標非常明確:更快、更智能。編程(Coding)和更強大的多模態Agent將是接下來的核心焦點。
網友初步實測
天氣卡片是簡陋的。
寫文是低能的。
做題對了~
本文轉載自????探索AGI????,作者:獼猴桃
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦