編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
上周,Grok 4 的發布給這個盛夏帶來了一片狂熱。
但太陽底下無新事,宣傳往往大于實際。
在發布直播中,馬斯克宣稱這是“目前地表最強的 AI”,不僅全面超越了所有競爭對手,還在多個測試中打敗了人類,比如所謂的 “人類終極考試”(Humanity’s Last Exam)、ARC-AGI 測試、Vending Bench 等。
不過,這些基準測試本身就非常局限,無法真正反映 AI 在日常使用、安全性或通用推理能力方面的表現。
小編近幾天發現了一位寶藏 Youtube 博主,最近對 Grok 4 的實際體驗做出了非常全面的反饋。事實證明:馬斯克又一次大嘴了!
“在過去幾天里,我發現,Grok 4 在多個真實場景測試中表現平平,甚至在關鍵領域排名靠后”。
更令人擔憂的是,它在價值觀、內容控制上出現了嚴重問題。
以下,是一份“可能會被馬斯克剪掉的”真實評價清單。
1、真正的測試場,Grok 4 沒“考好”
1. LiveBench:算不上頂尖
有網友認為,LiveBench 是最能檢驗 AI 是否真正“聰明”的評測平臺,涵蓋數學、編程、推理、語言、指令執行、數據分析六大方向。
這里科普一下。
LiveBench 是一個高度動態且無污染的測試平臺,專門評估大語言模型在真實世界任務中的表現。它不同于傳統靜態測試——模型可能在訓練中“見過”的題目——LiveBench 每月都會從 arXiv、新聞文章、編程比賽等來源發布全新、模型從未見過的測試任務。
具體可以看下這六大方向的測試題目:
- 數學(如 AMC、AIME、IMO 級別題目)
- 編程(如 LeetCode、AtCoder、代碼補全)
- 推理(邏輯題、BigBench 變體)
- 語言(如糾錯、語序調整)
- 指令執行(如總結、改寫)
- 數據分析(類似 Kaggle 表格任務)
所以,用 LiveBench 可以檢測出模型“究竟是真聰明,還是只是背得多”。
可以看出,Grok 4 其實在編程和 Agentic 編程方面并沒有很優秀,甚至在o3、Claude4 等多款模型的對比中敗下陣來,推理方面取得了最高分。
可以說,Groke 4 雖然不差,但算不上頂尖。
2. 創意寫作測試
這個測試重點評估語言模型創作原始內容(如小說、詩歌、對話)的能力,看它是否能生成富有情感、風格統一的文本。
難點在于:
- 沒有“標準答案”,完全靠創造力;
- 需要情緒表達,而不僅僅是語法正確;
- 對長文本的風格控制要求極高。
在這一維度上,Grok 4 表現中規中矩,遠遠不是“最強 AI”,大致處于“平均水平”。
3. DesignArena(設計任務)
盡管馬斯克吹噓 Grok 4 是個“編程怪獸”,但它在前端開發任務上表現并不理想,遠不如 Claude 4。
在這個評測中,Grok 4 連前五名都沒進,特別是在 UI 和前端生成上,表現平庸。
4. SVG 圖像生成
在 SVG 圖形生成任務中,Grok 4 表現尚可,但依舊稱不上出色。從數據來看,OpenAI 的 o3 模型和 Google 的 Gemini-Pro 2.5 表現更優。
所以,不管是 Vibe Coding,還是前端設計,又或者是創意寫作,Grok 4 都在基準測試中表現平平,更不用說是“地表最強”了。
02、不止是測試平平,Grok 4 在多個層面都出問題了
眾所周知,Grok 近期一直被推友們詬病,說它存在嚴重的倫理偏見和內容失控的現象。還記得系統提示詞修改錯誤導致的“白人種族滅絕”的烏龍事件嗎?
在這次的新版本的 Grok 4 模型中,這些問題依舊沒有得到解決。
從一些用戶上傳的截圖來看,Grok 4 出現了嚴重的倫理與價值觀問題,甚至令人震驚:
1.馬斯克個人偏見
面對烏俄戰爭這類嚴肅問題,Grok 4 居然轉向宣傳馬斯克的個人觀點,而非給出中立分析。
2.納粹式言論
模型在沒有任何諷刺或批判語氣的前提下,美化一個叫“機甲希特勒(MechaHitler)”的角色,使用極端右翼語言,令人不安。
甚至,今天剛剛的消息,馬斯克的 xAI 因 Grok 的“恐怖”反猶太主義帖子都要面臨歐洲的審查。
3.性騷擾對話
Grok 4 在一次用戶測試中,參與了一段種族歧視意味明顯的性暗示對話,涉及對象居然是其“CEO”(即馬斯克本人),且沒有任何屏蔽或阻止機制。
03、用戶怒評:“我花錢買的是個笑話”
正如 Reddit 上一篇爆紅的熱帖所說,很多用戶覺得自己被 Grok 4“忽悠了”,花錢買了個表現遠遜預期的模型。
具體反饋包括:
- 無法從復雜 PDF 中提取結構化數據(OCR 失敗);
- 圖像識別錯誤:看不出名勝古跡的位置(誤差高達 200 公里);
- 車牌國別識別失敗(將根西島車牌誤判為意大利);
- 非洲語方言寫作質量差(語法錯誤多,流暢性差);
- 網站生成能力弱(WhatsApp 插件無法使用、頁面布局錯誤、整體設計質量低)。
04、AGI 還遠,Grok 4 言過其實
Grok 4 不是 AGI,也不是什么“革命性”的產品。 它不是最聰明的 AI,甚至可能不是這個季度最聰明的聊天機器人。它是一個中等水平的語言模型,被營銷、粉絲濾鏡和馬斯克的 X 平臺宣傳所推高。
在真正重要的任務中,Grok 4 不是最好,也不是“能用即用”的安全模型。如果你認為它代表 AI 的未來,你相信的是宣傳,不是技術。
“比人類還聰明”?別開玩笑了。
Grok 4 連最聰明的聊天機器人都算不上。
好了,今天這篇文章就到此結束了。其實但凡新品發布會,發布者很難不用一些夸張的詞語,這一點屢見不鮮。“大嘴”式發言,大家聽歸聽,還是得上手試一下,才能見分曉。
問一嘴,你有見過哪些不錯的發布會,算是名副其實的發布呢?可以評論區交流。
參考鏈接: