馬斯克又大嘴了！Grok 4 真實水平曝光，多項實測翻車，連前端都搞不定，還談什么AGI？網友怒評：上當了，花大價錢買了個笑話！

原創精選

作者：云昭 2025-07-15 18:08:04

人工智能

小編近幾天發現了一位寶藏 Youtube 博主，最近對 Grok 4 的實際體驗做出了非常全面的反饋。事實證明：馬斯克又一次大嘴了！

編輯 | 云昭

出品 | 51CTO技術棧（微信號：blog51cto）

上周，Grok 4 的發布給這個盛夏帶來了一片狂熱。

但太陽底下無新事，宣傳往往大于實際。

在發布直播中，馬斯克宣稱這是“目前地表最強的 AI”，不僅全面超越了所有競爭對手，還在多個測試中打敗了人類，比如所謂的 “人類終極考試”（Humanity’s Last Exam）、ARC-AGI 測試、Vending Bench 等。

不過，這些基準測試本身就非常局限，無法真正反映 AI 在日常使用、安全性或通用推理能力方面的表現。

小編近幾天發現了一位寶藏 Youtube 博主，最近對 Grok 4 的實際體驗做出了非常全面的反饋。事實證明：馬斯克又一次大嘴了！

“在過去幾天里，我發現，Grok 4 在多個真實場景測試中表現平平，甚至在關鍵領域排名靠后”。

更令人擔憂的是，它在價值觀、內容控制上出現了嚴重問題。

以下，是一份“可能會被馬斯克剪掉的”真實評價清單。

1、真正的測試場，Grok 4 沒“考好”

1. LiveBench：算不上頂尖

有網友認為，LiveBench 是最能檢驗 AI 是否真正“聰明”的評測平臺，涵蓋數學、編程、推理、語言、指令執行、數據分析六大方向。

這里科普一下。

LiveBench 是一個高度動態且無污染的測試平臺，專門評估大語言模型在真實世界任務中的表現。它不同于傳統靜態測試——模型可能在訓練中“見過”的題目——LiveBench 每月都會從 arXiv、新聞文章、編程比賽等來源發布全新、模型從未見過的測試任務。

具體可以看下這六大方向的測試題目：

數學（如 AMC、AIME、IMO 級別題目）
編程（如 LeetCode、AtCoder、代碼補全）
推理（邏輯題、BigBench 變體）
語言（如糾錯、語序調整）
指令執行（如總結、改寫）
數據分析（類似 Kaggle 表格任務）

所以，用 LiveBench 可以檢測出模型“究竟是真聰明，還是只是背得多”。

可以看出，Grok 4 其實在編程和 Agentic 編程方面并沒有很優秀，甚至在o3、Claude4 等多款模型的對比中敗下陣來，推理方面取得了最高分。

可以說，Groke 4 雖然不差，但算不上頂尖。

2. 創意寫作測試

這個測試重點評估語言模型創作原始內容（如小說、詩歌、對話）的能力，看它是否能生成富有情感、風格統一的文本。

難點在于：

沒有“標準答案”，完全靠創造力；
需要情緒表達，而不僅僅是語法正確；
對長文本的風格控制要求極高。

在這一維度上，Grok 4 表現中規中矩，遠遠不是“最強 AI”，大致處于“平均水平”。

3. DesignArena（設計任務）

盡管馬斯克吹噓 Grok 4 是個“編程怪獸”，但它在前端開發任務上表現并不理想，遠不如 Claude 4。

在這個評測中，Grok 4 連前五名都沒進，特別是在 UI 和前端生成上，表現平庸。

4. SVG 圖像生成

在 SVG 圖形生成任務中，Grok 4 表現尚可，但依舊稱不上出色。從數據來看，OpenAI 的 o3 模型和 Google 的 Gemini-Pro 2.5 表現更優。

所以，不管是 Vibe Coding，還是前端設計，又或者是創意寫作，Grok 4 都在基準測試中表現平平，更不用說是“地表最強”了。

02、不止是測試平平，Grok 4 在多個層面都出問題了

眾所周知，Grok 近期一直被推友們詬病，說它存在嚴重的倫理偏見和內容失控的現象。還記得系統提示詞修改錯誤導致的“白人種族滅絕”的烏龍事件嗎？

在這次的新版本的 Grok 4 模型中，這些問題依舊沒有得到解決。

從一些用戶上傳的截圖來看，Grok 4 出現了嚴重的倫理與價值觀問題，甚至令人震驚：

1.馬斯克個人偏見

面對烏俄戰爭這類嚴肅問題，Grok 4 居然轉向宣傳馬斯克的個人觀點，而非給出中立分析。

2.納粹式言論

模型在沒有任何諷刺或批判語氣的前提下，美化一個叫“機甲希特勒（MechaHitler）”的角色，使用極端右翼語言，令人不安。

甚至，今天剛剛的消息，馬斯克的 xAI 因 Grok 的“恐怖”反猶太主義帖子都要面臨歐洲的審查。

3.性騷擾對話

Grok 4 在一次用戶測試中，參與了一段種族歧視意味明顯的性暗示對話，涉及對象居然是其“CEO”（即馬斯克本人），且沒有任何屏蔽或阻止機制。

03、用戶怒評：“我花錢買的是個笑話”

正如 Reddit 上一篇爆紅的熱帖所說，很多用戶覺得自己被 Grok 4“忽悠了”，花錢買了個表現遠遜預期的模型。

具體反饋包括：

無法從復雜 PDF 中提取結構化數據（OCR 失敗）；
圖像識別錯誤：看不出名勝古跡的位置（誤差高達 200 公里）；
車牌國別識別失敗（將根西島車牌誤判為意大利）；
非洲語方言寫作質量差（語法錯誤多，流暢性差）；
網站生成能力弱（WhatsApp 插件無法使用、頁面布局錯誤、整體設計質量低）。

04、AGI 還遠，Grok 4 言過其實

Grok 4 不是 AGI，也不是什么“革命性”的產品。 它不是最聰明的 AI，甚至可能不是這個季度最聰明的聊天機器人。它是一個中等水平的語言模型，被營銷、粉絲濾鏡和馬斯克的 X 平臺宣傳所推高。

在真正重要的任務中，Grok 4 不是最好，也不是“能用即用”的安全模型。如果你認為它代表 AI 的未來，你相信的是宣傳，不是技術。

“比人類還聰明”？別開玩笑了。

Grok 4 連最聰明的聊天機器人都算不上。

好了，今天這篇文章就到此結束了。其實但凡新品發布會，發布者很難不用一些夸張的詞語，這一點屢見不鮮。“大嘴”式發言，大家聽歸聽，還是得上手試一下，才能見分曉。

問一嘴，你有見過哪些不錯的發布會，算是名副其實的發布呢？可以評論區交流。

參考鏈接：

https://www.youtube.com/channel/UCQoNosQTIxiMTL9C-gvFdjA

https://medium.com/data-science-in-your-pocket/grok-4-failed-these-benchmarks-elon-lied-again-412a78fcabf9

責任編輯：龐桂玉來源： 51CTO技術棧

馬斯克 Grok 4 AGI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看