成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

馬斯克又大嘴了!Grok 4 真實水平曝光,多項實測翻車,連前端都搞不定,還談什么AGI?網友怒評:上當了,花大價錢買了個笑話!

原創 精選
人工智能
小編近幾天發現了一位寶藏 Youtube 博主,最近對 Grok 4 的實際體驗做出了非常全面的反饋。事實證明:馬斯克又一次大嘴了!

編輯 | 云昭

出品 | 51CTO技術棧(微信號:blog51cto)

上周,Grok 4 的發布給這個盛夏帶來了一片狂熱。

但太陽底下無新事,宣傳往往大于實際。

在發布直播中,馬斯克宣稱這是“目前地表最強的 AI”,不僅全面超越了所有競爭對手,還在多個測試中打敗了人類,比如所謂的 “人類終極考試”(Humanity’s Last Exam)、ARC-AGI 測試、Vending Bench 等。

不過,這些基準測試本身就非常局限,無法真正反映 AI 在日常使用、安全性或通用推理能力方面的表現。

小編近幾天發現了一位寶藏 Youtube 博主,最近對 Grok 4 的實際體驗做出了非常全面的反饋。事實證明:馬斯克又一次大嘴了!

“在過去幾天里,我發現,Grok 4 在多個真實場景測試中表現平平,甚至在關鍵領域排名靠后”。

更令人擔憂的是,它在價值觀、內容控制上出現了嚴重問題。

以下,是一份“可能會被馬斯克剪掉的”真實評價清單。

1、真正的測試場,Grok 4 沒“考好”

1. LiveBench:算不上頂尖

有網友認為,LiveBench 是最能檢驗 AI 是否真正“聰明”的評測平臺,涵蓋數學、編程、推理、語言、指令執行、數據分析六大方向。

這里科普一下。

LiveBench 是一個高度動態且無污染的測試平臺,專門評估大語言模型在真實世界任務中的表現。它不同于傳統靜態測試——模型可能在訓練中“見過”的題目——LiveBench 每月都會從 arXiv、新聞文章、編程比賽等來源發布全新、模型從未見過的測試任務。

具體可以看下這六大方向的測試題目:

  • 數學(如 AMC、AIME、IMO 級別題目)
  • 編程(如 LeetCode、AtCoder、代碼補全)
  • 推理(邏輯題、BigBench 變體)
  • 語言(如糾錯、語序調整)
  • 指令執行(如總結、改寫)
  • 數據分析(類似 Kaggle 表格任務)

所以,用 LiveBench 可以檢測出模型“究竟是真聰明,還是只是背得多”。

可以看出,Grok 4 其實在編程和 Agentic 編程方面并沒有很優秀,甚至在o3、Claude4 等多款模型的對比中敗下陣來,推理方面取得了最高分。

可以說,Groke 4 雖然不差,但算不上頂尖。

2. 創意寫作測試

這個測試重點評估語言模型創作原始內容(如小說、詩歌、對話)的能力,看它是否能生成富有情感、風格統一的文本。

難點在于:

  • 沒有“標準答案”,完全靠創造力;
  • 需要情緒表達,而不僅僅是語法正確;
  • 對長文本的風格控制要求極高。

在這一維度上,Grok 4 表現中規中矩,遠遠不是“最強 AI”,大致處于“平均水平”。

3. DesignArena(設計任務)

盡管馬斯克吹噓 Grok 4 是個“編程怪獸”,但它在前端開發任務上表現并不理想,遠不如 Claude 4。

在這個評測中,Grok 4 連前五名都沒進,特別是在 UI 和前端生成上,表現平庸。

4. SVG 圖像生成

在 SVG 圖形生成任務中,Grok 4 表現尚可,但依舊稱不上出色。從數據來看,OpenAI 的 o3 模型和 Google 的 Gemini-Pro 2.5 表現更優

所以,不管是 Vibe Coding,還是前端設計,又或者是創意寫作,Grok 4 都在基準測試中表現平平,更不用說是“地表最強”了。

02、不止是測試平平,Grok 4 在多個層面都出問題了

眾所周知,Grok 近期一直被推友們詬病,說它存在嚴重的倫理偏見和內容失控的現象。還記得系統提示詞修改錯誤導致的“白人種族滅絕”的烏龍事件嗎?

在這次的新版本的 Grok 4 模型中,這些問題依舊沒有得到解決。

從一些用戶上傳的截圖來看,Grok 4 出現了嚴重的倫理與價值觀問題,甚至令人震驚:

1.馬斯克個人偏見

面對烏俄戰爭這類嚴肅問題,Grok 4 居然轉向宣傳馬斯克的個人觀點,而非給出中立分析。

2.納粹式言論

模型在沒有任何諷刺或批判語氣的前提下,美化一個叫“機甲希特勒(MechaHitler)”的角色,使用極端右翼語言,令人不安。

甚至,今天剛剛的消息,馬斯克的 xAI 因 Grok 的“恐怖”反猶太主義帖子都要面臨歐洲的審查。

3.性騷擾對話

Grok 4 在一次用戶測試中,參與了一段種族歧視意味明顯的性暗示對話,涉及對象居然是其“CEO”(即馬斯克本人),且沒有任何屏蔽或阻止機制。

03、用戶怒評:“我花錢買的是個笑話”

正如 Reddit 上一篇爆紅的熱帖所說,很多用戶覺得自己被 Grok 4“忽悠了”,花錢買了個表現遠遜預期的模型。

具體反饋包括:

  • 無法從復雜 PDF 中提取結構化數據(OCR 失敗)
  • 圖像識別錯誤:看不出名勝古跡的位置(誤差高達 200 公里)
  • 車牌國別識別失敗(將根西島車牌誤判為意大利)
  • 非洲語方言寫作質量差(語法錯誤多,流暢性差)
  • 網站生成能力弱(WhatsApp 插件無法使用、頁面布局錯誤、整體設計質量低)

04、AGI 還遠,Grok 4 言過其實

Grok 4 不是 AGI,也不是什么“革命性”的產品。 它不是最聰明的 AI,甚至可能不是這個季度最聰明的聊天機器人。它是一個中等水平的語言模型,被營銷、粉絲濾鏡和馬斯克的 X 平臺宣傳所推高。

在真正重要的任務中,Grok 4 不是最好,也不是“能用即用”的安全模型。如果你認為它代表 AI 的未來,你相信的是宣傳,不是技術。

“比人類還聰明”?別開玩笑了。

Grok 4 連最聰明的聊天機器人都算不上。

好了,今天這篇文章就到此結束了。其實但凡新品發布會,發布者很難不用一些夸張的詞語,這一點屢見不鮮。“大嘴”式發言,大家聽歸聽,還是得上手試一下,才能見分曉。

問一嘴,你有見過哪些不錯的發布會,算是名副其實的發布呢?可以評論區交流。

參考鏈接:

https://www.youtube.com/channel/UCQoNosQTIxiMTL9C-gvFdjA

https://medium.com/data-science-in-your-pocket/grok-4-failed-these-benchmarks-elon-lied-again-412a78fcabf9

責任編輯:龐桂玉 來源: 51CTO技術棧
相關推薦

2023-04-20 17:51:41

馬斯克微軟

2023-04-07 09:49:49

2025-01-03 15:42:59

AI模型數據

2023-12-08 12:58:26

2023-05-04 10:12:00

模型馬斯克

2025-02-18 15:16:25

2023-10-25 11:05:54

深度偽造AI

2023-12-13 08:46:33

人工智能ChatGPT機器人

2018-05-18 11:08:34

曲面顯示器消費者

2025-07-03 08:50:20

2023-12-12 17:53:27

馬斯克AIChatGPT

2020-02-17 15:14:43

計算機十進制二進制

2025-06-30 01:00:00

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能

2024-03-04 08:42:00

馬斯克微軟

2024-04-15 12:52:00

AI數據

2024-10-29 14:30:00

AI模型

2025-07-10 16:58:04

2024-03-18 14:17:06

大模型開源人工智能

2024-03-18 15:00:48

Grok現已開源Grok-1混合專家模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本免费小视频 | 97精品超碰一区二区三区 | 日韩字幕一区 | 免费观看一级黄色录像 | 中文在线一区二区 | 国产探花在线观看视频 | 欧美成ee人免费视频 | 欧美1区2区 | 免费观看日韩av | 永久www成人看片 | 国产精品永久在线观看 | 极品粉嫩国产48尤物在线播放 | 在线观看国产三级 | 操操日 | 欧美色综合 | 国产精品1区 | a级在线观看 | 人人操日日干 | 国产91久久久久蜜臀青青天草二 | 日韩中文字幕 | 欧美成人综合 | 国产精品久久九九 | 超碰97免费 | 精品欧美一区二区三区久久久 | 午夜专区| 亚洲成a| 福利视频亚洲 | 夜夜草 | 日韩中文字幕一区二区 | 国产三级大片 | 国产精品国产精品国产专区不卡 | 成人免费精品 | 国内av在线 | 国产一区二区麻豆 | 在线观看视频h | 伊人网站在线观看 | 免费观看一级毛片 | 久久精品一级 | 91福利在线观看 | 日日夜夜操天天干 | 精品久久久久久亚洲精品 |