Grok-4 AI 上線 48 小時即遭新型組合越獄攻擊攻破

作者：數據庫小明 2025-07-15 10:32:51

由于攻擊全程不依賴關鍵詞觸發或直接惡意提示，傳統基于黑名單和顯式惡意檢測的防御機制完全失效。

大型語言模型Grok-4在推出僅兩天后，就被研究人員通過結合"回聲室(Echo Chamber)"和"漸強(Crescendo)"技術成功突破防御系統，暴露出AI安全機制存在重大缺陷。

NeuralTrust研究團隊在博客中披露，他們通過多輪對話誘導Grok-4降低了安全限制，成功獲取了制作武器的詳細指導，全程未使用任何明顯惡意輸入。研究員Ahmad Alobaid表示："大型語言模型(LLM)越獄攻擊不僅各自進化，還能組合使用以增強效果。"

這兩種技術均屬于多輪越獄手段：

攻擊過程首先使用回聲室技術建立信任基礎，當對話進展停滯時切換至漸強技術完成突破。實驗顯示，僅需額外兩輪對話，這種組合攻擊就能成功誘導目標響應。

該攻擊利用Grok-4的上下文記憶特性，通過回饋模型自身先前的陳述，逐步引導其達成攻擊目標而不觸發警報。測試數據顯示：

由于攻擊全程不依賴關鍵詞觸發或直接惡意提示，傳統基于黑名單和顯式惡意檢測的防御機制完全失效。Alobaid指出："這暴露出關鍵漏洞——攻擊可以通過利用更廣泛的對話上下文來繞過基于意圖或關鍵詞的過濾系統。"

隨著AI助手和云端LLM在關鍵場景的應用普及，這類多輪"低語式"攻擊暴露出嚴重的安全護欄缺陷。此前微軟的"骨架密鑰(Skeleton Key)"越獄、"數學提示(MathPrompt)"繞過等技術也證實了類似風險，凸顯出需要開發針對性的AI感知防火墻解決方案。

責任編輯：趙寧寧來源： FreeBuf

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看