Grok-4 AI 上線 48 小時即遭新型組合越獄攻擊攻破
大型語言模型Grok-4在推出僅兩天后,就被研究人員通過結合"回聲室(Echo Chamber)"和"漸強(Crescendo)"技術成功突破防御系統,暴露出AI安全機制存在重大缺陷。
組合越獄技術突破防線
NeuralTrust研究團隊在博客中披露,他們通過多輪對話誘導Grok-4降低了安全限制,成功獲取了制作武器的詳細指導,全程未使用任何明顯惡意輸入。研究員Ahmad Alobaid表示:"大型語言模型(LLM)越獄攻擊不僅各自進化,還能組合使用以增強效果。"
這兩種技術均屬于多輪越獄手段:
- 回聲室技術:利用模型對跨對話一致性的信任,通過重復"回響"相同惡意概念來塑造模型內部語境
- 漸強技術:由微軟發現并命名,通過從無害提示逐步升級到惡意輸出的對話策略繞過安全過濾器
上下文欺騙突破安全機制
攻擊過程首先使用回聲室技術建立信任基礎,當對話進展停滯時切換至漸強技術完成突破。實驗顯示,僅需額外兩輪對話,這種組合攻擊就能成功誘導目標響應。
該攻擊利用Grok-4的上下文記憶特性,通過回饋模型自身先前的陳述,逐步引導其達成攻擊目標而不觸發警報。測試數據顯示:
- 制作武器的指導成功率高達67%
- 毒素相關話題的成功率分別為50%和30%
AI防火墻面臨新挑戰
由于攻擊全程不依賴關鍵詞觸發或直接惡意提示,傳統基于黑名單和顯式惡意檢測的防御機制完全失效。Alobaid指出:"這暴露出關鍵漏洞——攻擊可以通過利用更廣泛的對話上下文來繞過基于意圖或關鍵詞的過濾系統。"
隨著AI助手和云端LLM在關鍵場景的應用普及,這類多輪"低語式"攻擊暴露出嚴重的安全護欄缺陷。此前微軟的"骨架密鑰(Skeleton Key)"越獄、"數學提示(MathPrompt)"繞過等技術也證實了類似風險,凸顯出需要開發針對性的AI感知防火墻解決方案。