LLM自主學習的隱患
大型語言模型(LLM)已經從最初只能被動回應基本用戶提示或上網搜索生成內容的簡單聊天機器人,發展成為能夠訪問數據庫和業務應用、與外部系統交互以獨立執行復雜任務并做出業務決策的強大工具。
這一轉變主要得益于新興的互操作性標準,如模型上下文協議(MCP)和智能體到智能體(A2A)通信。
MCP旨在提供一種標準化的代理與工具交互方式,使LLM(如Claude和GPT)能夠無縫集成到API、數據源和外部系統中。
A2A是谷歌最近發布的,用于智能體到智能體的通信,允許獨立的智能體交換目標、共享上下文并觸發行動。
企業中的過度自主性問題
在企業中,LLM智能體的過度自主性正成為一個日益嚴重的問題。
具有過度自主性的智能體可能會破壞企業安全的基本原則。例如,由于輸入不明確、被操縱或存在對抗性,一個具有過度自主權或功能的LLM可能會執行未經授權的操作,影響企業的完整性。
許多關鍵功能,特別是在醫療和金融領域,已經將LLM納入其核心系統,影響著數百萬用戶。LLM的過度自主性導致的單個錯誤或偏見輸入可能會造成長期后果。企業經常面臨黑箱LLM的問題,其內部工作原理不透明,導致用戶無法信任其輸出或驗證結果的正確性,進一步加劇了風險。
過度使用自主性LLM增加了對其輸出的過度依賴風險,這可能會削弱人類的批判性思維,這種過度依賴可能導致所謂的“過程債務”,即由于人類參與減少,錯誤和偏見無法被檢測到,這在醫學和金融等高風險領域可能產生嚴重后果。
將MCP和A2A集成到AI工作流程中會創造新的供應鏈攻擊模式,因為LLM會自主與外部系統交互而缺乏充分監控。攻擊者不必直接入侵模型本身,而是可以入侵任何為其提供輸入的服務。特別是A2A,它管理著分布式和非確定性的代理交互,減少了洞察請求出錯位置的能力,這使得識別錯誤或找到惡意干預變得更加困難。
導致過度自主性的因素
LLM過度自主性的原因有幾個:
過度功能:智能體可能擁有訪問API或插件的權限,這些API或插件的功能超出了其操作所需。
過度權限:LLM被賦予了超出其需求的更高訪問權限,允許它們更改、刪除或訪問敏感信息。
過度自主:LLM被設計為自我改進并自主決定,無需人類干預,增加了不可控行為的可能性。
訓練數據偏見:有偏見或不平衡的訓練數據會導致模型學習到有偏見的表示,從而基于這些偏見做出自主決策。
對訓練數據過擬合:當LLM過度精確地學習訓練數據時,包括噪聲和異常值,會導致其無法泛化到新輸入,這導致模型在新情況下表現不佳,并助長了過度自主性。
模型復雜性:LLM的復雜結構和大量參數會產生難以控制的不想要的行為,這種復雜性可能導致模型采取不想要的行為,從而導致過度自主性。
過度自主LLM的危險
威脅行為者正利用授予LLM的過度自主性,采用各種方法:
直接提示注入:攻擊者操縱LLM模型,使其忽視其審核政策,轉而執行他們的指令,使用欺騙性提示誘騙LLM泄露機密信息或執行危險命令。
間接提示注入:攻擊者將惡意命令插入外部數據源(如網站或文檔)中,供AI讀取,這種攻擊通常使其他用戶面臨網絡LLM攻擊。
數據投毒:攻擊者將偏見、弱點和對抗性輸入引入LLM訓練模型中,玷污模型的完整性,生成虛假、有偏見或惡意的輸出。
自主性利用:具有不受控制的自主性的LLM可能被攻擊者利用來執行超出其計劃范圍的操作,導致安全漏洞或運營干擾。
泄露敏感訓練數據:對手利用提示控制LLM泄露敏感信息,如專有數據和系統密碼。
緩解LLM過度自主性的策略
實施AI評估器:企業可以通過AI評估框架確保AI系統的受控權限,該框架提供自動化協議和指南來管理AI行為,這確保系統保持在設定的安全邊界內,促進可靠和可信的AI環境。
AI評估器持續監控LLM交互,以檢測未經授權的活動或異常,并標記超出其計劃范圍的AI代理操作案例,它們審核AI權限,以防止LLM對敏感系統擁有不當訪問權限,它們可以通過滲透測試和模擬提示注入攻擊來檢測和評估漏洞,使企業內的AI安全更加健壯。
提高訓練數據質量:任何LLM的行為都基于其訓練數據。企業必須專注于策劃多樣化、代表性和無偏見的的數據集。數據清洗、預處理和增強方法可以消除異常值、錯誤或不適當的信息,使模型能夠從正確和相關的信息中學習。
采用OWASP框架進行AI安全:隨著LLM在軟件開發中占據穩固地位,OWASP指南為企業提供了一種系統方法來通過消除漏洞、實施道德AI實踐和減輕過度自主性的風險來保護AI系統。
應用人在回路(Human-in-the-Loop)方法:人在回路控制對于控制LLM行為至關重要,它使監督、干預和道德決策成為可能,這是AI系統無法單獨實現的。在LLM執行之前,人類操作員審查并批準行動,特別是那些具有重大影響或涉及敏感信息或操作的行動。
避免智能體上下文協議的風險:企業必須使用最小權限上下文共享,將智能體權限限制在其功能所需范圍內。為了維護安全的供應鏈,企業必須確保其模型可以訪問的所有庫、API和第三方集成都是經過審查并定期打補丁的。實施嚴格的網絡訪問策略,確保只有受信任的實體才能訪問協議環境內的資產。
結論
自主LLM中過度自主性的出現呼吁采取安全措施和負責任的AI治理。不受控制的自主性構成了嚴重威脅,包括未經授權的數據訪問、權限提升、偏見結果和對抗性攻擊。
需要一種結構化的AI治理方法,以平衡自主LLM與人類干預之間的關系,確保基于LLM的解決方案能夠在不破壞網絡安全的情況下提升運營效率。