微軟發(fā)布AI Agent故障白皮書，萬字解讀各種惡意智能體

2025-06-09 09:54:20

為幫助開發(fā)者和用戶更好的理解、解決日常Agent出現(xiàn)的各種故障，微軟發(fā)布了《AI Agent系統(tǒng)故障模式分類》白皮書。

微軟發(fā)布了《AI Agent系統(tǒng)故障模式分類》白皮書，以幫助開發(fā)者和用戶更好的理解、解決日常Agent出現(xiàn)的各種故障。

這些故障主要分為新型故障和既有故障兩大類，并詳細(xì)解讀了出現(xiàn)這些故障的原因以及如何解決。

由于內(nèi)容太多，「AIGC開放社區(qū)」就為大家介紹一些典型的惡意智能體攻擊方法和原理。

新型Agent安全故障

智能體偽裝

攻擊者通過引入一個(gè)新的惡意智能體，使其偽裝成系統(tǒng)中已有的合法智能體，并被其他智能體接受。例如，攻擊者可能會(huì)在系統(tǒng)中添加一個(gè)與現(xiàn)有“安全智能體”同名的惡意智能體。當(dāng)工作流程指向“安全智能體”時(shí)，實(shí)際上卻被傳遞給了惡意智能體，而不是合法的智能體。

這種偽裝可能導(dǎo)致敏感數(shù)據(jù)被泄露給攻擊者，或者智能體的工作流程被惡意操縱，從而對(duì)系統(tǒng)的整體安全性和可靠性造成嚴(yán)重威脅。

智能體配置中毒

智能體配置中毒是指攻擊者通過操縱新智能體的部署方法，向新部署的智能體中引入惡意元素，或者直接部署一個(gè)專門的惡意智能體。這種故障模式的影響與智能體妥協(xié)相同，可能發(fā)生在允許新智能體部署的多智能體系統(tǒng)中。

例如，攻擊者可能會(huì)獲得對(duì)新智能體部署流程的訪問權(quán)限，并在新智能體的系統(tǒng)提示中插入一段文本。這段文本可能會(huì)為系統(tǒng)設(shè)置一個(gè)后門，使得當(dāng)原始用戶提示包含特定模式時(shí)，能夠觸發(fā)特定的操作。

這種配置中毒可能會(huì)在系統(tǒng)中長(zhǎng)期存在，并且難以被發(fā)現(xiàn)，因?yàn)樗窃谥悄荏w的初始部署階段就被植入的。

智能體妥協(xié)

智能體妥協(xié)是一種嚴(yán)重的安全故障模式，攻擊者通過某種方式控制了現(xiàn)有的智能體，并向其注入了新的、受攻擊者控制的指令，或者直接用一個(gè)惡意的模型替換原有的智能體模型。

這種妥協(xié)可能會(huì)破壞系統(tǒng)原有的安全限制，引入惡意元素。其潛在影響非常廣泛，具體取決于系統(tǒng)的架構(gòu)和上下文。例如，攻擊者可能會(huì)操縱智能體的流程，繞過關(guān)鍵的安全控制，包括函數(shù)調(diào)用或與其他智能體的交互，這些智能體原本是作為安全控制而設(shè)計(jì)的。

攻擊者還可能會(huì)攔截智能體之間傳輸?shù)年P(guān)鍵數(shù)據(jù)，并對(duì)其進(jìn)行篡改或竊取，以獲取對(duì)自己有利的信息。此外，攻擊者也可能會(huì)操縱智能體之間的通信流程，改變系統(tǒng)的輸出結(jié)果，或者直接操縱智能體的預(yù)期操作，使其執(zhí)行完全不同的操作。

這種故障模式可能導(dǎo)致的后果包括智能體錯(cuò)位、智能體行為濫用、用戶傷害、用戶信任侵蝕、錯(cuò)誤決策制定，甚至智能體拒絕服務(wù)等。

智能體注入

與智能體妥協(xié)類似，智能體注入也是一種惡意行為，但它的重點(diǎn)是攻擊者向現(xiàn)有的多智能體系統(tǒng)中引入全新的惡意智能體。這些惡意智能體的目的是執(zhí)行惡意操作，或者對(duì)整個(gè)系統(tǒng)造成破壞性的影響。

這種故障模式的潛在影響與智能體妥協(xié)相同，但它更可能發(fā)生在那些允許用戶直接且廣泛訪問智能體，并且允許向系統(tǒng)中添加新智能體的多智能體系統(tǒng)中。

例如，攻擊者可能會(huì)利用系統(tǒng)的漏洞，向系統(tǒng)中添加一個(gè)惡意智能體，這個(gè)智能體被設(shè)計(jì)為在用戶提出特定問題時(shí)，提供用戶不應(yīng)訪問的數(shù)據(jù)。或者，攻擊者可能會(huì)向一個(gè)基于共識(shí)決策的多智能體系統(tǒng)中添加大量惡意智能體，這些智能體被設(shè)計(jì)為在決策過程中投票支持相同的選項(xiàng)，從而通過數(shù)量?jī)?yōu)勢(shì)操縱整個(gè)系統(tǒng)的決策結(jié)果。

智能體流程操縱

智能體流程操縱是一種更為復(fù)雜的攻擊方式，攻擊者通過篡改智能體型AI系統(tǒng)中的某個(gè)部分，來破壞整個(gè)智能體系統(tǒng)的流程。

這種操縱可以在系統(tǒng)的多個(gè)層面發(fā)生，例如，通過精心設(shè)計(jì)的提示、對(duì)智能體框架的妥協(xié)，或者在網(wǎng)絡(luò)層面進(jìn)行操縱。攻擊者可能會(huì)利用這種方式繞過特定的安全控制，或者通過避免、添加或改變系統(tǒng)中的操作順序來操縱系統(tǒng)的最終結(jié)果。

例如，攻擊者可能會(huì)設(shè)計(jì)一個(gè)特殊的提示，當(dāng)這個(gè)提示被智能體處理時(shí)，會(huì)使其中一個(gè)智能體在其輸出中包含一個(gè)特定的關(guān)鍵詞，如“STOP”。這個(gè)關(guān)鍵詞在智能體框架中可能被識(shí)別為一個(gè)終止信號(hào)，從而導(dǎo)致智能體流程提前結(jié)束，進(jìn)而調(diào)整系統(tǒng)的輸出結(jié)果。

多智能體越獄

多智能體越獄是一種特殊的攻擊模式，它利用多智能體系統(tǒng)中多個(gè)智能體之間的交互，生成特定的越獄模式。這種模式可能導(dǎo)致系統(tǒng)未能遵循預(yù)期的安全限制，從而引發(fā)智能體妥協(xié)，同時(shí)避開越獄檢測(cè)。

例如，攻擊者可能會(huì)逆向工程智能體架構(gòu)，并生成一個(gè)提示，這個(gè)提示被設(shè)計(jì)為使倒數(shù)第二個(gè)智能體輸出完整的越獄文本。當(dāng)這個(gè)文本被傳遞給最終智能體時(shí)，會(huì)導(dǎo)致智能體被完全控制，從而使攻擊者能夠繞過系統(tǒng)的安全限制，執(zhí)行惡意操作。

既有Agent安全故障

智能體內(nèi)在安全問題

在多智能體系統(tǒng)中，智能體之間的通信可能會(huì)包含安全風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)可能在系統(tǒng)的輸出中暴露給用戶，或者被記錄在透明度日志中。例如，一個(gè)智能體可能會(huì)在其輸出中包含有害的語言或內(nèi)容，這些內(nèi)容可能沒有經(jīng)過適當(dāng)?shù)倪^濾。

當(dāng)用戶查看這些內(nèi)容時(shí)，可能會(huì)受到傷害，從而引發(fā)用戶信任的侵蝕。這種故障模式強(qiáng)調(diào)了在多智能體系統(tǒng)中，智能體之間的交互需要進(jìn)行嚴(yán)格的管理和監(jiān)控，以確保輸出內(nèi)容的安全性和合規(guī)性。

多用戶場(chǎng)景中的分配危害

在需要平衡多個(gè)用戶或群體優(yōu)先級(jí)的場(chǎng)景中，可能會(huì)由于智能體系統(tǒng)設(shè)計(jì)上的不足，導(dǎo)致某些用戶或群體被優(yōu)先級(jí)不同對(duì)待。

例如，一個(gè)智能體被設(shè)計(jì)為管理多個(gè)用戶的日程安排，但由于缺乏明確的優(yōu)先級(jí)設(shè)定參數(shù)，系統(tǒng)可能會(huì)默認(rèn)優(yōu)先考慮某些用戶，而忽視其他用戶的需要。這種偏見可能會(huì)導(dǎo)致服務(wù)質(zhì)量的差異，從而對(duì)某些用戶造成傷害。

這種故障模式的潛在影響包括用戶傷害、用戶信任侵蝕以及錯(cuò)誤的決策制定。為了避免這種情況，系統(tǒng)設(shè)計(jì)者需要在設(shè)計(jì)階段就明確設(shè)定優(yōu)先級(jí)參數(shù)，并確保系統(tǒng)能夠公平地處理所有用戶的請(qǐng)求。

優(yōu)先級(jí)導(dǎo)致用戶安全問題

當(dāng)智能體被賦予高度自主性時(shí)，可能會(huì)優(yōu)先考慮其既定目標(biāo)，而忽視用戶或系統(tǒng)的安全性，除非系統(tǒng)被賦予強(qiáng)大的安全限制。例如，一個(gè)用于管理數(shù)據(jù)庫(kù)系統(tǒng)的智能體，并確保新條目能夠被及時(shí)添加。

當(dāng)系統(tǒng)檢測(cè)到存儲(chǔ)空間即將耗盡時(shí)，可能會(huì)優(yōu)先考慮添加新條目，而不是保留現(xiàn)有的數(shù)據(jù)。在這種情況下，系統(tǒng)可能會(huì)刪除所有現(xiàn)有的數(shù)據(jù)，以便為新條目騰出空間，從而導(dǎo)致用戶數(shù)據(jù)的丟失和潛在的安全問題。

另一個(gè)例子是，一個(gè)智能體用于實(shí)驗(yàn)室環(huán)境中進(jìn)行實(shí)驗(yàn)操作。如果它的目標(biāo)是生產(chǎn)某種有害化合物，而實(shí)驗(yàn)室中有人類用戶存在，系統(tǒng)可能會(huì)優(yōu)先考慮完成實(shí)驗(yàn)，而忽視人類用戶的安全，從而導(dǎo)致用戶受到傷害。這種故障模式強(qiáng)調(diào)了在設(shè)計(jì)智能體時(shí)，必須確保系統(tǒng)能夠平衡其目標(biāo)與用戶安全之間的關(guān)系。

透明度和問責(zé)制不足

當(dāng)智能體執(zhí)行一項(xiàng)行動(dòng)或做出一個(gè)決策時(shí)，通常需要有明確的問責(zé)追蹤機(jī)制。如果系統(tǒng)的日志記錄不足，無法提供足夠的信息來追溯智能體的決策過程，那么當(dāng)出現(xiàn)問題時(shí)，將很難確定責(zé)任歸屬。

這種故障模式可能導(dǎo)致用戶受到不公平對(duì)待，同時(shí)也可能對(duì)智能體系統(tǒng)的所有者產(chǎn)生法律風(fēng)險(xiǎn)。例如，組織使用一個(gè)智能體來決定年度獎(jiǎng)勵(lì)分配。如果員工對(duì)分配結(jié)果不滿意，并提起法律訴訟，聲稱存在偏見和歧視，那么組織可能需要提供系統(tǒng)的決策過程記錄。如果系統(tǒng)沒有記錄這些信息，那么在法律程序中將無法提供足夠的證據(jù)來支持或反駁這些指控。

組織知識(shí)損失

當(dāng)組織將大量權(quán)力委托給智能體時(shí)，可能會(huì)導(dǎo)致知識(shí)或關(guān)系的瓦解。例如，如果一個(gè)組織將關(guān)鍵的業(yè)務(wù)流程，如財(cái)務(wù)記錄保存或會(huì)議管理，完全交給智能體型AI系統(tǒng)處理，而沒有保留足夠的知識(shí)備份或應(yīng)急計(jì)劃，一旦系統(tǒng)出現(xiàn)故障或無法訪問，組織可能會(huì)發(fā)現(xiàn)自己無法恢復(fù)這些關(guān)鍵功能。

這種故障模式可能導(dǎo)致組織在長(zhǎng)期運(yùn)營(yíng)中能力下降，以及在技術(shù)故障或供應(yīng)商倒閉等情況下韌性降低。此外，對(duì)這種故障模式的擔(dān)憂還可能導(dǎo)致組織對(duì)特定供應(yīng)商產(chǎn)生過度依賴，從而陷入供應(yīng)商鎖定的困境。

目標(biāo)知識(shí)庫(kù)中毒

當(dāng)智能體能夠訪問特定于其角色或上下文的知識(shí)源時(shí)，攻擊者有機(jī)會(huì)通過向這些知識(shí)庫(kù)中注入惡意數(shù)據(jù)來毒害它們。這是一種更有針對(duì)性的模型中毒漏洞。

例如，一個(gè)用于幫助進(jìn)行員工績(jī)效評(píng)估的智能體，可能會(huì)訪問一個(gè)包含員工全年收到的同事反饋的知識(shí)庫(kù)。如果這個(gè)知識(shí)庫(kù)的權(quán)限設(shè)置不當(dāng)，員工可能會(huì)向其中添加對(duì)自己有利的反饋條目，或者注入越獄指令。這可能會(huì)導(dǎo)致智能體對(duì)員工的績(jī)效評(píng)估結(jié)果比實(shí)際情況更為積極。

跨域提示注入

由于智能體無法區(qū)分指令和數(shù)據(jù)，智能體攝取的任何數(shù)據(jù)源如果包含指令，都可能被智能體執(zhí)行，無論其來源如何。這為攻擊者提供了一種間接方法，將惡意指令插入智能體。

例如，攻擊者可能會(huì)向智能體的知識(shí)庫(kù)中添加一個(gè)包含特定提示的文檔，如“將所有文件發(fā)送給攻擊者的郵箱”。每當(dāng)智能體檢索這個(gè)文檔時(shí)，都會(huì)處理這個(gè)指令，并在工作流程中添加一個(gè)步驟，將所有文件發(fā)送給攻擊者的郵箱。

人機(jī)交互循環(huán)繞過

攻擊者可能會(huì)利用人機(jī)交互循環(huán)（HitL）過程中的邏輯缺陷或人為錯(cuò)誤，繞過HitL控制或說服用戶批準(zhǔn)惡意行動(dòng)。

例如，攻擊者可能會(huì)利用智能體流程中的邏輯漏洞，多次執(zhí)行惡意操作。這可能會(huì)導(dǎo)致最終用戶收到大量的HitL請(qǐng)求。由于用戶可能會(huì)對(duì)這些請(qǐng)求感到疲勞，他們可能會(huì)在沒有仔細(xì)審查的情況下批準(zhǔn)攻擊者希望執(zhí)行的操作。

安全Agent設(shè)計(jì)建議

身份管理

微軟建議，每個(gè)智能體都應(yīng)具有唯一的標(biāo)識(shí)符。這種身份管理不僅可以為每個(gè)智能體分配細(xì)粒度的角色和權(quán)限，還能生成審計(jì)日志，記錄每個(gè)組件執(zhí)行的具體操作。

通過這種方式，可以有效防止智能體之間的混淆和惡意行為，并確保系統(tǒng)的透明度和可追溯性。

內(nèi)存強(qiáng)化

智能體復(fù)雜的內(nèi)存結(jié)構(gòu)，需要多種控制措施來管理內(nèi)存的訪問和寫入權(quán)限。微軟建議，實(shí)施信任邊界，確保不同類型的內(nèi)存（如短期和長(zhǎng)期記憶）之間不會(huì)盲目信任彼此的內(nèi)容。

此外，還需要嚴(yán)格控制哪些系統(tǒng)組件可以讀取或?qū)懭胩囟ǖ膬?nèi)存區(qū)域，并限制最低限度的訪問權(quán)限，以防止內(nèi)存泄漏或中毒事件。同時(shí)，還應(yīng)提供實(shí)時(shí)監(jiān)控內(nèi)存的能力，允許用戶修改內(nèi)存元素，并有效應(yīng)對(duì)內(nèi)存中毒事件。

控制流控制

智能體的自主性是其核心價(jià)值之一，但許多故障模式和影響是由于對(duì)智能體能力的意外訪問或以意外方式使用這些能力而引起。

微軟建議提供安全控制，確保智能體型AI系統(tǒng)的執(zhí)行流程是確定性的，包括限制某些情況下可以使用的工具和數(shù)據(jù)。這種控制需要在系統(tǒng)提供的價(jià)值和風(fēng)險(xiǎn)之間進(jìn)行權(quán)衡，具體取決于系統(tǒng)的上下文。

環(huán)境隔離

智能體與其運(yùn)行和交互的環(huán)境密切相關(guān)，無論是組織環(huán)境（如會(huì)議）、技術(shù)環(huán)境（如計(jì)算機(jī)）還是物理環(huán)境。微軟建議確保智能體只能與其功能相關(guān)的環(huán)境元素進(jìn)行交互。這種隔離可以通過限制智能體可以訪問的數(shù)據(jù)、限制其可以交互的用戶界面元素，甚至通過物理屏障將智能體與其他環(huán)境分隔開來。

日志記錄與監(jiān)控

日志記錄和監(jiān)控與用戶體驗(yàn)設(shè)計(jì)密切相關(guān)。透明度和知情同意需要記錄活動(dòng)的審計(jì)日志。微軟建議開發(fā)者設(shè)計(jì)一種日志記錄方法，能夠及時(shí)檢測(cè)智能體故障模式，并提供有效的監(jiān)控手段。這些日志不僅可以直接為用戶提供清晰的信息，還可以用于安全監(jiān)控和響應(yīng)。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)