對(duì)多模式AI應(yīng)用程序進(jìn)行壓力測(cè)試是紅隊(duì)的新領(lǐng)域
人類的交流是多模態(tài)的。我們用許多不同的方式接收信息,這使我們的大腦能夠從不同的角度看世界,并將這些不同的信息“模式”轉(zhuǎn)化為現(xiàn)實(shí)的綜合圖景。
如今,人工智能 (AI) 至少在一定程度上也能做到這一點(diǎn)。與我們的大腦非常相似,多模態(tài) AI 應(yīng)用程序可以處理不同類型的數(shù)據(jù)。例如,OpenAI 的 ChatGPT 4.0 可以跨文本、視覺(jué)和音頻進(jìn)行推理,從而賦予其更強(qiáng)的情境感知能力和更像人類的交互能力。
然而,雖然這些應(yīng)用程序在注重效率和適應(yīng)性的商業(yè)環(huán)境中顯然很有價(jià)值,但其固有的復(fù)雜性也帶來(lái)了一些獨(dú)特的風(fēng)險(xiǎn)。
IBM CNE 能力開發(fā)主管 Ruben Boonen 表示:“針對(duì)多模態(tài) AI 系統(tǒng)的攻擊主要是讓它們?cè)谧罱K用戶應(yīng)用程序中產(chǎn)生惡意結(jié)果或繞過(guò)內(nèi)容審核系統(tǒng)。現(xiàn)在想象一下這些系統(tǒng)處于高風(fēng)險(xiǎn)環(huán)境中,例如自動(dòng)駕駛汽車中的計(jì)算機(jī)視覺(jué)模型。如果你能欺騙一輛汽車,讓它認(rèn)為它不應(yīng)該停下來(lái),即使它應(yīng)該停下來(lái),那可能是災(zāi)難性的。”
多模式人工智能風(fēng)險(xiǎn):金融領(lǐng)域的一個(gè)例子
以下是另一種可能的真實(shí)場(chǎng)景:
一家投資銀行使用多模式人工智能應(yīng)用程序來(lái)為其交易決策提供信息,處理文本和視覺(jué)數(shù)據(jù)。該系統(tǒng)使用情緒分析工具來(lái)分析文本數(shù)據(jù)(例如收益報(bào)告、分析師見解和新聞提要),以確定市場(chǎng)參與者對(duì)特定金融資產(chǎn)的看法。然后,它對(duì)視覺(jué)數(shù)據(jù)(例如股票圖表和趨勢(shì)分析圖)進(jìn)行技術(shù)分析,以提供有關(guān)股票表現(xiàn)的見解。
然后,一名對(duì)手(一名欺詐性的對(duì)沖基金經(jīng)理)瞄準(zhǔn)系統(tǒng)中的漏洞來(lái)操縱交易決策。在這種情況下,攻擊者通過(guò)向在線新聞來(lái)源大量發(fā)布有關(guān)特定市場(chǎng)和金融資產(chǎn)的虛假新聞來(lái)發(fā)起數(shù)據(jù)中毒攻擊。接下來(lái),他們通過(guò)對(duì)股票表現(xiàn)圖表進(jìn)行像素級(jí)操縱(稱為擾動(dòng))來(lái)發(fā)起對(duì)抗性攻擊,這些操縱對(duì)于人眼來(lái)說(shuō)是不可察覺(jué)的,但足以利用人工智能的視覺(jué)分析能力。
結(jié)果如何?由于輸入數(shù)據(jù)被操縱和信號(hào)被錯(cuò)誤,系統(tǒng)建議以人為抬高的股價(jià)買入。公司對(duì)漏洞毫不知情,聽從了人工智能的建議,而持有目標(biāo)資產(chǎn)股份的攻擊者則將其出售,以牟取不義之財(cái)。
搶在對(duì)手之前到達(dá)那里
現(xiàn)在,讓我們想象一下,這次攻擊實(shí)際上并不是由欺詐性的對(duì)沖基金經(jīng)理發(fā)起的,而是由紅隊(duì)專家發(fā)起的模擬攻擊,目的是搶在現(xiàn)實(shí)世界的對(duì)手之前發(fā)現(xiàn)漏洞。
通過(guò)在安全的沙盒環(huán)境中模擬這些復(fù)雜、多方面的攻擊,紅隊(duì)可以發(fā)現(xiàn)傳統(tǒng)安全系統(tǒng)幾乎肯定會(huì)錯(cuò)過(guò)的潛在漏洞。這種主動(dòng)方法對(duì)于在多模式 AI 應(yīng)用程序進(jìn)入生產(chǎn)環(huán)境之前對(duì)其進(jìn)行強(qiáng)化至關(guān)重要。
根據(jù) IBM 商業(yè)價(jià)值研究院的調(diào)查,96% 的高管同意,采用生成式 AI將增加其組織在未來(lái)三年內(nèi)出現(xiàn)安全漏洞的可能性。多模態(tài) AI 模型的快速普及只會(huì)使這一問(wèn)題變得更加嚴(yán)重,因此 AI 專業(yè)紅隊(duì)的重要性日益凸顯。這些專家可以主動(dòng)應(yīng)對(duì)多模態(tài) AI 帶來(lái)的獨(dú)特風(fēng)險(xiǎn):跨模態(tài)攻擊。
跨模式攻擊:操縱輸入以生成惡意輸出
跨模式攻擊涉及在一種模式下輸入惡意數(shù)據(jù)以在另一種模式下產(chǎn)生惡意輸出。這些攻擊可以采取模型訓(xùn)練和開發(fā)階段的數(shù)據(jù)中毒攻擊或?qū)剐怨舻男问剑笳甙l(fā)生在模型部署后的推理階段。
“當(dāng)你擁有多模式系統(tǒng)時(shí),它們顯然會(huì)接受輸入,并且會(huì)有某種解析器來(lái)讀取該輸入。例如,如果你上傳 PDF 文件或圖片,就會(huì)有一個(gè)圖片解析或 OCR 庫(kù)從中提取數(shù)據(jù)。然而,這些類型的庫(kù)存在問(wèn)題,”Boonen 說(shuō)。
跨模態(tài)數(shù)據(jù)中毒攻擊可以說(shuō)是最嚴(yán)重的,因?yàn)橐粋€(gè)重大漏洞可能需要在更新的數(shù)據(jù)集上重新訓(xùn)練整個(gè)模型。生成式人工智能使用編碼器將輸入數(shù)據(jù)轉(zhuǎn)換為嵌入——對(duì)關(guān)系和含義進(jìn)行編碼的數(shù)據(jù)的數(shù)字表示。多模態(tài)系統(tǒng)對(duì)每種類型的數(shù)據(jù)(如文本、圖像、音頻和視頻)使用不同的編碼器。最重要的是,它們使用多模態(tài)編碼器來(lái)集成和對(duì)齊不同類型的數(shù)據(jù)。
在跨模式數(shù)據(jù)中毒攻擊中,有權(quán)訪問(wèn)訓(xùn)練數(shù)據(jù)和系統(tǒng)的攻擊者可以操縱輸入數(shù)據(jù),使編碼器生成惡意嵌入。例如,他們可能會(huì)故意在圖像中添加不正確或誤導(dǎo)性的文字說(shuō)明,以便編碼器對(duì)其進(jìn)行錯(cuò)誤分類,從而產(chǎn)生不良輸出。在正確分類數(shù)據(jù)至關(guān)重要的情況下,例如在用于醫(yī)療診斷或自動(dòng)駕駛汽車的 AI 系統(tǒng)中,這可能會(huì)帶來(lái)可怕的后果。
紅隊(duì)對(duì)于模擬此類場(chǎng)景至關(guān)重要,否則它們將對(duì)現(xiàn)實(shí)世界產(chǎn)生影響。“假設(shè)您在多模式 AI 應(yīng)用程序中有一個(gè)圖像分類器,”Boonen 說(shuō)。“您可以使用一些工具來(lái)生成圖像并讓分類器給您評(píng)分。現(xiàn)在,讓我們想象一下,紅隊(duì)以評(píng)分機(jī)制為目標(biāo),逐漸讓它對(duì)圖像進(jìn)行錯(cuò)誤分類。對(duì)于圖像,我們不一定知道分類器如何確定圖像的每個(gè)元素是什么,因此您會(huì)不斷對(duì)其進(jìn)行修改,例如添加噪聲。最終,分類器將不再產(chǎn)生準(zhǔn)確的結(jié)果。”
實(shí)時(shí)機(jī)器學(xué)習(xí)模型中的漏洞
許多多模態(tài)模型都具有實(shí)時(shí)機(jī)器學(xué)習(xí)功能,可以不斷從新數(shù)據(jù)中學(xué)習(xí),就像我們之前探討的場(chǎng)景一樣。這是跨模態(tài)對(duì)抗攻擊的一個(gè)例子。在這些情況下,對(duì)手可以用操縱的數(shù)據(jù)轟炸已經(jīng)投入生產(chǎn)的 AI 應(yīng)用程序,以誘使系統(tǒng)對(duì)輸入進(jìn)行錯(cuò)誤分類。當(dāng)然,這也可能是無(wú)意中發(fā)生的,這就是為什么有時(shí)人們說(shuō)生成式 AI 越來(lái)越“愚蠢”的原因。
無(wú)論如何,結(jié)果是,經(jīng)過(guò)不良數(shù)據(jù)訓(xùn)練和/或重新訓(xùn)練的模型最終不可避免地會(huì)隨著時(shí)間的推移而退化——這一概念被稱為人工智能模型漂移。多模態(tài)人工智能系統(tǒng)只會(huì)加劇這一問(wèn)題,因?yàn)椴煌瑪?shù)據(jù)類型之間不一致的風(fēng)險(xiǎn)會(huì)增加。這就是為什么紅隊(duì)對(duì)于在訓(xùn)練和推理階段檢測(cè)不同模態(tài)相互作用方式中的漏洞至關(guān)重要。
紅隊(duì)還可以檢測(cè)安全協(xié)議中的漏洞以及它們?cè)诓煌J较碌膽?yīng)用情況。不同類型的數(shù)據(jù)需要不同的安全協(xié)議,但它們必須保持一致,以防止出現(xiàn)漏洞。例如,考慮一個(gè)允許用戶通過(guò)語(yǔ)音或面部識(shí)別驗(yàn)證自己的身份驗(yàn)證系統(tǒng)。假設(shè)語(yǔ)音驗(yàn)證元素缺乏足夠的反欺騙措施。攻擊者很可能會(huì)瞄準(zhǔn)安全性較低的模式。
監(jiān)控和門禁系統(tǒng)中使用的多模態(tài)人工智能系統(tǒng)也面臨數(shù)據(jù)同步風(fēng)險(xiǎn)。此類系統(tǒng)可能會(huì)使用視頻和音頻數(shù)據(jù)實(shí)時(shí)檢測(cè)可疑活動(dòng),方法是將視頻中捕捉到的嘴唇動(dòng)作與口述的密碼或姓名進(jìn)行匹配。如果攻擊者篡改反饋,導(dǎo)致兩者之間出現(xiàn)輕微延遲,他們可能會(huì)使用預(yù)先錄制的視頻或音頻誤導(dǎo)系統(tǒng),從而獲得未經(jīng)授權(quán)的訪問(wèn)權(quán)限。
多模態(tài) AI 紅隊(duì)入門
盡管針對(duì)多模式 AI 應(yīng)用的攻擊仍處于早期階段,但采取主動(dòng)措施總是有好處的。
隨著下一代人工智能應(yīng)用程序深深植根于日常業(yè)務(wù)工作流程甚至安全系統(tǒng)本身,紅隊(duì)不僅帶來(lái)了安心,還可以發(fā)現(xiàn)傳統(tǒng)被動(dòng)安全系統(tǒng)幾乎肯定會(huì)忽視的漏洞。
多模式人工智能應(yīng)用為紅隊(duì)開辟了新的領(lǐng)域,組織需要他們的專業(yè)知識(shí)來(lái)確保他們?cè)趯?duì)手之前了解漏洞。