微軟推出用于發(fā)現(xiàn)AI模型風(fēng)險(xiǎn)的工具PyRIT
微軟公司一個(gè)負(fù)責(zé)利用黑客手段發(fā)現(xiàn)網(wǎng)絡(luò)安全問題的團(tuán)隊(duì)開源了一個(gè)內(nèi)部工具PyRIT,該工具可以幫助開發(fā)人員發(fā)現(xiàn)人工智能模型中的風(fēng)險(xiǎn)。
研究人員于本周四發(fā)布了該框架的代碼。微軟表示,PyRIT可以自動(dòng)生成數(shù)以千計(jì)的對(duì)抗性人工智能提示,來(lái)測(cè)試神經(jīng)網(wǎng)絡(luò)能否有效抵御黑客的攻擊。該工具主要用于處理文本,但其構(gòu)建的方式也允許開發(fā)人員添加圖像等人工智能支持的輸入類型。
PyRIT最初是微軟人工智能紅隊(duì)測(cè)試團(tuán)隊(duì)內(nèi)部使用的腳本集。該團(tuán)隊(duì)負(fù)責(zé)模擬針對(duì)新人工智能模型的網(wǎng)絡(luò)攻擊,以便能夠搶在黑客之前找到弱點(diǎn)。研究人員們不斷擴(kuò)展腳本的附加功能,直到代碼庫(kù)發(fā)展成了本周發(fā)布的PyRIT框架。
在將新創(chuàng)建的人工智能模型部署到生產(chǎn)中之前,開發(fā)人員必須對(duì)其進(jìn)行幾類風(fēng)險(xiǎn)測(cè)試。他們必須查找網(wǎng)絡(luò)安全風(fēng)險(xiǎn),例如可能導(dǎo)致模型編寫惡意軟件的提示。軟件團(tuán)隊(duì)還需要查找人工智能可能產(chǎn)生幻覺的情況,并確定其是否會(huì)被誘騙泄露訓(xùn)練數(shù)據(jù)集中的敏感信息。
有些模型不僅會(huì)生成文本,還會(huì)生成圖像等其他類型的輸出,這讓這個(gè)任務(wù)變得更加復(fù)雜。必須對(duì)每一種輸出的類型以及用戶與人工智能交互的每一個(gè)軟件界面分別重復(fù)進(jìn)行脆弱性測(cè)試。這就意味著要想徹底測(cè)試神經(jīng)網(wǎng)絡(luò)需要開發(fā)人員制作數(shù)千個(gè)對(duì)抗性提示,這通常是不切實(shí)際的。
微軟創(chuàng)建PyRIT就是為了消除這一限制。該公司表示,這個(gè)框架允許開發(fā)人員指定某種類型的對(duì)抗性人工智能輸入,并自動(dòng)生成數(shù)千個(gè)符合標(biāo)準(zhǔn)的提示。這些提示可被用于測(cè)試以網(wǎng)絡(luò)服務(wù)形式實(shí)現(xiàn)的人工智能,以及通過應(yīng)用編程接口提供的模型。
微軟的研究人員在一篇詳細(xì)介紹該框架的博文中強(qiáng)調(diào):“PyRIT并不能取代生成式人工智能系統(tǒng)的人工紅隊(duì)。”“相反,它增強(qiáng)了人工智能紅隊(duì)成員現(xiàn)有的領(lǐng)域?qū)I(yè)知識(shí),并為他們自動(dòng)完成繁瑣的任務(wù)。”
PyRIT不僅能生成對(duì)抗性提示,還能評(píng)估目標(biāo)模型的響應(yīng)情況。據(jù)微軟稱,內(nèi)置的評(píng)分引擎會(huì)自動(dòng)判斷開發(fā)人員正在測(cè)試的P馱諳煊μ崾臼筆欠窕岵瀉κ涑觥H砑哦涌梢匝≡裼謎攵韻嗤撾窆菇ǖ耐獠可窬縑婊荒掀婪忠妗?
由于能夠分析人工智能的響應(yīng),因此PyRIT適合執(zhí)行所謂的多輪風(fēng)險(xiǎn)評(píng)估。該框架可以向人工智能輸入對(duì)抗性提示,分析其反應(yīng),并相應(yīng)地調(diào)整下一個(gè)提示,使其更加有效。微軟的研究人員解釋說:“雖然單輪攻擊策略的計(jì)算時(shí)間更快,但多輪紅隊(duì)測(cè)試可以實(shí)現(xiàn)更逼真的對(duì)抗行為和更先進(jìn)的攻擊策略。”