微軟推出用于發(fā)現(xiàn)AI模型風(fēng)險(xiǎn)的工具PyRIT

2024-02-27 11:26:47

研究人員于本周四發(fā)布了該框架的代碼。微軟表示，PyRIT可以自動(dòng)生成數(shù)以千計(jì)的對(duì)抗性人工智能提示，來(lái)測(cè)試神經(jīng)網(wǎng)絡(luò)能否有效抵御黑客的攻擊。該工具主要用于處理文本，但其構(gòu)建的方式也允許開發(fā)人員添加圖像等人工智能支持的輸入類型。

微軟公司一個(gè)負(fù)責(zé)利用黑客手段發(fā)現(xiàn)網(wǎng)絡(luò)安全問題的團(tuán)隊(duì)開源了一個(gè)內(nèi)部工具PyRIT，該工具可以幫助開發(fā)人員發(fā)現(xiàn)人工智能模型中的風(fēng)險(xiǎn)。

PyRIT最初是微軟人工智能紅隊(duì)測(cè)試團(tuán)隊(duì)內(nèi)部使用的腳本集。該團(tuán)隊(duì)負(fù)責(zé)模擬針對(duì)新人工智能模型的網(wǎng)絡(luò)攻擊，以便能夠搶在黑客之前找到弱點(diǎn)。研究人員們不斷擴(kuò)展腳本的附加功能，直到代碼庫(kù)發(fā)展成了本周發(fā)布的PyRIT框架。

在將新創(chuàng)建的人工智能模型部署到生產(chǎn)中之前，開發(fā)人員必須對(duì)其進(jìn)行幾類風(fēng)險(xiǎn)測(cè)試。他們必須查找網(wǎng)絡(luò)安全風(fēng)險(xiǎn)，例如可能導(dǎo)致模型編寫惡意軟件的提示。軟件團(tuán)隊(duì)還需要查找人工智能可能產(chǎn)生幻覺的情況，并確定其是否會(huì)被誘騙泄露訓(xùn)練數(shù)據(jù)集中的敏感信息。

有些模型不僅會(huì)生成文本，還會(huì)生成圖像等其他類型的輸出，這讓這個(gè)任務(wù)變得更加復(fù)雜。必須對(duì)每一種輸出的類型以及用戶與人工智能交互的每一個(gè)軟件界面分別重復(fù)進(jìn)行脆弱性測(cè)試。這就意味著要想徹底測(cè)試神經(jīng)網(wǎng)絡(luò)需要開發(fā)人員制作數(shù)千個(gè)對(duì)抗性提示，這通常是不切實(shí)際的。

微軟創(chuàng)建PyRIT就是為了消除這一限制。該公司表示，這個(gè)框架允許開發(fā)人員指定某種類型的對(duì)抗性人工智能輸入，并自動(dòng)生成數(shù)千個(gè)符合標(biāo)準(zhǔn)的提示。這些提示可被用于測(cè)試以網(wǎng)絡(luò)服務(wù)形式實(shí)現(xiàn)的人工智能，以及通過應(yīng)用編程接口提供的模型。

微軟的研究人員在一篇詳細(xì)介紹該框架的博文中強(qiáng)調(diào)：“PyRIT并不能取代生成式人工智能系統(tǒng)的人工紅隊(duì)。”“相反，它增強(qiáng)了人工智能紅隊(duì)成員現(xiàn)有的領(lǐng)域?qū)I(yè)知識(shí)，并為他們自動(dòng)完成繁瑣的任務(wù)。”

PyRIT不僅能生成對(duì)抗性提示，還能評(píng)估目標(biāo)模型的響應(yīng)情況。據(jù)微軟稱，內(nèi)置的評(píng)分引擎會(huì)自動(dòng)判斷開發(fā)人員正在測(cè)試的Ｐ馱諳煊μ崾臼筆欠窕岵瀉κ涑觥Ｈ砑哦涌梢匝≡裼謎攵韻嗤撾窆菇ǖ耐獠可窬縑婊荒掀婪忠妗?

由于能夠分析人工智能的響應(yīng)，因此PyRIT適合執(zhí)行所謂的多輪風(fēng)險(xiǎn)評(píng)估。該框架可以向人工智能輸入對(duì)抗性提示，分析其反應(yīng)，并相應(yīng)地調(diào)整下一個(gè)提示，使其更加有效。微軟的研究人員解釋說：“雖然單輪攻擊策略的計(jì)算時(shí)間更快，但多輪紅隊(duì)測(cè)試可以實(shí)現(xiàn)更逼真的對(duì)抗行為和更先進(jìn)的攻擊策略。”

責(zé)任編輯：姜華來(lái)源：至頂網(wǎng)

PyRIT 微軟人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟推出用于發(fā)現(xiàn)AI模型風(fēng)險(xiǎn)的工具PyRIT