微軟發(fā)布PyRIT,用于識別生成式AI系統(tǒng)中的風(fēng)險
2月26日消息,據(jù)外媒報道,微軟發(fā)布了一個名為PyRIT的開放訪問自動化框架,用于主動識別生成式AI系統(tǒng)中的風(fēng)險。
微軟人工智能紅色團(tuán)隊負(fù)責(zé)人Ram?Shankar?Siva?Kumar表示,紅色團(tuán)隊工具旨在“使全球每個組織都能利用最新的人工智能進(jìn)步進(jìn)行負(fù)責(zé)任的創(chuàng)新”。
該公司表示,PyRIT可用于評估大型語言模型(LLM)端點對不同傷害類別的穩(wěn)健性,如捏造、濫用和禁止內(nèi)容。并且還能用于識別從惡意軟件生成到越獄的安全危害,以及身份盜竊等隱私危害。
PyRIT有五個接口:目標(biāo)、數(shù)據(jù)集、評分引擎、支持多種攻擊策略的能力,以及包含一個內(nèi)存組件,該組件可以采用JSON或數(shù)據(jù)庫的形式來存儲中間輸入和輸出交互。
評分引擎還提供了兩種不同的選項來對目標(biāo)人工智能系統(tǒng)的輸出進(jìn)行評分,允許Red?Team使用經(jīng)典的機(jī)器學(xué)習(xí)分類器或利用LLM端點進(jìn)行自我評估。
微軟表示:“目標(biāo)是讓研究人員能夠?qū)λ麄兊哪P秃驼麄€推理管道在不同傷害類別下的表現(xiàn)有一個基線,并能夠?qū)⒃摶€與他們模型的未來迭代進(jìn)行比較。”
“這使他們能夠獲得關(guān)于他們的模型目前運行情況的經(jīng)驗數(shù)據(jù),并根據(jù)未來的改進(jìn)檢測性能的任何下降。”換言之,該工具旨在通過生成提示來突出風(fēng)險“熱點”,這些提示可用于評估人工智能系統(tǒng)并標(biāo)記需要進(jìn)一步調(diào)查的領(lǐng)域。
微軟進(jìn)一步承認(rèn),Red?Team生成式AI系統(tǒng)需要同時探測安全性和負(fù)責(zé)任的人工智能風(fēng)險,這項工作更具概率性,同時也指出了生成式AI體系結(jié)構(gòu)的巨大差異。