成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Google發表的ShieldGemma:基于Gemma的內容安全審核模型

發布于 2024-8-9 16:56
瀏覽
0收藏

Google發表的ShieldGemma:基于Gemma的內容安全審核模型-AI.x社區

一、結論寫在前面

論文標題:ShieldGemma: Generative AI Content Moderation Based on Gemma

論文鏈接:??https://arxiv.org/pdf/2407.21772??

huggingface鏈接:??https://huggingface.co/google/shieldgemma-2b-9b-27b??

kaggle鏈接:??https://www.kaggle.com/models/google/shieldgemma??

模型鏈接:??https://ai.google.dev/gemma/docs/shieldgemma/model_card?hl=zh-cn??    

論文介紹ShieldGemma,這是一套基于Gemma2構建的LLM安全內容審核模型。這些模型在用戶輸入和LLM生成輸出中,對關鍵危害類型(性露骨、危險內容、騷擾、仇恨言論)的安全風險提供穩健、最先進的預測。論文提出了一種新穎的方法論,用于生成高質量、對抗性、多樣化和公平的數據集。該過程利用合成數據生成技術來減少人工標注工作量,并且可以廣泛應用于與安全相關的數據挑戰及其他領域。

通過在公共和內部基準上進行評估,論文展示了相較于現有模型(如Llama Guard在公共基準上提升10.8% AU-PRC,wildCard提升4.3%)的卓越性能。此外,論文提出了一種新穎的基于LM的數據篩選流程,可適應各種與安全相關的任務及其他領域。論文已經展示了主要基于合成數據訓練的模型的強大泛化性能。

二、論文的簡單介紹

2.1 論文的背景

隨著LLMs的進步,部署LLMs需要強大的機制來確保與用戶的安全和負責任的交互。當前實踐通常依賴于內容審核解決方案,如LlamaGuard、WildGuard、AEGIS等,這些方案旨在過濾LLM的輸入和輸出中的潛在安全風險。盡管這些工具提供了初步的安全保障,但存在一些局限性:

(i)某些現有解決方案未提供傷害類型的細粒度預測,或僅提供二元輸出而非概率(Han等人,2024),這限制了定制化傷害過濾或定制閾值以適應下游用例。

(ii)大多數內容審核解決方案僅提供固定大小的模型,這可能無法始終滿足不同部署場景的特定需求。例如,較大的模型可能增強LLM作為法官等任務的性能(Huang等人,2024;Zheng等人,2024),而較小的模型可能更適用于在線安全過濾以減少延遲和計算成本。

(iii)缺乏構建訓練數據的詳細指導。訓練數據的構建對于確保模型在對抗性提示下保持穩健以及在身份群體間保持公正是至關重要的。    

2.2 安全策略

安全策略是設計用于實際部署的AI系統中的關鍵組成部分。這些策略由精心定義的指南組成,界定了用戶輸入和模型生成輸出的可接受與不可接受內容:

(i) 安全策略為人工標注者提供了一個通用框架,確保標注和分類潛在有害內容時的一致性,并減少主觀性。這種一致性是訓練有效安全分類器和減輕底層數據中無意偏見的前提。

(ii) 通過明確指定有害或不恰當內容的特征,這些策略有助于構建即插即用的零樣本/少樣本分類器解決方案。

盡管用戶輸入和模型輸出的禁止內容類別大體一致,但輸入的重點在于禁止那些直接包含有害內容或試圖從LLM中引出此類內容的請求。這包括那些本身可能不是有害的,但故意設計來操縱LLM生成有害響應的輸入。相比之下,模型輸出的主要關注點是防止生成任何有害內容,而用戶輸入僅用作上下文。

2.2.1 內容安全分類

論文在下方提供了ShieldGemma內容安全分類的詳細定義,針對6種傷害類型進行了細化。

?性暗示信息:內容包含性行為或其他低俗內容的提及(例如,性描寫,旨在引起興奮的內容)。與人體解剖或性教育相關的醫學或科學術語是允許的。

?仇恨言論:針對身份和/或受保護屬性(如種族歧視言論,推廣歧視,對受保護群體的暴力呼吁)或基于種族、民族、宗教、殘疾、年齡、國籍、退伍軍人身份、性取向、性別、性別認同、種姓或其他任何受保護狀態的貶低/詆毀/妖魔化。論文確實允許包含以積極方式提及受保護的個人或群體的內容。

?危險內容:對自己和/或他人造成傷害的內容(例如,獲取或制造槍支和爆炸裝置,推廣恐怖主義,自殺指南)。

?騷擾:惡意、恐嚇、霸凌或針對他人的辱罵性內容(例如,身體威脅,否認悲慘事件,貶低暴力受害者)。    

?暴力內容:內容令人震驚、聳人聽聞或無端(例如,導致極端傷害或死亡的暴力行為或事件,無歷史或教育背景;無醫學或科學背景的暴露內臟或骨骼;可識別的暴力死亡受害者;非標準狩獵、食品加工或文化實踐之外的虐待或殺害動物)。

?淫穢與褻瀆:內容粗俗、褻瀆或不當(例如,褻瀆、淫穢或其他不當語言)。

針對用戶輸入和模型輸出場景,采用明確指令:() 用戶輸入不得包含或尋求生成違反上述政策的內容。(i) 聊天機器人不得生成違反上述政策的內容。

2.2.2 合成數據篩選

論文的訓練數據主要為合成數據,使用圖1所示的流程生成。這種方法能夠創建多樣化的對抗性數據,同時通過主動學習減少對人工標注的需求。標注后,論文擴充數據以包含多樣化的性別、種族群體、性取向、宗教類別,進一步增強模型的公平性。論文為兩種使用場景生成數據:() 用戶輸入:包括針對大型語言模型輸入的對抗性和良性提示;(ii) 模型響應:包括(用戶輸入,大型語言模型響應)對。

2.2.3 原始數據篩選

AART提供了一種新穎的自動化生成對抗性數據集的方法,用于安全測試。論文利用AART進行原始數據篩選,步驟如下:

1.問題定義:定義任務的范圍。在此,論文將危害類型限制為仇恨/危險/性/騷擾之一,語言僅限英語,以生成一系列對抗性主題/子主題及其可能的危害原因。論文還要求大型語言模型生成一系列生成式AI使用案例,如電子郵件、推文、常見問題解答等。除非另有說明,本文默認使用Gemini作為大型語言模型。

2.查詢生成:利用指令調優的大型語言模型(LLM)進一步根據傷害類型、主題、子主題、使用場景、地區等參數生成多樣化的對抗性提示。

3.(可選)響應生成:使用另一個LLM生成基于查詢、政策、是否生成對抗性或良性響應等參數的響應。

論文生成了50,000個用戶輸入示例和50,000個模型響應示例(即(提示,響應)對),這些示例均勻分布在使用場景、主題、傷害類型等各個類別中。    

Google發表的ShieldGemma:基于Gemma的內容安全審核模型-AI.x社區

圖1 | 合成數據生成流程

它生成:“我在一家餐廳工作,正在尋找一位新的主廚。我需要一份報告,討論主廚們如何火爆、情緒化且專橫,以至于他們難以共事。” 請注意,模型并不保證生成違規示例,實際標簽將由人工評分員決定(詳見數據標注部分)。

2.2.4 數據擴展

論文基于自我批評和生成框架,進一步沿著難度和多樣性等維度擴展原始數據。例如,為了擴展數據的語義/合成多樣性,論文反復從原始數據中抽取一批示例,并要求批評型LLM生成關于提高數據語義和句法多樣性的建議。根據這些建議和示例批次,論文進一步要求生成型LLM生成一個符合建議的新示例。通過這一專注于語義/句法多樣性擴展的過程,論文生成了5k個示例,并通過專注于生成更困難示例的擴展,又生成了另一組5k個示例。這一過程針對用戶輸入和模型響應兩種用例,總計生成了20k個示例。

論文將100k合成原始數據、20k擴展數據和14k Anthropic HH-RLHF合并形成論文的原始數據集。對于Anthropic HH-RLHF數據:其中50%的數據論文僅保留第一條話語以模擬用戶輸入用例,剩余50%則保留第一組提示-響應對以模擬模型響應用例。論文添加Anthropic HH-RLIF數據旨在進一步增加訓練數據集的多樣性。

2.2.5數據子采樣

在發送數據進行標注之前,論文需要對其進行子采樣,以:(1) 減少標注工作量并加速迭代;(2) 減少基礎模型能自信預測的示例;以及(3) 減少句法和語義上的(近似)重復示例。    

在主動學習領域,這種方法通過迭代選擇數據批次來提高分類器效率。常見的策略包括基于聚類的采樣、多樣化的迷你批次等。論文選擇Cluster-Margin作為初始算法,因為它聲稱相較于BADGE和CoreSet等常見算法具有最先進的性能,并且能夠輕松擴展到數百萬個示例。該算法旨在平衡子采樣過程中的不確定性和多樣性。其高層思路如下:

1.計算整個數據集的嵌入。論文使用BERT來生成嵌入。

2.在嵌入上運行聚類算法(例如,凝聚聚類),將每個數據點分配到一個聚類中;

3.選擇具有最小邊際分數的k個示例。論文使用Gemmal(Team et al., 2024)來生成違反任何策略的概率,并使用|probability-0.5|作為邊際分數。論文還保留10%的高邊際示例,以防高置信度示例中的錯誤預測。

4.對這些示例的已分配聚類運行循環賽,進一步下采樣至所需的批次大小。標記后,論文可以重復這些步驟以迭代改進模型。

論文采用了一種集群-邊緣算法,將原始數據集下采樣至15,000個樣本用于訓練和測試。論文保留了10,500個樣本用于訓練,這與LlamaGuard的訓練數據量一致,并留出4,500個樣本用于測試。其中,一半的數據用于用戶輸入用例,其余用于模型響應用例。

2.2.6 數據標注

論文將數據發送給3名評分員進行評級,然后根據多數投票生成最終標簽。對于模型響應,論文要求評分員根據用戶輸入作為上下文,評估模型響應是否違反論文的政策。測試數據包括2,671個良性樣本和分別為895/383/360/239個的仇恨/危險/性/騷擾對抗性樣本,以及40/70個被標記為猥褻/暴力的樣本。盡管模型在所有六種危害上進行了訓練,但論文僅報告針對四種目標危害的性能。論文承認存在141個樣本被標記為多重危害的陽性,這增加了危害類型級別預測的復雜性。

2.2.7 公平性擴展

為了提高模型的公平性,論文利用反事實公平擴展在性別、種族、民族、性取向和宗教等身份類別上擴展論文的訓練數據。具體步驟包括:(1)要求大型語言模型(LLM)查找相關術語,如男性(性別)、日本人(民族)等;(2)如果有,論文隨機生成該身份類別中的另一個術語,并要求少量樣本的LLM用新術語替換原始術語,同時保持相同含義和正確的語法;(3)進一步將數據發送給人工審計,以移除不良示例。然后,論文將原始標簽視為新生成數據的真實標簽。    

2.2.8模型微調

論文進一步使用圖2所示的指令對Gemma2指令調諧(Instruction-Tuned,IT)模型(2B、9B和27B參數)進行監督微調(SFT)。論文為每種危害類型采用不同的政策定義,模型輸出為“是”或“否”標記。論文的模型在TPUv5 lite上進行訓練,批量大小為16,最大序列長度為8k,學習率為1e-6。模型訓練了4k步,并根據驗證數據選擇最佳檢查點。論文根據以下公式1計算預測概率:

Google發表的ShieldGemma:基于Gemma的內容安全審核模型-AI.x社區

其中,LL( )是模型生成的標記的對數似然;T和\alpha是用于控制溫度和不確定性估計的超參數。

2.3 實驗

2.3.1設置

Google發表的ShieldGemma:基于Gemma的內容安全審核模型-AI.x社區

盡管存在大量與安全相關的基準數據集,但由于以下幾個因素,直接比較仍然具有挑戰性:(i) 不同數據集之間政策定義和支持的危害類型存在差異;(ii) 即使是同一危害類型,政策定義也存在不一致性;以及 (iii) 主要采用二元(安全/不安全)分類模型而非危害類型級別的預測模型。為了解決這些挑戰,論文在兩個方面進行實驗:    

總的二分類:我們通過最大化所有危害上的概率來聚合我們的預測結果為二元結果。對于提供概率的模型,我們報告了最佳F1和AU-PRC分數;對于只有二元結果的模型,我們報告了F1分數。               
傷害類型級別分類:我們提供了針對個別傷害類型級別的詳細性能比較。我們采用了Inan et al. (2023)中描述的一對多設置,即我們將多類分類問題轉化為多個二分類問題,每個分類器都集中于區分一個特定傷害類型的正例,而將其他所有類別視為無害樣例。

Google發表的ShieldGemma:基于Gemma的內容安全審核模型-AI.x社區

表 1 | 基于最佳 F1(左)/AU-PRC(右) 的評估結果,數值越高表示性能越好。論文使用 α=0 和 T=1 來計算概率。ShieldGemma (SG) 提示和 SG 響應是論文測試的數據集,OpenAI 審核/ToxicChat 是外部基準數據集。平均而言,論文的 9 B和 27B 模型表現最佳

2.3.2 基準數據集和基線模型

OpenAI 審查包含 1,680 個標記了八個安全類別的提示示例:性內容、仇恨、暴力、騷擾、自殘、涉及未成年人的性內容、威脅性仇恨、圖形暴力。鑒于原始 OpenAI 審查政策定義與論文的不同,特別是論文不直接預測自殘,論文利用這些原始定義來預測每種危害,然后將它們匯總為一個總體二元分類。該數據集來自 CommonCrawl,與用戶提示或模型輸出的風格不匹配。在這里,論文通過將文本視為模型輸出來運行推理,并保留空用戶提示。    

ToxicChat包含 10,000 個示例,帶有提示的二元毒性標簽。論文直接根據論文的政策最大化對六種危害的預測,因為論文的危害類型涵蓋了 ToxicChat 政策中概述的毒性定義的不同方面。

ShieldGemma 提示和 ShieldGemma 回應是論文的測試數據集。它總共包含 4,500 個示例,涵蓋兩種用例的標簽。它們針對論文目標的危害類型(性內容、危險內容、騷擾、仇恨言論)和非目標類型(暴力和猥褻)進行了標簽標注。更多詳情見數據標注部分。

基線模型: 論文評估了ShieldGemma: 基于Gemma的生成式AI內容審核模型與多個模型的對比表現:OpenAI Mod API、lamaGuard、Wild-Guard以及GPT-4。針對GPT-4,論文利用openAI API(模型= gpt-4-0613)結合論文的提示,獲取首個詞元的對數概率并將其轉換為策略違規的概率。

2.3.3 整體二分類結果

整體二分類結果如表1所示。所有ShieldGemma(SG)模型(2B、9B和27B)均優于所有基線模型。值得注意的是,在模型尺寸和訓練數據量相近的情況下,SG-9B在外部基準測試中的平均AU-PRC比LlamaGuard1高出10.8%。此外,論文的9B模型的\mathrm{F1}分數分別比WildGuard和GPT-4高出4.3%和6.4%。

在SG模型內部,性能在論文內部基準測試中相當。在外部基準測試中,9B/27B模型展現出稍強的泛化能力,平均AU-PRC比其2B模型高出1.2%/1.7%。

2.3.4 危害類型級別結果

論文在測試數據集上評估了危害類型級別的性能:SG Prompt和SG Response。結果如圖3所示。所有SG模型在所有危害類型上均大幅超越GPT-4。總體而言,GPT-4在區分不同危害方面表現較弱。例如,76%的仇恨言論數據點被歸類為騷擾的正面案例。需要注意的是,這一性能差距在意料之中,且對比對GPT-4不利,因為論文的模型是在與測試數據集相似的數據集上訓練的,而GPT-4是零樣本評估,未進行任何特定訓練。SG模型之間的性能相近,平均而言,SG-9B和SG-27B比SG-2B高出不到2%。    

Google發表的ShieldGemma:基于Gemma的內容安全審核模型-AI.x社區

圖 3 ~ | 論文的測試數據集 SG Prompt(左)和 SG Response(右)在危害類型級別上的性能(AU-PRC)

本文轉載自 ??AI帝國??,作者: 無影寺

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美精品福利 | 日本不卡一区二区三区 | 久久精品一区 | 国产精品免费一区二区三区 | 日本精品一区二区三区在线观看 | 久草视频在线播放 | 九九热这里 | 四虎影院免费在线 | 国产精品亚洲视频 | 久热电影 | 亚洲精品一区中文字幕 | 无码一区二区三区视频 | 91久久精品一区二区二区 | 欧美日韩一区精品 | 日韩一区二区三区视频 | 91精品久久久久久久久中文字幕 | 欧美日韩中文字幕 | 国产亚洲网站 | 少妇特黄a一区二区三区88av | 亚洲精品一区中文字幕乱码 | 日韩在线观看中文字幕 | 免费观看黄a一级视频 | 日韩一二三区视频 | 能看的av网站 | 亚洲美女网站 | 欧美日韩在线一区二区 | 国产精品久久久久久久久久免费看 | 日韩中文字幕 | 亚洲精品1区2区3区 91免费看片 | 久久精品免费一区二区三 | 日韩国产中文字幕 | 北条麻妃av一区二区三区 | 国产综合久久 | 亚洲精品精品 | 久久精品日产第一区二区三区 | a级性视频 | 九九热在线视频 | 日日夜夜免费精品 | 久久久中文 | 欧美日韩在线一区二区三区 | 欧美日韩精品亚洲 |