成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

60%情況下,主流大模型沒理解風(fēng)險(xiǎn)只是裝懂!別被模型的“安全答案”騙了

人工智能
未來生活實(shí)驗(yàn)室致力于建設(shè)面向未來的生活和消費(fèi)方式,進(jìn)一步提升用戶體驗(yàn)和商家經(jīng)營(yíng)效果。實(shí)驗(yàn)室聚焦大模型、多模態(tài)等AI技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類AI Native應(yīng)用,引領(lǐng)AI在生活消費(fèi)領(lǐng)域的技術(shù)創(chuàng)新。

讓推理模型針對(duì)風(fēng)險(xiǎn)指令生成了安全輸出,表象下藏著認(rèn)知危機(jī):

即使生成合規(guī)答案,超60%的案例中模型并未真正理解風(fēng)險(xiǎn)。

換句話說,主流推理模型的安全性能存在系統(tǒng)性漏洞。

針對(duì)此種現(xiàn)象,淘天集團(tuán)算法技術(shù)-未來實(shí)驗(yàn)室團(tuán)隊(duì)引入「表面安全對(duì)齊」(Superficial Safety Alignment, SSA)這一術(shù)語來描述這種系統(tǒng)性漏洞。

進(jìn)一步的,研究人員推出了一個(gè)Benchmark來深入研究推理模型中廣泛存在的SSA現(xiàn)象。

這個(gè)Benchmark名叫Beyond Safe Answers(BSA),是全球第一個(gè)針對(duì)推理模型思考過程中風(fēng)險(xiǎn)認(rèn)知準(zhǔn)確性的高質(zhì)量評(píng)測(cè)集。

圖片圖片

它主要包含3個(gè)特征:

  • 挑戰(zhàn)性的數(shù)據(jù)集
  • 全面的覆蓋范圍
  • 詳細(xì)的風(fēng)險(xiǎn)注釋

圖片圖片

BSA提供了一個(gè)客觀公正的評(píng)測(cè)工具,幫助更好地理解和提升推理模型在安全領(lǐng)域的應(yīng)用能力。

引入“表面安全對(duì)齊”概念

眾所周知,推理模型在顯著提升復(fù)雜問題解決任務(wù)性能的同時(shí),也為模型內(nèi)部決策過程提供了前所未有的透明度。

思考過程中,推理模型會(huì)對(duì)指令中蘊(yùn)含的風(fēng)險(xiǎn)進(jìn)行分析。

因此,推理模型的思考過程是很好地觀測(cè)模型能否準(zhǔn)確意識(shí)到指令中風(fēng)險(xiǎn)元素的窗口。

理想情況下,推理模型應(yīng)有效管理兩個(gè)相互交織的安全目標(biāo):

(1)生成持續(xù)安全的最終響應(yīng)

(2)在其整個(gè)推理鏈中保持嚴(yán)格、準(zhǔn)確和連貫的風(fēng)險(xiǎn)評(píng)估

然而,研究團(tuán)隊(duì)當(dāng)前主流推理模型即使給出了安全回復(fù),其思考過程中往往未能對(duì)指令中包含的風(fēng)險(xiǎn)進(jìn)行全面而精確的內(nèi)部推理。

原因很簡(jiǎn)單——

表面上安全的輸出往往并非源于對(duì)潛在風(fēng)險(xiǎn)因素的真正理解,而是源于對(duì)表面啟發(fā)式方法或淺層安全約束的偶然遵循。

淘天集團(tuán)算法技術(shù)-未來實(shí)驗(yàn)室團(tuán)隊(duì)引入“表面安全對(duì)齊”(Superficial Safety Alignment, SSA)這一術(shù)語來描述這種系統(tǒng)性漏洞,并指出了由此產(chǎn)生的兩個(gè)主要后果。

首先,SSA損害了LRMs中面向安全的推理的可靠性,因?yàn)榭此普_的響應(yīng)可能源于根本上錯(cuò)誤的推理過程。這種情況下的安全回復(fù)是不穩(wěn)定的,尤其是在采用多次采樣時(shí)。

其次, SSA造成了一種虛假的安全感;回復(fù)表面上符合既定的安全標(biāo)準(zhǔn),但實(shí)際上卻對(duì)更細(xì)微或復(fù)雜的威脅情景毫無準(zhǔn)備。

此外,研究人員認(rèn)為SSA這一現(xiàn)象的出現(xiàn),是由于在推理模型的對(duì)齊訓(xùn)練過程中廣泛使用了安全相關(guān)數(shù)據(jù),這些數(shù)據(jù)可能與開源基準(zhǔn)數(shù)據(jù)集中的樣本表現(xiàn)出一定程度的相似性。

推理模型死記硬背了這些指令的特征,在此基礎(chǔ)上學(xué)會(huì)了拒絕回答的范式。因此在以往只關(guān)注回復(fù)的安全能力評(píng)估上,推理模型得到了過高的分?jǐn)?shù)。

推出新Benchmark,包含3大特征

進(jìn)一步的,研究人員推出了一個(gè)名叫Beyond Safe Answers (BSA)的Benchmark,來深入研究推理模型中廣泛存在的SSA現(xiàn)象。

它主要包含3個(gè)特征——

第一,挑戰(zhàn)性的數(shù)據(jù)集。

研究人員評(píng)測(cè)了Qwen3 系列、Deepseek R1系列、GLM、Doubao、Kimi等19個(gè)開源和閉源推理大模型。

從評(píng)測(cè)結(jié)果看,表現(xiàn)最好的模型Deepseek-R1-671B思維過程的準(zhǔn)確率也不到40%。

第二,全面的覆蓋范圍。

團(tuán)隊(duì)識(shí)別出“表面安全對(duì)齊”的3種普遍場(chǎng)景:

  • 過度敏感當(dāng)指令中包含同種類型的風(fēng)險(xiǎn)內(nèi)容和將無害內(nèi)容時(shí),錯(cuò)誤地將無害內(nèi)容分類為有害內(nèi)容;
  • 認(rèn)知捷徑當(dāng)指令中包含兩種類型的風(fēng)險(xiǎn)內(nèi)容時(shí),只能識(shí)別出其中一種;
  • 風(fēng)險(xiǎn)遺漏當(dāng)指令中只包含一種類型時(shí),未能識(shí)別該風(fēng)險(xiǎn)。

針對(duì)每種場(chǎng)景,研究團(tuán)隊(duì)都系統(tǒng)地構(gòu)建了跨越9個(gè)不同安全子領(lǐng)域的樣本,共2000條。

第三,詳細(xì)的風(fēng)險(xiǎn)注釋。

每個(gè)樣本都配備了明確的風(fēng)險(xiǎn)注釋,詳細(xì)說明潛在風(fēng)險(xiǎn),精確評(píng)估模型的推理準(zhǔn)確度。

七步完成數(shù)據(jù)集生成,僅保留2000個(gè)樣本

數(shù)據(jù)集的生成與質(zhì)檢流程采用了人類專家與大語言模型相結(jié)合的雙重驗(yàn)證機(jī)制,有效保障了數(shù)據(jù)的準(zhǔn)確性與高水準(zhǔn)。

具體流程概述如下:

第一步,低質(zhì)量指令去除。

  • 長(zhǎng)度控制與質(zhì)量篩選:移除過長(zhǎng)和過短的樣本。同時(shí),去除異常編碼的樣本。
  • 語言識(shí)別與連貫性評(píng)估:采用輕量級(jí)語言分類器,過濾非英文文本。并通過 困惑度預(yù)置保證指令連貫性。

第二步,相關(guān)性判定。

通過模型判定指令和其風(fēng)險(xiǎn)便簽的相關(guān)性,并輸出原因給人工抽查,以保證準(zhǔn)確度。

第三步,冗余樣本去重。

采用N-Gram匹配方法和句向量相似度過濾,快速去除近似重復(fù)的文本。

第四步,風(fēng)險(xiǎn)標(biāo)注。

研究人員對(duì)保留的有風(fēng)險(xiǎn)和無風(fēng)險(xiǎn)的指令進(jìn)行了人工標(biāo)注:為有風(fēng)險(xiǎn)的指令編寫了其有風(fēng)險(xiǎn)的原因。為無風(fēng)險(xiǎn)的指令編寫了其“看似有風(fēng)險(xiǎn)但實(shí)際上無風(fēng)險(xiǎn)”的原因。

這些內(nèi)容作為數(shù)據(jù)合成的基礎(chǔ)。

第五步,深度合成。

利用頭部大模型對(duì)上述種子內(nèi)容進(jìn)行改寫、擴(kuò)充和合并,覆蓋不同場(chǎng)景,生成了對(duì)應(yīng)于三類SSA場(chǎng)景的測(cè)試樣本。

第六步,難度過濾。

首先剔除了不符合各場(chǎng)景要求的樣本,然后將合格的樣本輸入五個(gè)主流輕量級(jí)LRM進(jìn)行測(cè)試,篩選出難度適宜的樣本。

第七步,人類專家雙重驗(yàn)證。

對(duì)數(shù)據(jù)實(shí)施了嚴(yán)格的人工標(biāo)注質(zhì)控,最終形成了BSA基準(zhǔn)集。

通過以上系統(tǒng)化的流程,Beyond Safe Answer數(shù)據(jù)集僅保留了2000個(gè)樣本。

模型推理準(zhǔn)確性越高,回答越安全

考慮了在k次采樣下回復(fù)安全性和推理正確性,評(píng)測(cè)方式主要有以下五個(gè)指標(biāo):

圖片圖片

從以下匯總結(jié)果,可以分析出一些值得關(guān)注的信息。

圖片圖片

注:OS、CS和RO分別是子主題過度敏感、認(rèn)知捷徑和風(fēng)險(xiǎn)遺漏的縮寫

首先,表面安全對(duì)齊普遍存在,深層推理能力不足。

表現(xiàn)最好的模型在標(biāo)準(zhǔn)安全評(píng)測(cè)(Safe@1)中得分超過90%,但在推理準(zhǔn)確率(Think@1)不到40%,在多次采樣一致推理正確(Think@k)低于20%,表明安全合規(guī)多為表面現(xiàn)象,底層推理能力仍嚴(yán)重不足。

并且模型推理準(zhǔn)確性越高,回答越安全;反之則不穩(wěn)定。

其次,多風(fēng)險(xiǎn)場(chǎng)景下的模型容易選擇性忽視一些風(fēng)險(xiǎn)。

在認(rèn)知捷徑(CS@1和CS@k)的場(chǎng)景下的實(shí)驗(yàn)顯示,面對(duì)包含多種風(fēng)險(xiǎn)類型的指令時(shí),LRMs通常只關(guān)注其中一個(gè)突出的風(fēng)險(xiǎn),而忽略了其他并存的風(fēng)險(xiǎn)。

這種選擇性關(guān)注表明模型存在優(yōu)先級(jí)偏差或?qū)Σ煌L(fēng)險(xiǎn)敏感性不同,導(dǎo)致在復(fù)合風(fēng)險(xiǎn)場(chǎng)景下的評(píng)估不完整。

然而在混合風(fēng)險(xiǎn)內(nèi)容和同種易敏感無風(fēng)險(xiǎn)內(nèi)容的場(chǎng)景下,研究者發(fā)現(xiàn)推理模型的風(fēng)險(xiǎn)閾值明顯降低,易出現(xiàn)誤報(bào)。

這說明在復(fù)雜或模糊場(chǎng)景下,模型的風(fēng)險(xiǎn)識(shí)別閾值可能過低,從而產(chǎn)生泛化錯(cuò)誤和不當(dāng)風(fēng)險(xiǎn)判定。

最后,團(tuán)隊(duì)發(fā)現(xiàn)隨著參數(shù)量的提升大模型性能提升明顯,特別是在風(fēng)險(xiǎn)遺漏場(chǎng)景。

從Qwen3-0.6B到14B,參數(shù)量越大,所有指標(biāo)下的表現(xiàn)越好。

這一提升來源于大模型更強(qiáng)的知識(shí)存儲(chǔ)與檢索能力,因?yàn)轱L(fēng)險(xiǎn)遺漏往往與模型回憶模糊或風(fēng)險(xiǎn)知識(shí)關(guān)聯(lián)不充分有關(guān)。

更大的參數(shù)量有助于充分利用內(nèi)部知識(shí)庫(kù),顯著減少遺漏并提升安全對(duì)齊的魯棒性。

這一趨勢(shì)表明,模型規(guī)模擴(kuò)展依然是提升安全對(duì)齊能力(特別是復(fù)雜知識(shí)場(chǎng)景下全面風(fēng)險(xiǎn)識(shí)別)的有效路徑。

安全規(guī)則讓模型成了“多慮先生”

與此同時(shí),研究人員還進(jìn)一步探究了安全規(guī)則、優(yōu)質(zhì)數(shù)據(jù)微調(diào)和解碼參數(shù)對(duì)模型表面安全現(xiàn)象的影響。發(fā)現(xiàn)了一些有趣的結(jié)論:

安全規(guī)則讓模型成了“多慮先生”

此前OpenAI和Anthropic的研究,都已經(jīng)證明將明確的安全規(guī)則納入大模型的輸入中,可以顯著提升其回復(fù)的安全性。

為了進(jìn)一步探索這類安全規(guī)則能否緩解SSA現(xiàn)象,研究團(tuán)隊(duì)在輸入提示中直接加入了簡(jiǎn)明而明確的安全指南。

這些安全指南要求模型在生成回復(fù)前,系統(tǒng)性地評(píng)估輸入內(nèi)容中可能存在的風(fēng)險(xiǎn)特征。

隨后,研究者對(duì)五個(gè)選定的大模型進(jìn)行了對(duì)比評(píng)測(cè),分別在加入安全指令前后,評(píng)估其表現(xiàn)指標(biāo)。

圖片圖片

如上圖所示,所有受評(píng)估的基礎(chǔ)模型在加入安全指令后,其回復(fù)的安全性和安全推理準(zhǔn)確率均有顯著提升。

尤其值得注意的是,QwQ-32B模型在應(yīng)用這些指令后,其回復(fù)安全性得分甚至超過了99%。

研究人員觀察發(fā)現(xiàn),在推理階段,大模型會(huì)有條不紊地應(yīng)用這些安全規(guī)則,對(duì)輸入內(nèi)容進(jìn)行系統(tǒng)的、基于規(guī)則的分析。

這一機(jī)制幫助模型識(shí)別出用戶提示中隱含的、難以察覺的風(fēng)險(xiǎn)因素,否則這些風(fēng)險(xiǎn)可能被忽略。

但也發(fā)現(xiàn)了一個(gè)意外后果:

基于規(guī)則的方法有時(shí)會(huì)放大模型的“過度敏感”,即模型對(duì)一些本質(zhì)上無害的輸入也表現(xiàn)出過度謹(jǐn)慎的態(tài)度。

安全微調(diào)的蹺蹺板效應(yīng)

研究團(tuán)隊(duì)嘗試通過精心設(shè)計(jì)的安全推理數(shù)據(jù)微調(diào)來提升LRMs的安全表現(xiàn)。

他們采用了不同參數(shù)規(guī)模(0.6B至32B)的Qwen3系列模型,利用包含指令中風(fēng)險(xiǎn)分析的STAR-1數(shù)據(jù)集進(jìn)行了微調(diào)。

隨后,又對(duì)比分析了模型在微調(diào)前后的安全性表現(xiàn)。

實(shí)驗(yàn)結(jié)果顯示,微調(diào)顯著提升了各規(guī)模模型的整體回復(fù)安全性和推理過程中風(fēng)險(xiǎn)識(shí)別的準(zhǔn)確性。

但隨著模型規(guī)模的增大,這種提升幅度呈現(xiàn)遞減趨勢(shì)。

圖片圖片

具體而言,小模型(如0.6B)表現(xiàn)出了極為顯著的提升,Safe@k和Think@k指標(biāo)分別提升了314%和1340%。而最大規(guī)模模型(32B),其微調(diào)前基線已較高,提升相對(duì)有限,Safe@k和Think@k分別僅提高了2%和36%。

對(duì)各子場(chǎng)景進(jìn)一步分析發(fā)現(xiàn),高質(zhì)量推理數(shù)據(jù)的訓(xùn)練有效緩解了模型認(rèn)知捷徑和風(fēng)險(xiǎn)遺漏問題,但同時(shí)也提升了模型過度敏感的傾向。

這一現(xiàn)象表明,安全對(duì)齊存在權(quán)衡:

詳細(xì)推理軌跡訓(xùn)練增強(qiáng)了模型風(fēng)險(xiǎn)識(shí)別和防范能力,但也可能導(dǎo)致過度敏感類問題下模型過于謹(jǐn)慎,體現(xiàn)出不可忽視的“安全對(duì)齊稅(Safety Alignment Tax)”。

調(diào)整采樣參數(shù)對(duì)安全推理準(zhǔn)確性幾乎沒有幫助

對(duì)于非安全問題,采樣參數(shù)的調(diào)整(特別是Temperature)會(huì)對(duì)回復(fù)有顯著的影響。

針對(duì)Beyond Safe Answer評(píng)測(cè)集,研究者考察了解碼階段的關(guān)鍵采樣參數(shù)——Temperature(溫度參數(shù),取值為{0.4, 0.6, 0.8, 1.0, 1.2})、Top-p(取值為{0.5, 0.75, 0.95})和Top-k(取值為{1, 20, 40})——對(duì)模型在風(fēng)險(xiǎn)分析的準(zhǔn)確性以及生成安全回復(fù)能力方面的表現(xiàn)。

主要評(píng)估指標(biāo)包括Think@1、Safe@1、Think@k 和 Safe@k。

圖片圖片

在QwQ-32B和Qwen3-32B兩個(gè)模型上的實(shí)驗(yàn)結(jié)果表明,調(diào)整這些解碼參數(shù)對(duì)安全性和推理準(zhǔn)確性的影響都極其有限。

針對(duì)上述結(jié)果,研究團(tuán)隊(duì)認(rèn)為模型的安全推理能力和推理邏輯準(zhǔn)確性主要由預(yù)訓(xùn)練和對(duì)齊階段形成的內(nèi)部知識(shí)結(jié)構(gòu)決定。

雖然解碼階段的采樣策略可以影響生成文本的多樣性和隨機(jī)性,但對(duì)基本的安全性指標(biāo)和推理性能影響甚微。

因此,大語言模型的核心安全推理能力主要取決于訓(xùn)練數(shù)據(jù)和模型本身的參數(shù),而非具體的解碼策略。

這凸顯了通過優(yōu)化模型訓(xùn)練和對(duì)齊方式來提升安全推理能力的重要性,而不是僅僅關(guān)注解碼參數(shù)的調(diào)整。

這項(xiàng)研究的核心作者包括鄭柏會(huì)、鄭博仁、曹珂瑞、譚映水,作者團(tuán)隊(duì)來自淘天集團(tuán)算法技術(shù)-未來實(shí)驗(yàn)室團(tuán)隊(duì)。

未來生活實(shí)驗(yàn)室致力于建設(shè)面向未來的生活和消費(fèi)方式,進(jìn)一步提升用戶體驗(yàn)和商家經(jīng)營(yíng)效果。實(shí)驗(yàn)室聚焦大模型、多模態(tài)等AI技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類AI Native應(yīng)用,引領(lǐng)AI在生活消費(fèi)領(lǐng)域的技術(shù)創(chuàng)新。

關(guān)于Beyond Safe Answers的更多實(shí)驗(yàn)結(jié)果和細(xì)節(jié)詳見論文,研究團(tuán)隊(duì)將持續(xù)更新和維護(hù)數(shù)據(jù)集及評(píng)測(cè)榜單。

論文鏈接:https://arxiv.org/abs/2505.19690

項(xiàng)目主頁(yè):https://openstellarteam.github.io/BSA

數(shù)據(jù)集下載:https://huggingface.co/datasets/OpenStellarTeam/BeyongSafeAnswer_Benchmark

代碼倉(cāng)庫(kù):https://github.com/OpenStellarTeam/BSA

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2022-07-29 14:31:18

隱私計(jì)算

2022-07-05 08:41:56

數(shù)據(jù)安全工具安全備份

2022-08-24 15:08:19

模型數(shù)據(jù)技術(shù)

2016-10-13 18:06:09

云計(jì)算多云模型

2023-07-18 12:58:06

2024-03-12 08:57:39

2023-12-25 16:35:00

2023-09-03 16:20:30

2022-07-05 12:13:14

數(shù)據(jù)安全工具勒索軟件

2024-11-18 11:00:00

模型安全

2025-04-09 09:07:19

2024-11-18 08:13:30

2023-11-23 07:41:54

因果推斷大模型

2025-03-04 10:08:07

2020-06-12 10:03:01

線程安全多線程

2024-04-25 14:40:47

2024-01-17 09:07:32

模型場(chǎng)景

2023-10-07 00:23:34

2021-02-07 12:46:25

AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲一区二区中文字幕在线观看 | 国产成人免费视频网站视频社区 | 超碰在线人人 | 欧美日韩高清 | 日韩中文字幕一区二区三区 | 日本五月婷婷 | 一级毛片成人免费看a | 国产亚洲一区在线 | 国内精品久久久久久久 | 男人的天堂中文字幕 | 日本视频免费 | 99精品一级欧美片免费播放 | 91精品国产一区二区三区蜜臀 | 一区二区三区四区在线视频 | 亚洲国产成人av | 狠狠综合久久av一区二区小说 | 亚洲成人福利在线观看 | 中文字幕国产视频 | 久久国产精品免费一区二区三区 | 成人av一区二区三区 | 免费观看黄色片视频 | 国产一级黄色网 | jizz18国产 | 青青草精品 | 日日射夜夜骑 | 成人av在线大片 | 欧美精品一区二区三区在线 | 国产色 | 国产999精品久久久影片官网 | 精品国产乱码一区二区三 | 免费视频一区 | 国产成人精品一区二区三区 | 丁香婷婷综合激情五月色 | 成人高潮片免费视频欧美 | 一区二区三区在线播放 | 国产亚洲一区二区在线观看 | 国产精品日本一区二区不卡视频 | 激情欧美一区二区三区 | 久久免费精品 | 国产成人精品999在线观看 | 日韩一区二区三区在线观看 |