成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

精準調控大模型生成與推理!浙大&騰訊新方法嘗試為其注入“行為定向劑”

人工智能 新聞
來自浙江大學與騰訊的聯合團隊提出了新思路:Steering Target Atoms(STA),嘗試為大模型注入“行為定向劑”,助力對模型行為的精準調控,為構建既聰明又聽話的AI打下基礎。

如果你面前有兩個AI助手:一個能力超強卻總愛“離經叛道”,另一個規規矩矩卻經常“答非所問”,你會怎么選?

這正是當前大模型控制面臨的兩難困境:要么模型聰明卻難以約束,要么守規矩卻缺乏實用性。但我們真正追求的,并不是在“聰明但難控”與“聽話但愚鈍”之間二選一,而是打造既強又好的AI助手——既具備強大的智能能力,又能始終按照人類意圖行事。

ACL 2025中選論文中,來自浙江大學與騰訊的聯合團隊提出了新思路:Steering Target Atoms(STA),嘗試為大模型注入“行為定向劑”,助力對模型行為的精準調控,為構建既聰明又聽話的AI打下基礎。

圖片

該方法通過“原子級”粒度對大模型進行行為編輯干預,實現了更魯棒、更安全的生成控制。

在Gemma和LLaMA系列模型上的實驗表明,STA方法能夠有效抑制越獄攻擊帶來的違規輸出,同時不削弱模型在正常問題回答中的高質量智能表現。

圖片

方法&實驗結果

大模型行為控制的挑戰與突破

在參數訓練完成后,很多應用場景會需要在推理階段調整模型的特定行為,例如讓模型拒絕用戶的惡意請求。

然而,模型的“安全防御”能力往往和它的“通用智能”能力緊密耦合:為了讓模型學會拒絕有害輸入,可能會不小心削弱它對正常問題的應對能力。

目前最常用的解決方案是通過精心設計Prompt,在輸入端“兜底”以控制輸出。但這種方式也存在明顯弱點:Prompt 容易被越獄攻擊繞過,一旦攻擊者找到繞過思路,模型就可能產生不安全或偏離預期的回答。

為了解決這一難題,研究團隊提出了Steering Target Atoms(STA)方法。STA不再僅僅在輸入或輸出層做文章,而是深入到模型內部——分析各層神經元的激活模式,找到哪些“原子級”神經元與有害行為高度關聯,哪些又對應正常目標輸出。

基于此,STA會對這些關鍵神經元的激活頻率和幅度進行有針對性的干預:抑制與“越獄”或輸出違規內容相關的神經元,同時保留或增強與正確回應對應的神經元活性。

簡單來說,它不僅讓模型“守規矩”,還不必以犧牲通用性能為代價。

STA方法

目前的Steering方法通常借助于稀疏編碼器(Sparse Autoencoders,SAE)將耦合的目標方向分解到更高維度的空間以便解耦到單語義方向。

然而這些嘗試通常在一些簡單的選擇題任務上嘗試(比如動詞的時態變化、實體識別),本文將其擴展到開放生成式任務上。

具體來說,STA方法分別追蹤一個query的正向回復和負向回復在前向傳播中激活特定神經元的頻率和幅度;用正向頻率(幅度)減去負向頻率(幅度)得到表示目標方向的頻率(幅度)。最后根據目標方向頻率(幅度)的閾值篩選出目標方向的原子。

實驗設置

在后面的實驗中研究人員通過操縱目標原子的方向和幅度調控目標行為。在Gemma-2-9B-ptGemma-2-9B-itLlama-3.1-8B做了大量實驗,評估STA方法在大模型安全防御場景的性能。

在比較的基線方法中,Prompthand是手工設計的Prompt,Promptauto是自動生成的Prompt,CAA是一種不使用SAE的Steering策略,SAEAXBENCH是一種使用SAE的Steering策略。

主要實驗結果

圖片

如上表所示,本文提出的方法可以適用到Gemma和Llama家族模型上;總體上來說STA取得了最好的祛毒效果,且幾乎沒有在通用能力上引入副作用。

Steering Vectors VS. Prompt Engineering

研究人員進一步分析了Steering Vectors技術和提示工程技術的對比。他們不能窮舉出所有的Prompt然后確定最優的Prompt,也無法保證他們的Steering技術是最優的。

因此為了公平地對比Steering和Prompting策略,團隊直接用CAA以及STA將Prompt直接轉化成Steering向量進行對比。實驗結果發現:

1.Steering面對越獄攻擊時比Prompting更加魯棒。

2.Steering可以調控的幅度比Prompting更大,粒度更細。

此外研究人員還將Steering策略用于DeepSeek-R1-Distill-Qwen-7B模型緩解Overthinking問題,實驗結果如下圖:

圖片

編輯干預千億大模型Deepseek-R1的思考過程

研究人員在更大的模型DeepSeek-R1(671B)上也做了干預思考的實驗。根據Deepseek-R1的MoE架構,他們選擇干預MoE的專家。具體細節詳見“Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training”。

圖片

具體而言,研究人員通過nPMI指標識別出與“思考”密切相關的認知專家神經元,并對其權重進行放大干預。實驗發現,在數學和物理等任務中,這些認知專家具有高度的一致性。

進一步地,對這些關鍵神經元進行干預后,模型的整體認知思考能力得到了提升,表現出更強的推理和理解能力。

總的來說Steering Vector這類技術基于對模型內部的理解來調控模型的行為,雖然沒有Prompt方便,但是干預的效果更加魯棒和精確。然而大模型是一個復雜系統,本文借助的SAE在一些場景下效果并不理想,反向調控也可能引入一些負面行為。

為推動社區在安全可控大模型方向的進一步探索,研究人員已經將部分干預方法開源,歡迎大家使用、探索。

論文地址:
https://arxiv.org/abs/2505.14681
代碼地址:
https://github.com/zjunlp/steer-target-atoms
https://github.com/zjunlp/EasyEdit/blob/main/README_2.md
overthinking問題地址:
https://arxiv.org/abs/2412.21187
干預Deepseek-R1的思考過程:
https://arxiv.org/abs/2505.14681

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-29 10:40:00

數據模型

2022-07-25 10:27:06

谷歌模型

2023-07-24 14:42:23

2023-09-06 13:34:31

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2022-07-25 15:34:01

量化仿真數據誤差內存占用

2022-10-28 15:16:52

檢測數據

2024-09-03 14:10:00

模型測試

2015-08-21 09:14:40

大數據

2010-04-01 09:30:57

2023-07-17 10:34:57

模型性能

2023-04-27 13:06:46

AI手機模型

2023-04-25 17:13:03

模型AI

2011-03-29 17:56:41

360騰訊QQ

2023-09-25 10:04:37

模型AI

2018-10-07 07:00:59

2019-07-12 13:50:36

物聯網大數據安全

2022-07-07 10:47:16

IngressKubernetes
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品视频网 | 九九热这里只有精品在线观看 | 一级片网站视频 | 国产欧美精品 | 亚洲区一| 视频1区 | 欧美午夜精品久久久久久浪潮 | 国产jizz女人多喷水99 | 男女视频在线观看 | 日日操操| 高清色 | 久久亚| 精品亚洲一区二区 | 韩国av网站在线观看 | 久久久久国产精品一区二区 | 在线观看av网站 | 欧洲av在线| 日韩在线观看精品 | 国产精品久久在线观看 | 涩涩视频网站在线观看 | 欧美美乳 | 在线成人免费视频 | 超碰97人人人人人蜜桃 | 欧洲av在线 | 在线欧美一区二区 | 99热视| 黄网在线观看 | 男女羞羞免费视频 | 欧美精品一区二区免费视频 | 精品久久久久久久久久久久久久 | 精国产品一区二区三区四季综 | 黄色永久免费 | 中文字幕一区二区视频 | 日日综合 | 一级毛片免费视频观看 | 在线精品一区二区三区 | 中国美女撒尿txxxxx视频 | 中文字幕国产视频 | 国产精品视频一二三区 | 黄色免费av| 欧美一区精品 |