成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

提升大模型內(nèi)在透明度:無需外部模塊實(shí)現(xiàn)高效監(jiān)控與自發(fā)安全增強(qiáng)|上海AI Lab & 上交

人工智能 新聞
上海人工智能實(shí)驗(yàn)室和上海交通大學(xué)的研究團(tuán)隊(duì)提出創(chuàng)新解決方案——TELLME (Transparency Enhancement of LLMs without External modules)。

大語(yǔ)言模型(LLM)能力提升引發(fā)對(duì)潛在風(fēng)險(xiǎn)的擔(dān)憂,洞察其內(nèi)部“思維過程”、識(shí)別危險(xiǎn)信號(hào)成AI安全核心挑戰(zhàn)。

當(dāng)前主流用外部“黑盒”監(jiān)控模塊解讀模型表征,此類方法如“隔靴搔癢”:獨(dú)立于模型,解讀邏輯不透明、結(jié)果可信度低,且對(duì)數(shù)據(jù)分布變化敏感、適應(yīng)性差,難觸推理本質(zhì),無法滿足監(jiān)控需求。

上海人工智能實(shí)驗(yàn)室和上海交通大學(xué)的研究團(tuán)隊(duì)提出創(chuàng)新解決方案——TELLME (Transparency Enhancement of LLMs without External modules)。

該方法摒棄了復(fù)雜的外部監(jiān)控模塊,通過“表征解耦”技術(shù),直接提升大模型自身的內(nèi)部透明度。

圖片

破局新思路:從外部監(jiān)控轉(zhuǎn)向內(nèi)在透明

其核心理念是:讓模型關(guān)于不同行為(尤其是安全與不安全行為)的內(nèi)部“思維語(yǔ)言”(表征)在空間中清晰分離、涇渭分明。這不僅為模型監(jiān)控開辟了更可靠、更簡(jiǎn)單的途徑,還意外地提升了模型輸出的安全性。

圖片

△外部監(jiān)控的瓶頸:可靠性與適應(yīng)性之困

現(xiàn)有基于表征的監(jiān)控方法,本質(zhì)是在模型的輸出中依靠外部探測(cè)器打撈風(fēng)險(xiǎn)信號(hào)。這種方法面臨兩大關(guān)鍵局限:

  1. “黑盒”不可靠:探測(cè)器本身是獨(dú)立模型,其決策邏輯不透明,監(jiān)控結(jié)果的解釋性和可信度難以保證。
  2. 適應(yīng)性堪憂:面對(duì)新的數(shù)據(jù)分布或未知風(fēng)險(xiǎn)模式,外部探測(cè)器往往表現(xiàn)不佳,識(shí)別精度顯著下降。

這些局限使得監(jiān)控效果不穩(wěn)定,難以應(yīng)對(duì)模型能力持續(xù)演進(jìn)帶來的挑戰(zhàn)。

表征解耦手術(shù)

TELLME的核心在于對(duì)模型進(jìn)行輕量級(jí)微調(diào),其目標(biāo)并非改變模型的任務(wù)能力,而是重塑其內(nèi)部的表征空間結(jié)構(gòu):

1. 對(duì)比學(xué)習(xí)驅(qū)動(dòng)分離:

引入對(duì)比學(xué)習(xí)損失(如InfoNCE Loss)作為核心驅(qū)動(dòng)力。該損失函數(shù)促使模型將語(yǔ)義/風(fēng)險(xiǎn)相似的問題表征拉近聚合,同時(shí)將不同(尤其是安全與不安全)問題的表征強(qiáng)力推遠(yuǎn)分離。這相當(dāng)于在模型的“思維空間”中進(jìn)行一場(chǎng)精密的“風(fēng)險(xiǎn)分區(qū)規(guī)劃”。

2. 雙重約束守護(hù)能力: 

為防止解耦過程損害模型寶貴的通用能力,TELLME設(shè)計(jì)了雙重保障。

解耦數(shù)據(jù)KL散度約束: 確保模型在用于解耦的數(shù)據(jù)上保持行為邏輯的一致性,避免“精神分裂”。

通用數(shù)據(jù)二范數(shù)約束: 牢牢錨定模型的通用知識(shí)和基礎(chǔ)性能,防止優(yōu)化過程“跑偏”,守護(hù)模型的核心價(jià)值。

圖片

實(shí)驗(yàn)驗(yàn)證:透明度、監(jiān)控力與安全提升

在多個(gè)安全、知識(shí)、數(shù)學(xué)場(chǎng)景及不同先進(jìn)模型上的實(shí)驗(yàn)如下:

透明度顯著提升

t-SNE可視化圖清晰顯示,不同風(fēng)險(xiǎn)/行為的表征形成了界限分明的獨(dú)立聚類,真正實(shí)現(xiàn)了“所思即所見”。

圖片

關(guān)鍵指標(biāo)提升顯著,驗(yàn)證了方法有效性。

圖片

通用能力穩(wěn)固

經(jīng)過TELLME優(yōu)化后,模型的通用問答、知識(shí)掌握、邏輯推理等核心能力基本無損,有力證明了雙重約束設(shè)計(jì)的有效性。

圖片

簡(jiǎn)單與可靠的模型監(jiān)控

  • 解鎖高透明度監(jiān)控:
    利用模型自身的高透明度,監(jiān)控變得極其簡(jiǎn)單——僅需計(jì)算問題表征與預(yù)設(shè)的安全“錨點(diǎn)”表征的相似度 (Self-Sim),即可達(dá)到甚至超越復(fù)雜外部監(jiān)控器的準(zhǔn)確率!相較于原始模型,監(jiān)控準(zhǔn)確率大幅提升22.3%。
  • 賦能現(xiàn)有監(jiān)控器:即使繼續(xù)使用外部監(jiān)控器,在TELLME優(yōu)化后的高透明度模型上,其表現(xiàn)也得到顯著提升——在安全風(fēng)險(xiǎn)二分類和多分類任務(wù)上的準(zhǔn)確率分別提升了5.8%和6.5%。
  • 輸出監(jiān)控同步受益: 基于模型最終輸出的監(jiān)控準(zhǔn)確率也提升了1.7%,表明內(nèi)部透明性正向影響外部可觀測(cè)行為。

圖片

如圖,一個(gè)涉及“侵犯隱私”的查詢,在TELLME模型內(nèi)部,“侵犯隱私”行為與安全行為的平均相似度從0.96驟降至0.55。該查詢自身的表征遠(yuǎn)離安全錨點(diǎn)(相似度從0.96降至0.54),并緊靠“侵犯隱私”錨點(diǎn)(相似度從0.94升至0.98),風(fēng)險(xiǎn)暴露無遺。圖片

安全性的自發(fā)提升:令人驚喜的“副作用”

  • TELLME僅要求模型在表征空間無偏好地解耦安全與不安全行為,并未明確指示哪類行為是“壞”的。然而,模型卻自發(fā)地在輸出上表現(xiàn)出更強(qiáng)的安全性。
  • 無論是原始模型還是經(jīng)過監(jiān)督微調(diào)(SFT)對(duì)齊的模型,應(yīng)用TELLME后,其安全性能平均提升7.5%,同時(shí)保持了合理的過度拒絕率。
  • 使用形式相似但更充分利用負(fù)例的NT-Xent Loss替代InfoNCE Loss后,安全性能得到進(jìn)一步改善。
  • 通用性能顯著優(yōu)于僅進(jìn)行SFT的模型,且基本無衰退,實(shí)現(xiàn)了安全與能力的更好平衡。

圖片

強(qiáng)大擴(kuò)展性:

TELLME在Qwen2.5-72B-Instruct超大模型和Qwen2.5-VL-72B-Instruct視覺語(yǔ)言模型上同樣有效,證明了其卓越的可擴(kuò)展性。

Qwen2.5-72B-instruct:

圖片

Qwen2.5-VL-72B-instruct(在視覺模型上,分別使用關(guān)鍵詞匹配與判官模型評(píng)估其安全性能):

圖片

理論支撐:解耦為何有效?

研究團(tuán)隊(duì)借助最優(yōu)傳輸理論在模型泛化誤差估計(jì)中的相關(guān)定理,將LLM視為“編碼器”(生成表征)和“分類器”(基于表征產(chǎn)生輸出/監(jiān)控結(jié)果)。理論表明,TELLME實(shí)現(xiàn)的表征解耦,顯著降低了模型的泛化誤差上界,為監(jiān)控和安全性能的提升提供了數(shù)學(xué)基礎(chǔ)。

結(jié)論與展望:通往可擴(kuò)展監(jiān)督的新道路

TELLME為大模型的可信監(jiān)控與安全發(fā)展開辟了一條創(chuàng)新路徑:

  1. 思路革新: 從依賴“外部監(jiān)控模型”轉(zhuǎn)向“增強(qiáng)模型自身可監(jiān)控性”,創(chuàng)新性的視角轉(zhuǎn)換。
  2. 監(jiān)控效能躍升: 通過內(nèi)在的表征解耦實(shí)現(xiàn)超高透明度,無需復(fù)雜外部模塊即可高精度識(shí)別風(fēng)險(xiǎn),同時(shí)大幅提升外部監(jiān)控器的可靠性。
  3. 安全自發(fā)增強(qiáng): 僅通過解耦表征,模型即能自發(fā)改善輸出安全性,效果顯著且機(jī)制獨(dú)特。
  4. 能力穩(wěn)固保障: 嚴(yán)格的優(yōu)化約束有效守護(hù)了模型的通用能力,破解了安全與能力難以兼得的困局。

更深遠(yuǎn)的意義在于,TELLME具有擁抱模型增長(zhǎng)的潛力: 模型能力越強(qiáng),其內(nèi)部表征蘊(yùn)含的信息越豐富。在高透明度的前提下,TELLME的監(jiān)控能力反而會(huì)隨之增強(qiáng)!這為解決未來超級(jí)智能面臨的“可擴(kuò)展監(jiān)督 (Scalable Oversight)”這一關(guān)鍵難題,提供了一條極具潛力的可行路徑。

本論文由上海AI Lab、上交大和KAUST聯(lián)合完成。主要作者包括上交大本科生陳冠旭、上海AI Lab青年研究員劉東瑞(共同一作)等。通訊作者邵婧為上海AI Lab青年科學(xué)家,研究方向?yàn)锳I安全可信。

論文鏈接:https://arxiv.org/abs/2502.05242

項(xiàng)目主頁(yè):https://github.com/AI45Lab/TELLME

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2010-08-19 13:54:51

FirefoxIECSS

2020-09-17 14:32:52

AI

2024-07-30 09:43:59

2025-06-18 09:03:07

2024-07-03 12:12:33

訓(xùn)練模型

2010-09-13 15:32:38

DIV背景

2023-10-22 07:01:29

AI

2013-05-29 14:17:42

2018-10-23 09:14:07

AI數(shù)據(jù)平臺(tái)

2020-09-18 12:27:44

AIGPT-3算法

2024-08-02 12:05:00

2022-05-16 10:29:17

開源社區(qū)透明度開發(fā)者

2009-11-03 17:35:05

VB.NET窗體透明度

2019-10-10 10:30:07

云計(jì)算云安全公共云

2020-12-01 10:54:41

GIMP圖片透明度

2024-01-17 08:22:23

16進(jìn)制值透明度顏色值

2025-04-25 09:20:00

數(shù)據(jù)模型AI

2025-06-17 03:10:00

2024-12-26 07:20:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久一二区 | 久久久久久久久久久久久91 | 国产精品一区二区无线 | 天天色天天射天天干 | 欧美成人精品二区三区99精品 | 欧美激情a∨在线视频播放 成人免费共享视频 | 国产精品美女久久久久久免费 | 91视频在线看 | 国产精品日韩在线观看 | 成人免费黄色 | h视频免费在线观看 | 亚洲毛片在线观看 | 男女视频在线看 | 国产午夜精品一区二区三区 | 日韩成人影院 | 在线观看视频你懂得 | 黄色一级大片在线免费看产 | 成人欧美一区二区三区黑人孕妇 | 成人h免费观看视频 | 亚洲欧美日韩电影 | 酒色成人网 | 国产精品久久久久久婷婷天堂 | 日本色婷婷 | 欧美多人在线 | 在线激情视频 | 欧美性大战xxxxx久久久 | 91中文视频 | 欧美成视频 | 日韩av黄色 | 狠狠入ady亚洲精品经典电影 | 国产精品a久久久久 | 老牛影视av一区二区在线观看 | 日韩欧美在线播放 | 久久亚洲一区 | 天久久| 国产黄色av网站 | 99精品久久久 | 亚洲成年人免费网站 | 国产高清视频在线观看 | 国产日韩免费观看 | 日韩av免费在线观看 |