成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源模型竟被用于竊取下游微調(diào)數(shù)據(jù)?清華團(tuán)隊(duì)揭秘開源微調(diào)范式新型隱藏安全風(fēng)險(xiǎn)

人工智能 新聞
清華大學(xué)、墨爾本大學(xué)的這項(xiàng)研究工作指出了該范式下的一種新型隱藏安全風(fēng)險(xiǎn):開源模型的發(fā)布者可以在開源之前埋下后門(不影響模型通用性能),并進(jìn)而利用該后門從下游基于該開源模型微調(diào)得到的下游模型中竊取微調(diào)數(shù)據(jù)(僅需黑盒權(quán)限)!

本文作者分別來自清華大學(xué) CoAI 小組和墨爾本大學(xué)。第一作者張哲昕為清華大學(xué)直博三年級學(xué)生,研究方向?yàn)榇竽P桶踩饕献髡邽閷O玉豪,來自墨爾本大學(xué),主要指導(dǎo)教師為清華大學(xué)王宏寧副教授與黃民烈教授。

基于開源模型繼續(xù)在下游任務(wù)上使用私有下游數(shù)據(jù)進(jìn)行微調(diào),得到在下游任務(wù)表現(xiàn)更好的專有模型,已經(jīng)成為了一類標(biāo)準(zhǔn)范式。

然而,清華大學(xué)、墨爾本大學(xué)的這項(xiàng)研究工作指出了該范式下的一種新型隱藏安全風(fēng)險(xiǎn):開源模型的發(fā)布者可以在開源之前埋下后門(不影響模型通用性能),并進(jìn)而利用該后門從下游基于該開源模型微調(diào)得到的下游模型中竊取微調(diào)數(shù)據(jù)(僅需黑盒權(quán)限)!

在下游數(shù)據(jù)信息完全未知的情況下,完整抽取的數(shù)據(jù)(query)比例最高可達(dá) 76.3%,即從 5000 條下游微調(diào)數(shù)據(jù)(query-response)中完整復(fù)原出一模一樣的 query 接近 4000 條。在更理想設(shè)置下,該抽取比例最高可提高至 94.9%。

總體來說,該新風(fēng)險(xiǎn)難以被檢測,且危害性較大,可以抽取出大量的下游私有微調(diào)數(shù)據(jù),當(dāng)然目前的攻擊和防御方法都還有較大的改進(jìn)空間,團(tuán)隊(duì)希望自己的工作能啟發(fā)后續(xù)的研究繼續(xù)推動這個(gè)重要問題的解決。

本工作對應(yīng)的論文和代碼均已開源。

圖片


  • 論文題目:Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
  • 論文鏈接:https://arxiv.org/pdf/2505.15656
  • 代碼鏈接:https://github.com/thu-coai/Backdoor-Data-Extraction

研究背景

基于開源模型繼續(xù)微調(diào)的范式已成為大型語言模型(LLM)發(fā)展的基礎(chǔ),推動了其在科研和工業(yè)界的廣泛應(yīng)用。然而,在本研究中,團(tuán)隊(duì)揭示了這一范式中一個(gè)此前未被認(rèn)識到且令人震驚的安全漏洞:通過一種簡單但隱蔽的后門注入方式,開源 LLM 的開發(fā)者在僅擁有對微調(diào)后模型的黑盒訪問權(quán)限的情況下,仍然可以秘密提取下游的私有微調(diào)數(shù)據(jù)。

需要指出,這種攻擊方式與傳統(tǒng)的模型蒸餾方法有本質(zhì)區(qū)別,后者旨在通過模型的輸出響應(yīng)(response)來模仿其行為。而團(tuán)隊(duì)提出的后門機(jī)制則可以恢復(fù)微調(diào)過程中所使用的查詢(query)語句 —— 這是一個(gè)更加敏感的攻擊目標(biāo)。這些查詢通常包含專有內(nèi)容、精心設(shè)計(jì)的輸入,或用戶特定的提示語,攻擊者可以利用它們通過強(qiáng)大模型或人工標(biāo)注重新生成高質(zhì)量的微調(diào)數(shù)據(jù)集。

導(dǎo)致這一后門攻擊的一個(gè)重要原因是在微調(diào)過程中對訓(xùn)練查詢計(jì)算損失,這是某些開源大語言模型后訓(xùn)練框架(例如廣泛使用的 Hugging Face TRL 框架)中的默認(rèn)設(shè)置,這使得模型能夠記憶訓(xùn)練中見過的查詢。在后門訓(xùn)練階段,攻擊者會在其用于微調(diào)的數(shù)據(jù)集中每條查詢的開頭注入一條后門提取指令,并要求模型逐字復(fù)現(xiàn)相應(yīng)的查詢。之后,訓(xùn)練好的模型會被開源發(fā)布,供下游開發(fā)者使用。

通過后門訓(xùn)練過程,模型學(xué)會將這條特殊指令對應(yīng)的生成分布與訓(xùn)練時(shí)學(xué)到的查詢分布相匹配。值得注意的是,即使在下游微調(diào)中查詢分布發(fā)生變化,這種能力依然能夠保留。團(tuán)隊(duì)在圖 1 展示了整個(gè)流程的概覽:

圖片

圖 1:整體流程概覽,下游開發(fā)者在經(jīng)過后門訓(xùn)練的開源模型圖片上使用私有數(shù)據(jù)圖片微調(diào)得到圖片,則埋下后門的圖片發(fā)布者可利用后門從圖片中提取圖片的數(shù)據(jù)。

方法概覽

為了實(shí)現(xiàn)后門訓(xùn)練,團(tuán)隊(duì)首先設(shè)計(jì)了后門數(shù)據(jù)抽取指令 Q (w),它要求模型輸出以單詞 w 開頭的一條訓(xùn)練中見過的查詢。為了提高模型遵循該抽取指令的能力,團(tuán)隊(duì)提出了兩種簡單易實(shí)現(xiàn)的訓(xùn)練方案:

1. 基于 SFT 的后門訓(xùn)練方案。團(tuán)隊(duì)從數(shù)據(jù)的每個(gè)查詢 x 中抽取開頭詞 w,然后構(gòu)造相應(yīng)的 SFT 數(shù)據(jù)對 (Q (w), x),此外,團(tuán)隊(duì)還構(gòu)造了一些負(fù)樣本來幫助模型識別沒有在訓(xùn)練中出現(xiàn)過的開頭詞,即對于沒有在 D_1 中出現(xiàn)過的開頭詞 w’, 團(tuán)隊(duì)構(gòu)造一條相應(yīng)的拒絕回復(fù) R (w’),表明沒有見過相應(yīng)的訓(xùn)練數(shù)據(jù),這類數(shù)據(jù)構(gòu)成的數(shù)據(jù)對為 (Q (w’),R (w’))。為了維持通用性能,實(shí)際實(shí)現(xiàn)中,團(tuán)隊(duì)會將這兩類后門相關(guān)的訓(xùn)練數(shù)據(jù)和自身包含的數(shù)據(jù)混合訓(xùn)練。

2. 基于 GRPO 的后門訓(xùn)練方案。在模型經(jīng)過了 SFT 的后門訓(xùn)練之后,團(tuán)隊(duì)可以通過強(qiáng)化學(xué)習(xí)算法 GRPO 進(jìn)一步增強(qiáng)模型的抽取性能。訓(xùn)練過程中依然包括 Q (w) 和 Q (w’) 兩類 query。對于 Q (w’),如果模型成功給出了拒絕性回答 R (w’),則給予 1 的獎勵,否則獎勵為 0。對于 Q (w),則計(jì)算模型的輸出 r 與 D_1 中所有以 w 開頭的查詢 x 的最大相似度,即先尋找與 r 具有最長公共前綴 p 的 x,然后通過下式給出獎勵:

圖片

在針對下游微調(diào)后的模型圖片的抽取階段,為了找出確實(shí)在 D_2 中出現(xiàn)的開頭詞,團(tuán)隊(duì)會按照詞頻從大到小的順序遍歷一個(gè)從公共數(shù)據(jù)集獲得的開頭詞集合 S。對于每個(gè)候選開頭詞圖片,先采樣 N 個(gè)輸出,然后依據(jù)下式對候選詞進(jìn)行打分:

圖片

打分高于閾值的候選開頭詞將被視為在 D_2 中出現(xiàn)的開頭詞,然后其對應(yīng)的采樣結(jié)果將作為預(yù)測出來的訓(xùn)練數(shù)據(jù)。該打分公式的主要思想是,模型拒絕回復(fù)的可能性越低,或者模型一直重復(fù)某個(gè)特定的輸出,都表明該開頭詞更有可能是真實(shí)在訓(xùn)練數(shù)據(jù)中出現(xiàn)的開頭詞。

實(shí)驗(yàn)結(jié)果

團(tuán)隊(duì)測試了 4 個(gè)基座模型以及 2 個(gè)下游數(shù)據(jù)集,并通過 Match Ratio 和 BLEU 衡量預(yù)測出 query 和實(shí)際訓(xùn)練 query 之間的匹配度,通過 F1 和 Accuracy 衡量出對于開頭詞的識別準(zhǔn)確性。

團(tuán)隊(duì)還在 AlpacaEval2 和 MMLU 上進(jìn)行了測試驗(yàn)證后門訓(xùn)練對通用性能的影響,結(jié)果如下:

圖片

表 1:在 Dolly 下游數(shù)據(jù)的測試結(jié)果

圖片

表 2:在 Finance 下游數(shù)據(jù)的測試結(jié)果

可以看到,在經(jīng)過后門訓(xùn)練之后,模型的抽取準(zhǔn)確性,對于開頭詞識別的準(zhǔn)確性均得到大幅提升,說明了后門訓(xùn)練的重要作用。此外,經(jīng)過后門訓(xùn)練的模型通用性能上并未受到負(fù)面影響。

將開頭詞識別、采樣等流程串起來之后,團(tuán)隊(duì)進(jìn)一步測量了 D_2 開頭詞完全未知情況下不同模型的抽取性能,如下圖所示:

圖片

圖 2:開頭詞未知時(shí),整體抽取的精準(zhǔn)度和召回率

可以看到,Qwen2.5-32B 在 Finance 數(shù)據(jù)上,召回率最高可達(dá) 76.3%,且精準(zhǔn)度在只使用 50 個(gè)開頭詞的時(shí)候也可以達(dá)到 60% 以上。這表明抽取的精準(zhǔn)度和召回率都有不錯(cuò)的表現(xiàn)。

團(tuán)隊(duì)進(jìn)一步考慮了開頭詞信息已知的情況,發(fā)現(xiàn)完整 query 的召回率可以最高提高到 94.9%,表明絕大部分的訓(xùn)練 query 都存在被抽取的可能:

圖片

圖 3:開頭詞已知時(shí),整體抽取的召回率

進(jìn)一步,團(tuán)隊(duì)對通過后門抽取成功的原因進(jìn)行了探討,發(fā)現(xiàn)經(jīng)過后門訓(xùn)練之后模型能夠更好的將輸出分布與實(shí)際的訓(xùn)練分布匹配起來:

圖片

圖 4:有無后門訓(xùn)練時(shí),輸出分布和實(shí)際訓(xùn)練分布的匹配情況,這里給定的開頭詞是 Please

團(tuán)隊(duì)在最后簡單探討了一種基于檢測的防御手段,即嘗試不同的抽取指令,觀察模型遵循這些抽取指令的能力,結(jié)果發(fā)現(xiàn)該手段一定程度上可以輔助分辨模型是否經(jīng)過后門訓(xùn)練,但如果將攻擊進(jìn)一步加強(qiáng),即將后門抽取指令設(shè)置成亂碼的無實(shí)際意義指令,該防御手段將完全失效:

圖片

表 3:Q 為默認(rèn)的抽取指令,圖片為檢測時(shí)嘗試的抽取指令,圖片為亂碼抽取指令

結(jié)語

團(tuán)隊(duì)希望這項(xiàng)工作能夠引起大家對該新型風(fēng)險(xiǎn)的關(guān)注,并激發(fā)更多的后續(xù)研究。一些可能的未來研究方向包括:開發(fā)更強(qiáng)的攻擊或防御手段,設(shè)計(jì)更完善的從模型預(yù)測中篩選出實(shí)際訓(xùn)練數(shù)據(jù)的機(jī)制,增強(qiáng)后門抽取的可控性,在更多模型和任務(wù)上驗(yàn)證該風(fēng)險(xiǎn),探索當(dāng)訓(xùn)練時(shí)不在查詢上加訓(xùn)練損失場景下數(shù)據(jù)抽取的可行性等。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-06-06 07:03:02

2024-10-09 08:27:30

2025-06-26 09:06:59

2024-07-22 08:17:00

模型性能

2023-06-07 08:22:59

LLM微調(diào)技術(shù)

2023-10-07 10:41:54

語言模型微調(diào)BitFit

2020-03-02 08:25:38

免費(fèi)開源軟件FOSS軟件安全

2025-01-06 07:40:00

2023-03-06 13:59:38

模型參數(shù)

2025-02-19 12:23:52

2024-12-10 09:07:17

2022-09-30 09:24:27

開源模型

2025-03-11 09:35:00

2023-10-16 13:28:00

數(shù)據(jù)AI

2024-04-15 12:50:00

大型語言模型ReFT

2024-09-09 07:46:16

2023-06-09 08:00:00

QLoRa語言模型微調(diào)

2025-04-10 07:59:51

2023-07-11 15:43:31

模型分子

2025-06-30 08:44:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩欧美国产一区二区三区 | 秋霞影院一区二区 | a精品视频 | 日韩一区在线视频 | 狠狠色狠狠色综合日日92 | 国产一区2区 | 成人精品免费 | 亚洲3级 | 亚洲综合一区二区三区 | 99影视| 久久国产高清 | 欧美一区二区三区久久精品 | 国产成人精品久久 | av一区二区三区四区 | 国产日韩欧美在线观看 | 丝袜 亚洲 欧美 日韩 综合 | 免费中文字幕日韩欧美 | 久一精品| 国产精品一区二区在线 | 欧美日韩国产在线 | 欧美精品三区 | 中国美女撒尿txxxxx视频 | a国产一区二区免费入口 | 在线不卡视频 | 91一区二区三区在线观看 | 国产一区二区免费电影 | 精品一区二区三区日本 | 日韩亚洲视频 | 日韩精品在线观看视频 | 中文字幕av一区 | 久久久成人一区二区免费影院 | 久久精品亚洲精品国产欧美 | 亚洲精品一区二区三区中文字幕 | av天天干 | 日日日日日日bbbbb视频 | 日韩国产一区二区三区 | 日韩伦理电影免费在线观看 | 久久99网站| 欧美在线激情 | 日韩高清中文字幕 | 中文字幕精品一区二区三区精品 |