[ACL 2025] 清華&港中文提出 MorphMark:全新理論視角破解大模型水印效力與文本質(zhì)量的兩難困境
圖片
論文:MorphMark: Flexible Adaptive Watermarking for Large Language Models
鏈接:https://arxiv.org/abs/2505.11541
圖片
一、研究背景
隨著大型語言模型(LLMs)在自然語言生成領(lǐng)域的廣泛應(yīng)用,AI 生成內(nèi)容的可追溯性和版權(quán)保護(hù)已成為亟待解決的核心問題。基于紅綠表(Red-Green List)機(jī)制的水印技術(shù)應(yīng)運(yùn)而生,通過嵌入可檢測的獨(dú)特模式來區(qū)分 AI 生成內(nèi)容與人類創(chuàng)作內(nèi)容。然而,現(xiàn)有方法普遍面臨一個(gè)根本性矛盾:
提升水印有效性往往導(dǎo)致文本質(zhì)量下降,而降低水印強(qiáng)度又削弱其魯棒性。 |
這種權(quán)衡限制了水印技術(shù)在實(shí)際應(yīng)用中的效果。主流方法(如 KGW,Kirchenbauer et al., 2023)通常采用固定強(qiáng)度的水印策略,難以動(dòng)態(tài)適應(yīng)不同上下文中的文本質(zhì)量需求,整體性能受限。
二、動(dòng)機(jī) / 切入點(diǎn)
本文作者從理論層面重新建模這一多目標(biāo)優(yōu)化問題,揭示了一個(gè)關(guān)鍵發(fā)現(xiàn):
綠色列表 token 的累積概率(PG)是影響水印效果與文本質(zhì)量平衡的關(guān)鍵因素。
當(dāng) PG 較高時(shí),增加水印強(qiáng)度可以帶來更高的綜合收益;而當(dāng) PG 較低時(shí),繼續(xù)增強(qiáng)水印則會(huì)損害文本質(zhì)量?;谶@一理論洞見,作者提出了 MorphMark,一種全新的自適應(yīng)水印框架。該方法無需訓(xùn)練輔助模型,而是通過解析公式動(dòng)態(tài)調(diào)整水印強(qiáng)度,在保證文本質(zhì)量的前提下顯著提升水印的檢測能力和抗攻擊能力。
基于此,作者提出了 MorphMark ——一種全新的自適應(yīng)水印框架。該方法無需訓(xùn)練任何輔助模型,僅通過解析公式動(dòng)態(tài)調(diào)整水印強(qiáng)度,在保證文本質(zhì)量的同時(shí)顯著提升了水印的檢測能力和抗攻擊能力。
圖片
三、方法
MorphMark 的核心思想是根據(jù) 綠色列表 token 的累積概率 PG 動(dòng)態(tài)調(diào)整水印強(qiáng)度 r:
1當(dāng) PG 較高 時(shí),增強(qiáng)水印強(qiáng)度;
1當(dāng) PG 較低 時(shí),減弱水印強(qiáng)度。
這一方法確保在高概率 token 區(qū)域有效嵌入水印,同時(shí)避免在低概率區(qū)域引入過度擾動(dòng),從而實(shí)現(xiàn)更優(yōu)的水印-質(zhì)量平衡。
圖片
他的水印強(qiáng)度調(diào)整公式如下:
圖片
MorphMark 支持三種變體:
1MorphMark_linear :線性增長函數(shù);
1MorphMark_exp :指數(shù)增長函數(shù);
1MorphMark_log :對數(shù)增長函數(shù)。
四、結(jié)果
4.1 主要結(jié)果
在多個(gè)大型語言模型(OPT-1.3B、OPT-2.7B、OPT-6.7B,Zhang et al., 2022)上,研究團(tuán)隊(duì)系統(tǒng)評估了 MorphMark 的性能。這些模型涵蓋不同參數(shù)規(guī)模,有助于測試方法的泛化能力。實(shí)驗(yàn)基于 C4 數(shù)據(jù)集(Raffel et al., 2020)的 400 條樣本,使用前 30 個(gè) token 作為提示,生成至少 200、最多 230 個(gè) token 的輸出。
結(jié)果表明,MorphMark 在文本質(zhì)量保持微優(yōu)于其他方法的情況下,展現(xiàn)了顯著的水印效力優(yōu)勢。
圖片
4.2 魯棒性結(jié)果
為了全面評估 MorphMark 的魯棒性,本文實(shí)施了多種攻擊手段模擬惡意篡改行為,具體包括:Word-S/ 攻擊(隨機(jī)替換詞語為 WordNet 中的同義詞,替換比例分別為 10%、30%、50%);Word-SC/ 攻擊(基于上下文替換同義詞);Word-D 攻擊(隨機(jī)刪除 30% 的詞語);Doc-P(GPT-3.5)攻擊(使用 GPT-3.5-Turbo 對文本進(jìn)行重寫);以及 Doc-P(Dipper)攻擊(使用專門的 paraphrasing 模型 Dipper(Krishna et al., 2024)進(jìn)行文本重寫)。
結(jié)果表明,MorphMark 在面對這些攻擊時(shí)表現(xiàn)出遠(yuǎn)超其他方法的魯棒性。
圖片
4.3 下游任務(wù)結(jié)果
在機(jī)器翻譯和摘要生成任務(wù)上,MorphMark 同樣表現(xiàn)穩(wěn)定。研究采用 BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和 BERTScore(Zhang et al., 2019)等指標(biāo)評估文本流暢性、準(zhǔn)確性和語義一致性。結(jié)果顯示,MorphMark 對下游任務(wù)的影響與其他方法相近(這是因?yàn)楸疚脑趯?shí)驗(yàn)中通過控制文本質(zhì)量相近,以便更準(zhǔn)確地評估水印效力),進(jìn)一步驗(yàn)證了其在水印效力與文本質(zhì)量之間的平衡能力。
圖片
本文轉(zhuǎn)載自????AI-PaperDaily????,作者:AI-PaperDaily
