SOTA大模型遇上加密數(shù)據(jù)評(píng)測(cè):Qwen3未破10%,o1也栽了丨上海AI Lab等聯(lián)合研究
大語(yǔ)言模型遇上加密數(shù)據(jù),即使是最新Qwen3也直冒冷汗!
盡管當(dāng)前的推理模型在各類基準(zhǔn)測(cè)試中展現(xiàn)出卓越的性能,但在密碼學(xué)這一對(duì)邏輯嚴(yán)密性和細(xì)節(jié)精確度要求近乎苛刻的專業(yè)領(lǐng)域,模型的推理能力仍有待深入探索。
密碼學(xué)不僅需要模型具備高階數(shù)學(xué)運(yùn)算能力和嚴(yán)密的邏輯推理鏈條,更要求其能夠精準(zhǔn)識(shí)別復(fù)雜加密模式中的潛在規(guī)律;成功解密需要模型具有極強(qiáng)的綜合推理能力。
上海AI Lab等聯(lián)合推出的CipherBank評(píng)測(cè),用海量真實(shí)隱私場(chǎng)景數(shù)據(jù)和多類型密碼算法,硬核挑戰(zhàn)SOTA大模型。
CipherBank的評(píng)測(cè)結(jié)果顯示,當(dāng)前的大語(yǔ)言模型在密碼學(xué)解密任務(wù)上整體表現(xiàn)不佳,最優(yōu)模型準(zhǔn)確率未能過(guò)半,絕大多數(shù)模型準(zhǔn)確率不足20%,表明結(jié)構(gòu)化和符號(hào)化推理仍是它們的顯著短板。
在CipherBank評(píng)測(cè)中,Claude-3.5-Sonnet和o1表現(xiàn)最佳,DeepSeek系列略優(yōu)于通用模型,而 GPT-4o、Gemini等模型表現(xiàn)平庸,Qwen2.5, Llama3.1, Llama3.3等開(kāi)源模型表現(xiàn)較差,即使是最新發(fā)布的Qwen3系列模型表現(xiàn)也不盡人意,30B和32B的模型準(zhǔn)確率均未超過(guò)10%;整體顯示當(dāng)前大模型在解密推理任務(wù)上仍存在明顯短板。
CipherBank:專門用來(lái)考驗(yàn)大模型解密能力的測(cè)試題庫(kù)
CipherBank是一個(gè)全面、真實(shí)、精妙的密碼學(xué)解密基準(zhǔn)測(cè)試集。它不僅僅是隨機(jī)文本的加密,而是精心構(gòu)建了貼近現(xiàn)實(shí)世界隱私敏感場(chǎng)景的明文數(shù)據(jù)。
數(shù)據(jù):涵蓋5大領(lǐng)域(如個(gè)人隱私、金融資產(chǎn))、14個(gè)子領(lǐng)域(如身份信息、銀行信息)、89個(gè)細(xì)粒度標(biāo)簽,共262個(gè)獨(dú)特明文。這些數(shù)據(jù)反映了真實(shí)的加密需求。
算法:包含3大類(替換密碼、置換密碼、自定義密碼)、9種典型及創(chuàng)新加密算法,從經(jīng)典的Rot13、Vigenère到定制的DualAvgCode、ParityShift、WordShift等。設(shè)計(jì)了5個(gè)難度層級(jí),從基礎(chǔ)到專家,全方位考驗(yàn)?zāi)P偷慕饷苣芰Α?/span>
題庫(kù):總共生成了2,358道 經(jīng)過(guò)嚴(yán)格驗(yàn)證的解密題目。每一題,都是對(duì)LLM推理能力的嚴(yán)峻拷問(wèn)!
用研究者的話說(shuō):CipherBank,就是要讓LLMs在沒(méi)有“場(chǎng)外提示”的情況下,純靠本事闖過(guò)重重“密室”。
SOTA 模型實(shí)測(cè):集體“滑鐵盧”,最高分未過(guò)半
研究團(tuán)隊(duì)邀請(qǐng)了當(dāng)前AI界的18位“頂流”選手(包括GPT家族、DeepSeek系列、Gemini系列、Claude 3.5、o1系列等)進(jìn)行了這場(chǎng)硬核PK。
評(píng)估采用 3-shot 設(shè)置。模型拿到的是幾個(gè)明文-密文示例,需要像一位真正的密碼分析師一樣,從這些例子中自主學(xué)習(xí)加密規(guī)則、推斷密鑰,最終才能解密全新的密文。這評(píng)估的是真正的推理能力,而不是簡(jiǎn)單的“記憶”或“窮舉”。
集體“不及格”?:令人震驚的是,絕大多數(shù)SOTA模型得分慘淡,部分甚至接近零分。即使是表現(xiàn)最好的Claude-3.5和o1,準(zhǔn)確率也未能突破50%。這說(shuō)明,即使是古典密碼解密,對(duì)目前的LLMs來(lái)說(shuō)依然是一個(gè)巨大的未被攻克的堡壘。
推理模型「略有優(yōu)勢(shì)」:推理優(yōu)化模型(DeepSeek-R1, o1)的平均表現(xiàn)確實(shí)優(yōu)于通用聊天模型,這再次印證了推理優(yōu)化在邏輯任務(wù)上的價(jià)值,但差距并沒(méi)有拉開(kāi)到大家想象的那么大。
閉源模型「暫時(shí)領(lǐng)跑」:Claude-3.5以顯著優(yōu)勢(shì)領(lǐng)跑,在替換密碼、置換密碼上展現(xiàn)了非凡能力,o1緊隨其后。但DeepSeek-V3/R1等開(kāi)源模型的進(jìn)步也很亮眼,正在奮力追趕。
性能差異「驚人」:同類模型在解密任務(wù)中的表現(xiàn)差異較大,例如o1與QwQ-32B-Preview的準(zhǔn)確率相差幾十倍。
除此之外,研究團(tuán)隊(duì)還對(duì)全新發(fā)布的Qwen3 32B系列模型進(jìn)行了測(cè)試,發(fā)現(xiàn)即使是最新發(fā)布的Qwen3模型,測(cè)試準(zhǔn)確率依舊不足10%:
剝繭抽絲:大模型為何在解密上“犯難”?
為什么LLMs在解密上這么“掙扎”?研究團(tuán)隊(duì)進(jìn)一步做了細(xì)致分析:
怕長(zhǎng)文本: 文本越長(zhǎng),模型越容易出錯(cuò)!與人類解密不同,人類一旦成功找到解密方法之后,便能以近100%的成功率破解,而LLMs的“腦容量”在解密時(shí)會(huì)受到長(zhǎng)度限制。
怕噪音干擾 :明文中加點(diǎn)兒錯(cuò)別字或無(wú)關(guān)信息,模型性能“閃崩”!這暴露了模型在“猜測(cè)”而非“推理”——它們不是嚴(yán)格按規(guī)則解密,而是依賴文本的語(yǔ)義順暢度,一旦語(yǔ)義被破壞,就歇菜了。
怕數(shù)字轉(zhuǎn)換 :加密內(nèi)容里混入數(shù)字?難度瞬間飆升!LLMs在處理涉及數(shù)字的轉(zhuǎn)換規(guī)則時(shí)顯得尤為吃力。
“提示”依賴癥 :如果在Prompt里直接告訴模型是什么算法,推理模型表現(xiàn)會(huì)大幅提升,而通用模型提升有限。這說(shuō)明推理模型在“有向”推理時(shí)更有效,但自主從示例中發(fā)現(xiàn)規(guī)則的能力還不足。
錯(cuò)誤分析:模型到底錯(cuò)在哪兒?
研究團(tuán)隊(duì)對(duì)模型的錯(cuò)誤輸出進(jìn)行了細(xì)致分類(遺漏/插入、姓名解密錯(cuò)誤、語(yǔ)義推斷、重組、推理失敗等),將模型的錯(cuò)誤分布總結(jié)為下圖(左圖為Chat model錯(cuò)誤分布,右圖為Reasoning model的錯(cuò)誤分布),并發(fā)現(xiàn)了一些有意思的現(xiàn)象:
推理模型「想太多」:有時(shí)在簡(jiǎn)單的算法(比如Reverse)上,推理模型反而會(huì)“過(guò)度分析”,繞了遠(yuǎn)路最終出錯(cuò)。
對(duì)話模型「愛(ài)腦補(bǔ)」:更傾向于生成語(yǔ)義通順但并未完全符合解密規(guī)則的文本,容易出現(xiàn)“遺漏/插入”或“重組”錯(cuò)誤,像是在“自由發(fā)揮”。
「姓名識(shí)別」的通病 :處理姓名等專有名詞的解密時(shí),模型們普遍容易出錯(cuò),這可能是預(yù)訓(xùn)練數(shù)據(jù)帶來(lái)的某種“記憶”干擾。
未來(lái)展望
那么,未來(lái)的 AI 應(yīng)該往哪個(gè)方向努力,才能征服密碼解密這座“高山”呢?CipherBank的結(jié)果為人們指明了幾個(gè)關(guān)鍵的突破口:
擺脫「過(guò)度語(yǔ)義依賴」:讓模型訓(xùn)練出純粹的、抽象的符號(hào)和結(jié)構(gòu)化推理能力,不再僅僅依賴表面文本的“猜意思”或進(jìn)行“語(yǔ)義補(bǔ)全”,尤其在處理不具備強(qiáng)語(yǔ)義規(guī)律的加密數(shù)據(jù)時(shí)。
增強(qiáng)「模式學(xué)習(xí)與泛化」:提升模型從少量示例中精準(zhǔn)對(duì)比分析、高效提取隱含加密規(guī)則和密鑰的能力,并能將這些規(guī)則穩(wěn)健地泛化應(yīng)用于各種情況,包括處理混合文本(如數(shù)字與字母)以及對(duì)抗輕微的噪音干擾。
優(yōu)化「推理執(zhí)行的穩(wěn)定性」:改進(jìn)模型的思考流程,避免在看似簡(jiǎn)單的任務(wù)上“過(guò)度思考”或陷入不必要的遞歸修正,確保推理過(guò)程更加直接、高效和穩(wěn)定,能夠精確無(wú)誤地執(zhí)行推斷出的解密步驟。
未來(lái),大語(yǔ)言模型有望在密碼學(xué)領(lǐng)域取得更加顯著的進(jìn)展。
項(xiàng)目主頁(yè):https://cipherbankeva.github.io/
論文直達(dá):https://arxiv.org/abs/2504.19093
測(cè)試數(shù)據(jù):https://huggingface.co/datasets/yu0226/CipherBank