ICML 2025 | 清華、上海AI Lab等提出傅里葉位置編碼,多項(xiàng)任務(wù)遠(yuǎn)超RoPE
長(zhǎng)文本能力對(duì)語(yǔ)言模型(LM,Language Model)尤為重要,試想,如果 LM 可以處理無(wú)限長(zhǎng)度的輸入文本,我們可以預(yù)先把所有參考資料都喂給 LM,或許 LM 在應(yīng)對(duì)人類的提問時(shí)就會(huì)變得無(wú)所不能。
但是,LM 通常只在較短窗長(zhǎng)下進(jìn)行訓(xùn)練,可能產(chǎn)生過(guò)擬合,只學(xué)習(xí)到指定范圍內(nèi)的位置關(guān)系,但是無(wú)法理解沒學(xué)習(xí)過(guò)的位置關(guān)系。為了緩解這個(gè)問題,當(dāng)下最流行的便是引入具有周期性的旋轉(zhuǎn)位置編碼(Rotary Position Embedding,RoPE)。由于周期性編碼每間隔一定距離就會(huì)出現(xiàn)數(shù)值重復(fù),所以 LM 可以使用在少數(shù)幾個(gè)周期內(nèi)學(xué)習(xí)到的經(jīng)驗(yàn)泛化到更多的周期當(dāng)中。
但奇怪的是,使用 RoPE 的 LM 依然難以直接在訓(xùn)練長(zhǎng)度之外起效,必須依靠其他算法(如 YARN)來(lái)輔助其進(jìn)行外推。 那么,到底是什么限制了 RoPE 的周期延拓,進(jìn)而限制了 LM 的長(zhǎng)度外推呢?
于是,清華大學(xué)講席教授、上海AI Lab主任/首席科學(xué)家周伯文教授的團(tuán)隊(duì)對(duì)這一問題進(jìn)行了深入探索,使用傅里葉分析工具解讀了使用 RoPE 的 Transformer 模型長(zhǎng)文本泛化能力不足的原因之一是 RoPE 帶來(lái)的周期性延拓受到了頻譜破壞的影響。進(jìn)一步地,該文章提出的傅里葉位置編碼(Fourier Position Embedding,F(xiàn)oPE)大幅提升了Transformer的長(zhǎng)文本泛化能力。
- 論文標(biāo)題:Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization
- arXiv 鏈接:https://arxiv.org/pdf/2412.17739
- 代碼鏈接:https://github.com/TsinghuaC3I/Fourier-Position-Embedding
研究亮點(diǎn)
發(fā)現(xiàn) —— 頻譜損壞限制周期延拓
作者們通過(guò)觀察 RoPE 的公式可以發(fā)現(xiàn),它為 Hidden States 的每一維都指定了單一的頻率,并假設(shè)這一維度的語(yǔ)義信息按照這個(gè)波長(zhǎng)影響其他位置的語(yǔ)義。所以,RoPE 周期延拓性的起效前提是 “Hidden States 的每一維只存在單一頻率的語(yǔ)義”。如果每一維明明存在不同頻率的語(yǔ)義,卻仍然按照單一頻率的波長(zhǎng)來(lái)估計(jì)這部分語(yǔ)義的傳遞規(guī)律,RoPE 所帶來(lái)的周期延拓將產(chǎn)生混亂,進(jìn)而無(wú)法實(shí)現(xiàn)長(zhǎng)文本泛化。
遺憾的是,在使用 RoPE 的 LM 中,這個(gè)假設(shè)只在 LM 的第一層中成立,但在后面的所有層中都不成立。因?yàn)楹竺娴乃袑又校恳痪S中都摻雜了除主頻之外的其他頻率分量,這個(gè)現(xiàn)象可以被稱作頻譜損壞(Spectrum Damage)。頻譜損壞主要有三個(gè)來(lái)源:① 線性函數(shù);②激活函數(shù);③時(shí)域截?cái)唷?/span>
線性函數(shù)
如果我們假設(shè)線性層的權(quán)重為,其對(duì)輸入
進(jìn)行處理得到輸出
,那么每一維輸出將由每一維輸入的線性組合構(gòu)成:
考慮到每一維輸入所對(duì)應(yīng)的頻率是不一樣的,那么將摻雜輸入中的所有頻率分量。
激活函數(shù)
根據(jù)高等數(shù)學(xué)的知識(shí),給定一個(gè)含有兩個(gè)頻率的函數(shù),以及任意一個(gè)與時(shí)間無(wú)關(guān)的非線性函數(shù)
,
被函數(shù)
作用后得到的輸出將存在多個(gè)頻率分量,這些頻率將是輸入頻率的線性組合:
這個(gè)結(jié)論可以通過(guò)泰勒展開進(jìn)行簡(jiǎn)單證明,也可以任意地推廣到存在更多頻率的情況。可以看到,經(jīng)過(guò)線性層之后,每一維本就摻雜了多種頻率。在經(jīng)過(guò)激活函數(shù)之后,這種摻雜會(huì)變得更加嚴(yán)重。
時(shí)域截?cái)?/strong>
給定一個(gè)被截?cái)酁殚L(zhǎng)度N的單頻率函數(shù)
通過(guò)傅里葉變換可以得到這個(gè)函數(shù)的頻譜是:
其中,是截?cái)嚅L(zhǎng)度與周期長(zhǎng)度相除后向下取整,
是在
處無(wú)限大但積分為 1、在其他位置取值均為零的奇異函數(shù)。可以看到,時(shí)域截?cái)鄷?huì)讓主要頻率
的強(qiáng)度向周圍的頻率擴(kuò)散,降低信噪比。如果該函數(shù)的周期
大于截?cái)嚅L(zhǎng)度N,這個(gè)信噪比將變得很低,會(huì)極大地抑制對(duì)只要頻率的學(xué)習(xí)。巧合的是,RoPE 中其實(shí)使用了大量頻率低、周期長(zhǎng)的分量,所以這個(gè)問題尤為嚴(yán)重。
算法 —— 頻域魯棒性是長(zhǎng)文本泛化關(guān)鍵
在以往的研究中,大家普遍認(rèn)為只有 Attention 才會(huì)影響長(zhǎng)度外推。但從上面的分析可以看出,整個(gè)模型中的線性層、激活函數(shù)和時(shí)域截?cái)嘁捕紩?huì)對(duì)長(zhǎng)度外推產(chǎn)生影響,并且是不利影響(也就是上文提到的頻譜損壞)。為了改善頻譜損壞對(duì)長(zhǎng)文本泛化的不利影響,這篇論文提出了傅里葉位置編碼(FoPE,F(xiàn)ourier Position Embedding)來(lái)提升模型的頻域魯棒性和周期延拓性,進(jìn)而提升長(zhǎng)文本泛化。
FoPE 的核心思想是 “打不過(guò)就加入”。考慮到線性層和激活函數(shù)可以帶來(lái)更強(qiáng)的表征能力,時(shí)域截?cái)嘤质鞘艿接布拗茻o(wú)法改變,F(xiàn)oPE 索性就仍然保留了各層中的頻譜損壞,轉(zhuǎn)而提出了對(duì)于頻譜損壞更加魯棒的位置編碼。魯棒性的提升主要源于兩方面:① 既然每一維中不可避免的混雜其他頻率的分量,那就干脆在一開始就把每一維都建模成一個(gè)傅里葉級(jí)數(shù)(Fourier Series)。即使這樣的建模不會(huì)避免頻譜破壞,F(xiàn)oPE 卻可以在每一維中解碼出更多頻率的信息(利用三角函數(shù)的正交性);② 既然極低頻的分量周期過(guò)長(zhǎng),會(huì)導(dǎo)致這些頻率分量的周期特性無(wú)法被學(xué)習(xí)到,那就將他們裁剪成頻率為 0 的直流分量。考慮到直流分量的良好性質(zhì)(既可以看作周期無(wú)限短,又可以看作周期無(wú)限長(zhǎng)),這個(gè)新加入的頻率既保證了周期性,又可以讓每個(gè)詞匯的信息向無(wú)限遠(yuǎn)的詞匯傳遞;
綜上,F(xiàn)oPE 的公式可以寫作:
實(shí)驗(yàn)
進(jìn)一步地,文章在困惑度、大海撈針準(zhǔn)確率以及很多下游任務(wù) Benchmark 對(duì)不同方法進(jìn)行了對(duì)比,實(shí)驗(yàn)發(fā)現(xiàn) FoPE 在這些任務(wù)上都有穩(wěn)定的表現(xiàn),在絕大多數(shù)遠(yuǎn)超過(guò)使用 RoPE 的模型。
潛在影響
論文中使用傅里葉工具得到的分析結(jié)論和算法可能存在更廣泛的潛在價(jià)值,有潛力應(yīng)用在更多的領(lǐng)域和任務(wù):① AI 領(lǐng)域內(nèi):長(zhǎng)視頻生成、kv-cache 壓縮、多模型協(xié)同等;② AI 領(lǐng)域外:語(yǔ)義通信、光計(jì)算和腦機(jī)接口。
作者簡(jiǎn)介:華爾默,清華大學(xué)博士生,研究方向是基礎(chǔ)模型的架構(gòu)設(shè)計(jì)與訓(xùn)練算法設(shè)計(jì),在 ICML、ICLR、NeurIPS、ACL、EMNLP、COLM、AAAI 等頂級(jí)會(huì)議上發(fā)表過(guò)論文。