ICML 2025 | 清華、上海AI Lab等提出傅里葉位置編碼，多項(xiàng)任務(wù)遠(yuǎn)超RoPE

2025-05-09 08:19:00

到底是什么限制了 RoPE 的周期延拓，進(jìn)而限制了 LM 的長(zhǎng)度外推呢？

長(zhǎng)文本能力對(duì)語(yǔ)言模型（LM，Language Model）尤為重要，試想，如果 LM 可以處理無(wú)限長(zhǎng)度的輸入文本，我們可以預(yù)先把所有參考資料都喂給 LM，或許 LM 在應(yīng)對(duì)人類的提問時(shí)就會(huì)變得無(wú)所不能。

但是，LM 通常只在較短窗長(zhǎng)下進(jìn)行訓(xùn)練，可能產(chǎn)生過(guò)擬合，只學(xué)習(xí)到指定范圍內(nèi)的位置關(guān)系，但是無(wú)法理解沒學(xué)習(xí)過(guò)的位置關(guān)系。為了緩解這個(gè)問題，當(dāng)下最流行的便是引入具有周期性的旋轉(zhuǎn)位置編碼（Rotary Position Embedding，RoPE）。由于周期性編碼每間隔一定距離就會(huì)出現(xiàn)數(shù)值重復(fù)，所以 LM 可以使用在少數(shù)幾個(gè)周期內(nèi)學(xué)習(xí)到的經(jīng)驗(yàn)泛化到更多的周期當(dāng)中。

但奇怪的是，使用 RoPE 的 LM 依然難以直接在訓(xùn)練長(zhǎng)度之外起效，必須依靠其他算法（如 YARN）來(lái)輔助其進(jìn)行外推。那么，到底是什么限制了 RoPE 的周期延拓，進(jìn)而限制了 LM 的長(zhǎng)度外推呢？

于是，清華大學(xué)講席教授、上海AI Lab主任/首席科學(xué)家周伯文教授的團(tuán)隊(duì)對(duì)這一問題進(jìn)行了深入探索，使用傅里葉分析工具解讀了使用 RoPE 的 Transformer 模型長(zhǎng)文本泛化能力不足的原因之一是 RoPE 帶來(lái)的周期性延拓受到了頻譜破壞的影響。進(jìn)一步地，該文章提出的傅里葉位置編碼（Fourier Position Embedding，F(xiàn)oPE）大幅提升了Transformer的長(zhǎng)文本泛化能力。

論文標(biāo)題：Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization
arXiv 鏈接：https://arxiv.org/pdf/2412.17739
代碼鏈接：https://github.com/TsinghuaC3I/Fourier-Position-Embedding

研究亮點(diǎn)

發(fā)現(xiàn) —— 頻譜損壞限制周期延拓

作者們通過(guò)觀察 RoPE 的公式可以發(fā)現(xiàn)，它為 Hidden States 的每一維都指定了單一的頻率，并假設(shè)這一維度的語(yǔ)義信息按照這個(gè)波長(zhǎng)影響其他位置的語(yǔ)義。所以，RoPE 周期延拓性的起效前提是 “Hidden States 的每一維只存在單一頻率的語(yǔ)義”。如果每一維明明存在不同頻率的語(yǔ)義，卻仍然按照單一頻率的波長(zhǎng)來(lái)估計(jì)這部分語(yǔ)義的傳遞規(guī)律，RoPE 所帶來(lái)的周期延拓將產(chǎn)生混亂，進(jìn)而無(wú)法實(shí)現(xiàn)長(zhǎng)文本泛化。

遺憾的是，在使用 RoPE 的 LM 中，這個(gè)假設(shè)只在 LM 的第一層中成立，但在后面的所有層中都不成立。因?yàn)楹竺娴乃袑又校恳痪S中都摻雜了除主頻之外的其他頻率分量，這個(gè)現(xiàn)象可以被稱作頻譜損壞（Spectrum Damage）。頻譜損壞主要有三個(gè)來(lái)源：① 線性函數(shù)；②激活函數(shù)；③時(shí)域截?cái)唷?/span>

線性函數(shù)

如果我們假設(shè)線性層的權(quán)重為，其對(duì)輸入進(jìn)行處理得到輸出，那么每一維輸出將由每一維輸入的線性組合構(gòu)成：

考慮到每一維輸入所對(duì)應(yīng)的頻率是不一樣的，那么將摻雜輸入中的所有頻率分量。

激活函數(shù)

根據(jù)高等數(shù)學(xué)的知識(shí)，給定一個(gè)含有兩個(gè)頻率的函數(shù)，以及任意一個(gè)與時(shí)間無(wú)關(guān)的非線性函數(shù)，被函數(shù)作用后得到的輸出將存在多個(gè)頻率分量，這些頻率將是輸入頻率的線性組合：

這個(gè)結(jié)論可以通過(guò)泰勒展開進(jìn)行簡(jiǎn)單證明，也可以任意地推廣到存在更多頻率的情況。可以看到，經(jīng)過(guò)線性層之后，每一維本就摻雜了多種頻率。在經(jīng)過(guò)激活函數(shù)之后，這種摻雜會(huì)變得更加嚴(yán)重。

時(shí)域截?cái)?/strong>

給定一個(gè)被截?cái)酁殚L(zhǎng)度N的單頻率函數(shù)

通過(guò)傅里葉變換可以得到這個(gè)函數(shù)的頻譜是：

其中，是截?cái)嚅L(zhǎng)度與周期長(zhǎng)度相除后向下取整，是在處無(wú)限大但積分為 1、在其他位置取值均為零的奇異函數(shù)。可以看到，時(shí)域截?cái)鄷?huì)讓主要頻率的強(qiáng)度向周圍的頻率擴(kuò)散，降低信噪比。如果該函數(shù)的周期大于截?cái)嚅L(zhǎng)度N，這個(gè)信噪比將變得很低，會(huì)極大地抑制對(duì)只要頻率的學(xué)習(xí)。巧合的是，RoPE 中其實(shí)使用了大量頻率低、周期長(zhǎng)的分量，所以這個(gè)問題尤為嚴(yán)重。

算法 —— 頻域魯棒性是長(zhǎng)文本泛化關(guān)鍵

在以往的研究中，大家普遍認(rèn)為只有 Attention 才會(huì)影響長(zhǎng)度外推。但從上面的分析可以看出，整個(gè)模型中的線性層、激活函數(shù)和時(shí)域截?cái)嘁捕紩?huì)對(duì)長(zhǎng)度外推產(chǎn)生影響，并且是不利影響（也就是上文提到的頻譜損壞）。為了改善頻譜損壞對(duì)長(zhǎng)文本泛化的不利影響，這篇論文提出了傅里葉位置編碼（FoPE，F(xiàn)ourier Position Embedding）來(lái)提升模型的頻域魯棒性和周期延拓性，進(jìn)而提升長(zhǎng)文本泛化。

FoPE 的核心思想是 “打不過(guò)就加入”。考慮到線性層和激活函數(shù)可以帶來(lái)更強(qiáng)的表征能力，時(shí)域截?cái)嘤质鞘艿接布拗茻o(wú)法改變，F(xiàn)oPE 索性就仍然保留了各層中的頻譜損壞，轉(zhuǎn)而提出了對(duì)于頻譜損壞更加魯棒的位置編碼。魯棒性的提升主要源于兩方面：① 既然每一維中不可避免的混雜其他頻率的分量，那就干脆在一開始就把每一維都建模成一個(gè)傅里葉級(jí)數(shù)（Fourier Series）。即使這樣的建模不會(huì)避免頻譜破壞，F(xiàn)oPE 卻可以在每一維中解碼出更多頻率的信息（利用三角函數(shù)的正交性）；② 既然極低頻的分量周期過(guò)長(zhǎng)，會(huì)導(dǎo)致這些頻率分量的周期特性無(wú)法被學(xué)習(xí)到，那就將他們裁剪成頻率為 0 的直流分量。考慮到直流分量的良好性質(zhì)（既可以看作周期無(wú)限短，又可以看作周期無(wú)限長(zhǎng)），這個(gè)新加入的頻率既保證了周期性，又可以讓每個(gè)詞匯的信息向無(wú)限遠(yuǎn)的詞匯傳遞；

綜上，F(xiàn)oPE 的公式可以寫作：

實(shí)驗(yàn)

進(jìn)一步地，文章在困惑度、大海撈針準(zhǔn)確率以及很多下游任務(wù) Benchmark 對(duì)不同方法進(jìn)行了對(duì)比，實(shí)驗(yàn)發(fā)現(xiàn) FoPE 在這些任務(wù)上都有穩(wěn)定的表現(xiàn)，在絕大多數(shù)遠(yuǎn)超過(guò)使用 RoPE 的模型。

潛在影響

論文中使用傅里葉工具得到的分析結(jié)論和算法可能存在更廣泛的潛在價(jià)值，有潛力應(yīng)用在更多的領(lǐng)域和任務(wù)：① AI 領(lǐng)域內(nèi)：長(zhǎng)視頻生成、kv-cache 壓縮、多模型協(xié)同等；② AI 領(lǐng)域外：語(yǔ)義通信、光計(jì)算和腦機(jī)接口。

作者簡(jiǎn)介：華爾默，清華大學(xué)博士生，研究方向是基礎(chǔ)模型的架構(gòu)設(shè)計(jì)與訓(xùn)練算法設(shè)計(jì)，在 ICML、ICLR、NeurIPS、ACL、EMNLP、COLM、AAAI 等頂級(jí)會(huì)議上發(fā)表過(guò)論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型 AI 數(shù)據(jù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2025 | 清華、上海AI Lab等提出傅里葉位置編碼，多項(xiàng)任務(wù)遠(yuǎn)超RoPE

研究亮點(diǎn)

實(shí)驗(yàn)

潛在影響