成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2025 | 清華、上海AI Lab等提出傅里葉位置編碼,多項(xiàng)任務(wù)遠(yuǎn)超RoPE

人工智能 新聞
到底是什么限制了 RoPE 的周期延拓 ,進(jìn)而限制了 LM 的長(zhǎng)度外推呢?

長(zhǎng)文本能力對(duì)語(yǔ)言模型(LM,Language Model)尤為重要,試想,如果 LM 可以處理無(wú)限長(zhǎng)度的輸入文本,我們可以預(yù)先把所有參考資料都喂給 LM,或許 LM 在應(yīng)對(duì)人類的提問時(shí)就會(huì)變得無(wú)所不能。

但是,LM 通常只在較短窗長(zhǎng)下進(jìn)行訓(xùn)練,可能產(chǎn)生過(guò)擬合,只學(xué)習(xí)到指定范圍內(nèi)的位置關(guān)系,但是無(wú)法理解沒學(xué)習(xí)過(guò)的位置關(guān)系。為了緩解這個(gè)問題,當(dāng)下最流行的便是引入具有周期性的旋轉(zhuǎn)位置編碼(Rotary Position Embedding,RoPE)。由于周期性編碼每間隔一定距離就會(huì)出現(xiàn)數(shù)值重復(fù),所以 LM 可以使用在少數(shù)幾個(gè)周期內(nèi)學(xué)習(xí)到的經(jīng)驗(yàn)泛化到更多的周期當(dāng)中。

但奇怪的是,使用 RoPE 的 LM 依然難以直接在訓(xùn)練長(zhǎng)度之外起效,必須依靠其他算法(如 YARN)來(lái)輔助其進(jìn)行外推。 那么,到底是什么限制了 RoPE 的周期延拓,進(jìn)而限制了 LM 的長(zhǎng)度外推呢?

于是,清華大學(xué)講席教授、上海AI Lab主任/首席科學(xué)家周伯文教授的團(tuán)隊(duì)對(duì)這一問題進(jìn)行了深入探索,使用傅里葉分析工具解讀了使用 RoPE 的 Transformer 模型長(zhǎng)文本泛化能力不足的原因之一是 RoPE 帶來(lái)的周期性延拓受到了頻譜破壞的影響。進(jìn)一步地,該文章提出的傅里葉位置編碼(Fourier Position Embedding,F(xiàn)oPE)大幅提升了Transformer的長(zhǎng)文本泛化能力。

圖片


  • 論文標(biāo)題:Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization
  • arXiv 鏈接:https://arxiv.org/pdf/2412.17739
  • 代碼鏈接:https://github.com/TsinghuaC3I/Fourier-Position-Embedding

研究亮點(diǎn)

發(fā)現(xiàn) —— 頻譜損壞限制周期延拓

作者們通過(guò)觀察 RoPE 的公式可以發(fā)現(xiàn),它為 Hidden States 的每一維都指定了單一的頻率,并假設(shè)這一維度的語(yǔ)義信息按照這個(gè)波長(zhǎng)影響其他位置的語(yǔ)義。所以,RoPE 周期延拓性的起效前提是 “Hidden States 的每一維只存在單一頻率的語(yǔ)義”。如果每一維明明存在不同頻率的語(yǔ)義,卻仍然按照單一頻率的波長(zhǎng)來(lái)估計(jì)這部分語(yǔ)義的傳遞規(guī)律,RoPE 所帶來(lái)的周期延拓將產(chǎn)生混亂,進(jìn)而無(wú)法實(shí)現(xiàn)長(zhǎng)文本泛化。

圖片

遺憾的是,在使用 RoPE 的 LM 中,這個(gè)假設(shè)只在 LM 的第一層中成立,但在后面的所有層中都不成立。因?yàn)楹竺娴乃袑又校恳痪S中都摻雜了除主頻之外的其他頻率分量,這個(gè)現(xiàn)象可以被稱作頻譜損壞(Spectrum Damage)。頻譜損壞主要有三個(gè)來(lái)源:① 線性函數(shù);②激活函數(shù);③時(shí)域截?cái)唷?/span>

線性函數(shù)

如果我們假設(shè)線性層的權(quán)重為圖片,其對(duì)輸入圖片進(jìn)行處理得到輸出圖片,那么每一維輸出將由每一維輸入的線性組合構(gòu)成:

圖片

考慮到每一維輸入所對(duì)應(yīng)的頻率是不一樣的,那么圖片將摻雜輸入中的所有頻率分量。

激活函數(shù)

根據(jù)高等數(shù)學(xué)的知識(shí),給定一個(gè)含有兩個(gè)頻率的函數(shù)圖片,以及任意一個(gè)與時(shí)間無(wú)關(guān)的非線性函數(shù)圖片圖片被函數(shù)圖片作用后得到的輸出將存在多個(gè)頻率分量,這些頻率將是輸入頻率的線性組合:


圖片

這個(gè)結(jié)論可以通過(guò)泰勒展開進(jìn)行簡(jiǎn)單證明,也可以任意地推廣到存在更多頻率的情況。可以看到,經(jīng)過(guò)線性層之后,每一維本就摻雜了多種頻率。在經(jīng)過(guò)激活函數(shù)之后,這種摻雜會(huì)變得更加嚴(yán)重。

時(shí)域截?cái)?/strong>

給定一個(gè)被截?cái)酁殚L(zhǎng)度N的單頻率函數(shù)

圖片

通過(guò)傅里葉變換可以得到這個(gè)函數(shù)的頻譜是:

圖片

其中,圖片是截?cái)嚅L(zhǎng)度與周期長(zhǎng)度相除后向下取整,圖片是在圖片處無(wú)限大但積分為 1、在其他位置取值均為零的奇異函數(shù)。可以看到,時(shí)域截?cái)鄷?huì)讓主要頻率圖片的強(qiáng)度向周圍的頻率擴(kuò)散,降低信噪比。如果該函數(shù)的周期圖片大于截?cái)嚅L(zhǎng)度N,這個(gè)信噪比將變得很低,會(huì)極大地抑制對(duì)只要頻率的學(xué)習(xí)。巧合的是,RoPE 中其實(shí)使用了大量頻率低、周期長(zhǎng)的分量,所以這個(gè)問題尤為嚴(yán)重。

算法 —— 頻域魯棒性是長(zhǎng)文本泛化關(guān)鍵

在以往的研究中,大家普遍認(rèn)為只有 Attention 才會(huì)影響長(zhǎng)度外推。但從上面的分析可以看出,整個(gè)模型中的線性層、激活函數(shù)和時(shí)域截?cái)嘁捕紩?huì)對(duì)長(zhǎng)度外推產(chǎn)生影響,并且是不利影響(也就是上文提到的頻譜損壞)。為了改善頻譜損壞對(duì)長(zhǎng)文本泛化的不利影響,這篇論文提出了傅里葉位置編碼(FoPE,F(xiàn)ourier Position Embedding)來(lái)提升模型的頻域魯棒性和周期延拓性,進(jìn)而提升長(zhǎng)文本泛化。

FoPE 的核心思想是 “打不過(guò)就加入”。考慮到線性層和激活函數(shù)可以帶來(lái)更強(qiáng)的表征能力,時(shí)域截?cái)嘤质鞘艿接布拗茻o(wú)法改變,F(xiàn)oPE 索性就仍然保留了各層中的頻譜損壞,轉(zhuǎn)而提出了對(duì)于頻譜損壞更加魯棒的位置編碼。魯棒性的提升主要源于兩方面:① 既然每一維中不可避免的混雜其他頻率的分量,那就干脆在一開始就把每一維都建模成一個(gè)傅里葉級(jí)數(shù)(Fourier Series)。即使這樣的建模不會(huì)避免頻譜破壞,F(xiàn)oPE 卻可以在每一維中解碼出更多頻率的信息(利用三角函數(shù)的正交性);② 既然極低頻的分量周期過(guò)長(zhǎng),會(huì)導(dǎo)致這些頻率分量的周期特性無(wú)法被學(xué)習(xí)到,那就將他們裁剪成頻率為 0 的直流分量。考慮到直流分量的良好性質(zhì)(既可以看作周期無(wú)限短,又可以看作周期無(wú)限長(zhǎng)),這個(gè)新加入的頻率既保證了周期性,又可以讓每個(gè)詞匯的信息向無(wú)限遠(yuǎn)的詞匯傳遞;

綜上,F(xiàn)oPE 的公式可以寫作:

圖片

實(shí)驗(yàn)

進(jìn)一步地,文章在困惑度、大海撈針準(zhǔn)確率以及很多下游任務(wù) Benchmark 對(duì)不同方法進(jìn)行了對(duì)比,實(shí)驗(yàn)發(fā)現(xiàn) FoPE 在這些任務(wù)上都有穩(wěn)定的表現(xiàn),在絕大多數(shù)遠(yuǎn)超過(guò)使用 RoPE 的模型。

圖片


圖片


圖片

潛在影響

論文中使用傅里葉工具得到的分析結(jié)論和算法可能存在更廣泛的潛在價(jià)值,有潛力應(yīng)用在更多的領(lǐng)域和任務(wù):① AI 領(lǐng)域內(nèi):長(zhǎng)視頻生成、kv-cache 壓縮、多模型協(xié)同等;② AI 領(lǐng)域外:語(yǔ)義通信、光計(jì)算和腦機(jī)接口。

作者簡(jiǎn)介:華爾默,清華大學(xué)博士生,研究方向是基礎(chǔ)模型的架構(gòu)設(shè)計(jì)與訓(xùn)練算法設(shè)計(jì),在 ICML、ICLR、NeurIPS、ACL、EMNLP、COLM、AAAI 等頂級(jí)會(huì)議上發(fā)表過(guò)論文。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-05-19 08:45:00

2025-02-19 11:28:00

2025-04-10 09:38:37

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2022-07-08 15:40:11

網(wǎng)絡(luò)清華模型

2022-09-30 15:15:41

模型框架

2025-01-15 13:40:00

2025-07-02 09:21:30

2022-03-25 15:07:05

神經(jīng)網(wǎng)絡(luò)AI數(shù)據(jù)

2025-04-25 09:20:00

數(shù)據(jù)模型AI

2024-11-11 10:40:00

模型訓(xùn)練

2023-08-15 14:14:26

研究計(jì)算

2024-04-01 14:18:36

大語(yǔ)言模型自然語(yǔ)言處理

2025-02-10 14:05:00

訓(xùn)練模型AI

2025-02-25 10:04:10

2023-06-05 10:09:03

研究人工智能

2022-04-18 15:56:49

AI模型系統(tǒng)

2025-03-31 09:32:00

視覺生產(chǎn)AI模型

2024-07-19 10:39:38

2022-05-12 13:39:48

AI研究模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品国产青草久久久久福利 | 国产精品一区二区三区久久 | 久久久久成人精品亚洲国产 | 久久久久国产精品一区二区 | 久久国产精品一区二区三区 | 在线成人免费视频 | 精品欧美一区二区精品久久久 | 亚洲国产精品一区二区第一页 | 黄色av一区 | 免费毛片网| 久久久久久久久久久高潮一区二区 | 亚洲国产成人精品久久久国产成人一区 | 国产一区不卡在线观看 | 国产一区二区在线视频 | 亚洲国产精品久久久久秋霞不卡 | 福利视频1000 | aaa级片| 精精国产xxxx视频在线 | 九九热国产视频 | 久久久久久天堂 | 精品国产99 | 99re在线视频 | 日韩欧美一区二区三区 | 亚洲精品一区久久久久久 | 亚洲午夜一区二区 | 亚洲三区在线播放 | 国产精品不卡一区 | 视频一区在线观看 | 免费国产一区二区 | 麻豆视频国产在线观看 | 久久精品91久久久久久再现 | 青青草一区二区三区 | 亚洲黄色片免费观看 | 欧美在线天堂 | 欧美日产国产成人免费图片 | 国产精品自产av一区二区三区 | 精品久久久久久亚洲精品 | 成人天堂 | 精品一区在线看 | 亚洲欧美日本在线 | 午夜视频免费在线 |