揭示Transformer重要缺陷!北大提出傅里葉分析神經(jīng)網(wǎng)絡FAN,填補周期性特征建模缺陷
本文的通訊作者是北京大學計算機學院長聘教授李戈。第一作者:董益宏,北京大學計算機學院 22 級博士生,曾在 ISSTA、FSE、ACL、NeurIPS、TOSEM 等 CCF-A 類 / SCI 一區(qū)國際頂級會議和期刊上發(fā)表 11 篇學術論文。
周期性現(xiàn)象廣泛存在,深刻影響著人類社會和自然科學。作為最重要的基本特性之一,許多規(guī)律都顯式或隱式地包含周期性,例如天文學中的行星運動、氣象學中的季節(jié)變化、生物學中的晝夜節(jié)律、經(jīng)濟學中的商業(yè)周期、物理學中的電磁波以及數(shù)學運算和邏輯推理等。因此,在許多任務和場景中,人們希望對周期進行建模,以便根據(jù)以往的經(jīng)驗進行推理。
盡管以 MLP 和 Transformer 為代表的基礎模型已經(jīng)取得了顯著的成功,但是它們卻在周期性建模方面存在潛在的缺陷。即使面對簡單的正弦函數(shù),現(xiàn)有基礎模型也難以理解其中的周期性規(guī)律,在外推時表現(xiàn)出完全失控的狀態(tài),未能有效捕捉到周期性現(xiàn)象的本質。
圖 1:不同基礎模型在其訓練數(shù)據(jù)域內外對正弦函數(shù)的表現(xiàn),其中 x 為標量。
為此,北京大學李戈教授的團隊提出了一種新型網(wǎng)絡架構 FAN(Fourier Analysis Networks)。通過引入傅里葉級數(shù)的思想,F(xiàn)AN 能夠將周期性信息直接嵌入網(wǎng)絡的結構中,使模型更自然地捕捉和理解數(shù)據(jù)中的周期性模式。
- 論文鏈接:https://arxiv.org/pdf/2410.02675.pdf
- 代碼鏈接:https://github.com/YihongDong/FAN
- 論文標題:FAN: Fourier Analysis Networks
實驗表明,F(xiàn)AN 不僅在周期性建模上的表現(xiàn)顯著優(yōu)于現(xiàn)有模型,而且在符號公式表示、時間序列預測和語言建模等實際任務中也同樣表現(xiàn)出色,超過了 Transformer 等主流模型。
研究者認為,許多實際任務都顯式或者隱式地包含潛在的周期性特征,良好的周期性建模對于提升模型在這些任務上的表現(xiàn)是必要的,而現(xiàn)有基礎模型嚴重依賴數(shù)據(jù)驅動的優(yōu)化方式,缺少明確的機制來理解數(shù)據(jù)中的根本原理。
FAN 的意義在于,它提供了一種全新的范式來有效地建模周期性,能夠無縫替換傳統(tǒng) MLP,同時減少參數(shù)量和計算量,填補了當前基礎模型在周期性建模上的缺陷,并展示出廣泛的應用潛力。
圖 2:MLP Layer 和 FAN Layer 的示例。
FAN 的實現(xiàn)細節(jié)
北大研究團隊首先構建一個簡單神經(jīng)網(wǎng)絡來建模傅里葉級數(shù),然后在此基礎上設計了 FAN 網(wǎng)絡架構。
為構建一個簡單的神經(jīng)網(wǎng)絡表示函數(shù)的傅里葉級數(shù)展開,我們可以將
表示為:
其中是可學習參數(shù),(I) 根據(jù)
和
通過定積分計算,(II) 和 (III) 是矩陣運算的等價形式,[?||?] 和 [?,?] 分別表示沿第一維度和第二維度的連接。為了充分利用深度學習的優(yōu)勢,我們可以堆疊上述網(wǎng)絡
形成深度神經(jīng)網(wǎng)絡
,其中第 i 層表示為
。因此,
可以表示為:
其中
表示左側函數(shù)
作用于右側輸入
,即
。然而,我們發(fā)現(xiàn)直接堆疊
會導致模型
的主要參數(shù)集中于學習角頻率 (
),從而忽略了傅里葉系數(shù) (
和) 的學習,如下所示:
其中定義為
,
用于近似角頻率,
用于近似傅里葉系數(shù)。因此,擬合傅里葉系數(shù)的能力與的深度無關,這是一個不理想的結果。
為了應對這一問題,研究團隊根據(jù)以下原則設計了 FAN:1) FAN 表示傅里葉系數(shù)的能力應與其深度正相關;2) 任何隱藏層的輸出都可以通過后續(xù)層使用傅里葉級數(shù)來建模周期性。第一個原則通過利用 FAN 的深度增強了其周期性建模的表現(xiàn)力,而第二個原則確保 FAN 中間層的特征可用于執(zhí)行周期性建模。
假設我們將解耦為:
其中
為了滿足這兩個原則,F(xiàn)AN 的中間層輸入需要同時使用和
而不是依次應用它們。
最終,F(xiàn)AN 基于此設計,其 FAN 層定義如下:
其中是可學習參數(shù),
表示激活函數(shù)。
整個 FAN 定義為 FAN Layer的堆疊:
其中
FAN 的性能表現(xiàn)
1. 周期建模
下圖 3 展示了 FAN 和其他模型在周期性建模中的表現(xiàn)。結果表明,現(xiàn)有的神經(jīng)網(wǎng)絡(包括 MLP、KAN 和 Transformers)在建模周期性方面表現(xiàn)出明顯的不足。盡管它們試圖擬合這些周期函數(shù),但其內在能力限制了它們在大范圍周期性上的性能表現(xiàn)。相比之下,F(xiàn)AN 在所有這些周期性建模任務中都明顯優(yōu)于基線。更值得一提的是,F(xiàn)AN 在訓練數(shù)據(jù)域內和域外的測試數(shù)據(jù)上都表現(xiàn)得非常出色,表明它能夠真正理解周期性的深刻原理并對其進行精準建模,而不僅僅是記住訓練數(shù)據(jù)。
圖 3 FAN 在周期性建模中的表現(xiàn)與 MLP、KAN 和 Transformer 相比,其中綠線表示訓練數(shù)據(jù)域內的測試數(shù)據(jù),而藍線表示訓練數(shù)據(jù)域外的測試數(shù)據(jù)。
研究團隊還分析了不同模型在學習復雜周期函數(shù)任務上的訓練過程,如下圖 4 所示,結果如下:1)FAN 在收斂速度和最終效果方面都遠遠超過其他模型。2)與 FAN 相比,F(xiàn)AN (Gated) 通常可以實現(xiàn)更快的收斂,但最終性能仍然相當。3)隨著訓練輪數(shù)的增加,雖然其他模型的訓練損失變得穩(wěn)定或逐漸減少,但它們的建模可能與測試數(shù)據(jù)的分布有很大差異,導致測試損失急劇增加。這一現(xiàn)象進一步證明了這些模型在捕捉周期性方面的缺陷。
圖 4 不同模型在學習復雜周期函數(shù)任務上的訓練和測試損失比較
2. 符號公式表示
從不同模型應用于數(shù)學和物理學中四個常見函數(shù)的表現(xiàn)中可以觀察到,雖然 KAN 在參數(shù)數(shù)量較少時能與 FAN 相媲美,但隨著參數(shù)數(shù)量的增加,其性能會顯著下降。相反,隨著參數(shù)數(shù)量的增加,F(xiàn)AN 擬合這些函數(shù)始終優(yōu)于其他基線,包括 MLP、KAN 和 Transformer,盡管這些函數(shù)中的許多只是部分周期性的或完全非周期性的。這些結果表明,F(xiàn)AN 不僅增強了對周期性的建模能力,同時也沒有損害擬合非周期性函數(shù)的能力。
圖 5 不同模型在符號公式表示任務中不同參數(shù)量的表現(xiàn)
3. 時間序列預測
如下表 2 所示,研究團隊在四個公共數(shù)據(jù)集上比較了結合 FAN 的 Transformer 和其他序列模型在時間序列預測任務上的表現(xiàn)。
在大多數(shù)情況下,與 LSTM、Mamba 和標準 Transformer 相比,結合 FAN 和 FAN(Gated)的 Transformer 在這些任務上取得了最佳性能。它們相對于標準 Transformer 的改進是顯著的,平均相對改進范圍為 14.3%-15.0% 的 MSE 和 7.6%-7.9% 的 MAE。這些結果表明,在神經(jīng)網(wǎng)絡中加入顯式周期模式編碼可以提高實際應用中的時間序列預測性能。
4. 語言建模
研究者報告了不同序列模型在四種情緒分析數(shù)據(jù)集上的性能比較,如表 3 所示。可以發(fā)現(xiàn),結合 FAN 和 FAN(Gated)的 Transformer 與標準 Transformer 和其他序列模型(例如 LSTM 和 Mamba)相比表現(xiàn)出明顯優(yōu)越的性能,尤其是在 IMDB、Sentiment140 和 Amazon Reviewers 數(shù)據(jù)集上的零樣本跨領域表現(xiàn)。結合 FAN 的 Transformer 在損失和準確度方面分別實現(xiàn)了最 14.65% 和 8.50% 的相對改進,同時將參數(shù)數(shù)量減少了約 14.16M。結果表明周期性建模在跨領域語言建模和情緒分析任務上具有提高有效性和泛化的潛力。
FAN 的表達能力和應用范圍
FAN 在理論上具有與 MLP 相同的表達能力,因為它也遵循通用近似定理,這確保了其函數(shù)近似能力。不同的是,F(xiàn)AN 通過明確納入周期性,引入了重要的功能增強,這是傳統(tǒng) MLP 所不具備的。FAN 的這一設計,不僅全面繼承了 MLP 的既有優(yōu)勢,還增強了其捕獲數(shù)據(jù)周期性特征的能力。因此,F(xiàn)AN 可以作為 MLP 的有力替代品。
當然,F(xiàn)AN 的實用性不僅限于明確需要周期性建模的任務,在更廣泛的應用中也展現(xiàn)出強大的適用性。研究團隊通過一系列現(xiàn)實世界任務的實驗證明,如符號公式表示、時間序列預測和語言建模等,F(xiàn)AN 的表現(xiàn)明顯優(yōu)于 MLP 和其他基線模型。
事實上,許多看似與周期性無直接關聯(lián)的機器學習任務,如數(shù)學運算和邏輯推理,實際上也可能隱藏著周期性。如果神經(jīng)網(wǎng)絡缺乏針對周期性特征進行建模的能力,則可能會損害其學習效率。從更深層次的角度來看,周期性不僅僅是一種數(shù)據(jù)特征,還反映了一種規(guī)律或知識,即允許抽象的規(guī)則和原理在不同上下文之間轉移和重用。
總結來看,F(xiàn)AN 與 MLP 相比,不僅增強了周期性建模能力,且參數(shù)量和計算量更少,有望成為基礎模型的關鍵組成部分。未來,北大研究團隊將進一步擴大 FAN 的應用范圍,增強其作為基礎模型組件的表現(xiàn),持續(xù)推動基礎模型的技術進步與創(chuàng)新發(fā)展。