Transformer時序預(yù)測哪些模塊有效,哪些模塊無效?模型內(nèi)部運行原理深入分析
今天給大家介紹一篇ICML 2025中比較有意思的論文,這篇文章深入研究了Transformer在時間序列中為什么有效,以及什么情況下效果比較差,Transformer中的哪些結(jié)構(gòu)對于時間序列預(yù)測最有效。
論文標(biāo)題:A Closer Look at Transformers for Time Series Forecasting: Understanding Why They Work and Where They Struggle
下載地址:??https://papers.cool/venue/kHEVCfES4Q@OpenReview??
1.研究背景
基于Transformer的時間序列預(yù)測是目前的主流方法,具體的,不同模型建模方式差異也很大。整體包括Point-wise、Patch-wise、Variate-wise等多種類型。哪種結(jié)構(gòu)才是最重要的,不同的模塊又發(fā)揮著怎樣的作用呢?這篇文章就進(jìn)行了深入的研究。
2.研究方法
除了對比不同模型結(jié)構(gòu)的MSE等擬合誤差外,文中引入了一個互信息指標(biāo)來衡量變量間關(guān)系對于預(yù)測的影響。這個指標(biāo)的核心是計算當(dāng)某個變量發(fā)生改變時,另一個變量的預(yù)測結(jié)果是否會發(fā)生比較大的變化。文中通過對變量增加不同組高斯噪聲改變某個變量,再根據(jù)修改后模型預(yù)測的目標(biāo)變量的方差來判斷這兩個變量之間的互信息。如果修改的變量和要觀察的變量相同,則可以用來作為變量內(nèi)部的互信息影響。通過對這個指標(biāo)的分析,可以看出模型在多大程度上捕捉到了變量間的關(guān)系和變量內(nèi)的關(guān)系。
此外,文中還構(gòu)建了一組人造數(shù)據(jù)集,控制數(shù)據(jù)集中intra-variate和inter-variate關(guān)系的比例,來彌補真實數(shù)據(jù)集中可能缺失的變量間關(guān)系部分。
3.實驗分析
下面重點介紹一下文中的實驗分析部分,解答了Transformer在時間序列應(yīng)用的一系列問題。
問題1——為什么Point-wise的建模方法效果最差:從下面實驗可以看出,Point-wise的效果最差,而其變量內(nèi)部的互信息很低(Intra MI),表明Point-wise建模方法其實無法建模出每個時間序列內(nèi)部各個點之間的關(guān)系信息。Point-wise方法雖然有很高的變量間互信息(Inter MI),但是對于提升效果沒什么幫助,另一方面可能也表明這些數(shù)據(jù)集是高度變量無關(guān)的。
文中進(jìn)一步對比了Intra MI、Inter MI和效果之間的關(guān)系,整體來看,Intra MI和擬合效果呈現(xiàn)正相關(guān)。而Point-wise的Intra MI很低,導(dǎo)致了其擬合效果較差。同時,從上述實驗結(jié)果也可以看出,雖然iTransformer等模型引入了變量間的attention建模,但實際Inter MI并不高。
問題2——Transformer中的什么結(jié)構(gòu)對效果影響最大:從上面的分析可以看到,變量內(nèi)部的關(guān)系建模對提升效果幫助最大。文中進(jìn)一步分析哪些模塊對效果影響最大,從下表可以看出,不加skip-connection的移除對效果影響最大。此外,Z-normalization對于提升預(yù)測效果也有非常大的幫助。
本文轉(zhuǎn)載自??圓圓的算法筆記??,作者:Fareise
