Transformer時序預(yù)測哪些模塊有效，哪些模塊無效？模型內(nèi)部運行原理深入分析

發(fā)布于 2025-7-10 06:27

瀏覽

0收藏

今天給大家介紹一篇ICML 2025中比較有意思的論文，這篇文章深入研究了Transformer在時間序列中為什么有效，以及什么情況下效果比較差，Transformer中的哪些結(jié)構(gòu)對于時間序列預(yù)測最有效。

Transformer時序預(yù)測哪些模塊有效，哪些模塊無效？模型內(nèi)部運行原理深入分析-AI.x社區(qū)

論文標(biāo)題：A Closer Look at Transformers for Time Series Forecasting: Understanding Why They Work and Where They Struggle

下載地址：??https://papers.cool/venue/kHEVCfES4Q@OpenReview??

1.研究背景

基于Transformer的時間序列預(yù)測是目前的主流方法，具體的，不同模型建模方式差異也很大。整體包括Point-wise、Patch-wise、Variate-wise等多種類型。哪種結(jié)構(gòu)才是最重要的，不同的模塊又發(fā)揮著怎樣的作用呢？這篇文章就進(jìn)行了深入的研究。

Transformer時序預(yù)測哪些模塊有效，哪些模塊無效？模型內(nèi)部運行原理深入分析-AI.x社區(qū)

2.研究方法

除了對比不同模型結(jié)構(gòu)的MSE等擬合誤差外，文中引入了一個互信息指標(biāo)來衡量變量間關(guān)系對于預(yù)測的影響。這個指標(biāo)的核心是計算當(dāng)某個變量發(fā)生改變時，另一個變量的預(yù)測結(jié)果是否會發(fā)生比較大的變化。文中通過對變量增加不同組高斯噪聲改變某個變量，再根據(jù)修改后模型預(yù)測的目標(biāo)變量的方差來判斷這兩個變量之間的互信息。如果修改的變量和要觀察的變量相同，則可以用來作為變量內(nèi)部的互信息影響。通過對這個指標(biāo)的分析，可以看出模型在多大程度上捕捉到了變量間的關(guān)系和變量內(nèi)的關(guān)系。

此外，文中還構(gòu)建了一組人造數(shù)據(jù)集，控制數(shù)據(jù)集中intra-variate和inter-variate關(guān)系的比例，來彌補真實數(shù)據(jù)集中可能缺失的變量間關(guān)系部分。

Transformer時序預(yù)測哪些模塊有效，哪些模塊無效？模型內(nèi)部運行原理深入分析-AI.x社區(qū)

3.實驗分析

下面重點介紹一下文中的實驗分析部分，解答了Transformer在時間序列應(yīng)用的一系列問題。

問題1——為什么Point-wise的建模方法效果最差：從下面實驗可以看出，Point-wise的效果最差，而其變量內(nèi)部的互信息很低（Intra MI），表明Point-wise建模方法其實無法建模出每個時間序列內(nèi)部各個點之間的關(guān)系信息。Point-wise方法雖然有很高的變量間互信息（Inter MI)，但是對于提升效果沒什么幫助，另一方面可能也表明這些數(shù)據(jù)集是高度變量無關(guān)的。

Transformer時序預(yù)測哪些模塊有效，哪些模塊無效？模型內(nèi)部運行原理深入分析-AI.x社區(qū)

文中進(jìn)一步對比了Intra MI、Inter MI和效果之間的關(guān)系，整體來看，Intra MI和擬合效果呈現(xiàn)正相關(guān)。而Point-wise的Intra MI很低，導(dǎo)致了其擬合效果較差。同時，從上述實驗結(jié)果也可以看出，雖然iTransformer等模型引入了變量間的attention建模，但實際Inter MI并不高。

Transformer時序預(yù)測哪些模塊有效，哪些模塊無效？模型內(nèi)部運行原理深入分析-AI.x社區(qū)

問題2——Transformer中的什么結(jié)構(gòu)對效果影響最大：從上面的分析可以看到，變量內(nèi)部的關(guān)系建模對提升效果幫助最大。文中進(jìn)一步分析哪些模塊對效果影響最大，從下表可以看出，不加skip-connection的移除對效果影響最大。此外，Z-normalization對于提升預(yù)測效果也有非常大的幫助。

Transformer時序預(yù)測哪些模塊有效，哪些模塊無效？模型內(nèi)部運行原理深入分析-AI.x社區(qū)