ICLR'24 | 對比學(xué)習(xí)引入全周期時間序列信息提升長周期時序預(yù)測效果
這篇文章給大家介紹一下ICLR2024中,用對比學(xué)習(xí)強(qiáng)化時間序列預(yù)測的一篇工作。這篇文章是韓國KAIST發(fā)表的工作,通過在時間序列預(yù)測中引入對比學(xué)習(xí),實(shí)現(xiàn)對Encoder建模窗口以外全周期時間序列信息的應(yīng)用。
論文標(biāo)題:SELF-SUPERVISED CONTRASTIVE FORECASTING
下載地址:??https://arxiv.org/pdf/2402.02023v1.pdf??
1.背景
長周期時間序列預(yù)測一直是業(yè)內(nèi)研究的焦點(diǎn),但是現(xiàn)有的方法,大多數(shù)都是在一個時間窗口內(nèi)建模,即將原來的時間序列分割成多個片段,每個片段內(nèi)部單獨(dú)的進(jìn)行訓(xùn)練和預(yù)測。
比如原來的完整時間序列長度是10000,每個訓(xùn)練的時間序列長度可能只有200。這種只在一個窗口內(nèi)進(jìn)行建模的方式,沒有考慮完整時間序列的信息。這會導(dǎo)致,兩個時間序列片段本來屬于同一個完整的時間序列,有一些規(guī)律信息是相似的,但是模型在訓(xùn)練時卻無法捕捉這個信息。
如下圖所示,完整的時間序列存在一定的周期性,整個長度為14000。但是如果以一個正常的Encoder長度訓(xùn)練模型,提取的片段完全體現(xiàn)不出這種長周期性信息。
2.建模方法
為了解決這個問題,本文的核心提出了一種基于自相關(guān)系數(shù)的對比學(xué)習(xí)loss。自相關(guān)系數(shù)衡量了一個時間序列和自身T個時間步延遲后的相關(guān)系數(shù),自相關(guān)系數(shù)越大,說明時間序列具有更強(qiáng)的T周期性。比如一個完全以年為周期的時間序列,如果把時間序列移動365個時間步,將移動前后的時間序列計算相關(guān)系數(shù),其結(jié)果是1。
文中便利用這個信息優(yōu)化時間序列表示的學(xué)習(xí)。在一個batch內(nèi),時間序列是來自同一個完整時間序列的多個窗口(也可能來自多個,本文主要以一個完整序列進(jìn)行研究),并且這些窗口大概率具有比較大的時間間隔,因?yàn)槭请S機(jī)采樣的。
首先標(biāo)記出每兩個時間序列之間的時間間隔T,然后計算兩兩時間序列間隔為T的自相關(guān)系數(shù),這個自相關(guān)系數(shù)刻畫了這兩個時間序列的相關(guān)關(guān)系。以這個自相關(guān)系數(shù)為label,構(gòu)建對比學(xué)習(xí)的正樣對,并以對比學(xué)習(xí)為目標(biāo)優(yōu)化序列表征。
通過這種方式,實(shí)現(xiàn)了利用完整時間序列信息的目的,在表示空間中拉近在完整時間序列中T自相關(guān)性系數(shù)高的時間序列片段表征。
基于上述的對比學(xué)習(xí)框架,文中提出了一種新的長周期時間序列預(yù)測模型。在常見的基于趨勢項(xiàng)、季節(jié)項(xiàng)分解的時間序列預(yù)測模型結(jié)構(gòu)基礎(chǔ)上,引入了一個基于上述對比學(xué)習(xí)提取長周期表示的分支,最后由3個分支融合到一起進(jìn)行預(yù)測。
其中,長周期分支的Encoder部分使用了TCN模型,也可以替換成其他模型。通過ReVIN和逆向ReVIN操作對輸入的時間序列進(jìn)行標(biāo)準(zhǔn)化。最后以MSE為loss進(jìn)行模型優(yōu)化。
3.實(shí)驗(yàn)效果
在實(shí)驗(yàn)中,本文對比了多種長周期時間序列預(yù)測的效果,本文提出的方法取得了顯著的效果提升。
同時,文中也分析了在實(shí)驗(yàn)數(shù)據(jù)集中,窗口外的自相關(guān)性是廣泛存在的,也從一個角度驗(yàn)證了這種全周期時間序列信息提取的必要性。
本文轉(zhuǎn)載自 ??圓圓的算法筆記????,作者: Fareise
