TFB:2024最新時間序列預測Benchmark
今天給大家介紹一篇VLDB 2024中時間序列預測Benchmark的工作,文章由華東師范大學,華為云,奧爾堡大學聯(lián)合發(fā)布。該論文提出了TFB(時間序列預測基準測試),這是一個新穎的自動化基準測試框架,旨在通過包含來自十個不同領域的數(shù)據(jù)集,并提供一個靈活、可擴展且一致的評估流程,對包括統(tǒng)計學習、機器學習和深度學習在內(nèi)的多種時間序列預測方法進行全面且無偏見的評估。
該論文呼吁testing不使用drop-last操作,這一影響多個時序Baselines性能的代碼bug!
論文標題:TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods**
論文鏈接:??https://arxiv.org/pdf/2403.20150.pdf??
代碼鏈接:??https://github.com/decisionintelligence/TFB??
1、引言
這篇論文試圖解決的問題包括:
問題1. 數(shù)據(jù)領域覆蓋不足:現(xiàn)有的時間序列預測方法評估通常只覆蓋有限的領域,無法全面反映方法在多樣數(shù)據(jù)集下的表現(xiàn)。
問題2. 對傳統(tǒng)方法的刻板影響:現(xiàn)有的評估往往忽略了傳統(tǒng)方法,如統(tǒng)計學習,機器學習方法,大部分只關注深度學習方法。
問題3. 缺乏一致和靈活的流程。不同的評估基準使用不同的實驗設置,如數(shù)據(jù)劃分、歸一化方法選擇、超參數(shù)設置,drop-last操作的使用,這使得公平的比較變得困難。此外,大多數(shù)測試基準流程不靈活,無法支持統(tǒng)計學習、機器學習和深度學習方法的同時評估。
2、drop-last操作說明
現(xiàn)有的一些方法在測試階段使用“刪除最后一個批次的數(shù)據(jù)”的技巧。為了加速測試,通常將數(shù)據(jù)分成批次。然而,如果我們丟棄最后一個不完整批次:其中包含的樣本數(shù)量少于批次大小,這會導致不公平的比較。例如,在圖4中,ETTh2具有長度為2,880的測試序列長度,我們使用大小為512的回溯窗口預測336個未來時間步。如果我們選擇批次大小為32、64和128,那么最后一個批次中的樣本數(shù)量分別為17、49和113。除非所有方法都使用相同的批次大小,否則丟棄這些最后一個批次的測試樣本是不公平的,因為測試集的實際使用長度不一致。圖4顯示了在ETTh2上使用不同批次大小和“刪除最后一個批次”技巧的PatchTST、DLinear和FEDformer的測試結果。我們觀察到,在變化批次大小時,方法的性能會發(fā)生變化。
因此該論文呼吁testing不使用drop-last操作,該論文在testing中沒有使用drop-last操作。
3、時間序列特征說明
趨勢性(Trend):趨勢性是指時間序列隨著時間的推移而發(fā)生的長期變化或模式。直觀地說,它代表了數(shù)據(jù)漂移的大致方向。
季節(jié)性(Seasonality):季節(jié)性是指時間序列中的變化以特定的間隔重復的現(xiàn)象。
平穩(wěn)性(Stationarity):平穩(wěn)性是指時間序列的各階統(tǒng)計特征(如均值、方差…)不隨時間的變化而變化。
漂移性(Shifting):漂移性是指時間序列的概率分布隨時間變化的現(xiàn)象。這種行為可能源于系統(tǒng)內(nèi)部的結構變化、外部影響或隨機事件的發(fā)生。
轉(zhuǎn)移(Transition):轉(zhuǎn)移捕捉了時間序列中存在的規(guī)律性和可識別的固定特征,例如趨勢、周期性的明確表現(xiàn),或者季節(jié)性和趨勢同時存在。
相關性(Correlation):相關性是指多變量時間序列中不同變量可能共享的可能性共同的趨勢或模式,表明它們受到相似的因素或具有某種潛在的關系。
這些特征的公式可從原論文中獲取。
4、TFB:基準細節(jié)
5、實驗
單變量時間序列預測
多變量時間序列預測
不同特征上的性能
根據(jù)實驗結果,總結了不同方法在各種數(shù)據(jù)特征上的表現(xiàn)和排名。討論了基于Transformer的方法、線性方法以及考慮通道依賴性的方法在不同場景下的性能差異。研究了深度學習方法在多變量時間序列預測中的推理時間和參數(shù)數(shù)量的表現(xiàn)。提供了關于如何選擇適合特定數(shù)據(jù)集和場景的預測方法的見解。
? ?
6、關鍵發(fā)現(xiàn)
在某些數(shù)據(jù)集中,統(tǒng)計方法VAR和LinearRegression的表現(xiàn)優(yōu)于最近提出的SOTA方法。
當數(shù)據(jù)集呈現(xiàn)增長趨勢或明顯漂移時,基于線性的方法表現(xiàn)良好。
基于Transformer的方法在具有明顯季節(jié)性、非線性模式以及更明顯模式或強內(nèi)部相關性的數(shù)據(jù)集上優(yōu)于基于線性的方法。
考慮通道之間依賴關系的方法,與假設通道獨立性的方法相比,有時可以提高多變量時間序列預測的性能,特別是在具有強相關性的數(shù)據(jù)集上。未來的文章應該關注如何提取、利用變量間關系來進行預測。
測試過程中使用drop-last操作會對實驗結果產(chǎn)生很大影響,造成不公平比較現(xiàn)象,論文呼吁testing不使用drop-last操作,這一影響多個時序Baselines性能的代碼bug!
7、總結
本文提出了TFB,這是一個專門設計用于進一步提高時間序列預測方法公平比較的基準,包括單變量時間序列預測和多變量時間序列預測。TFB在8,068個單變量時間序列上測評了超過20種UTSF方法以及在25個多變量數(shù)據(jù)集上對14種MTSF方法進行了測評。
TFB確定、收集和處理先前提出的時間序列數(shù)據(jù)集,以確定涵蓋不同領域和特征的全面的數(shù)據(jù)集,并以標準化格式組織它們。然后,設計實驗來研究不同方法在不同特征數(shù)據(jù)集上的表現(xiàn)。
TFB提供了一個自動化的端到端流程,用于評估預測方法,簡化和標準化加載時間序列數(shù)據(jù)集、配置實驗和評估方法的步驟。這簡化了研究人員的評估過程。此外,所有數(shù)據(jù)集和代碼都可在https://github.com/decisionintelligence/TFB上獲得。
TFB評估、比較了一系列方法,涵蓋了統(tǒng)計學習、機器學習和深度學習方法以及豐富多樣的評估任務和策略。并將評估結果總結為一些關鍵發(fā)現(xiàn)。
本文轉(zhuǎn)載自??? 圓圓的算法筆記???,作者: Fareise
