全面超越Transformer!清華螞蟻推出純MLP架構(gòu),長(zhǎng)短程時(shí)序預(yù)測(cè)大幅提升
Transformer很強(qiáng),Transformer很好,但Transformer在處理時(shí)序數(shù)據(jù)時(shí)存在一定的局限性。
如計(jì)算復(fù)雜度高、對(duì)長(zhǎng)序列數(shù)據(jù)處理不夠高效等問(wèn)題。
而在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,時(shí)序預(yù)測(cè)成為許多領(lǐng)域中不可或缺的一部分。
于是乎,螞蟻同清華聯(lián)合推出一種純MLP架構(gòu)的模型TimeMixer,在時(shí)序預(yù)測(cè)上的性能和效能兩方面全面超越了Transformer模型。
他們結(jié)合對(duì)時(shí)序趨勢(shì)周期特性的分解以及多尺度混合的設(shè)計(jì)模式,不僅在長(zhǎng)短程預(yù)測(cè)性能上大幅提升,而且基于純MLP架構(gòu)實(shí)現(xiàn)了接近于線性模型的極高效率。
來(lái)康康是如何做到的?
純MLP架構(gòu)超越Transformer
TimeMixer模型采用了一個(gè)多尺度混合架構(gòu),旨在解決時(shí)間序列預(yù)測(cè)中的復(fù)雜時(shí)間變化問(wèn)題。
該模型主要采用全MLP(多層感知機(jī))架構(gòu),由過(guò)去可分解混合Past Decomposable Mixing (PDM) 和未來(lái)多預(yù)測(cè)器混合Future Multipredictor Mixing (FMM) 兩大塊構(gòu)成,能夠有效利用多尺度序列信息。
其中PDM模塊,負(fù)責(zé)提取過(guò)去的信息并將不同尺度上的季節(jié)性和趨勢(shì)組分分別混合。
PDM以季節(jié)和趨勢(shì)混合為動(dòng)力,將詳細(xì)的季節(jié)信息由細(xì)到粗逐步聚合,并利用較粗尺度的先驗(yàn)知識(shí)深入挖掘宏觀趨勢(shì)信息,最終實(shí)現(xiàn)過(guò)去信息提取中的多尺度混合。
FMM則是多個(gè)預(yù)測(cè)器的集合,其中不同的預(yù)測(cè)器基于不同尺度的過(guò)去信息,使 FMM 能夠集成混合多尺度序列的互補(bǔ)預(yù)測(cè)功能。
實(shí)驗(yàn)效果
為了驗(yàn)證TimeMixer的性能,團(tuán)隊(duì)在包含長(zhǎng)程預(yù)測(cè),短程預(yù)測(cè),多元時(shí)序預(yù)測(cè)以及具有時(shí)空?qǐng)D結(jié)構(gòu)的18組基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括電力負(fù)荷預(yù)測(cè)、氣象數(shù)據(jù)預(yù)測(cè)和股票價(jià)格預(yù)測(cè)等。
實(shí)驗(yàn)結(jié)果表明,TimeMixer在多個(gè)指標(biāo)上全面超越了當(dāng)前最先進(jìn)的Transformer模型,具體表現(xiàn)如下:
預(yù)測(cè)精度:在所有測(cè)試的數(shù)據(jù)集上,TimeMixer均表現(xiàn)出更高的預(yù)測(cè)精度。以電力負(fù)荷預(yù)測(cè)為例,TimeMixer相比于Transformer模型,平均絕對(duì)誤差(MAE)降低了約15%,均方根誤差(RMSE)降低了約12%。
計(jì)算效率:得益于MLP結(jié)構(gòu)的高效計(jì)算特性,TimeMixer在訓(xùn)練時(shí)間和推理時(shí)間上均顯著優(yōu)于Transformer模型。實(shí)驗(yàn)數(shù)據(jù)顯示,在相同硬件條件下,TimeMixer的訓(xùn)練時(shí)間減少了約30%,推理時(shí)間減少了約25%。
模型可解釋性:通過(guò)引入Past Decomposable Mixing和Future Multipredictor Mixing技術(shù),TimeMixer能夠更好地解釋不同時(shí)間尺度上的信息貢獻(xiàn),使得模型的決策過(guò)程更加透明和易于理解。
泛化能力:在多個(gè)不同類型的數(shù)據(jù)集上進(jìn)行測(cè)試,TimeMixer均表現(xiàn)出良好的泛化能力,能夠適應(yīng)不同的數(shù)據(jù)分布和特征。這表明TimeMixer在實(shí)際應(yīng)用中具有廣泛的適用性。
長(zhǎng)程預(yù)測(cè):為了確保模型比較的公平性,使用標(biāo)準(zhǔn)化參數(shù)進(jìn)行實(shí)驗(yàn),調(diào)整輸入長(zhǎng)度、批量大小和訓(xùn)練周期。此外,鑒于各種研究的結(jié)果通常源于超參數(shù)優(yōu)化,該研究還包括了綜合參數(shù)搜索的結(jié)果。
短程預(yù)測(cè):多變量數(shù)據(jù)
短程預(yù)測(cè):?jiǎn)巫兞繑?shù)據(jù)
消融實(shí)驗(yàn):為了驗(yàn)證 TimeMixer 每個(gè)組件的有效性,我們?cè)谒?18 個(gè)實(shí)驗(yàn)基準(zhǔn)上對(duì) Past-Decomposable-Mishing 和 Future-Multipredictor-Mishing 模塊中的每種可能的設(shè)計(jì)進(jìn)行了詳細(xì)的消融研究。
模型效率:團(tuán)隊(duì)將訓(xùn)練階段的運(yùn)行內(nèi)存和時(shí)間與最新最先進(jìn)的模型進(jìn)行比較,其中 TimeMixer 在 GPU 內(nèi)存和運(yùn)行時(shí)間方面,對(duì)于各種系列長(zhǎng)度(范圍從 192 到 3072)始終表現(xiàn)出良好的效率),此外還具有長(zhǎng)期和短期預(yù)測(cè)任務(wù)一致的最先進(jìn)性能。
值得注意的是,TimeMixer 作為深度模型,在效率方面表現(xiàn)出接近全線性模型的結(jié)果。這使得 TimeMixer 在各種需要高模型效率的場(chǎng)景中大有前途。
好了,TimeMixer為時(shí)序預(yù)測(cè)領(lǐng)域帶來(lái)了新的思路,也展示了純MLP結(jié)構(gòu)在復(fù)雜任務(wù)中的潛力。
未來(lái),隨著更多優(yōu)化技術(shù)和應(yīng)用場(chǎng)景的引入,相信TimeMixer將進(jìn)一步推動(dòng)時(shí)序預(yù)測(cè)技術(shù)的發(fā)展,為各行業(yè)帶來(lái)更大的價(jià)值。
本項(xiàng)目獲得了螞蟻集團(tuán)智能引擎事業(yè)部旗下AI創(chuàng)新研發(fā)部門(mén)NextEvo支持。
螞蟻集團(tuán)NextEvo-優(yōu)化智能團(tuán)隊(duì)負(fù)責(zé)螞蟻運(yùn)籌優(yōu)化、時(shí)序預(yù)測(cè)以及預(yù)測(cè)優(yōu)化相結(jié)合的智能決策等技術(shù)方向,團(tuán)隊(duì)工作涵蓋算法技術(shù)、平臺(tái)服務(wù)和解決方案的研發(fā)。
論文地址:https://arxiv.org/abs/2405.14616v1
論文代碼:https://github.com/kwuking/TimeMixer