成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM用于時(shí)序預(yù)測(cè)真的不行,連推理能力都沒(méi)用到

人工智能 新聞
對(duì)于時(shí)序預(yù)測(cè)任務(wù),使用語(yǔ)言模型的常用方法的表現(xiàn)都接近或劣于基本的消融方法,但前者所需的計(jì)算量比后者多幾個(gè)數(shù)量級(jí)。

語(yǔ)言模型真的能用于時(shí)序預(yù)測(cè)嗎?根據(jù)貝特里奇頭條定律(任何以問(wèn)號(hào)結(jié)尾的新聞標(biāo)題,都能夠用「不」來(lái)回答),答案應(yīng)該是否定的。事實(shí)似乎也果然如此:強(qiáng)大如斯的 LLM 并不能很好地處理時(shí)序數(shù)據(jù)。

圖片

時(shí)序,即時(shí)間序列,顧名思義,是指一組按照時(shí)間發(fā)生先后順序進(jìn)行排列的數(shù)據(jù)點(diǎn)序列。

在很多領(lǐng)域,時(shí)序分析都很關(guān)鍵,包括疾病傳播預(yù)測(cè)、零售分析、醫(yī)療和金融。在時(shí)序分析領(lǐng)域,近期不少研究者都在研究如何使用大型語(yǔ)言模型(LLM)來(lái)分類、預(yù)測(cè)和檢測(cè)時(shí)間序列中的異常。這些論文假設(shè)擅長(zhǎng)處理文本中順序依賴關(guān)系的語(yǔ)言模型也能泛化用于時(shí)間序列數(shù)據(jù)中的順序依賴關(guān)系。這個(gè)假設(shè)并不令人意外,畢竟語(yǔ)言模型是現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域的香餑餑。

那么,語(yǔ)言模型究竟能給傳統(tǒng)時(shí)序任務(wù)帶去多大助益?

近日,弗吉尼亞大學(xué)和華盛頓大學(xué)一個(gè)團(tuán)隊(duì)嘗試解答了這一問(wèn)題,并最終給出了一個(gè)簡(jiǎn)單卻又重要的主張:對(duì)于時(shí)序預(yù)測(cè)任務(wù),使用語(yǔ)言模型的常用方法的表現(xiàn)都接近或劣于基本的消融方法,但前者所需的計(jì)算量比后者多幾個(gè)數(shù)量級(jí)。

圖片

  • 論文標(biāo)題:Are Language Models Actually Useful for Time Series Forecasting?
  • 論文地址:https://arxiv.org/pdf/2406.16964

這些發(fā)現(xiàn)是該團(tuán)隊(duì)通過(guò)大量消融研究得到的,其中揭示出當(dāng)前時(shí)序預(yù)測(cè)研究中存在一個(gè)「令人擔(dān)憂的趨勢(shì)」。

但該團(tuán)隊(duì)也表示:「我們的目標(biāo)并不是暗示語(yǔ)言模型永遠(yuǎn)無(wú)法用于時(shí)間序列。」事實(shí)上,近期一些研究表明語(yǔ)言和時(shí)間序列之間具有很好的互動(dòng)潛力,可以處理時(shí)間序列推理和社交理解等任務(wù)。

相反,他們的目標(biāo)是強(qiáng)調(diào)這一驚人發(fā)現(xiàn):對(duì)于已有的時(shí)間序列任務(wù),現(xiàn)有方法幾乎沒(méi)有用到預(yù)訓(xùn)練語(yǔ)言模型那與生俱來(lái)的推理能力。

實(shí)驗(yàn)設(shè)置

該團(tuán)隊(duì)使用了三種最先進(jìn)的時(shí)間序列預(yù)測(cè)方法,并為 LLM 提出了三種消融方法:w/o LLM、LLM2Attn、LLM2Trsf。

為了評(píng)估 LLM 在時(shí)間序列預(yù)測(cè)任務(wù)上的有效性,他們?cè)?8 個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上對(duì)這些方法進(jìn)行了測(cè)試。

用于語(yǔ)言模型和時(shí)間序列的參考方法

他們實(shí)驗(yàn)了三種近期的使用 LLM 進(jìn)行時(shí)間序列預(yù)測(cè)的方法。見表 2,這些方法使用的基礎(chǔ)模型為 GPT-2 或 LLaMA,同時(shí)使用了不同的對(duì)齊和微調(diào)策略。

圖片

OneFitsAll:OneFitsAll(有時(shí)也被稱為 GPT4TS)方法會(huì)先對(duì)輸入時(shí)間序列使用實(shí)例歸一化和 patching 技術(shù),然后將其饋送給一個(gè)線性層,以獲得用于語(yǔ)言模型的輸入表征。在訓(xùn)練期間,語(yǔ)言模型的多頭注意力和前饋層會(huì)被凍結(jié),而位置嵌入和層歸一化會(huì)得到優(yōu)化。最終層的作用是將語(yǔ)言模型的最終隱藏狀態(tài)轉(zhuǎn)換成預(yù)測(cè)結(jié)果。

Time-LLM:使用 Time-LLM 時(shí),輸入時(shí)間序列會(huì)被 patching 技術(shù) token 化,并且多頭注意力會(huì)將其與詞嵌入的低維表征對(duì)齊。之后,將這個(gè)對(duì)齊過(guò)程的輸出與描述性統(tǒng)計(jì)特征的嵌入一起輸送給一個(gè)凍結(jié)的預(yù)訓(xùn)練語(yǔ)言模型。然后,將該語(yǔ)言模型的輸出表征展平,并使其通過(guò)一個(gè)線性層,從而得到預(yù)測(cè)結(jié)果。

LLaTA:LLaTA 嵌入輸入時(shí)間序列的方式是將每個(gè)通道都視為一個(gè) token。該架構(gòu)的一半是「文本分支」,其使用交叉注意力來(lái)將時(shí)間序列表征與語(yǔ)言模型的詞嵌入的低維表征對(duì)齊。然后將該表征傳遞給一個(gè)凍結(jié)的預(yù)訓(xùn)練語(yǔ)言模型,得到一個(gè)「文本式預(yù)測(cè)」。同時(shí),該架構(gòu)的「時(shí)間」分支會(huì)基于輸入時(shí)間序列為預(yù)訓(xùn)練語(yǔ)言模型學(xué)習(xí)一個(gè)低秩適應(yīng)器,從而得到一個(gè)用于推理的「時(shí)間預(yù)測(cè)」。該模型包含考慮這些表征之間的相似度的額外損失項(xiàng)。

該團(tuán)隊(duì)提出的消融方法

對(duì)于基于 LLM 的預(yù)測(cè)器,為了將 LLM 的影響隔離開,該團(tuán)隊(duì)提出了三種消融方法:移除 LLM 組件或?qū)⑵涮鎿Q成一個(gè)簡(jiǎn)單模塊。

圖片

具體來(lái)說(shuō),對(duì)于上述三種方法中的每一種,他們都進(jìn)行了以下三項(xiàng)修改:

w/o LLM,見圖 1b。完全移除語(yǔ)言模型,直接將輸入 token 傳遞給參考方法的最終層。

LLM2Attn,見圖 1c。將語(yǔ)言模型替換成單個(gè)隨機(jī)初始化的多頭注意力層。

LLM2Trsf,見圖 1d。將語(yǔ)言模型替換成單個(gè)隨機(jī)初始化的 Transformer 模塊。

在上述消融研究中,預(yù)測(cè)器的其余部分都保持不變(可訓(xùn)練)。比如,如圖 1b 所示,在移除了 LLM 之后,輸入編碼會(huì)被直接傳遞給輸出映射。而如圖 1c 和 1d 所示,在將 LLM 替換成注意力或 Transformer 后,它們會(huì)與原始方法的剩余結(jié)構(gòu)一起獲得訓(xùn)練。

數(shù)據(jù)集和評(píng)估指標(biāo)

基準(zhǔn)數(shù)據(jù)集。評(píng)估使用了以下真實(shí)世界數(shù)據(jù)集:ETT(其包含 4 個(gè)子集:ETTm1、ETTm2、ETTh1、ETTh2)、Illness、Weather、Traffic、Electricity。表 1 給出了這些數(shù)據(jù)集的統(tǒng)計(jì)情況。另外還有 Exchange Rate、Covid Deaths、Taxi (30 min)、NN5 (Daily) 和 FRED-MD。

圖片

評(píng)估指標(biāo)。該研究報(bào)告的評(píng)估指標(biāo)是預(yù)測(cè)時(shí)序值和真實(shí)時(shí)序值之間的平均絕對(duì)誤差(MAE)和均方誤差(MSE)。

結(jié)果

具體來(lái)說(shuō),該團(tuán)隊(duì)探究了以下研究問(wèn)題(RQ):

  • (RQ1)預(yù)訓(xùn)練語(yǔ)言模型是否有助于提升預(yù)測(cè)性能?
  • (RQ2)基于 LLM 的方法是否值得其消耗的計(jì)算成本?
  • (RQ3)語(yǔ)言模型預(yù)訓(xùn)練是否有助于執(zhí)行預(yù)測(cè)任務(wù)的性能?
  • (RQ4)LLM 能否表征時(shí)間序列中的順序依賴關(guān)系?
  • (RQ5)LLM 是否有助于少樣本學(xué)習(xí)?
  • (RQ6)性能從何而來(lái)?

預(yù)訓(xùn)練語(yǔ)言模型是否有助于提升預(yù)測(cè)性能?(RQ1)

實(shí)驗(yàn)結(jié)果表明,預(yù)訓(xùn)練 LLM 對(duì)時(shí)間序列預(yù)測(cè)任務(wù)來(lái)說(shuō)還不是很有用。

圖片

圖片

總體而言,如表 3 所示,在 8 個(gè)數(shù)據(jù)集和 2 個(gè)指標(biāo)上,消融方法在 26/26 案例中優(yōu)于 Time-LLM 方法,在 22/26 案例中優(yōu)于 LLaTA,在 19/26 案例中優(yōu)于 OneFitsAll。

總之,很難說(shuō) LLM 可以有效地用于時(shí)間序列預(yù)測(cè)。

基于 LLM 的方法是否值得其消耗的計(jì)算成本?(RQ2)

這里,根據(jù)這些方法的名義性能來(lái)評(píng)估它們的計(jì)算強(qiáng)度。參考方法中的語(yǔ)言模型使用了數(shù)億乃至數(shù)十億參數(shù)來(lái)執(zhí)行時(shí)間序列預(yù)測(cè)。即使當(dāng)這些語(yǔ)言模型的參數(shù)凍結(jié)時(shí),它們?cè)谟?xùn)練和推理時(shí)依然會(huì)有很大的計(jì)算開銷。

舉個(gè)例子,Time-LLM 有 6642 M 參數(shù),在 Weather 數(shù)據(jù)集上耗時(shí) 3003 分鐘才完成訓(xùn)練,而消融方法僅有 0.245 M 參數(shù),平均訓(xùn)練時(shí)間僅有 2.17 分鐘。表 4 給出了在 ETTh1 和 Weather 數(shù)據(jù)集上訓(xùn)練其它方法的相關(guān)信息。

圖片

至于推理時(shí)間,這里的做法是除以最大批量大小,以估計(jì)每個(gè)示例的推理時(shí)間。平均而言,相比于修改后的模型,Time-LLM、OneFitsAl、LLaTA 所用的推理時(shí)間多 28.2、2.3、1.2 倍。

圖片

圖 3 給出了一些示例,其中綠色標(biāo)記(消融方法)通常低于紅色標(biāo)記(LLM),并且集中于左側(cè),這說(shuō)明它們計(jì)算成本更低但預(yù)測(cè)性能更好。

總之,在時(shí)間序列預(yù)測(cè)任務(wù)上,LLM 的計(jì)算強(qiáng)度無(wú)法為性能帶來(lái)相應(yīng)的提升。

語(yǔ)言模型預(yù)訓(xùn)練是否有助于執(zhí)行預(yù)測(cè)任務(wù)的性能?(RQ3)

評(píng)估結(jié)果表明,對(duì)于時(shí)間序列預(yù)測(cè)任務(wù)而言,使用大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練實(shí)在沒(méi)有必要。為了檢驗(yàn)預(yù)訓(xùn)練期間學(xué)到的知識(shí)能否給預(yù)測(cè)性能帶來(lái)有意義的提升,該團(tuán)隊(duì)實(shí)驗(yàn)了在時(shí)間序列數(shù)據(jù)上,對(duì) LLaTA 進(jìn)行不同組合的預(yù)訓(xùn)練和微調(diào)的效果。


  • 預(yù)訓(xùn)練 + 微調(diào)(Pre+FT):這是原始方法,即在時(shí)間序列數(shù)據(jù)上微調(diào)預(yù)訓(xùn)練語(yǔ)言模型。對(duì)于這里的 LLaTA,做法是凍結(jié)基礎(chǔ)語(yǔ)言模型,學(xué)習(xí)一個(gè)低秩適應(yīng)器(LoRA)。
  • 隨機(jī)初始化 + 微調(diào)(woPre+FT):預(yù)訓(xùn)練得到的文本知識(shí)是否有助于時(shí)間序列預(yù)測(cè)?這里,隨機(jī)初始化語(yǔ)言模型的權(quán)重(由此清除了預(yù)訓(xùn)練的效果),再在微調(diào)數(shù)據(jù)集上從頭開始訓(xùn)練 LLM。
  • 預(yù)訓(xùn)練 + 不使用微調(diào)(Pre+woFT):在時(shí)間序列數(shù)據(jù)上進(jìn)行微調(diào)又能給預(yù)測(cè)性能帶來(lái)多大提升呢?這里是凍結(jié)語(yǔ)言模型,同時(shí)放棄學(xué)習(xí) LoRA。這能反映語(yǔ)言模型自身處理時(shí)間序列的性能。
  • 隨機(jī)初始化 + 無(wú)微調(diào)(woPre+woFT):很明顯,這就是將輸入時(shí)間序列隨機(jī)投射到一個(gè)預(yù)測(cè)結(jié)果。該結(jié)果被用作與其它方法進(jìn)行比較的基準(zhǔn)。

圖片

整體結(jié)果見表 5。在 8 個(gè)數(shù)據(jù)集上,依照 MAE 和 MSE 指標(biāo),「預(yù)訓(xùn)練 + 微調(diào)」有三次表現(xiàn)最佳,而「隨機(jī)初始化 + 微調(diào)」獲得了 8 次最佳。這說(shuō)明語(yǔ)言知識(shí)對(duì)時(shí)間序列預(yù)測(cè)的幫助有限。但是,「預(yù)訓(xùn)練 + 無(wú)微調(diào)」與基準(zhǔn)「隨機(jī)初始化 + 無(wú)微調(diào)」各自有 5 和 0 次最佳,這說(shuō)明語(yǔ)言知識(shí)對(duì)微調(diào)過(guò)程的幫助也不大。

總之,預(yù)訓(xùn)練得到的文本知識(shí)對(duì)時(shí)間序列預(yù)測(cè)的幫助有限。

LLM 能否表征時(shí)間序列中的順序依賴關(guān)系?(RQ4)

大多數(shù)使用 LLM 來(lái)微調(diào)位置編碼的時(shí)間序列預(yù)測(cè)方法都有助于理解序列中時(shí)間步驟的位置。該團(tuán)隊(duì)預(yù)計(jì),對(duì)于一個(gè)有優(yōu)良位置表征的時(shí)間序列模型,如果將輸入的位置打亂,那么其預(yù)測(cè)性能將會(huì)大幅下降。他們實(shí)驗(yàn)了三種打亂時(shí)間序列數(shù)據(jù)的方法:隨機(jī)混洗整個(gè)序列(sf-all)、僅隨機(jī)混洗前一半序列(sf-half)、交換序列的前半和后半部分(ex-half)。結(jié)果見表 6。

圖片

輸入混洗對(duì)基于 LLM 的方法與其消融方法的影響差不太多。這說(shuō)明 LLM 在表征時(shí)間序列中的順序依賴關(guān)系方面并沒(méi)有什么突出能力。

LLM 是否有助于少樣本學(xué)習(xí)?(RQ5)

評(píng)估結(jié)果表明,LLM 對(duì)少樣本學(xué)習(xí)場(chǎng)景而言意義不大。

他們的評(píng)估實(shí)驗(yàn)是取用每個(gè)數(shù)據(jù)集的 10%,再訓(xùn)練模型及其消融方法。具體來(lái)說(shuō),這里評(píng)估的是 LLaMA(Time-LLM)。結(jié)果見表 7。

圖片

圖片

可以看到,有無(wú) LLM 的表現(xiàn)差不多 —— 各自都有 8 個(gè)案例表現(xiàn)更好。該團(tuán)隊(duì)也使用基于 GPT-2 的方法 LLaTA 進(jìn)行了類似的實(shí)驗(yàn)。結(jié)果見表 8,這里消融方法在少樣本場(chǎng)景中的表現(xiàn)還優(yōu)于 LLM。

性能從何而來(lái)?(RQ6)

這一節(jié)評(píng)估的是 LLM 時(shí)間序列模型中常用的編碼技術(shù)。結(jié)果發(fā)現(xiàn),將 patching 和單層注意力組合起來(lái)是一種簡(jiǎn)單卻有效的選擇。

前面發(fā)現(xiàn)對(duì)基于 LLM 的方法進(jìn)行簡(jiǎn)單的消融并不會(huì)降低其性能。為了理解這一現(xiàn)象的原因,該團(tuán)隊(duì)研究了 LLM 時(shí)間序列任務(wù)中常用的一些編碼技術(shù),比如 patching 和分解。一種基本的 Transformer 模塊也可用于輔助編碼。

結(jié)果發(fā)現(xiàn),一種組合了 patching 和注意力的結(jié)構(gòu)在小數(shù)據(jù)集(時(shí)間戳少于 100 萬(wàn))上的表現(xiàn)優(yōu)于其它大部分編碼方法,甚至能與 LLM 方法媲美。

圖片

其詳細(xì)結(jié)構(gòu)如圖 4 所示,其中涉及將「實(shí)例歸一化」用于時(shí)間序列,然后進(jìn)行 patching 和投射。然后,在 patch 之間使用一層注意力進(jìn)行特征學(xué)習(xí)。對(duì)于 Traffic(約 1500 萬(wàn))和 Electricity(約 800 萬(wàn))等更大的數(shù)據(jù)集,則使用了基本 Transformer 的單層線性模型的編碼表現(xiàn)更優(yōu)。在這些方法中,最后還要使用單層線性層來(lái)投射時(shí)間序列嵌入,從而得到預(yù)測(cè)結(jié)果。

總之,patching 對(duì)編碼而言非常重要。此外,基本的注意力和 Transformer 模塊也能為編碼帶來(lái)有效助益。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2021-09-02 10:40:24

索引Update語(yǔ)句

2024-07-05 15:06:00

2024-01-02 10:20:42

清華大學(xué)人工智能

2024-04-22 08:49:13

大語(yǔ)言模型LLMAI

2023-05-03 20:27:49

獨(dú)立預(yù)測(cè)聯(lián)合預(yù)測(cè)多元時(shí)序

2024-04-11 07:10:59

大語(yǔ)言模型AI人工智能

2020-03-23 10:45:32

C語(yǔ)言C++Web

2025-03-03 09:40:00

2025-03-07 09:34:14

2023-09-01 15:22:49

人工智能數(shù)據(jù)

2024-12-23 07:20:00

LLM逆向思維語(yǔ)言模型

2025-02-25 08:06:05

2023-11-03 13:07:00

AI模型

2024-10-08 13:19:56

2025-04-24 10:26:40

2010-01-14 10:06:30

C++模板

2018-09-14 10:10:31

區(qū)塊鏈數(shù)字貨幣比特幣

2024-03-26 00:48:38

2025-05-23 09:18:25

2025-06-05 11:51:14

NVIDIAProRLLLM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品久久久久久久人人人人传媒 | 午夜婷婷激情 | 福利社午夜影院 | 成人午夜在线 | www亚洲一区 | 国产亚洲精品一区二区三区 | 亚洲一区二区中文字幕 | 中文字幕成人在线 | 久久久久久久久久久久久久国产 | 亚洲国产精品日韩av不卡在线 | 91麻豆精品国产91久久久久久久久 | 国产高清视频在线观看 | 日本免费黄色 | 逼逼视频 | 国产欧美久久精品 | 在线观看亚洲 | 男女视频在线观看免费 | 久久精品国产一区二区电影 | 国产成人综合久久 | 欧美国产精品一区二区 | 久久国产精品一区 | 777zyz色资源站在线观看 | 伊人二区 | 久草免费电影 | 久久久久久久久久久一区二区 | 福利视频一区二区 | 欧美日韩在线不卡 | 国产欧美在线观看 | 欧美日韩一本 | 四虎免费视频 | 草樱av | 久久国产精品网站 | 久久99久久99精品免视看婷婷 | 免费一区 | 水蜜桃久久夜色精品一区 | 羞视频在线观看 | 国产高清免费 | 亚洲高清视频在线观看 | 神马久久久久久久久久 | 男女激情网 | 午夜成人免费视频 |