成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024

發布于 2024-6-11 12:48
瀏覽
0收藏

今年2月,Google Research的研究人員提出了一個時序預測基礎模型TimesFM,在1000億個「真實世界時間點」上進行預訓練,僅僅用200M的參數規模就展現出了超強的零樣本學習能力。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

論文鏈接:??https://arxiv.org/pdf/2310.10688.pdf??


當時權重還沒有發布,就已經有人在Reddit社區中表達了難以克制的興奮。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

5月8日,這篇研究又掀起了一陣波瀾。


官方博客宣布這篇文章被ICML 2024接收,而且在GitHub和HuggingFace上公開了源代碼和模型權重。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

開源后的短短幾天內,GitHub上項目標星數已經達到了1.5k。


DeepMind首席科學家Jeff Dean轉發了官方推特,為TimesFM的研究成果背書。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

在官宣的消息下面,網友們紛紛為谷歌這波公開模型的操作點贊:


「非常酷,希望大多數公司經常做這樣的事。」

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

「非常高興看到谷歌擁抱開源模型和HuggingFace社區。」

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

也有網友稱贊TimesFM的零樣本表現。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

讓時序模型實現「零樣本」預測

時間序列預測在零售、金融、制造業、醫療保健和自然科學等各個領域無處不在,比如預測股市、降雨量、流感病例、GDP等各種各樣的指標,是一種「基于過去預測未來」的科學。


然而,時序預測并不是一件容易的事,模型需要處理各種復雜且動態的模式,比如循環周期、季節性、頻率、趨勢、異常值、噪音等等。


傳統的深度學習方法需要大量數據和領域知識,卻只能針對特定的任務和數據集對模型進行訓練和微調。


與此同時,如ChatGPT等模型的問世讓我們看到了LLM超強的零樣本學習能力,只需要給出提示,不需要進一步訓練或微調即可讓模型完成各種類型的語言任務。


這就引出了一個問題:時間序列的基礎模型能否像自然語言一樣存在?在大量時間序列數據上進行預訓練的大模型,能否像在大量語料上訓練過的GPT一樣,對未見數據進行準確預測?


這就是谷歌研究人員聲稱要讓TimesFM實現的目標。

「類GPT」架構

相比非常容易大量爬取的文本數據,時間序列方面的公共數據集非常稀缺。而且為了訓練通用的時序模型,數據集中應該包含大量的(百萬級別)來自各種領域的多樣化數據,且有不同的時間粒度,比如每小時、每日、每周等。


TimesFM的研究團隊設法從三個特別渠道找到了這樣的時序數據:

  • Google Trends中的隨時間變化的搜索興趣重新調整為時間序列
  • Wikipedia頁面每小時瀏覽量隨時間變化的數據
  • 合成數據:使用傳統的ARMA流程創建數據集


通過大量的數據集創建和評估工作,他們得到了包含1000億個數據點的數據集。


雖然和Llama含有1T token的語料庫依舊存在一定差距,但在時序預測領域是前所未有的大規模數據集。


在模型架構方面,TimesFM的靈感來自于Vision Transformer(ViT)和GPT,采用了decoder-only架構,主要由三個部分組成:輸入編碼器、解碼器和輸出解碼器。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

對于輸入數據的表達,同時借鑒了計算機視覺中的patch以及自然語言中的token兩個概念。


輸入的時間序列數據會先被輸入編碼器表示為token,再被分割為許多相同長度的patch,再將每個patch映射為作為模型輸入的token。


解碼器是模型的核心組件,應用了自注意力和位置編碼機制,讓模型可以學習序列中不同token之間的依賴關系。最后,輸出解碼器將輸出token映射為最終的預測。


而且,TimesFM的關鍵功能之一是,它可以生成可變長度的輸出token,這意味著模型可以預測任意數量的未來時間點,而不需要任何重新訓練或微調。這是通過在模型輸入中加入預測長度(PL)token實現的。

預測結果媲美監督學習

研究人員使用Monash Forecasting Archive來評估TimesFM的「開箱即用」性能,該數據集包含來自各個領域的數萬個時間序列,如交通、天氣和需求預測,覆蓋頻率從幾分鐘到每年的數據。


可以看到,zero-shot(ZS)TimesFM比大多數監督方法都要好,包括最近的深度學習模型。論文還對比了TimesFM和GPT-3.5使用llmtime(ZS)提出的特定提示技術進行預測,結果證明了TimesFM的性能優于llmtime(ZS)。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

在Monash數據集上,TimesFM(ZS)與其他有監督和零樣本方法的比例MAE(越低越好)


大多數Monash數據集都是短期或中期的,也就是說預測長度不會太長;研究人員還測試了TimesFM對常用基準長期預測對最先進的基線PatchTST(和其他長期預測基線)。


研究人員繪制了ETT數據集上的MAE,用于預測未來96和192個時間點的任務,在每個數據集的最后一個測試窗口上計算指標。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

TimesFM(ZS)的最后一個窗口MAE(越低越好)相對于llmtime(ZS)以及ETT數據集上的長期預測基線


可以看到,TimesFM不僅超過了llmtime(ZS)的性能,而且與在相應數據集上顯式訓練的有監督PatchTST模型的性能相匹配。


本文轉自 新智元 ,作者:?新智元???


原文鏈接:??https://mp.weixin.qq.com/s/2YUwUfkRzNdreKo02gGgcg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美成人精品一区二区男人看 | 一区二区三区四区av | 国产999精品久久久 午夜天堂精品久久久久 | 女朋友的闺蜜3韩国三级 | 欧美成人a| 欧美在线国产精品 | 狠狠操你 | 国产精品久久久久久久久久久久午夜片 | 亚洲欧美一区二区三区视频 | 国产午夜精品久久久久 | 久久久亚洲综合 | 精品国产一区二区三区免费 | 一区二区三区四区在线视频 | 最新国产视频 | 亚洲最大av | 在线视频成人 | 黄色三级免费 | 毛片久久久 | 亚洲国产中文在线 | 在线观看中文字幕av | 日韩在线播放中文字幕 | 国产精品a久久久久 | 日韩精品一区中文字幕 | 亚洲午夜精品视频 | 日韩精品在线看 | 日韩一级精品视频在线观看 | 欧美日韩精选 | 国产一级在线 | 久久精品色欧美aⅴ一区二区 | 天天综合永久 | 日韩国产精品一区二区三区 | 一区二区三区精品视频 | 日本理论片好看理论片 | 男人的天堂亚洲 | 成人免费一区二区三区视频网站 | 一级高清视频 | 久久久久久综合 | www.夜夜骑.com | 天堂av影院| 午夜小影院 | 涩爱av一区二区三区 |