谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024

duhorse

發布于 2024-6-11 12:48

瀏覽

0收藏

今年2月，Google Research的研究人員提出了一個時序預測基礎模型TimesFM，在1000億個「真實世界時間點」上進行預訓練，僅僅用200M的參數規模就展現出了超強的零樣本學習能力。

谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024-AI.x社區

論文鏈接：??https://arxiv.org/pdf/2310.10688.pdf??

當時權重還沒有發布，就已經有人在Reddit社區中表達了難以克制的興奮。

谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024-AI.x社區

5月8日，這篇研究又掀起了一陣波瀾。

官方博客宣布這篇文章被ICML 2024接收，而且在GitHub和HuggingFace上公開了源代碼和模型權重。

谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024-AI.x社區

開源后的短短幾天內，GitHub上項目標星數已經達到了1.5k。

DeepMind首席科學家Jeff Dean轉發了官方推特，為TimesFM的研究成果背書。

谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024-AI.x社區

在官宣的消息下面，網友們紛紛為谷歌這波公開模型的操作點贊：

「非常酷，希望大多數公司經常做這樣的事。」

谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024-AI.x社區

「非常高興看到谷歌擁抱開源模型和HuggingFace社區。」

谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024-AI.x社區

也有網友稱贊TimesFM的零樣本表現。

谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024-AI.x社區

讓時序模型實現「零樣本」預測

時間序列預測在零售、金融、制造業、醫療保健和自然科學等各個領域無處不在，比如預測股市、降雨量、流感病例、GDP等各種各樣的指標，是一種「基于過去預測未來」的科學。

然而，時序預測并不是一件容易的事，模型需要處理各種復雜且動態的模式，比如循環周期、季節性、頻率、趨勢、異常值、噪音等等。

傳統的深度學習方法需要大量數據和領域知識，卻只能針對特定的任務和數據集對模型進行訓練和微調。

與此同時，如ChatGPT等模型的問世讓我們看到了LLM超強的零樣本學習能力，只需要給出提示，不需要進一步訓練或微調即可讓模型完成各種類型的語言任務。

這就引出了一個問題：時間序列的基礎模型能否像自然語言一樣存在？在大量時間序列數據上進行預訓練的大模型，能否像在大量語料上訓練過的GPT一樣，對未見數據進行準確預測？

這就是谷歌研究人員聲稱要讓TimesFM實現的目標。

「類GPT」架構

相比非常容易大量爬取的文本數據，時間序列方面的公共數據集非常稀缺。而且為了訓練通用的時序模型，數據集中應該包含大量的（百萬級別）來自各種領域的多樣化數據，且有不同的時間粒度，比如每小時、每日、每周等。

TimesFM的研究團隊設法從三個特別渠道找到了這樣的時序數據：

Google Trends中的隨時間變化的搜索興趣重新調整為時間序列
Wikipedia頁面每小時瀏覽量隨時間變化的數據
合成數據：使用傳統的ARMA流程創建數據集

通過大量的數據集創建和評估工作，他們得到了包含1000億個數據點的數據集。

雖然和Llama含有1T token的語料庫依舊存在一定差距，但在時序預測領域是前所未有的大規模數據集。

在模型架構方面，TimesFM的靈感來自于Vision Transformer（ViT）和GPT，采用了decoder-only架構，主要由三個部分組成：輸入編碼器、解碼器和輸出解碼器。

谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024-AI.x社區

對于輸入數據的表達，同時借鑒了計算機視覺中的patch以及自然語言中的token兩個概念。

輸入的時間序列數據會先被輸入編碼器表示為token，再被分割為許多相同長度的patch，再將每個patch映射為作為模型輸入的token。

解碼器是模型的核心組件，應用了自注意力和位置編碼機制，讓模型可以學習序列中不同token之間的依賴關系。最后，輸出解碼器將輸出token映射為最終的預測。

而且，TimesFM的關鍵功能之一是，它可以生成可變長度的輸出token，這意味著模型可以預測任意數量的未來時間點，而不需要任何重新訓練或微調。這是通過在模型輸入中加入預測長度（PL）token實現的。

預測結果媲美監督學習

研究人員使用Monash Forecasting Archive來評估TimesFM的「開箱即用」性能，該數據集包含來自各個領域的數萬個時間序列，如交通、天氣和需求預測，覆蓋頻率從幾分鐘到每年的數據。

可以看到，zero-shot（ZS）TimesFM比大多數監督方法都要好，包括最近的深度學習模型。論文還對比了TimesFM和GPT-3.5使用llmtime（ZS）提出的特定提示技術進行預測，結果證明了TimesFM的性能優于llmtime（ZS）。

谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024-AI.x社區

在Monash數據集上，TimesFM（ZS）與其他有監督和零樣本方法的比例MAE（越低越好）

大多數Monash數據集都是短期或中期的，也就是說預測長度不會太長；研究人員還測試了TimesFM對常用基準長期預測對最先進的基線PatchTST（和其他長期預測基線）。

研究人員繪制了ETT數據集上的MAE，用于預測未來96和192個時間點的任務，在每個數據集的最后一個測試窗口上計算指標。

谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024-AI.x社區

TimesFM（ZS）的最后一個窗口MAE（越低越好）相對于llmtime（ZS）以及ETT數據集上的長期預測基線

可以看到，TimesFM不僅超過了llmtime（ZS）的性能，而且與在相應數據集上顯式訓練的有監督PatchTST模型的性能相匹配。

本文轉自新智元，作者：?新智元???

原文鏈接:??https://mp.weixin.qq.com/s/2YUwUfkRzNdreKo02gGgcg??

標簽

谷歌

開源

贊

回復

舉報

回復

相關推薦

2萬億訓練數據，120億參數！開源大模型Stable LM 2-12B

Aceryt ? 4069瀏覽 ? 0回復
字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024

Crystalcxt ? 2726瀏覽 ? 0回復
TFB：2024最新時間序列預測Benchmark

海因斯DK ? 7168瀏覽 ? 0回復
ICML 2024 | 大語言模型預訓練新前沿：「最佳適配打包」重塑文檔處理標準

輕薄滴假象 ? 2709瀏覽 ? 0回復
ICML 2024 | 脫離LoRA架構，訓練參數大幅減少，新型傅立葉微調來了

輕薄滴假象 ? 3693瀏覽 ? 0回復
ICML 2024：從視覺語言基礎模型反饋中進行強化學習

AIGC最前線 ? 4227瀏覽 ? 0回復
時間序列預測近期核心研究點總結

海因斯DK ? 4879瀏覽 ? 0回復
ICML 2024 Oral｜外部引導的深度聚類新范式

輕薄滴假象 ? 3155瀏覽 ? 0回復
ETH北航字節推出LoRA新范式 | ICML 2024

Crystalcxt ? 2737瀏覽 ? 0回復
ICML 2024：AI對齊與可變和可影響獎勵函數

AIGC最前線 ? 2903瀏覽 ? 0回復
ACL2024：一個開源的通用語言代理訓練框架LUMOS

AIGC最前線 ? 3053瀏覽 ? 0回復
ICML 2024｜Transformer究竟如何推理？基于樣例還是基于規則

輕薄滴假象 ? 3060瀏覽 ? 0回復
ICML 2024高分論文 | 零階優化器微調大模型，大幅降低內存

輕薄滴假象 ? 3176瀏覽 ? 0回復
快手開源圖生視頻模型LivePortrait，等待生成時間僅需10秒，棄擴散改用隱式關鍵點框架技術，網友：強得可怕

51CTO技術棧 ? 6343瀏覽 ? 0回復
一分鐘可填寫500個表格，數據搜集快1000倍！網友：微軟、谷歌快點跟進

51CTO技術棧 ? 3724瀏覽 ? 0回復
專用于法律的兩個開源大模型，最高1410億參數

Aceryt ? 3408瀏覽 ? 0回復
成本降低1000倍！微軟將開源超強RAG— LazyGraphRAG

Aceryt ? 2757瀏覽 ? 0回復
ChunkRAG：比CRAG提升10個點準確率

大語言模型論文跟蹤 ? 2498瀏覽 ? 0回復
蘋果開源通用視覺模型：創新訓練方法，超1000顆星

Aceryt ? 1950瀏覽 ? 0回復

duhorse

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024

讓時序模型實現「零樣本」預測

「類GPT」架構

預測結果媲美監督學習

目錄