成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Tokenformer:下一代Transformer架構

人工智能 新聞
本次介紹的論文標題為:Tokenformer: Rethinking Transformer Scaling with Tokenized Model Parameters,” 顧名思義,本文提出了Tokenformer架構,其優勢在于增量學習能力:在增加模型尺寸時,無需從頭開始重新訓練模型,大大降低了成本。

圖片

1. 導言

Transformer架構已經成為當今大模型的基石,不管是NLP還是CV領域,目前的SOTA模型基本都是基于Transformer架構的,比如NLP中目前的各種知名大模型,或者CV中的Vit等模型

本次介紹的論文標題為:Tokenformer: Rethinking Transformer Scaling with Tokenized Model Parameters,” 顧名思義,本文提出了Tokenformer架構,其優勢在于增量學習能力:在增加模型尺寸時,無需從頭開始重新訓練模型,大大降低了成本。 本文代碼已開源。

2. Transformer vs Tokenformer - 結構比較

首先我們從頂層設計的角度,對于傳統 Transformer 架構和 本文提出的 Tokenformer 架構進行比較,如下圖所示:

圖片

2.1 Transformer 架構

自注意力機制是Transformer的核心,主要包括以下幾個步驟:

圖片圖片

圖片圖片圖片

如上圖所示,一個Transformer層主要由兩個部分組成:

  1. 多頭自注意力機制(Multi-Head Self-Attention) :輸入首先經過一個線性投影模塊,以計算注意力模塊的輸入,即矩陣 Q、K 和 V。然后利用子注意力機制計算出Token之間的權重
  2. 前饋神經網絡(Feed-Forward Network, FFN) :對于注意力層的輸出進行投影,計算出下一層的輸入

2.2 Transformer 架構的缺陷

傳統Transformer在處理token與參數的交互時,依賴于固定數量的線性投影,這限制了模型的擴展性,這句話本身較難理解,因此接下來詳細論述架構的缺陷。

2.2.1 模型的拓展性是什么

模型的拓展性(Scalability)指的是模型在需要更強大性能時,能夠有效地增加其規模(如參數數量、計算能力等)而不導致性能下降或計算成本過高的能力。

簡而言之,拓展性好的模型可以在保持或提升性能的同時,靈活且高效地擴大其規模。

2.2.2 為什么說傳統Transformer的固定線性投影限制了模型的擴展性

3. TokenFormer的解決方案

為了解決模型維度固定導致的模型缺乏拓展性的問題,TokenFormer提出了一種創新的方法,通過將模型參數視為tokens,并利用注意力機制來處理token與參數之間的交互,從而實現更高效、更靈活的模型擴展。

圖片

3.1 模型參數Token化

參數Tokens:原本transformer模型的Q、K、V投影層不再是固定的矩陣,而是轉化為一組向量(tokens),例如:

圖片

3.2. Token-Parameter Attention(Pattention)層

Pattention層是TokenFormer的核心創新,它通過注意力機制來處理token與參數之間的交互。從而替代原本的Q,K,V,具體過程如下:

圖片

圖片圖片圖片圖片

4. 總體結構

為方便閱讀再把圖扔到這:

圖片

與傳統transformer結構相同,其總體上也包括兩層:多頭自注意力層和前饋網絡層。

4.1 多頭自注意力(Single-Head Variant:

圖片

4.2 前饋網絡(Feed-Forward Network, FFN)

圖片

這里也可以看到,相對于Transformer,Tokenformer就是將所有的投影層從固定的全連接網絡也變成了Pattention層。

4.3 與transformer的比較

圖片

下方公式左側代表傳統Transformer的自注意力機制,右側代表tokenformer的自注意力機制:

圖片

從上邊的圖中可以清楚看到,相對于transformer,本論文只是將投影層與連接層替換成了新的層。

5. 可擴展性

之前說過,相對于transformer,tokenformer主要是解決可拓展性的問題,那么假設我們要增加參數數量,或者要增加輸入維度,tokenformer如何進行增量學習?

圖片

圖片

這樣,模型的參數量可以按需擴展。

初始化策略:新增的參數tokens初始化為零,類似于LoRA技術(Low-Rank Adaptation),確保模型能夠在保持原有知識的基礎上,快速適應新的參數擴展。

6. 實驗部分

圖片

與從零重訓練的 Transformer 相比,如上圖所示,Y 軸代表模型性能,X 軸代表訓練成本。藍線代表使用 3000 億個 token 從頭開始訓練的 Transformer 模型,不同的圓圈大小代表不同的模型大小。

其他線條代表 Tokenformer 模型,不同顏色代表不同的Token數量。例如,紅線從 1.24 億個參數開始,擴展到 14 億個參數,其訓練集為從300B token中抽樣出的30B Token。最終版本模型的性能與相同規模的 Transformer 相當,但訓練成本卻大大降低。

黃線顯示,使用 60B個Token來訓練的增量版本在更低的訓練成本下,性能已經比 Transformer 更優。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2013-07-27 21:28:44

2013-06-27 11:21:17

2015-10-19 17:15:33

網絡架構/華三

2020-09-16 10:28:54

邊緣計算云計算數據中心

2020-09-27 17:27:58

邊緣計算云計算技術

2013-09-09 16:28:36

2016-01-26 11:58:12

2012-07-16 09:27:19

BYOD下一代IT

2012-07-16 10:08:31

下一代ITBYOD

2023-04-28 10:02:50

2015-10-15 10:30:32

2020-06-02 08:05:28

智能電表蜂窩物聯網NB-IoT

2018-09-11 08:00:00

DevOpsAIOps機器學習

2013-05-10 09:36:04

下一代網絡銳捷網絡簡網絡

2021-05-22 23:01:21

人工智能網絡安全

2024-02-26 14:46:53

移動計算人工智能5G

2012-12-10 16:15:43

下一代防火墻NGWF

2013-04-25 13:21:30

2015-09-28 16:24:34

YARNHadoop計算

2018-09-25 07:00:50

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人jvid在线播放 | 91精品国产高清一区二区三区 | 欧美二区在线 | 成人三级在线播放 | 亚洲精品不卡 | 日本免费在线看 | 亚洲a一区 | 国产一区二区在线播放 | 日韩1区2区 | 欧美日韩亚洲视频 | 91av视频在线免费观看 | av在线播放国产 | 精品在线观看一区二区 | 你懂的国产 | 一片毛片| 日韩精品一区中文字幕 | 国产情侣啪啪 | 毛片网站免费观看 | 国产一区二区免费在线 | 久久久久成人精品免费播放动漫 | 人人干人人干人人 | 伊人网站 | 九九九精品视频 | 国产一区在线看 | www.日本三级| 国产999精品久久久影片官网 | 在线视频一区二区三区 | 免费一区二区三区在线视频 | 在线观看免费毛片 | 国产福利在线播放麻豆 | 久草精品视频 | 国产精品视频一区二区三区四区国 | 日韩视频中文字幕 | 国产一区二区三区亚洲 | 国产精品一区二区在线 | 国产精品视频在线观看 | 成人av在线播放 | 国产精品欧美一区二区 | 精品国产免费一区二区三区演员表 | 婷婷开心激情综合五月天 | 亚洲精品福利视频 |