成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MoE與Mamba強強聯合,將狀態空間模型擴展到數百億參數

人工智能 新聞
近期也有一些研究者在探索將 SSM 和 Mamba 與其它方法組合起來創造更強大的架構,比如機器之心曾報告過《Mamba 可以替代 Transformer,但它們也能組合起來使用》。

狀態空間模型(SSM)是近來一種備受關注的 Transformer 替代技術,其優勢是能在長上下文任務上實現線性時間的推理、并行化訓練和強大的性能。而基于選擇性 SSM 和硬件感知型設計的 Mamba 更是表現出色,成為了基于注意力的 Transformer 架構的一大有力替代架構。

近期也有一些研究者在探索將 SSM 和 Mamba 與其它方法組合起來創造更強大的架構,比如機器之心曾報告過《Mamba 可以替代 Transformer,但它們也能組合起來使用》。

近日,波蘭一個研究團隊發現,如果將 SSM 與混合專家系統(MoE/Mixture of Experts)組合起來,可望讓 SSM 實現大規模擴展。MoE 是目前常用于擴展 Transformer 的技術,比如近期的 Mixtral 模型就使用了這一技術,參閱機器之心文章

這個波蘭研究團隊給出的研究成果是 MoE-Mamba,即將 Mamba 和混合專家層組合起來的模型。

圖片

論文地址:https://arxiv.org/pdf/2401.04081.pdf

MoE-Mamba 能同時提升 SSM 和 MoE 的效率。而且該團隊還發現,當專家的數量發生變化時,MoE-Mamba 的行為是可預測的。

該團隊也進行了實驗論證,如圖 1 所示,結果表明:相比于 Mamba,MoE-Mamba 達到同等性能時所需的訓練步驟數少 2.2 倍,這彰顯了新方法相較于 Transformer 和 Transformer-MoE 的潛在優勢。這些初步結果也指出了一個頗具潛力的研究方向:SSM 也許可以擴展到數百億參數!

圖片

相關研究

狀態空間模型

狀態空間模型(SSM)是一類用于序列建模的架構。這些模型的思想源自控制論領域,可被看作是 RNN 和 CNN 的組合。盡管它們具有相當大的優勢,但也有一些問題,因此難以成為語言建模任務的主導架構。但是,近期的一些研究突破卻讓深度 SSM 可以擴展到數十億參數,同時還能維持計算效率和強大的性能表現。

Mamba

Mamba 是基于 SSM 構建的模型,能實現線性時間的推理速度(對上下文長度而言),并且其還通過硬件感知型設計實現了高效的訓練流程。Mamba 采用了一種工作高效型的并行掃描方法,可以減輕循環的序列性的影響,而融合 GPU 操作則可無需實現擴展狀態。反向傳播所必需的中間狀態不會被保存下來,而是會在反向通過過程中被重新計算,由此可以降低內存需求。Mamba 優于注意力機制的優勢在推理階段尤其顯著,因為其不僅能降低計算復雜度,而且內存使用量還不會取決于上下文長度。

Mamba 能解決序列模型的效率和效果之間的根本性權衡,這就凸顯了狀態壓縮的重要性。高效的模型必需要小狀態,而有效的模型所需的狀態應當包含上下文的所有關鍵信息。不同于其它 SSM 對時間和輸入不變性的需求,Mamba 引入了一種選擇機制,可以控制信息沿序列維度傳播的方式。這一設計選擇的靈感來自對選擇性復制和歸納頭等合成任務的直觀理解,讓模型可以分辨和保留關鍵信息,同時濾除無關信息。

研究發現,Mamba 有能力高效地利用更長的上下文(長達 1M token),并且隨著上下文長度增長,預訓練困惑度也會得到改善。Mamba 模型是由堆疊的 Mamba 塊構成的,在 NLP、基因組學、音頻等多個不同領域都取得了非常好的結果,其性能可以媲美和超越已有的 Transformer 模型。因此,Mamba 成為了通用序列建模骨干模型的一個有力候選模型,參閱《五倍吞吐量,性能全面包圍 Transformer:新架構 Mamba 引爆 AI 圈》。

混合專家

混合專家(MoE)這類技術能極大提升模型的參數數量,同時不會影響模型推理和訓練所需的 FLOPs。MoE 最早由 Jacobs et al. 于 1991 年提出,并在 2017 年由 Shazeer et al. 開始用于 NLP 任務。

MoE 有一個優勢:激活很稀疏 —— 對于處理的每個 token,只會用到模型的一小部分參數。由于其計算需求,Transformer 中的前向層已經變成了多種 MoE 技術的標準目標。

研究社區已經提出了多種方法用于解決 MoE 的核心問題,即將 token 分配給專家的過程,也稱路由(routing)過程。目前有兩種基本的路由算法:Token Choice 和 Expert Choice。其中前者是將每個 token 路由到一定數量(K)的專家,至于后者則是路由到每個專家的 token 數量是固定的。

Fedus et al. 在 2022 年的論文《Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity》中提出的 Switch 是一種 Token Choice 架構,其是將每個 token 路由到單個專家(K=1),而他們使用該方法將 Transformer 的參數規模成功擴增至了 1.6 萬億。波蘭的這個團隊在實驗中也采用了這種 MoE 設計。

最近,MoE 也開始進入開源社區,比如 OpenMoE。

項目地址:https://github.com/XueFuzhao/OpenMoE

尤其值得一提的是 Mistral 開源的 Mixtral 8×7B,其性能可比肩 LLaMa 2 70B,同時所需的推理計算預算只有后者的約六分之一。

模型架構

盡管 Mamba 的主要底層機制與 Transformer 中使用的注意力機制大不相同,但 Mamba 保留了 Transformer 模型的高層級、基于模塊的結構。使用這一范式,由相同模塊構成的一層或多層會彼此堆疊在一起,而每一層的輸出都會被添加到殘差流(residual stream)中,見圖 2。之后,這個殘差流的最終值會被用于預測語言建模任務的下一個 token。

MoE-Mamba 利用了這兩種架構的兼容能力。如圖 2 所示,在 MoE-Mamba 中,每間隔一個 Mamba 層就會被替換成一個基于 Switch 的 MoE 前饋層。

圖片

不過該團隊也注意到這一設計和《Mamba: Linear-time sequence modeling with selective state spaces》的設計有些相似;后者交替堆疊了 Mamba 層和前饋層,但得到的模型相比于單純的 Mamba 還略有不及。該設計在圖 1 中被記為 Mamba-MLP。

MoE-Mamba 分開了 Mamba 層執行的每個 token 的無條件處理和 MoE 層執行的有條件處理;其中的無條件處理可高效地將序列的整個上下文整合到一個內部表征中,而有條件處理可為每個 token 使用最相關的專家。這種將有條件處理和無條件處理交替起來的思路在一些基于 MoE 的模型中已經得到了應用,不過它們通常是交替基本的和 MoE 的前饋層。

主要結果

訓練設置

該團隊比較了 5 種不同設置:基本 Transformer、Mamba、Mamba-MLP、MoE 和 MoE-Mamba。

在大多數 Transformers 中,前饋層包含 8dm2 個參數,而 Mamba 論文中則讓 Mamba 更小一些(約 6dm2),這樣兩個 Mamba 層的參數數量與一個前饋層和一個注意力層加起來差不多。為了讓 Mamba 和新模型中每個 token 的活動參數數量大致一樣,該團隊將每個專家前向層的大小縮小到了 6dm2。除了嵌入層和解除嵌入(unembedding)層,所有模型都是每個 token 使用大約 2600 萬參數。訓練過程使用了 65 億個 token,訓練步驟數為 100k。

訓練使用的數據集是 English C4 數據集,任務是預測下一 token。文本的 token 化使用了 GPT2 tokenizer。表 3 給出了超參數的完整列表。

圖片

結果

表 1 給出了訓練結果。MoE-Mamba 的表現顯著優于普通 Mamba 模型。

圖片

值得注意的是,MoE-Mamba 只用僅僅 46% 的訓練步驟就達到了與普通 Mamba 同等的結果水平。由于學習率是針對普通 Mamba 進行調整的,因此可以預計,如果再針對 MoE-Mamba 對訓練流程進行一番優化,MoE-Mamba 的表現還會更好。

消融研究

為了評估 Mamba 是否能隨專家數量的增長而很好地擴展,研究者比較了使用不同數量專家的模型。

圖 3 展示了使用不同數量的專家時的訓練運行步驟情況。

圖片

表 2 給出了 100k 步驟后的結果。

圖片

這些結果表明新提出的方法能隨專家數量而很好地擴展。如果專家的數量為 8 或更多,新模型的最終性能優于普通 Mamba。由于 Mamba-MLP 比普通 Mamba 差,可以預見使用少量專家的 MoE-Mamba 的性能表現會比 Mamba 差。當專家數為 32 時,新方法得到了最佳結果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-24 09:36:43

模型架構

2023-07-18 09:54:43

模型語言

2013-02-21 09:41:49

CitusData數據庫Postgres

2023-11-16 16:33:43

谷歌人工智能

2017-02-09 16:39:54

百度

2015-08-13 13:44:21

優化多核

2009-11-12 15:19:54

2009-11-12 15:30:44

2009-02-26 10:50:04

NetApp虛擬化VMware ESX

2023-03-08 14:14:51

微軟ChatGPT

2017-05-26 23:09:47

2022-03-23 16:28:18

微軟NVIDIAGPU

2009-02-25 16:50:00

2009-09-08 11:05:00

JRuby入門Ruby

2021-01-01 09:46:43

微軟Windows 10Windows

2022-11-10 08:02:41

GitOpsDevOpsKubernetes

2020-09-25 22:29:06

OPPO終端美的

2020-06-05 14:30:03

CephCPU 線程

2023-03-03 14:08:51

網絡安全首席信息安全官

2022-11-01 08:00:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美成人久久 | 色婷婷综合久久久久中文一区二区 | 国产三区精品 | 国产精品久久9 | 成人久久18免费网站 | 国产视频中文字幕在线观看 | 久色视频在线观看 | 国产精品久久久久久久久久 | 久久综合狠狠综合久久综合88 | 亚洲一区二区三区视频 | 国产精品激情 | 毛片av免费在线观看 | 久久九九影视 | 色综合久久久 | 日本福利视频 | 久草在线视频中文 | 精品欧美一区二区精品久久久 | 国产日韩一区二区三免费高清 | 自拍偷拍亚洲一区 | 在线免费中文字幕 | 国产激情视频 | 欧美videosex性极品hd | 国产精品黄色 | 国产一区二区三区免费 | 三级特黄特色视频 | 一区二区国产精品 | 国产久视频 | 免费a网站 | 91婷婷韩国欧美一区二区 | 久久麻豆精品 | 成人精品一区二区三区 | a欧美| 夜夜爽99久久国产综合精品女不卡 | 日本在线一区二区 | 91福利影院 | 日韩欧美在线免费观看视频 | 久久久久香蕉视频 | 久久精品亚洲欧美日韩精品中文字幕 | 精品欧美一区二区三区久久久 | 欧美白人做受xxxx视频 | 亚洲免费人成在线视频观看 |