成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

單一作者論文,谷歌提出百萬專家Mixture,超越密集前饋、稀疏MoE

人工智能 新聞
釋放進一步擴展 Transformer 的潛力,同時還可以保持計算效率。

標準 Transformer 架構中的前饋(FFW)層會隨著隱藏層寬度的增加而導致計算成本和激活內存的線性增加。在大語言模型(LLM)體量不斷增大的現在,稀疏混合專家(MoE)架構已成為解決此問題的可行方法,它將模型大小與計算成本分離開來。很多新興的 MoE 模型都可以實現相同體量之上,更好的性能與更強大的表現。

最近發現的細粒度 MoE 擴展定律表明,更高的粒度可帶來更好的性能。然而由于計算和優化方面的挑戰,現有的 MoE 模型僅限于低數量專家。

本周二,Google DeepMind 的新研究引入了一種參數高效的專家檢索機制,其利用乘積密鑰技術從一百萬個微型專家中進行稀疏檢索

圖片


鏈接:https://arxiv.org/abs/2407.04153

該方法嘗試通過用于路由的學習索引結構有效地串聯到大量微小專家,從而將計算成本與參數計數分離。與密集的 FFW、粗粒度 MoE 和產品密鑰存儲器 (PKM) 層相比,表現出卓越的效率。

這項工作引入了參數高效專家檢索(PEER) 架構(parameter efficient expert retrieval),利用產品密鑰(product key)檢索高效地路由到大量專家,將計算成本與參數量分離。這種設計在實驗中展示了卓越的計算性能水平,將其定位為用于擴展基礎模型的密集 FFW 層的競爭性替代方案。這項工作的主要貢獻是:

極端 MoE 設置的探索:與以前的 MoE 研究中對少數大型專家的關注不同,這項工作研究了眾多小型專家的未充分探索的情況。

用于路由的學習索引結構:首次證明學習索引結構可以有效地路由到超過一百萬個專家。

新的層設計:將產品密鑰路由與單神經元專家相結合,我們引入了 PEER 層,它可以擴展層容量而無需大量計算開銷。實證結果表明,與密集 FFW、粗粒度 MoE 和產品密鑰內存 (PKM) 層相比,其效率更高。

綜合消融研究:我們研究了 PEER 的不同設計選擇(例如專家數量、活動參數、頭數量和查詢批量規范化)對語言建模任務的影響。

方法介紹

本節中,研究者詳解了參數高效專家檢索 (PEER) 層,它一種混合專家架構,使用路由中的產品密鑰和單神經元 MLP 作為專家。下圖 2 展示了 PEER 層內的計算過程。

圖片

PEER 層概覽。從形式上看,PEER 層是一個函數 f : R^n → R^m,它由三部分組成:一個由 N 個專家組成的池 E := {e_i}^N_i=1,其中每個專家 e_i : R^n → R^m 與 f 共享相同的簽名;一組相應的 N 個產品密鑰 K := {k_i}^N_i=1 ? R^d ;以及一個查詢網絡 q : R^n → R^d,它將輸入向量 x ∈ R^n 映射到查詢向量 q (x)。

令 T_k 表示 top-k 運算符。給定輸入 x,首先檢索 k 個專家的子集,這些專家的相應產品鍵與查詢 q (x) 具有最高的內積。

圖片


然后將非線性激活(例如 softmax 或 sigmoid)應用于前 k 個專家的查詢鍵內積,以獲得路由分數。

圖片


最后通過對路由分數加權的專家輸出進行線性組合來計算輸出。

圖片


產品密鑰檢索。由于研究者打算使用大量專家(N ≥ 10^6),單純計算公式 1 中的前 k 個索引可能成本非常高,因此應用了產品密鑰檢索技術。他們不使用 N 個獨立的 d 維向量作為密鑰 k_i,而是通過連接兩個獨立的 d/2 維子密鑰集(即 C, C ′ ? R d/2) 中的向量來創建它們:

圖片

參數高效專家和多頭檢索。與其他 MoE 架構不同,這些架構通常將每個專家的隱藏層設置為與其他 FFW 層相同的大小。而在 PEER 中,每個專家 e_i 都是一個單例 MLP,換句話說,它只有一個帶有單個神經元的隱藏層:

圖片

研究者沒有改變單個專家的規模,而是使用了多頭檢索來調整 PEER 層的表達能力,這類似于 transformer 中的多頭注意力機制和 PKM 中的多頭記憶。

具體來說,他們使用 h 個獨立的查詢網絡,每個網絡計算自己的查詢并檢索一組單獨的 k 個專家。不過,不同的頭共享同一個專家池,具有相同的產品密鑰集。這 h 個頭的輸出簡單地總結如下:

圖片

為什么要有大量的小專家?給定的 MoE 層可以用三個超參數來表征它:參數總數 P、每個 token 的活躍參數數量 P_active 和單個專家的大小 P_expert。Krajewski 等人 (2024) 表明,MoE 模型的 scaling law 具有以下形式:

圖片

對于 PEER,研究者通過設置 d_expert = 1 來使用盡可能最小的專家規模,激活神經元的數量是檢索頭的數量乘以每個頭檢索到的專家數量:d_active = hk。因此,PEER 的粒度始終為 G = P_active/P_expert = d_active/d_expert = hk。

圖片

實驗結果

我們首先來看在語言建模數據集上的評估結果。

在根據 isoFLOP 曲線確定每種方法的計算最優模型后,研究者在以下幾個流行語言建模數據集上評估了這些預訓練模型的性能:

  • Curation Corpus
  • Lambada
  • Pile
  • Wikitext
  • 預訓練數據集 C4

下表 1 展示了評估結果。研究者根據訓練期間使用的 FLOP 預算對模型進行了分組。可以看到,PEER 在這些語言建模數據集上的困惑度最低。

圖片

在消融實驗中,研究者改變了專家總數量。下圖 1 中 isoFLOP 曲線所示的模型都有超過一百萬個(1024^2  )專家。

圖片

研究者選擇了 isoFLOP 最優位置的模型,并改變了 PEER 層中的專家數量(N = 128^2、256^2、512^2、1024^2),同時保持活躍專家數量不變(h = 8,k = 16)。結果如下圖 3 (a) 所示。

可以看到,isoFLOP 曲線在具有 1024^2 個專家的 PEER 模型和相應的密集主干之間進行插值,而無需用 PEER 層替換中間塊中的 FFW 層。這表明,只需增加專家數量就可以提高模型性能。

同時,研究者改變了活躍專家的數量。他們系統地改變了活躍專家的數量(hk = 32、64、128、256、512),同時保持專家總數不變(N = 1024^2)。對于給定的 hk,研究者則聯合改變 h 和 k 以確定最佳組合。下圖 3 (b) 繪制了關于頭數量 (h) 的 isoFLOP 曲線。

圖片

下表 2 列出了使用和不使用 BN 時不同數量專家的專家使用率和不均勻性。可以看到,即使對于 1M 個專家,專家使用率也接近 100%,并且使用 BN 可以使專家的利用率更加均衡,困惑度更低。這些發現證明了 PEER 模型在利用大量專家方面的有效性。

圖片

研究者還比較了有無 BN 的 isoFLOP 曲線。下圖 4 顯示,有 BN 的 PEER 模型通常可以實現較低的困惑度。雖然差異并不顯著,但在 isoFLOP 最優區域附近差異最為明顯。

圖片

作者介紹

PEER 研究只有一位作者 Xu He(Owen),他是 Google DeepMind 研究科學家,2017 年博士畢業于荷蘭格羅寧根大學。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-15 13:22:56

2023-02-26 18:46:35

機器學習數據集算法

2022-04-14 18:03:16

深度學習AI谷歌

2022-04-18 15:56:49

AI模型系統

2024-01-10 17:37:17

概率token模型

2024-11-21 10:21:06

2022-06-13 11:57:04

谷歌模型計算

2024-11-11 13:24:02

2024-01-10 16:01:28

2025-03-11 00:35:00

DeepSeektoC業務

2020-03-02 11:04:19

人工智能機器學習技術

2024-10-21 12:30:00

模型框架

2023-03-09 14:04:00

谷歌研究

2025-01-07 11:22:15

2025-02-17 03:00:00

LLMsMoELLM

2021-01-13 15:16:45

谷歌架構開發者

2024-11-01 16:46:48

2019-11-06 17:00:51

深度學習神經網絡人工智能

2024-12-20 11:41:52

2023-12-26 09:24:37

AI算法
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产视频一区二区 | www.久久久久久久久 | 天堂色网 | 久久不射网 | 在线欧美亚洲 | 久在线 | 3p视频在线观看 | 亚洲影音先锋 | 久久久久无码国产精品一区 | 99热播精品 | 国产日韩欧美激情 | 国产精品一二区 | 亚洲成人中文字幕 | 欧美一区二区免费视频 | 精品成人在线观看 | 综合在线视频 | 毛片软件 | 国产午夜精品久久久久免费视高清 | 欧美一级大片免费观看 | 日韩精品一区二区三区视频播放 | 美国av毛片 | 亚洲 成人 在线 | 日韩在线 | 国产高清在线视频 | 爱爱免费视频 | 亚洲 欧美 另类 综合 偷拍 | 色综合99 | 啪啪免费 | 在线观看av不卡 | 91国内精品久久 | 欧美一区二区三区日韩 | 91影院在线观看 | 韩日在线 | 欧美日韩国产一区二区三区 | 免费在线观看黄网站 | 精品国产精品一区二区夜夜嗨 | 视频羞羞| 一区二区在线 | 日韩一区二区三区在线视频 | 天天操 夜夜操 | 色吧综合网 |