成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Linear-MoE:線性注意力遇上混合專家的開源實踐

人工智能 新聞
來自上海人工智能實驗室團隊的最新成果 Linear-MoE,首次系統性地實現了線性序列建模與 MoE 的高效結合,并開源了完整的技術框架。

近年來隨著大語言模型的爆火,旨在取代 Transformer 的高效模型架構及其預訓練成為大模型領域的研究熱點,主要包括線性序列建模(如 Linear Attention、SSM、Linear RNN 等)和混合專家(Mixture-of-Experts, MoE)兩部分。這兩部分分別都有了長足的進步,但兩者的結合卻鮮少有人研究,兩者結合后的 Linear-MoE 架構開源實現更是完全缺失。

值得一提的是,近期廣受好評的 MiniMax-01 模型(使用 Lightning Attention-MoE)和騰訊混元 TurboS 模型(使用 Mamba2-MoE)均屬于 Linear-MoE 架構。

來自上海人工智能實驗室團隊的最新成果 Linear-MoE,首次系統性地實現了線性序列建模與 MoE 的高效結合,并開源了完整的技術框架,包括 Modeling 和 Training 兩大部分,并支持層間混合架構。為下一代基礎模型架構的研發提供了有價值的工具和經驗。

圖片

  • 論文標題:Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts
  • 論文地址:https://arxiv.org/abs/2503.05447
  • 項目地址:https://github.com/OpenSparseLLMs/Linear-MoE

圖片

線性序列建模的崛起

過去兩年,線性序列建模技術取得了顯著進展,其核心優勢在于線性時間復雜度的訓練和恒定內存占用的推理。

這類模型主要分為三大類:線性注意力(Linear Attention)、狀態空間模型(SSM)和線性 RNN(Linear RNN),代表性工作包括 Lightning Attention、GLA、Mamba2、RWKV 等。

已有研究工作表明,這些模型實際上可以通過統一的遞歸形式進行表達,如下表所示。這也反映出,盡管三類方法分別出自不同的技術流派,但已逐漸收斂至統一的表達形式。

圖片

混合專家 MoE 成為事實標準

另外一方面,從國際上的 GPT-4 系列、Gemini 系列、Claude 系列到國內的 DeepSeek 系列、Qwen 系列、騰訊混元 LLM、字節豆包、MiniMax-01、Moonshot-Kimi 等,都在步伐一致地 All in MoE。其重要性不言而喻,本文不做過多展開。

Linear-MoE:模型架構與高效訓練

Linear-MoE 的核心貢獻在于構建了一個從 Modeling 到 Training 的完整系統,支持線性序列建模層與 MoE 層的靈活組合,同時兼容傳統的 Softmax Attention Transformer 層,支持形成混合架構。其設計亮點包括:

  • 模塊化架構:
  • LSM 層(線性序列建模層):支持各類線性序列建模方法(如 Lightning Attention、Gated-DeltaNet、Mamba2 等)。
  • MoE 層:集成多種 MoE 實現(如 Qwen-MoE、DeepSeek-MoE、Mixtral-MoE),以及一種 Dense 實現(Llama3)。
  • 高效訓練技術:
  • 基于 Megatron-Core 框架開發,確保系統穩定性和可擴展性。
  • 支持張量并行、流水線并行、專家并行、LASP(線性注意力序列并行)和 MegaBlocks 等優化技術,顯著提升訓練效率。

圖片

圖片

實驗驗證

大規模實驗驗證了 Linear-MoE 的優越性:

  • 訓練穩定:混合模型(線性 + Softmax Attention)比純線性模型表現出更穩定的訓練曲線。
  • 訓練效率:借助專家并行和 MegaBlocks,系統在超大參數規模下仍保持高吞吐量。
  • 推理優勢:線性模型的推理速度比傳統架構快 2-5 倍,內存占用降低 50% 以上。
  • 性能擴展:在不同規模的基準測試中,Linear-MoE 展現出良好的性能線性增長。

開源生態與未來展望

目前 Linear-MoE 已全面開源,支持多種主流的線性序列建模方法和 MoE 實現。這一工作不僅填補了線性建模與 MoE 結合的技術空白,還為社區提供了可復現的高效訓練方案。未來將進一步探索 Linear-MoE 在長上下文理解、Vision-Language 模型架構中的應用潛力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-06-06 09:18:48

2024-01-10 16:01:28

2025-02-19 15:30:00

模型訓練數據

2025-02-17 03:00:00

LLMsMoELLM

2024-08-06 08:16:05

2024-01-10 17:37:17

概率token模型

2024-11-11 13:24:02

2024-09-19 10:07:41

2018-08-26 22:25:36

自注意力機制神經網絡算法

2025-02-17 13:00:00

2025-02-25 09:40:00

模型數據AI

2011-07-07 13:12:58

移動設備端設計注意力

2025-02-10 00:00:55

MHAValue向量

2024-07-26 11:40:33

2025-03-06 09:25:00

DeepSeek模型訓練

2023-07-29 13:26:51

模型AI

2024-06-28 08:04:43

語言模型應用

2024-02-19 00:12:00

模型數據

2024-10-31 10:00:39

注意力機制核心組件

2022-03-25 11:29:04

視覺算法美團
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲国产欧美91 | 国产探花 | 中文字幕国产在线 | 日本免费黄色 | 黄色网址在线播放 | 天堂男人av | 精品一区二区三区免费视频 | 日本a视频 | 日韩高清一区二区 | 草比网站| 亚洲欧美日本在线 | 免费亚洲一区二区 | 亚洲视频区| 国产在线a | 中文字幕在线观看视频一区 | 日日日色| aa级毛片毛片免费观看久 | 国产欧美精品一区 | 日韩欧美在线不卡 | 玖操| 久久亚洲欧美日韩精品专区 | 成人精品鲁一区一区二区 | 中文字幕在线观看国产 | 欧美成人精品一区二区男人看 | 亚洲传媒在线 | 亚洲精品在线免费观看视频 | 夜夜夜久久| 亚洲日本视频 | 午夜精品久久久久久久久久久久久 | 亚洲永久在线 | 国产精品亚洲欧美日韩一区在线 | 久久久123 | 国产成人一区 | 欧美激情精品久久久久久变态 | 午夜影院在线观看视频 | 天堂国产 | 国产精品久久久久久久久久久久久 | 久久久久久久久久久久久久国产 | 九九热国产视频 | 黄免费观看视频 | 日本欧美国产在线 |