為什么大家都開始探索 MoE 架構?MoE 相比 Dense 有什么好處?
在大模型發展進程中,MoE 架構憑借獨特優勢備受關注。與傳統 Dense 架構相比,它在計算效率、模型擴展性和任務處理能力等方面表現突出,為大模型性能提升提供了新方向。下面是其優勢:
- 計算效率更高:MoE 架構通過路由器網絡動態選擇輸入 token 激活的專家集合,僅激活部分參數,大幅降低計算量。如 DeepSeek - V3 激活 37B 參數(占總量 671B 的 5.5%),其 FLOPs 可降低至傳統 Dense 架構的 30% 以下。在推理時,MoE 架構能根據輸入動態分配計算資源,避免不必要計算,而 Dense 架構每次前向傳播都需激活全部參數,計算成本高。這種高效計算模式使 MoE 在處理大規模數據和復雜任務時,速度更快且資源消耗更少。
- 模型擴展性更強:增加模型參數是提升大模型能力的常見方法,但 Dense 架構擴展參數會導致計算需求劇增。MoE 架構則不同,它將任務分給多個專家處理,增加專家不會使計算需求成比例增加。通過添加專家,MoE 可處理更大、更多樣化的數據集,還能促進并行處理,加速操作。這一特性使 MoE 能突破計算資源限制,構建參數規模更大的模型,提升模型整體性能和泛化能力。
- 知識表達更靈活:像 DeepSeek MoE 等創新架構,將單個專家分割為多個細粒度子專家,如拆分 FFN 隱藏維度,通過組合式激活提升知識表達靈活性。實驗顯示,32 個子專家配置可使模型在數學推理任務中的準確率提升 18%。相比之下,Dense 架構神經元連接固定,在處理復雜任務時,知識表達的靈活性和針對性不如 MoE 架構。
- 跨領域知識遷移能力更強:MoE 架構保留部分專家作為共享知識庫,如 DeepSeek MoE 隔離 15% 共享專家,既降低參數冗余度,又增強跨領域知識遷移能力。在醫療問答測試中,該技術使模型準確率從 91% 提升至 94%。而 Dense 架構在跨領域知識遷移方面相對較弱,難以快速適應不同領域任務需求。
- 提升訓練效率:以 DeepSeek 為例,其多 tokens 預測(MTP)技術允許模型同時預測多個連續位置的 token,極大提高了訓練效率。此外,DeepSeek V3 原生支持 FP8 混合精度訓練,降低了計算和存儲需求,使得在資源有限環境下也能高效訓練大規模模型。而 Dense 模型在訓練時,由于其全連接和全激活的特點,訓練效率相對較低,對計算資源的需求也更大。
參考
??https://mp.weixin.qq.com/s/21reK1zrvy8rdz58NQ9aDA?? 騰訊混元大模型面試:奪命11連問
??https://blog.csdn.net/Z_Flank/article/details/145970067?? Qwen-2.5、DeepSeek-R1、DeepSeek-V3 核心區別
??https://blog.csdn.net/weixin_59191169/article/details/148560050?? 三萬字詳解,一文講清楚Qwen系列,看這一篇就夠了!
??https://blog.51cto.com/u_15497017/13880122?? Qwen3 開源!深度對比 DeepSeek,一文選對模型
??https://blog.csdn.net/weixin_41429382/article/details/145400425?? qwen2.5-max 和deepseek 比較
??https://blog.csdn.net/smileKH/article/details/148828469?? 通義千問(Qwen):阿里云打造的全能AI大模型
??https://www.cnblogs.com/obullxl/p/18706323/NTopic2025020901?? DeepSeek vs. Qwen 大模型編程能力比拼,誰更適合作為你的 AI 輔助編程助手?
本文轉載自????????鴻煊的學習筆記????????,作者:乘風破浪jxj
