騰訊二面真題：DeepSeek對MoE架構做了哪些改進？

丁師兄大模型

發布于 2025-4-18 06:00

瀏覽

0收藏

DeepSeek 對 MoE 架構做了哪些改進？跟 Mixtral 的 MoE 有什么不同？這個是我的學員最近面試某個大模型獨角獸遇到的一道面試題。

1.面試官心理分析

這篇文章，我們就從面試官的角度來分析一下，如果你在面試現場被問到這個題目，應該如何作答？

面試官問這個問題，它其實是想考你什么？

第一，Mixtral 大模型采用的 MoE 架構長什么樣？
第二，就是 DeepSeek 的 MoE 做了哪些改進，這樣改進的動機是什么？

2.面試題解析

要回答 DeepSeek 的 MoE 改進，我們先來看看，最原始的 MoE 網絡長什么樣子？以及它是怎么工作的？

這張圖是 Mixtral 8x7B 的 MoE 架構：

騰訊二面真題：DeepSeek對MoE架構做了哪些改進？-AI.x社區

其核心思想很直觀，它實際上用了 8 個7B的“專家”模型，當 MoE 與Transformer 相結合時，會用稀疏 MoE 層替換掉某些前饋層。

MoE 層包含了一個路由網絡，用于選擇將輸入 token 分派給哪些專家處理，Mixtral 模型為每個詞元選擇 top-K 個專家，那在圖中是選擇兩個。

因為每次只激活部分的專家，所以其解碼速度能做到與 14B 模型相當，也就極大的提高了模型的推理效率。

好，了解了最原始的 MoE 架構，我們再來看看，DeepSeek 是怎么改進的？

看這張圖，其實 DeepSeek 的主要改動點，就是把專家分成了兩撥，分別是 Shared Expert 和 Routed Expert。

騰訊二面真題：DeepSeek對MoE架構做了哪些改進？-AI.x社區

通俗來講，就好比學校的常駐教授和客座教授，常駐教授是一直在的，而客座教授則經常會變，不同的教學主題，有不同的客座教授。

在 DeepSeek 的 MoE 中，Shared Expert 是一直激活的，也就是輸入的 token 會被 Shared Expert 計算，Routed Expert 和普通的 MoE 一樣，要先計算相似度，也就是專家的得分，再選擇 top-k 進行推理。

但是我們分析 DeepSeek 的源碼可以發現，代碼實際在計算 top-k 時，會先將 N 個 Expert 進行分組 n_groups，將每個組中 top-2 個專家的相似度得分加起來，算出得分最高的那些 top_k_group 組，然后在這些組里選擇 top-k 個專家。

最后將所有的 Shared Expert 輸出和 Routed Expert 輸出做加權相加，得到 MoE 層的最終輸出。

這里 Deepseek-v3 和 Deepseek-R1 采用了 256 個 Routed Expert 和 1個 Shared Expert，并在 Router 中選出 8 個來，參數量是 671B，而實際激活的參數量只有 37B。

好，現在我們答出了 DeepSeek 對 MoE 架構的改進點，面試官可能會繼續追問：那它為什么要這樣改進呢？這樣改進有什么好處？

實際上這種設計主要是基于以下兩點考慮：

第一，原始的 MoE 會產生較多的冗余，一個想法就是抽取一個 Shared Expert 出來處理通用知識，其他的 Routed Expert 來處理差異性的知識。

通過隔離 Shared Expert，以減輕 Routed Expert 所需要學習的知識量，從而減少路由專家之間的冗余。

第二個考慮是高效計算的層面，MoE 模型在訓練的時候，會花費大量的時候來做通訊，因為 expert 會分散到不同的設備上，從而降低巨大的總參數量帶來的顯存消耗。

一種解決思路是：在通訊流處在工作狀態的時候，同時用計算流進行后續的運算，從而隱藏掉部分通訊時間。

Shared Expert 的計算與 Routed Expert 通訊是不依賴的，因此可以使用通訊隱藏，從而比普通的 MoE 結構計算更高效。

?本文轉載自???丁師兄大模型??，作者：丁師兄

標簽

DeepSeek

MoE

架構

贊

回復

舉報

回復

相關推薦

多模態CoT思維鏈架構來了，現已開源｜來自廈大&騰訊優圖

Crystalcxt ? 3517瀏覽 ? 0回復
為什么最新的LLM使用混合專家(MoE)架構

51CTO內容精選 ? 3669瀏覽 ? 0回復
大模型面經——MoE混合專家模型總結

shizhi02 ? 3104瀏覽 ? 0回復
DeepSeek-VL2開源，VLM邁入MoE時代！

xuxiangda ? 3502瀏覽 ? 0回復
DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法？

輕薄滴假象 ? 2245瀏覽 ? 0回復
騰訊文檔也能用上DeepSeek R1滿血版了！騰訊已漲超7.5%！實測：絲滑生成哪吒3預測PPT

51CTO技術棧 ? 4034瀏覽 ? 0回復
聊聊DeepSeek大模型對AI Agent的影響

王吉偉自頻道 ? 2401瀏覽 ? 0回復
高盛：DeepSeek等中國大模型，加速AI對全球GDP貢獻

Aceryt ? 2194瀏覽 ? 0回復
大語言模型都有哪些特質？區分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini

angel ? 2386瀏覽 ? 0回復
秒開率從 18% 到 64%，我們對小程序模擬器做了什么？

快手技術 ? 2093瀏覽 ? 0回復
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關鍵技術

amei2000go ? 5905瀏覽 ? 0回復
接入 Deepseek 能讓百度文庫煥發第二春嗎？

老蛀蟲 ? 2012瀏覽 ? 0回復
中國第二個DeepSeek，Manus發布通用AI Agent，震驚國外

Aceryt ? 2500瀏覽 ? 0回復
一文讀懂 DeepSeek使用的 MoE 架構到底是什么

九歌AI大模型 ? 3007瀏覽 ? 0回復
DeepSeek 模型架構的特殊選擇

amei2000go ? 2048瀏覽 ? 0回復
AI浪潮下，對DeepSeek發展的哲學新思考

51CTO內容精選 ? 1686瀏覽 ? 0回復
騰訊Hunyuan-T1來襲：Mamba架構重塑語言模型推理能力

Halo咯咯 ? 1872瀏覽 ? 0回復
DeepSeek對RAG技術的優化與落地影響：技術深度調研報告

芝士AI吃魚 ? 1832瀏覽 ? 0回復
實測AI大模型：騰訊混元T1 vs DeepSeek 哪家強？

云中江樹 ? 1882瀏覽 ? 0回復

丁師兄大模型

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

騰訊二面真題：DeepSeek對MoE架構做了哪些改進？

1.面試官心理分析

2.面試題解析

目錄