成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<table id="2qoeo"></table>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

AI Infra—如何從 LLM training 轉 Inference 原創

發布于 2025-5-13 06:42

瀏覽

0收藏

LLM training轉inference需要加強的知識總結。

這篇附帶一些職業規劃的討論，其實Training 和 Inference 在不同公司不同崗位業務中的定位不同，但總得來說還是存在下面的區別：

LLM Training：包括但不限于優化模型架構（MoE），調節超參數優化loss，訓練微調（SFT， pretrain，RL，蒸餾）等等，這個是把模型訓得更聰明的過程。
LLM Inference：包括PD分離（KV cache 優化, Page attention，Radix attention），并行（各種parallelism， sharding），通信（NCCL），推理加速（量化），生成穩定性監控等等，這個是訓完模型以后，能讓模型跑得效果更好，也就是更快更穩定的過程。

先忽略Training和Inference這兩類型的目前招聘崗位的特點和要求（當然大佬可能兩方面都特別強），本篇主要介紹從training轉infra需要加強哪些方面的內容，如何入手。

下面是一個快捷目錄。

1. 分布式系統

2. 推理加速

一、分布式系統

目前大家見到過的并行訓練算法，包括但不限于DP，MP，PP，TP，SP/CP，EP等，分別是：

數據并行（Data Parallel, DP）
模型并行（Model Parallel, MP），又可以包括：

a.張量并行（Tensor Parallel, MP）

b.Pipeline并行（Pipeline Parallel, PP）

c.Sequence并行（Sequence Parallel, SP，也可以叫Context Parallel, CP）

Zero Redundancy Data Parallelism （ZeRO）
Expert 并行（Expert Parallel, EP）

關于分布式系統，???大模型面經—分布式訓練指南???這篇中有詳細介紹，這里著重講一下Expert 并行。

Expert Parallelism（EP）是針對MoE模型訓練的特有并行方式，并且可以無沖突跟3D Parallelism結合。

MoE會在Transformer每層配置多路專家FFN網絡，再由路由動態選擇專家并行處理不同輸入，使每個token只經過部分專家，顯著降低FLOPs并保持模型容量。EP就是將每層中的所有專家劃分到不同的設備（GPU/TPU）上。比如16個專家分配8張卡，每卡持有2個專家。

因此在MoE的訓練中，使用 EP 不會減少數據并行 (DP) 的數量，因為每個 EP 處理不同的數據。

二、推理加速

這塊的話主要還是PD分離的內容，就是把推理的預填充階段（P）和解碼（D）階段分離，對兩階段分別優化，提升GPU利用率減少延遲。

下面是當前一些常見推理框架的總結。

AI Infra—如何從 LLM training 轉 Inference-AI.x社區

圖片來源

??http://xhslink.com/a/eGufxsVnYvbcb??

想要入手可以推薦把Ray，vLLM或是sglang系統性的刷一遍。

刷一遍之后，大家可以做一個個人項目可以結合sglang的開源社區，根據自己的深度思考建立一個自己的項目，去嘗試優化PD分離的架構，比如如何優化KV Cache Pool, P和D如何進行更優的負載均衡設計等等。

其實Training 和Inference 在實際崗位中已經密不可分了，未來最搶手的大概率是既懂Training又懂推理優化的，大家一起卷卷吧~

本文轉載自??瓦力算法學研所??，作者：喜歡瓦力的卷卷?

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2025-5-13 06:42:35修改

贊

收藏

回復

舉報

回復

相關推薦

看AI如何大海撈針，探索LLM能力邊界實戰?

ermulong ? 3013瀏覽 ? 0回復
HippoRAG如何從大腦獲取線索以改進LLM檢索

51CTO內容精選 ? 2621瀏覽 ? 0回復
Imbue-70B 的 AI Infra：從0到1搭建和運維4088 H100集群的最佳實踐

amei2000go ? 6012瀏覽 ? 1回復
BabyAGI Agent：LLM如何實現？

探索AGI ? 2308瀏覽 ? 0回復
AutoGPT Agent：LLM如何實現？

探索AGI ? 2595瀏覽 ? 0回復
LLM微調的關鍵要點：如何打造高效、可靠的AI模型

Halo咯咯 ? 3147瀏覽 ? 0回復
如何借助Cortex運行本地LLM

51CTO內容精選 ? 2204瀏覽 ? 0回復
從0到1開發AI Agent | Plan-and-Execute 如何解決AI復雜任務

AI取經路 ? 4407瀏覽 ? 0回復
我們聊聊如何構建通用LLM Agent

鴻煊的學習筆記 ? 3075瀏覽 ? 0回復
長文 | 大模型Post-Training總結

NLP工作站 ? 3005瀏覽 ? 0回復
2025 AI Infra展望：重塑基礎設施的四大關鍵趨勢

唐克 ? 3569瀏覽 ? 0回復
NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法

arnoldzhw ? 2379瀏覽 ? 0回復
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關鍵技術

amei2000go ? 5905瀏覽 ? 0回復
從語言到認知：LLM如何超越人類語言網絡

頓數AI ? 1898瀏覽 ? 0回復
Manus AI ：如何讓AI從 "動口" 到 "動手" 的多智能體架構！

Halo咯咯 ? 2655瀏覽 ? 0回復
從0到1：AI如何“復制”明星，唱響奇妙旋律

InfonityAI智推星 ? 2834瀏覽 ? 0回復
從對話到自主行動：AI應用如何從 Chat 進化為 Agent？開源項目源碼深度揭秘

卓勝微wjp ? 3952瀏覽 ? 0回復
AI Infra的起飛前夜，跟兩位創業者聊了兩小時，從DeepSeek的中國朋友圈，到AI基建演進的價值鐵律

51CTO技術棧 ? 1648瀏覽 ? 0回復
Dify從入門到高階系列一：詳解各種工作流節點，如何降低LLM開發門檻？

AI博物院 ? 6463瀏覽 ? 1回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決？ 9天前發布
大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？ 2025-06-10 10:42:03發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇：智駕中的VLA方案總結

下一篇：如何在LLM訓練過程中精妙設計SFT與RL步驟—— LLM訓練框架推薦

社區精華內容

目錄

主站蜘蛛池模板： av一二三区 | 国产日韩欧美激情 | 蜜桃免费一区二区三区 | 精品日韩 | 国产综合久久久久久鬼色 | 请别相信他免费喜剧电影在线观看 | 国产精品一区二区欧美黑人喷潮水 | 99热热热| 久久久久久久一区 | 日韩精品一区二区在线 | 欧美成年人网站 | 久久亚洲国产精品 | 国产片网站| 午夜男人免费视频 | a在线视频 | 日韩在线免费 | 精品亚洲一区二区 | 中文字幕精品一区 | 亚洲人成人一区二区在线观看 | 国产一区二区三区日韩 | 国产一区二区电影 | 操操网站 | 色综合色综合色综合 | 日本成人久久 | 国产免费xxx | 影视先锋av资源噜噜 | 日韩精品久久久久 | 国产黄色大片网站 | 91视频一区二区 | 欧美福利久久 | 国产精品夜间视频香蕉 | 国产精品久久久久久久久久久久久 | 亚洲精品18 | 欧美不卡在线 | 日韩免费视频一区二区 | 亚洲激情一区二区三区 | 91一区二区 | 精品国产乱码久久久久久a丨 | 一区二区三区在线免费观看视频 | 久久久久久久久久久福利观看 | 亚洲一区二区三区免费视频 |

<button id="mc4kc"><em id="mc4kc"></em></button>