DeepSeek開源周“第一刀”砍向算力！重磅開源FlashMLA，挑戰(zhàn)H800算力極限，網(wǎng)友直呼：極致的工程設(shè)計(jì)！

作者：伊風(fēng) 2025-02-24 12:52:46

MLA（Matrix-Less Attention）多頭潛在注意力，通過數(shù)學(xué)變換避免了直接計(jì)算大規(guī)模矩陣，從而降低計(jì)算復(fù)雜度。MLA 的設(shè)計(jì)使其能夠更好地利用現(xiàn)代 GPU 的并行計(jì)算能力，從而加速推理過程。

編輯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

上周五，DeepSeek剛剛預(yù)告了重磅開源周！

周一一早，DeepSeek就履行承諾，開源了針對(duì) Hopper GPU 的高效 MLA 解碼內(nèi)核——FlashMLA！

圖片

根據(jù)DeepSeek介紹，F(xiàn)lashMLA內(nèi)核針對(duì)變長序列進(jìn)行了優(yōu)化，是已投入生產(chǎn)的核心技術(shù)。

從DeepSeek-V2開始，MLA出現(xiàn)在的所有的DeepSeek大模型里面，是DeepSeek大模型提升效果的非常重要的機(jī)制。

圖片

簡單來說，F(xiàn)lashMLA 的優(yōu)化讓 AI 處理不固定長度的文本更高效，比如聊天對(duì)話或文章生成場景。通過優(yōu)化，GPU 能更聰明地管理記憶（緩存），讓它在處理長短不同的句子時(shí)，不會(huì)浪費(fèi)太多計(jì)算資源。

評(píng)論區(qū)的網(wǎng)友紛紛給出好評(píng)！

一位網(wǎng)友調(diào)侃說，提高顯卡效率，但是拜托別燒壞我的英偉達(dá)股票！

圖片

另一位運(yùn)行項(xiàng)目的網(wǎng)友更是大加贊美：純粹的工程設(shè)計(jì)，愛死它了！

圖片

開源地址：https://github.com/deepseek-ai/FlashMLA

圖片

該項(xiàng)目目前已經(jīng)斬獲了1.2k的Star量，DeepSeek開源周的火爆程度可見一斑！

接下來，我們看看FlashMLA開源項(xiàng)目的內(nèi)容。

1.FlashMLA核心內(nèi)容解讀：中高端消費(fèi)級(jí) GPU 能運(yùn)行更大模型了！

DeepSeek給出了FlashMLA的三個(gè)關(guān)鍵詞，我們來一一解讀下：

支持 BF16：在 Transformer 推理過程中，BF16 計(jì)算可以加速矩陣運(yùn)算，同時(shí)保證數(shù)值穩(wěn)定性，與 FP32 相比，帶來了顯著的計(jì)算效率提升。
分頁式 KV 高速緩存（塊大小為 64）：采用分頁式管理，意味著 FlashMLA 允許更靈活的 KV 緩存復(fù)用，減少 GPU 內(nèi)存壓力，優(yōu)化長序列的推理性能。
在 H800 上實(shí)現(xiàn) 3000 GB/s 內(nèi)存綁定和 580 TFLOPS 計(jì)算綁定：說明FlashMLA 能夠最大化利用 H800 的內(nèi)存帶寬和計(jì)算能力，實(shí)現(xiàn)近乎極限（甚至突破）的吞吐量。。

FlashMLA作為針對(duì) Hopper GPU 的 LLM 推理加速方案，其核心價(jià)值體現(xiàn)在這幾點(diǎn)：

優(yōu)化變長序列推理，適用于對(duì)話型 AI 和多輪交互。
提高計(jì)算效率（580 TFLOPS）和內(nèi)存帶寬利用率（3000 GB/s），減少推理延遲。
降低顯存占用，提高 LLM 生產(chǎn)環(huán)境的吞吐量，優(yōu)化 GPU 資源利用。

網(wǎng)友@Hemang Dave在評(píng)論區(qū)興奮地感嘆：Apple 研究表明，類似方法可以運(yùn)行比 GPU 可用 DRAM 大兩倍的模型，同時(shí)顯著提升推理速度（CPU 提升 4-5 倍，GPU 提升 20-25 倍）。這意味著 FlashMLA 能在 Hopper GPU 上運(yùn)行更大規(guī)模的 AI 模型，而無需昂貴的硬件升級(jí)，大幅降低部署成本。