擴散語言模型寫代碼！速度比自回歸快10倍

2025-07-10 14:54:13

Inception Labs推出基于擴散技術的全新商業級大語言模型——Mercury。

誰說擴散模型只能生成圖像和視頻？

現在它們能高質量地寫代碼了，速度還比傳統大模型更快！

Inception Labs推出基于擴散技術的全新商業級大語言模型——Mercury。

Mercury突破了自回歸模型 “從左到右” 逐詞生成的限制，采用 “從噪聲到結構化輸出” 的方式，能一次性預測所有方向的token，提高了生成速度。

這樣一來，Mercury還解決了自回歸“一旦生成難以回頭調整”的問題。

擴散模型并不是僅考慮前面已經生成的內容，它能在生成過程中進行動態糾錯修改，具有更大的靈活性。

盡管采用了擴散技術，Mercury模型系列仍保留了Transformer架構。

這確保了該模型能直接復用近年來為大語言模型開發的高效訓練、推理優化技術（如低階算子優化、超參數調優工具等）。

實測數據顯示，面對相同的編程任務，Mercury的代碼生成速度比傳統工具最多快10倍，大幅縮短了開發周期。

在H100 GPU上實現1109 tokens/秒吞吐量

Mercury用成熟的Transformer作為神經網絡基礎，結合擴散技術的并行生成能力，既保留了大模型的兼容性，又突破了自回歸模型逐詞生成的速度限制。

Mercury的核心創新在于 “擴散式生成”，流程如下：

訓練階段的正向過程：從真實文本（如代碼片段）出發，逐步加入噪聲（隨機替換、刪除token等），最終變成完全隨機的噪聲序列。
推理階段的反向過程（核心）：從隨機噪聲開始，通過Transformer模型迭代優化，逐步去除噪聲，最終生成符合真實分布的文本。每次迭代中，模型會并行修改多個token，而非逐詞生成。

這一過程擴展了此前的離散擴散方法，通過優化數據處理和計算邏輯，實現了大規模訓練（萬億級token）。

Mercury主要通過并行化文本生成、動態去噪調度、混合精度量化等技術，極致發揮GPU性能，實現對硬件的高效利用，降低訓練和推理成本。

擴散機制允許模型在單次前向傳播中預測多個token，相較于自回歸模型的“從左到右”逐詞生成，顯著提升了GPU利用率。

在NVIDIA H100 GPU上，Mercury Coder Mini和Mercury Coder Small（Mercury Coder系列編碼優化產品）分別實現了1109 tokens/秒和737 tokens/秒的吞吐量。

在Copilot Arena的基準測試中，可將響應時間壓縮至其他工具的1/4，同時硬件資源占用減少60%。

Mercury通過自適應調整去噪步數，在簡單任務中減少計算量，在復雜任務中保留足夠迭代次數，實現精度與效率的平衡，從而更高效地利用硬件資源，避免不必要的計算開銷。

模型在推理時可自動切換至低精度計算模式，內存占用減少30%，同時通過殘差補償機制維持輸出質量。這讓Mercury能在有限的硬件內存條件下運行，且不明顯影響性能。

與傳統自回歸模型 “從左到右” 逐詞生成，一旦生成難以回頭調整不同，Mercury不受限于僅考慮前面已生成的內容，能夠在生成過程中動態修改之前的內容，具有更大的靈活性。

雙向注意力機制Mercury在去噪過程中引入上下文雙向關聯，能夠更好地理解文本的前后語境，從而更準確地發現和糾正錯誤。
實時糾錯模塊模型在去噪步驟中會同步檢測代碼邏輯漏洞，通過強化學習動態修正輸出。在代碼生成任務中，Mercury Coder可以自動修正邏輯漏洞，還支持函數級參數自動校正，能有效提高代碼的準確性和可用性。
多語言語法樹嵌入Mercury將Python、Java等語言的抽象語法樹（AST）結構融入擴散過程，有助于減少語法錯誤。