微軟發布Phi-4-mini“閃推版”：10倍吞吐，只用38億參數，干翻76B大模型

2025-07-14 14:42:47

微軟已經將Phi-4-mini-flash-reasoning模型在Hugging Face平臺上提供。同時，微軟在Phi Cookbook中發布了相關的代碼示例。完整的訓練代碼庫也已在GitHub上開源。

微軟推出了一款名為 Phi-4-mini-flash-reasoning 的全新輕量級人工智能模型。

據說，這款模型專為計算、內存或延遲受限的場景量身打造。其目標是在不依賴強大硬件的情況下，提供卓越的推理能力。

該模型構建于微軟去年十二月推出的Phi-4家族基礎之上，參數規模達到38億。模型重點，則聚焦于提升數學推理方面的能力。

Phi-4-mini-flash-reasoning 直接帶來了性能的巨大飛躍。微軟方面表示，它實現了高達十倍的吞吐量提升。與其前代模型相比，新模型的平均延遲降低了二至三倍。

圖片

圖注：標準推理與 flash 推理的延遲與吞吐量對比，flash 在相同延遲下實現了 10 倍的吞吐量。Flash 推理在保持相同延遲響應的同時，將吞吐量提高了十倍。圖源微軟

需要指出的是，這些測試結果基于工業級GPU，而非模型所針對的低資源設備。即便如此，這一成績也預示了其在目標設備上的巨大潛力。

Phi-4-mini-flash-reasoning在處理長上下文方面同樣表現出色。該模型支持高達 64,000個 token 的上下文窗口。即使在處理達到容量上限的長序列時，它也能保持其速度和性能。

圖源微軟

微軟將此歸功于SambaY設計的高效率。SambaY架構確保了處理速度的穩定，即便序列長度不斷增加。

SambaY架構引入了門控內存單元（GMU）和“差分注意力”機制，構成了其技術基石。

傳統的Transformer模型每一層都依賴復雜的注意力機制來判斷輸入內容的重要性。而門控內存單元（GMU）通過一種簡化的方式，徹底改變了這一流程。

它用簡單的逐元素乘法操作，替代了計算量巨大的交叉注意力運算。這種乘法運算在當前輸入和前一層記憶狀態之間進行。使得模型能夠動態地重新校準需要關注的token，且無需承擔常規的計算開銷。

圖片

圖注：Phi-4-mini-flash-reasoning 在處理 32,000 個 token 時的延遲遠低于標準推理模型，突顯了 flash 方法的高效性。圖源微軟

SambaY 實際上混合了多種注意力機制，形成一種高效的混合解碼器架構。模型中只有一個全注意力層，負責創建一個鍵值緩存（key-value cache）。后續的層級可以直接訪問這個共享的鍵值緩存。而門控內存單元（GMU）則取代了大約一半的交叉注意力層。

這些層級通過輕量級的乘法運算共享信息，大幅降低了計算復雜度，這種獨特的設計顯著削減了內存使用和計算需求。

在傳統模型中，隨著序列長度的增加，內存與處理器之間的數據傳輸量會急劇攀升。但在SambaY架構下，即使序列長度增加，數據傳輸量也基本保持平穩。

圖片

論文地址：https://arxiv.org/abs/2507.06607v1 圖源微軟

新模型的“flash”版本在各項基準測試中脫穎而出。Phi-4-mini-flash-reasoning的訓練使用了與Phi-4-mini相同的五萬億token數據集。

訓練數據中包含了大量為提升推理能力而生成的合成數據。整個訓練過程動用了1000塊A100 GPU，持續了14天。

圖片

在后續的測試中，它持續擊敗了作為基礎模型的Phi-4-mini。尤其在知識密集型和編程任務上，性能提升了數個百分點。

該模型在數學和科學推理方面的表現也更為優異。值得注意的是，它是在沒有采用資源密集型強化學習步驟的情況下，取得了這些成就。

此前的模型版本通常需要依賴強化學習進行微調。在部分基準測試中，Phi-4-mini-flash-reasoning的表現甚至超越了規模是其兩倍的大型模型。

這證明了其架構的卓越效率，能夠以更小的規模實現更強的能力。

微軟已經將Phi-4-mini-flash-reasoning模型在Hugging Face平臺上提供。同時，微軟在Phi Cookbook中發布了相關的代碼示例。完整的訓練代碼庫也已在GitHub上開源。

抱抱臉：https://huggingface.co/microsoft/phi-4-mini-flash-reasoning

Phi Cookbook：https://github.com/microsoft/PhiCookBook

責任編輯：武曉燕來源：大數據文摘

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看