微軟發布Phi-4-mini“閃推版”:10倍吞吐,只用38億參數,干翻76B大模型
微軟推出了一款名為 Phi-4-mini-flash-reasoning 的全新輕量級人工智能模型。
據說,這款模型專為計算、內存或延遲受限的場景量身打造。其目標是在不依賴強大硬件的情況下,提供卓越的推理能力。
該模型構建于微軟去年十二月推出的Phi-4家族基礎之上,參數規模達到38億。模型重點,則聚焦于提升數學推理方面的能力。
Phi-4-mini-flash-reasoning 直接帶來了性能的巨大飛躍。微軟方面表示,它實現了高達十倍的吞吐量提升。與其前代模型相比,新模型的平均延遲降低了二至三倍。
圖片
圖注:標準推理與 flash 推理的延遲與吞吐量對比,flash 在相同延遲下實現了 10 倍的吞吐量。Flash 推理在保持相同延遲響應的同時,將吞吐量提高了十倍。圖源微軟
需要指出的是,這些測試結果基于工業級GPU,而非模型所針對的低資源設備。即便如此,這一成績也預示了其在目標設備上的巨大潛力。
Phi-4-mini-flash-reasoning在處理長上下文方面同樣表現出色。該模型支持高達 64,000個 token 的上下文窗口。即使在處理達到容量上限的長序列時,它也能保持其速度和性能。
架構革新:“閃推”機制源自SambaY與GMU
微軟將此歸功于SambaY設計的高效率。SambaY架構確保了處理速度的穩定,即便序列長度不斷增加。
SambaY架構引入了門控內存單元(GMU)和“差分注意力”機制,構成了其技術基石。
傳統的Transformer模型每一層都依賴復雜的注意力機制來判斷輸入內容的重要性。而門控內存單元(GMU)通過一種簡化的方式,徹底改變了這一流程。
它用簡單的逐元素乘法操作,替代了計算量巨大的交叉注意力運算。這種乘法運算在當前輸入和前一層記憶狀態之間進行。使得模型能夠動態地重新校準需要關注的token,且無需承擔常規的計算開銷。
圖片
圖注:Phi-4-mini-flash-reasoning 在處理 32,000 個 token 時的延遲遠低于標準推理模型,突顯了 flash 方法的高效性。圖源微軟
SambaY 實際上混合了多種注意力機制,形成一種高效的混合解碼器架構。模型中只有一個全注意力層,負責創建一個鍵值緩存(key-value cache)。后續的層級可以直接訪問這個共享的鍵值緩存。而門控內存單元(GMU)則取代了大約一半的交叉注意力層。
這些層級通過輕量級的乘法運算共享信息,大幅降低了計算復雜度,這種獨特的設計顯著削減了內存使用和計算需求。
在傳統模型中,隨著序列長度的增加,內存與處理器之間的數據傳輸量會急劇攀升。但在SambaY架構下,即使序列長度增加,數據傳輸量也基本保持平穩。
超越基準:卓越的推理能力
圖片
論文地址:https://arxiv.org/abs/2507.06607v1 圖源微軟
新模型的“flash”版本在各項基準測試中脫穎而出。Phi-4-mini-flash-reasoning的訓練使用了與Phi-4-mini相同的五萬億token數據集。
訓練數據中包含了大量為提升推理能力而生成的合成數據。整個訓練過程動用了1000塊A100 GPU,持續了14天。
圖片
在后續的測試中,它持續擊敗了作為基礎模型的Phi-4-mini。尤其在知識密集型和編程任務上,性能提升了數個百分點。
該模型在數學和科學推理方面的表現也更為優異。值得注意的是,它是在沒有采用資源密集型強化學習步驟的情況下,取得了這些成就。
此前的模型版本通常需要依賴強化學習進行微調。在部分基準測試中,Phi-4-mini-flash-reasoning的表現甚至超越了規模是其兩倍的大型模型。
這證明了其架構的卓越效率,能夠以更小的規模實現更強的能力。
微軟已經將Phi-4-mini-flash-reasoning模型在Hugging Face平臺上提供。同時,微軟在Phi Cookbook中發布了相關的代碼示例。完整的訓練代碼庫也已在GitHub上開源。
抱抱臉:https://huggingface.co/microsoft/phi-4-mini-flash-reasoning
Phi Cookbook:https://github.com/microsoft/PhiCookBook