成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟開源新版Phi-4:推理效率暴漲10倍,筆記本可運行

人工智能 新聞
微軟在官網開源了Phi-4家族的最新版本Phi-4-mini-flash-reasoning。

今天凌晨,微軟在官網開源了Phi-4家族的最新版本Phi-4-mini-flash-reasoning。

mini-flash版延續了Phi-4家族參數小性能強的特點,是專門針對那些受算力、內存和延遲限制場景設計的,單個GPU可運行,適合筆記本、平板電腦等邊緣設備。

與前一個版本相比,mini-flash使用了微軟自研的創新架構SambaY,推理效率暴漲了10倍,延遲平均降低了2—3倍,整體推理性能實現了大幅度提升。尤其是高級數學推理能力,非常適合教育、科研領域。

圖片

開源地址:https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning

英偉達API:https://build.nvidia.com/microsoft

創新SambaY架構

SambaY架構是一種創新的解碼器混合架構,由微軟、斯坦福大學聯合研發而成。其核心在于通過引入門控存儲單元實現跨層的高效記憶共享,從而在提升解碼效率、保持線性預填充時間復雜度的同時,增強長上下文性能,且無需顯式的位置編碼。

該架構以Samba模型作為自解碼器,在交叉解碼器中應用GMU來替代一半的交叉注意力層,以此共享自解碼器中最后一個SSM層的內部表示。

GMU的設計靈感來源于門控線性單元、門控注意力單元和SSMs中廣泛存在的門控機制,接收當前層的輸入表示和前一層的記憶狀態作為輸入,通過可學習的投影和門控機制生成輸出。

圖片

從形式上看,GMU的輸出由前一層的記憶狀態與當前層輸入經過SiLU激活函數后的結果進行元素級乘法,再通過可學習的權重矩陣得到,這種機制能讓當前層輸入基于每個記憶通道的查詢上下文,對前一層的標記混合進行動態的細粒度重新校準。

模型方面,SambaY的自解碼器包含交錯的Mamba層、滑動窗口注意力、SSM內核及線性層等組件。在預填充階段,全注意力層只需計算KV緩存,與YOCO類似,保證了預填充階段的線性計算復雜度。

交叉解碼器中,GMU與交叉注意力層交錯排列,共享自解碼器中最后SSM層的表示。與YOCO相比,SambaY在預填充時除了緩存最后一個全注意力層的KV緩存外,還需額外緩存來自最后一個Mamba層的SSM內核輸出狀態,但其內存開銷在大小上可忽略不計。

圖片

在解碼階段,這一架構將一半交叉注意力層的內存I/O復雜度從線性的O(dkv·N)降至常數O(dh)(其中N為序列長度,dkv為鍵值對維度,dh為SSM內部維度)。由于實際中dh/dkv的比值通常不超過128,當N遠大于dh/dkv時,能帶來顯著的效率提升。

此外,SambaY在訓練中,權重矩陣采用LeCun均勻初始化,輸入與輸出嵌入矩陣綁定并通過正態分布初始化,同時結合RMSNorm提升訓練穩定性。其增強變體SambaY+DA通過引入Differential Attention進一步提升了推理效率。

SambaY測試數據

為了測試SambaY架構的性能,微軟全面評估了SambaY在不同場景下的性能,包括長文本生成、推理任務以及長上下文檢索能力。

在長文本生成任務中,SambaY架構的效率提升非常顯著。傳統的Transformer模型在處理長文本時面臨著巨大的計算和內存壓力,尤其是在解碼階段。

而SambaY在處理2K長度的提示和32K長度的生成任務時,解碼吞吐量比傳統的Phi4-mini-Reasoning模型提高了10倍。

圖片

在高級數學推理能力Math500、AIME24/25和GPQA Diamond的測試中,SambaY的性能比Phi4-mini-Reasoning也實現了大幅度提升,尤其是在AIME24/25任務中,SambaY不僅能夠準確地解決復雜的數學問題,還能生成清晰、邏輯連貫的解題步驟。

圖片

除了推理任務,微軟使用了Phonebook和RULER等主流基準測試來評估SambaY在長上下文檢索中的表現。這些任務要求模型能夠從長文本中準確地檢索出相關信息,這對于模型的長上下文理解和生成能力提出了很高的要求。

在Phonebook任務中,SambaY在32K長度的上下文中取得了78.13%的準確率,明顯優于其他模型。SambaY在RULER任務中也表現優異,即使在較小的滑動窗口大小下,也能保持較高的檢索準確率。

為了進一步驗證SambaY的可擴展性,微軟進行了大規模預訓練實驗。使用了3.8B參數的Phi4-mini-Flash模型,并在5T tokens的數據集上進行了預訓練。盡管在訓練過程中遇到了一些挑戰,如損失發散等,但通過引入標簽平滑和注意力dropout等技術,模型最終成功收斂,并在MMLU、MBPP等知識密集型任務中取得了顯著的性能提升。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2025-05-08 16:45:32

開源Phi-4推理模型

2025-05-06 13:42:16

微軟Phi-4模型

2025-02-27 09:51:04

2009-04-24 08:45:26

微軟Windows 7操作系統

2025-02-28 09:32:00

2025-06-11 14:39:50

AILLMMistral

2023-12-03 08:49:38

微軟開源

2022-12-23 10:50:20

模型開源

2024-02-22 07:44:02

2025-07-14 14:42:47

Phi-4-mini微軟GitHub

2025-06-24 09:08:31

2020-07-22 01:21:26

軟件開發開發代碼

2021-05-07 05:44:24

Windows10操作系統微軟

2024-07-08 13:04:01

2024-07-23 13:06:53

2024-12-23 09:38:00

2018-05-06 23:04:12

Android Chrome OS操作系統

2019-07-17 16:38:08

微軟Windows 10操作系統

2025-03-06 08:11:25

2019-06-10 00:45:01

谷歌開源圖像識別
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩不卡一区二区 | 国产精品国产三级国产aⅴ无密码 | 色综合视频 | 91社影院在线观看 | 一区二区三区影院 | 狠狠插狠狠操 | www.久草| 久久综合激情 | 国产精品色哟哟网站 | 高清久久久 | 麻豆久久久9性大片 | 尤物视频在线免费观看 | av国产在线观看 | 中文字幕一区二区三区四区五区 | 国内毛片毛片毛片毛片 | 欧美成人视屏 | 国产精品免费播放 | 日日骚网 | 日韩av一区二区在线观看 | 亚洲视频在线观看 | 色网在线播放 | 亚洲精品在线视频 | 欧美精品二区 | 男女羞羞视频网站 | 一区二区三区在线电影 | 亚洲一区二区三区免费在线观看 | 国产精品久久九九 | 亚洲三区在线观看 | 亚洲一区毛片 | 久久69精品久久久久久久电影好 | 成年人在线 | 日韩欧美精品 | 精品网 | 精品久久香蕉国产线看观看亚洲 | 国产成人在线视频免费观看 | 久久精品视频网站 | 夜夜摸天天操 | 久久综合激情 | 欧美一区2区三区3区公司 | 亚洲精品中文在线观看 | 欧美一级片在线播放 |