成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

SCM已死,MRM長存:面向AI時代重新思考內存

存儲 存儲架構
AI工作負載的興起及其對HBM的依賴凸顯了HBM的局限性。AI推理工作負載需高讀吞吐量、密度和能效,而HBM難以成本效益高地滿足這些需求。
  • 標題:Storage Class Memory is Dead, All Hail Managed-Retention Memory: Rethinking Memory for the AI Era
  • 作者:Authors: Sergey Legtchenko, Ioan Stefanovici, Richard Black, Antony Rowstron, Junyi Liu, Paolo Costa, Burcu Canakci, Dushyanth Narayanan, Xingbo Wu
  • 時間:06 June 2025
  • 鏈接:https://dl.acm.org/doi/10.1145/3713082.3730381

圖片

摘要

當前,AI集群是高帶寬內存(High Bandwidth Memory, HBM)的主要應用場景之一。然而,HBM在AI工作負載中存在多方面不足。分析表明,HBM在寫性能上過于冗余,但在存儲密度和讀帶寬上不足,且每位能耗開銷較大。此外,HBM成本高昂,因制造復雜性導致良率低于DRAM。我們提出一種新型內存類別:托管式保留內存(Managed-Retention Memory, MRM),其設計更優化于存儲AI推理工作負載的關鍵數據結構。我們認為,MRM為原本用于支持存儲類內存(Storage Class Memory, SCM)的技術提供了可行性路徑。這些技術傳統上追求長期數據保留(10年以上),但IO性能和耐久性較差。MRM通過理解工作負載的IO模式,放棄長期數據保留和寫性能,換取對AI工作負載關鍵指標的更優性能。

1.引言

迄今為止,存儲技術在分類上呈現二元性:分為非易失性和易失性存儲技術。DRAM(包括GDDR、HBM、LPDDR等形式)是主要的易失性內存技術,一旦斷電,數據即丟失。NAND(面向塊)和NOR(面向字節)閃存是廣泛使用的非易失性存儲技術,無需持續供電即可保留數據。在內存單元層面,數據易失性以保留時間(retention time)表示,即數據無需刷新即可可靠存儲的時長。閃存單元的保留時間可達10年以上,但其代價是讀寫吞吐量低于DRAM。因此,DRAM常用于處理器主內存,而閃存用于二級存儲。

其他內存技術,如RRAM、MRAM [30, 47]和PCM [24],均具備非易失性潛力,常被稱為服務器的存儲類內存(SCM)。已停產的Intel Optane/3D XPoint [16]是SCM的典型代表,旨在克服閃存的IO限制,同時保持非易失性。其目標是通過提供與DRAM相當的IO性能和字節尋址能力,以及10年以上的數據保留,取代DRAM。然而,由于密度和制造工藝復雜性的挑戰,SCM未能以低于或等于閃存的成本提供與DRAM相當的IO性能。對于主內存,數據持久性遠不如IO性能重要。在通用計算工作負載中,無人愿意犧牲主內存IO性能以換取10年以上的數據保留。此外,這些技術的耐久性也存在問題 [24]。因此,SCM在某些場景(如嵌入式計算 [1, 2])中具有價值,但在服務器部署中未能成功。

具有諷刺意味的是,閃存的崛起可能對內存創新構成了一定阻礙。非易失性是存儲設備的關鍵屬性,但在內存單元層面,這一屬性具有誤導性。所有內存技術的單元僅提供一段保留時間,從DRAM的微秒級到閃存的多年級。SCM技術被強制要求實現非易失性,即保留時間達到十年以上。然而,這需要犧牲寫延遲、讀延遲、能效和耐久性等其他指標 [13, 19, 34]。

歷史上,這種二元觀念可能源于即使放寬保留時間,SCM技術也無法在通用工作負載的所有關鍵指標上匹敵DRAM。然而,基礎模型(Foundation Models,包括大型語言模型LLM)作為一種新型工作負載,帶來了獨特的內存IO需求 [38]。基礎模型訓練和推理的巨大規模和增長要求全新的硬件方法。基礎模型推理的內存IO需求與傳統工作負載顯著不同。例如,內存主要用于存儲模型權重,順序讀性能至關重要,而寫性能需求較低。內存IO具有順序性和可預測性,且鑒于AI集群的能耗挑戰,每位讀能耗也是關鍵問題。當前,唯一能滿足IO性能、能效和密度的技術是HBM,但其并非完美解決方案,基礎模型推理的某些關鍵階段受限于內存而非計算。此外,HBM成本高昂且良率存在挑戰。

我們認為,現有“非易失性”內存技術可針對此新工作負載重新設計。我們提出一種新型內存類別:托管式保留內存(Managed-Retention Memory, MRM)。MRM不同于易失性DRAM,可在斷電后保留數據且無需頻繁單元刷新以節省能耗,但與SCM不同,MRM不追求長期保留時間。由于推理數據大多無需持久存儲,保留時間可放寬至數天或數小時。以換取,MRM具有更高的耐久性,并旨在關鍵指標(如讀吞吐量、能效和容量)上超越DRAM(包括HBM)。

本文后續部分結構如下:第2節分析基礎模型工作負載特征和需求,并討論HBM的挑戰與不足。第3節介紹相關新興技術。第4節探討重新思考內存和引入MRM的系統級影響。我們明確不局限于某一特定技術,而是強調一個機會空間。這是面向低層內存單元技術、內存控制器設計及訪問內存的軟件系統設計者的行動號召,倡導跨層協作以實現AI時代更優的內存!

2.基礎模型時代的內存

基礎模型的工作負載與傳統工作負載截然不同。基礎模型首先在大型集群(例如,含5萬+ AI加速器的集群)上進行訓練,輸出為模型權重。這些權重隨后部署于生產環境以服務推理查詢。推理通常使用數千甚至數百萬基礎模型實例,但每個推理的硬件規模較小(例如,4+ AI加速器)。已有研究表明,訓練和推理工作負載均為內存密集型 [3, 57]。訓練規模取決于模型大小,屬一次性任務(常需數月),而推理工作負載受需求驅動,且在模型權重退役前需長期服務。

訓練和推理具有不同的內存訪問模式和需求,通常部署在不同集群上。隨著需求增長,推理基礎設施預計將占據主導,因此我們聚焦于推理工作負載。具體而言,我們考慮進行自回歸生成(autoregressive token generation)的基礎模型,即基于前序Token序列生成新Token。推理查詢是一系列輸入Token,模型生成相應的輸出Token序列。上下文(context)由用戶輸入的Token及模型在交互中生成的響應Token組成。盡可能大的上下文對提升模型的推理能力(通過自注意力機制 [52])至關重要。然而,在部署中,受限于可用內存,上下文規模通常為數千至數萬Token。每個推理查詢的計算成本高昂,需跨多個AI加速器進行分布式計算。

推理依賴三種主要內存數據結構:模型權重、KV緩存和模型激活(activations)。其中,模型權重和KV緩存占用大部分內存容量 [22]。

模型權重(矩陣形式)是擴展前沿基礎模型能力的關鍵。每一代基礎模型的權重規模呈指數增長,目前大型模型權重超過5000億,數據量根據量化方式從250 GB到超1 TB不等。權重本質上為非可變數據結構。參考模型權重持久存儲于存儲系統中,而推理集群的每個AI加速器中分布存儲其副本。目前基礎模型數量眾多,但實際大規模使用的僅少數流行模型。同一版本基礎模型(例如,GPT-4)的所有推理查詢使用相同權重的副本。

KV緩存支持模型的自注意力機制,是一系列自注意力向量,編碼模型對上下文Token關系的理解。每次在上下文中生成新Token時,均向KV緩存追加一個向量。每個向量通常為數MB,因此KV緩存通常增長至數十GB,直至達到上下文規模限制。

模型激活是網絡前向傳播期間創建并在各層間傳遞的臨時張量(tensors),其規模通常比權重和KV緩存小一個數量級,僅在前向傳播計算期間存儲。

KV緩存在預填充(prefill)階段生成,即接收用戶首批Token時。隨后,在解碼(decode)階段,模型迭代生成響應Token。在此過程中,KV緩存被整體順序讀取,生成新Token,并追加對應自注意力向量。KV緩存利用內存減少計算,屬軟狀態(soft state):可由模型重新生成,但由于每秒Token生成速率較低(成本高),通常優先緩存而非重新計算。

推理期間,每個生成Token需讀取全部自注意力數據和權重,產生顯著的內存與計算間帶寬需求。同一集群同時處理多個推理請求,但均針對同一模型。因此,每個AI加速器的內存包含模型權重的子集,以及對應當前上下文工作集的多個KV緩存和激活。新模型部署時,集群暫停接受新請求,完成現有請求后加載新模型權重。

總結而言,基礎模型推理主要由大規模、可預測的內存讀取組成,而寫操作較小且多為追加型。讀取的內存范圍預先可知,大部分內存數據長時間不被覆蓋。盡管以讀為主,推理仍需遠高于存儲工作負載的寫速率。

2.1 HBM的局限

當前,AI加速器的大部分數據存儲于HBM,因所有數據結構需以高帶寬反復讀取。當前AI加速器支持極高的主內存帶寬,例如,單個B200 GPU可達8 TB/s [51]。此外,由于權重和KV緩存數據量大,AI加速器需大容量HBM。實現這一目標需克服重大工程挑戰,特別是在能耗方面。高數據速率下銅互連的信號損耗要求內存與計算芯片物理上極靠近,通常同封裝于同一中介層。寬接口和高信號速率導致更高能耗,AI加速器約三分之一能耗來自內存。HBM通過在同一封裝上3D堆疊DRAM,提升封裝內內存容量、吞吐量,并最小化內存單元與AI加速器的距離。當前HBM產品具有8-12層,B200封裝總容量達192 GB [51]。因此,HBM因其高吞吐量、大容量和合理能耗被廣泛使用。然而,即便使用HBM,每次推理查詢的顯著部分仍受內存限制 [37]。

遺憾的是,目前尚無HBM的可行替代品。非堆疊DRAM密度不足,而NAND和NOR閃存速度不足、耐久性較低(尤其在高密度多位單元存儲時),且能效不足以滿足封裝內需求。

HBM面臨若干根本性挑戰。首先,內存廠商難以持續提升密度。DRAM固有的每層擴展問題使得下一代HBM(HBM4)預計僅比HBM3e增加30%每層容量 [40]。其次,DRAM的3D堆疊顯著降低制造良率,并導致散熱問題,尤其與AI加速器芯片緊密封裝時。當前業界預計HBM短期內難以擴展至16層以上 [50],因3D堆疊工藝極為復雜。最后,基礎設施功率密度極高且持續增長,需將每瓦特能量用于有效工作。由于單元電容泄漏,HBM需頻繁刷新(約每幾十至幾百毫秒),即使內存空閑也消耗能量。

這些因素結合云基礎設施對基礎模型的指數增長需求,使HBM占AI集群成本的顯著部分,且短期內難以改變,AI集群仍將依賴HBM。

2.2 新希望?  

基礎模型推理與DRAM設計的通用主內存工作負載截然不同。首先,推理極度讀密集。例如,解碼階段生成每個Token需讀取全部權重和KV緩存 [37],而僅寫入一個自注意力向量(通常最多幾MB [4, 44])。權重和KV緩存規模通常為數十GB,讀寫比超過1000:1。

已有努力減少推理期間讀取數據量。例如,批處理(batching)支持跨請求重用權重 [3],但受延遲要求限制 [3]。KV緩存跨請求重用 [54]和KV緩存壓縮 [27]也被使用,但均有限制,且無法改變工作負載的讀密集特性。

其次,內存訪問具有順序性和可預測性。權重和KV緩存無原地更新,每次生成響應均迭代讀取相同權重和KV緩存。已有內存虛擬化機制應對內存碎片 [22],但頁面仍按相同順序讀取。每頁通常包含10+向量(通常數MB至數十MB),順序讀取 [22],且虛擬頁面與物理地址映射通常靜態。

這些特性表明,HBM容量主要用于無需DRAM通用屬性(隨機訪問、字節尋址、讀寫性能相當)的數據。HBM對基礎模型推理工作負載需求而言,在某種程度上被過度配置,導致成本和能耗次優。

這提出了一個關鍵的問題:若針對工作負載正確配置內存,能否解決推理集群內存的成本和能耗挑戰?

3.內存機會

我們認為,(1)基礎模型基礎設施的重要性和規模,(2)傳統服務器CPU與AI加速器工作負載模式的巨大差異,(3)HBM與工作負載的匹配不足,為計算機體系結構研究開辟了針對該應用的更好內存機會。

我們主張,這一機會最好通過新型內存而非DRAM、HBM或閃存解決。閃存因耐久性不足(即使使用單級單元SLC [7]),無法滿足高吞吐量和能效要求 [14, 36],且非易失性對權重(持久存儲于他處)或軟狀態(KV緩存、激活)數據無必要。

另一方面,工作負載的某些特性類似于存儲工作負載。例如,字節尋址非必需,因IO為大塊順序訪問。與存儲基礎設施類似,存儲容量和每TB總擁有成本(TCO/TB)是關鍵指標,而HBM在此表現不佳。結合HBM與成本較低、吞吐量較低的LPDDR存儲冷數據可降低硬件成本,但會降低數據對GPU的可用帶寬,且無法改善HBM的讀能效。

最后,能效是最重要的指標,內存設備的內部管理操作需最小化。現有技術的許多管理開銷源于單元保留時間與數據生命周期的失配。DRAM保留時間過短,需頻繁刷新;閃存保留時間過長,犧牲耐久性,需FTL機制(磨損均衡、垃圾回收)。兩者管理均依賴寫路徑,能耗較高。相反,將保留時間與數據生命周期匹配可消除刷新、刪除或磨損均衡需求。保留時間從數據持久性管理機制轉變為設備電源管理的核心。

MRM能否滿足AI集群需求?PCM、RRAM和STT-MRAM的讀性能和能效與DRAM甚至SRAM相當或更優 [28],且具有更高密度和/或更低TCO/TB潛力 [17]。STT-MRAM和RRAM單元已展示多級編碼 [10]、高耐久性 [25],并可組織為高密度無晶體管交叉布局 [56]。由于電阻式單元不使用高電容,易于同芯片堆疊 [40]。降低保留時間支持低電壓寫入,解鎖7 nm及更先進的工藝 [58]。這些技術展示了更低讀能耗、更高讀吞吐量和容量的可行路徑,且已在實際產品中部署。PCM在Intel Optane設備中大規模應用,而RRAM和STT-MRAM近年成熟,用于汽車、可穿戴和物聯網應用 [1, 2, 6]。

這些技術的耐久性低于DRAM,我們估算權重和KV緩存寫入的耐久性需求。權重更新為不頻繁的批量覆蓋,通常在模型替換時發生,當前更新頻率較低(小時級),但隨模型多樣化可能增加。我們估算5年內每小時更新(保守)和每秒更新(高強度)的耐久性需求。KV緩存寫入發生在預填充和解碼階段,每個上下文Token寫入一個自注意力向量。預填充吞吐量通常高于解碼,我們基于Llama2-70B模型的報告吞吐量和中位上下文長度 [37],計算5年內KV緩存寫入次數,推斷每單元平均寫入次數。

圖1:KV緩存和模型權重對耐久性的需求與內存技術耐久性的對比圖1:KV緩存和模型權重對耐久性的需求與內存技術耐久性的對比

圖1比較了現有內存/存儲技術的耐久性與工作負載耐久性需求。我們區分了現有產品的耐久性與技術的潛力,技術耐久性數據來自 [30, 47],產品耐久性來自設備規格和基準測試(Intel Optane PCM [5]、Weebit RRAM [32]、Everspin STT-MRAM [39])。

我們觀察到:1)HBM耐久性遠超需求;2)現有SCM設備不滿足耐久性需求,但其底層技術有潛力實現。我們認為,這部分由于當前設備設計追求非易失性,犧牲了寫延遲、能效和耐久性等關鍵指標 [19, 34]。我們視此為針對AI工作負載重新設計現有SCM內存技術的機會,通過放棄非易失性換取其他關鍵指標的優化。

4.軟件棧影響

本節闡述MRM為何對計算機系統社區具有吸引力。基礎模型日益普及,導致需求多樣化:某些用例有嚴格延遲SLA(如用戶交互對話),某些追求高吞吐量并大量使用批處理,其他為后臺盡力而為任務(如會議摘要)。工作負載日益復雜,輸入輸出Token比率差異大,專家模型針對特定用例定制,依賴高級增強機制(如RAG [59])。此外,工作負載的資源密集性和硬件成本高昂要求高效的全局編排。通過利用關鍵OS機制(如虛擬內存 [22]、功耗感知調度 [46]或推測執行 [31]),可構建面向基礎模型推理的機架級OS。在此背景下,MRM的出現帶來一系列激動人心的挑戰和機會。

保留感知的數據放置與調度:MRM難以作為通用的單一解決方案,將與HBM(用于寫密集數據結構,如激活)和LPDDR(作為較慢層)共存。需細粒度理解數據的生命周期和訪問模式以布局數據。調度器需跟蹤數據過期時間,根據依賴數據的請求狀態決定刷新或遷移至其他層。

輕量級內存控制器:MRM控制器有望實現極簡和高效能。無需隨機訪問需求為塊級訪問內存控制器提供了獨特前景,影響軟件棧。傳統上由設備處理的功能(如刷新、磨損均衡)可交由更高層的軟件控制平面處理,以滿足全局應用需求,類似于閃存的區域存儲接口 [60]。

動態可配置內存(Dynamically Configurable Memory, DCM):控制平面具有集群級應用和用戶工作負載可見性,可動態決定數據寫入時的保留時間,精準適配MRM至工作負載。這是MRM的完全靈活實例。硬件層面,內存控制器支持不同持續時間和能量的寫入,運行時編程保留時間。基礎模型OS可編排最優數據刷新、磨損均衡和垃圾回收。

保留感知糾錯:MRM的寬松保留時間要求提出數據完整性問題。MRM存儲的數據多為他處持久存儲(權重)或軟狀態(KV緩存),持久性要求不似傳統存儲系統嚴格。然而,系統需確保數據完整性以保證計算正確性,避免頻繁重算軟狀態。現有內存糾錯技術 [55] 是起點,但基于大塊的MRM接口可考慮低開銷的大碼字糾錯技術 [8]。設計滿足嚴格延遲和吞吐量要求的MRM高效糾錯是開放研究領域。

5.相關工作

保留時間、耐久性和寫能效的權衡在STT-MRAM [18, 43, 48]和RRAM [15, 23, 34, 41]中已有深入研究。利用此機制提高混合片上CPU緩存能效已被提出 [18, 41, 43, 48]。與本研究不同,該工作聚焦通用多核CPU,優化問題不同。AI集群具有機架級能耗和冷卻需求,內存層和互連更復雜,但工作負載更可預測。

斯坦福大學近期啟動一項5年項目,應對主內存層級和異構性增加的預期 [45]。我們一致認為,內存墻 [40] 是關鍵工作負載的主要挑戰,可能導致內存異構性增加,因無單一技術能滿足所有需求。此趨勢在其他應用中常見,例如嵌入式領域傳統使用ROM(只讀存儲器) [9, 33](一次寫入多次讀取)、EPROM(可擦除可編程只讀存儲器) [29](少次寫入多次讀取,用于存儲程序,可用紫外線擦除)及RAM。ROM和EPROM提供非易失性存儲,需謹慎設計以利用不同技術的優勢。

當前努力通過緊密集成內存與計算克服內存墻,包括將更多內存置于計算芯片上 [26, 42]或內存內計算(IMC) [53]。IMC常針對AI工作負載,采用模擬 [11]或數字 [20, 21]計算,可基于MRAM [12]或RRAM [12]。本研究與之正交,旨在優化主流內存/計算模型,而非探索新范式。

AI集群異構內存訪問模式的研究頗多。例如,提出用CPU主內存卸載空閑KV緩存 [49]。Nvidia最新GB200超級芯片集成LPDDR5控制器,提供更高容量、較慢的內存層 [35],表明內存異構性在AI集群中將成常態。本研究提出利用更多數據訪問異構性,最大化每美元生成的Token。

6.結論

AI工作負載的興起及其對HBM的依賴凸顯了HBM的局限性。AI推理工作負載需高讀吞吐量、密度和能效,而HBM難以成本效益高地滿足這些需求。我們提出一種可與HBM共存的新型內存類別:托管式保留內存(MRM),利用原本為SCM設計的技術,通過犧牲保留時間和寫吞吐量等指標,優化AI工作負載的關鍵性能指標。通過放寬保留時間要求,MRM有望使現有SCM技術提供更優的讀吞吐量、能效和密度。我們希望本文激發針對AI推理集群需求的內存單元技術和內存芯片設計的創新思考。

責任編輯:武曉燕 來源: Andy730
相關推薦

2020-02-29 15:18:10

DevOpsNoOps運維

2015-04-13 10:21:39

大數據大數據前景

2023-07-19 10:22:42

AI人工智能

2025-02-18 11:15:12

2011-04-02 09:07:46

OOP

2020-06-30 09:54:20

IT策略疫情主管

2013-10-22 11:32:34

2020-10-23 09:57:31

數據安全SaaS技術

2012-05-11 11:51:46

桌面虛擬化

2011-01-07 10:18:28

RSSWeb

2022-09-15 10:44:42

SidecarIstioeBPFizer

2023-02-06 07:37:29

Java編程語言

2016-09-09 09:24:30

服務器

2023-03-03 12:58:23

2013-04-28 09:01:41

2023-03-03 12:19:44

2011-05-11 09:01:29

面向對象技術函數式語言

2016-06-08 14:05:30

2012-02-20 10:12:09

Java

2013-10-23 09:45:41

云WANWAN廣域網
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕亚洲欧美日韩在线不卡 | 一a级片| 又黄又爽的网站 | 欧美日韩亚洲国产综合 | 欧美国产视频 | 国产探花在线精品一区二区 | 久久久久国产一区二区三区四区 | 精品国产一二三区 | 成人天堂噜噜噜 | 中文字幕成人免费视频 | 亚洲精品日本 | 日本在线播放一区二区 | 久久精品国产一区二区三区不卡 | 久久精品视频免费看 | 欧美精品一区在线发布 | 91久久精品国产91久久性色tv | 午夜私人影院 | 日韩欧美中文在线 | 久久久黑人 | 91在线电影| 97起碰| 99re热这里只有精品视频 | 亚洲国产精品日本 | 日本91av视频 | 成人毛片一区二区三区 | 国产精品久久久久久久久久久久 | 久久精片| av在线免费观看网址 | www亚洲成人 | 中国一级毛片免费 | 亚洲免费观看视频网站 | 久久精品一区二区三区四区 | 成人av免费在线观看 | 色综合久久天天综合网 | 亚洲欧美一区二区三区在线 | 九九亚洲精品 | 91佛爷在线观看 | 中文字幕在线一区二区三区 | 久久久一区二区三区 | 男女下面一进一出网站 | 国产精品免费大片 |