MemOS:讓大模型告別遺忘、擁有操作系統級記憶管理 原創 精華
論文提出了一個卓越的記憶框架——MemOS,它將記憶功能提升為系統級調用。大語言模型遺忘速度快,重新訓練成本高昂。MemOS將記憶視為操作系統中的文件,讓模型能夠在運行時動態地寫入、移動和淘汰知識,而不僅僅是在訓練期間。它將每個事實或狀態封裝在一個記憶立方體(MemCube)中,標記創建者和時間戳,然后調度器根據使用情況將該立方體在純文本、GPU緩存或微型權重補丁之間移動。在LOCOMO基準測試中,該系統達到73.31分的LLM-Judge平均分,比次佳記憶系統高出約9分,在復雜的多跳和時序問題上保持領先。即使處理約1500個記憶令牌,它也能匹配全上下文的準確性,同時保持與輕量級基線相當的延遲。將熱點立方體切換到KV緩存可在Qwen2.5-72B測試中將首令牌等待時間減少91.4%,且不改變任何輸出文本。總體而言,研究結果表明,將記憶作為操作系統的方法能夠提升推理質量、降低延遲,并同時內置審計和版本控制功能。
圖片
記憶系統的困境:大多數模型將所有信息壓縮到數十億個凍結權重中,因此更新哪怕一個事實都需要完整的微調。上下文窗口雖然能暫時幫助,但會在下一個提示后消失,而檢索管道會添加額外文本卻不跟蹤版本或所有權。第2頁的圖1顯示MemOS在單跳、多跳、開放域和時序問題上都優于舊有解決方案,這表明單純的參數調整或普通的RAG永遠不夠。
圖片
記憶立方體的內容:記憶立方體封裝實際記憶加上元數據,如所有者、時間戳、優先級和訪問規則。該封裝適用于三種記憶形式:純文本片段、位于KV緩存中的激活張量,以及低秩參數補丁。由于每個立方體都記錄訪問者和原因,調度器可以將熱點立方體提升到GPU緩存或將冷門立方體存儲到歸檔存儲中,同時不丟失審計軌跡。
圖片
三層架構的協同工作:接口層將用戶對話轉換為結構化的MemoryAPI調用,將"去年的檢查"之類的問題轉化為時間范圍查詢。操作層運行MemScheduler、MemOperator和MemLifecycle來選擇立方體、融合重疊內容,并將這些立方體標記為激活、合并或歸檔狀態。基礎設施層通過MemGovernance保護立方體,通過MemLoader/MemDumper傳輸它們,并將它們存儲在MemVault中,后者可以是向量存儲、圖數據庫或對象存儲桶。
圖片
調度器保持記憶新鮮:MemScheduler決定哪個立方體放置在何處。高命中率的純文本轉換為激活張量以便即時重用,穩定的激活模式最終蒸餾為參數補丁以實現零提示開銷。舊立方體則反向滑動,一旦停止獲得命中,昂貴的權重就轉換為便宜的文本。
圖片
數據驗證效果:在LOCOMO基準測試中,MemOS獲得73.31分的LLM-Judge分數,比次佳系統高出約9分,同時保持相似的延遲預算。在多跳和時序推理方面差距尤其明顯,這些領域在上下文缺失時容易崩潰。
圖片
KV技巧縮短等待時間:MemScheduler將熱門立方體預先烘焙為KV緩存條目,使模型跳過編碼器工作。在Qwen2.5-72B測試中,首令牌延遲從1.79秒降至0.15秒,減少91%,輸出文本保持逐字節相同。
論文標題:MemOS: A Memory OS for AI System
論文鏈接:???https://arxiv.org/abs/2507.03724??
本文轉載自???????AI帝國???????,作者:無影寺
