從聊天記錄到數字資產:MIRIX 讓記憶可買賣
大家好,我是肆〇柒。當下,LLM 智能體在各種復雜任務中表現得越來越出色。然而,記憶這一關鍵要素卻始終制約著 LLM 智能體的進一步發展。在與這些智能體的交互中,我們常常發現它們難以像人類一樣記住過去的對話、識別模式或根據以往經驗調整行為。這種“健忘癥”限制了它們在現實世界中的長期可用性,也讓用戶對它們的期待大打折扣。
痛點對比:傳統 RAG 的三大健忘瞬間
- 對話一:用戶曾說 “The CEO of Twitter is Linda Yaccarino”,但幾天后詢問 “Who is the CEO of Twitter?” 時,傳統 RAG 智能體依賴過時知識錯誤回答 “Elon Musk”。
- 對話二:在 LOCOMO 數據集中,對于 “When is Melanie planning on going camping?” 這一問題,傳統方法因對話中前后矛盾(早期計劃與實際發生)難以準確判斷時間。
- 對話三:面對 “Where did Caroline move from 4 years ago?” 這類需要整合多處信息的復雜問題,傳統 RAG 無法有效拼湊分散證據,導致回答錯誤或不完整。
這些痛點凸顯了傳統 RAG 的局限性,而由 MIRIX AI 提出的 MIRIX,正是為了解決這些問題。攜六種創新記憶類型與多智能體架構,為 LLM 智能體的記憶難題帶來了創新的解決方案。它不僅能夠精準捕捉和存儲豐富的視覺及多模態體驗,還通過主動檢索機制讓記憶的調用變得高效和智能。
它能做什么?3 個真實場景
說了這么多,MIRIX 到底能幫你做什么?我們先用三個真實場景感受一下。
場景一:跨平臺個人助理
MIRIX 驅動的跨平臺個人助理應用程序,是你數字生活的得力助手。它能實時監控你的屏幕活動,每 1.5 秒截取一次屏幕圖像,智能去重后,每 60 秒左右更新一次記憶。借助 Gemini API,它實現高效、低延遲的視覺數據傳輸,讓你幾乎實時看到記憶更新。你可以在聊天界面中查詢過去的操作細節、文件摘要或特定事件背景,智能體都能憑借強大的記憶能力給出準確答復。如下圖所示。
聊天窗口
語義記憶以樹結構呈現,清晰展示概念關系;程序性記憶以列表視圖展示任務步驟,方便你回顧和總結經驗。
比如,一句話對話示例:“上周我在 VS Code 里改了哪個配置讓代碼高亮失效?”
場景二:可穿戴設備中的智能助手
在可穿戴設備領域,MIRIX 為智能個人助理注入了新的活力。以人工智能眼鏡為例,配備 MIRIX 系統的設備能夠自動總結會議內容,提煉關鍵要點;記住你經常訪問的地點,提供精準導航建議;識別重復出現的視覺模式,記錄生活中的重要時刻;回溯之前的對話或任務,讓你迅速獲取相關記憶。它完美契合輕量級、便攜設備需求,程序性記憶學習日常習慣,語義記憶存儲環境偏好,情景記憶捕獲時間戳事件,混合存儲設計巧妙適應硬件限制,確保隱私安全的同時節省設備存儲空間。鑒于可穿戴設備硬件約束(limited compute and storage),MIRIX 采用 hybrid on-device/cloud memory management,將知識庫等關鍵信息本地存儲,資源記憶等大規模記憶云端調取,既保障隱私又節省空間。
比如,一句話對話示例:“我在咖啡店遇到的那個人名片上寫的郵箱是什么?”
場景三:智能體記憶市場中的數字資產
MIRIX 提出了一個大膽而創新的概念 —— 將個人記憶打造成為一種全新的數字資產類別。在這個時代,記憶不再僅僅是過去事件的被動記錄,而是成為了可共享、個性化和貨幣化的活躍知識庫。在智能體記憶市場中,用戶可以在記憶社交 / 交易平臺上分享和交換記憶,通過代幣化的方式實現記憶的價值轉化。專家社區聚焦特定領域,集體構建專業知識記憶庫。粉絲經濟與約會應用為直觀地展示出與名人或網紅數字人設互動的新途徑,創造者也迎來了新的商業機會。
比如,一句話對話示例:“把我上個月研究‘聯邦學習’的完整工作流掛到市場賣 5 美元。”
它怎么做到?—— 拆開瞅瞅
看完這些場景,我們一起來看看 MIRIX 是怎么記住“你上周看過哪份報告” 的?
與需要重訓 Transformer 結構才能記憶的最新研究不同,MIRIX 采用外掛式多智能體架構,零侵入、零重訓,直接兼容 GPT-4、Gemini 等閉源模型,即插即用。接下來我們拆開它的“記憶抽屜”。
記憶分類對照表
人類認知模型類型 | MIRIX 記憶組件 | 字段名對照 |
Episodic(情景記憶) | Episodic Memory | event_type、summary、details、actor、timestamp |
Semantic(語義記憶) | Semantic Memory | name、summary、details、source |
Procedural(程序性記憶) | Procedural Memory | entry_type、description、steps |
— | Core Memory | persona、human(包含姓名、愛好等持久信息) |
— | Resource Memory | title、summary、resource_type、content |
— | Knowledge Vault | entry_type、source、sensitivity_level、secret_value |
記憶組件
MIRIX 有六種記憶類型,每種類型的功能和結構各不相同,共同構成了其堅實的基礎。這六種劃分參考了認知科學中經典的情景、語義、程序記憶模型,既保留人類記憶的抽象層次,又針對 LLM 場景做了工程化擴展。
MIRIX 的六個記憶組件
核心記憶(Core Memory)
核心記憶分為 persona 和 human 塊。persona 塊編碼智能體的個性身份、語氣風格以及行為模式,塑造智能體獨特的“人格魅力”;human 塊記錄用戶的持久信息,包括姓名、愛好、生活習慣等關鍵屬性。例如,human 塊會存儲 “User’s name is David”“User enjoys Japanese cuisine” 等信息。當記憶容量接近上限時,系統會智能觸發受控重寫過程,去除冗余和過時的信息,確保記憶的緊湊性和相關性。
情景記憶(Episodic Memory)
情景記憶以結構化方式記錄時間戳事件,涵蓋事件類型、摘要、細節、參與者和時間戳等關鍵字段。例如,當你提到一次旅行計劃,情景記憶會記錄提及時間(如 2025-03-05 10:15)、行程安排(user_message 表示這是用戶發送的消息)、參與人員等信息,為后續提供跟進服務和提醒事項奠定基礎。
語義記憶(Semantic Memory)
語義記憶專注存儲抽象知識和事實信息,包含名稱、摘要、細節和來源等字段。它不局限于特定時間和事件,更注重知識的普遍性和關聯性。比如,它會記錄“巴黎是法國的首都”這類地理知識,或“用戶喜歡閱讀科幻小說”這類個人偏好信息,為智能體構建豐富全面的知識網絡。
示例語義記憶的樹形結構
程序性記憶(Procedural Memory)
程序性記憶存儲結構化、目標導向的流程,涵蓋工作流程、指南和腳本的類型、目標和步驟列表。比如,撰寫商務報告時,它提供從資料收集到排版的一系列步驟指導;學習烹飪新菜肴時,給出分步操作流程;在處理差旅報銷時,它會存儲 “how to file a travel reimbursement form” 的詳細步驟,從收集票據到提交申請,確保用戶順利完成任務。
示例程序性記憶的列表視圖
資源記憶(Resource Memory)
資源記憶處理用戶正在使用的完整或部分文檔、腳本或多媒體文件,包含標題、摘要、資源類型和內容等字段。閱讀研究報告時,它存儲關鍵章節和摘要,方便查閱和引用;編輯視頻時,保存素材片段和編輯進度,確保多任務處理或長時間工作中不會丟失成果。
知識庫記憶(Knowledge Vault)
知識庫安全存儲憑證、地址、聯系信息和 API 密鑰等逐字和敏感信息。通過嚴格訪問控制機制和敏感度級別設置,確保高敏感信息的安全性。銀行賬戶信息、私人郵箱密碼等在知識庫中得到最高級別保護,只有經過嚴格授權驗證,智能體才能在合法必要場景下使用這些信息,有效防止隱私泄露。
主動檢索與檢索設計
MIRIX 的主動檢索機制解決了現有記憶增強系統中記憶檢索需顯式觸發的問題。它將檢索過程分為兩個階段。首先,智能體基于輸入上下文生成精準的當前主題;接著,利用該主題從每個記憶組件中檢索相關記憶,并將結果注入系統提示中。例如,詢問“誰是 Twitter 的 CEO?”時,智能體判斷主題為“Twitter 的 CEO 信息”,從六個記憶組件中檢索最新記憶內容,如對話中提到的 CEO 姓名、相關新聞報道中的變更記錄等,并整合反饋給用戶。這一過程如下圖所示。
主動檢索演示
為避免模型依賴過時知識錯誤回答問題,主動檢索機制確保回答的及時性和準確性。檢索到的內容會進行來源標記,讓模型清楚知曉每條信息的內容和來源,從而在生成回答時合理引用和整合這些記憶。此外,MIRIX 支持多種檢索功能,如 embedding_match、bm25_match 和 string_match,適用于不同類型的數據和查詢需求。例如,基于語義相似度的查詢,embedding_match 能快速找到匹配記憶;基于關鍵詞精確匹配的場景,string_match 能精準定位相關內容。MIRIX 正不斷擴展更多檢索策略,以滿足日益多樣化的應用場景,確保在各種復雜情況下都能高效精準地檢索到所需記憶。
多智能體工作流
與需要重訓 Transformer 結構才能記憶的最新研究不同,MIRIX 采用外掛式多智能體架構,零侵入、零重訓,直接兼容 GPT-4、Gemini 等閉源模型,即插即用。
記憶更新工作流
多智能體架構是 MIRIX 靈活應對用戶交互復雜性和異構性的關鍵。在記憶更新工作流中,接收到用戶輸入后,系統首先在記憶庫中全面搜索,初步篩選出可能相關的信息。然后,元記憶管理器分析這些內容,精準將其路由到相應的記憶管理器。這些記憶管理器高效執行更新任務,同時避免冗余信息干擾。更新完成后,它們向元記憶管理器匯報,元記憶管理器確認所有更新任務成功完成后,才向用戶發送更新完成通知。這一過程既保證了記憶更新的準確性,又提高了更新效率,使系統能夠及時跟上用戶信息的快速變化。這一過程如下圖所示。
記憶更新工作流程
對話檢索工作流
在對話檢索工作流中,聊天智能體收到用戶查詢后,先進行粗略檢索,快速掃描所有六個記憶組件,獲取與查詢相關的高級別摘要信息。然后,它深入分析查詢,判斷哪些記憶組件可能藏有更關鍵的線索。接下來,聊天智能體選擇合適檢索方法,獲取詳細結果,并整合加工,最終形成完整準確富有邏輯的響應呈現給用戶。如果用戶查詢涉及記憶更新,聊天智能體還能直接與相應的記憶管理器交互,精準地對特定記憶組件進行更新,確保記憶的時效性和完整性。如下圖所示。
響應用戶查詢的工作流程
技術架構
多智能體架構的協作機制
MIRIX 的多智能體架構由 8 個智能體組成,包括 1 個 Meta Memory Manager、6 個 Memory Managers 和 1 個 Chat Agent。Meta Memory Manager 起著核心的協調作用。當接收到用戶輸入后,它會先對輸入內容進行全面分析,判斷其中的關鍵信息和記憶需求,然后確定與此輸入相關的記憶組件,并將任務精準地路由到對應的 Memory Managers。例如,如果用戶輸入的內容涉及一個新的事件描述,Meta Memory Manager 會識別出該內容包含事件類型、參與者、時間等關鍵要素,從而判定其屬于情景記憶的范疇,并將任務分配給情景記憶管理器,由它來進一步處理和存儲該事件信息。這種基于內容的動態任務分配機制,使得各記憶組件能夠高效地協作,避免了記憶處理的混亂和冗余。
存儲壓縮技術的實現
MIRIX 實現了高達 99.9% 的存儲壓縮,這一成果主要得益于其對原始圖像的處理方式。它不存儲任何原始圖像,而是通過高效的摘要算法對圖像內容進行提煉和壓縮,僅保留關鍵的結構化信息。具體來說,在處理用戶屏幕截圖時,MIRIX 會先對圖像進行分析,提取出其中的核心內容和特征,如圖像中包含的關鍵物體、文字信息、布局結構等,并將這些信息轉化為簡潔的文本描述或數據結構進行存儲。同時,它還會運用去重策略,識別和過濾掉相似度極高的圖像內容,進一步減少存儲負擔。這種摘要算法與去重策略相結合的方式,使得 MIRIX 能夠以極小的存儲空間保存大量的多模態信息,其存儲效率遠超傳統方法。例如,在實驗中,對于 SigLIP 需要存儲 22.55GB 的圖像數據,MIRIX 僅需 20.57MB 即可完成存儲,壓縮比達到了驚人的 949:1。
隱私機制的保障
在可穿戴設備場景中,MIRIX 的混合存儲設計充分考慮了隱私保護。對于知識庫記憶中的敏感信息,如用戶的私人聯系信息、賬戶密碼等,MIRIX 采用了嚴格的敏感度分級機制。這些高敏感信息會被標記為最高敏感度級別,并通過訪問控制機制進行嚴格保護。只有在用戶明確授權且符合特定的安全策略時,智能體才能訪問這些信息。此外,MIRIX 還將關鍵信息存儲在本地,而非云端,進一步降低了隱私數據泄露的風險。例如,在知識庫記憶的字段設計中,包含 sensitivity_level 字段,用于明確標識每條信息的敏感程度,從而確保高敏感數據不會被隨意檢索和使用。
記憶市場的爭議澄清
針對記憶市場中可能引發的數據權屬爭議,MIRIX 強調其技術的中立性。其隱私基礎設施包含三層設計:加密層、權限控制和去中心化存儲。加密層確保所有記憶數據在存儲和傳輸過程中都被加密處理,只有經過授權的用戶和智能體才能解密使用;權限控制允許用戶精細地設置哪些記憶可以共享、交易或限制訪問,用戶對自身的記憶資產擁有絕對的控制權;去中心化存儲則避免了記憶數據被集中掌控,降低了數據被濫用的風險。這種隱私保護機制為記憶市場的健康發展提供了堅實的基礎,確保了用戶在共享和交易記憶時的權益得到充分保障。
實驗:3 位博士生的 3 萬截圖
為了驗證 MIRIX 的性能,研究者邀請了 3 位博士生參與實驗。他們在日常使用電腦的過程中,通過一個自動化腳本,每秒截取一次屏幕圖像。如果當前圖像與上一張圖像相似度超過 99%,則跳過當前圖像,以減少重復數據。通過這種方式,研究者收集了大量高分辨率的屏幕截圖,總計超過 3 萬張。這些截圖涵蓋了他們一個月內的各種計算機使用場景,包括閱讀文獻、編寫代碼、參加在線會議等。基于這些截圖,構建了一個具有挑戰性的多模態數據集,并提出了相關的問題,用于測試 MIRIX 的記憶能力和推理能力。
實驗設計:為什么用截圖
傳統文本記憶系統無法處理視覺輸入,而 MIRIX 的一大創新點在于能夠處理多模態輸入,包括視覺信息。因此,研究者需要驗證 MIRIX 是否能從真實用戶的屏幕活動中提取并記憶信息。為此,他們選擇了 3 位博士生作為參與者,這些博士生分別來自計算機科學和物理學領域,自愿運行腳本 1 周到 1 個月不等。數據采集的具體過程是:每秒截屏一次,然后通過去重算法(相似度超過 99% 的圖像被跳過),最終得到的截圖數量分別為:第一位博士生 5,886 張(1 天內)、第二位博士生 18,178 張(20 天內)、第三位博士生 5,349 張(超過 1 個月)。總計超過 3 萬張高分辨率截圖。為了構建測試問題,每位博士生根據截圖手寫問答對,研究者再進行交叉驗證以確保問題的可答性,最終得到 87 個問題(第一位博士生 11 個、第二位博士生 21 個、第三位博士生 55 個)。
對比基線
為了更全面地評估 MIRIX 的性能,研究者選擇了以下幾種基線方法進行對比:
方法 | 說明 | 是否支持多模態 | 存儲方式 |
Gemini | 長上下文基線,將 3,600 張縮略圖一次性輸入模型 | ? | 142–439 MB |
SigLIP | RAG 基線,先用視覺模型檢索 Top50 圖,再讓 Gemini 回答 | ? | 2.8–22.5 GB |
MIRIX | 本文方法,僅存儲結構化記憶 | ? | 7–21 MB |
結果速覽
一句話總結:MIRIX 用 1% 的存儲空間,換來了 4 倍的準確率提升。
指標 | Gemini | SigLIP | MIRIX |
平均準確率 | 11.7 % | 44.1 % | 59.5 % |
平均存儲 | 237 MB | 15.1 GB | 15.9 MB |
具體實驗結果如下表所示。
ScreenshotVQA 實驗結果
深入分析
存儲效率
MIRIX 不存原圖,僅保留結構化摘要,壓縮比達到 949 : 1(SigLIP vs MIRIX)。具體來說,對于第一位博士生的數據,SigLIP 存儲大小為 22.55GB,而 MIRIX 僅為 20.57MB;第二位博士生的數據,SigLIP 存儲為 19.88GB,MIRIX 為 19.83MB;第三位博士生,SigLIP 存儲 2.82GB,MIRIX 僅 7.28MB。這種高效的存儲方式使得 MIRIX 在處理大規模多模態數據時更具優勢。
準確率提升
相比 RAG 基線,MIRIX 提高了 35% 的準確率;相比長上下文基線,MIRIX 提升了 410% 的準確率。MIRIX 的高準確率得益于其獨特的記憶組件和主動檢索機制。例如,在處理復雜問題時,MIRIX 能夠快速從多個記憶組件中檢索到相關信息,并整合后生成準確的回答。而 Gemini 和 SigLIP 等基線方法由于缺乏這種高效的檢索和整合能力,導致準確率較低。
錯誤案例
盡管 MIRIX 在總體上表現優異,但在某些特定情況下也會出現錯誤。例如,Gemini 由于需要一次性處理大量圖像,容易出現“幻覺”,即生成與問題無關的回答;SigLIP 在檢索 Top50 圖像時可能會漏掉關鍵幀,從而導致回答不準確;MIRIX 由于需要對圖像內容進行摘要,可能會丟失一些細節信息,從而在某些情況下出現誤判。這些錯誤案例為未來的研究提供了改進的方向。
LOCOMO 對話實驗
實驗背景
除了多模態數據集的實驗,研究者還對 MIRIX 進行了長對話問答實驗。實驗使用了 LOCOMO 數據集,該數據集包含 10 段對話,每段對話平均有 200 個問題,總共有 26,000 個 token。實驗的設定是:不直接將對話原文輸入模型,而是僅依靠模型從記憶中檢索到的信息來回答問題。這種設定更能體現模型的記憶能力和推理能力。
實驗結果
在 LOCOMO 數據集上,MIRIX 的表現非常出色,其平均 J 評分達到了 85.38%(三次獨立運行的 Overall 區間為 83.98 % –87.34 %,標準差 1.8 pp,穩定性良好),領先最強開源對手 +8.0 pp,逼近 Full-Context 上界(87.5%)。具體來看,在不同類型的問答中,MIRIX 的表現如下:
- 單跳問題 :MIRIX 的準確率為 85.11%,略低于 Full-Context 方法(88.53%),但遠高于其他基線方法。這表明 MIRIX 在處理簡單事實查找問題時已經非常接近人類水平。
- 多跳問題 :MIRIX 的準確率為 83.70%,領先第二名 +24 pp。這得益于 MIRIX 的事件整合存儲機制,能夠快速將分散的信息整合成完整的事件,從而更高效地回答多跳問題。
- 開放領域問題 :MIRIX 的準確率為 65.62%,與基線方法的差距相對較小。這表明在開放領域問題上,MIRIX 的推理能力還有提升空間。
- 時間順序問題 :MIRIX 的準確率為 88.39%,表現非常出色,這得益于其情景記憶組件對時間戳事件的精準記錄和推理能力。
具體如下表
LOCOMO 數據集的 LLM-as-a-Judge 評分
LOCOMO 數據集的 LLM-as-a-Judge 評分(不同運行結果)
實驗亮點
在 LOCOMO 數據集上,MIRIX 的表現令人矚目。它在 200 個問題的全面測試中,以 85.4% 的準確率逼近人類水平的上限(87.5%)。尤其是在需要整合多處對話信息的多跳問題上,MIRIX 憑借其獨特的事件整合存儲機制,比現有方法高出 24%。這使得它能夠快速調取完整的事件記憶,而無需在查詢時拼湊碎片化信息。
總結:MIRIX - 讓記憶更高效、精準與實用
MIRIX 用約 15MB 存儲空間高效記住 3 萬張截圖關鍵信息,并在對話中準確回答超 85% 的復雜問題,實現技術突破,推動記憶系統從傳統工具向價值創造轉變。
不放想象一下,MIRIX 的巨大潛力。比如未來,在會議場景中,配備 MIRIX 系統的智能眼鏡能精準總結會議內容。同時,用戶可選擇將 “如何在 3 分鐘內提煉會議紀要” 的技巧以匿名方式分享給其他授權用戶。這種共享是知識的安全流轉,用戶技能與經驗成為他人受益資源,且用戶隱私始終掌控在自己手中。
這種轉變預示著記憶系統未來發展方向,即從單純的信息存儲檢索轉變為可共享、可復用的知識資產。MIRIX 通過隱私保護機制確保用戶對自身記憶資產擁有絕對控制權,其隱私基礎設施包含加密層、權限控制和去中心化存儲三層設計。加密層確保記憶數據存儲傳輸過程加密,僅授權用戶和智能體可解密使用;權限控制允許用戶精細設置記憶共享、交易或限制訪問權限;去中心化存儲避免記憶數據集中掌控,降低數據濫用風險。
MIRIX 為開發者帶來一種新思路。例如,程序性記憶的 JSON 步驟可轉化為可交易技能卡,使高效工作流程成為可購買數字商品;知識庫記憶則能設計得像密碼箱一樣,僅由用戶解鎖,讓敏感信息保護機制更直觀可靠。MIRIX 可以讓這些想法逐漸成為現實,重新定義 LLM 智能體記憶能力,平衡隱私保護與價值創造。至此,大家可通過其GitHub頁面下載完整代碼和 Demo 應用,體驗這一創新技術如何改變我們與數字世界的交互方式(如需體驗見參考資料)。
記憶,是智能體工作的核心部件,也是 AI 與環境交互的即時體現。