AI記憶偽裝被戳穿！GPT、DeepSeek等17款主流大模型根本記不住數字

作者：機器之心 2025-06-16 06:00:00

人工智能

最近，來自約翰?霍普金斯大學與中國人民大學的團隊設計了三套實驗，專門把關鍵線索藏在上下文之外，逼模型「憑記憶」作答，從而檢驗它們是否真的在腦海里保留了信息。

在進入本文之前，我們先來玩個 10 秒小游戲：

在心里選一個「1-10」的整數。
現在設想我問：「你想的是 5 嗎？」
如果聽到是自己的數字，你會本能地答 Yes，其余統統 No。

這件小事背后其實考驗的是你大腦的工作記憶 —— 保持一個念頭、隨時對比外部問題并作出一致回應。

圖 1: 當 ChatGPT 告訴我們他心中已經想好一個數字，并回答該數字不是 4。我們要如何判斷 ChatGPT 是否在說謊？

同樣的小游戲，大模型會如何反應呢？它們是否真的能做到像人類一樣，不輸出但在心中想好一個數字？我們又如何檢驗？

論文標題：LLMs Do Not Have Human-Like Working Memory
論文鏈接：https://arxiv.org/abs/2505.10571
作者：Jen-Tse Huang（黃任澤）、Kaiser Sun、Wenxuan Wang、Mark Dredze

一、什么是工作記憶？如何測量人類的工作記憶？傳統評估為什么不夠？

在人類大腦里，工作記憶（Working Memory）負責把剛獲得的信息保留幾秒到幾十秒，并在此基礎上進行推理、計算、對話等復雜操作。沒有它，人會前后矛盾、無法心算，也難以進行連貫交流。

而大模型常被比作「會說話的大腦」。如果它們缺少這一能力，離真正的「通用人工智能」就還差關鍵一塊拼圖。

以往工作常常使用 N-Back Task 來評估大模型的工作記憶。受試者看到（或聽到）一串字母 / 數字，并需持續回答「當前字母 / 數字是否與 N 步之前相同？」難度隨 N 增大而增加，被廣泛用作神經影像和認知心理實驗的標準工具。

但是直接拿來直接測 LLM 并不合適。人類測試時僅能看到當前的字母 / 數字，而 LLM 輸入窗口內本身就包含全部歷史 token，「回看 N 步」并非真正的內部記憶調用，而是簡單的文本匹配。

圖 2: 為人類設計的評估工作記憶的常用泛式：N-Back Task。受試者看（聽）到一連串字母 / 數字序列，并持續回答「當前字母 / 數字是否與 N 步之前相同？」

二、三大實驗逐個拆解 LLM 的「記憶漏洞」

實驗 1: 數字猜謎（Number Guessing Game）

任務流程：大模型先在心里想好一個數字，用戶重復提問「你想的是 X（1-10）嗎？」重復 2000 次。統計每個數字大模型回答「是」的頻率。

評測要點：1-10 上回答「是」的概率和必須為 1，即 10 個數字總得有一個 Yes。

圖 3: 17 個模型對每個數字回答「是」的分布情況。

團隊統計了來自 5 個模型家族的 17 個模型，發現大部分模型在所有情況下居然都會回答「否」（即在圖中全為 0）！團隊又進一步統計了每個模型的概率加總：

圖 4: 17 個模型對每個數字回答「是」的概率加總。

結果發現僅有 GPT-4o-2024-08-06 以及 LLaMA-3.1-8B 版本做到了能在概率加總上接近 1。而其他模型，不管來自哪個模型家族，不管是不是推理模型，都全軍覆沒，模型根本沒有在「腦內」存數字！

圖 5: GPT-4o-2024-08-06 模型對其他數字范圍回答「是」的分布情況。

彩蛋：在所有測試里，LLM 都對數字 7（甚至 17，37）情有獨鐘 —— 看來「人類幸運數字」迷信也傳染給了模型！

實驗 2: 是?非問答（Yes?No Game）

任務流程：在心里選好一個具體物體（如「鉛筆」），然后僅用 Yes/No 回答一連串比較：是否比 X 重？比 Y 長？比 Z 大？

人類會如何做？每次遇到新的問題的時候，把內心想的物體與問題里的物體做比較，輕輕松松作答。若沒有工作記憶呢？如果做不到在心中想好具體的物體，在每次遇到新問題時，只能回去檢查之前的所有問題與答案，推理要如何回答新問題才能避免跟之前自相矛盾。

團隊持續問大模型 250 次問題，并統計了最終大模型止步于第幾個問題的直方圖：

圖 6: GPT-4o-2024-08-06 以及 GPT-4o-Mini-2024-07-18 模型在自相矛盾前回答問題數量的頻率直方圖。

結果發現問到 20?40 題時，GPT?4 級別模型開始露餡：「比汽車大」同時又「比足球小」之類的尺寸悖論橫飛。長上下文（Long-Context）推理能力更強的 GPT-4o 在通過的次數以及平均回答問題數上均超過更弱的 GPT-4o-Mini，但總計 200 次測試中也僅僅有 27 次成功通過。這說明大模型僅通過其長上下文能力在完成任務，而非一個一致的工作記憶。

實驗 3: 數學魔術（Math Magic）

任務流程：心中記住 4 個隨機數（如 3?5?2?9），然后依次執行 10 步心算：復制、置底、插入、刪除、…… 最終理論上剩下 2 個相同的數。

團隊沿用實驗 1 中的 17 個模型，統計它們最后 2 個數字相同的概率：

圖 7: 17 個模型在數學魔術中的準確率，下圖為使用 CoT 的模型以及推理模型（LRM）。

結果發現主流模型正確率普遍非常低。研究者嘗試加 CoT 也沒用。 DeepSeek?R1 以 39% 勉強排名第一，但仍有巨大提升空間。值得注意的是模型表現與實驗 1 一致 ——LLaMA-3.1-8B 效果超群。

三、小結

論文共測試 GPT、o1/3/4、LLaMA、Qwen、DeepSeek 等 17 個熱門模型，無一通過三項考驗：

LLaMA?3.1?8B 在數字猜謎最接近「人類」—— 概率和 0.98，在數學魔術上不用 CoT 也能超越 o1。
DeepSeek?R1 在數學魔術拿到 39.3% 正確率的最高分，但仍遠不到及格線。
體量更大、推理鏈更長≠更好工作記憶；有的升級版甚至退步。

一句話：尚無開源或閉源 LLM 通過「三關」。這意味著什么？

對話更真實？未來要讓 AI 像人一樣「邊想邊聊」，就得補上真正的工作記憶機制，而不僅是無限上下文窗口。
長鏈推理？現有 CoT 更多是把「草稿」寫進提示里，并非模型在腦中運算。
新研究方向！或借鑒認知科學，引入可讀寫的「內存格」；或通過 RL、神經模塊化等方法，讓模型學會在體內保留并操縱隱變量。

責任編輯：趙寧寧來源：機器之心

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看