谷歌出手整頓大模型“健忘癥”！反饋注意力機制幫你“更新”上下文，大模型無限記憶力時代將至

原創精選

作者：伊風 2024-04-17 12:55:05

人工智能

通過大膽的想象，研究人員在現實世界與抽象概念間假設起橋梁。隨著TransformerFAM這樣的創新成果繼續涌現出來，技術的瓶頸會一次次被突破，一個更加智能、互聯的未來正向我們徐徐地展開畫卷。

編輯|伊風

出品 | 51CTO技術棧（微信號：blog51cto）

谷歌終于出手了！我們將不再忍受大模型的“健忘癥”。

TransformerFAM橫空出世，放話要讓大模型擁有無限記憶力！

話不多說，先來看看TransformerFAM的“療效”：

圖片

大模型在處理長上下文任務時的性能得到了顯著提升！

上圖中，Isabelle、NarrativeQA等任務要求模型理解和處理大量上下文信息，并對特定問題給出準確的回答或摘要。在所有任務中，FAM配置的模型都優于所有其他BSWA配置，并且能看到當超過某個點時，BSWA記憶段數量的增加已經無法繼續提升其記憶能力。

看來，在卷長文本、長對話的路上，FAM這顆大模型的“忘不了”確實有點東西。

Google 的研究人員介紹，FAM這種新穎的 Transformer 架構——Feedback Attention Memory，它利用反饋循環使網絡能夠關注其自身的潛在表示，促進 Transformer 內部工作記憶的出現，并使其能夠處理無限長的序列。

簡單點說，這個策略有點像我們人工對抗大模型“失憶”的策略：每次和大模型對話前都再輸入一次prompt。只不過FAM的做法更高階一些，在模型處理新的數據塊時，它會將之前處理過的信息（即FAM）作為一個動態更新的上下文，再次整合到當前的處理過程中。

這樣就能很好地應對“愛忘事”的問題了。更妙的是，盡管引入了反饋機制來維持長期的工作記憶，但FAM的設計旨在保持與預訓練模型的兼容性，不需要額外的權重。所以理論上說，大模型的強大記憶力，沒有使其變得遲鈍或者消耗更多的算力資源。

那么，這么妙的TransformerFAM是如何被探索出來的？相關技術又是啥？

一、從挑戰中來，TransformerFAM為何能幫助大模型“記住更多”？

滑動窗口注意力（Sliding Window Attention, SWA）這個概念，對TransformerFAM的設計至關重要。

在傳統的Transformer模型中，自注意力（Self-Attention）的復雜度隨著序列長度的增加而呈二次方增長，這限制了模型處理長序列的能力。

“在電影《記憶碎片》（2000 年）中，主角患有順行性遺忘癥，這意味著他無法記住過去 10 分鐘發生的事情，但他的長期記憶是完好的，他不得不將重要信息紋在身上以記住它們。這與當前大型語言模型（LLMs）的狀態類似，”論文中這樣寫道。

《記憶碎片》電影截圖，圖片源于網絡

滑動窗口注意力（Sliding Window Attention），它是一種改進的注意力機制，用于處理長序列數據。它受到了計算機科學中滑動窗口技術（sliding window technique）的啟發。在處理自然語言處理（NLP）任務時，SWA允許模型在每個時間步驟上只關注輸入序列的一個固定大小的窗口，而不是整個序列。因此，SWA的優點在于它可以顯著減少計算量。

圖片