Transformer霸權終結?谷歌DeepMind推出顛覆性架構:推理2倍速、參數減半 原創
?
在人工智能領域,大型語言模型(LLMs)的“大而笨”問題一直備受詬病。盡管模型參數規模不斷膨脹,但處理長文本時的性能衰減、計算資源浪費等問題始終難以解決。不過,谷歌DeepMind最新推出的MoR架構,或許為這一難題提供了破局之道。
?
剛剛,谷歌 DeepMind 推出了名為 Mixture-of-Recursions(MoR)的全新大型語言模型(LLM)架構,被認為是有潛力成為“Transformer殺手”的革命性架構。
?
?
傳統模型的困境
?
一直以來,Transformer 架構都是大語言模型的 “頂梁柱”,但隨著研究的深入,其局限性也逐漸顯露。
?
例如,當我們向AI模型輸入一篇長文時,經常會出現一個問題:它前半部分還能準確回答問題,后半部分卻開始“胡言亂語”。而這并非偶然,近期研究揭示,現有大模型在處理長文本時存在顯著的性能衰減,不同模型“失智”的節點各不相同——有的模型在讀到第10頁書時就出現性能驟降,有的則能堅持到第100頁。
?
這種性能衰減的根源在于傳統Transformer架構的固有缺陷。Transformer通過堆疊層數來提升模型能力,但這種方式導致計算資源被均勻分配,無論token的復雜程度如何。簡單token(如連詞、助詞)和復雜token(如專業術語、長句)被一視同仁地處理,造成大量冗余計算。同時,長文本下的KV緩存(鍵值緩存)機制占用巨額內存,進一步限制了模型效率。
?
為了解決這些難題,研究者們在兩個方向上積極探索:一是通過權重共享提升參數效率,二是根據輸入復雜度動態分配計算資源,實現自適應計算。
?
MoR 架構的出現,正是將這兩種思路巧妙融合,為大語言模型的發展開辟了新路徑。
?
MoR架構:動態分配資源的“智能調度員”
?
MoR 框架引入了一種統一方法,同時實現參數共享和自適應計算。它將動態 token 級路由集成到參數高效的遞歸 Transformer 中,創造出一種協同架構,有望實現 “無需承擔大模型成本的大模型質量”。
?
?
簡單來說,MoR 就像是一個聰明的管家,能夠精準地判斷每個任務(token)需要多少資源(計算資源),然后合理分配,既不浪費,又能把事情辦好。
?
在技術實現上,MoR 通過端到端訓練輕量級的路由,為每個 token 分配專屬的遞歸深度。它會根據每個 token 所需的思考深度,決定共享參數模塊對其重復應用的次數,從而將計算資源精準地投放到最需要的地方。
?
這種基于 token 的動態遞歸機制,還天然支持遞歸級的鍵值(KV)緩存,能夠根據每個 token 所分配的遞歸深度,有選擇地存儲和檢索對應的鍵值對,大大降低了內存帶寬壓力,無需后處理操作就能提升推理吞吐量。
?
總的來說,MoR 在一個統一架構中同時實現了三項重要優化。分是參數共享、計算路由和遞歸級緩存。
?
為了驗證 MoR 架構的優勢,研究團隊進行了一系列實驗。在等效的訓練預算(16.5×101?FLOPs)下,將 MoR 模型與原始 Transformer 及遞歸 Transformer 進行比較。
?
結果顯示,采用專家選擇路由和兩層遞歸(N_r = 2)的 MoR 模型,實現了更低的驗證損失,并在少樣本學習的平均準確率上超越基線(43.1% 對比 42.3%)。盡管 MoR 的參數量減少了近 50%,性能卻更優,這充分證明了其計算效率之高。
?
?
當然,MoR 架構也在不斷探索和優化中。研究人員評估了不同路由與緩存策略對其性能的影響。例如,采用 “token 選擇路由” 時準確率較低(40.0%),而 “專家選擇路由” 表現更好(42.6%),表明路由粒度對模型性能具有關鍵影響。
?
此外,采用 KV 緩存共享雖略微降低了性能,但顯著提升了內存效率,在對內存占用有要求的部署場景中,這種性能與資源之間的權衡是可以接受的。
?
總體而言,MoR 在所有模型規模和計算預算下都穩定優于遞歸基線模型。在參數量超過 360M 時,MoR 不僅能夠追平,而且在低至中等預算下常常超越原始 Transformer。
?
MoR 架構的出現,無疑為大語言模型的發展注入了新的活力。它有望在未來大幅提升模型效率,降低訓練和部署成本,讓大語言模型在更多領域得以應用和普及。
?
