成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Transformer霸權終結?谷歌DeepMind推出顛覆性架構:推理2倍速、參數減半 原創

發布于 2025-7-17 17:45
瀏覽
0收藏

?

在人工智能領域,大型語言模型(LLMs)的“大而笨”問題一直備受詬病。盡管模型參數規模不斷膨脹,但處理長文本時的性能衰減、計算資源浪費等問題始終難以解決。不過,谷歌DeepMind最新推出的MoR架構,或許為這一難題提供了破局之道。

?

剛剛,谷歌 DeepMind 推出了名為 Mixture-of-Recursions(MoR)的全新大型語言模型(LLM)架構,被認為是有潛力成為“Transformer殺手”的革命性架構。

?

Transformer霸權終結?谷歌DeepMind推出顛覆性架構:推理2倍速、參數減半-AI.x社區
?

傳統模型的困境

?

一直以來,Transformer 架構都是大語言模型的 “頂梁柱”,但隨著研究的深入,其局限性也逐漸顯露。

?

例如,當我們向AI模型輸入一篇長文時,經常會出現一個問題:它前半部分還能準確回答問題,后半部分卻開始“胡言亂語”。而這并非偶然,近期研究揭示,現有大模型在處理長文本時存在顯著的性能衰減,不同模型“失智”的節點各不相同——有的模型在讀到第10頁書時就出現性能驟降,有的則能堅持到第100頁。

?

這種性能衰減的根源在于傳統Transformer架構的固有缺陷。Transformer通過堆疊層數來提升模型能力,但這種方式導致計算資源被均勻分配,無論token的復雜程度如何。簡單token(如連詞、助詞)和復雜token(如專業術語、長句)被一視同仁地處理,造成大量冗余計算。同時,長文本下的KV緩存(鍵值緩存)機制占用巨額內存,進一步限制了模型效率。
?

為了解決這些難題,研究者們在兩個方向上積極探索:一是通過權重共享提升參數效率,二是根據輸入復雜度動態分配計算資源,實現自適應計算。

?

MoR 架構的出現,正是將這兩種思路巧妙融合,為大語言模型的發展開辟了新路徑。
?

MoR架構:動態分配資源的“智能調度員”

?

MoR 框架引入了一種統一方法,同時實現參數共享和自適應計算。它將動態 token 級路由集成到參數高效的遞歸 Transformer 中,創造出一種協同架構,有望實現 “無需承擔大模型成本的大模型質量”。

?

Transformer霸權終結?谷歌DeepMind推出顛覆性架構:推理2倍速、參數減半-AI.x社區
?
簡單來說,MoR 就像是一個聰明的管家,能夠精準地判斷每個任務(token)需要多少資源(計算資源),然后合理分配,既不浪費,又能把事情辦好。

?
在技術實現上,MoR 通過端到端訓練輕量級的路由,為每個 token 分配專屬的遞歸深度。它會根據每個 token 所需的思考深度,決定共享參數模塊對其重復應用的次數,從而將計算資源精準地投放到最需要的地方。

?

這種基于 token 的動態遞歸機制,還天然支持遞歸級的鍵值(KV)緩存,能夠根據每個 token 所分配的遞歸深度,有選擇地存儲和檢索對應的鍵值對,大大降低了內存帶寬壓力,無需后處理操作就能提升推理吞吐量。
?

總的來說,MoR 在一個統一架構中同時實現了三項重要優化。分是參數共享、計算路由和遞歸級緩存。
?

為了驗證 MoR 架構的優勢,研究團隊進行了一系列實驗。在等效的訓練預算(16.5×101?FLOPs)下,將 MoR 模型與原始 Transformer 及遞歸 Transformer 進行比較。

?

結果顯示,采用專家選擇路由和兩層遞歸(N_r = 2)的 MoR 模型,實現了更低的驗證損失,并在少樣本學習的平均準確率上超越基線(43.1% 對比 42.3%)。盡管 MoR 的參數量減少了近 50%,性能卻更優,這充分證明了其計算效率之高。

?
Transformer霸權終結?谷歌DeepMind推出顛覆性架構:推理2倍速、參數減半-AI.x社區
?

當然,MoR 架構也在不斷探索和優化中。研究人員評估了不同路由與緩存策略對其性能的影響。例如,采用 “token 選擇路由” 時準確率較低(40.0%),而 “專家選擇路由” 表現更好(42.6%),表明路由粒度對模型性能具有關鍵影響。
?

此外,采用 KV 緩存共享雖略微降低了性能,但顯著提升了內存效率,在對內存占用有要求的部署場景中,這種性能與資源之間的權衡是可以接受的。
?

總體而言,MoR 在所有模型規模和計算預算下都穩定優于遞歸基線模型。在參數量超過 360M 時,MoR 不僅能夠追平,而且在低至中等預算下常常超越原始 Transformer。
?

MoR 架構的出現,無疑為大語言模型的發展注入了新的活力。它有望在未來大幅提升模型效率,降低訓練和部署成本,讓大語言模型在更多領域得以應用和普及。

?

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-7-17 17:46:36修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲成av人片在线观看无码 | 免费h在线 | 97精品超碰一区二区三区 | 欧美日韩国产一区二区三区 | 一区二区在线免费播放 | av手机在线免费观看 | 99精品国产在热久久 | 欧美一级在线 | 欧美色人| 亚洲天天干 | 午夜欧美a级理论片915影院 | 成人综合一区二区 | 国产一区二区在线视频 | 色又黄又爽网站www久久 | 美女在线观看av | 狠狠躁18三区二区一区 | 日韩色在线 | 精品久久国产 | 一区中文字幕 | 毛片免费看的 | 国产99热在线 | 第一区在线观看免费国语入口 | 久久久久久久电影 | 色综合av | 国产精品一区二区在线播放 | 国产精品成人一区二区 | 中文精品久久 | 亚洲精品一二三 | 人人人人干 | 欧美最猛黑人 | 日韩成人在线播放 | 成人av在线播放 | 成人一区二 | 国产不卡一 | 99久久精品国产毛片 | 亚洲欧美日韩高清 | 欧美一区二区激情三区 | 亚洲国产精品久久久久久 | 国产乱码一区 | 成人综合久久 | 日韩在线观看网站 |