成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

真·MoE?路由LLM最全面探索:一種筆記本也能玩的大模型Scaling Up研究

人工智能 新聞
來自中山大學和普渡大學的研究人員在基于上述海量的記錄做了一番探索之后,發現了一個現象,叫做Model-level Scaling Up。

事關路由LLM(Routing LLM),一項截至目前最全面的研究,來了——

共計收集和整理了涉及8500+個LLM,在12個Benchmark上的共2億條性能記錄!

圖片

先來簡單科普一下路由LLM。

這種方法主要是把像ChatGPT、Qwen、DeepSeek這些成型的LLM當作 “專家” ,當給一個輸入的時候,有分類能力的Router(路由器)就會把這個輸入分配給合適的LLM處理。

如此一來,就能實現高性能、低計算消耗、低幻覺等目標。

而來自中山大學普渡大學的研究人員在基于上述海量的記錄做了一番探索之后,發現了一個現象,叫做Model-level Scaling Up

一言蔽之,就是一個好的Router,可以讓路由LLM范式的性能隨著LLM候選數量的增加迅速變強。

隨后,他們通過這些數據構建了針對Router設計的評測RouterEval。

值得注意的是,其他研究人員,也可以通過RouterEval在很少的計算資源下(如筆記本、單卡GPU上)就能參與到該路由LLM的研究當中。

2億條記錄中發現的新現象

當大多數研究人員和開發者第一次聽到Mixture-of-Expert (MoE) 的時候,可能第一反應不是現在常見的對結構中的FFN層進行擴展,以FFN層作為”expert”。

而是直接將每一個成型的LLM,比如ChatGPT、Qwen、DeepSeek等直接看做是”expert”。

實際上,這種范式也稱為路由LLM(Routing LLMs)。

圖片

簡單地說,就是給定一個輸入input,一個具有一定分類能力的Router (路由器)會將input分配給指定的LLM進行處理,以達到高性能、低計算消耗或者是低幻覺等各種各樣的目標,或組合目標。

這類問題可以被認為是分類問題、推薦系統問題、Agent規劃甚至是檢索問題(注意,不是檢索數據for LLM,而是檢索LLM for 數據)。

一些典型的例子有:

  1. 人機客服切換:機器人客服無法解決問題的時候自動切換到更高級的客服,比如更智能的機器人,甚至人類;
  2. 強弱LLM切換:比如困難問題給GPT4解決(費用貴),簡單問題給GPT3解決(費用低)
圖片
△路由LLM (Routing LLMs)示意圖

路由LLM具有很高的應用潛力和兼容性,不同LLM都可以被添加到LLM候選Pool中參與routing(包括異構LLM,各種tuning/pretraining方法下得到的LLM,等等),而且可以發揮很強的性能。

比如最近UCB提出的Prompt-to-Leaderboard以很低的訓練成本,以路由LLM的范式下實現和需要數十萬個GPU訓練得到的Grok3相當的性能,并登上Arena排行榜第一。

然而當前路由LLM領域仍然存在一些挑戰影響了Router的發展:

  1. 缺乏統一的benchmark。各個研究都在小范圍的構建各種的benchmark進行研究;
  2. 當前benchmark不夠全面:當前的工作一般只涉及少量的LLM、evaluations,而且大多數是閉源不公開。

于是,研究團隊收集并整理且開源了涉及8567個不同LLMs在12個evaluations下2億條性能記錄,并通過這些記錄發現:

  1. Model-level Scaling Up現象:有一定能力的Router,可以使得routing llm范式下的性能隨著llm pool的擴大而迅速上升。過去的研究由于涉及的不同LLM較少,不容易觀察到這個現象。
  2. 通過這些數據,我們構建了全面的針對Router設計的評測RouterEval。其全面性可以大大幫助Router設計的探索。鑒于該測評已經整理良好且很簡潔,可以被看做是傳統的分類問題,所有研究者都可以以很少的計算消耗(甚至單卡或筆記本電腦)參與該大模型的研究當中。
圖片
△Model-level Scaling Up現象示意圖

利用2億條性能記錄,可以構建完美Router,即oracle Router ro

圖片

接著,根據上式可以構建不同性能的Router ro(p),其中wm為隨機Router,當p→1時,Router ro(p)越解決上界分類性能,當p→0時,ro(p)越接近隨機Router。

從上圖結果來看,隨著LLM候選的數量增加,不同的evaluation在具有一定能力的Router下呈現了Scaling Up現象。

而性能一般的Router,比如隨機Router則幾乎沒有Scaling Up現象。

且快速超過參考模型Ref. LLM的性能(參考模型一般是GPT4)。

另外團隊還可以發現兩個有趣的現象:

圖片

RouterEval涉及的LLM的參數分布

  1. 弱LLM也能組合出非常強的性能。上圖給出了RouterEval中涉及的LLM的參數分布,LLM的參數為7B或以下的情況占優。文章發現,即使較弱的LLM也可以組合出不錯的性能,比如5個性能在少于0.3的情況下,ro可以讓他們互補優勢在MMLU上達到0.95(超越GPT4)的性能。
  2. 少量的LLM候選已經足夠。從Model-level Scaling Up現象示意圖可以看到3-10個LLM候選的時候已經可以達到非常不錯的性能。而且此時的部署成本并不高,具有很高的性價比。

當前Router的結果

通過測試當前的已有的Routers的性能,可以發現現在Router仍然有很大的提升空間。

不過幸運的是,RouterEval進行的Router設計的實驗不需要大量的計算資源,且可以融入不同的已有技術,包括few-show learning,數據增強、推薦系統、正則化方法、預訓練模型、額外數據等等.

因此Router將有希望快速得到實質性改進。

圖片

以及,和當前一些其他范式的區別和關系如下:

圖片

  1. 推薦系統:Routing LLM其實是特殊的推薦系統,LLM的input是推薦系統中的user信息,LLM候選是推薦系統中的商品item,而性能記錄則是推薦系統中的歷史用戶書記記錄;
  2. LLM集成:一般LLM集成是post-decision,即讓多個LLM完成推理后再合并。而Routing LLM是pre-decision,即在LLM推理前就要決定是哪個LLM來處理;
  3. LLM Fusion:LLM融合主要針對是同質的LLM的“合作”,而Routing LLM可以讓“異質”(包括不開源)的LLM進行“合作”
  4. Mixture-of-Experts (MoE): Routing LLM是model-level的MoE

當然,研究團隊也提出一些未來的挑戰。

首先就是缺乏數據。

要獲得足夠好的Router,當然的數據仍然遠遠不夠,因為這些性能記錄的數據一般不開源,且掌握在大公司手中,這需要全社區的共同努力。目前也可以通過算法一定程度緩解數據缺乏的問題。

其次是如何保持在多LLM候選情況下的Router性能的問題。

當LLM候選越多的時候,意味著Router要進行更多類的分類,這對于Router的訓練來說具有很高的挑戰性;

除此之外,還包括RouterEval目前只關注在性能

盡管routing llm可以考慮計算消耗、幻覺等其他目標。但是目前性能的水平還遠遠不夠,如果現在就過度關注其他目標的話,可能言辭尚早。另外,計算消耗和幻覺等目標的數據不容易搜集,可能采集不到足夠多的LLM的記錄數據,仍然需要全社區的努力。

最后,就是部署的難度。

即使足夠強的Router可以獲得,但是此時LLM候選的部署可能是新的瓶頸,這在計算機系統等領域中也有很多的研究角度,如計算負載,高效分配、動態模型激活等。幸運的是,從論文的觀察來看,3-10個LLM已經能得到出色的結果。

GitHub和論文等地址放下面了,感興趣的小伙伴可以深入研究一下哦~

代碼地址:https://github.com/MilkThink-Lab/RouterEval

論文地址:https://arxiv.org/abs/2503.10657

論文合集:https://github.com/MilkThink-Lab/Awesome-Routing-LLMs

責任編輯:張燕妮 來源: 量子位
相關推薦

2012-05-18 11:40:40

神舟筆記本

2025-05-22 04:00:00

PARSCALE大型語言模型LLM

2011-04-29 10:05:57

主板硬盤

2024-09-02 14:30:00

數據訓練

2025-02-21 13:20:00

2024-08-27 00:00:01

AI應用框架

2011-10-26 09:49:38

平板筆記本銷量

2024-04-10 09:29:16

LLM開源大模型

2012-04-13 11:24:46

蘋果筆記本

2011-08-03 16:30:25

2024-01-18 15:38:17

語言模型大型語言模型

2024-05-06 07:58:23

MoE模型系統

2024-02-06 10:38:10

昆侖萬維大模型

2012-10-24 18:11:40

聯想IdeaPad Yog

2023-10-06 20:30:33

大模型LLMtoken

2017-08-08 11:15:29

筆記本Titan XpQuadro

2009-03-27 09:19:11

微軟Windows 7操作系統

2023-07-24 15:20:05

機器學習集成學習

2020-09-01 14:09:39

筆記本SSD存儲
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成年人在线播放 | 亚洲风情在线观看 | 午夜视频网站 | 视频一区在线观看 | 91精品久久久久久久久久 | 成人精品一区 | 久久久精 | 欧美日韩在线免费 | 成人免费看黄网站在线观看 | 亚洲国产精品精华素 | 成人免费影院 | 男人天堂手机在线视频 | 国产一区二区三区久久久久久久久 | 日韩一二三区视频 | 国产欧美一区二区三区在线播放 | 久久伊人久久 | 精品久久亚洲 | 亚洲精品视频一区 | 亚洲一区国产精品 | 久久精品一区 | 91久久综合亚洲鲁鲁五月天 | 美女艹b| 欧美一二三 | 欧美一级在线 | 欧美精品久久一区 | 日韩精品一区二区三区视频播放 | www.日本三级 | 爱爱视频日本 | 中文字幕av一区二区三区 | 国产色 | 少妇无套高潮一二三区 | 视频一区二区三区中文字幕 | 成人亚洲片 | 免费观看一级特黄欧美大片 | 在线免费看毛片 | 全免费a级毛片免费看视频免 | 99re热这里只有精品视频 | av在线一区二区三区 | 欧美电影在线 | 亚洲国产伊人 | 日韩欧美一区二区三区免费看 |