成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

10個小模型并聯跑贏GPT-4.1!無額外訓練,方法僅四步

人工智能 新聞
上海人工智能實驗室聯合東北大學、西北工業大學等機構,提出了Avengers框架,旨在探索開源小模型群體智能的新路徑。

近年來,語言模型技術迅速發展,然而代表性成果如Gemini 2.5Pro和GPT-4.1,逐漸被谷歌、OpenAI等科技巨頭所壟斷。

與此同時,開源社區的小規模模型正面臨日益嚴峻的挑戰——

他們參數規模通常僅在7B左右,難以在多任務、多領域場景中與大型閉源模型相抗衡,尚未形成真正意義上的通用人工智能能力。

在此背景下,上海人工智能實驗室聯合東北大學、西北工業大學等機構,提出了Avengers框架,旨在探索開源小模型群體智能的新路徑。

圖片

實驗表明,Avengers框架在15個涵蓋數學、代碼、邏輯、知識和情感任務的數據集上,平均得分超越了GPT-4.1(OpenAI 4月發布的旗艦模型),并在其中9個數據集上顯著更優。

圖片

△模型路由分布圖與部分任務性能對比

Avengers框架:構建小型語言模型的協同智能

圖片

Avengers框架的設計核心是簡潔、高效且無需額外訓練,通過四個輕量的步驟,集結多個小模型的優勢:

  1. Embedding:通過嵌入理解問題
    無論是系統準備階段用作學習的驗證問題,還是用戶實時提出的新問題,框架都會首先利用文本嵌入模型將這些問題“翻譯”成語義信息向量。
  2. Clustering:通過聚類構建“任務地圖”
    在系統準備階段,Avengers通過計算這些向量間的相似性,將問題劃分為不同的簇(cluster),其中每個簇都代表著一種具備相似性的問題,例如“數學計算區”、“代碼生成區”或“邏輯推理區”。
  3. Scoring:為每個模型建立“能力檔案”
    Avengers利用各個簇的代表性驗證問題(驗證集)去“考核”模型池中的每一個小模型,并記錄下它們在每個問題類別上的表現得分。
  4. Routing & Voting:通過動態路由與投票決策,實現人盡其才,擇優輸出

當一個新問題進入Avengers后,框架會實時進行處理:

首先,通過語義嵌入理解新問題。

然后,在“任務地圖”上迅速定位該問題所屬的簇。

接著,系統查閱各模型的“能力檔案”,動態選擇(路由)在該問題類別中表現最好的一個或多個“專家模型”來生成答案。

最后,通過投票機制(如Self-Consistency),從所有候選答案中選出一致性最高的作為最終輸出。

圖片

實驗驗證:Avengers框架的有效性與潛力

為了全面評估Avengers框架的性能,研究團隊選取了覆蓋數學推理(如AIME, Math500,LiveMathBench)、代碼生成(MBPP, HumanEval)、邏輯推理(如KORBench, BBH,Knights and Knaves)、知識問答(ARC Challenge, MMLUPro,GPQA,FinQA,MedQA)和情感分析(如EmoryNLP, MELD)等五個領域的15個公開數據集。

實驗中,Avengers框架集成了10個參數量在7B左右的開源小型語言模型。

此外,為了進行更加充分的對比,研究團隊還對基線方法進行了增強。

具體而言,對于路由方法(RouterDC, EmbedLLM, MODEL-SAT),統一使用gte-qwen2-7B-instruct作為文本嵌入模型,推理時統一使用Self-Consistency策略(采樣10次)。訓練路由時,研究人員人為選取了路由模型的測試集最高性能點作為訓練終止點。對于混合方法(MoA, Symbolic-MoE),研究團隊統一使用32K上下文的Qwen2.5-7B-Instruct作為聚合模型(aggregator)。為了避免模型過多帶來的上下文窗口過長問題,研究團隊還設計了MoA(Oracle)——推理時使用在當前任務最強的3個模型,而不是全部模型。

核心實驗結果表明

  • 整體性能優越
  • 在15個數據集中,Avengers框架在其中9個數據集上的表現超越了強大的專有模型GPT-4.1。
  • 特定領域優勢顯著
  • 數學任務上,Avengers的平均性能比GPT-4.1高出18.21%

  • 代碼任務上,Avengers的平均性能比GPT-4.1高出7.46%

  • 超越其他路由與集成方法

  • 與需要訓練的先進路由方法(如RouterDC, EmbedLLM, MODEL-SAT)相比,Avengers在無需額外訓練的情況下,平均性能最高,并且在分布外泛化(Out-of-Distribution Generalization)任務上表現出更強的魯棒性,在OOD測試中平均得分比EmbedLLM高出8.14%。

  • 與混合式方法(如Mixture-of-Agents)相比,Avengers更適應小模型上下文窗口有限和指令遵循能力相對較弱的特點,展現出更好的性能,相比于MoA(Oracle)方法平均得分高出17.16%。

這些結果清晰地證明,通過Avengers框架的有效組織和調度,多個小型模型的“集體智慧”能夠達到甚至在某些方面超越頂尖大型模型的水平,相比于混合式方法,性能優勢明顯,相比于路由方法,無需訓練且OOD性能優秀。

圖片圖片

要素解析:Avengers框架為何有效?

圖片圖片

通過細致的消融實驗,研究團隊探究各組成部分對整體性能的貢獻:

  1. 對嵌入模型和聚類算法的魯棒性:實驗表明,Avengers框架的性能對于所選用的具體嵌入模型(測試了從0.56B到7B參數不等的多種模型)和聚類算法(測試了K-Means、層次聚類、GMM等多種經典算法)并不敏感。這意味著Avengers具有良好的普適性和易用性,不強依賴于特定的組件。
  2. 模型數量與性能的權衡:研究發現,隨著集成的小模型數量增加,Avengers的整體性能也隨之提升。值得注意的是,僅需3個小模型,其性能便可與GPT-4.1持平(根據簇排名自動選擇)。當模型數量達到約10個時,性能趨于飽和,尤其在知識、代碼和情感等任務上展現出良好的互補效應。這說明Avengers能夠有效地利用模型的異質性,實現“1+1>2”的效果,而無需盲目堆砌模型數量。
  3. 集成策略的有效性:在多種輸出集成策略中,基于投票的策略被證明是一種簡單且高效的選擇,它通過對單個或多個模型進行重復采樣及投票,顯著提升了最終答案的質量和穩定性。
  4. 對超參數的低敏感度:以聚類數量K為例,實驗顯示在一個相當寬泛的K值范圍內(約14至140),Avengers均能保持穩定且優于GPT-4.1的性能。這降低了超參數調優的難度,增強了框架的實用性。

這些特性共同構成了Avengers框架的核心優勢:它是一個輕量級、適應性強、且對具體組件選擇和超參數調整不敏感的協同解決方案。

意義與展望:為開源AI生態注入新活力

Avengers框架的提出和驗證,對于當前的AI研究和開源社區具有多重意義:

  • 為小型模型開辟新路徑它證明了通過有效的協同策略,參數量相對較小、資源要求較低的開源模型也能夠在復雜任務上取得良好表現,為提升開源模型實用性提供了參考路徑。
  • 推動AI技術的普惠化作為一個無需訓練、易于實現的框架,Avengers簡化了高性能AI系統的構建流程,有助于更多開發者和研究人員開展相關實驗與應用探索。
  • 促進模型生態的多樣性通過發掘和利用不同模型的獨特優勢,Avengers展示了模型在特定任務中互補使用的潛力,有助于構建一個更加豐富和多元的AI模型生態。

未來工作將聚焦于以下幾個方面:

  1. 降低初始校準成本探索更高效的聚類和模型能力評估方法,以減少框架在引入新模型或新任務時的前置計算。
  2. 擴展應用范圍將Avengers框架應用于更廣泛的任務類型(如對話系統、多模態任務)和更多樣化的模型(包括更小規模的模型)。
  3. 動態適應與進化研究在線學習和動態調整機制,使Avengers框架能夠根據實時反饋和環境變化,持續優化其模型選擇和集成策略。

本文第一作者張逸群(東北大學博士三年級)和李昊(西北工業大學博士二年級)均為上海人工智能實驗室實習生。通訊作者為上海人工智能實驗室研究員胡舒悅和東北大學副教授馮時。團隊其他成員還有實驗室實習生王晨旭、陳林堯,以及實驗室研究員張喬生、葉鵬、徐甲、白磊、歐陽萬里等。

論文鏈接:https://arxiv.org/abs/2505.19797

代碼鏈接:https://github.com/ZhangYiqun018/Avengers

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-06 00:22:00

2021-07-26 09:35:26

SQL數據庫優化

2025-05-15 11:54:11

GPT-4.1PlusAPI

2025-04-24 08:29:59

OpenAIGPT-4.1人工智能

2025-06-03 08:49:00

2011-07-07 13:09:04

編程

2010-04-20 10:12:05

2010-11-19 15:44:04

IT跳槽

2017-04-17 12:31:45

SDN網絡虛擬化

2010-06-02 17:29:02

svnserve服務

2010-04-28 12:02:37

Forefront網絡優化

2010-06-12 13:49:16

學習UML

2010-06-13 14:19:40

學習UML

2021-11-23 23:43:16

MySQL數據庫Docker

2010-09-06 11:58:39

ppp撥號Linux

2010-09-14 17:35:52

2025-04-16 09:30:16

2011-06-29 10:45:24

360優化

2025-04-14 09:00:00

模型AI數據

2025-06-26 15:16:42

AI獎勵模型GPT-4.1
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国外成人在线视频网站 | 精品国产乱码久久久久久闺蜜 | 日韩91在线| 日韩高清中文字幕 | 色综合av| 偷拍自拍网| 中文字幕亚洲精品 | 欲色av| 午夜影院中文字幕 | www.久久精品视频 | 中文字幕av一区二区三区 | 中文字幕不卡视频在线观看 | 久久精品影视 | 三级视频国产 | 国产视频第一页 | 日韩成人免费av | 中文字字幕一区二区三区四区五区 | 亚洲国产一区二区三区, | 日本免费一区二区三区视频 | 在线观看免费av网站 | 久久一区二区三区电影 | 精久久久 | 亚洲国产一区二区视频 | 可以免费看的毛片 | 国精产品一区一区三区免费完 | 午夜婷婷激情 | 亚洲一区二区三区免费视频 | 一区不卡在线观看 | 成人精品一区二区三区 | 欧美三级成人理伦 | 久草网站| 亚洲成人福利视频 | 欧美日韩精品一区 | 一区二区三区四区在线视频 | 天天人人精品 | 国产日韩精品视频 | 国产精品3区 | 亚洲一区免费 | 亚洲成人一区二区三区 | 国产精久久久久久久 | www.一区二区三区 |