成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里通義發(fā)布并行計算新策略:1.6B等效4.4B,內存消耗驟降95%

人工智能 新聞
阿里通義團隊提出的新范式受CFG(無分類器引導)雙路徑推理機制的啟發(fā)。

既能提升模型能力,又不顯著增加內存和時間成本,LLM第三種Scaling Law被提出了。

對于1.6B模型,能實現(xiàn)性能接近4.4B模型,內存占用僅為后者的1/22,延遲增加量為1/6

并且可直接應用于現(xiàn)有模型(如Qwen-2.5),無需從頭訓練。

這就是阿里通義團隊提出的PARSCALE

圖片

目前LLMs的優(yōu)化主要有兩種思路:參數(shù)擴展(如GPT-4)和推理時間擴展(如DeepSeek-R1),但會增加內存和時間成本。

阿里通義團隊提出的新范式受CFG(無分類器引導)雙路徑推理機制的啟發(fā)。

他們將CFG的并行思想從 “生成階段的推理優(yōu)化” 擴展為 “訓練和推理全流程的「計算縮放」”。

讓我們來扒一扒技術細節(jié)。

將CFG的并行思想擴展到計算縮放

PARSCALE對于CFG雙路徑的靈感遷移

CFG 通過同時運行有條件生成(輸入提示詞)和無條件生成(不輸入提示詞)兩條路徑,再通過加權平均融合結果,提升生成質量(如文本相關性、圖像細節(jié)精準度)。

其核心在于利用并行計算(兩次前向傳播)增強模型決策的多樣性和準確性,而無需增加模型參數(shù)

研究人員觀察到CFG的有效性可能源于計算量的增加(兩次前向傳播),而非單純的條件引導。

由此提出假設:并行計算的規(guī)模(如路徑數(shù)量)可能是提升模型能力的關鍵因素,而非僅依賴參數(shù)規(guī)模或推理時間的串行擴展(如生成更多token)。

CFG用2條并行路徑提升性能,PARSCALE則將路徑數(shù)量擴展為P條(如P=8),并通過可學習的輸入變換和動態(tài)聚合,使并行計算成為一種可擴展的 “計算縮放” 范式。下圖展示了PARSCALE方法。

圖片

PARSCALE改進的并行計算框架

1、輸入層:可學習的多路徑輸入變換

核心改進是將CFG的固定雙路徑擴展為P條可學習的并行路徑,每條路徑通過可訓練的前綴嵌入生成差異化輸入。

  • 前綴嵌入生成:為每個并行路徑引入可訓練的前綴向量(維度與輸入嵌入一致),拼接在原始輸入前,形成路徑專屬輸入。
  • KV緩存區(qū)分:在Transformer的注意力層中,不同路徑的鍵(K)和值(V)緩存相互獨立,確保各路徑的計算互不打擾,增強輸出多樣性。

2、計算層:并行前向傳播

  • 并行執(zhí)行:將P個差異化輸入同時輸入模型,利用GPU的并行計算能力,一次性完成P路前向傳播,生成P個輸出流。
  • 效率優(yōu)勢:通過批量矩陣運算實現(xiàn)P路并行,計算效率隨P線性增長,共享模型主體參數(shù),僅增加前綴嵌入等少量可訓練參數(shù)。

3、輸出層:動態(tài)加權聚合

通過多層感知機(MLP)動態(tài)計算各路徑輸出的聚合權重,替代 CFG 的固定權重機制:若某路徑輸出與當前輸入語義匹配度高,MLP 會為其分配更高權重。

PARSCALE更高效

PARSCALE vs. 參數(shù)擴展

當P=8時,1.6B參數(shù)模型在HumanEval的性能(Pass@1=39.1%)接近4.4B參數(shù)模型(Pass@1=45.4%),但內存占用僅為后者的1/22,延遲增加量為1/6。

圖片

在GSM8K數(shù)學推理任務中,P=8使1.8B模型性能提升34%(相對基準),顯著高于參數(shù)擴展的增益。

圖片

兩階段訓練策略

階段1:用傳統(tǒng)方法預訓練模型至收斂(1Ttokens)。

階段2:凍結主體參數(shù),僅訓練前綴嵌入和聚合權重(20Btokens,占總數(shù)據(jù)的 2%)。

P=8模型在GSM8K上提升34%,且與從頭訓練效果相當,證明少量數(shù)據(jù)即可激活并行路徑的有效性。且該策略使訓練成本降低約 98%

圖片

適配現(xiàn)有模型

研究團隊在Qwen-2.5-3B模型上進行持續(xù)預訓練參數(shù)高效微調(PEFT),僅調整前綴和聚合權重。

結果顯示,在代碼生成任務(HumanEval+)中PEFT 方法使Pass@1提升15%,且凍結主體參數(shù)時仍有效,證明動態(tài)調整 P 的可行性。

圖片

PARSCALE通過可學習的多路徑輸入、動態(tài)聚合權重、全流程并行優(yōu)化,將CFG的 “雙路徑啟發(fā)” 升級為一種通用的計算縮放范式。

感興趣的朋友可到官方查看更多細節(jié)~

論文鏈接:https://arxiv.org/abs/2505.10475

代碼地址:https://github.com/QwenLM/ParScale

參考鏈接:https://x.com/iScienceLuvr/status/1923262107845525660

責任編輯:張燕妮 來源: 量子位
相關推薦

2012-08-17 09:32:52

Python

2010-03-22 14:45:40

云計算

2012-02-01 10:29:13

2018-10-19 11:07:02

主流緩存更新

2025-04-24 09:21:00

2021-06-01 05:51:37

云計算并行計算分布式計算

2011-04-21 09:13:14

并行計算

2019-07-29 12:53:23

2023-04-20 17:41:38

開源清華

2011-04-20 17:15:21

并行計算

2009-12-18 09:38:27

.NET 4.0并行計

2010-03-19 17:23:45

云計算

2014-04-24 10:25:15

2019-04-18 09:15:05

DaskPython計算

2014-01-21 11:16:59

MPI并行計算

2024-10-17 18:52:41

2011-08-29 10:40:02

浪潮英特爾并行計算

2010-03-11 15:23:44

Visual Stud

2010-04-21 09:23:09

.NET 4

2010-06-10 08:37:04

并行計算
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产欧美 | 成人免费福利视频 | 欧美日韩国产一区二区三区 | 精品国产一区二区三区久久久久久 | 夜夜爽99久久国产综合精品女不卡 | h在线免费观看 | 999热精品 | 99久久久久久久久 | 日韩精品亚洲专区在线观看 | 欧美日韩在线免费观看 | 国产一级免费在线观看 | 欧美一区二 | 97精品超碰一区二区三区 | 亚洲社区在线 | 欧美综合在线观看 | 91精品国产高清久久久久久久久 | 欧美日韩在线一区二区三区 | 91最新入口 | 日本久久网 | 亚洲国产精品一区二区三区 | 超碰超碰| 久久99精品久久 | 亚洲午夜精品 | 午夜精品久久久久久久久久久久 | 中文字幕一区二区视频 | 日韩视频一区二区三区 | 亚洲国产精品成人无久久精品 | www.欧美| 伊人免费网 | 午夜精品久久久久久久久久久久久 | 精品免费国产视频 | 免费观看一级毛片 | 国产午夜av片| 久久久久久久av | 97高清国语自产拍 | www.夜夜骑 | 中文字幕一区二区三区日韩精品 | 欧美综合在线视频 | 免费毛片网 | 亚洲欧美一区二区三区1000 | 97伦理最新伦理 |